• Tidak ada hasil yang ditemukan

Agglomerative Hierarchical Clustering (AHC)

N/A
N/A
Protected

Academic year: 2018

Membagikan "Agglomerative Hierarchical Clustering (AHC)"

Copied!
27
0
0

Teks penuh

(1)

Pengenalan Pola

PTIIK - 2014

(2)

Course Contents

Agglomerative Hierarchical Clustering (AHC)

1

Studi Kasus

2

Latihan dan Diskusi

3

Progress Final Project

(3)

Hierarchical Clustering adalah metode analisis kelompok yang

berusaha untuk membangun sebuah hirarki kelompok data.

Strategi pengelompokannya umumnya ada 2 jenis yaitu

Agglomerative (Bottom-Up) dan Devisive (Top-Down). (Pada bagian

ini akan dibatasi hanya menggunakan konsep Agglomerative).

Algoritma Agglomerative Hierarchical Clustering :

1. Hitung Matrik Jarak antar data.

2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa.

3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan

yang ditentukan.

4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan

diantara kelompok baru dan kelompok yang masih tersisa.

5. Selesai.

(4)

 Membentuk Matrik Jarak, misal dengan Manhattan Distance :

atau menggunakan Euclidian Distance :

 Beberapa metode Pengelompokan Secara Hierarki Aglomeratif :

 Single Linkage (Jarak Terdekat)

 Complete Linkage (Jarak Terjauh)

 Average Linkage (Jarak Rata-Rata)

 

d

j

j j

man

x

y

x

y

D

1

,

D d

d

duv  min{ uv}, uv

D d

d

duv  max{ uv}, uv

D d

d average

duv  { uv}, uv

d

j

j

j

x

x

x

x

D

1

2

1 2

1 2

,

(5)

 Perhatikan dataset berikut :

Data Fitur x Fitur y

1 1 1 2 4 1 3 1 2 4 3 4 5 5 4

Kelompokkan dataset tersebut dengan menggunakan metode AHC (Single Linkage, Complete Linkage dan Average Linkage) menggunakan jarak

Manhattan !

(6)

 Menghitung Jarak Pada Semua Pasangan dua data :

 Hasil Matrik Jarak :

,

1 1 1 2 1

3 1 1 4 1 , 0 1 1 1 1 , 3 1 2 1 2 1 1 1                 

Data Data D Data Data D y x Data Data D man man j j j man

Dman 1 2 3 4 5

1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Data Fitur x Fitur y

1 1 1 2 4 1 3 1 2 4 3 4 5 5 4

,

1 5 1 4 4 3 7

5 3 2 4 1 3 1 , 5 1 4 1               Data Data D Data Data D man man

,

4 5 1 4 1 3 4

4 3 1 4 1 3 4 , 4 1 3 2 1 1 4 , 5 2 4 2 3 2                      Data Data D Data Data D Data Data D man man man

,

1 5 2 4 4 2 6

4 2 2 4 2 3 1 , 5 3 4 3               Data Data D Data Data D man man

Data4,Data5

 35  44 202
(7)

 Menggunakan Metode Single Linkage :

Dengan memperlakukan data sebagai kelompok, selanjutnya kita pilih jarak dua kelompok yang terkecil.

terpilih kelompok 1 dan 3, sehingga kedua kelompok ini

digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang

tersisa, yaitu 2, 4 dan 5.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

1 ) min( )

min(Dm and13

6 } 6 , 7 min{ }

, min{

4 } 4 , 5 min{ }

, min{

3 } 4 , 3 min{ }

, min{

35 15 5

) 13 (

34 14 4

) 13 (

32 12 2

) 13 (

 

 

 

d d d

d d d

d d d

(8)

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang tersisa, yaitu 2, 4 dan 5.

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang

bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

6 } 6 , 7 min{ }

, min{

4 } 4 , 5 min{ }

, min{

3 } 4 , 3 min{ }

, min{

35 15 5

) 13 (

34 14 4

) 13 (

32 12 2

) 13 (

 

 

 

d d d

d d d

d d d

Dman (13) 2 4 5 (13) 0 3 4 6

2 3 0 4 4

4 4 4 0 2

5 6 4 2 0

2 ) min( )

(9)

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang

tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

4 } 4 , 4 min{ }

, min{

4 } 6 , 7 , 4 , 5 min{ }

, , , min{

52 42 2

) 45 (

53 51 43 41 )

13 )( 45 (

 

 

d d d

d d d d d

Dman (13) 2 4 5 (13) 0 3 4 6

2 3 0 4 4

4 4 4 0 2

5 6 4 2 0

2 ) min( )

(10)

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

terpilih kelompok (13) dan 2, sehingga kedua kelompok ini digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok ((13) dan 2) dengan kelompok lain yang

tersisa, yaitu (45).

4 } 4 , 4 min{ }

, min{

4 } 6 , 7 , 4 , 5 min{ }

, , , min{

52 42 2

) 45 (

53 51 43 41 )

13 )( 45 (

 

 

d d d

d d d d d

Dman (13) 2 4 5 (13) 0 3 4 6

2 3 0 4 4

4 4 4 0 2

5 6 4 2 0

Dman (45) (13) 2 (45) 0 4 4

(13) 4 0 3

2 4 3 0

3 ) min(

)

(11)

 Menghitung jarak antar kelompok ((13) dan 2) dengan kelompok lain yang tersisa, yaitu (45).

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok

(13) dan 2, serta menambahkan baris dan kolom untuk kelompok (123)

 Jadi kelompok (132) dan (45) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13245) dengan jarak terdekat 4.

4 } 4 , 4 , 6 , 4 , 7 , 5 min{ }

, , , , ,

min{ 14 15 34 35 24 25

) 45 )( 132

(  d d d d d d  

d

Dman (13) 2 4 5 (13) 0 3 4 6

2 3 0 4 4

4 4 4 0 2

5 6 4 2 0

Dman (45) (13) 2 (45) 0 4 4

(13) 4 0 3

2 4 3 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (132) (45) (132) 0 4

(12)

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok (13) dan 2, serta menambahkan baris dan kolom untuk kelompok (132)

 Jadi kelompok (132) dan (45) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13245) dengan jarak terdekat 4. Berikut Dendogram Hasil Metode Single Linkage :

Dman (13) 2 4 5 (13) 0 3 4 6

2 3 0 4 4

4 4 4 0 2

5 6 4 2 0

Dman (45) (13) 2 (45) 0 4 4

(13) 4 0 3

2 4 3 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (132) (45) (132) 0 4

(45) 4 0

1 3 2 4 5 Data

J a r a k 1

(13)

 Menggunakan Metode Complete Linkage :

Dengan memperlakukan data sebagai kelompok, selanjutnya kita pilih jarak dua kelompok yang terkecil.

terpilih kelompok 1 dan 3, sehingga kedua kelompok ini

digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang

tersisa, yaitu 2, 4 dan 5.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

1 ) min( )

min(Dm and13

7 } 6 , 7 max{ }

, max{

5 } 4 , 5 max{ }

, max{

4 } 4 , 3 max{ }

, max{

35 15 5

) 13 (

34 14 4

) 13 (

32 12 2

) 13 (

 

 

 

d d d

d d d

d d d

(14)

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang tersisa, yaitu 2, 4 dan 5.

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang

bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

7 } 6 , 7 max{ }

, max{

5 } 4 , 5 max{ }

, max{

4 } 4 , 3 max{ }

, max{

35 15 5

) 13 (

34 14 4

) 13 (

32 12 2

) 13 (

 

 

 

d d d

d d d

d d d

Dman (13) 2 4 5 (13) 0 4 5 7

2 4 0 4 4

4 5 4 0 2

5 7 4 2 0

2 ) min( )

(15)

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang

tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

4 } 4 , 4 max{ }

, max{

7 } 6 , 7 , 4 , 5 max{ }

, , , max{

52 42 2

) 45 (

53 51 43 41 )

13 )( 45 (

 

 

d d d

d d d d d

Dman (13) 2 4 5 (13) 0 4 5 7

2 4 0 4 4

4 5 4 0 2

5 7 4 2 0

2 ) min( )

(16)

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

terpilih kelompok (45) dan 2, sehingga kedua kelompok ini digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok ((45) dan 2) dengan kelompok lain yang

tersisa, yaitu (13).

4 } 4 , 4 max{ }

, max{

7 } 6 , 7 , 4 , 5 max{ }

, , , max{

52 42 2

) 45 (

53 51 43 41 )

13 )( 45 (

 

 

d d d

d d d d d

Dman (13) 2 4 5 (13) 0 4 5 7

2 4 0 4 4

4 5 4 0 2

5 7 4 2 0

Dman (45) (13) 2 (45) 0 7 4

(13) 7 0 4

2 4 4 0

4 ) min(

)

(17)

 Menghitung jarak antar kelompok ((45) dan 2) dengan kelompok lain yang tersisa, yaitu (13).

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok

(45) dan 2, serta menambahkan baris dan kolom untuk kelompok (452)

 Jadi kelompok (452) dan (13) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13452) dengan jarak terdekat 7.

7 } 4 , 3 , 6 , 7 , 4 , 5 max{ }

, , , , ,

max{ 41 43 51 53 21 23

) 13 )( 452

(  d d d d d d  

d

Dman (13) 2 4 5 (13) 0 4 5 7

2 4 0 4 4

4 5 4 0 2

5 7 4 2 0

Dman (45) (13) 2 (45) 0 7 4

(13) 7 0 4

2 4 4 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (452) (13) (452) 0 7

(18)

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok (45) dan 2, serta menambahkan baris dan kolom untuk kelompok (452)

 Jadi kelompok (452) dan (13) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13452) dengan jarak terdekat 7. Berikut Dendogram Hasil Metode Complete Linkage :

Dman (13) 2 4 5 (13) 0 4 5 7

2 4 0 4 4

4 5 4 0 2

5 7 4 2 0

Dman (45) (13) 2 (45) 0 7 4

(13) 7 0 4

2 4 4 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (452) (13) (452) 0 7

(13) 7 0

1 3 4 5 2 Data

J a r a k 1

(19)

 Menggunakan Metode Average Linkage :

Dengan memperlakukan data sebagai kelompok, selanjutnya kita pilih jarak dua kelompok yang terkecil.

terpilih kelompok 1 dan 3, sehingga kedua kelompok ini

digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang

tersisa, yaitu 2, 4 dan 5.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

1 ) min( )

min(Dm and13

(20)

5 . 6 2 / ) 6 7 ( } 6 , 7 { } , { 5 . 4 2 / ) 4 5 ( } 4 , 5 { } , { 5 . 3 2 / ) 4 3 ( } 4 , 3 { } , { 35 15 5 ) 13 ( 34 14 4 ) 13 ( 32 12 2 ) 13 (                average d d average d average d d average d average d d average d

 Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang

tersisa, yaitu 2, 4 dan 5.

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang

bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (13) 2 4 5 (13) 0 3.5 4.5 6.5

2 3.5 0 4 4

4 4.5 4 0 2

5 6.5 4 2 0

2 ) min( )

(21)

 Dengan menghapus baris-baris dan kolom-kolom matrik jarak yang bersesuaian dengan kelompok 1 dan 3, serta menambahkan baris dan kolom untuk kelompok (13).

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang

tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

4 2 / ) 4 4 ( } 4 , 4 { } , { 25 . 5 4 / ) 6 7 4 5 ( } 6 , 7 , 4 , 5 { } , , , { 52 42 2 ) 45 ( 53 51 43 41 ) 13 )( 45 (             average d d average d average d d d d average d

Dman (13) 2 4 5 (13) 0 3.5 4.5 6.5

2 3.5 0 4 4

4 4.5 4 0 2

5 6.5 4 2 0

2 ) min( )

(22)

4 2 / ) 4 4 ( } 4 , 4 { } , { 25 . 5 4 / ) 6 7 4 5 ( } 6 , 7 , 4 , 5 { } , , , { 52 42 2 ) 45 ( 53 51 43 41 ) 13 )( 45 (             average d d average d average d d d d average d

 Menghitung jarak antar kelompok (4 dan 5) dengan kelompok lain yang

tersisa, yaitu (13) dan 2.

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok 4

dan 5, serta menambahkan baris dan kolom untuk kelompok (45)

 Selanjutnya dipilih jarak dua kelompok yang terkecil.

terpilih kelompok (13) dan 2, sehingga kedua kelompok ini digabungkan. (Melanjutkan pengelompokan).

 Menghitung jarak antar kelompok ((13) dan 2) dengan kelompok lain yang

tersisa, yaitu (45).

Dman (13) 2 4 5 (13) 0 3.5 4.5 6.5

2 3.5 0 4 4

4 4.5 4 0 2

5 6.5 4 2 0

Dman (45) (13) 2 (45) 0 5.25 4

(13) 5.25 0 3.5

2 4 3.5 0

5 . 3 ) min( )

(23)

 Menghitung jarak antar kelompok ((13) dan 2) dengan kelompok lain yang tersisa, yaitu (45).

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok

(45) dan 2, serta menambahkan baris dan kolom untuk kelompok (452)

 Jadi kelompok (132) dan (45) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13245) dengan jarak terdekat 5.

5 6 / ) 4 4 6 4 7 5 ( } 4 , 4 , 6 , 4 , 7 , 5 { }

, , , , ,

{ 14 15 34 35 24 25

) 45 )( 132

(  average d d d d d daverage       

d

Dman (13) 2 4 5 (13) 0 3.5 4.5 6.5

2 3.5 0 4 4

4 4.5 4 0 2

5 6.5 4 2 0

Dman (45) (13) 2 (45) 0 5.25 4

(13) 5.25 0 3.5

2 4 3.5 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (132) (45) (132) 0 5

(24)

 Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok (45) dan 2, serta menambahkan baris dan kolom untuk kelompok (452)

 Jadi kelompok (132) dan (45) digabung untuk menjadi kelompok tunggal

dari lima data, yaitu kelompok (13245) dengan jarak terdekat 5. Berikut Dendogram Hasil Metode Average Linkage :

Dman (13) 2 4 5 (13) 0 3.5 4.5 6.5

2 3.5 0 4 4

4 4.5 4 0 2

5 6.5 4 2 0

Dman (45) (13) 2 (45) 0 5.25 4

(13) 5.25 0 3.5

2 4 3.5 0

Dman 1 2 3 4 5 1 0 3 1 5 7

2 3 0 4 4 4

3 1 4 0 4 6

4 5 4 4 0 2

5 7 4 6 2 0

Dman (132) (45) (132) 0 5

(45) 5 0

1 3 2 4 5 Data

J a r a k 1

(25)

Single-Linkage

Complete-Linkage

Average-Linkage

1 3 2 4 5 Data

J a r a k 1

2 3 4

1 3 4 5 2 Data

J a r a k 1

2 4 7

1 3 2 4 5 Data

J a r a k 1

(26)

1. Perhatikan dataset 1 berikut :

2. Perhatikan dataset 2 berikut :

Data Fitur x Fitur y

1 1 1

2 4 1

3 6 1

4 1 2

5 2 3

6 5 3

7 2 5

8 3 5

9 2 6

10 3 8

Data Fitur x Fitur y

1 1 1 2 4 1 3 1 2 4 3 4 5 5 4

Kelompokkan dataset tersebut dengan menggunakan metode AHC (Single Linkage, Complete Linkage dan Average Linkage)

menggunakan jarak Euclidian dan Visualisasikan Dendogramnya !

Kelompokkan dataset tersebut dengan menggunakan metode AHC Average Linkage menggunakan jarak Euclidian dan Visualisasikan Dendogramnya !

(27)

Referensi

Dokumen terkait

• Pengaturan tabel di Microsot Word bisa berupa menghapus sel, kolom, atau baris, menyisipkan kolom dan baris baru, mengatur lebar kolom dan tinggi baris,.. • Pengaturan

Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik minimal 2

Ada empat pengujian yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium yang mendapatkan hasil 100 %, data gabungan gejala dan laboratorium dengan

Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik minimal 2

1) Normalisasi nilai setiap kolom matrik perbandingan berpasangan dengan membagi setiap nilai pada kolom matrik dengan hasil penjumlahan kolom yang bersesuaian.. Cek Ratio Konsistensi

Hierarchical clustering adalah salah satu algoritma clustering dengan karakteristik setiap data harus termasuk dalam cluster tertentu, dan data yang termasuk dalam cluster

Berdasarkan simpangan baku dalam kelompok hasil pengelompokkan dengan ketiga metode (pautan lengkap, pautan rata-rata, dan ward’s), metode ward’s memiliki simpangan

Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik minimal 2