Jarak antar Cluster: Group Average

(1)

Departemen Teknik Informatika

(2)

Hierarchical Clustering

Disusun oleh : Nanik Suciati

(3)

Capaian Pembelajaran

Mahasiswa mampu menjelaskan algoritma clustering berbasis

hirarki agglomerative.

(4)

HIERARCHYCAL CLUSTERING

• Pengelompokan data yang menghasilkan serangkaian cluster bersarang dan

tersusun seperti pohon hirarki

• Dapat divisualisasikan

menggunakan dendogram

• Diagram berbentuk seperti pohon (tree) sehingga

dapat menyimpan urutan penggabungan atau

pemisahan cluster

1 2 3 4 5

Dendrogram Cluster bersarang

1 2

3

4 5

(5)

HIERARCHYCAL CLUSTERING

• Dua tipe hierarchical clustering

• Agglomerative:

• Mulai dari setiap titik (data) dianggap sebagai cluster

• Pada setiap tahap, dilakukan penggabungan sepasang cluster terdekat sampai tersisa satu cluster (atau sampai tersisa k cluster)

• Divisive:

• Mulai dari satu cluster, semua titik (data) menjadi anggota cluster tersebut

• Pada setiap tahap, dilakukan pemisahan (split) satu cluster menjadi dua, sampai setiap cluster hanya berisi satu data (atau sampai tersisa k cluster)

• Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau jarak (distance)

• Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek sangat berbeda)

• Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)

(6)

Algoritma Clustering Agglomerative

• Algoritma

1. Setiap data adalah satu cluster, hitung matriks jarak Ulang

2. Gabung dua cluster paling dekat 3. Perbarui matriks jarak

Sampai tersisa hanya satu cluster

• Beberapa pendekatan untuk menghitung jarak antara dua cluster

• Single link, complete link, group average, jarak centroid

• Pemilihan pendekatan perhitungan jarak menentukan hasil clustering

(7)

Ilustrasi Algoritma Clustering Agglomerative

 Terdapat 5 data, masing- masing berupa suatu wadah.

Jumlah balok Jumlah

silinder

1

2 3

4 5

 Data tersebut diplot ke dalam ruang 2 dimensi menggunakan nilai atribut jumlah balok dan jumlah silinder.

 2 data yang mirip  jaraknya dekat

0 d(2,1) 0

d(3,1) d(3,2) 0

d(4,1) d(4,2) d(4,3) 0

d(5,1) d(5,2) d(5,3) d(5,4) 0

 Disusun matriks jarak yang menyimpan jarak Euclidean antara setiap dua data

1 2 3 4 5

1 2

3

4

5

(8)

Ilustrasi Algoritma Clustering

Agglomerative

Jumlah balok Jumlah

silinder

¹

2 3

4 5

0

d(2,1) 0

d(3,1) d(3,2) 0

d(4,1) d(4,2) d(4,3) 0

d(5,1) d(5,2) d(5,3) d(5,4) 0

1 2 3 4 5

� ( 2 , 1 ) = √ ^| ^2.0 ⁻ ^1.0 ^|

²

⁺ ^| ³ ^. ⁰ ⁻ ^2.0 ^|

²

^{=1. 41}

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

1 2 3 4 5

� ( 3 , 1 ) = √ ^| ^2.0 ⁻ ^1.0 ^|

²

⁺ ^| ⁴ ^. ⁰ ⁻ ^2.0 ^|

²

⁼ ² ^. ²⁴

� ( 3 , 2 ) = √ ^| ^{2 .0} ⁻ ^{2 .0} ^|

²

⁺ ^| ⁴ ^. ⁰ ⁻ ^{3 .0} ^|

²

⁼¹ ^. ⁰⁰

� ( 4 , 1 ) = √ ^| ^{3 .0} ⁻ ^1.0 ^|

²

⁺ ^| ¹ ^. ⁰ ⁻ ^2.0 ^|

²

⁼ ² ^. ²⁴

� ( 5 , 4 ) = √ ^| ^{3 .0} ⁻ ^{3 .0} ^|

²

⁺ ^| ² ^. ⁰ ⁻ ^{1 .0} ^|

²

⁼¹ ^. ⁰⁰

. . .

 Terdapat 10 nilai jarak.

(9)

Ilustrasi Algoritma Clustering

Agglomerative

Bottom-Up (agglomerative):

1. Dimulai dengan menjadikan tiap objek sebagai satu

cluster.

2. Menentukan pasangan terdekat untuk digabung menjadi satu cluster.

Memperbarui matriks jarak.

3. Langkah 2 diulang sampai semua cluster tergabung menjadi satu.

Data 1 Data 2 Data 3 Data 4 Data 5

1

2 3

4 5

(10)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1

Perbarui matriks jarak. Data 2 Data 3

1

2 3

4 5

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

1 2 3 4 5

0 1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

1 2,3 4 5

1 2,3

4

5

(11)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

1

2 3

4 5

0 1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

1 2,3 4 5

1 2,3

4 5

0 1.41 0

2.24 1.41 0 1 2,3 4,5 1

2,3

4,5

(12)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2 Iterasi 3

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada.

1 2 3

4 5

0 1.41 0

2.24 1.41 0 1 2,3 4,5 1

2,3 4,5

0 1.41 0

Perbarui matriks jarak.

1,2,3 4,5 1,2,3

4,5

(13)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2 Iterasi 3

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada.

0 1.41 0 1,2,3 4,5 1,2,3

4,5

Perbarui matriks jarak.

1,2,3,4,5

1

2 3

4 5

(14)

Menghitung jarak antar cluster

 Pada iterasi 1 data 2 dan data 3 digabung.

 Perbarui matriks jarak.

d( , ) = ??

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0 ?? 0

2.24 ?? 0

2.00 ?? 1.00 0

� (¿¿1)

¿

� (¿ ¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

�

, )

(¿¿1)

¿

� (¿¿4)

¿

� (¿¿5)

¿

Matriks jarak

(15)

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0 ?? 0

2.24 ?? 0

2.00 ?? 1.00 0

� (¿¿1)

¿

� (¿ ¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

�

, )

(¿¿1)

¿

� (¿¿4)

¿

� (¿¿5)

¿

=1.41

=2.24

=1.41

Menghitung jarak

antar cluster

(16)

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0 1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

� (¿¿1)

¿

� (¿ ¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

�

, )

(¿¿1)

¿

� (¿¿4)

¿

� (¿¿5)

¿

Menghitung jarak antar cluster

 Pada iterasi 2 data 4 dan data 5 digabung.

 Perbarui matriks jarak.

0 1.41 0

?? ?? 0

�

,)

(¿¿1)

¿

,)

d((x1),(x4,x5))= ??

d((x2,x3),(x4,x5))= ??

(17)

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0 1.41 0

?? ?? 0

� (¿¿1)

¿

� (¿ ¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

, )

� (¿¿1)

¿

=2.00

=1.41

, )

Menghitung jarak

antar cluster

(18)

0 1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

� (¿¿1)

¿

� (¿ ¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

Menghitung jarak antar cluster

 Pada iterasi 3 data 1 dan data (2,3) digabung.

0 1.41 0

2.00 1.41 0

�

,)

(¿¿1)

¿

,)

0 1.41 0

, ) , )

Gabung

Selesai

(19)

Menghitung jarak antar cluster



MIN



MAX



Group Average



Jarak centroid



Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan kuadrat jarak

Jarak?

Kemiripan?

(20)

Menghitung jarak antar cluster

 MIN

 MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

�� ( � 1, � 2 )=min ( ^{��} ⁽ ^�

¹^�

^, ^�

² ^�

⁾ )

(21)

Menghitung jarak antar cluster

 MIN

 MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

�� ( � 1,� 2 )=max ( ^{��} ⁽ ^�

¹^�

^, ^�

² ^�

⁾ )

(22)

Menghitung jarak antar cluster

 MIN

 MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

*

(23)

Menghitung jarak antar cluster

 MIN

 MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

 

(24)

Jarak antar Cluster: MIN atau Single Link

• Jarak dua cluster diwakili oleh jarak terdekat antara dua titik pada cluster yang berbeda.

0 0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

� (¿¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

� (¿ ¿1)

¿

1 2 3 4 5

Dendrogram

Nested Clusters

(25)

Jarak antar Cluster : MIN atau Single Link

• Kekuatan Min atau Single Link

• Dapat mengelompokkan kumpulan data berbentuk non-elips dengan baik, jika jarak antar cluster tidak terlalu dekat.

Original Points

Two Clusters

Original Points Two Clusters

(26)

Jarak antar Cluster : MIN atau Single Link

• Kelemahan Min atau Single Link

• Tidak dapat memisahkan kumpulan data dengan baik jika terdapat noise dan outlier.

Original Points Two Clusters

(27)

Jarak antar Cluster: MAX atau Complete Link

• Jarak dua cluster diwakili oleh jarak terjauh antara dua titik pada cluster yang berbeda.

0 0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

� (¿¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

� (¿ ¿1)

¿

1 2 3 4 5

Dendrogram

Nested Clusters

(28)

Jarak antar Cluster : MAX atau Complete Link

• Kekuatan Max atau Complete Link

• Dapat memisahkan kumpulan data dengan baik meski terdapat noise dan outlier.

Original Points Two Clusters

(29)

Jarak antar Cluster : MAX atau Complete Link

• Kelemahan Max atau Complete Link

• Memiliki kecenderungan memecah cluster yang besar

Original Points Two Clusters

(30)

• Jarak dua cluster diwakili oleh rata-rata jarak antara titik-titik pada cluster yang berbeda.

• Tidak terlalu sensitif dengan noise dan outlier.

Dendrogram Nested Clusters

0 0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

� (¿¿2)

¿

� (¿¿3)

¿

� (¿¿4)

¿

� (¿¿5)

¿

� (¿ ¿1)

¿

1 2 3 4 5

(31)

Jarak antar Cluster : Metode Ward

• Jarak dua cluster didasarkan pada nilai jarak kuadrat ketika dua cluster digabung

• Mirip dengan group average hanya saja jarak antar titik adalah jarak kuadrat

• Tidak terlalu sensitif terhadap noise dan outlier

*

(32)

Clustering Hirarki: Perbandingan

Group Average

Ward’s Method

1 2

3 4 5

6 1 2

5 3 4 MIN

1 2

3 4 5

6 1 2

5 4 3

1 2

3 4 5

6 1

2 5

3 1 4

2 3 4 5

6 1 2

3

4

5 MAX

(33)

Fakta tentang hierarchical clustering

 Tidak perlu menentukan jumlah cluster di awal

 Menghasilkan dendogram yang dapat membantu memahami data

(34)

Validasi hasil clustering

 Kebutuhan validasi hasil clustering

 Evaluasi

 Mengevaluasi kualitas (seberapa baik) hasil clustering

 Stabilitas

 Mengetahui sensitivitas hasil clustering terhadap parameter algortima, misalnya jumlah cluster

 Tendensi

 Menilai kesesuaian hasil clustering, misalnya apakah data memiliki karakteristik pengelompokan

tertentu

(35)

Mengevaluasi kualitas hasil clustering

 Internal

 Menggunakan informasi internal, seberapa compact dan separated cluster-cluster yang dihasilkan

 Silhouette coefficient

 Eksternal

 Membandingkan hasil clustering dengan label kelas eksternal yang tersedia (ground truth)

 Entropy, purity, F-measure

 Relatif

 Membandingkan dua hasil clustering, misalnya yang didapat dari satu algoritma yang sama dengan nilai parameter (k, centroid awal) yang berbeda

 SSE atau entropy

 Digunakan untuk menentukan hasil clustering optimal, misalnya dengan memvariasikan nilai parameter jumlah cluster

k, posisi awal centroid

(36)

Silhouette coefficient

 Silhouette dapat memberikan representasi grafis yang ringkas tentang seberapa baik setiap objek telah dikelompokkan.

 Nilai silhouette adalah ukuran seberapa mirip suatu objek dengan clusternya sendiri (kohesi) dibandingkan dengan cluster lain.

 Nilai silhouette berkisar antara −1 hingga +1. Nilai 1 menyatakan hasil terbaik dimana suatu data sangat compact dengan data lain pada cluster yang sama dan jauh dari cluster-cluster lain.

 Silhouette dapat dihitung dengan rumus jarak apa pun, seperti jarak Euclidean atau jarak Manhattan.

 Jika sebagian besar objek memiliki nilai silhouette tinggi, maka hasil clustering sudah baik.

 Jika banyak objek memiliki nilai silhouette rendah atau negatif, maka hasil clustering masih kurang baik,

mungkin memiliki terlalu banyak atau terlalu sedikit jumlah cluster.

(37)

Jarak antar Cluster: Group Average - LMS-SPADA INDONESIA

Departemen Teknik Informatika

Hierarchical Clustering

Disusun oleh : Nanik Suciati

Capaian Pembelajaran

Mahasiswa mampu menjelaskan algoritma clustering berbasis

hirarki agglomerative.

HIERARCHYCAL CLUSTERING

• Pengelompokan data yang menghasilkan serangkaian cluster bersarang dan

tersusun seperti pohon hirarki

• Dapat divisualisasikan

menggunakan dendogram

• Diagram berbentuk seperti pohon (tree) sehingga

dapat menyimpan urutan penggabungan atau

pemisahan cluster

1 2 3 4 5

Dendrogram Cluster bersarang

HIERARCHYCAL CLUSTERING

• Dua tipe hierarchical clustering

• Agglomerative:

• Divisive:

• Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau jarak (distance)

• Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek sangat berbeda)

• Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)

Algoritma Clustering Agglomerative

• Algoritma

1. Setiap data adalah satu cluster, hitung matriks jarak Ulang

2. Gabung dua cluster paling dekat 3. Perbarui matriks jarak

Sampai tersisa hanya satu cluster

• Beberapa pendekatan untuk menghitung jarak antara dua cluster

• Single link, complete link, group average, jarak centroid

• Pemilihan pendekatan perhitungan jarak menentukan hasil clustering

Ilustrasi Algoritma Clustering Agglomerative

 Terdapat 5 data, masing- masing berupa suatu wadah.

Jumlah balok Jumlah

silinder

 Data tersebut diplot ke dalam ruang 2 dimensi menggunakan nilai atribut jumlah balok dan jumlah silinder.

 2 data yang mirip  jaraknya dekat

0

d(2,1) 0

d(3,1) d(3,2) 0

d(4,1) d(4,2) d(4,3) 0

d(5,1) d(5,2) d(5,3) d(5,4) 0

 Disusun matriks jarak yang menyimpan jarak Euclidean antara setiap dua data

1 2 3 4 5

1 2

3

4

5

Ilustrasi Algoritma Clustering

Agglomerative

Jumlah balok Jumlah

silinder

1 2 3 4 5

1 2 3 4 5

� ( 2 , 1 ) = √ | 2.0 − 1.0 |

+ | 3 . 0 − 2.0 |

=1. 41

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

1 2 3 4 5

1 2 3 4 5

� ( 3 , 1 ) = √ | 2.0 − 1.0 |

+ | 4 . 0 − 2.0 |

= 2 . 24

� ( 3 , 2 ) = √ | 2 .0 − 2 .0 |

+ | 4 . 0 − 3 .0 |

=1 . 00

� ( 4 , 1 ) = √ | 3 .0 − 1.0 |

+ | 1 . 0 − 2.0 |

= 2 . 24

� ( 5 , 4 ) = √ | 3 .0 − 3 .0 |

+ | 2 . 0 − 1 .0 |

=1 . 00

. . .

 Terdapat 10 nilai jarak.

Ilustrasi Algoritma Clustering

� ( 2 , 1 ) = √ ^| ^2.0 ⁻ ^1.0 ^|

⁺ ^| ³ ^. ⁰ ⁻ ^2.0 ^|

^{=1. 41}

� ( 3 , 1 ) = √ ^| ^2.0 ⁻ ^1.0 ^|

⁺ ^| ⁴ ^. ⁰ ⁻ ^2.0 ^|

⁼ ² ^. ²⁴

� ( 3 , 2 ) = √ ^| ^{2 .0} ⁻ ^{2 .0} ^|

⁺ ^| ⁴ ^. ⁰ ⁻ ^{3 .0} ^|

⁼¹ ^. ⁰⁰

� ( 4 , 1 ) = √ ^| ^{3 .0} ⁻ ^1.0 ^|

⁺ ^| ¹ ^. ⁰ ⁻ ^2.0 ^|

⁼ ² ^. ²⁴

� ( 5 , 4 ) = √ ^| ^{3 .0} ⁻ ^{3 .0} ^|

⁺ ^| ² ^. ⁰ ⁻ ^{1 .0} ^|

⁼¹ ^. ⁰⁰