• Tidak ada hasil yang ditemukan

Jarak antar Cluster: Group Average - LMS-SPADA INDONESIA

N/A
N/A
Protected

Academic year: 2023

Membagikan "Jarak antar Cluster: Group Average - LMS-SPADA INDONESIA"

Copied!
39
0
0

Teks penuh

(1)

Departemen Teknik Informatika

(2)

Hierarchical Clustering

Disusun oleh : Nanik Suciati

(3)

Capaian Pembelajaran

Mahasiswa mampu menjelaskan algoritma clustering berbasis

hirarki agglomerative.

(4)

HIERARCHYCAL CLUSTERING

• Pengelompokan data yang menghasilkan serangkaian cluster bersarang dan

tersusun seperti pohon hirarki

• Dapat divisualisasikan

menggunakan dendogram

• Diagram berbentuk seperti pohon (tree) sehingga

dapat menyimpan urutan penggabungan atau

pemisahan cluster

1 2 3 4 5

Dendrogram Cluster bersarang

1 2

3

4 5

(5)

HIERARCHYCAL CLUSTERING

• Dua tipe hierarchical clustering

• Agglomerative:

• Mulai dari setiap titik (data) dianggap sebagai cluster

• Pada setiap tahap, dilakukan penggabungan sepasang cluster terdekat sampai tersisa satu cluster (atau sampai tersisa k cluster)

• Divisive:

• Mulai dari satu cluster, semua titik (data) menjadi anggota cluster tersebut

• Pada setiap tahap, dilakukan pemisahan (split) satu cluster menjadi dua, sampai setiap cluster hanya berisi satu data (atau sampai tersisa k cluster)

• Penggabungan atau pemisahan cluster dilakukan berdasarkan kemiripan (similarity) atau jarak (distance)

• Matriks kemiripan (proximity matrix) menyimpan nilai kemiripan antar cluster (kemiripan=0, objek sangat berbeda)

• Matriks jarak (distance matrix) menyimpan nilai jarak antar cluster (jarak=0, objek sangat mirip=sama)

(6)

Algoritma Clustering Agglomerative

• Algoritma

1. Setiap data adalah satu cluster, hitung matriks jarak Ulang

2. Gabung dua cluster paling dekat 3. Perbarui matriks jarak

Sampai tersisa hanya satu cluster

• Beberapa pendekatan untuk menghitung jarak antara dua cluster

Single link, complete link, group average, jarak centroid

• Pemilihan pendekatan perhitungan jarak menentukan hasil clustering

(7)

Ilustrasi Algoritma Clustering Agglomerative

 Terdapat 5 data, masing- masing berupa suatu wadah.

Jumlah balok Jumlah

silinder

1

2 3

4 5

 Data tersebut diplot ke dalam ruang 2 dimensi menggunakan nilai atribut jumlah balok dan jumlah silinder.

 2 data yang mirip  jaraknya dekat

0

d(2,1) 0

d(3,1) d(3,2) 0

d(4,1) d(4,2) d(4,3) 0

d(5,1) d(5,2) d(5,3) d(5,4) 0

 Disusun matriks jarak yang menyimpan jarak Euclidean antara setiap dua data

1 2 3 4 5

1 2

3

4

5

(8)

Ilustrasi Algoritma Clustering

Agglomerative

Jumlah balok Jumlah

silinder

1

2 3

4 5

0

d(2,1) 0

d(3,1) d(3,2) 0

d(4,1) d(4,2) d(4,3) 0

d(5,1) d(5,2) d(5,3) d(5,4) 0

1 2 3 4 5

1 2 3 4 5

( 2 , 1 ) = √ | 2.0 1.0 |

2

+ | 3 . 0 2.0 |

2

=1. 41

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

1 2 3 4 5

1 2 3 4 5

( 3 , 1 ) = √ | 2.0 1.0 |

2

+ | 4 . 0 2.0 |

2

= 2 . 24

( 3 , 2 ) = √ | 2 .0 2 .0 |

2

+ | 4 . 0 3 .0 |

2

=1 . 00

( 4 , 1 ) = √ | 3 .0 1.0 |

2

+ | 1 . 0 2.0 |

2

= 2 . 24

( 5 , 4 ) = √ | 3 .0 3 .0 |

2

+ | 2 . 0 1 .0 |

2

=1 . 00

. . .

 Terdapat 10 nilai jarak.

(9)

Ilustrasi Algoritma Clustering

Agglomerative

Bottom-Up (agglomerative):

1. Dimulai dengan menjadikan tiap objek sebagai satu

cluster.

2. Menentukan pasangan terdekat untuk digabung menjadi satu cluster.

Memperbarui matriks jarak.

3. Langkah 2 diulang sampai semua cluster tergabung menjadi satu.

Data 1 Data 2 Data 3 Data 4 Data 5

1

2 3

4 5

(10)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1

Perbarui matriks jarak. Data 2 Data 3

1

2 3

4 5

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

1 2 3 4 5

1 2 3 4 5

0

1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

1 2,3 4 5

1 2,3

4

5

(11)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

1

2 3

4 5

0

1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

1 2,3 4 5

1 2,3

4 5

0

1.41 0

2.24 1.41 0 1 2,3 4,5 1

2,3

4,5

(12)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2 Iterasi 3

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada.

1 2 3

4 5

0

1.41 0

2.24 1.41 0 1 2,3 4,5 1

2,3 4,5

0

1.41 0

Perbarui matriks jarak.

1,2,3 4,5 1,2,3

4,5

(13)

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 10 kemungkinan yang ada.

Iterasi 1 Iterasi 2 Iterasi 3

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 6 kemungkinan yang ada.

Perbarui matriks jarak.

Gabung satu pasangan cluster dengan nilai jarak terkecil dari 3 kemungkinan yang ada.

0

1.41 0 1,2,3 4,5 1,2,3

4,5

Perbarui matriks jarak.

1,2,3,4,5

1

2 3

4 5

(14)

Menghitung jarak antar cluster

 Pada iterasi 1 data 2 dan data 3 digabung.

 Perbarui matriks jarak.

d( , ) = ??

d( , ) = ??

d( , ) = ??

d( , ) = ??

d( , ) = ??

d( , ) = ??

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0

?? 0

2.24 ?? 0

2.00 ?? 1.00 0

(¿¿1)

¿

(¿ ¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

, )

(¿¿1)

¿

(¿¿4)

¿

(¿¿5)

¿

Matriks jarak

(15)

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0

?? 0

2.24 ?? 0

2.00 ?? 1.00 0

(¿¿1)

¿

(¿ ¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

, )

(¿¿1)

¿

(¿¿4)

¿

(¿¿5)

¿

=1.41

=2.24

=1.41

Menghitung jarak

antar cluster

(16)

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0

1.41 0

2.24 2.24 0

2.00 1.41 1.00 0

(¿¿1)

¿

(¿ ¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

, )

(¿¿1)

¿

(¿¿4)

¿

(¿¿5)

¿

Menghitung jarak antar cluster

 Pada iterasi 2 data 4 dan data 5 digabung.

 Perbarui matriks jarak.

0

1.41 0

?? ?? 0

,)

(¿¿1)

¿

,)

d((x1),(x4,x5))= ??

d((x1),(x4,x5))= ??

d((x2,x3),(x4,x5))= ??

d((x2,x3),(x4,x5))= ??

(17)

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

0

1.41 0

?? ?? 0

(¿¿1)

¿

(¿ ¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

, )

(¿¿1)

¿

=2.00

=1.41

, )

Menghitung jarak

antar cluster

(18)

0

1.41 0

2.24 1.00 0

2.24 2.24 3.16 0

2.00 1.41 2.24 1.00 0

(¿¿1)

¿

(¿ ¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

Menghitung jarak antar cluster

 Pada iterasi 3 data 1 dan data (2,3) digabung.

0

1.41 0

2.00 1.41 0

,)

(¿¿1)

¿

,)

0

1.41 0

, ) , )

Gabung

Selesai

(19)

Menghitung jarak antar cluster

MIN

MAX

Group Average

Jarak centroid

Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan kuadrat jarak

Jarak?

Kemiripan?

(20)

Menghitung jarak antar cluster

MIN

 MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

����� ( 1, 2 )=min ( ����� (

1

,

2

) )

(21)

Menghitung jarak antar cluster

 MIN

MAX

 Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

����� ( 1, 2 )=max ( ����� (

1

,

2

) )

(22)

Menghitung jarak antar cluster

 MIN

 MAX

Group Average

 Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

*

(23)

Menghitung jarak antar cluster

 MIN

 MAX

 Group Average

Jarak centroid

 Metode lain menggunakan fungsi objektif

– Metode Ward menggunakan jarak kuadrat

 

(24)

Jarak antar Cluster: MIN atau Single Link

• Jarak dua cluster diwakili oleh jarak terdekat antara dua titik pada cluster yang berbeda.

0

0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

(¿¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

(¿ ¿1)

¿

1 2 3 4 5

Dendrogram

Nested Clusters

(25)

Jarak antar Cluster : MIN atau Single Link

• Kekuatan Min atau Single Link

• Dapat mengelompokkan kumpulan data berbentuk non-elips dengan baik, jika jarak antar cluster tidak terlalu dekat.

Original Points

Two Clusters

Original Points Two Clusters

(26)

Jarak antar Cluster : MIN atau Single Link

• Kelemahan Min atau Single Link

• Tidak dapat memisahkan kumpulan data dengan baik jika terdapat noise dan outlier.

Original Points Two Clusters

(27)

Jarak antar Cluster: MAX atau Complete Link

• Jarak dua cluster diwakili oleh jarak terjauh antara dua titik pada cluster yang berbeda.

0

0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

(¿¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

(¿ ¿1)

¿

1 2 3 4 5

Dendrogram

Nested Clusters

(28)

Jarak antar Cluster : MAX atau Complete Link

• Kekuatan Max atau Complete Link

• Dapat memisahkan kumpulan data dengan baik meski terdapat noise dan outlier.

Original Points Two Clusters

(29)

Jarak antar Cluster : MAX atau Complete Link

• Kelemahan Max atau Complete Link

• Memiliki kecenderungan memecah cluster yang besar

Original Points Two Clusters

(30)

Jarak antar Cluster: Group Average

• Jarak dua cluster diwakili oleh rata-rata jarak antara titik-titik pada cluster yang berbeda.

• Tidak terlalu sensitif dengan noise dan outlier.

Dendrogram Nested Clusters

0

0.10 0

0.90 0.30 0

0.35 0.40 0.60 0

0.80 0.50 0.70 0.20 0

(¿¿2)

¿

(¿¿3)

¿

(¿¿4)

¿

(¿¿5)

¿

(¿ ¿1)

¿

1 2 3 4 5

(31)

Jarak antar Cluster : Metode Ward

• Jarak dua cluster didasarkan pada nilai jarak kuadrat ketika dua cluster digabung

• Mirip dengan group average hanya saja jarak antar titik adalah jarak kuadrat

• Tidak terlalu sensitif terhadap noise dan outlier

*

(32)

Clustering Hirarki: Perbandingan

Group Average

Ward’s Method

1 2

3 4 5

6 1 2

5

3 4 MIN

1 2

3 4 5

6 1 2

5

4 3

1 2

3 4 5

6 1

2 5

3 1 4

2

3 4 5

6 1 2

3

4

5

MAX

(33)

Fakta tentang hierarchical clustering

 Tidak perlu menentukan jumlah cluster di awal

 Menghasilkan dendogram yang dapat membantu memahami data

(34)

Validasi hasil clustering

 Kebutuhan validasi hasil clustering

 Evaluasi

 Mengevaluasi kualitas (seberapa baik) hasil clustering

 Stabilitas

 Mengetahui sensitivitas hasil clustering terhadap parameter algortima, misalnya jumlah cluster

 Tendensi

 Menilai kesesuaian hasil clustering, misalnya apakah data memiliki karakteristik pengelompokan

tertentu

(35)

Mengevaluasi kualitas hasil clustering

 Internal

 Menggunakan informasi internal, seberapa compact dan separated cluster-cluster yang dihasilkan

Silhouette coefficient

 Eksternal

 Membandingkan hasil clustering dengan label kelas eksternal yang tersedia (ground truth)

Entropy, purity, F-measure

 Relatif

 Membandingkan dua hasil clustering, misalnya yang didapat dari satu algoritma yang sama dengan nilai parameter (k, centroid awal) yang berbeda

SSE atau entropy

 Digunakan untuk menentukan hasil clustering optimal, misalnya dengan memvariasikan nilai parameter jumlah cluster

k, posisi awal centroid

(36)

Silhouette coefficient

Silhouette dapat memberikan representasi grafis yang ringkas tentang seberapa baik setiap objek telah dikelompokkan.

 Nilai silhouette adalah ukuran seberapa mirip suatu objek dengan clusternya sendiri (kohesi) dibandingkan dengan cluster lain.

 Nilai silhouette berkisar antara −1 hingga +1. Nilai 1 menyatakan hasil terbaik dimana suatu data sangat compact dengan data lain pada cluster yang sama dan jauh dari cluster-cluster lain.

 Silhouette dapat dihitung dengan rumus jarak apa pun, seperti jarak Euclidean atau jarak Manhattan.

 Jika sebagian besar objek memiliki nilai silhouette tinggi, maka hasil clustering sudah baik.

 Jika banyak objek memiliki nilai silhouette rendah atau negatif, maka hasil clustering masih kurang baik,

mungkin memiliki terlalu banyak atau terlalu sedikit jumlah cluster.

(37)

Silhouette coefficient

 Silhouette coefficient dari setiap data x dari hasil clustering dapat dihitung dengan :

dan

(38)

Silhouette

coefficient

(39)

- TERIMA KASIH -

Gambar

Ilustrasi Algoritma Clustering  Agglomerative
Ilustrasi Algoritma  Clustering
Ilustrasi Algoritma Clustering

Referensi

Dokumen terkait

Held, David, 1999,"The Transformation if political Community ", Rethinking Democracy, in Casiano H.cker, Democracy Edges ed, Cambridge university press.. Ashcroft, Bill, 1998, key