Konsep Agglomerative Hierarchical Clustering

BAB II LANDASAN TEORI

2.2. Pengertian Clustering

2.2.3. Konsep Agglomerative Hierarchical Clustering

Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete-linkage, Average-linkage.. Seperti juga Gambar 2. 2 Pengelompokan cluster dendrogram dan kedekatan data (Tan,Steinbach,dkk 2004)

halnya dengan partition-based clustering, bisa juga memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini, dapat menggunakan lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.Berikut adalah langkah dalam pengelompokan dengan agglomerative clutering :

1) Hitung matrix jarak,jika diperlukan 2) Ulangi langkah 3 dan 4,

3) Gabungkan 2 cluster terdekat

4) Kemudian perbarui matrix jarak antara 2 cluster terdekat pada langkah 3 kemudian bentuk cluster baru

5) Sampai hanya tersisa sati cluster(Tan,Steinbach,dkk 2004)

Untuk perhitungan jarak Single-linkage, Complete-linkage dan Average-linkageseprti pada rumus berikut :

a. Single-linkage merupakan merupakan jarak minimum antara setiap data terdekat. Metode ini akan mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu, dapat didefinisikan sebagai berikut :

d(i,j)k = min(dik, djk)

(2.3)

Keterangan : - Jarak terkecil antar kelompok (I,j) dengan k

b. Complete-linkage merupakan merupakan jarak maximum antara setiap data terdekat, Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu, dapat didefinisikan sebagai berikut :

d(i,j)k = Max(dik, djk)

(2.4) Keterangan :

- Jarak terbesar antar kelompok (I,j) dengan k

c. Average-linkage merupakan merupakan rata-rata jarak antara setiap data terdekat. Metode ini mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata-rata-rata semua jarak objek terlebih dahulu. dapat didefinisikan sebagai berikut :

d(i,j)k = Average(dik, djk)

(2.5) Keterangan :

- Jarak rata-rata antar kelompok (I,j) dengan k

Pada sistem ini menggunakan Single-linkage,Complete-linkage dan

Avarage-Linkage ,dibawah ini adalah contoh data yang belum dihitung jarak

kedekatanya . Dalam penelitian ini menghitung jarak kedekatan dengan Euclidean

distance

(2.6) Keterangan :

- n adalah jumlah atribut atau dimensi

- Pk dan Qk adalah data yang akan dihitung jaraknya

Tabel 2. 2 Contoh data

Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak yaitu memnghitung nilai dari jarak A sampai E dan matriks ini bersifat simetris

Dalam penghitungan jarak kemiripan akan dilakukan 3 cara menghitung kemiripan :

a. Jarak minimum (SingleLinkage)

Pada Single-linkage kemiripan data dicari dari nilai jarak yang paling minimum yaitu 11.1803 pada titik 1,4

Nama Berat1 Berat2

1 50 20

2 35 10

3 30 20

4 45 30

5 10 50

Tabel 2. 3 Hasil Euclidean disteance dari contoh data

Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster (14) ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :

Min {2,1 dan 2,4} = 18,0278 Min {3,1 dan 3,4} = 18,0278 Min {5,1 dan 5,4} = 40.3113

Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).

kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(2)(3) dan (5) didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster (23) dengan

cluster yang tersisa adalah (14) dan 5 .dengan jarak :

Min {(14),2 dan (14),3} = 18,0278 Min {5,2 dan 5,3} = 36.0555

Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).

Tabel 2. 5 Hasil pencarian jarak terdekat single iterasi 1

ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(23) dan (5) didapatkan cluster (14) dan (23) memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster (1423) dengan cluster yang tersisa adalah 5 .dengan jarak :

Min {(1423),5 dan (1423),5} = 36.0555

Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).

Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :

Tabel 2. 8 Pencarian jarak terdekat single iterasi 3

Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2

dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa

cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster

1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.

b. Jarak Maximum (CompleteLinkage)

Max {2,1 dan 2,4} = 22.3607 Max {3,1 dan 3,4} = 20

Gambar 2. 4 Hasil dendrogram untuk cluster single-linkage

17 Max {5,1 dan 5,4} = 50

Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).

cluster yang tersisa adalah (14) dan 5 .dengan jarak :

Max {(14),2 dan (14),3} = 22.3607 Max {5,2 dan 5,3} = 471699

Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).

Tabel 2. 11 Hasil pencarian jarak terdekat complete iterasi 1

Tabel 2. 12 Pencarian jarak terdekat complete iterasi 2

Max {(1423),5 dan (1423),5} = 50

Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).

Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :

Tabel 2. 14 Hasil pencarian jarak terdekat complete iterasi 3

Tabel 2. 15 Hasil cluster complete-linkage

Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2

dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa

cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster

1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.

c. Jarak Rata-Rata (AverageLinkage)

Average {2,1 dan 2,4} = 20,1942 Average {3,1 dan 3,4} = 19,0139 Average {5,1 dan 5,4} = 45.5155

Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).

Tabel 2. 16 Pencarian jarak terdekat average iterasi 1

cluster yang tersisa adalah (14) dan 5 .dengan jarak :

Average {(14),2 dan (14),3} = 19,604 Average {5,2 dan 5,3} = 41.6127

Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).

Average {(1423),5 dan (1423),5} = 43.384

Tabel 2. 18 Pencarian jarak terdekat average iterasi 2

Tabel 2. 19 Hasil pencarian jarak terdekat average iterasi 2

Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).

Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :

Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2

dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa

cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster

1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.

Tabel 2. 21 Hasil cluster average-linkage

Dalam dokumen Pengelompokan peran pemain dota 2 dalam pertandingan profesional dengan metode Agglomerative Hierarchical Clustering. (Halaman 29-41)