BAB II LANDASAN TEORI
2.2. Pengertian Clustering
2.2.3. Konsep Agglomerative Hierarchical Clustering
Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete-linkage, Average-linkage.. Seperti juga Gambar 2. 2 Pengelompokan cluster dendrogram dan kedekatan data (Tan,Steinbach,dkk 2004)
11
halnya dengan partition-based clustering, bisa juga memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean distance. Berawal dari similarity matrix ini, dapat menggunakan lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.Berikut adalah langkah dalam pengelompokan dengan agglomerative clutering :
1) Hitung matrix jarak,jika diperlukan 2) Ulangi langkah 3 dan 4,
3) Gabungkan 2 cluster terdekat
4) Kemudian perbarui matrix jarak antara 2 cluster terdekat pada langkah 3 kemudian bentuk cluster baru
5) Sampai hanya tersisa sati cluster(Tan,Steinbach,dkk 2004)
Untuk perhitungan jarak Single-linkage, Complete-linkage dan Average-linkageseprti pada rumus berikut :
a. Single-linkage merupakan merupakan jarak minimum antara setiap data terdekat. Metode ini akan mengelompokkan dua objek yang mempunyai jarak terdekat terlebih dahulu, dapat didefinisikan sebagai berikut :
d(i,j)k = min(dik, djk)
12
(2.3)
Keterangan : - Jarak terkecil antar kelompok (I,j) dengan k
b. Complete-linkage merupakan merupakan jarak maximum antara setiap data terdekat, Metode ini akan mengelompokkan dua objek yang mempunyai jarak terjauh terlebih dahulu, dapat didefinisikan sebagai berikut :
d(i,j)k = Max(dik, djk)
(2.4) Keterangan :
- Jarak terbesar antar kelompok (I,j) dengan k
c. Average-linkage merupakan merupakan rata-rata jarak antara setiap data terdekat. Metode ini mengelompokkan objek berdasarkan jarak rata-rata yang didapat dengan melakukan rata-rata-rata-rata semua jarak objek terlebih dahulu. dapat didefinisikan sebagai berikut :
d(i,j)k = Average(dik, djk)
(2.5) Keterangan :
- Jarak rata-rata antar kelompok (I,j) dengan k
Pada sistem ini menggunakan Single-linkage,Complete-linkage dan
Avarage-Linkage ,dibawah ini adalah contoh data yang belum dihitung jarak
kedekatanya . Dalam penelitian ini menghitung jarak kedekatan dengan Euclidean
distance
13
(2.6) Keterangan :
- n adalah jumlah atribut atau dimensi
- Pk dan Qk adalah data yang akan dihitung jaraknya
Tabel 2. 2 Contoh data
Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak yaitu memnghitung nilai dari jarak A sampai E dan matriks ini bersifat simetris
Dalam penghitungan jarak kemiripan akan dilakukan 3 cara menghitung kemiripan :
a. Jarak minimum (SingleLinkage)
Pada Single-linkage kemiripan data dicari dari nilai jarak yang paling minimum yaitu 11.1803 pada titik 1,4
Nama Berat1 Berat2
1 50 20
2 35 10
3 30 20
4 45 30
5 10 50
Tabel 2. 3 Hasil Euclidean disteance dari contoh data
14
Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster (14) ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :
Min {2,1 dan 2,4} = 18,0278 Min {3,1 dan 3,4} = 18,0278 Min {5,1 dan 5,4} = 40.3113
Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).
kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(2)(3) dan (5) didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster (23) dengan
cluster yang tersisa adalah (14) dan 5 .dengan jarak :
Min {(14),2 dan (14),3} = 18,0278 Min {5,2 dan 5,3} = 36.0555
Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).
Tabel 2. 5 Hasil pencarian jarak terdekat single iterasi 1
15
ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(23) dan (5) didapatkan cluster (14) dan (23) memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster (1423) dengan cluster yang tersisa adalah 5 .dengan jarak :
Min {(1423),5 dan (1423),5} = 36.0555
Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Tabel 2. 8 Pencarian jarak terdekat single iterasi 3
16
Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2
dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa
cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster
1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.
b. Jarak Maximum (CompleteLinkage)
Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster (14) ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :
Max {2,1 dan 2,4} = 22.3607 Max {3,1 dan 3,4} = 20
Gambar 2. 4 Hasil dendrogram untuk cluster single-linkage
17 Max {5,1 dan 5,4} = 50
Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).
kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(2)(3) dan (5) didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster (23) dengan
cluster yang tersisa adalah (14) dan 5 .dengan jarak :
Max {(14),2 dan (14),3} = 22.3607 Max {5,2 dan 5,3} = 471699
Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).
Tabel 2. 11 Hasil pencarian jarak terdekat complete iterasi 1
Tabel 2. 12 Pencarian jarak terdekat complete iterasi 2
18
ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(23) dan (5) didapatkan cluster (14) dan (23) memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster (1423) dengan cluster yang tersisa adalah 5 .dengan jarak :
Max {(1423),5 dan (1423),5} = 50
Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Tabel 2. 14 Hasil pencarian jarak terdekat complete iterasi 3
Tabel 2. 15 Hasil cluster complete-linkage
19
Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2
dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa
cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster
1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.
c. Jarak Rata-Rata (AverageLinkage)
Pertama adalah mencari nilai minimum pada matrix kedekatan yang sudah dihitung menggunakan Euclidean distance ,yaitu 1 dan 4 memiliki nilai minimum kemudian kedua objek tersebut digabungkan menjadi cluster (14) ,dan objek lain yang tersisa adalah 2,3 dan 5 .dengan jarak :
Average {2,1 dan 2,4} = 20,1942 Average {3,1 dan 3,4} = 19,0139 Average {5,1 dan 5,4} = 45.5155
Setelah mendapatkan nilai minimalnya hapus objek 1 atau 4 untuk membentuk 1 cluster baru yaitu (14).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (14).
Tabel 2. 16 Pencarian jarak terdekat average iterasi 1
20
kedua mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(2)(3) dan (5) didapatkan cluster 2 dan 3 memiliki nilai minimum dengan nilai 11,1803,kemudian gabungkan menjadi cluster (23) dengan
cluster yang tersisa adalah (14) dan 5 .dengan jarak :
Average {(14),2 dan (14),3} = 19,604 Average {5,2 dan 5,3} = 41.6127
Setelah mendapatkan nilai minimalnya hapus objek 2 atau 3 untuk membentuk 1 cluster baru yaitu (23).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (23).
ketiga mencari nilai minimum pada matrix kedekatan antara cluster yang tersisa yaitu cluster (14)(23) dan (5) didapatkan cluster (14) dan (23) memiliki nilai minimum dengan nilai 18,0278,kemudian gabungkan menjadi cluster (1423) dengan cluster yang tersisa adalah 5 .dengan jarak :
Average {(1423),5 dan (1423),5} = 43.384
Tabel 2. 18 Pencarian jarak terdekat average iterasi 2
Tabel 2. 19 Hasil pencarian jarak terdekat average iterasi 2
21
Setelah mendapatkan nilai minimalnya hapus objek 14 atau 23 untuk membentuk 1 cluster baru yaitu (1423).maka akan menjadi table seperti di bawah dengan cluster baru yaitu (1423).
Setelah terbentuk menjadi 2 cluster kita dapat menggambarkan dendogramnya sebagai berikut :
Cluster 1 dan 4 adalah cluster yang terbentuk pertama , kemudian pada 2
dan 3 adalah pembentukan cluster ke 2 , kemudian pada pembentukan cluster ketiga cluster 14 dan 23 bergabung menjadi cluster 1423 , kemudian tersisa
cluster 5 yang otomatis menjadi cluster terakhir dan bergabung bersama cluster
1423 menjadi 1 cluster utuh yaitu 14235, untuk melihat pembagian cluster kita dapat melakukan cut-off pada dendogram.
Tabel 2. 21 Hasil cluster average-linkage