• Tidak ada hasil yang ditemukan

Agglomerative Hierarchical Clustering merupakan metode pengelompokkan berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,2014). Proses tersebut diulang terus sehingga tampak bergerak ke atas membentuk hierarki.

Kunci operasi metode Agglomerative Hierarchical Clustering adalah penggunaan ukuran kedekatan diantara dua cluster (Hartini,2012). Ada tiga teknik yang dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan Average Linkage.

Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari jarak terdekat (terkecil) di antara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain) . Dengan menggunakan single linkage jarak antara dua cluster didefinisikan sebagai berikut :

𝑑(𝐴, 𝐵) = ⁡ 𝑀𝑖𝑛𝑥∈𝐴,𝑦∈𝐵{𝑆𝑥,𝑦} (2.10)

Keterangan :

{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.

Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak terjauh (terbesar) diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode complete lingkage jarak antara dua cluster didefinisikan sebagai berikut :

Keterangan :

{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.

Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata-rata diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode average lingkage jarak antara dua cluster didefinisikan sebagai berikut :

𝑑(𝐴, 𝐵) = ⁡ 1

𝑛𝐴𝑛𝐵𝑥∈𝐴𝑥∈𝐵𝑆{𝑥, 𝑦} (2.12)

Keterangan :

𝑛𝐴 : banyaknya data dalam cluster A ⁡𝑛𝐵 : banyaknya data dalam cluster B

Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui jarak antar cluster. Masing – masing perhitungan dapat menghasilkan dendrogram.

Gambar 2. 1 Dendrogram

Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster.

Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat keseluruhan cluster.

Sebagai contoh, diketahui data seperti pada tabel dibawah ini Tabel 2. 4 Contoh Data

Data X Y

A 2 1

B 1 2

C 3 4

D 4 2

Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut :

𝑑(𝑎, 𝑏) = √(|1 − 2|2 + |2 − 1|2) = 1 𝑑(𝑎, 𝑐) = √(|3 − 2|2+ |4 − 1|2) = 3.16 𝑑(𝑎, 𝑑) = √(|4 − 2|2+ |2 − 1|2) = 2.236 𝑑(𝑏, 𝑐) = √(|3 − 1|2+ |4 − 2|2) = 2.82 𝑑(𝑏, 𝑑) = √(|4 − 1|2+ |2 − 2|2) =3 𝑑(𝑐, 𝑑) = √(|4 − 3|2+ |2 − 4|2) = 2.236

Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti tabel berikut.

Tabel 2. 5 Similarity Matriks

A b C d

A 0 1 3.16 2.236

C 3.16 2.82 0 2.236 D 2.236 3 2.236 0

Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah ini dan menjadi matriks jarak:

Tabel 2. 6 Matriks Jarak

A B C D A 0 1 3.16 2.236 B 0 2.82 3 C 0 2.236 D 0 1. Single linkage

Dari tabel 2.6 jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada (c,d) dan berada paling dekat (jarak minimum) dengan cluster(ab). Untuk pencarian jarak ini pertama digunakan Single linkage.

𝑑(𝑎𝑏)𝑐 = min{𝑑𝑎𝑐, 𝑑𝑏𝑐} = min{⁡3.16⁡, 2.82} = 2.82 𝑑(𝑎𝑏)𝑑= min{𝑑𝑎𝑑, 𝑑𝑏𝑑} = min{2.236⁡, 3} = 2.236

Setelah mendapat cluster ab, baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom untuk cluster ab, matriks jarak menjadi seperti berikut :

Tabel 2. 7 Matriks Jarak pertama Single Linkage

Ab 0 2.82 2.236

C 0 2.236

D 0

Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster yaitu abd dan cd dengan nilai 2.236. Maka dapat dipilih salah satu dari kedua nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak cluster cd dengan cluster ab.

𝑑(𝑐𝑑)𝑎𝑏 = min{𝑑𝑐𝑎, 𝑑𝑐𝑏, ⁡𝑑𝑑𝑎⁡, 𝑑𝑑𝑏}⁡ = min{3.16, 2.82, 2.236⁡, 3} = 2.236

Setelah mendapatkan cluster cd, baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 8 Matriks Jarak kedua Single Linkage ab cd

ab 0 2.236

cd 0

Ketika jarak antar cluster tersisa satu maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung agar membentuk satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC dengan Single linkage:

Gambar 2. 2 Dendrogram Single linkage 2. Complete Linkage

Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel 2.7),perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d. 𝑑(𝑎𝑏)𝑐 = max{𝑑𝑎𝑐, 𝑑𝑏𝑐} = max{⁡3.16⁡, 2.82} = 3.26

𝑑(𝑎𝑏)𝑑= max{𝑑𝑎𝑑, 𝑑𝑏𝑑} = max{2.236⁡, 3} = 3

Setelah mendapatkan cluster ab,baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak seperti berikut :

Tabel 2. 9 Matriks jarak pertama Complete Linkage

ab c d

ab 0 3.16 3

c 0 2.236

Dari tabel diatas dipilih jarak terdekat antar cluster yaitu 2.236. Kemudian dihitung jarak dengan cluster ab.

𝑑(𝑐𝑑)𝑎𝑏 = max{𝑑𝑐𝑎, 𝑑𝑐𝑏, ⁡𝑑𝑑𝑎⁡, 𝑑𝑑𝑏}⁡ = max{3.16, 2.82, 2.236⁡, 3} = 3.16

Setelah mendapat cluster cd, baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 10 Matriks Jarak kedua Complete Linkage ab cd

ab 0 3.16

cd 0

Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC dengan Complete Linkage:

Gambar 2. 3 Dendrogram Complete Linkage

3. Average Linkage

Menggunakan Average Linkage akan dicari jarak antara cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel

matriks jarak (tabel 2.7), perhitungan Average Linkage ini dilakukan. Pada awal perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab dengan c dan d.

𝑑(𝑎𝑏)𝑐 = average{𝑑𝑎𝑐, 𝑑𝑏𝑐} = average{⁡3.16⁡, 2.82} =3.16+2.82

2 = 2.99 𝑑(𝑎𝑏)𝑑= average{𝑑𝑎𝑑, 𝑑𝑏𝑑} = average{2.236⁡, 3} =2.236+3

2 = 2.618

Setelah mendapatan cluster ab, baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 11 Matriks Jarak pertama Average Linkage

ab c d

ab 0 2.99 2.618

c 0 2.236

d 0

Dari matriks diatas, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung jarak dengan cluster ab.

𝑑(𝑐𝑑)𝑎𝑏 = average{𝑑𝑐𝑎, 𝑑𝑐𝑏, ⁡𝑑𝑑𝑎⁡, 𝑑𝑑𝑏}⁡ = average{3.16, 2.82, 2.236⁡, 3} =

3.16+2.82+2.236+3

4 = 2.804

Setelah mendapatan cluster cd, baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 12 Matriks Jarak kedua Average Linkage ab cd

ab 0 2.804

cd 0

Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC dengan Average Linkage:

Gambar 2. 4 Dendrogram average linkage

2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering

Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n obyek adalah sebagai berikut ( Tan, Steinbach dan Kumar,2006 ) :

1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan. 2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa

3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok

baru dan kelompok yang tersisa. 5. Selesai

2.5.2 Flowchart Agglomerative Hierarchical Clustering 1. Single Linkage

2. Complete Linkage

3. Average Linkage

Dokumen terkait