Agglomerative Hierarchical Clustering - Analisis sentimen pada Twitter menggunakan pendekatan a

Agglomerative Hierarchical Clustering merupakan metode pengelompokkan berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,2014). Proses tersebut diulang terus sehingga tampak bergerak ke atas membentuk hierarki.

Kunci operasi metode Agglomerative Hierarchical Clustering adalah penggunaan ukuran kedekatan diantara dua cluster (Hartini,2012). Ada tiga teknik yang dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan Average Linkage.

Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari jarak terdekat (terkecil) di antara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain) . Dengan menggunakan single linkage jarak antara dua cluster didefinisikan sebagai berikut :

, = �� ∈ , ∈ {� , } (2.10)

Keterangan :

Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak terjauh (terbesar) diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode complete lingkage jarak antara dua cluster didefinisikan sebagai berikut :

, = � ∈ , ∈ {� , } (2.11)

Keterangan :

{� , } : jarak antara data x dan y dari masing – masing Cluster A dan B.

Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata- rata diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode average lingkage jarak antara dua cluster didefinisikan sebagai berikut :

, = ∑ ∈ ∑ ∈ �{ , } (2.12)

Keterangan :

� : banyaknya data dalam cluster A

� : banyaknya data dalam cluster B

Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui jarak antar cluster. Masing – masing perhitungan dapat menghasilkan dendrogram.

Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster. Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat keseluruhan cluster.

Sebagai contoh, diketahui data seperti pada tabel dibawah ini Tabel 2. 4 Contoh Data

Data X Y

2 1

B 1 2

C 3 4

D 4 2

Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut :

, = √ | − | + | − | = , = √ | − | + | − | = . , = √ | − | + | − | = . , = √ | − | + | − | = . , = √ | − | + | − | =3 , = √ | − | + | − | = .

Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti tabel berikut.

Tabel 2. 5 Similarity Matriks A b C d A 0 1 3.16 2.236 B 1 0 2.82 3 C 3.16 2.82 0 2.236 D 2.236 3 2.236 0

Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah ini dan menjadi matriks jarak:

Tabel 2. 6 Matriks Jarak

A B C D A 0 1 3.16 2.236 B 0 2.82 3 C 0 2.236 D 0 1. Single linkage

Dari tabel 2.6 dapat dilihat bahwa jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada (c,d) dan berada paling dekat dengan cluster(ab). Untuk pencarian jarak ini pertama digunakan Single linkage.

= min{ , } = min{ . , . } = .

Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 7 Matriks Jarak pertama Single Linkage

Ab C d

Ab 0 2.82 2.236

C 0 2.236

D 0

Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan dua nilai terdekat yaitu abd dan cd dengan nilai 2.236. Maka dapat dipilih salah satu dari kedua nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak cluster cd dengan cluster ab.

= min{ , , , } = min{ . , . , . , } = .

Kemudian baris – baris dan kolom – kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 8 Matriks Jarak kedua Single Linkage ab cd

ab 0 2.236

cd 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC dengan Single linkage:

Gambar 2. 2 Dendrogram Single linkage 2. Complete Linkage

Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel 2.7),perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d.

= max{ , } = max{ . , . } = . = max{ , } = max{ . , } =

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak seperti berikut :

Tabel 2. 9 Matriks jarak pertama Complete Linkage

ab c d

ab 0 3.16 3

c 0 2.236

Berdasarkan tabel diatas dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd yang paling dekat yaitu 2.236. Kemudian dihitung jarak dengan cluster ab.

= max{ , , , } = max{ . , . , . , } = .

Tabel 2. 10 Matriks Jarak kedua Complete Linkage ab cd

ab 0 3.16

cd 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC dengan Complete Linkage:

3. Average Linkage

Menggunakan Average Linkage akan dicari jarak antara cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel matriks jarak (tabel 2.7), perhitungan Average Linkage ini dilakukan. Pada awal perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab dengan c dan d.

= average{ , } = average{ . , . } = . + . = .

= average{ , } = average{ . , } = . + = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 11 Matriks Jarak pertama Average Linkage

ab c d

ab 0 2.99 2.618

c 0 2.236

d 0

Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung jarak dengan cluster ab.

= average{ , , , } = average{ . , . , . , } = . + . + . +

= .

Tabel 2. 12 Matriks Jarak kedua Average Linkage ab cd

ab 0 2.804

cd 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC dengan Average Linkage:

Gambar 2. 4 Dendrogram average linkage

2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering

Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n obyek adalah sebagai berikut ( Tan, Steinbach dan Kumar,2006 ) :

1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan. 2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa

3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok

baru dan kelompok yang tersisa. 5. Selesai

2.5.2 FlowchartAgglomerative Hierarchical Clustering 1. Single Linkage

2. Complete Linkage

3. Average Linkage

Dalam dokumen Analisis sentimen pada Twitter menggunakan pendekatan agglomerative Hierarchical Clustering (Halaman 40-52)