Agglomerative Hierarchical Clustering

BAB II LANDASAN TEORI

2.3 Agglomerative Hierarchical Clustering

� = [ . _. ]

Sampai pada tahap ini telah ditemukan eigenvalue dan eigenvector. Selanjutnya dapat dilakukan feature vector. Pembentukan feature vector-nya adalah dengan mengambil diagonal utama dari � dengan urutan dari besar ke kecil (descending). Kemudian, nilai eigenvector disusun mengikuti indeks

eigenvalue yang telah di-sort secara descending. Hasilnya adalah feature vector,

yaitu [ .. ].

Pada tahap terakhir, berdasarkan feature vector yang telah didapat, diturunkan data set yang baru. Caranya adalah feature vector tersebut dikalikan dengan data matriks � (Tabel 2.3 Zero-mean untuk PCA).

� = � � � � (2.6)

Hasil data set yang baru adalah sebagai berikut:

Tabel 2.4 Data final untuk contoh PCA Data Z a 11.1786 b -2.1624 c -8.2344 d -5.0004 e 4.2186

2.3 Agglomerative Hierarchical Clustering

Seminari Menegah Mertoyudan adalah tempat penelitian ini. Dengan mengambil sisi scientia (pengetahuan) sebagai salah satu tekanan pembinaan di

seminari tersebut, tulisan ini dibuat. Data perolehan dari seminari menjadi sumber tulisan ini. Data yang diperoleh diolah terlebih dahulu supaya dapat dipergunakan dengan baik. Berkaitan dengan pengolahan data, di dalam data mining ada beberapa metode yang dapat digunakan. Satu di antara metode yang ada adalah clustering. Metode clustering ini yang akan digunakan dalam pengolahan data tersebut.

Clustering dapat dimengerti sebagai metode yang digunakan untuk

pengelompokan obyek yang sama menjadi satu kelompok (cluster), sedangkan obyek yang berbeda di cluster yang berbeda pula. Cluster bertujuan untuk menemukan kemiripan (similarity) antara data. Kemiripan yang dimaksud berkaitan dengan karakteristik yang ditemukan di dalam data tersebut. Dengan demikian akan terbentuk kelompok-kelompok data di mana masing-masing kelompok mengandung data yang memiliki kedekatan karakteristik.29

Dapat dikatakan ada dua jenis pendekatan dengan menggunakan clustering, yaitu partition clustering dan hierarchical clustering. Dengan menggunakan pendekatan partition clustering, pertama ditentukan lebih dulu jumlah cluster, kemudian data dipisahkan ke dalam cluster-cluster tersebut berdasarkan kemiripannya. Algoritma yang menggunakan pendekatan partition clustering contohnya adalah k-means.

Sejalan dengan partition clustering, hierarchical clustering juga membuat pengelompokkan data. Namun, sesuai dengan namanya, pendekatan hierarchical

clustering, pengelompokan data dibuat berdasarkan tingkatannya. Dengan cara ini

29 Jiawei Han, Micheline Kamber, “Data mining Concepts and Techniques”, Morgan Kaufmann, USA, 2011, hal. 20.

dapat dihasilkan suatu kumpulan partisi yang berurutan dengan visualisasi dendogram. Obyek dengan tingkat similarity atau kemiripan yang tinggi akan menjadi satu kelompok, begitu juga dengan data-data lain yang memiliki tingkat kemiripan tinggi akan dijadikan satu kelompok. Secara singkat dapat dikatakan bahwa metode hierarchical clustering bekerja untuk mengelompokkan obyek data ke dalam struktur cluster berdasarkan tingkat kemiripannya. Pengelompokan ini bertujuan untuk menentukan kemiripan antar data yang memiliki karakteristik yang serupa. Sehingga, dengan menggunakan hierarchical clustering data yang memiliki kemiripan berada pada hierarki yang sama, yang berbeda pada hierarki yang berbeda pula.

Metode hierarchical clustering terbagi dalam dua bagian, yaitu

agglomerative (bottom-up) dan divisive (top-down). Namun yang dipilih dalam

penelitian ini adalah pendekatan agglomerative hierarchical clustering. Pemilihan ini berdasarkan pada; pertama algoritma penggunaan hierarchical clustering tampaknya sederhana. Kedua, pengelompokan data dapat dilihat dengan menggunakan dendogram. Ketiga, penentuan jumlah cluster di awal tidak diperlukan. Selain itu, alasan yang terakhir adalah karena agglomerative

hierarchical clustering menggunakan desain bottom-up sehingga pengelompokkan

data dimulai dari yang kecil ke arah pengelompokan yang besar. Desain ini sangat membantu untuk proses pengenalan similaritas dan pengelompokan data.

Metode agglomerative hierarchical clustering (AHC) menggunakan strategi desain bottom-up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya menggabungkan atomic

cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu. Dengan pengertian lain,

agglomerative melakukan proses clustering dari n cluster menjadi satu kesatuan cluster. Dengan pengertian ini, setiap data pada awalnya dapat dianggap sebagai

sebuah cluster (atomic cluster). Ini berarti jika terdapat jumlah data sebanyak n, dan

k dianggap sebagai jumlah cluster, maka besarnya n = k. Pada langkah selanjutnya,

dihitung jarak antar cluster-nya.

Sebelum pembentukan sebuah cluster perlu dihitung jarak kemiripan antara obyek data. Ada beberapa cara untuk mengetahui kemiripan data. Satu di antara cara yang ada adalah similarity matrix dengan perhitungan euclidean distance.

Euclidean distance didevinisikan sebagai berikut:

, = √ | − | + | − | + | − | + … + | − |

(2.6) atau dapat disingkat dengan³⁰:

, = √∑ −

� =

(2.7) Keterangan:

 adalah jumlah atribut atau dimensi

 dan adalah data

Dalam hierarchical clustering ada beberapa metode untuk perhitungan jarak antar cluster, di antaranya adalah single linkage, average linkage, dan complete

linkage.³¹ Berikut ini adalah pendefinisian perhitungan jarak-jarak tersebut. 1. Single Linkage

Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum antar cluster. Dengan single linkage jarak antara dua cluster didefinisikan sebagai berikut:

, = min_{� , ∈} {� _, }

(2.8) Keterangan:

 {� , } adalah jarak antara data dan y dari masing-masing cluster A dan B.

2. Average Linkage

Untuk menghitung jarak rata-rata antar cluster digunakan teknik average

linkage. Teknik ini didefinisikan sebagai:

, = ∑ ∑ �{ , }

∈ ∈

(2.9) Keterangan:

 dan adalah banyaknya data dalam cluster A dan B. 3. Complete Linkage

31 Eko Prasetyo, “Data Mining: Pengolahan Data Menjadi Informasi Menggunakan Matlab”, Andi, Yogyakarta, 2014, hal. 246-247.

Dengan menggunakan teknik complete linkage akan diketahui jarak maksimum antar cluster, didefinisikan sebagai berikut:

, = max_{∈ , ∈} {� _, }

(2.10) Keterangan:

 {� , } adalah jarak antara data dan y dari masing-masing cluster A dan B. Dengan menggunakan formula perhitungan-perhitungan di atas akan diketahui jarak antar cluster. Jarak minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama pula. Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster selanjutnya. Masing-masing perhitungan dapat menghasilkan dendrogram. Pada penelitian ini yang akan digunakan adalah single

linkage. J a r a k 0 1 2 0,5 1,5 a b c e d f D a t a Gambar 2.2 Dendrogram

Dari penjelasan yang telah dipaparkan di atas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang

sudah ada dan membentuk cluster baru.Hal ini tetap memperhitungkan jarak kedekatan antar cluster. Proses akan berulang hingga akhirnya terbentuk satu

cluster yang memuat keseluruhan cluster.

a b c d e f a b c d e

Gambar 2.3 Cluster hasil AHC

Penggunaan algoritma agglomerative hierarchical clustering untuk mengelompokkan n obyek data adalah sebagai berikut32 :

1. Hitung matriks jarak antar data.

2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang tersisa.

3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.

4. Ubah matriks jarak antar data untuk merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa.

5. Selesai.

32 Pang-Ning Tan, Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”, Pearson Education. Inc., Boston, 2006, hal. 516.

Sebagai contoh, terdapat beberapa data seperti dapat dilihat pada tabel 2.6 di bawah ini. Data ini akan dibentuk dengan menggunakan AHC dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan perhitungan jarak cluster dengan single linkage, average linkage, dan complate linkage.

Tabel 2.5 Contoh data perhitungan AHC Data X Y a 1 1 b 4 1 c 1 2 d 3 4 e 5 4

Dengan menggunakan euclidean distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut:

, = √ | − | + | − | = , = √ | − | + | − | = , = √ | − | + | − | = , , = √ | − | + | − | = , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | = , , = √ | − | + | − | =

Berdasarkan perhitungan tersebut dapat dibentuk similarity matrix seperti seperti pada tabel 2.7. Berdasarkan perhitungan euclidean distance, similarity

matrix ini bersifat positif, simetris, dan triangle inequality.

Tabel 2.6 Similarity matrix

a b c d e a 0 3 1 3.61 5 b 3 0 3.16 3.16 3.16 c 1 3.16 0 2.83 4.47 d 3.61 3.16 2.83 0 2 e 5 3.16 4.47 2 0

Karena similarity matrix ini bersifat simetris, matriks ini dapat juga dituliskan seperti pada tabel 2.8 berikut dan menjadi matriks jarak.

Tabel 2.7 Matriks jarak

a b c d e a 0 3 1 3.61 5 b 0 3.16 3.16 3.16 c 0 2.83 4.47 d 0 2 e 0 1. Single Linkage

Selanjutnya dari tabel 2.8 dapat dilihat jarak obyek data yang paling dekat, yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk pencarian jarak ini pertama digunakan single linkage.

 = min{ , } = min{ . , . } = .

 = min{ , } = min{ , . } = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster (ac), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.8 Matriks jarak pertama single linkage

ac b d e

ac 0 3 2.83 4.47

b 0 3.16 3.16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.9), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.

 = min{ , , , } = min{ . , . , , . } = ,

 = min{ , } = min{ . , . } = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster (de), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.9 Matriks jarak kedua single linkage

ac b de

ac 0 3 2.83

b 0 3.16

Berdasar pada matriks jarak kedua (tabel 2.10), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai 2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.

 = min{ , , , } = min{ , , , . , . } =

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster (ac) dan (de) dihapus dan ditambahkan baris dan kolom untuk

cluster (acde), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.10 Matriks jarak ketiga single linkage acde b

acde 0 3

b 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b)

digabung menjadi satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:

2. Average Linkage

Menggunakan average linkage akan dicari jarak antar cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel matriks jarak (tabel 2.8), perhitungan average linkage ini dilakukan. Pada awal perhitungan, cluster (ac) tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara

cluster (ac) dengan b, d, dan e.

 = average{ , } = average{ , . } = ^{+ .} = .

 = average{ , } = average{ . , . } = ^{. + .} = .

 = average{ , } = average{ , , } = ^{+ .} = .

Tabel 2.11 Matriks jarak pertama average linkage

ac b d e

ac 0 3.08 3.22 4.73

b 0 3.16 3.16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.12), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.

 = average{ , , , } = average{ . , . , , . } =

. + . + + . = .

 = average{ , } = average{ . , . } = ^{. + .} = .

Tabel 2.12 Matriks jarak kedua average linkage

ac b de

ac 0 3.08 3.97

b 0 3.16

de 0

Berdasar pada matriks jarak kedua (Tabel 2.13), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (ac) dengan b yang paling dekat, yaitu bernilai 3.08. Kemudian dihitung jarak dengan cluster yang tersisa, (de).

 = average{ , , , , , } =

average{ . , , . , . , . , . } = ^{. + + . + . + . + .} = .

Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster (ac) dan b dihapus dan ditambahkan baris dan kolom untuk cluster (acb), sehingga matriks jarak menjadi seperti berikut ini:

Tabel 2.13 Matriks jarak ketiga average linkage acb de

acb 0 3.7

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)

digabung menjadi satu, yaitu cluster (acbde) dengan jarak rata-rata adalah 3.7. Berikut ini adalah hasil dendrogram hasil AHC dengan single linkage:

Gambar 2.5 Dendrogram average linkage untuk 5 obyek data

3. Complete Linkage

Penghitungan jarak dengan complete linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel 2.8), perhitungan complete linkage ini dilakukan. Pada awal perhitungan, cluster (ac) tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat, yaitu 1. Berikut ini akan dilakukan perhitungan jarak antara cluster (ac) dengan b, d, dan e.

 = max{ , , } = max{ , . } = .

 = max{ , , } = max{ . , . } = .

Tabel 2.14 Matriks jarak pertama complete linkage

ac b d e

ac 0 3.16 3.61 5

b 0 3,16 3,16

d 0 2

e 0

Berdasar pada matriks jarak pertama (tabel 2.15), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2. Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.

 = max{ , , , } = max{ . , . , , . } =

 = max{ , } = max{ . , . } = .

Tabel 2.15 Matriks jarak kedua complete linkage

ac b de

ac 0 3.16 5

b 0 3,16

de 0

Berdasar pada matriks jarak kedua (tabel 2.16), dipilih kembali jarak terdekat antar cluster. Ditemukan cluster (acb) dan cluster (deb), yaitu bernilai 3.16. Karena kedua cluster tersebut berada pada obyek yang sama, dapat dipilih satu di

antaranya. Dipilih cluster (deb). Kemudian dihitung jarak dengan cluster yang tersisa, (ac).

 = max{ , , , , , } =

max{ . , . , , . , , . } =

Tabel 2.16 Matriks jarak ketiga complete linkage acb de

acb 0 5

de 0

Dengan demikian proses iterasi perhitungan jarak untuk pembentukan

cluster sudah selesai karena cluster sudah tersisa satu. Jadi cluster (acb) dan (de)

digabung menjadi satu, yaitu cluster (acbde) dengan jarak maksimum adalah 5. Berikut ini adalah hasil dendrogram hasil AHC dengan complete linkage:

Pada bagian akhir AHC, setelah perhitungan pembentukan dendrogram, jumlah cluster dapat ditentukan dengan memotong (cut off) bagian tertentu dari dendrogram yang terbentuk pada jarak tertentu. Misalnya pada gambar 2.4, dendrogram dipotong pada jarak 2,5. Dengan pemotongan ini akan terbentuk 3

cluster, yaitu (ac), (de), dan (b) dengan masing-masing obyek datanya.

Gambar 2.7 Contoh pemotongan dendrogram single linkage

Dalam dokumen Pengenalan pola keberhasilan seminaris dengan menggunakan agglomerative hierarchical clustering, sebuah studi kasus atas keberhasilan studi para seminaris di Seminari Menengah St. Petrus Canisius, Mertoyudan, Magelang. (Halaman 35-51)