Metode Hirarki - Metode-metode dalam Analisis Cluster

BAB III ANALISIS CLUSTER

B. Metode-metode dalam Analisis Cluster

1. Metode Hirarki

Metode hirarki mengatur data dalam urutan kelompok yang bertingkat, yang dapat disajikan dalam bentuk dendogram atau struktur pohon. Metode hirarki dapat dibagi menjadi dua metode yang utama, yaitu metode agglomerative dan metode divisive.

a. Metode Agglomerative

Metode agglomerative dimulai dengan obyek individu. Pada awalnya setiap obyek dianggap sebagai sebuah cluster, namun obyek yang mempunyai karakteristik yang sama (yang paling mirip) dikelompokkan terlebih dahulu dan digabungkan menurut similaritasnya. Selanjutnya jika kesamaan yang didapat menurun, semua subkelompok akan digabungkan menjadi satu cluster. Berikut ini langkah-langkah algoritma metode agglomerative untuk mengelompokkan obyek atau variabel (Johnson & Wichern, 2007).  Dimulai dengan cluster yang akan dibentuk, di mana

masing-masing berisi satu obyek dan matriks jarak simetris (atau kesamaan) * +.

 Mencari matriks jarak untuk pasangan cluster terdekat (paling mirip). Misalkan jarak “paling mirip” antara cluster dan menjadi .

 Gabungkan cluster dan , beri nama cluster yang terbentuk ( ). Perbarui entri dalam matriks jarak dengan menghapus baris dan kolom yang sesuai dengan cluster dan , dan menambahkan baris dan kolom yang memberikan jarak antara cluster ( ) dan

cluster yang tersisa.

Metode agglomerative terdiri atas:

1) Metode Single-linkage (Nearest Neighbour Method)

Dengan menggunakan metode ini, jarak antara dua cluster sama dengan jarak antara dua elemen atau obyek terdekat yang termasuk dalam cluster yang berbeda. Kelompok dibentuk dari entitas individu dengan menggabungkan tetangga terdekat, di mana tetangga terdekat dapat diartikan sebagai jarak minimum. Dalam metode single-linkage, langkah-langkah yang harus dilakukan adalah sebagai berikut

 Mencari jarak minimum * +

 Menggabungkan obyek yang sesuai, misal dan untuk mendapatkan cluster (SC).

 Gabungkan cluster dan , beri nama cluster yang terbentuk ( ). Perbarui entri dalam matriks jarak dengan menghapus baris dan kolom yang sesuai dengan cluster dan , dan menambahkan baris dan kolom yang memberikan jarak antara

cluster ( ) dan cluster yang tersisa. Jarak antara ( ) dan

cluster lainnya misal cluster dihitung dengan ( ) * +

di sini nilai dan merupakan jarak antara tetangga terdekat dari cluster dan , serta cluster dan . Berikut ini merupakan ilustrasi yang menggambarkan cara kerja metode

Gambar 3.4 Ilustrasi Metode Single-linkage

Berdasarkan ilustrasi di atas, metode single-linkage bekerja dengan cara mengelompokkan data berdasarkan tetangga terdekat. Ilustrasi di atas menunjukkan bahwa jarak terpendek antar obyek yang berbeda cluster adalah .

Contoh 3.1

Hartigan (1975) membandingkan tingkat kejahatan per 100.000 penduduk untuk berbagai kota. Pada contoh berikut akan diambil enam data hasil pengamatan Hartigan yang datanya diambil dari tahun 1970 di Amerika Serikat.

Kota Atlanta 16.5 24.8 106 147 1112 905 494 Boston 4.2 13.3 122 90 982 669 954 Chicago 11.6 24.7 340 242 808 609 645 Dallas 18.1 34.2 184 293 1668 901 602 Denver 6.9 41.5 173 191 1534 1368 780 Detroit 13 35.7 477 220 1566 1183 788

Untuk melakukan clustering dengan menggunakan metode

single-linkage, terlebih dahulu akan dihitung matriks jaraknya.

Matriks jarak pada soal ini dihitung dengan menggunakan jarak

euclidean menggunakan perangkat lunak-R.

Matriks jarak yang diperoleh adalah matriks , di mana elemen dengan nomor baris ke- dan nomor kolom ke- akan sama dengan elemen dengan nomor baris ke- dan nomor kolom ke- atau dapat ditulis dengan .

* + [ ] Akan dicari jarak terdekat antar obyek dengan menggunakan metode single-linkage.

Penyelesaian:

 Pandang setiap obyek sebagai cluster, dimulai dengan menggabungkan dua item terdekat. Menentukan jarak minimum, yaitu ( ) 7

 Selanjutnya, obyek dan obyek digabungkan untuk membentuk cluster ( ). Langkah berikutnya adalah mencari jarak terdekat antara cluster ( ) dan obyek yang tersisa, yaitu obyek , obyek , obyek , dan obyek 4. Jarak tetangga terdekatnya adalah

( ) * + * +

 Menghapus baris dan kolom A yang sesuai dengan obyek 5 dan obyek 6, dan menambahkan baris dan kolom untuk

cluster ( ). ( ) [ ]

 Jarak terkecil antara pasangan cluster sekarang adalah . Gabungkan obyek 2 dan obyek untuk mendapatkan cluster ( ). Lalu mencari jarak terdekat antara cluster ( ) dan obyek tersisa, yaitu obyek , obyek , dan cluster (56).

( ) * + * +

( ) * + * + ( )( ) { _{( )} _{( )}} * +  Lalu diperoleh matriks jarak

( ) ( ) [ ]

 Jarak terdekat antara pasangan cluster sekarang adalah

( ) . Gabungkan obyek 4 dan cluster (56) untuk

antara cluster (456) dengan obyek tersisa, yaitu obyek 1 dan cluster (23). ( ) { _{( )}} * + ( )( ) { _{( )} _{( )( )}} * + diperoleh matriks jarak

( )

( )^[ ^]

 Jarak terdekat antara pasangan cluster sekarang adalah

( ) . Gabungkan obyek 1 dan cluster (23)

untuk mendapatkan cluster (123).

( )( ) { _{( )} _{( )( )}} * + Matriks jarak akhir menjadi

( )

( )^[ ^]

Akibatnya cluster (123) dan cluster (456) digabung untuk membentuk cluster tunggal dari keenam obyek (123456), ketika jarak tetangga terdekat mencapai 590.2.

Berikut merupakan gambar diagram dendogram dari proses yang telah dilakukan dengan menggunakan metode

Gambar 3.5 Dendogram Metode Single-linkage 2) Metode Complete-linkage (the Farthest Neighbour Method)

Dalam menentukan jarak dengan menggunakan metode ini, jarak antara dua buah cluster sama dengan jarak antara dua obyek terjauh yang termasuk dalam cluster yang berbeda. Misal terdapat dua obyek dan untuk membentuk cluster ( ), jarak terjauh atau maksimum antara cluster ( ) dan cluster dapat dihitung dengan

( ) * +

di mana nilai dan merupakan jarak antara anggota terjauh dari cluster dan , serta cluster dan .

Berdasarkan ilustrasi di atas, metode complete-linkage bekerja dengan cara mengelompokkan data berdasarkan tetangga terjauh. Ilustrasi di atas menunjukkan bahwa jarak terjauh antar obyek yang berbeda cluster adalah .

Contoh 3.2

Misalkan diberikan matriks jarak sebagai berikut

* +

[ _]

Akan dicari jarak terjauh antar obyek dengan menggunakan metode complete-linkage.

 Pandang setiap obyek sebagai cluster, dimulai dengan menggabungkan dua item terdekat. Menentukan jarak minimum, yaitu ( )

 Selanjutnya, obyek dan obyek digabungkan untuk membentuk cluster ( ). Langkah berikutnya adalah mencari jarak terjauh antara cluster ( ) dan obyek yang tersisa, yaitu obyek , obyek , dan obyek . Jarak tetangga terdekatnya adalah

( ) * + * +

( ) * + * +

 Menghapus baris dan kolom matriks A yang sesuai dengan obyek 3 dan obyek 5, dan menambahkan baris dan kolom untuk cluster ( ).

( ) [

 Jarak terkecil antara pasangan cluster sekarang adalah . Gabungkan obyek 2 dan obyek untuk mendapatkan cluster ( ). Lalu mencari jarak terjauh antara

cluster ( ) dan obyek tersisa, yaitu obyek dan cluster (35).

( )( ) { _{( )} _{( )}} * + ( ) * + * +  Lalu diperoleh matriks jarak

( ) ( )[

]

 Selanjutnya jarak terkecil antara pasangan cluster adalah

( ) . Selanjutnya menggabuungkan cluster (124) dan

cluster (35) untuk membentuk sebuah cluster tunggal dari

keenam obyek (1,2,3,4,5,6).

( )( ) { _{( )} _{( )( )}} * +

Berikut ini merupakan visualisasi dendogram dari metode

complete linkage.

Gambar 3.7 Dendogram Metode Complete-Linkage

3) Metode Average-linkage (Unweighted Pair-group Average)

Metode average-linkage mendefinisikan bahwa jarak antara dua buah cluster sama dengan jarak rata-rata antara semua pasang obyek di mana satu anggota pasangan dimiliki oleh setiap cluster. Sama seperti metode single-linkage dan complete-linkage, jika terdapat dua obyek dan untuk membentuk cluster ( ), maka jarak rata-rata antara cluster ( ) dan dihitung dengan

( ) ∑ ∑

( )

di mana adalah jarak antara obyek di cluster ( ) dan obyek di cluster . Sedangkan _{( )} dan merupakan jumlah obyek di cluster ( ) dan cluster . Berikut ini merupakan ilustrasi metode average-linkage.

Gambar 3.8 Ilustrasi Metode Average-linkage

Berdasarkan ilustrasi di atas, metode average-linkage bekerja dengan cara mengelompokkan data berdasarkan jarak rata-rata antara semua pasang obyek. Ilustrasi di atas menunjukkan bahwa jarak rata-rata antara semua pasang obyek adalah sebagai berikut

. Contoh 3.3

Misalkan diberikan matriks jarak sebagai berikut

* +

[ _]

Dengan menggunakan metode average linkage, diperoleh penyelesaiaan sebagai berikut.

 Menentukan jarak minimum, yaitu ( )  Selanjutnya, obyek 3 dan obyek 5digabungkan untuk

membentuk cluster ( ). Langkah selanjutnya adalah menghitung jarak cluster ( )dengan obyek yang tersisa, yaitu obyek 1, obyek 2, dan obyek 4.

( ) ( ) ( )

( ) ( ) ( )  Menghapus baris dan kolom matriks yang sesuai dengan

obyek 3 dan obyek 5, dan menambahkan baris dan kolom untuk cluster ( ) ( ) [ ]

 Jarak minimum antara pasangan cluster sekarang adalah . Gabungkan obyek 2 dan obyek 4 untuk memperoleh ( ). Selanjutnya, menghitung jarak ( ) dengan obyek yang tersisa, yaitu obyek 1 dan ( )

( ) ( ) ( )

( )( ) ( _{( )} _{( )}) ( )

 Menghapus baris dan kolom matriks yang sesuai dengan obyek 2 dan obyek 4, dan menambahkan baris dan kolom untuk ( )

( ) ( )[

]

 Selanjutntya berdasarkan matriks jarak di atas, dapat kita lihat bahwa jarak minimum antar pasangan cluster adalah _{( )} . Pada tahap ini maka terbentuk cluster ( ). Selanjutnya

akan gabungkan dua cluster ( ) dengan cluster ( ), maka akan diperoleh

( )( ) ( _{( )} _{( )( )}) ( )

4) Metode Centroid (Unweighted Pair-group Centroid)

Dalam metode centroid, jarak antara dua cluster dan didefinisikan sebagai jarak Euclidean antara vektor rata-rata dari dua cluster

( ) ( ̅ ̅ )

di mana ̅ dan ̅ masing-masing adalah vektor rata-rata untuk vektor pengamatan di dan dan ( ̅ ̅ ) merupakan jarak

Euclidean vektor pengamatan dan . Vektor rata-rata ̅ dan ̅ didefinisikan dengan menggunakan cara seperti pada umumnya, yaitu ̅ ∑ dan ̅ ∑ . Dua cluster dengan jarak terkecil antar centroid digabungkan disetiap langkah. Setelah

cluster dan digabungkan, centroid dari cluster baru diberikan oleh rerata tertimbang

̅ ^̅ ^̅

5) Metode Median (Weighted Pair-group Centroid)

Dalam metode median, jarak antara dua cluster dan dihitung seperti pada metode centroid, tetapi dengan pengenalan bobot yang sama dengan jumlah obyek dalam cluster yang dipertimbangkan. Untuk menghindari pembobotan vektor

rata-rata menurut ukuran cluster, maka dapat menggunakan median (titik tengah) garis yang menghubungkan dan sebagai titik untuk menghitung jarak baru ke cluster lainnya.

( ̅ ̅ )

6) Metode Ward

Metode Ward juga disebut sebagai metode incremental sum of

squares, menggunakan jarak (kuadrat) dalam cluster dan jarak

(kuadrat) antar cluster. Dalam metode ini ketidaksamaan antara dua cluster didefinisikan sebagai hilangnya informasi dari penggabungan dua cluster. Dalam metode Ward, jarak antara dua

cluster didasarkan pada jumlah kuadrat total (total sum of square)

dua cluster pada masing-masing variabel.

Pada tugas akhir ini metode Ward akan dibahas secara khusus di bab IV.

b. Metode Divisive

Dalam teknik pengelompokannya, metode divisive (pemisahan atau penyebaran) berlawanan dengan metode agglomerative. Metode

divisive memulai dengan satu cluster besar yang berisi semua obyek dan selanjutnya secara berturut-turut membagi atau membelah cluster menjadi dua disetiap langkah. Hasil akhir dari metode ini adalah terbentuk cluster di mana setiap cluster berisi satu obyek saja.

Berikut ini merupakan gambaran mengenai perbedaan metode

Gambar 3.11 Perbedaan Metode Agglomerative dan Divisive

Berdasarkan ilustrasi pada gambar di atas dapat simpulkan bahwa pada metode agglomerative, mula-mula tiap obyek akan membentuk clusternya sendiri-sendiri lalu cluster tersebut digabung dengan cluster lain sehingga menjadi cluster yang lebih besar. Proses pengclusteran terus dilakukan hingga membentuk satu cluster terbesar. Sedangkan dalam metode divisive, mula-mula satu cluster terbesar dibagi/dibelah menjadi beberapa cluster lebih kecil. Kemudian cluster lebih kecil tersebut dibagi lagi menjadi beberapa cluster yang lebih kecil lagi. Proses ini dilakukan berulang-ulang hingga terbentuk n

cluster di mana di setiap cluster hanya berisi satu obyek.

Dalam ilustrasi tersebut untuk metode agglomerative, cluster awal adalah cluster dan e. Lalu cluster a dan b digabung sehingga terbentuk cluster ( ). Selanjutnya cluster d dan e digabung hingga terbentuk cluster ( ), lalu cluster c dan cluster ( ) digabung hingga membentuk cluster ( ). Langkah terakhir adalah menggabungkan cluster ( ) dan cluster ( ) hingga

membentuk satu cluster terbesar, yaitu cluster ( ). Di sinilah proses pengclusteran berhenti. Sedangkan untuk metode divisive, mula-mula cluster terbesar yakni cluster ( ) dibagi menjadi

cluster ( ) dan cluster ( ). Selanjutnya cluster-cluster tersebut dibagi-bagi lagi hingga terbentuk n cluster (cluster a, b, c, d, e) di mana setiap cluster hanya berisi satu obyek saja.

Dalam dokumen ANALISIS CLUSTER UNTUK PENGELOMPOKAN NILAI UJIAN NASIONAL SMP DI DAERAH ISTIMEWA YOGYAKARTA DENGAN METODE WARD. Tugas Akhir (Halaman 65-80)