Cluster Analysis - 2. LANDASAN TEORI. Universitas Kristen Petra

Cluster analysis adalah suatu cara untuk mengklasifikasi objek / elemen-elemen dari sekumpulan data ke dalam kelompok-kelompok yang relatif homogen berdasarkan pada satu set variable yang sama sedemikian hingga : (Sharma , 1996

; Supranto, 2004)

a) Setiap anggota dalam satu cluster mempunyai karakteristik yang relatif sama / homogen satu sama lain.

b) Sedangkan anggota-anggota dalam satu cluster harus mempunyai karakteristik yang jauh berbeda dengan anggota-anggota dari cluster lainnya.

Tujuan dari cluster analysis menurut Supranto, 2004 adalah untuk mereduksi jumlah responden yang diteliti menjadi sejumlah cluster yang lebih kecil , misalkan dari 58 responden di-cluster menjadi 4 cluster yang memiliki kesamaan karakteristik, sehingga cluster-cluster ini lebih mudah untuk diobservasi maupun dianalisis lebih lanjut.

Konsep clustering ini secara sederhana dapat digambarkan seperti Gambar 2.12. Satu titik dalam gambar menyatakan satu observasi, sedangkan X1 dan X2 masing-masing menyatakan 2(dua) karakteristik dari masing-masing titik observasi yang membentuk sistem koodinat 2(dua) dimensi.

VARIABEL X2

VARIABEL X1 X1

Terdapat banyak paket program statistika untuk menghitung pengklasteran dimana dalam penelitian ini penulis menggunakan paket software SPSS versi 13 dan MINITAB versi 14 untuk melakukan perhitungan proses pengklasteran.

Gambar 2.13 menunjukkan klasifikasi prosedur pengklasteran menurut Supranto (2004). Secara prinsip ada dua cara pengklasteran yaitu : hierarchical clustering dan non-hierarchical clustering.

clustering

Gambar 2.13. Klasifikasi Prosedur Pengklasteran (Supranto,2004)

Pengklasteran hirarki ditandai dengan pengembangan suatu hirarki mirip diagram pohon. Metode pengklasteran hirarki yang akan dipakai adalah aglomeratif dimana klaster dibentuk dengan mengelompokkan responden (obyek) ke dalam klaster yang semakin lama semakin membesar sampai seluruh obyek menjadi anggota dari suatu klaster tunggal. (Supranto, 2004)

Metode aglomeratif terdiri dari 3(tiga) macam cara yaitu : (Supranto,2004)

linkage berdasarkan jarak terpendek, complete linkage berdasarkan jarak terjauh dan average linkage berdasarkan jarak rata-rata terpendek dalam satu klaster.

- Variance method, dimana untuk setiap klaster rata-rata dari seluruh obyek dalam klaster dihitung, kemudian jarak euklidian kuadrat masing-masing obyek ke rata-rata klaster dihitung dan dijumlahkan. Dua klaster dengan jumlah kenaikan kuadrat terkecil digabungkan (sum of squares within cluster distances)

- Centroid method, dimana jarak antara dua klaster terpendek diantara centroids (rata-rata dari seluruh obyek dalam klaster) digabungkan menjadi satu klaster

Jenis pengklasteran ke dua disebut pengklasteran non hirarki atau sering disebut juga K-means clustering di mana dalam metode ini jumlah klaster dan titik pusat klaster harus ditentukan terlebih dahulu. Dalam metode sequential threshold method, suatu pusat kluster sebarang dipilih, dan semua obyek dalam prespesified threshold value dari pusat, digabung bersama. Kemudian proses diulangi lagi dengan membentuk suatu pusat klaster baru dan proses diulangi untuk seluruh titik-titik yang belum diklasterkan sampai konvergen. Keuntungan metode ini adalah kecepatan dan kemudahannya, sedangkan kelemahannya terletak pada keharusan peneliti untuk menetapkan pra anggapan jumlah klaster dan titik pusat klaster terlebih dahulu (Supranto, 2004).

Baik Supranto (2004) maupun Sharma (1996) mengusulkan penggunaan kedua metode hirarki dan non hirarki secara bersamaan., dengan langkah-langkah sebagai berikut : (Sharma, 1996)

1. Obyek-obyek penelitian (responden) diklaster dengan cara pengklasteran hirarki aglomeratif , di mana obyek diklaster baik dengan cara linkage method (single, complete dan average), variance method(ward method) dan centroid method.

2. Untuk tiap langkah dalam masing-masing cara pada point 1 di atas, dihitung nilai R-Squared dan nilai RMSSTD, lalu digambarkan dalam satu kurva untuk dicari titik elbow (titik belok-titik belok yang tajam) guna menduga jumlah klaster yang paling sesuai. Definisi dan pengertian

R-Squared dan RMSSTD akan dijelaskan pada bagian akhir dari sub-bagian ini.

3. Setelah didapatkan jumlah klaster yang dianggap paling sesuai untuk menggambarkan keseluruhan obyek, maka dengan bantuan program software MINITAB dapat dihitung pusat masing-masing klaster.

4. Jumlah klaster yang dianggap paling sesuai hasil pemrosesan dengan metode hirarki serta pusat masing-masing klaster dijadikan sebagai input untuk pemrosesan selanjutnya dengan metode non hirarki dimana pusat masing-masing klaster dimasukkan sebagai nilai initial seed-nya. Tujuan proses ke-4 ini adalah untuk memperhalus hasil proses klaster yang sudah dilakukan dengan metode hirarki sebelumnya.

5. Dengan metode K-means clustering, maka himpunan klaster-klaster dan initial seed pada Point 3 (tiga) di atas akan diiterasi sampai didapatkan konvergensi pada jumlah anggota masing-masing klaster beserta titik pusat klasternya (initial point).

6. Pada tahap terakhir ini nilai titik pusat klaster final pada langah ke-5 di atas diintepretasikan berdasarkan nilai dominant yang diwakilinya.

Beberapa istilah yang dipakai di dalam analisa klaster adalah : (Supranto, 2004) dan (Sharma, 1996)

- Skedul aglomerasi (agglomeration schedule), ialah skedul yang berisi informasi tentang obyek yang akan digabungkan pada setiap tahap dalam proses pengklasteran hirarki.

- Rata-rata klaster (cluster centroid), ialah nilai rata-rata variable dari semua obyek dalam suatu klaster tertentu.

- Pusat klaster (cluster centre atau initial seed) ialah titik awal dimulainya pengelompokan dalam pengklasteran non hirarki. Klaster dibentuk disekitar titik-titik ini.

- Keanggotaan kluster (cluster membership) menunjukkan keanggotaan suatu obyek tertentu menjadi anggota dari klaster.

- Dendogram disebut juga sebagai tree graph ialah suatu penyajian grafis hasil pengklasteran. Setiap garis menggambarkan klaster yang digabung bersama.

- Icicle diagram ialah cara lain penyajian hasil pengklasteran secara grafis yang disajikan dalam bentuk kolom-kolom.

- RMSSTD (root-mean-square total-sample standard deviation) ialah ukuran yang menyatakan tingkat homogenitas klaster-klaster observasi untuk satu set variable tertentu, makin rendah nilai RMSSTD berarti makin homogen observasi yang diamati.

dimana p menyatakan jumlah variabel dalam suatu klaster i dan ŝj menyatakan standard deviasi p obyek tersebut pada klaster i. (p-1) menyatakan degree of freedom masing-masing klaster ke i.

- R-squared ialah ukuran yang menyatakan tingkat perbedaan antar klaster.

Nilai RS terletak di antara 0 sampai dengan 1 dimana nilai 0 menyatakan tidak ada perbedaan di antara klaster-klaster, sedangkan nilai 1 menyatakan tingkat perbedaan tertinggi di antara klaster-klaster. RS adalah nilai perbandingan SSb

dibanding SSt dimana SSt menyatakan jumlah variasi total seluruh data sedangkan SSb menyatakan jumlah variasi antar klaster (between group sum of squares).

∑ xij2

i=1

SSt dinyatakan dengan SSt = _________ ( 2.13 ) n – 1

dimana xij = data koreksi terhadap mean dari observasi ke-i dan variabel ke-j dari keseluruhan n obyek observasi.

Sedangkan SSb dinyatakan dengan :

n p ∑ Σ ŝj 2 i=1 j=1

RMSSTD = ________ (2.12) n

∑ ( p-1) i=1

RS = SSb / SSt ………. (2.15)

Contoh berikut mencoba menggambarkan beberapa dari istilah penting konsep clustering (Sharma,1996). Misalkan terdapat data hipotetis sebagai berikut :

Tabel 2.14. Data hipotetis (Sharma, 1996)

Observasi Income Education (Obyek) (x$1000) (years)

S1 5 5

S2 6 6

S3 15 14

S4 16 15

S5 25 20

S6 30 19

Jumlah observasi (obyek) dalam Tabel 2.14 tersebut ada 6 (enam) obyek(responden) dengan dua variabel income dan education. Persoalan ini dapat digambarkan dalam bentuk grafis 2-Dimensi seperti Gambar 2.14.

S5 S6 S4

S1 S2

0 4 8 12 16 20 24

0 4 8 12 16 20 24 28 32

income(x$1000)

education(years)

Gambar 2.14. Gambar 2-Dimensi (Sharma, 1996)

Setelah data observasi pada Tabel 2.14 diolah dengan Program SPSS menggunakan metoda hirarki centroid, didapatkan hasil-hasil seperti Gambar 2.15

Agglomeration Schedule

Coefficients Cluster 1 Cluster 2 Stage Cluster First

Appears

Next Stage

Gambar 2.15. Agglomeration Schedule

Cluster Membership

5 Clusters 4 Clusters 3 Clusters 2 Clusters

Gambar 2.16. Cluster Membership

Rescaled Distance Cluster Combine

Gambar 2.17. Dendogram Diagram

Gambar 2.18. Vertical Icicle

Perhitungan R-Squared dan RMSSTD contoh di atas yang masing-masing dihitung dengan Persamaan (2.15) dan Persamaan (2.12) untuk setiap langkah pengklasteran dapat dilihat pada Tabel 2.15 , Gambar 2.19 dan Gambar 2.20.

Tabel 2.15. R-Squared dan RMSSTD

No of Frequency of RMSSTD of R-Squared Centroid cluster CLU1 CLU2 new cluster new cluster Distance

5 3 4 2 0.707107 0.998575 1.4142

4 1 2 2 0.707107 0.997150 1.4142

3 5 6 2 2.549510 0.978622 5.0990

2 ST 1 ST 3 4 5.522681 0.737767 13.0000

1 ST 2 ST 4 6 8.376555 0.000000 19.7041

Cluster Joined

6:S6 5:S5 4:S4 3:S3 2:S2 1:S1

Case

5 4 3 2 1

0.0 2.0 4.0 6.0 8.0 10.0

0 2 4 6

no of cluster

RMSSTD

Gambar 2.20 RMSSTD

Dari titik belok (elbow) pada Gambar 2.19 dan Gambar 2.20 dapat diperkirakan bahwa data observasi itu dapat dikelompokkan kedalam 3 atau 4 klaster. Dari pengamatan secara grafis pada Gambar 2.14 dapat dilihat bahwa pendekatan dengan 3 klaster cukup baik untuk mewakili kelompok observasi dalam contoh tersebut. Pada observasi dengan banyak variabel berdimensi n maka digunakan metoda non hirarki K-means clustering untuk mendapatkan jumlah klaster yang dianggap cukup mewakili seluruh observasi.

Dalam dokumen 2. LANDASAN TEORI. Universitas Kristen Petra (Halaman 34-42)