Metode Clustering - LANDASAN TEOR - Penerapan Metode Clustering Data Dengan C-Means Untuk Rekom

LANDASAN TEOR

2.4 Metode Clustering

Klastering (clustering) adalah salah satu analisis peubah ganda (multivariate analisys) yang digunakan untuk mengelompokkan objek-objek sedemikian rupa sehingga objek dalam satu cluster yang sangat mirip dan objek di berbagai cluster cukup berbeda. Analisis cluster banyak digunakan dalam penelitian-penelitian di bidang social, bidang kesehatan, bidang marketing, bidang akademik, dan bidang kewilayahan (Santosa, 2007).

Metode analisis cluster (clustering methods) dibedakan menjadi dua yaitu metode hierarki (hierarchical clustering methods) dan metode tak berhierarki (non

hierarchical clustering methods). Metode hierarki dibedakan menjadi dua yaitu

metode penggabungan (agglomerative/bottom up) dan metode pemecahan (devisive/

topdown). Prosedur yang digunakan dalam metode hierarki adalah prosedur pautan

tunggal (single linkage), pautan lengkap (complete linkage), dan pautan rata-rata (average linkage). Hasil clustering metode berhierarki secara umum membentuk diagram pohon (tree diagram) atau dendrogram yang menggambarkan pengelompokan objek berdasarkan jarak. Metode tak berhierarki disebut juga metode partisi (partitional methods). Metode tak berhierarki yang banyak digunakan adalah metode C-means Cluster. Yang membedakan fuzzy clustering dan non fuzzy clustering adalah dalam fuzzy clustering, sebuah titik termasuk dalam setiap cluster dengan suatu nilai bobot antara 0 dan 1, sedangkan yang non fuzzy jumlah dari bobot-bobot tersebut sama dengan 1. Clustering probabilitas mempunyai karakteristik yang sama (Hermawati, 2009).

2.4.1 Analisa Cluster

Analisa cluster yaitu menemukan kumpulan objek hingga objek-objek dalam suatu kelompok sama (mempunyai hubungan) dengan yang lain dan berbeda (tidak berhubungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisa cluster adalah meminimalkan jarak di dalam cluster dan memaksimalkan jarak anatar cluster.

Aplikasi dari analisa cluster dibedakan menjadi understanding yaitu kelompok dokumen-dokumen yang saling berhubungan untuk proses browsing, pengelompokan gen dan protein yang mempunyai fungsi sama atau pengelompokan stok dengan harga yang fluktuatif. Summarization untuk menurunkan ukuran dari data-set yang besar.

2.4.2 Clustering dengan C-Means

C-Means merupakan salah satu metode data Clustering non hierarki yang berusaha

mempartisi data yang ada kedalam bentuk satu atau lebih cluster (kelompok). Metode ini mempartisi kedalam cluster (kelompok) sehingga data yang memiliki karakteristik yang sama (High Intra Class Similarity) dikelompokkan kedalam satu cluster yang sama dan yang memiliki karakteristik yang berbeda (Law Inter Class Similarity) di kelompokkan pada kelompok yang lain (Giyanto, 2008).

C-means Cluster merupakan metode pengelompokan yang terkenal dan

banyak digunakan di berbagai bidang karena sederhana, mudah di implementasikan, dan memiliki kemampuan untuk mengelompokkan data yang besar. C-means digunakan untuk meng cluster data-data mahasiswa dan jumlah cluster bisa ditentukan di awal (Khoiruddin, 2007).

Metode ini mengelompokkan secara partisi yang memisahkan data kedalam kelompok yang berbeda. Dengan proses partisi secara iteratif, C-means Cluster mampu meminimalkan jarak rata-rata setiap data ke kelompoknya. Metode ini dikembangkan oleh MacQueen pada tahun 1967, yang merupakan pengembangan dari Steinhaus tahun 1956. Kemudian dikembangkan terus sampai saat ini diberbagai bidang. Langkah-langkah Clustering data dengan C-Means terdiri dari (Suryadi, e.t al, 1998):

1. Langkah Pertama : Menanyakan kepada pemakai algoritma C-Means, obyek yang ada akan dibuat menjadi berapa kelompok, sebutlah sebanyak C cluster. 2. Langkah Kedua : Secara sembarang, pilihlah C buah obyek (dari sekian obyek

yang ada) sebagai pusat-pusat kelompok cluster awal.

3. Langkah Ketiga : Untuk setiap obyek, tentukan pusat cluster terdekatnya dan tetapkan obyek tersebut sebagai anggota dari cluster yang terdekat pusat

clusternya. Hitung rasio antara Between Cluster Variation (BCV) dengan Whiting Cluster Variation (WCV), lalu bandingkan rasio tersebut dengan rasio

sebelumnya (bila sudah ada). Jika rasio tersebut membesar, lanjutkan ke langkah keempat. Jika tidak, hentikan prosesnya.

4. Langkah keempat : Perbaharui pusat-pusat cluster (berdasarkan cluster yang didapat dari langkah ketiga) dan kembalilah ke langkah ketiga. Apabila nilai rasio sudah tidak lagi membesar dibandingkan dengan rasio sejenis yang didapatkan pada langkah sebelumnya, maka algoritma akan dihentikan.

Diagram alir (flowchart) algoritma C-Means sesuai dengan langkah-langkah diatas ditunjukkan dalam gambar 2.2. Terdapat 18 cluster pada aplikasi yang dibangun. Cluster ditentukan dari banyaknya jenis beasiswa yang di tawarkan. Pusat dari tiap-tiap cluster di tentukan dari jarak yang terkecil. Kemudian dihitung jarak objek ke pusat cluster. Objek di kelompokkan berdasarkan jarak minimum, jika ada objek yang harus dipindahkan, proses selanjutnya akan kembali ke penentuan pusat pada objek yang dipindah. Jika tidak ada objek yang dipindah maka prosesnya selesai.

2.4.3 Sifat Pengelompokan Clustering C-means

Data dibagi menjadi beberapa kelompok atau cluster hingga terbentuk beberapa kelompok data.

Centroid 1–Gabungan dari semua kelompok (set), meliputi himpunan titik data X ⋃ ( ) = 1∀

Centroid 2–Tidak ada yang overlap (bertimpa) antar Cluster ( )∩ ( ) = 0∀

Centroid 3–Cluster tidak boleh kosong, dan tidak dapat memuat semua titik

0 < ∑ ( ) < ∀

Matriks U = a c x P , matriks dari titik data dan cluster. Jika = ( ) mewakili ke anggotaan (0 atau 1) antara data titik j dan i, kemudian U adalah matriks dari (i = 1, …,cj, J= 1, …, P). Jika menjadi partisi dari ‘c’ maka lokasi ke anggotaan (0 atau 1) setiap data berhubungan dengan satu kelas.

= ∪ | ∈ {0,1}; ∑ = 1; 0 < ∑ <

Fungsi objektif adalah membedakan antara kualitas alokasi cluster yang berbeda. Algoritma C-Means menggunakan jumlah jarak antara claster usulan dan data terkait menunjukkan milik kelompok tersebut. Tujuannya adalah untuk menemukan centroid terbaik dan alokasi titik data sedemikian rupa sehingga jarak diminimalkan yaitu dengan rumus :

J (U, V) =∑ ∑ ( )

Dimana matriks adalah jarak yang cocok menurut Euclidean norm, antara sampel data k, dan i pusat cluster

= ( − ) = | − | = ( − )

Setiap titik data terletak pada ruang dimensi ‘m’ untuk mengoptimalkan kombinasi dari cluster (U*, V*) , meminimalkan J (U, V) atau :

2.4.4 Kelebihan dan Kekurangan C-Means Cluster

Kelebihan metode C-Means diantaranya adalah sebagai berikut : 1. Mampu mengelompokkan obyek yang besar.

2. Mampu mengecilkan obyek dengan cepat. 3. Mempercepat proses pengelompokan.

Adapun kekurangan yang dimiliki oleh C-Means diantaranya sebagai berikut : 1. Sangat sensitif pada pembangkitan titik pusat awal secara random. 2. Memungkinkan suatu gerombol tidak mempunyai anggota.

3. Hasil pengelompokan bersifat tidak unik terkadang selalu berubah-ubah. 4. Terkadang bagus, terkadang tidak bagus.

5. Menentukan jumlah gerombol sebelum kita mengetahui jumlah kelompok yang optimal.

6. Semua obyek harus masuk kedalam satu cluster, dan sangat bergantung pada inisialisasi cluster centers.

Dalam dokumen Penerapan Metode Clustering Data Dengan C-Means Untuk Rekomendasi Penerima Beasiswa Pada Universitas Sumatera Utara (Halaman 83-87)