Algoritma Clustering ( Clustering Algorithm )

Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu & Donald 2009).

Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural (Hammouda & Karray, 2003). Namun, penemuan pengelompokan- pengelompokan ini atau upaya untuk mengkategorikan data adalah bukan sebuah tugas yang sederhana bagi manusia kecuali data memiliki dimensionalitas rendah (dua atau tiga dimensi paling banyak). Inilah sebabnya mengapa beberapa metode dalam soft computing telah dikemukakan untuk menyelesaikan jenis masalah ini. Metode ini disebut “Metode-metode Pengelompokan Data” (Hammouda & Karray, 2003).

Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat merepresentasikan data yang sama dengan lebih sedikit simbol. Selain itu, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokan- pengelompokan ini (Dubes & Jain, 1988).

Clustering menunjuk pada pengelompokan record, observasi-observasi, atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah

sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi, atau memprediksi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam sub kelompok atau cluster-cluster homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.

Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural network. Karena ukuran yang besar dari banyak database yang dipresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma

downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut (Dubes & Jain, 1988) :

- representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat), - definisi ukuran kedekatan pola yang tepat untuk domain data,

- clustering pengelompokan, - penarikan data (jika dibutuhkan), - pengkajian output (jika dibutuhkan).

Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering.

Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.

Pertimbangkan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal, kasus-kasus, pola, tuple, transaksi) x

i = (xi1, …, xid) Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menentukan point-point pada sebuah sistem terbatas dari subset k, cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan

outlier. C

i adalah sekelompok point data dalam dataset X, dimana X = Ci .. Ck ..

outliers, Cj1 .. Cj2 = 0.

Menurut William (William, 2005), algoritma clustering terbagi ke dalam kelompok besar seperti berikut :

1. Partitioning algorithms: algoritma dalam kelompok ini membentuk

bermacam partisi dan kemudian mengevaluasinya dengan

berdasarkan beberapa kriteria.

2. Hierarchy algorithms: pembentukan dekomposisi hirarki dari

sekumpulan data menggunakan beberapa kriteria.

3. Density-based: pembentukan cluster berdasarkan pada koneksi dan

4. Grid-based: pembentukan cluster berdasarkan pada struktur multiple-

level granularity

5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-

masing cluster dan model yang baik dipilih diantara model hipotesa tersebut.

2.4.1 K-Means Clustering

Algoritma K-Means adalah algoritma yang disusun atas dasar ide yang sederhana. Ada awalnya ditentukan berapa cluster yang akan dibentuk. Sembarang obyek atau elemen pertama dalam cluster dapat dipilih untuk dijadikan sebagai titik tengah (centroid point) cluster. Algoritma K-Means selanjutnya akan melakukan pengulangan langkah-langkah berikut sampai terjadi kestabilan (tidak ada obyek yang dapat dipindahkan) :

1. menentukan koordinat titik tengah setiap cluster,

2. menentukan jarak setiap obyek terhadap koordinat titik tengah,

3. mengelompokkan obyek-obyek tersebut berdasarkan pada jarak minimumnya. Algoritma K-means dinilai cukup efisien, yang ditunjukkan dengan kompleksitasnya O(tkn), dimana n adalah banyaknya obyek data, k adalah jumlah

cluster yang dibentuk, dan t banyaknya iterasi. Nilai k dan t jauh lebih kecil daripada nilai n. Selain itu, dalam iterasinya, algoritma ini akan berhenti dalam kondisi optimum lokal (William, 2005). Sedangkan kelemahan algoritma ini adalah adanya keharusan menetukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data yang mean-nya dapat ditentukan, dan tidak mampu menangani data yang mempunyai penyimpangan-penyimpangan (noisy

data dan outlier). Selai itu juga bergantung pada pemilihan nilai awal centroid, tidak diketahui berapa banyak cluster k yang terbaik, dan hanya bekerja pada atribut numerik.

2.4.2 Clustering Hirarki (Hierarchical Clustering)

Clustering Hirarki membangun sebuah Hirarki cluster atau dengan kata lain sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node

cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering Hirarki dikategorikan ke dalam agglomeratif (bawah-atas) dan divisive (atas-bawah) (Jain & Dubes, 1988; Kaufman & Rousseeuw, 1990). Clustering agglomeratif dimulai dengan cluster satu point (singleton) dan secara berulang menggabungkan dua atau lebih

cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari

cluster) dicapai. Kelebihan cluster Hirarki meliputi:

- fleksibilitas yang tertanam mengenai level granularitas, - kemudahan menangani bentuk-bentuk kesamaan atau jarak, - dapat digunakan pada tipe-tipe atribut apapun.

Kelemahan dari clustering Hirarki berhubungan dengan: - ketidakjelasan kriteria terminasi,

- terhadap perbaikan hasil clustering, sebagian besar algoritma Hirarki tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.

Untuk clustering Hirarki, menggabungkan atau memisahkan subset dari point- point dan bukan point-point individual, jarak antara point-point individu harus digeneralisasikan terhadap jarak antara subset.

Ukuran kedekatan yang diperoleh disebut matrik hubungan. Tipe matrik hubungan yang digunakan secara signifikan mempengaruhi algoritma Hirarki, karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Matrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata, dan hubungan sempurna. Semua matrik hubungan diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967).

D(C

i · · Cj , Ck = ɑ (i) d (Ci , Ck) + ɑ (k) d (Cj , Ck) + bd (Ci , Cj ) + c|d (Ci , Ck) –d(Cj , Cj)| Dimana a, b, c adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah matrik hubungan antara kesatuan dari dua cluster

dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.

Clustering Hirarki berdasarkan matrik hubungan mengalami kompleksitas waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metode- metode grafik memenuhi kondisi ini), metode-metode matrik hubungan memiliki kompleksitas (N2) (Olson 1995).

Dalam dokumen Mesin pencari gambar geometri bangun datar menggunakan Agglomerattive Hierarchical Clustering. (Halaman 34-40)