1
BAB I
PENDAHULUAN
1.1Latar Belakang dan Permasalahan
Perkembangan teknologi informasi yang semakin pesat berdampak pada terjadinya penurunan substansial dalam biaya penyimpanan data, peningkatan pesat dalam kinerja komputer, dan semakin populernya jaringan komputer. Hal tersebut berdampak pada terjadinya produksi data mentah dan informasi dalam volume besar yang dilakukan setiap hari dan dimana pun. Sejumlah besar data tersebut telah menyebabkan berkembangnya teknik pengolahan data yang berguna untuk data clustering atau data mining (Chi dan Yang, 2008).
Clustering sebagai salah satu teknik pengenalan pola yang populer dan telah digunakan dalam berbagai bidang, seperti web mining, machine learning, segmentasi citra dan pengenalan biometrik, teknik elektro, teknik mesin, penginderaan jauh, dan genetika (Gu dan Lu, 2012). Clustering merupakan salah satu isu penelitian yang paling penting dalam domain data mining dan sangat berguna untuk banyak aplikasi, seperti pemasaran, teknik industri, biologi, kedokteran, dan image processing (Yang dan Chi, 2005).
Clustering adalah pembagian data ke dalam kelompok homogen yang disebut cluster. Setiap kelompok terdiri dari objek yang memiliki kesamaan yang lebih besar antara objek lain dalam kelompoknya sendiri dibandingkan dengan objek dalam kelompok lain (Gu dan Lu, 2012). Permasalahan yang banyak ditemui dalam clustering adalah untuk menentukan jumlah k cluster yang paling tepat atau masalah pemilihan model cluster (Cabanes dan Bennani, 2010). Usaha dalam melakukan perbaikan model cluster, seperti jumlah cluster yang optimal dan hasil clustering yang paling baik masih terus dilakukan karena metode yang dikembangkan sekarang masih bersifat heuristik. (Santosa, 2007). Saat ini telah banyak algoritma clustering baru yang diciptakan dengan menggabungkan metode statistik tradisional dengan Artificial Intelligence (AI), seperti neural network, algoritma genetika, teori himpunan fuzzy, dan evolutionary programming (Chi dan Yang, 2008).
2
Pendekatan umum dari algoritma clustering adalah untuk menemukan pusat cluster yang akan mewakili setiap kelompok. Sebuah pusat cluster merupakan sebuah cara untuk mengatakan dimana letak titik pusat dari setiap cluster. Pusat cluster memungkinkan pengukuran kesamaan antara data dengan semua pusat cluster sehingga dapat menentukan cluster yang terdekat atau paling mirip. Beberapa algoritma clustering mengandalkan penentuan jumlah cluster terlebih dahulu. Dalam hal ini, algoritma mencoba untuk mengelompokkan data ke dalam sejumlah cluster tertentu. Beberapa contoh algoritma tersebut adalah K-means (Abdullah dan Feranie, 2008) dan Fuzzy C-Means (Abdullah dan Feranie, 2008).
Dalam banyak aplikasi dunia nyata, dapat terjadi overlapping cluster karena sebuah data secara hakikatnya dapat menjadi anggota dari lebih dari 1 (satu) cluster, sebagai contoh seorang pengguna menjadi anggota dari beberapa komunitas di social network (Bonchi et al, 2011). Problem tersebut tidak dapat ditangani oleh hard clustering karena dilakukan pengelompokkan dimana setiap titik hanya menjadi milik dari dan hanya 1 (satu) cluster (Rokach dan Maimon, 2005).
Permasalahan tersebut dapat diatasi dengan menggunakan fuzzy clustering (Oliveira dan Pedrycz, 2007). Pada pendekatan fuzzy clustering, setiap titik dihubungkan pada setiap cluster dengan membership function dimana setiap cluster merupakan himpunan fuzzy dari semua titik. Semakin besar membership function sebuah titik pada suatu cluster menunjukkan semakin tinggi tingkat kepercayaan titik tersebut menjadi anggota pada sebuah cluster (Rokach dan Maimon, 2005).
Salah satu algoritma clustering yang menerapkan konsep neural network adalah Self-Organizing Map (SOM). SOM merupakan implementasi dari jaringan syaraf tiruan yang sangat bagus dan populer untuk berbagai tujuan yang berbeda termasuk clustering dan visualisasi data berdimensi tinggi (Luo dan Tang, 2010). Secara umum, algoritma clustering mencoba untuk mengelompokkan data dengan memaksimalkan jarak antar cluster dan meminimalkan jarak intra-cluster (Berry dan Linoff, 1996) (Musdholifah dan Hashim, 2010) tetapi SOM melakukan pengelompokan dengan sifat yang sedikit berbeda. SOM dapat dianggap sebagai proyeksi yang mempertahankan hubungan ketetanggaan dalam data (Sarlin dan Eklund, 2011). Keuntungan menggunakan SOM adalah ketahanannya terhadap
3
data noise, yaitu outlier yang mengganggu hasil karena mempengaruhi variansi dari data (Silva dan Marques, 2010). Kelemahan yang dimiliki pada SOM adalah keharusan untuk mendefinisikan struktur jaringan saraf dan jumlah neuron pada lapisan Kohonen (Morkris dan Forgac, 2004) (Engelbrecht, 2007).
Fuzzy Subtractive Clustering (FSC) dapat memecahkan permasalahan SOM tersebut dengan menggunakan titik data sebagai calon pusat cluster (Abdullah dan Feranie, 2008). Pada algoritma FSC, titik data dengan potensi tertinggi yang merupakan fungsi dari pengukuran jarak akan dianggap sebagai pusat cluster (Sastria et al, 2008). Konsep dasar dari subtractive clustering adalah menentukan daerah-daerah dalam suatu variabel yang memiliki densitas tinggi terhadap titik-titik selanjutnya. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat cluster (Kusumadewi dan Purnomo, 2004).
Selain menggabungkan metode statistik tradisional dengan AI, penelitian mengenai clustering yang banyak diteliti adalah menggabungkan lebih dari satu algoritma clustering (two level clustering atau two stage clustering). Two level clustering menggabungkan baik metode hierarchical clustering konvensional dengan metode partitioning clustering (Chi dan Yang, 2008).
Dalam penelitian yang dilakukan oleh Chi dan Yang (2008) dikatakan bahwa tujuan penggunaan two level clustering adalah untuk memperbaiki kelemahan utama dari metode partitional clustering, seperti K-means atau Fuzzy C-Means (FCM). Metode tersebut memiliki kepekaan terhadap prototipe awal dan kesulitan untuk menentukan jumlah cluster k yang sesuai.
Beberapa penelitian menggunakan SOM pada two level clustering (Chi dan Yang, 2008) (Souza et al, 2009) (Sarlin dan Eklund, 2011) (Tarek dan Farouk, 2011). SOM digunakan pada level pertama untuk visualisasi data dengan mereduksi dimensi data yang akan dikelompokkan. Hasil reduksi dimensi data atau protocluster kemudian menjadi data pada algoritma clustering lainnya yang diimplementasikan pada level kedua (Cabanes dan Bennani, 2010). Sejauh ini belum ditemukan penelitian yang menerapkan SOM pada level yang kedua.
Pada penelitian ini diusulkan penggunaan Fuzzy Subtractive Clustering (FSC) dan Self-Organizing Map (SOM) untuk two level clustering. FSC pada awalnya
4
akan digunakan untuk mencari jumlah cluster yang ideal dari data yang akan dikelompokkan. FSC kemudian mencari data yang memiliki densitas tertinggi yang berpotensi untuk menjadi pusat cluster. Hasil dari FSC yang berupa jumlah cluster dan nilai titik pusat setiap cluster kemudian akan menjadi jumlah neuron dan nilai bobot awal pada lapisan Kohonen di SOM. SOM kemudian melakukan proses update bobot sehingga bobot yang dihasilkan dapat menjadi pusat cluster yang ideal dan diharapkan dapat meningkatkan kualitas dari FSC karena telah melalui 2 (dua) kali proses pembelajaran yaitu pada tahap FSC merupakan data yang memiliki densitas tinggi dan penyesuaian bobot dalam SOM.
1.2Rumusan Masalah
Berdasarkan latar belakang yang telah dipaparkan sebelumnya, maka dapat diperoleh rumusan masalah sebagai berikut:
1. Bagaimana meningkatkan kualitas hasil clustering Fuzzy Subtractive Clustering dengan memperbaiki pusat cluster yang dihasilkan?
2. Apakah terdapat pengaruh kualitas hasil clustering dari two level clustering dengan Fuzzy Subtractive Clustering dan Self-Organizing Map jika dibandingkan dengan one level clustering?
1.3Batasan Masalah
Batasan masalah dari penelitian ini adalah sebagai berikut:
1. Untuk pengujian hasil clustering menggunakan dataset yang diperoleh dari UCI Machine Learning Repository, yaitu Iris (jenis tanaman iris), Wine (hasil analisis kimia dari anggur yang tumbuh pada daerah di Italia), Glass (data penyelidikan kriminologi), Wisconsin Diagnostic Breast Cancer, Contraceptive Method Choice, Yeast (data lokasi protein pada bakteri ragi), Optical Digit (hasil ekstraksi bitmaps tulisan tangan), Statlog (nilai multi-spektral dalam citra satelit), Thyroid (data pasien thyroid), dan Magic Gamma (simulasi pencatatan partikel gamma berenergi tinggi pada atmosfer melalui teleskop Cherenkov).
5
2. Nilai r (jari-jari setiap atribut data), squash ratio, accept ratio, dan reject ratio yang digunakan dalam FSC disesuaikan untuk mencapai jumlah cluster yang dengan kualitas terbaik.
3. Pengukuran kualitas hasil clustering menggunakan 4 (empat) alat ukur yang terbagi menjadi 2 (dua) alat ukur kualitas eksternal, yaitu F-Measure dan entropy serta 2 (dua) alat ukur kualitas internal, yaitu Silhouette Index dan Dunn Index.
1.4Keaslian Penelitian
Berdasarkan hasil studi literatur yang telah dibaca dan ditinjau, penelitian mengenai clustering telah banyak dikembangkan dengan menggabungkan beberapa metode optimasi dan metode clustering, seperti ACO dan SOM atau metode clustering dan metode clustering yang lain (two level clustering), seperti SOM dan FCM. Pada penelitian two level clustering, SOM digunakan pada level pertama untuk mereduksi dimensi data yang dikelompokkan. Penggabungan metode Fuzzy Subtractive Clustering dan Self-Organizing Map belum pernah dilakukan sebelumnya.
1.5Tujuan Penelitian
Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:
1. Mengusulkan two level clustering dengan Self-Organizing Map memperbaiki pusat cluster yang dihasilkan oleh Fuzzy Subtractive Clustering.
2. Menganalisis dan mengevaluasi kualitas dan waktu eksekusi hasil clustering dari two level clustering dengan Fuzzy Subtractive Clustering dan Self-Organizing Maps dibandingkan dengan one level clustering.
1.6Manfaat Penelitian
Manfaat yang diharapkan dapat diperoleh dari penelitian ini adalah diharapkan penggunaan Fuzzy Subtractive Clustering dan Self-Organizing Map dalam algoritma two level clustering yang diusulkan dapat menjadi salah satu alternatif algoritma clustering.
6
1.7Metodologi Penelitian
Tahapan yang dilakukan dalam penelitian ini adalah studi literatur, perancangan algoritma clustering, implementasi algoritma clustering, pengujian algoritma clustering, analisis hasil clustering, dan penarikan kesimpulan.
1. Studi Literatur
Pada tahapan studi literatur dilakukan pencarian dan pembacaan paper dan buku yang terkait dengan topik penelitian, masalah yang diangkat, dan penulisan resensi untuk paper dengan kasus yang serupa. Paper dan buku yang dibaca mengenai FSC, SOM, dan two level clustering yang menggunakan metode berbeda. 2. Perancangan Algoritma Clustering
Pada tahap ini dilakukan perancangan algoritma two level clustering. Pada algoritma two level clustering yang dirancang, FSC terlebih dahulu dikerjakan pada tahap pertama yang kemudian dilanjutkan dengan SOM.
3. Implementasi dan Pengujian Algoritma Clustering
Pada tahap ini, hasil perancangan algoritma FSC-SOM diimplementasikan ke dalam bentuk program. Program algoritma FSC-SOM kemudian diimplementasikan untuk melakukan clustering terhadap beberapa dataset yang diperoleh dari UCI Machine Learning Dataset. Proses clustering dilakukan sebanyak 50 kali untuk setiap dataset dengan metode clustering yang berbeda. 4. Analisis Hasil Clustering
Pada tahap ini dilakukan perbandingan kualitas hasil clustering dari algoritma FSC-SOM dengan beberapa algoritma lain, yaitu algoritma FSC dan SOM. Kemudian dilakukan analisis terhadap hasil pengukuran kualitas cluster untuk setiap dataset yang diuji dengan alat ukur yang digunakan adalah F-measure, entropy, Silhouette Index, Dunn Index dan waktu eksekusi.
5. Penarikan Kesimpulan
Pada tahap ini dilakukan penarikan kesimpulan untuk menjawab rumusan masalah penelitian dan memenuhi tujuan penelitian yang telah dijabarkan. Penarikan kesimpulan dilakukan berdasarkan analisis kualitas terhadap hasil clustering yang diperoleh.
7
1.8Sistematika Penulisan
Tesis ini berisi 7 (tujuh) bab dengan rincian setiap bab adalah sebagai berikut: Bab I Pendahuluan
Bab ini berisikan uraian singkat tentang latar belakang dan permasalahan penelitian, rumusan masalah, batasan masalah, keaslian penelitian, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan. Bab II Tinjauan Pustaka
Bab ini berisi uraian penelitian-penelitian yang berkaitan dengan FSC dan SOM yang telah dilakukan sebelumnya dan dijadikan referensi dalam penelitian ini. Bab III Landasan Teori
Bab ini berisi uraian teori-teori dasar berkaitan dengan metode dan alat ukur kualitas hasil yang digunakan dalam penelitian ini. Metode yang digunakan adalah FSC dan SOM sedangkan alat ukur yang digunakan adalah F-Measure, Entropy, Dunn Index, Silhoutte Index, dan standar deviasi.
Bab IV Analisis dan Rancangan Sistem
Bab ini berisi analisis terhadap metode FSC yang digunakan untuk mengatasi salah satu kelemahan SOM dalam penentuan jumlah neuron dan bobot neuron awal pada layer output. Perancangan yang diuraikan dalam bab ini adalah perancangan metode two level clustering, antar muka, dan evaluasi hasil clustering.
Bab V Implementasi
Bab ini berisi implementasi metode clustering dari hasil analisis dan perancangan ke dalam bahasa pemrograman.
Bab VI Hasil dan Pembahasan
Bab ini berisi penentuan nilai parameter yang digunakan, hasil clustering yang diperoleh, dan perbandingan kualitas, karakteristik, perubahan membership function, serta waktu eksekusi hasil clustering metode FSC, SOM, dan FSC-SOM. Bab VII Penutup
Bab ini berisi kesimpulan yang diperoleh dari hasil penelitian dan saran untuk penelitian selanjutnya.