ANALISIS DAN IMPLEMENTASI HYPERSPHERICAL FUZZY C-MEANS UNTUK KLASTERISASI DATA YANG MULTI-LABEL
Eggi Farkhan Tsani¹, Angelina Prima Kurniati², Intan Nurma Yulita³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Data mining adalah proses pencarian fakta-fakta dari pola yang dihasilkan oleh data dalam suatu basis data. Dalam data mining, terdapat beberapa metode untuk menyelesaikan masalah, antara lain klasifikasi, clustering, association rule, regresi, sequential pattern dan lain-lain. Pada Tugas Akhir ini dibahas mengenai salah satu metode dalam data mining yaitu Clustering dengan menggunakan fuzzy untuk menentukan derajat keanggotaan suatu data tersebut.
Clustering merupakan proses pengelompokan data ke dalam kelas-kelas atau cluster-cluster sehingga data dalam suatu cluster memiliki tingkat kesamaan yang tinggi satu dengan yang lainnya tetapi berbeda dengan data dalam cluster lain. Clustering dapat dibedakan menjadi 2 kategori yaitu Hierarchial Clustering dan Partitional Clustering. Pada Tugas Akhir ini, digunakan salah satu algoritma Partitional Clustering, suatu algoritma yang mengelompokkan data sejumlah k cluster berdasarkan inputan user yaitu Fuzzy C-Means dan Hyperspherical Fuzzy C-Means. Algoritma Fuzzy C-Means dan Hyperspherical Fuzzy C-Means merupakan algoritma dalam fuzzy clustering. Berdasarkan sifat dari fuzzy clustering tersebut, kedua algoritma ini memungkinkan suatu data untuk menjadi anggota lebih dari satu cluster. Oleh karena itu, algoritma ini
digunakan untuk memecahkan masalah data yang multi-label, dimana data multi-label juga memungkinkan satu data termasuk ke dalam lebih dari satu label.
Kata Kunci : data mining, fuzzy clustering, multi-label
Abstract
Data mining is a process to find facts from data pattern on a database. In data mining, there are some methods to solve the problems, which are classification, clustering, association rule, regression, sequential pattern and many more. This final project explains about clustering which is one of many methods in data mining that using fuzzy to determine membership degree of data. Clustering is a the process of grouping data into classes or clusters so that data in same cluster has a high degree of similaraty with others but has differences from data in other clusters. Clustering can be divided into two categories which are Hierarchial Clustering and Partitional Clustering. In this final project, we used two algorithm of Partitional Clustering, that algorithms can group data in a number of k cluster based on user input, they are Fuzzy C-Means and Hyperspherical Fuzzy C-Means.
Fuzzy C-Means and Hyperspherical Fuzzy C-Means are algorithm in fuzzy clustering. Fuzzy clustering has properties that can grouping data into more than one cluster. Based on that fuzzy clustering’s property, this algorithm are used to solve the problem of multi-label data which enable one data can be include into more than one label.
Keywords : data mining, fuzzy clustering, multi-label
Powered by TCPDF (www.tcpdf.org)
1
1. Pendahuluan
1.1 Latar Belakang
Clustering merupakan proses pengelompokan data ke dalam kelas-kelas atau cluster-cluster
sehingga data dalam suatu cluster memiliki tingkat kesamaan yang tinggi satu dengan lainnya tetapi berbeda dengan data dalam cluster lain[8]. Hal ini sesuai dengan prinsip clustering yang memaksimalkan kemiripan dari anggota-anggota dalam satu cluster dan meminimalkan kemiripan dari anggota-anggota di cluster yang berbeda[4]. Clustering adalah salah satu teknik dalam data mining selain klasifikasi dan asosiasi[2]. Dalam clustering biasa atau hard
clustering, suatu data dikelompokkan menjadi anggota dari suatu cluster saja tetapi pada fuzzy clustering suatu data dapat dikelompokkan menjadi beberapa cluster[9,10]. Oleh karena
itu, fuzzy clustering digunakan untuk menangani data yang multi-label.
Multi-label data merupakan data yang bisa dikelompokkan ke dalam lebih dari satu cluster karena karakteristik yang dimiliki suatu data tersebut tidak hanya termasuk ke dalam satu
cluster melainkan lebih dari satu cluster[15]. Dalam kehidupan sehari-hari, banyak
ditemukan data-data yang tidak hanya dapat dikelompokkan ke dalam satu label, melainkan banyak label. Contohnya adalah artikel yang bisa dikelompokkan ke dalam beberapa topik, musik yang memiliki lebih dari satu genre, dan lain-lain. Data-data tersebut merupakan data yang multi-label. Untuk menentukan apa saja label yang cocok untuk data tersebut, digunakan metode fuzzy clustering karena sesuai dengan karakteristik fuzzy yang tidak kaku dan dapat membuat keputusan layaknya manusia sehingga metode ini dapat dikatakan sangat toleran untuk menentukan label mana saja yang cocok untuk data tersebut[3,14].
Prinsip kerja Fuzzy clustering dalam mengelompokkan data tersebut adalah dengan menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal
Euclidian untuk jarak antar vektor[4]. Ada 2 metode dasar pada fuzzy clustering, yaitu
metode fuzzy clustering dengan ditentukan jumlah clusternya terlebih dahulu dan metode
fuzzy clustering yang tidak ditentukan jumlah clusternya terlebih dahulu[6]. Pada Tugas
Akhir ini, digunakan metode fuzzy clustering dengan ditentukan jumlah clusternya terlebih dahulu yaitu Hyperspherical Fuzzy C-Means (H-FCM). Metode ini merupakan modifikasi dari algoritma Fuzzy C-Means. Pada Fuzzy C-Means, penentuan cluster didasarkan pada derajat keanggotaaan dan jarak vektor euclidian[1,6] sedangkan Hyperspherical Fuzzy
C-Means (H-FCM) prinsip kerjanya hampir sama dengan Fuzzy C-C-Means tetapi metode Hyperspherical Fuzzy C-Means mengganti jarak vektor euclidian dengan fungsi dissimilarity[4]. Metode ini melakukan cluster pada data yang bertipe numerik.
Pada dasarnya, sudah banyak pengimplementasian algoritma Hyperspherical Fuzzy C-Means dalam klasterisasi data. Tetapi, pengimplementasian tersebut hanya dengan data-data yang pada dasarnya bersifat single label. Pada Tugas Akhir ini, dilakukan penelitian klasterisasi data menggunakan algoritma Hyperspherical Fuzzy C-Means untuk menangani data yang
multi-label. Kasus multi-label ini biasanya diselesaikan dengan metode klasifikasi, sedangkan
pada Tugas Akhir ini akan dilakukan sesuatu hal yang baru yaitu memecahkan kasus
multi-label tersebut diselesaikan dengan metode clustering. Setelah dilakukan pengujian akan
dilihat performansi dari metode clustering dalam memecahkan kasus data yang multi-label.
2
1.2 Perumusan Masalah
Permasalahan-permasalahan yang akan diteliti pada tugas akhir ini antara lain :
1. Bagaimana mengimplementasikan Hyperspherical Fuzzy C-Means dalam memproses data yang multi-label?
2. Bagaimana performansi hasil klasterisasi dengan algoritma Hyperspherical Fuzzy
C-Means dari segi akurasi, precision dan recall ?
1.3 Batasan Masalah
Adapun batasan-batasan masalah pada Tugas Akhir ini antara lain :
1. Penelitian Tugas Akhir ini menangani klasterisasi data yang multi-label dengan algoritma Hyperspherical Fuzzy C-Means.
2. Dataset yang digunakan merupakan data yang multi-label.
3. Dataset yang digunakan untuk analisis adalah data yeast dan scene.
4. Tidak menangani data preprocessing dimana data training dan data testing bersih dari
noise, missing value, outlier dan permasalahan data lainnya.
5. Akurasi, Precision dan recall dijadikan kriteria utama dalam penelitian Tugas Akhir ini.
1.4 Tujuan
Mengacu pada masalah-masalah diatas, tujuan Tugas Akhir ini adalah :
1. Melakukan pengelompokan data yang multi-label ke dalam cluster-cluster.
2. Melakukan analisis performansi dari segi akurasi, precision dan recall terhadap algoritma Hyperspherical Fuzzy C-Means (H-FCM) dalam melakukan klasterisasi data yang multi-label.
Hipotesa :
Berdasarkan karakteristik metode fuzzy clustering, metode tersebut dapat menangani data yang multi-label dengan performansi akurasi, precision dan recall yang baik. Pada Tugas Akhir ini digunakan salah satu algoritma fuzzy clustering yaitu algoritma Hyperspherical
Fuzzy C-Means.
1.5 Metodologi Penyelesaian Masalah
Metodologi penyelesaian masalah yang akan dilakukan pada penelitian Tugas Akhir ini adalah sebagai berikut :
1. Studi literatur
Pada tahap ini dilakukan pencarian referensi-referensi untuk penelitian Tugas Akhir seperti referensi tentang konsep fuzzy, multi-label, algoritma Fuzzy C-Means dan
Hyperspherical Fuzzy C-Means.
2. Pengumpulan data
Mengumpulkan dataset dimana data tersebut akan digunakan dalam proses klasterisasi data. Data-data yang dikumpulkan merupakan data yang sesuai dengan Tugas Akhir ini yaitu data yang multi-label.
3. Analisis dan perancangan sistem
Melakukan analisa kebutuhan dan fungsionalitas sistem yang akan dibangun. Tentunya sistem yang akan dibangun sesuai dengan metode yang digunakan pada Tugas Akhir ini yaitu algoritma Hyperspherical Fuzzy C-Means (H-FCM).
3 4. Implementasi dan pembangunan sistem
Melakukan pengimplementasian fungsionalitas sistem yang ingin dibuat dalam Tugas Akhir ini. Pengimplementasian fungsionalitas tersebut akan dituangkan kedalam sebuah program yang dapat mengklasterisasi data secara otomatis untuk data yang
multi-label.
5. Pengujian sistem dan analisa hasil
Pada tahap ini akan dilakukan pengujian sistem apakah program yang dibuat tersebut sudah sesuai dengan fungsionalitas yang telah dirancang pada tahap perancangan sistem. Selain itu, pada tahap ini juga dilakukan analisa hasil klasterisasi baik dari segi
precision, recall maupun waktu eksekusi dari algoritma Hyperspherical Fuzzy C-Means (H-FCM).
6. Pengambilan kesimpulan dan penyusunan laporan
Melakukan pengambilan kesimpulan dari hasil penelitian apakah metode
Hyperspherical Fuzzy C-Means ini memiliki performansi baik dalam melakukan
klasterisasi data dan apakah hasil yang dicapai sesuai dengan hipotesa penulis. Pada tahap ini juga akan dilakukan penyusunan laporan Tugas Akhir.
Powered by TCPDF (www.tcpdf.org)
34
5. Kesimpulan dan Saran
5.1 Kesimpulan
Berdasarkan pengujian yang dilakukan pada Tugas Akhir ini, dapat diambil kesimpulan sebagai berikut :
1. Parameter-parameter yang mempengaruhi performansi algoritma Hyperspherical Fuzzy
C-Means adalah pembobot, maksimum iterasi dan nilai error terkecil.
2. Nilai pembobot pada algoritma ini menentukan tingkat fuzziness dari suatu data.
3. Nilai maksimum iterasi dan error terkecil adalah dua parameter yang menentukan jumlah iterasi yang dilakukan oleh algoritma ini.
4. Algoritma Hyperspherical Fuzzy C-Means menghasilkan derajat keanggotaan dengan tingkat fuzziness yang lebih tinggi dibandingkan dengan algoritma Fuzzy C-Means.
5. Algoritma Hyperspherical Fuzzy C-Means lebih unggul dalam mengklasterisasi dataset
yeast, sedangkan algoritma Fuzzy C-Means lebih unggul dalam mengklasterisasi dataset scene.
6. Sesuai dengan tabel performansi pada lampiran C, metode clustering menghasilkan nilai akurasi yang seimbang dibandingkan dengan metode klasifikasi.
7. Sesuai dengan tabel performansi metode klasifikasi pada lampiran C, metode clustering menghasilkan nilai precision dan recall yang lebih rendah dibandingkan dengan metode klasifikasi.
5.2 Saran
1. Untuk menangani data yang multi-label, sebaiknya menggunakan metode klasifikasi sesuai dengan referensi [15].
2. Cari algoritma clustering yang cocok untuk menangani data multi-label sehingga menghasilkan nilai performasi yang tinggi.
Powered by TCPDF (www.tcpdf.org)
35
Daftar Pustaka
[1] Aziz, Abdul. 2010. Aplikasi Algoritma Fuzzy C-Means Clustering untuk
Pengelompokkan Lulusan. Diakses pada 12 Maret 2011 di
http://blog.uin- malang.ac.id/abdulaziz/2010/09/07/aplikasi-algoritma-fuzzy-c-means-clustering-untuk-pengelompokkan-lulusan/
[2] Data Mining diakses pada 12 Maret 2011 di http://garethdata.blogspot.com
[3] Fuzzy Logic-Part 1 diakses pada 12 Maret 2011 di http://ai.indra-ehm.net/?p=11
[4] Hierarchial Hyperspherical Fuzzy C-Means diakses pada 12 Maret 2011 di
http://himatifumg.blogspot.com/2008/10/hierarchical-hyper-spherical-fuzzy-c.html
[5] Irnasari, Yunita. 2011. Analisis dan Implementasi Data Kategori Menggunakan metode scalable information bottleneck (LIMBO). Bandung:Fakultas Informatika IT Telkom.
[6] Khoirudin, Arwan Ahmad. 2007. Menentukan Nilai Akhir Kuliah dengan Fuzzy
C-Means. Diakses pada 12 Maret 2011 di
http://yudiagusta.files.wordpress.com/2009/11/232-239-snsi07-041-menentukan-nilai-akhir-kuliah-dengan-fuzzy-c-means.pdf
[7] Kusumadewi, Sri; Purnomo, Hari. 2004. Aplikasi Logika Fuzzy untuk Pendukung
Keputusan. Penerbit Graha Ilmu
[8] Luthfi, Emha Taufiq. Fuzzy C-Means untuk Clustering Data. Yogyakarta:Seminar
Nasional Teknologi 2007.
[9] Mendes, M.E.S and L.Sacks. Dynamic Knowledge Representation for e-Learning
Applications. 2001 diakses pada 12 Maret 2011 di
www.ee.ucl.ac.uk/~mmendes/docs/flint2001.pdf
[10] Mendes, M.E.S and L.Sacks. 2003. Evaluating Fuzzy Clustering for Relevance-based
Information Access. diakses pada 12 Maret 2011 di http://www.ee.ucl.co.uk
[11] Mendes, M.E.S and L.Sacks. 2003. A Scalable Hierarchial Fuzzy Clustering Algorithm
for Text Mining. diakses pada 12 Maret 2011 di
www.citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.107.9846
[12] Nascimento, S., B. Mirkin, F. Moura-Pires. 2002. A Fuzzy Clustering Model of Data
and Fuzzy C-Means. Diakses pada 12 Maret 2011 di
www.ee.sharif.edu/~miap/Files/FuzzIEEE00.pdf
[13] Riswanto,ricky. 2007. Metode Sampling dalam Menyelesaikan Data Text Imbalance untuk Klasifikasi Multi-Label. Bandung:Departemen Teknik Informatika IT Telkom [14] Suyanto. 2007. Artificial Intelligence. Bandung : Informatika.
36 [15] Tsoumakas, G. And I. Katakis. 2007. Multi-Label Classification: An Overview.
International Journal Of Data Warehousing And Mining, 3(3):1-13, 2007.
[16] Thieme, Lars Shmidt.2003.Multi-label Classification.diakses pada 18 Desember 2011
di
http://www.ismll.uni-hildesheim.de/lehre/ml-06w/skript/ml-4up-04-mlabelclassification.pdf
[17] Yulita, Intan Nurma. 2008. Metode Boosting untuk Kategorisasi Berita Berbahasa Indonesia yang Multi-label. Departemen Teknik Informatika IT Telkom : Bandung.
Powered by TCPDF (www.tcpdf.org)