BAB I
PENDAHULUAN
1.1. Latar Belakang
Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering
digunakan secara luas di dalam berbagai bidang seperti social network analysis,
software engineering, dan crime detection. Terdapat beberapa algoritma clustering
yang dapat digunakan, tetapi algoritma K-Means dan Fuzzy C-Means adalah algoritma yang umum digunakan karena cukup sederhana (Bai et al., 2011).
Clustering adalah merupakan salah satu kelompok dari data mining (Larose, 2006). Pada algoritma K-Means, penentuan jumlah cluster dan penentuan centroid
(pusat) merupakan hal yang cukup sulit untuk dilakukan. Penentuan jumlah cluster dan penentuan centroid (pusat) mempengaruhi secara langsung kualitas dari proses
clustering (Maitra, et al., 2010).
Algoritma K-Means klasik secara umum memerlukan inputan dari user untuk menentukan jumlah dari cluster, kemudian akan secara random menentukan posisi
centroid untuk tiap cluster yang ada dan kemudian akan menempatkan suatu data ke dalam suatu cluster berdasarkan kedekatan jarak yang ada. Penelitian yang dilakukan oleh Li et al. (2015) mengenai metode K-Means Global Optimal membahas mengenai proses partisi cluster yang ada menjadi beberapa bagian untuk mencegah agar K-Means terjebak ke dalam kondisi local optima. Penelitian mengenai penentuan centroid sendiri juga sangat menarik perhatian sejumlah peneliti.
berubah sepanjang iterasi dan diperoleh berdasarkan rata-rata koordinat dari data-data
yang dikelompokkan ke dalam cluster tersebut (Rahman dan Islam, 2014).
Sejumlah peneliti telah melakukan penelitian mengenai penentuan centroid pada algoritma K-Means. Ahmad dan Dey (2007) menggunakan konsep fuzzy di dalam penentuan centroid. Proses penentuan centroid akan dilakukan dengan cara membangkitkan bilangan acak untuk centroid tiap cluster. Nilai acak tersebut kemudian akan masuk ke dalam tahapan inferensi dan kemudian hasil defuzzifikasi akan menjadi nilai centroid tiap cluster. Cara penentuan centroid ini hampir sama dengan penentuan
centroid dengan cara random dan tingkat keakuratannya belum teruji untuk dataset
berukuran besar. Cara penentuan centroid yang sama pernah dilakukan oleh Rahman dan Islam (2012) di dalam penentuan centroid untuk fuzzy clustering.
Cao et al. (2009) melakukan penentuan centroid berdasarkan nilai frekuensi dari data. Nilai frekuensi dari data menggambarkan nilai rata-rata dari posisi nilai atribut
dari tiap data yang ada pada suatu cluster. Kelemahan dari metode ini adalah data-data di dalam suatu cluster harus memiliki nilai atribut yang tidak memiliki perbedaan terlalu besar. Apabila terdapat perbedaan nilai atribut yang terlalu besar, tentu hasil clustering
tidak memberikan hasil yang baik.
Rahman dan Islam (2014) mengemukakan metode Hybrid Clustering yang dikenal sebagai GenClust yang menggabungkan pemakaian algoritma K-Means dengan Algoritma Genetika. Algoritma Genetika digunakan untuk menentukan jumlah cluster
dan juga centroid dari tiap cluster. Penggunaan metode GenClust dapat menghindarkan algoritma K-Means di dalam terjebak di dalam kondisi local optima. Algoritma genetika merupakan salah satu model soft computing yang sering digunakan dalam menyelesaikan permasalahan optimasi. Dalam algoritma genetika terdapat tiga
parameter penting yang harus didefinisikan yaitu ukuran populasi, probabilitas pindah
silang dan probabilitas mutasi. Ketiga parameter ini harus didefinisikan secara hati-hati
agar tidak terjadi konvergensi dini atau lokal optimum yaitu dimana
individu-individu dalam populasi konvergen pada suatu solusi optimum lokal sehingga hasil
paling optimum tidak dapat ditemukan (Muzid, 2014).
kromosom diperoleh melalui perhitungan deterministic dan 50% kromosom diperoleh melalui bilangan acak. Rahman dan Islam (2014) pada bagian akhir penelitian
menyatakan bahwa metode GenClust akan mengalami kendala komputasi ketika
diterapkan pada dataset berukuran besar. Oleh karena itu, Rahman dan Islam (2014) pada akhir penelitiannya menyarankan untuk mengambil sample data pada dataset dan mengimplementasikan GenClust untuk mendapatkan best chromosome dan kemudian mengimplementasikannya sebagai initial centroid pada K-Means. Namun, belum ada penelitian lanjutan yang membahas mengenai perbandingan performance dari metode GenClust dan metode GenClust yang telah dimodifikasi sesuai dengan saran dari
Rahman dan Islam (2014).
Penelitian ini akan membahas mengenai perbandingan antara metode GenClust,
metode GenClust yang dimodifikasi dan juga K-Means klasik di dalam penentuan
centroid khususnya di dalam perbandingan untuk mengukur nilai performance yang diukur dari Mean Square Error yang terjadi untuk suatu dataset.
1.2. Rumusan Masalah
Penempatan suatu data di dalam suatu dataset pada algoritma K-Means didasarkan pada kedekatan data tersebut dengan centroid dari tiap cluster, sehingga nilai centroid sangat berpengaruh terhadap hasil clustering dengan menggunakan algoritma K-Means. Permasalahannya adalah pada algoritma K-Means penentuan centroid dilakukan dengan membangkitkan bilangan acak, sehingga hasil clustering dapat menunjukkan hasil yang kurang baik. Penelitian ini akan menggunakan metode GenClust yang telah dimodifikasi, di mana kromosom yang digunakan seluruhnya diperoleh melalui
perhitungan deterministik. Melalui penelitian ini akan diperoleh perbandingan kinerja
yang dinyatakan di dalam nilai Mean Square Error (MSE) antara algoritma K-Means
1.3. Batasan Masalah
Sehubungan dengan luasnya permasalahan dan adanya keterbatasan waktu dan
pengetahuan peneliti, maka peneliti membatasi masalah yang akan dibahas di dalam
penelitian ini sebagai berikut.
1. Penelitian ini akan membahas pengaruh dari penentuan jumlah cluster dan juga
centroid pada suatu dataset berukuran besar dengan melakukan perbandingan antara metode GenClust dengan algoritma K-Means klasik.
2. Perbandingan kinerja di dalam penelitian ini didasarkan pada nilai Mean Square Error yang diperoleh pada setiap generasi (iterasi).
1.4. Tujuan Penelitian
Tujuan dari penelitian ini adalah menghasilkan perbandingan kinerjayang dinyatakan
dalam Mean Square Error yang dipengaruhi oleh penentuan centroid pada metode K-Means dengan menggunakan metode GenClust, metode GenClust yang dimodifikasi
dan juga K-Means klasik.
1.5. Manfaat Penelitian
Adapun manfaat dari penelitian adalah sebagai berikut.
1. Melalui penelitian ini peneliti akan memperoleh hasil analisis mengenai
keterkaitan antara jumlah cluster dan penentuan centroid terhadap hasil
clustering.
2. Mengetahui pencapaian kinerja yang diperoleh dengan menggunakan metode
GenClust bila dibandingkan dengan menggunakan algoritma K-Means klasik.
1.6. Sistematika Penulisan
Penyusunan tesis ini menggunakan kerangka pembahasan yang terbentuk dalam
BAB II : TINJAUAN PUSTAKA
Bab ini berisikan tentang landasan teori yang mendukung penelitian yang
akan dilakukan.
BAB III : METODOLOGI PENELITIAN
Bab ini berisikan tentang data yang digunakan dan metode yang digunakan
di dalam pelaksanaan penelitian.
BAB IV : HASIL DAN PEMBAHASAN
Bab ini berisi tentang pemaparan mengenai hasil penelitian dan
pembahasan mengenai hasil yang diperoleh.
BAB V : KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan yang diperoleh dari hasil penelitian dan
saran yang dapat diberikan kepada pembaca maupun peneliti yang akan