• Tidak ada hasil yang ditemukan

Analisis Kinerja Metode Gabungan Genetic Algorithm dan K-Means Clustering dalam Penentuan Nilai Centroid

N/A
N/A
Protected

Academic year: 2017

Membagikan "Analisis Kinerja Metode Gabungan Genetic Algorithm dan K-Means Clustering dalam Penentuan Nilai Centroid"

Copied!
5
0
0

Teks penuh

(1)

BAB I

PENDAHULUAN

1.1. Latar Belakang

Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

digunakan secara luas di dalam berbagai bidang seperti social network analysis,

software engineering, dan crime detection. Terdapat beberapa algoritma clustering

yang dapat digunakan, tetapi algoritma K-Means dan Fuzzy C-Means adalah algoritma yang umum digunakan karena cukup sederhana (Bai et al., 2011).

Clustering adalah merupakan salah satu kelompok dari data mining (Larose, 2006). Pada algoritma K-Means, penentuan jumlah cluster dan penentuan centroid

(pusat) merupakan hal yang cukup sulit untuk dilakukan. Penentuan jumlah cluster dan penentuan centroid (pusat) mempengaruhi secara langsung kualitas dari proses

clustering (Maitra, et al., 2010).

Algoritma K-Means klasik secara umum memerlukan inputan dari user untuk menentukan jumlah dari cluster, kemudian akan secara random menentukan posisi

centroid untuk tiap cluster yang ada dan kemudian akan menempatkan suatu data ke dalam suatu cluster berdasarkan kedekatan jarak yang ada. Penelitian yang dilakukan oleh Li et al. (2015) mengenai metode K-Means Global Optimal membahas mengenai proses partisi cluster yang ada menjadi beberapa bagian untuk mencegah agar K-Means terjebak ke dalam kondisi local optima. Penelitian mengenai penentuan centroid sendiri juga sangat menarik perhatian sejumlah peneliti.

(2)

berubah sepanjang iterasi dan diperoleh berdasarkan rata-rata koordinat dari data-data

yang dikelompokkan ke dalam cluster tersebut (Rahman dan Islam, 2014).

Sejumlah peneliti telah melakukan penelitian mengenai penentuan centroid pada algoritma K-Means. Ahmad dan Dey (2007) menggunakan konsep fuzzy di dalam penentuan centroid. Proses penentuan centroid akan dilakukan dengan cara membangkitkan bilangan acak untuk centroid tiap cluster. Nilai acak tersebut kemudian akan masuk ke dalam tahapan inferensi dan kemudian hasil defuzzifikasi akan menjadi nilai centroid tiap cluster. Cara penentuan centroid ini hampir sama dengan penentuan

centroid dengan cara random dan tingkat keakuratannya belum teruji untuk dataset

berukuran besar. Cara penentuan centroid yang sama pernah dilakukan oleh Rahman dan Islam (2012) di dalam penentuan centroid untuk fuzzy clustering.

Cao et al. (2009) melakukan penentuan centroid berdasarkan nilai frekuensi dari data. Nilai frekuensi dari data menggambarkan nilai rata-rata dari posisi nilai atribut

dari tiap data yang ada pada suatu cluster. Kelemahan dari metode ini adalah data-data di dalam suatu cluster harus memiliki nilai atribut yang tidak memiliki perbedaan terlalu besar. Apabila terdapat perbedaan nilai atribut yang terlalu besar, tentu hasil clustering

tidak memberikan hasil yang baik.

Rahman dan Islam (2014) mengemukakan metode Hybrid Clustering yang dikenal sebagai GenClust yang menggabungkan pemakaian algoritma K-Means dengan Algoritma Genetika. Algoritma Genetika digunakan untuk menentukan jumlah cluster

dan juga centroid dari tiap cluster. Penggunaan metode GenClust dapat menghindarkan algoritma K-Means di dalam terjebak di dalam kondisi local optima. Algoritma genetika merupakan salah satu model soft computing yang sering digunakan dalam menyelesaikan permasalahan optimasi. Dalam algoritma genetika terdapat tiga

parameter penting yang harus didefinisikan yaitu ukuran populasi, probabilitas pindah

silang dan probabilitas mutasi. Ketiga parameter ini harus didefinisikan secara hati-hati

agar tidak terjadi konvergensi dini atau lokal optimum yaitu dimana

individu-individu dalam populasi konvergen pada suatu solusi optimum lokal sehingga hasil

paling optimum tidak dapat ditemukan (Muzid, 2014).

(3)

kromosom diperoleh melalui perhitungan deterministic dan 50% kromosom diperoleh melalui bilangan acak. Rahman dan Islam (2014) pada bagian akhir penelitian

menyatakan bahwa metode GenClust akan mengalami kendala komputasi ketika

diterapkan pada dataset berukuran besar. Oleh karena itu, Rahman dan Islam (2014) pada akhir penelitiannya menyarankan untuk mengambil sample data pada dataset dan mengimplementasikan GenClust untuk mendapatkan best chromosome dan kemudian mengimplementasikannya sebagai initial centroid pada K-Means. Namun, belum ada penelitian lanjutan yang membahas mengenai perbandingan performance dari metode GenClust dan metode GenClust yang telah dimodifikasi sesuai dengan saran dari

Rahman dan Islam (2014).

Penelitian ini akan membahas mengenai perbandingan antara metode GenClust,

metode GenClust yang dimodifikasi dan juga K-Means klasik di dalam penentuan

centroid khususnya di dalam perbandingan untuk mengukur nilai performance yang diukur dari Mean Square Error yang terjadi untuk suatu dataset.

1.2. Rumusan Masalah

Penempatan suatu data di dalam suatu dataset pada algoritma K-Means didasarkan pada kedekatan data tersebut dengan centroid dari tiap cluster, sehingga nilai centroid sangat berpengaruh terhadap hasil clustering dengan menggunakan algoritma K-Means. Permasalahannya adalah pada algoritma K-Means penentuan centroid dilakukan dengan membangkitkan bilangan acak, sehingga hasil clustering dapat menunjukkan hasil yang kurang baik. Penelitian ini akan menggunakan metode GenClust yang telah dimodifikasi, di mana kromosom yang digunakan seluruhnya diperoleh melalui

perhitungan deterministik. Melalui penelitian ini akan diperoleh perbandingan kinerja

yang dinyatakan di dalam nilai Mean Square Error (MSE) antara algoritma K-Means

(4)

1.3. Batasan Masalah

Sehubungan dengan luasnya permasalahan dan adanya keterbatasan waktu dan

pengetahuan peneliti, maka peneliti membatasi masalah yang akan dibahas di dalam

penelitian ini sebagai berikut.

1. Penelitian ini akan membahas pengaruh dari penentuan jumlah cluster dan juga

centroid pada suatu dataset berukuran besar dengan melakukan perbandingan antara metode GenClust dengan algoritma K-Means klasik.

2. Perbandingan kinerja di dalam penelitian ini didasarkan pada nilai Mean Square Error yang diperoleh pada setiap generasi (iterasi).

1.4. Tujuan Penelitian

Tujuan dari penelitian ini adalah menghasilkan perbandingan kinerjayang dinyatakan

dalam Mean Square Error yang dipengaruhi oleh penentuan centroid pada metode K-Means dengan menggunakan metode GenClust, metode GenClust yang dimodifikasi

dan juga K-Means klasik.

1.5. Manfaat Penelitian

Adapun manfaat dari penelitian adalah sebagai berikut.

1. Melalui penelitian ini peneliti akan memperoleh hasil analisis mengenai

keterkaitan antara jumlah cluster dan penentuan centroid terhadap hasil

clustering.

2. Mengetahui pencapaian kinerja yang diperoleh dengan menggunakan metode

GenClust bila dibandingkan dengan menggunakan algoritma K-Means klasik.

1.6. Sistematika Penulisan

Penyusunan tesis ini menggunakan kerangka pembahasan yang terbentuk dalam

(5)

BAB II : TINJAUAN PUSTAKA

Bab ini berisikan tentang landasan teori yang mendukung penelitian yang

akan dilakukan.

BAB III : METODOLOGI PENELITIAN

Bab ini berisikan tentang data yang digunakan dan metode yang digunakan

di dalam pelaksanaan penelitian.

BAB IV : HASIL DAN PEMBAHASAN

Bab ini berisi tentang pemaparan mengenai hasil penelitian dan

pembahasan mengenai hasil yang diperoleh.

BAB V : KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan yang diperoleh dari hasil penelitian dan

saran yang dapat diberikan kepada pembaca maupun peneliti yang akan

Referensi

Dokumen terkait

Algoritma K-Means Cluster Analysis mempergunakan metode perhitungan jarak (distance) untuk mengukur tingkat kedekatan antara data dengan titik tengah (centroid),

Fuzzy C-means (FCM) adalah salah satu teknik pengelompokan data yang mana keberadaan tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Konsep

dengan nilai terbesar pada centroid akhir merupakan cluster yang direkomendasikan menerima beasiswa, sedangkan cluster dengan nilai terkecil pada centroid akhir

Penggunaan algoritma K-Means adalah dapat membantu dalam mengelompokkan data, dan informasi yang ditampilkan berupa nilai centroid dari tiap-tiap cluster,

Flowchart Algoritma K-Means merupakan flowchart yang berisi urutan proses darii mencari frekuensi kemunculan kata (Tf), mencari jumlah cluster, menentukan centroid

Dari penelitian yang dilakukan, algoritma k-means dapat mengelompokan data kedalam suatu cluster berdasarkan karakteristik, sehingga data dengan karakteristik yang sama akan

Pada algoritma ini, yang menjadi pusat cluster dinamakan centroid, centroid merupakan nilai acak dari seluruh kumpulan data yang dipilih pada tahap awal, kemudian

Copyright © 2023 Budi Hartono, Page 503 Perbandingan Metode Perhitungan Jarak pada Nilai Centroid dan Pengelompokan Data Menggunakan K-Means Clustering Budi Hartono*, Sri Eniyati,