1
BAB I
PENDAHULUAN
BAB I. PENDAHULUAN
1.1 Latar Belakang dan PermasalahanClustering merupakan proses pengelompokan data menjadi
kelompok-kelompok atau klaster sehingga data-data yang berada dalam satu klaster memiliki kemiripan yang tinggi dan data antar klaster memiliki kemiripan yang rendah (Han dan Kamber, 2006).
K-means merupakan salah satu algoritma clustering yang paling populer.
Salah satu alasan dari kepopuleran K-means adalah karena mudah dan sederhana ketika diimplementasikan (Shen, 2010). Beberapa literatur (Shen, 2010), (Arai dan Ridho, 2007) menyatakan bahwa hasil klaster dari K-means sangat sensitif terhadap pemilihan titik pusat awalnya. Untuk setiap percobaan yang dilakukan,
K-means cenderung menghasilkan hasil klaster yang berbeda. Hasil klaster yang
lebih baik seringkali baru didapatkan setelah dilakukan beberapa kali percobaan. Tapi sangat sulit untuk menentukan batasan eksperimen mana yang dapat menghasilkan hasil yang lebih baik (Arai dan Ridho, 2007). Kondisi belum mampunya K-means untuk menghasilkan hasil klaster terbaik ini sering diistilahkan dengan terjebaknya K-means pada solusi lokal optima (Stanley, 2003). Seperti yang disampaikan oleh Stanley (2003), solusi lokal optima merupakan suatu kondisi dimana sudah ditemukannya puncak dari fungsi tujuan, padahal pencarian baru dilakukan pada sebagian kecil ruang pencarian. Dalam hal ini, fungsi tujuan dari K-means adalah menemukan solusi dimana tidak ada solusi lain yang memiliki nilai SSE (Sum Squared Error) lebih kecil dari solusi yang ditemukan. SSE merupakan hasil penjumlahan dari seluruh jarak masing-masing data dengan titik pusat klasternya. Semakin kecil nilai SSE yang didapat, semakin seragam data yang ada didalam masing-masing klaster, semakin baik klaster yang dihasilkan.
Selain karena penentuan titik pusat awal yang dilakukan secara acak, kekurangmampuan K-means untuk menemukan solusi global juga disebabkan oleh cara penentuan titik pusat baru untuk setiap iterasinya yang dilakukan dengan memanfaatkan nilai mean dari data-data yang ada pada klaster bersangkutan. Cui dan Potok (2005) menyatakan cara tersebut hanya akan membuat K-means untuk melakukan penelusuran calon titik pusat baru pada setiap iterasinya dalam wilayah yang sempit disekitar titik pusat awal yang ditentukan secara acak.
Untuk mengatasi permasalahan belum mampunya K-means melakukan pencarian calon titik pusat baru pada area yang lebih luas, sekiranya penerapan suatu metode yang memiliki kemampuan untuk melakukan pencarian global didalam proses penentuan titik pusat baru dalam setiap iterasi yang terjadi pada
K-means akan dapat membantu K-K-means untuk menemukan titik pusat klaster yang
lebih baik.
Mehrabian dan Lucas (2006) mengusulkan sebuah algoritma yang terinspirasi oleh proses kolonisasi rumput liar. Rumput liar merupakan tumbuhan yang kuat didalam penyebarannya juga adaptif terhadap perubahan lingkungan sehingga dapat menjadi ancaman bagi tumbuhan budidaya. Algoritma Invasive Weed
Optimization (IWO) yang dikembangkan oleh Mehrabian dan Lucas mencoba
untuk menirukan sifat acak dan adaptif dari penyebaran rumput liar didalam membangun koloni. Ide dari algoritma IWO adalah menyebarkan rumput pada area yang luas dan sempit sekaligus, yaitu dengan memanfaatkan angka acak yang persebarannya mengikuti distribusi normal. Dalam penelitian yang mereka lakukan, dilakukan uji perbandingan pada algoritma yang diusulkan dengan beberapa algoritma evolutionary lainnya seperti Algoritma Genetika, Algoritma Memetic, Particle Swarm Optimization dan Shuffled Frog Leaping. Hasil pengujian yang didapat menunjukkan algoritma yang mereka usulkan memiliki kinerja yang lebih baik dalam hal pencapaian solusi global.
Pada penelitian ini diusulkan sebuah metode klasterisasi data yang merupakan hasil hibridasi dari algoritma IWO yang diusulkan oleh Mehrabian dan Lucas (2006) dengan algoritma K-means yang selanjutnya akan disebut IWOKM. Diharapkan dengan menerapkan karakteristik pertumbuhan dan penyebaran benih
dari algoritma Invasive Weed Optimization untuk menentukan titik pusat klaster baru pada K-means nantinya dapat membantu K-means untuk tidak terjebak pada solusi lokal optima dan mampu mengarahkan hasil klaster menuju solusi global optima.
1.2 Rumusan Masalah
Dari latar belakang yang disebutkan diatas, maka timbul permasalahan:
1. Bagaimana metode IWO menentukan posisi titik pusat baru untuk setiap iterasi K-means.
2. Bagaimana mengukur performa dari metode IWOKM.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk mengembangkan sebuah metode klasterisasi data yang merupakan hasil hibridasi dari algoritma Invasive Weed Optimization dan K-means yang diharapkan memiliki kemampuan untuk mengarahkan hasil klaster dari K-means menuju solusi global optima.
1.4 Batasan Masalah
Untuk mendapatkan hasil penelitian seperti yang diharapkan dan penelitian yang terarah, maka permasalahan dalam penelitian ini akan dibatasi sebagai berikut:
1. Permasalahan yang dibahas adalah:
- Cara penentuan titik pusat klaster pada K-means dengan menggunakan algoritma Invasive Weed Optimization.
- Data yang digunakan di dalam proses pengujian adalah dataset Iris Bunga, Seed dan Glass yang berupa data numerik yang didapat dari alamat ftp://ftp.ics.uci.edu./pub/machine-learning-databases/.
2. Pengujian dilakukan dengan melakukan perbandingan pada nilai SSE dan
F-measure antara metode yang diusulkan (IWOKM) dengan metode K-means dengan mengujikannya pada dataset yang telah ditentukan.
1.5 Manfaat Penelitian
Hasil penelitian ini diharapkan dapat menambah khazanah penelitian empiris dalam hal cara penentuan titik pusat klaster pada K-means. Juga diharapkan dapat menjadi metode alternatif untuk menyelesaikan permasalahan-permasalahan
clustering.
1.6 Keaslian Penelitian
Berdasarkan studi pustaka yang dilakukan penulis, penelitian mengenai perbaikan cara penentuan titik pusat klaster pada K-means sudah pernah dilakukan sebelumnya. Beberapa diantaranya dipaparkan pada bagian tinjauan pustaka penelitian ini. Namun dari pengamatan penulis, belum ada penelitian yang membahas tentang cara penentuan titik pusat klaster pada K-means dengan memanfaatkan algoritma Invasive Weed Optimization.
1.7 Metode Penelitian
Metode penelitian yang digunakan dalam penelitian ini terdiri dari beberapa tahapan, yaitu:
1. Studi literatur
Mengumpulkan sumber-sumber pustaka antara lain berupa buku-buku dan hasil penelitian mengenai analisa klaster, cara penentuan titik pusat klaster pada K-means dan juga penelitian tentang penerapan algoritma Invasive
Weed Optimization.
2. Analisa dan Perancangan Sistem
Pada tahap ini dilakukan perancangan alur proses dari metode yang diusulkan. Mulai dari perancangan alur algoritma K-means, kemudian dilanjut dengan melakukan perancangan alur proses dari algoritma yang diusulkan.
3. Implementasi
Pada tahap ini dilakukan implementasi dari rancangan algoritma yang telah dibuat pada tahap sebelumnya ke dalam bentuk program.
4. Pengujian
Tahapan ini adalah untuk mengukur seberapa baik klaster yang terbentuk oleh metode IWOKM, yaitu dengan melakukan perbandingan nilai Sum
Squared Error, F-measure dan waktu mencapai konvergen antara metode
IWOKM dan K-means.
1.8 Sistematika Penulisan
Secara garis besar, sistematika penulisan laporan penelitian ini adalah sebagai berikut:
BAB I PENDAHULUAN
Bab ini menguraikan tentang latar belakang dari penelitian yang dilakukan, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, keaslian penelitian, metode penelitian dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Bab ini berisi informasi mengenai beberapa penelitian yang sebelumnya pernah dilakukan, dimana penelitian tersebut memiliki kaitan dengan penelitian yang penulis lakukan. Penelitian-penelitian yang dibahas pada bagian ini yaitu beberapa penelitian tentang perbaikan cara penentuan titik pusat klaster pada K-means dan penelitian tentang pemanfaatan algoritma IWO didalam menyelesaikan kasus-kasus dunia nyata.
BAB III LANDASAN TEORI
Bab ini berisi pembahasan tentang teori-teori yang terkait dengan penelitian yang dilakukan, yaitu: algoritma K-means, algoritma IWO, perhitungan nilai SSE dan F-measure.
BAB IV ANALISA DAN PERANCANGAN SISTEM
Bab ini berisi pembahasan tentang alur proses dari metode yang diusulkan beserta penjelasannya.
BAB V IMPLEMENTASI
Pada bab ini berisi pembahasan tentang hasil implementasi dari rancangan yang telah dibuat. Pembahasan akan berupa potongan kode fungsi-fungsi yang ada beserta penjelasannya.
BAB VI HASIL PENELITIAN DAN PEMBAHASAN
Pada bab ini dilakukan pembahasan tentang hasil yang diperoleh dari pengujian dan analisa terhadap hasil pengujian yang didapat.
BAB VII KESIMPULAN
Pada bab ini dipaparkan kesimpulan yang diperoleh dari penelitian yang dilakukan beserta saran untuk penelitian kedepannya.