1
BAB 1 PENDAHULUAN
1.1Latar Belakang
Salah satu tehnik yang dibuat dalam data mining yang ada adalah bagaimana menelusuri data yang ada untuk membangun sebuah model, kemudian menggunakan model tersebut untuk mengenali sebuah pola data yang lain. Objek dari data tersebut bisa berupa produk barang dan jasa, benda, orang atau wilayah. Pekerjaan yang berkaitan dengan data mining terbagi kedalam empat kelompok, yaitu model prediksi, analisis kelompok, analisis asosiasi dan deteksi anomali.
Unsupervised learning atau di sebut juga metode clustering mengekplorasian
sekelompok data tanpa menggunakan label. Tujuan clustering ini adalah menemukan kriteria pembagi untuk membagi sekelompok data dan memasukkan data kedalam cluster yang tepat. Proses ini melakukan observasi hingga kesetiap cluster untuk membagi beberapa kriteria. Secara lebih ringkas metode clustering adalah metode pengelompokan berdasarkan kedekatan dari karakteristik tertentu (Oliveira et al, 2007).
2
Dalam perhitungan metode clustering algoritma Fuzzy C-Means batas optimum untuk algoritma ini sering menjadi masalah. Penentuan titik pusat yang berbeda menghasilkan cluster yang berbeda dikarenakan nilai derajat keanggotaan µ awal yang terbentuk secara random yang disebar (Karlina et al, 2006). Hal tersebut akan menghasilkan perulangan perhitungan yang berhingga sampai selisih antara fungsi objektif P mencapai lebih kecil dari ξ. Dikarenakan hal tersebut biasanya peneliti mengambil alternatif lain yaitu mengambil batas iterasi(MaxIter) berdasarkan nilai yang ditentukan. Perhitungan fungsi objektif optimum sebagai titik henti dalam Fuzzy C-Means didasarkan pada perhitungan Pt –Pt-1< ξ dengan jumlah perulangan yang belum diketahui. Jika ξ memiliki nilai yang cukup kecil seperti 0,05, jumlah perulangan untuk mencapai Pt –Pt-1< ξ untuk kasus-kasus tertentu dengan tingkat sebaran data yang tinggi maka jumlah iterasi perhitungannya akan semakin bertambah jika nilai ξ cukup besar maka belum tentu data akan masuk kedalam cluster yang tepat.
Dalam penelitian ini dikembangkan algoritma clusterisasi yang berbasis herarki Agglomeratif untuk menentukan titik awal pusat data pada algoritma Fuzzy C-Means yang berbasis non-herarki. Penentuan titik pusat yang tepat akan mengurangi waktu pemrosesan dan clusterisasi data pada algoritma Fuzzy C-Means (Hung et al, 2001). Dengan melakukan perhitungan jarak dari setiap titik dan menganalisis nilai pergerakan dan perubahan titik pusat pada setiap perulangannya serta menentukan secara lebih tepat nilai titik pusat awal diharapkan bisa menemukan alternatif atau penambahan model lain Fuzzy C-Means untuk membatasi jumlah iterasi yang berhingga agar mencapai nilai perulangan yang lebih sedikit dan lebih efisien.
1.2Rumusan Masalah
Berdasarkan latar belakang yang dijelaskan, maka permasalahan yang di analisis adalah :
3
1.3Batasan Masalah
Dalam penelitian ini terdapat beberapa batasan dalam pembahasan yang dilakukan antara lain:
1. Algoritma yang menjadi fokus penelitian adalah Fuzzy Means dan Fuzzy C-Means pengembangan dengan parameter uji dan data yang sama.
2. Data yang digunakan adalah UCI Learning Machine Repository Grammatical Facial Expressions
3. Menilai kebaikan Fuzzy C-Means dan Fuzzy C-Means pengembangan berdasarkan beberapa keriteria metode clustering.
4. Ukuran kemiripan menggunakan Euclidean distance dalam Fuzzy C-Means.
1.4Tujuan Penelitian
Tujuan penelitian dalam tesis ini diuraikan sebagai berikut :
Melakukan pengembangan pada algoritma Agglomerative Clustering Complete Linkage untuk menentukan titik awal pada algoritma Fuzzy C-Means.
1.5Manfaat Penelitian
Manfaat yang didapat dari penelitian ini adalah :
1. Menambah wawasan keilmuan khususnya tentang analisis clustering, metode
clustering.