Data Clustering - TINJAUAN PUSTAKA - Analisis Perbandingan Proses Cluster Menggunakan K- Means

TINJAUAN PUSTAKA

2.3. Data Clustering

Data Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan

(unsupervised). Ada dua jenis data clustering yang sering dipergunakan dalam proses

pengelompokan data yaitu hierarchical data clustering dan non-hierarchical

data clustering. K-Means merupakan salah satu metode data clustering non hirarki

yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster / kelompok. Metode ini mempartisi data ke dalam cluster / kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.

Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan

objective function yang diset dalam proses clustering, yang pada umumnya berusaha

meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster.

2.4.Clustering

Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek

komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan

lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu.

Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan

clustering atau unsupervised classification. Melakukan analisa dengan clustering,

akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip "divide and

conquer" yang mendekomposisikan suatu sistem skala besar, menjadi komponen-

komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi.

2.4.1. K-Means Clustering

Salah satu metode partisi atau biasa disebut juga dengan metode non hierarki. Salah satu metode partisi yang biasa digunakan adalah metode K-Means Clustering. Metode K-Means Clustering dapat diterapkan pada kasus dengan jumlah objek yang sangat besar (UTA10).

Dari beberapa teknik clustering yang paling sederhana dan umum dikenal adalah clustering K-Means. Dalam teknik ini kita ingin mengelompokkan obyek ke dalam K kelompok atau cluster. Untuk melakukan clustering ini, nilai K harus ditentukan terlebih dahulu. Biasanya user atau pemakai sudah mempunyai informasi awal tentang obyek yang sedang dipelajari, termasuk berapa jumlah cluster

yang paling tepat. Secara detail kita bisa menggunakan ukuran ‘ketidakmiripan” untuk mengelompokkan obyek kita. Jika jarak dua obyek atau data titik cukup dekat, maka dua obyek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya.

Semakin tinggi nilai jarak, semakin tinggi ketidak miripannya (SAN07). K-Means

Clustering merupakan salah satu metode data clustering non hirarki yang

mengelompokan data dalam bentuk satu atau lebih cluster. Data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data yang berada dalam satu cluster memiliki tingkat variasi yang kecil (AGU07).

Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan ukuran besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Menurut Forgy (1965) K-Means adalah salah satu algoritma terkenal dalam clustering, awalnya dikenal sebagai metode Forgy’s dan telah digunakan secara luas di berbagai bidang termasuk Data Mining, analisis statistik data dan aplikasi bisnis lainnya. Untuk K-means, K menunjukkan jumlah cluster. Nilai Kditentukan oleh pemakai atau user. Untuk kasus dimana ada pertimbangan dari ahli yang kompeten atau expert di bidangnya, nilai K akan mudah di tentukan. Tetapi sering sekali terjadi bahwa nilai K ini harus ditentukan dengan melihat pada data (tanpa ada pertimbangan dari expert) (MAH13).

K-Means merupakan algoritma clustering yang berulang-ulang. Algoritma K-

Means dimulai dengan pemilihan secara acak K, K disini merupakan banyaknya

cluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk

sementara nilai tersebut menjadi pusat dari cluster atau biasa disebut dengan

centroid, mean atau “means”. Hitung jarak setiap data yang ada terhadap masing-

masing centroid menggunakan rumus Euclidian hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasikan setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut hingga nilai centroid tidak berubah (stabil) [RIS08].

2.4.1.1. Algoritma K-Means Clustering

Algoritma K-Means adalah algoritma yang terbaik dalam algoritma Partitional

Clustering dan yang paling sering digunakan diantara algoritma Clustering lainnya,

karena kesederhanaan dan efesiensinya (BUD12).

Langkah-langkah melakukan cluster dengan metode K-Means clustering

adalah sebagai berikut:

1. Pilih jumlah cluster K.

2. Menentukan Centroid (titik pusat cluster) awal secara random. Penentuan

centroid awal dilakukan secara random / acak dari objek-objek yang

tersedia sebanyak K cluster.

3. Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan perhitungan jarak data ke - i pada pusat cluster ke–

k(Ck), dapat digunakan formula Euclidean Distance seperti pada persamaan 1 berikut, yaitu:

(� , ) = ∑� (� − )

, = . . . .. . . . . . .(2.1) Dimana:

dik = Euclidian distance titik X ke C

Xij = Sample data ke-i

Ckj = Centroid ke-i

m= jumlah sample

4. Alokasikan masing-masing objek ke dalam centroid yang paling terdekat. Suatu data akan menjadi anggota dari cluster ke-j apabila jarak data tersebut ke pusat cluster ke-j bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data yang menjadi anggota pada setiap cluster.

5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan menggunakan persamaan sebagai berikut :

. . . . . . .. . . .(2.2) Dimana:

µ = centroid pada cluster

� = objek ke-i

n = banyaknya objek/jumlah objek yang menjadi anggota cluster

6. Jika pusat cluster tidak berubah lagi maka proses clustering selesai. Atau kembali ke langkah nomor 3 sampai pusat cluster tidak berubah lagi.

2.4.2 K - Nearest Neighbor

Prinsip kerja K-Nearest Neighbor (KNN) adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga (neighbor) terdekatnya dalam data pelatihan (RIS08).

K-nearest neighbor adalah salah satu contoh instance-based learning, dengan

set data pelatihan (training set) disimpan, sehingga klasifikasi untuk record baru yang belum terklasifikasi dapat ditemukan hanya dengan membandingkannya dengan

record paling mirip dalam training set (Larose 2005).Tahap pelatihan algoritma ini

hanya menyimpan vektor fitur dan label kelas dari sampel pelatihan (MIR11). Algoritma K-Nearest Neighbor bersifat sederhana, bekerja dengan berdasarkan kemiripan dari sampel uji (testing sample) ke sampel latih (training sample) untuk menentukan K-Nearest Neighbor nya. Setelah mengumpulkan K-Nearest

Neighbor, kemudian diambil mayoritas dari K-Nearest Neighbor (KNN) untuk

dijadikan prediksi dari sample uji. KNN memiliki beberapa kelebihan yaitu tangguh terhadap training data yang noise dan efektif apabila data latih nya besar. Pada fase

training, algoritma ini hanya melakukan penyimpanan vektor-vektor fitur dan

klasifikasi data training sample. Pada fase klasifikasi, fitur-fitur yang sama dihitung untuk testing data atau yang klasifikasinya tidak diketahui. Jarak dari vektor baru yang ini terhadap seluruh vektor training sample dihitung dan sejumlah Kbuah yang paling dekat diambil. Titik yang baru klasifikasinya diprediksikan termasuk pada klasifikasi terbanyak dari titik- titik tersebut.

2.4.2.1. Algoritma K - Nearest Neighbor

Nearest Neighbor adalah pendekatan untuk mencari kasus dengan menghitung

kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. Misalkan, diinginkan untuk mencari solusi terhadap seorang pasien baru dengan menggunakan solusi dari pasien terdahulu.Untuk mencari kasus pasien mana yang akan digunakan maka dihitung kedekatan kasus pasien baru dengan semua kasus pasien lama. Kasus pasien lama dengan jarak terdekat yang akan diambil solusinya untuk digunakan pada kasus pasien baru.

Gambar 2.3. Ilustrasi Kedekatan Kasus Pasien (Larose, 2005)

Seperti tampak pada Gambar 2.3, terdapat tiga pasien lama A, B, dan C. Ketika ada pasien baru (New), maka solusi yang akan diambil adalah solusi dari pasien terdekat dari pasien baru. Seandainya d1 adalah kedekatan antara pasien baru dan pasien A, d2 adalah kedekatan antara pasien baru dengan pasien B, dan d3 adalah kedekatan antara pasien baru dengan pasien C, maka terlihat bahwa d1 lebih dekat daripada d2 dan d3. Dengan demikian, solusi dari pasien A yang akan digunakan untuk memberikan solusi pada pasien baru.

Adapun penjelasan cara kerja algoritma K - Nearest Neighbor adalah: 1. Tentukan parameter K sebagai jumlah tetangga terdekat.

2. Hitung jarak antara data baru dengan semua data training dengan rumus.

� � , � = �� −‖� −� ‖_�2 2 . . . . . . . . .. . . . . . (2.3)

Dimana:

�(� ,� ) = Euclidean Distance dari atribut data training dan data testing

� = banyak sample

� = Data training

� = Data testing

3. Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak Minimum.

4. Periksa kelas dari tetangga terdekat.

5. Gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru.

Dalam dokumen Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus (Halaman 87-93)