Konsep K-Means - Cacar Air - TINJAUAN PUSTAKA

TINJAUAN PUSTAKA

1.3. Cacar Air

1.5.1. Konsep K-Means

Dalam statistic dan mesin pembelajaran, pengelompokan K-Means merupakan metode analisis kelompok yang mengarah pada pemartisian N objek pengamatan ke dalam K kelompok (cluster) dimana setiap objek pengamatan dimiliki oleh sebuah kelompok dengan mean (rata - rata) terdekat, mirip dengan algoritma Expectation-Maximization untuk Gaussian Mixture dimana keduanya mencoba untuk menemukan pusat dari kelompok dalam data sebanyak iterasi perbaikan yang dilakukan oleh kedua algoritma.

K-Means merupakan salah satu metode pengelompokan data nonhierarki (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakeristik berbeda dikelompokkan kedalam kelompok yang lain. Adapun tujuan pengelompokkan data ini adalah untuk meminimalkan fungsi objektif yang diset dalam proses pengelompokkan, yang pada umunya berusaha meminimalkan variasi didalam suatu kelompok dan memaksimalkan variasi antar kelompok.

Pengelompokkan data dengan metode K-Means ini secara umum dilakukan dengan algoritma seperti (Eko Prasetyo, 2012):

1. Tentukan jumlah kelompok

2. Alokasikan data kedalam kelompok secara acak

3. Hitunglah pusat kelompok (sentroid atau rata- rata) dari data yang ada dimasing-masing kelompok

4. Alokasikan masing-masing data ke sentroid atau rata-rata terdekat 5. Kembali ke langkah 3, apabila masih ada data yang berpindah

kelompok, atau apabila ada perubahan nilai sentroid diatas nilai ambang yang ditentukan, atau apabila perubahan nilai pada fungsi objektif yang digunakan masih diatas nilai ambang yang ditentukan. Pada langkah 3 algoritma diatas, lokasi sentroid (titik pusat) setiap kelompok yang diambil dari rata-rata (mean) semua nilai data pada setiap fiturnya harus dihitung kembali. Jika M menyatakan jumlah data dalam suatu kelompok, i menyatakan fitur ke-i dalam sebuah kelompok, dan p menyatakan dimensi data untuk menghitung sentoid fitur ke-i digunakan formula.

_∑

Formula tersebut dilakukan sebanyak p dimensi sehingga i mulai dari 1 sampai p.

Ada beberapa cara yang digunakan untuk mengukur jarak data ke pusat kelompok, diantanya Euclidean (Bezdek, 1981), Manhanttan atau City Block (Myamoto, 1995), dan Mikowsky (Myamoto, 1995). Masing-masing cara mempunyai kelebihan dan kekurangan. (Eko Prasetyo, 2012)

Pengukuran jarak pada ruang jarak (distance space) Euclidean menggunakan formula.

D( ) =

D adalah jarak anatara dan , dan | | adalah nilai mutlak. Pengukuran jarak pada ruang jarak Manhanttan menggunakan formula.

D( ) =

‖ ‖ ∑ | |

Pengukuran jarak pada ruang jarak Minkowsky menggunakan formula.

D( ) =

‖ ‖ √∑ | |

adalah parameter jarak Minkowsky. Secara umum, merupakan parameter penentu dalam karakteristik jarak. Jika = 1,5 ruang jarak pada Minkowsky sama dengan Manhattan. Jika = 2, ruang jaraknya akan sama dengan Euclidean ; jika =∞, ruang jaraknya akan sama dengan ruang jarak

Chebyshev. Namum demikian, cara yang paling banyak digunakan adalah Euclidean dan Manhattan. Euclidean menjadi pilihan jika kita ingin memberikan jarak terpendek antara dua titik (jarak lurus), seperti yang ditunjukkan pada rumus no.2, sedangkan Manhattan memberikan jarak terjauh pada dua data. Manhattan juga sering digunakan karena kemampuannya dalam mendeteksi keadaan khusus, seperti keberadaan outlier, dengan lebih baik (Agusta, 2005). (Eko Prasetyo, 2012)

Gambar 2. 3 Euclidean

Gambar 2. 4 Manhattan

Pada langkah 4 pada rumus no. 1, pengalokasian kebali data ke dalam masing-masing kelompok dalam metode K-Means didasarkan pada perbandingan jarak antara data dengan sentroid setiap kelompok yang ada. Data dialokasikan ulang secara tegas ke kelompok yang mempunyai sentroid dengan jarak terdekat dari data tersebut. Pengalokasian ini dapat dirumuskan sebagai berikut (MacQueen, 1967) : (Eko Prasetyo, 2012)

{ { ^}

^{adalah nilai keanggotaan titik} ^{ke pusat gelombang} ^{d adalah jarak} terpendek dari data ke K kelompok setelah dibandingkan, dan adalah sentroid (pusat kelompok) ke-l.

Fungsi objektif yang digunakan untuk K-Means ditentukan berdasarkan jarak dan nilai keanggotaan data dalam kelompok. Fungsi objektif yang digunakan adalah sebagai berikut (MacQueen, 1967) : (Eko Prasetyo, 2012)

J =

∑∑

N adalah jumlah data, K adalah jumlah kelompok, ^{adalah nilai} keanggotaan titik data ke pusat kelompok adalah pusat kelompok ke-l , dan adalah jarak titik ke kelompok yang diikuti. A mempunyai nilai 0 atau 1. Apabila suatu data merupakan anggota suatu kelompok, nilai

. Jika tidak, nilai

Matlab menyediakan fungsi khusus untu melakukan pengelompokkan dengan K- Means, yaitu fungsi kmeans(). Sintaks penggunaannya adalah sebagai berikut :

1. [IDX,C,sumd,D] = kmeans (X,k)

2. [IDX,C,sumd,D] = kmeans (…,’distance’,val)

Sintaksis yang pertama merupakan sintaksis dasar, sedangkan sintaksis yang kedua digunakan untuk melengkapi sintaksis pertama untuk parameter

‘distance’. Penjelasan parameter yang digunakan adalah sebagai berikut :

Tabel 2. 1 Parameter K-Means Parameter Keterangan

X Matriks set data MxN, M adalah jumlah data dan N adalah jumlah fitur K Nilai yang menyatakan jumlah kelompok

IDX Matriks Mx 1 yang menyatakan indeks kelompok yang diikuti setiap data. Nilai didalamnya mulai dari 1 sampai k. M adalah jumlah data. C Matriks kxN yang menyatakan lokasi sentroid setiap kelompok. K

adalah jumlah kelompok, dan N adalah jumlah fitur.

Sumd Matriks 1xk yang menyatakan jumlah jarak semua data yang tergabung dalam setiap kelompok.

kelompok. M adalah jumlah data, dan k adalah jumlah kelompok. Val Nilai untuk parameter ‘distance’. Pilihan misalnya :

1. ‘sqEuclidean’, untuk jarak Squared Euclidean, nilai default yang digunakan.

2. ‘cityblock’, untuk Manhattan (block city).

3. ‘Hamming’, untuk jarak Hamming (persentase perbedaan bit),

hanya cocok untuk data biner.

Mulai Jumlah cluster K Tentukan Jarak setiap data terhadap setiap Centroid Selesai Tentukan Centroid Kelompokkan Data berdasarkan jarak

terkecil Objek tidak ada yang berpindah grup? Tidak Ya

Gambar 2. 5 Flowchart K-Means

Flowchart K-Means diatas menjelaskan bagaimana cara kerja metode ini dalam memecahkan berapa jumlah kelompok yang akan dibuat dan menentukan centroid dalam suatu kelompok.

27 1.5.2. Karakteristik K-Means

Karakteristik K-Means dapat diringkas menjadi seperti berikut :

1. K-Means merupakan metode pengelompokan yang sederhana dan dapat digunakan dengan mudah.

2. Pada set data tertentu, K-Means tidak dapat melakukan segmentasi data dengan baik dimana hasil segmentasinya tidak dapat memberikan pola kelompok yang mewakili karakteristik bentuk alami data.

3. K-Means bisa mengalami masalah ketika mengelompokkan data yang mengandung outlier. (Eko Prasetyo, 2012).

1.6. Clustering

Proses pengelompokan sekumpulan obyek kedalam kelas-kelas obyek yang sama disebut clustering (pengelompokan). Pengklasteran merupakan satu dari sekian banyak fungsi proses data mining untuk menemukan kelompok atau identifikasi kelompok obyek yang hampir sama. Analisis kluster (Clustering) merupakan usaha untuk mengidentifikasi kelompok obyek yang mirip-mirip dan membantu menemukan pola penyebaran dan pola hubungan dalam sekumpulan data yang besar. Hal penting dalam proses pengklasteran adalah menyatakan sekumpulan pola ke kelompok yang sesuai yang berguna untuk menemukan kesamaan dan perbedaan sehingga dapat menghasilkan kesimpulan yang berharga. (Narwati, 2010).

Dalam dokumen Klasifikasi Penyakit Cacar Air dan Campak Berdasarkan Karakteristik Diagnosa Penyakit Menggunakan Metode K- Means Klustering. (Halaman 32-38)