Analisis Clustering K-Means - ANALISIS DAN PERANCANGAN SISTEM

ANALISIS DAN PERANCANGAN SISTEM

3.3. Analisis Clustering K-Means

Pada tahap ini dilakukan analisis dengan clustering menggunakan K-Means. Tahapan analisis yang akan dilakukan yaitu:

3.3.1. Menentukan Jumlah Cluster

Tahap awal dalam proses clustering adalah menentukan jumlah cluster yang diinginkan. Pada sistem pengelompokan data rekam medis akan digunakan 5 cluster

yaitu cluster pertama (C0), cluster kedua (C1), cluster ketiga (C2), cluster keempat (C3), cluster kelima (C4).

3.3.2. Menentukan Pusat Cluster (Centroid)

Pada tahap ini ditentukan nilai pusat cluster (centroid) awal secara random dari data yang telah diinput. Tentukan centroid dari masing-masing variabel data, yaitu centroid pertama kode penyakit, centroid kedua umur, centroid ketiga jenis kelamin dan centroid keempat kecamatan.

3.3.3. Menghitung Jarak Data dengan Euclidean Distance

Hitung jarak dari setiap data ke setiap pusat cluster yang ada dengan euclidean distance sehingga ditemukan jarak terdekat dari setiap data ke centroid. Perhitungan dengan euclidean distance dapat digunakan dengan persamaan 3.1:

𝑑(𝑥𝑖, 𝜇𝑗) = √(𝑥𝑖𝑎 − 𝜇𝑗𝑎)²+ (𝑥𝑖𝑏 − 𝜇𝑗𝑏)² ⋯ (3.1) Dengan ketentuan sebagai berikut:

𝑥𝑖 : data kriteria

𝜇𝑗 : centroid pada cluster ke-j

Jarak data pertama ke pusat cluster pertama

𝑑₁₀ = √(21 − 384)²+ (1 − 2)²+ (2 − 1)²+ (3 − 9)²

= 363,0523

Jarak data pertama ke pusat cluster kedua

𝑑₁₁ = √(21 − 554)²+ (1 − 2)²+ (2 − 1)²+ (3 − 20)²

= 533,2729

Jarak data pertama ke pusat cluster ketiga

𝑑₁₂ = √(21 − 510)²+ (1 − 1)²+ (2 − 1)²+ (3 − 16)²

= 489,1739

Jarak data pertama ke pusat cluster keempat

𝑑₁₃ = √(21 − 250)²+ (1 − 2)²+ (2 − 2)²+ (3 − 16)²

= 229,3709

Jarak data pertama ke pusat cluster kelima

𝑑₁₄ = √(21 − 659)²+ (1 − 2)²+ (2 − 2)²+ (3 − 0)²

= 638,0078

Jarak data kedua ke pusat cluster pertama

𝑑₂₀ = √(1181 − 384)²+ (2 − 2)²+ (2 − 2)²+ (16 − 0)²

= 797,0314

Jarak data kedua ke pusat cluster kedua

𝑑₂₁ = √(1181 − 554)²+ (2 − 2)²+ (2 − 1)²+ (16 − 20)²

= 627,0136

Jarak data kedua ke pusat cluster ketiga

𝑑₂₂ = √(1181 − 510)²+ (2 − 1)²+ (2 − 1)²+ (16 − 16)²

= 671,0015

Jarak data kedua ke pusat cluster keempat

𝑑₂₃ = √(1181 − 250)²+ (2 − 2)²+ (2 − 2)²+ (16 − 16)²

= 931

Jarak data kedua ke pusat cluster kelima

𝑑₂₄ = √(1181 − 659)²+ (2 − 2)²+ (2 − 2)²+ (16 − 0)²

= 522,2452

Jarak data ketiga ke pusat cluster pertama

𝑑₃₀ = √(384 − 384)²+ (2 − 2)²+ (1 − 1)²+ (9 − 9)²

= 0

Jarak data ketiga ke pusat cluster kedua

𝑑₃₁ = √(384 − 554)²+ (2 − 2)²+ (1 − 1)²+ (9 − 20)²

= 170,3555

Jarak data ketiga ke pusat cluster ketiga

𝑑₃₂ = √(384 − 510)²+ (2 − 1)²+ (1 − 1)²+ (9 − 16)²

= 126,1983

Jarak data ketiga ke pusat cluster keempat

𝑑₃₃ = √(384 − 250)²+ (2 − 2)²+ (1 − 2)²+ (9 − 16)²

= 134,1864

Jarak data ketiga ke pusat cluster kelima

𝑑₃₄ = √(384 − 659)²+ (2 − 2)²+ (1 − 2)²+ (9 − 0)²

= 126,1983

Hasil perhitungan jarak awal pada iterasi pertama dapat dilihat pada Tabel 3.5.

Tabel 3.5. Hasil Perhitungan Jarak Iterasi Pertama

Data ke- C0 C1 C2 C3 C4

1 363,0523 533,2729 489,1738 229,3709 638,0078 2 797,0314 627,0136 671,0015 931 522,2452 3 0 170,3555 126,1983 134,1864 275,1491 4 68,08083 102,966 58,86425 202,2498 207,0894

5 7 170,0471 126,004 134,0037 275,4669

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 166,3039 336,003 292,0188 32,14032 441,4091

3.3.4. Alokasikan Data pada Cluster Terdekat

Setelah menghitung jarak pada iterasi pertama seperti pada Tabel 3.5, setiap data akan dialokasikan ke suatu cluster berdasarkan jarak terdekat dari pusat cluster-nya. Pada data pertama diperoleh jarak terdekat dengan pusat cluster keempat, maka data tersebut akan menjadi anggota cluster keempat. Hasil pengelompokan data pada iterasi pertama dapat dilihat pada Tabel 3.6:

Tabel 3.6. Hasil Pengelompokan Data Iterasi Pertama

Data ke- C0 C1 C2 C3 C4

1 *

2 *

3.3.5. Hitung Pusat Cluster Baru

Menghitung pusat cluster baru dilakukan dengan cara menghitung nilai rata-rata dari masing-masing kriteria seluruh anggota yang menjadi anggota masing-masing cluster.

Untuk menghitung pusat cluster baru digunakan persamaan 3.2:

𝜇 =^∑^𝑛^𝑖=1^𝑥𝑖

𝑛 (3.2)

Dengan ketentuan sebagai berikut:

𝜇 : centroid pada cluster 𝑥𝑖 : objek ke-𝑖

𝑛 : banyaknya objek/jumlah objek yang menjadi anggota cluster

a. Pada cluster pertama terdapat 1290 data, sehingga perhitungan cluster barunya sebagai berikut:

b. Pada cluster kedua terdapat 614 data, sehingga perhitungan cluster barunya sebagai berikut:

c. Pada cluster ketiga terdapat 572 data, sehingga perhitungan cluster barunya sebagai

d. Pada cluster keempat terdapat 1834 data, sehingga perhitungan cluster barunya sebagai berikut:

e. Pada cluster kelima terdapat 11631 data, sehingga perhitungan cluster barunya sebagai berikut: Sehingga didapat nilai hasil pusat cluster (centroid) baru yaitu:

C0 = (382,8581; 1,655814; 1,560465; 11,46202) C1 = (568,5977; 1,716612; 1,583062; 11,25896) C2 = (491,222; 1,248252; 1,536713; 11,28322) C3 = (149,4804; 1,377317; 1,430752; 11,66194) C4 = (962,6104; 1,489812; 1,57897; 11,70149)

Setelah itu, lakukan iterasi kedua dengan menghitung jarak setiap data yang ada terhadap setiap pusat cluster yang baru dengan persamaan euclidean distance (3.1) dan diperoleh:

Jarak data pertama ke pusat cluster pertama

𝑑10= √(21 − 382,8581)²+ (1 − 1,655814)²+ (2 − 1,560465)²+ (3 − 11,46202)²= 361,9579

Jarak data pertama ke pusat cluster kedua

𝑑₁₁= √(21 − 568,5977)²+ (1 − 1,716612)²+ (2 − 1,583062)²+ (3 − 11,25896)²= 547,6606

Jarak data pertama ke pusat cluster ketiga

𝑑₁₂= √(21 − 491,222)²+ (1 − 1,248252)²+ (2 − 1,536713)²+ (3 − 11,28322)²= 470,2952

Jarak data pertama ke pusat cluster keempat

𝑑₁₃= √(21 − 149,4804)²+ (1 − 1,377317)²+ (2 − 1,430752)²+ (3 − 11,66194)²= 128,7739

Jarak data pertama ke pusat cluster kelima

𝑑14= √(21 − 962,6104)²+ (1 − 1,489812)²+ (2 − 1,57897)²+ (3 − 11,70149)²= 941,6508

Jarak data kedua ke pusat cluster pertama

𝑑₂₀= √(1181 − 382,8581)²+ (2 − 1,655814)²+ (2 − 1,560465)²+ (16 − 11,46202)²= 798,155

Jarak data kedua ke pusat cluster kedua

𝑑₂₁= √(1181 − 568,5977)²+ (2 − 1,716612)²+ (2 − 1,583062)²+ (16 − 11,25896)²= 612,4209

Jarak data kedua ke pusat cluster ketiga

𝑑₂₂= √(1181 − 491,222)²+ (2 − 1,248252)²+ (2 − 1,536713)²+ (16 − 11,28322)²= 689,7947

Jarak data kedua ke pusat cluster keempat

𝑑₂₃= √(1181 − 149,4804)²+ (2 − 1,377317)²+ (2 − 1,430752)²+ (16 − 11,66194)²= 1031,529

Jarak data kedua ke pusat cluster kelima

𝑑₂₄= √(1181 − 962,6104)²+ (2 − 1,489812)²+ (2 − 1,57897)²+ (16 − 11,70149)²= 218,4329

Jarak data ketiga ke pusat cluster pertama

𝑑₃₀= √(384 − 382,8581)²+ (2 − 1,655814)²+ (1 − 1,560465)²+ (9 − 11,46202)²= 2,792501

Jarak data ketiga ke pusat cluster kedua

𝑑₃₁= √(384 − 568,5977)²+ (2 − 1,716612)²+ (1 − 1,583062)²+ (9 − 11,25896)²= 184,6127

Jarak data ketiga ke pusat cluster ketiga

𝑑₃₂= √(384 − 491,222)²+ (2 − 1,248252)²+ (1 − 1,536713)²+ (9 − 11,28322)²= 107,2503

Jarak data ketiga ke pusat cluster keempat

𝑑₃₃= √(384 − 149,4804)²+ (2 − 1,377317)²+ (1 − 1,430752)²+ (9 − 11,66194)²= 234,5359

Jarak data ketiga ke pusat cluster kelima

𝑑₃₄= √(384 − 962,6104)²+ (2 − 1,489812)²+ (1 − 1,57897)²+ (9 − 11,70149)²= 578,6172

Hasil perhitungan di atas dapat dilihat pada Tabel 3.7

Tabel 3.7. Hasil Perhitungan Jarak Iterasi Kedua

Data ke- C0 C1 C2 C3 C4

1 361,9579 547,6606 470,2952 128,7739 941,6508 2 798,155 612,4209 689,7974 1031,529 218,4329 3 2,7992501 184,6127 107,2503 234,5359 578,6172 4 69,3618 116,7192 39,57972 302,5734 510,6426 5 4,72544 184,6597 107,3297 234,5609 578,6269

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 165,0313 350,6835 273,3324 68,91658 744,6465 Dari Tabel 3.7 di atas, pilih cluster yang paling kecil sehingga diperoleh hasil seperti pada Tabel 3.8 berikut ini.

Tabel 3.8. Hasil Cluster Iterasi Kedua

Data ke- C0 C1 C2 C3 C4

Pada Tabel 3.8 di atas dapat dibandingkan dengan Tabel 3.6 bahwa keanggotaan cluster masih berubah. Oleh karena itu, iterasi dilanjutkan sampai keanggotaan cluster sama dengan iterasi sebelumnya. Pada percobaan kali ini proses akan berhenti pada iterasi ke-5. Adapun titik pusat cluster pada iterasi ke-5 adalah:

C0 = (351,5916; 1,634792; 1,504592; 11,58779) C1 = (798,6612; 1,514053; 1,565274; 11,72748) C2 = (547,6394; 1,489175; 1,568336; 11,29973) C3 = (87,08287; 1,283665; 1,45498; 11,58805)

C4 = (1320,799; 1,440556; 1,604595; 11,6631) 3.3.6. Hasil Clustering

Proses iterasi berakhir pada iterasi ke-5 dan menghasilkan 1883 data pada cluster pertama, 7689 data pada cluster kedua, 1992 data pada cluster ketiga, 1245 data pada cluster keempat dan 3132 data pada cluster kelima. Data masing-masing cluster dapat dilihat pada Tabel 3.9, Tabel 3.10, Tabel 3.11, Tabel 3.12, dan Tabel 3.13.

Tabel 3.9. Hasil Cluster Pertama

No Data ke- Cluster

Tabel 3.9. menunjukkan hasil cluster yang diperoleh setelah iterasi selesai dan diperoleh sebanyak 1883 data yang terdapat pada cluster pertama.

Tabel 3.10. Hasil Cluster Kedua

No Data ke- Cluster

Pada Tabel 3.10. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kedua yaitu sebanyak 7689 data.

Tabel 3.11. Hasil Cluster Ketiga

No Data ke- Cluster

⋮ ⋮ ⋮

1992 15935 Cluster 2

Pada Tabel 3.11. ditunjukkan data dan jumlah cluster yang terdapat pada cluster ketiga yaitu sebanyak 1992 data.

Tabel 3.12. Hasil Cluster Keempat

No Data ke- Cluster keempat yaitu sebanyak 1245 data.

Tabel 3.13. Hasil Cluster Kelima

No Data ke- Cluster

Pada Tabel 3.13. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kelima yaitu sebanyak 3132 data.

Dari proses clustering didapatkan informasi sebagai berikut:

1. Cluster pertama (C0) memiliki karakteristik kode penyakit E11, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

2. Cluster kedua (C1) memiliki karakteristik kode penyakit K04.1, banyak menyerang usia muda dan dewasa, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

3. Cluster ketiga (C2) memiliki karakteristik kode penyakit H61.2, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

4. Cluster keempat (C3) memiliki karakteristik kode penyakit A15.0, banyak menyerang usia tua, dengan jenis kelamin laki-laki, di kecamatan Medan Selayang.

5. Cluster kelima (C4) memiliki karakteristik kode penyakit M54.5, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

Dalam dokumen PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN K-MEANS CLUSTERING SKRIPSI LISA OLIVIA (Halaman 32-42)