ANALISIS DAN PERANCANGAN SISTEM
3.3. Analisis Clustering K-Means
Pada tahap ini dilakukan analisis dengan clustering menggunakan K-Means. Tahapan analisis yang akan dilakukan yaitu:
3.3.1. Menentukan Jumlah Cluster
Tahap awal dalam proses clustering adalah menentukan jumlah cluster yang diinginkan. Pada sistem pengelompokan data rekam medis akan digunakan 5 cluster
yaitu cluster pertama (C0), cluster kedua (C1), cluster ketiga (C2), cluster keempat (C3), cluster kelima (C4).
3.3.2. Menentukan Pusat Cluster (Centroid)
Pada tahap ini ditentukan nilai pusat cluster (centroid) awal secara random dari data yang telah diinput. Tentukan centroid dari masing-masing variabel data, yaitu centroid pertama kode penyakit, centroid kedua umur, centroid ketiga jenis kelamin dan centroid keempat kecamatan.
3.3.3. Menghitung Jarak Data dengan Euclidean Distance
Hitung jarak dari setiap data ke setiap pusat cluster yang ada dengan euclidean distance sehingga ditemukan jarak terdekat dari setiap data ke centroid. Perhitungan dengan euclidean distance dapat digunakan dengan persamaan 3.1:
𝑑(𝑥𝑖, 𝜇𝑗) = √(𝑥𝑖𝑎 − 𝜇𝑗𝑎)2+ (𝑥𝑖𝑏 − 𝜇𝑗𝑏)2 ⋯ (3.1) Dengan ketentuan sebagai berikut:
𝑥𝑖 : data kriteria
𝜇𝑗 : centroid pada cluster ke-j
Jarak data pertama ke pusat cluster pertama
𝑑10 = √(21 − 384)2+ (1 − 2)2+ (2 − 1)2+ (3 − 9)2
= 363,0523
Jarak data pertama ke pusat cluster kedua
𝑑11 = √(21 − 554)2+ (1 − 2)2+ (2 − 1)2+ (3 − 20)2
= 533,2729
Jarak data pertama ke pusat cluster ketiga
𝑑12 = √(21 − 510)2+ (1 − 1)2+ (2 − 1)2+ (3 − 16)2
22
= 489,1739
Jarak data pertama ke pusat cluster keempat
𝑑13 = √(21 − 250)2+ (1 − 2)2+ (2 − 2)2+ (3 − 16)2
= 229,3709
Jarak data pertama ke pusat cluster kelima
𝑑14 = √(21 − 659)2+ (1 − 2)2+ (2 − 2)2+ (3 − 0)2
= 638,0078
Jarak data kedua ke pusat cluster pertama
𝑑20 = √(1181 − 384)2+ (2 − 2)2+ (2 − 2)2+ (16 − 0)2
= 797,0314
Jarak data kedua ke pusat cluster kedua
𝑑21 = √(1181 − 554)2+ (2 − 2)2+ (2 − 1)2+ (16 − 20)2
= 627,0136
Jarak data kedua ke pusat cluster ketiga
𝑑22 = √(1181 − 510)2+ (2 − 1)2+ (2 − 1)2+ (16 − 16)2
= 671,0015
Jarak data kedua ke pusat cluster keempat
𝑑23 = √(1181 − 250)2+ (2 − 2)2+ (2 − 2)2+ (16 − 16)2
= 931
Jarak data kedua ke pusat cluster kelima
𝑑24 = √(1181 − 659)2+ (2 − 2)2+ (2 − 2)2+ (16 − 0)2
= 522,2452
Jarak data ketiga ke pusat cluster pertama
𝑑30 = √(384 − 384)2+ (2 − 2)2+ (1 − 1)2+ (9 − 9)2
= 0
Jarak data ketiga ke pusat cluster kedua
𝑑31 = √(384 − 554)2+ (2 − 2)2+ (1 − 1)2+ (9 − 20)2
= 170,3555
Jarak data ketiga ke pusat cluster ketiga
𝑑32 = √(384 − 510)2+ (2 − 1)2+ (1 − 1)2+ (9 − 16)2
= 126,1983
Jarak data ketiga ke pusat cluster keempat
𝑑33 = √(384 − 250)2+ (2 − 2)2+ (1 − 2)2+ (9 − 16)2
= 134,1864
Jarak data ketiga ke pusat cluster kelima
𝑑34 = √(384 − 659)2+ (2 − 2)2+ (1 − 2)2+ (9 − 0)2
= 126,1983
Hasil perhitungan jarak awal pada iterasi pertama dapat dilihat pada Tabel 3.5.
Tabel 3.5. Hasil Perhitungan Jarak Iterasi Pertama
Data ke- C0 C1 C2 C3 C4
1 363,0523 533,2729 489,1738 229,3709 638,0078 2 797,0314 627,0136 671,0015 931 522,2452 3 0 170,3555 126,1983 134,1864 275,1491 4 68,08083 102,966 58,86425 202,2498 207,0894
5 7 170,0471 126,004 134,0037 275,4669
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
15941 166,3039 336,003 292,0188 32,14032 441,4091
3.3.4. Alokasikan Data pada Cluster Terdekat
Setelah menghitung jarak pada iterasi pertama seperti pada Tabel 3.5, setiap data akan dialokasikan ke suatu cluster berdasarkan jarak terdekat dari pusat cluster-nya. Pada data pertama diperoleh jarak terdekat dengan pusat cluster keempat, maka data tersebut akan menjadi anggota cluster keempat. Hasil pengelompokan data pada iterasi pertama dapat dilihat pada Tabel 3.6:
Tabel 3.6. Hasil Pengelompokan Data Iterasi Pertama
Data ke- C0 C1 C2 C3 C4
1 *
2 *
24
3.3.5. Hitung Pusat Cluster Baru
Menghitung pusat cluster baru dilakukan dengan cara menghitung nilai rata-rata dari masing-masing kriteria seluruh anggota yang menjadi anggota masing-masing cluster.
Untuk menghitung pusat cluster baru digunakan persamaan 3.2:
𝜇 =∑𝑛𝑖=1𝑥𝑖
𝑛 (3.2)
Dengan ketentuan sebagai berikut:
𝜇 : centroid pada cluster 𝑥𝑖 : objek ke-𝑖
𝑛 : banyaknya objek/jumlah objek yang menjadi anggota cluster
a. Pada cluster pertama terdapat 1290 data, sehingga perhitungan cluster barunya sebagai berikut:
b. Pada cluster kedua terdapat 614 data, sehingga perhitungan cluster barunya sebagai berikut:
c. Pada cluster ketiga terdapat 572 data, sehingga perhitungan cluster barunya sebagai
d. Pada cluster keempat terdapat 1834 data, sehingga perhitungan cluster barunya sebagai berikut:
e. Pada cluster kelima terdapat 11631 data, sehingga perhitungan cluster barunya sebagai berikut: Sehingga didapat nilai hasil pusat cluster (centroid) baru yaitu:
C0 = (382,8581; 1,655814; 1,560465; 11,46202) C1 = (568,5977; 1,716612; 1,583062; 11,25896) C2 = (491,222; 1,248252; 1,536713; 11,28322) C3 = (149,4804; 1,377317; 1,430752; 11,66194) C4 = (962,6104; 1,489812; 1,57897; 11,70149)
26
Setelah itu, lakukan iterasi kedua dengan menghitung jarak setiap data yang ada terhadap setiap pusat cluster yang baru dengan persamaan euclidean distance (3.1) dan diperoleh:
Jarak data pertama ke pusat cluster pertama
𝑑10= √(21 − 382,8581)2+ (1 − 1,655814)2+ (2 − 1,560465)2+ (3 − 11,46202)2= 361,9579
Jarak data pertama ke pusat cluster kedua
𝑑11= √(21 − 568,5977)2+ (1 − 1,716612)2+ (2 − 1,583062)2+ (3 − 11,25896)2= 547,6606
Jarak data pertama ke pusat cluster ketiga
𝑑12= √(21 − 491,222)2+ (1 − 1,248252)2+ (2 − 1,536713)2+ (3 − 11,28322)2= 470,2952
Jarak data pertama ke pusat cluster keempat
𝑑13= √(21 − 149,4804)2+ (1 − 1,377317)2+ (2 − 1,430752)2+ (3 − 11,66194)2= 128,7739
Jarak data pertama ke pusat cluster kelima
𝑑14= √(21 − 962,6104)2+ (1 − 1,489812)2+ (2 − 1,57897)2+ (3 − 11,70149)2= 941,6508
Jarak data kedua ke pusat cluster pertama
𝑑20= √(1181 − 382,8581)2+ (2 − 1,655814)2+ (2 − 1,560465)2+ (16 − 11,46202)2= 798,155
Jarak data kedua ke pusat cluster kedua
𝑑21= √(1181 − 568,5977)2+ (2 − 1,716612)2+ (2 − 1,583062)2+ (16 − 11,25896)2= 612,4209
Jarak data kedua ke pusat cluster ketiga
𝑑22= √(1181 − 491,222)2+ (2 − 1,248252)2+ (2 − 1,536713)2+ (16 − 11,28322)2= 689,7947
Jarak data kedua ke pusat cluster keempat
𝑑23= √(1181 − 149,4804)2+ (2 − 1,377317)2+ (2 − 1,430752)2+ (16 − 11,66194)2= 1031,529
Jarak data kedua ke pusat cluster kelima
𝑑24= √(1181 − 962,6104)2+ (2 − 1,489812)2+ (2 − 1,57897)2+ (16 − 11,70149)2= 218,4329
Jarak data ketiga ke pusat cluster pertama
𝑑30= √(384 − 382,8581)2+ (2 − 1,655814)2+ (1 − 1,560465)2+ (9 − 11,46202)2= 2,792501
Jarak data ketiga ke pusat cluster kedua
𝑑31= √(384 − 568,5977)2+ (2 − 1,716612)2+ (1 − 1,583062)2+ (9 − 11,25896)2= 184,6127
Jarak data ketiga ke pusat cluster ketiga
𝑑32= √(384 − 491,222)2+ (2 − 1,248252)2+ (1 − 1,536713)2+ (9 − 11,28322)2= 107,2503
Jarak data ketiga ke pusat cluster keempat
𝑑33= √(384 − 149,4804)2+ (2 − 1,377317)2+ (1 − 1,430752)2+ (9 − 11,66194)2= 234,5359
Jarak data ketiga ke pusat cluster kelima
𝑑34= √(384 − 962,6104)2+ (2 − 1,489812)2+ (1 − 1,57897)2+ (9 − 11,70149)2= 578,6172
Hasil perhitungan di atas dapat dilihat pada Tabel 3.7
Tabel 3.7. Hasil Perhitungan Jarak Iterasi Kedua
Data ke- C0 C1 C2 C3 C4
1 361,9579 547,6606 470,2952 128,7739 941,6508 2 798,155 612,4209 689,7974 1031,529 218,4329 3 2,7992501 184,6127 107,2503 234,5359 578,6172 4 69,3618 116,7192 39,57972 302,5734 510,6426 5 4,72544 184,6597 107,3297 234,5609 578,6269
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
15941 165,0313 350,6835 273,3324 68,91658 744,6465 Dari Tabel 3.7 di atas, pilih cluster yang paling kecil sehingga diperoleh hasil seperti pada Tabel 3.8 berikut ini.
Tabel 3.8. Hasil Cluster Iterasi Kedua
Data ke- C0 C1 C2 C3 C4
Pada Tabel 3.8 di atas dapat dibandingkan dengan Tabel 3.6 bahwa keanggotaan cluster masih berubah. Oleh karena itu, iterasi dilanjutkan sampai keanggotaan cluster sama dengan iterasi sebelumnya. Pada percobaan kali ini proses akan berhenti pada iterasi ke-5. Adapun titik pusat cluster pada iterasi ke-5 adalah:
C0 = (351,5916; 1,634792; 1,504592; 11,58779) C1 = (798,6612; 1,514053; 1,565274; 11,72748) C2 = (547,6394; 1,489175; 1,568336; 11,29973) C3 = (87,08287; 1,283665; 1,45498; 11,58805)
28
C4 = (1320,799; 1,440556; 1,604595; 11,6631) 3.3.6. Hasil Clustering
Proses iterasi berakhir pada iterasi ke-5 dan menghasilkan 1883 data pada cluster pertama, 7689 data pada cluster kedua, 1992 data pada cluster ketiga, 1245 data pada cluster keempat dan 3132 data pada cluster kelima. Data masing-masing cluster dapat dilihat pada Tabel 3.9, Tabel 3.10, Tabel 3.11, Tabel 3.12, dan Tabel 3.13.
Tabel 3.9. Hasil Cluster Pertama
No Data ke- Cluster
Tabel 3.9. menunjukkan hasil cluster yang diperoleh setelah iterasi selesai dan diperoleh sebanyak 1883 data yang terdapat pada cluster pertama.
Tabel 3.10. Hasil Cluster Kedua
No Data ke- Cluster
Pada Tabel 3.10. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kedua yaitu sebanyak 7689 data.
Tabel 3.11. Hasil Cluster Ketiga
No Data ke- Cluster
⋮ ⋮ ⋮
1992 15935 Cluster 2
Pada Tabel 3.11. ditunjukkan data dan jumlah cluster yang terdapat pada cluster ketiga yaitu sebanyak 1992 data.
Tabel 3.12. Hasil Cluster Keempat
No Data ke- Cluster keempat yaitu sebanyak 1245 data.
Tabel 3.13. Hasil Cluster Kelima
No Data ke- Cluster
Pada Tabel 3.13. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kelima yaitu sebanyak 3132 data.
Dari proses clustering didapatkan informasi sebagai berikut:
1. Cluster pertama (C0) memiliki karakteristik kode penyakit E11, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.
2. Cluster kedua (C1) memiliki karakteristik kode penyakit K04.1, banyak menyerang usia muda dan dewasa, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.
30
3. Cluster ketiga (C2) memiliki karakteristik kode penyakit H61.2, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.
4. Cluster keempat (C3) memiliki karakteristik kode penyakit A15.0, banyak menyerang usia tua, dengan jenis kelamin laki-laki, di kecamatan Medan Selayang.
5. Cluster kelima (C4) memiliki karakteristik kode penyakit M54.5, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.