• Tidak ada hasil yang ditemukan

Uji Coba dengan Algoritma Hierarchical Clustering dan K-means Clustering

ANALISIS DAN PERANCANGAN SISTEM

3.3. Uji Coba dengan Algoritma Hierarchical Clustering dan K-means Clustering

Pada tahapan ini pengelompokan data dilakukan menggunakan kombinasi dua algoritma clustering, yaitu hierarchical clustering dan k-means. Algoritma hierarchical clustering digunakan untuk menentukan pusat cluster (centroid). Yang mana pusat cluster yang diperoleh dari hierarchical clustering tersebut akan digunakan untuk proses pengelompokan data dengan menggunakan metode k-means.

Flowchart pada gambar 3.2. urutan pengerjaan penelitian dengan menggunakan kombinasi dua algoritma clustering yakni hierarchical clustering dan k-means. Pada tahapan hierarchical clustering setiap data yang ada dianggap sebagai cluster. Jika jumlah data ada sebanyak n, dan jumlah cluster adalah k, maka n = k.

Lalu dilanjutkan dengan menghitung jarak antar cluster yang menggunakan rumus Euclidian distance yang dapat dilihat pada persamaan (2.2). Yang kemudian akan membentuk sebuah matrik n × n. Dari hasil perhitungan jarak cluster tersebut pilih jarak yang paling minimal dan gabungkan sehingga banyaknya menjadi n = n -1. Lakukan penggabungan ini secara berulang sampai kondisi jumlah k = 1. Setelah banyak cluster yang terbentuk hanya 1 maka tahapan akhir dari hierarchical clustering ini akan diperoleh sebuah gambar dendrogram yang akan menunjukkan urutan pengelompokan masing-masing anggota dalam cluster hingga menjadi satu cluster yang terbentuk.

Setelah tahapan hierarchical clustering selesai, kemudian dilanjutkan dengan metode k-means. Pada umumnya tahapan metode k-means diawali dengan penentuan jumlah k cluster yang akan dibentuk, lalu dilanjutkan dengan penentuan pusat awal cluster yang dilakukan secara random. Namun karena ini merupakan gabungan algoritma hierarchical clustering dan k-means maka penentuan pusat cluster untuk algoritma k-means ditentukan dengan mencari rata-rata dari data yang berada pada sebuah cluster hasil dari hierarchical clustering, yang mana data yang diambil adalah data dari banyak cluster yang ingin digunakan, sehingga pusat cluster pada algoritma k-means langsung dapat ditentukan. Jika dari hasil hierarchical clustering kita ingin menggunakan 5 cluster maka anggota tiap cluster diperoleh dari hasil proses hierarchical atau dapat dilihat dari dendrogram yang megelompokkan 5 cluster. Hal ini juga yang membantu proses k-means karena penentuan anggota cluster awal biasanya dilakukan secara random. Setelah mendapat anggota cluster awal kemudian hitung jarak anggota cluster ke setiap centroidnya. Setelah didapatkan hasilnya, anggota cluster dimasukkan kedalam cluster yang memiliki jarak yang paing dekat dengan centroidnya. Iterasi pada k-means akan berhenti ketika semua data yang berada pada sebuah cluster tertentu tidak berpindah ke cluster yang lainnya.

Berikut adalah langkah – langkah pengelompokan data yang menggunakan algoritma hierarchical clustering dan k-means yang menggunakan sample data dari desa di Provinsi Sumatera Utara. Banyak data yang digunakan adalah banyak cluster yang digunakan.

Nama parameter yang digunakan akan diubah variabelnya sehinggal lebih memudahkan penulis dalam perhitungannya.

10.Jarak kantor kepala desa terhadap kantor bupati menjadi X1 11.Rasio jumlah sarana pendidikan per 100 penduduk menjadi X2 12.Rasio jumlah sarana kesehatan per 100 penduduk menjadi X3 13.Rasio jumlah tenaga kesehatan per 100 penduduk menjadi X4 14.Jumlah minimarket menjadi X5

15.Persentase keluarga pertanian menjadi X6 16.Persentase keluarga pengguna listrik menjadi X7

17.Persentase keluarga yang tinggal dibantaran sungai menjadi X8 18.Rasio penderita gizi buruk per 1000 penduduk menjadi X9

Tabel 3.1. Pemberian Nama Cluster Pada Masing - Masing Data

Desa cluster ke- X1 X2 X3 X4 X5 X6 X7 X8 X9 1 C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 2 C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 3 C2 4 0 0.26 0.78 0 0.91 0.06 0 0 4 C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 5 C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 5797 C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0

Setelah selesai pemberian nama cluster pada data yang dimiliki yang dimulai dengan cluster C0 maka selanjutnya dilakukan penghitungan jarak antar cluster dengan menggunakan Euclidean Distance yang dapat dilihat pada persamaan (2.2)

Jarak cluster C0 dengan cluster lainnya : = 0 = 0.5 = 2.24 = 1.27 = 0.87 = 4.01

= 0.5 = 0 = 2.26 = 1.23 = 0.74 = 2.71

= 2.24 = 2.26 = 0 = 3.17 = 2.07 = 2.21

= 1.27 = 1.23 = 3.17 = 0 = 1.3 = 5.08

Jarak cluster C4 dengan cluster lainnya :

= 0.87 = 0.74 = 2.07 = 1.3 = 0 = 4.1

Jarak cluster C5796 dengan cluster lainnya :

= 4.01 = 4.04 = 2.21 = 5.08 = 4.1 = 0

Setelah melakukan perhitungan jarak cluster maka hasil perhitungan akan membentuk suatu matrik seperti berikut ini :

Tabel 3.2. Matrik Perhitungan Jarak Cluster Cluster C0 C1 C2 C3 C4 C5796 C0 0 0.50 2.24 1.27 0.87 4.01 C1 0.50 0 2.26 1.23 0.74 4.04 C2 2.24 2.26 0 3.17 2.07 2.21 C3 1.27 1.23 3.17 0 1.30 5.08 C4 0.87 0.74 2.07 1.30 0 4.10 C5796 4.01 4.04 2.21 5.08 4.10 0

Setelah di dapatkan tabel matrik seperti pada tabel 3.2 diatas selanjutnya cari sepasang cluster yang jaraknya paling dekat, dan gabungkan sehingga didapat sebuah cluster baru. Dari penggabungan ini maka banyak data akan menjadi n = n – 1. Lalu hitung jarak antara cluster yang baru dengan masing-masing cluster yang lainnya. Penghitungan jarak cluster baru ini menggunakan Single-Linkage pada persamaan (2.7).

Dari tabel matrik pada tabel 3.2 ditemukan pasangan jarak terdekat adalah C0

dan C1, dengan jarak = 0.5. Keduanya digabung menjadi Cluster tunggal yaitu C0/C1. Level dari cluster baru adalah L(C0/C1) = 0.5 dan m = 1. Kemudian dihitung jarak dari objek gabungan ini ke semua objek lainnya. Pada Clusterisasi singlelinkage, aturannya adalah jarak antara objek gabungan ke objek lainnya sama dengan jarak terpendek dari suatu anggota pada

Cluster ke yang lainnya di luar objek.

Tabel 3.3. Matrik Perhitungan Jarak Cluster L(C0) = 0 dan m = 0 Cluster C0 C1 C2 C3 C4 C5796 C0 0 0.50 2.24 1.27 0.87 4.01 C1 0.50 0 2.26 1.23 0.74 2.71 C2 2.24 2.26 0 3.17 2.07 2.21 C3 1.27 1.23 3.17 0 1.30 5.08 C4 0.87 0.74 2.07 1.30 0 4.10 C5796 4.01 4.04 2.21 5.08 4.10 0

Setelah penggabungan C0 dan C1 maka akan terbentuk cluster baru yang mana proses pembentukannya adalah setelah C0/C1 tergabung maka dilihat kembali jarak antara C0/C1 dan C0/C1 = 0, dan pada pembentukan cluster C0/C1 dan C2 dilihat jarak mana yang lebih dekat antara C0 terhadap C2 atau C1 terhadap C2 . Karena yang paling dekat adalah 2.24 maka nilai selanjutnya yang diisi pada matrik C0/C1 dan C2 adalah 2.24 bukan 4.28. Lakukan hal ini dalam pembentukan matrik selanjutnya.

Tabel 3.4. Matrik Perhitungan Jarak Cluster L(C0/C1) =0.50 dan m = 1

Cluster C0/C1 C2 C3 C4 C5796 C0/C1 0 2.24 1.23 0.74 4.01 C2 2.24 0 3.17 2.07 2.21 C3 1.23 3.17 0 1.30 5.08 C4 0.74 2.07 1.30 0 4.10 C5796 4.01 2.21 5.08 4.10 0

Tabel 3.5. Matrik Perhitungan Jarak Cluster L(C3/ C4) = 1.30 dan m = 2

Cluster C0/ C1 C2 C3/ C4 C5796 C0/ C1 0 2.24 0.74 4.01

C2 2.24 0 2.07 2.21

C3/ C4 0.74 2.07 0 4.10

C5796 4.01 2.21 4.10 0

Tabel 3.6. Matrik Perhitungan Jarak Cluster L(C2/C3/ C4) = 2.07 dan m = 3

Cluster C0/ C1 C2/C3/ C4 C5796

C0/ C1 0 0.74 2.21

C2/C3/ C4 0.74 0 4.01

C5796 4.01 2.21 0

Tabel 3.7. Matrik Perhitungan Jarak Cluster L(C0/C1/C2/C3/ C4) = 0.74 dan m = 4

C0/C1/C2/C3/ C4 0 2.21

C5796 2.21 0

Tabel 3.8. Matrik Perhitungan Jarak Cluster L(C0/C1/C2/C3/ C4/ C5796) = 2.21 dan m = 5

Cluster (C0/C1/C2/C3/ C4/ C5796) (C0/C1/C2/C3/ C4/ C5796) 0

Setelah terbentuk 1 cluster besar yaitu C0/C1/C2/C3/C4/C5796 maka proses dalam algoritma hierarchical clustering telah selesai. Hasil dari proses ini akan ditampilkan dalam suatu dendrogram.

Gambar 3.3. Dendrogram Jarak Cluster

Setelah proses hierarchical clustering selesai, maka dilanjutkan dengan proses k-means. Proses k-means sendiri diawali dengan penentuan banyak cluster yang ingin di bentuk kemudian dilanjutkan dengan penentuan pusat awal cluster (centroid awal) yang dilakukan secara random. Namun karena menggunakan gabungan antara algoritma hierarchical clustering dan k-means, maka penentuan pusat cluster dilakukan dengan mencari means (rata-rata) dari data yang berada pada sebuah cluster hasil dari perhitungan hierarchical clustering yang sebelumnya telah

dilakukan. Pada kasus ini penulis ingin membentuk 3 cluster. Karena ingin membentuk 3 cluster maka anggota tiap cluster baru adalah adalah :

Cluster A : C0 dan C1

Cluster B : C2,C3 dan C4

Cluster C : C5796

Pengambilan pusat cluster (centroid) dilakukan dengan menghitung mean (rata-rata) pada masing-masing cluster dengan membagi jumlah data yang didapatkan untuk setiap clusternya. Adapun tujuan dari penghitungan ini adalah agar setiap cluster memiliki anggota data pada iterasi pertama. Untuk mencari mean (rata-rata) dengan menggunkan rumus berikut:

dimana :

: rata-rata dari data yang berada dalam satu cluster (centroid awal) n : banyak data

Tabel 3.9. Anggota Cluster baru yang dibentuk

Cluster

baru Cluster

lama X1 X2 X3 X4 X5 X6 X7 X8 X9

CA C0 6 0.3 0.3 0.3 0 0.61 0.84 0 0

CB C2 4 0 0.26 0.78 0 0.91 0.06 0 0

CB C3 7 0.31 0.16 0.31 0 0.4 0.39 0.59 0

CB C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0

CC C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0

Proses penghitungan nilai centroid awal pada masing-masing cluster sebagai berikut: 1. Nilai centroid awal pada cluster pertama (CA) :

3. Nilai centroid awal pada cluster ketiga (CC) :

Adapun hasil dari centroid awal dari masing-masing cluster dapat dilihat pada Tabel 3.10 berikut:

Tabel 3.10. Hasil Centroid Awal Masing – Masing Cluster

Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9

CA 6 0.19 0.17 0.19 0 0.51 0.73 0 0 CB 5.67 0.13 0.2 0.45 0 0.7 0.16 0.2 0 CC 2 0.08 0.12 0.41 0 0.75 0.9 0.01 0

Setelah hasil centroid awal dari setiap cluster didapat, selanjutnya dilakukan penghitungan jarak anggota cluster ke setiap centroidnya dengan menggunakan rumus euclidiance distance yakni persamaan (2.2). Hasil dari penghitungan jarak anggota cluster dengan centroidnya akan berpengaruh pada penempatan setiap data ke cluster yang telah ditentukan.

Jarak cluster CA dengan centroidnya:

= 0.25 = 0.25 = 2.23 = 1.22

= 0.77

= 4.02

Jarak cluster CB dengan centroidnya:

= 0.82

= 0.78

= 1.73

= 0.46

= 3.75

Jarak cluster CC dengan centroidnya:

= 4.01

= 4.04

= 2.21

= 4.1

= 0

Tabel 3.11. Hasil Penghitungan Jarak ClusterDengan Centroidnya

Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9 dCA dCB dCC C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 0.25 0.82 4.01 C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 0.25 0.78 4.04 C2 4 0 0.26 0.78 0 0.91 0.06 0 0 2.23 1.73 2.21 C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 1.22 1.46 5.08 C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 0.77 0.46 4.10 C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0 4.02 3.75 0

Setelah melakukan penghitungan jarak centroid dengan masing-masing clusternya, selanjutnya adalah dilakukan pengelompokkan jarak terkecil disetiap masing-masing cluster. Pada tabel 3.12 dapat dilihat bahwa jarak paling dekat pada C0 adalah 0.25 maka dari itu cluster C0 merupakan anggota dari cluster CA, demikian juga dengan cluster C1 jarak paling dekat adalah 0.25 sehingga cluster C1 merupakan anggota dari cluster CB. Demikian selanjutnya dengan jarak cluster yang lainnya. Untuk lebih jelasnya anggota data awal untuk masing-masing cluster baru akan disajikan pada Tabel 3.12 berikut:

Tabel 3.12. Anggota Data Awal Masing-Masing Cluster

Cluster dCA dCB dCC CA CB CC C0 0.25 0.82 4.01 ok

C1 0.25 0.78 4.04 ok C2 2.23 1.73 2.21 ok C3 1.22 1.46 5.08 ok

C4 0.77 0.46 4.10 ok C5796 4.02 3.75 0 ok

Hasil dari tabel 3.12 diatas adalah hasil sementara, maka akan terjadi pengulangan (iterasi) pada proses k-means hingga tidak ada perpindahan pada setiap anggota cluster. Maka dari itu proses akan diulang kembali dari penentuan centroid baru dan menghitung kembali jarak antara cluster dan centroidnya.

Pengulangan pertama dilakukan dengan menggunakan data pada tabel 3.13 yang merupakan tabel yang anggota dari cluster baru telah terbentuk.

Tabel 3.13. Anggota Cluster baru yang dibentuk

Cluster baru Cluster lama X1 X2 X3 X4 X5 X6 X7 X8 X9 CA C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 CA C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 CB C2 4 0 0.26 0.78 0 0.91 0.06 0 0 CA C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 CB C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 CC C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0

Proses penghitungan nilai centroid baru pada masing-masing cluster sebagai berikut: 1. Nilai centroid baru pada cluster pertama (CA) :

2. Nilai centroid baru pada cluster kedua (CB) :

Adapun hasil dari centroid baru dari masing-masing cluster dapat dilihat pada Tabel 3.14 berikut:

Tabel 3.14. Hasil Centroid Baru Masing – Masing Cluster

Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9

CA 6.33 0.23 0.17 0.23 0 0.47 0.62 0.2 0 CB 5 0.04 0.22 0.52 0 0.84 0.04 0 0 CC 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0

Selanjutnya dilakukan penghitungan jarak anggota cluster ke setiap centroid barunya.

Jarak cluster CA dengan centroidnya:

= 0.49

= 0.46 = 2.52 = 0.82 = 0.79 = 4.36

Jarak cluster CB dengan centroidnya:

= 1.34

= 1.04

= 2.19

= 1.04

= 3.13

Jarak cluster CC dengan centroidnya:

= 4.01

= 2.21

= 5.08

= 4.1

= 0

Tabel 3.15. Hasil Penghitungan Jarak ClusterDengan Centroidnya Pada Pengulangan I Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9 dCA dCB dCC C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 0.49 1.34 4.01 C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 0.46 1.32 4.04 C2 4 0 0.26 0.78 0 0.91 0.06 0 0 2.52 1.04 2.21 C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 0.82 2.19 5.08 C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 0.79 1.04 4.10 C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0 4.36 3.13 0

Setelah melakukan penghitungan jarak centroid dengan masing-masing clusternya, selanjutnya adalah dilakukan pengelompokkan jarak terkecil disetiap masing-masing cluster.

Tabel 3.16. Anggota Data Baru Masing-Masing Cluster Pada Pengulangan I

Cluster dCA dCB dCC CA CB CC C0 0.49 1.34 4.01 ok C1 0.46 1.32 4.04 ok C2 2.52 1.04 2.21 ok C3 0.82 2.19 5.08 ok C4 0.79 1.04 4.10 ok C5796 4.36 3.13 0.00 ok

Dari tabel 3.16 dapat dilihat bahwa telah terjadi perpindahan cluster pada C4 yang mana sebelumnya C4 adalah anggota dari cluster CB namun setelah pengulangan I (pertama) C4 telah berpindah ke cluster CA. Karena terjadi perpindahan maka pengulangan kembali dilakukan.

Pada Pengulangan II (kedua) data yang digunakan adalah data pada tabel 3.17 yang merupakan tabel yang anggota dari cluster baru yang terbentuk setelah pengulangan I.

Tabel 3.17. Anggota Cluster baru yang dibentuk Cluster baru Cluster lama X1 X2 X3 X4 X5 X6 X7 X8 X9 CA C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 CA C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 CB C2 4 0 0.26 0.78 0 0.91 0.06 0 0 CA C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 CA C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 CC C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0

Proses penghitungan nilai centroid baru pada masing-masing cluster sebagai berikut: 1. Nilai centroid baru pada cluster pertama (CA) :

2. Nilai centroid baru pada cluster kedua (CB) :

3. Nilai centroid baru pada cluster ketiga (CC) :

Adapun hasil dari centroid baru dari masing-masing cluster setelah pengulangan IIdapat dilihat pada Tabel 3.18 berikut:

Tabel 3.18. Hasil Centroid Baru Masing – Masing Cluster Setelah Pengulangan II

Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9

CA 6.25 0.2 0.17 0.24 0 0.55 0.47 0.15 0 CB 4 0 0.26 0.78 0 0.91 0.06 0 0 CC 2 0.08 0.12 0.41 0 0.75 0.9 0.01 0

Selanjutnya dilakukan penghitungan jarak anggota cluster ke setiap centroid barunya.

Jarak cluster CA dengan centroidnya:

= 0.51 = 0.42 = 2.39 = 0.9 = 0.59

= 4.28

Jarak cluster CB dengan centroidnya:

= 2.24 = 1.26 = 0 = 3.17 = 2.07

= 2.21

Jarak cluster CC dengan centroidnya:

= 4.01 = 4.04 = 2.21 = 5.08 = 4.1

= 0

Tabel 3.19. Hasil Penghitungan Jarak ClusterDengan Centroidnya Pada Pengulangan II Cluster X1 X2 X3 X4 X5 X6 X7 X8 X9 dCA dCB dCC C0 6 0.30 0.30 0.30 0 0.61 0.84 0 0 0.51 2.24 4.01 C1 6 0.09 0.04 0.09 0 0.40 0.62 0 0 0.42 2.26 4.04 C2 4 0 0.26 0.78 0 0.91 0.06 0 0 2.39 0 2.21 C3 7 0.31 0.16 0.31 0 0.40 0.39 0.59 0 0.9 3.17 3.17 C4 6 0.09 0.18 0.26 0 0.78 0.02 0 0 0.59 2.07 4.1 C5796 2 0.08 0.12 0.41 0 0.75 0.90 0.01 0 4.28 2.21 0

Setelah melakukan penghitungan jarak centroid dengan masing-masing clusternya, selanjutnya adalah dilakukan pengelompokkan jarak terkecil disetiap masing-masing cluster.

Tabel 3.20. Anggota Data Baru Masing-Masing Cluster Pada Pengulangan II

Cluster dCA dCB dCC CA CB CC C0 0.51 2.24 4.01 ok C1 0.42 2.26 4.04 ok C2 2.39 0 2.21 ok C3 0.90 3.17 3.17 ok C4 0.59 2.07 4.10 ok C5796 4.28 2.21 0.00 ok

Dari hasil yang ditampilkan tabel 3.20 menunjukkan bahwa tidak ada perpindahan cluster yang terjadi pada data pada saat pengulangan kedua dilakukan, ini artinya proses k-means telah selesai dilakukan dan telah didapat anggota tiap cluster yang

dibutuhkan. Yang mana dari data tersebut dihasilkan kelompok data yang telah dibagi menjadi 3 cluster. Hasil dari pengelompokan ini dapat dilihat pada tabel 3.21 berikut :

Tabel 3.21. Hasil Akhir Proses Clustering

Nama Cluster Desa X1 X2 X3 X4 X5 X6 X7 X8 X9 CA 1 6 0.3 0.3 0.3 0 0.61 0.84 0 0 CA 2 6 0.09 0.04 0.09 0 0.4 0.62 0 0 CA 4 7 0.31 0.16 0.31 0 0.4 0.39 0.59 0 CA 5 6 0.09 0.18 0.26 0 0.78 0.02 0 0 CB 3 4 0 0.26 0.78 0 0.91 0.06 0 0 CC 5797 2 0.08 0.12 0.41 0 0.75 0.9 0.01 0

Dokumen terkait