Optimasi K-means Clustering Dengan Menggunakan Particle Swarm Optimization Untuk Menentukan Jumlah Cluster Pada Kanker Serviks

(1)

Optimasi K-means Clustering Dengan Menggunakan Particle Swarm Optimization Untuk Menentukan Jumlah Cluster Pada

Kanker Serviks

Indrawan Setiaji^*, Affandy, Ahmad Zainul Fanani

Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro, Semarang, Indonesia Email: ^1,*hazzegan@email.com, ²affandy@dsn.dinus.ac.id,³a.zainul.fanani@dsn.dinus.ac.id

Email Penulis Korespondensi: hazzegan@email.com

Abstrak−Kanker serviks adalah salah satu kanker paling umum di kalangan wanita di dunia. Ini paling umum di negara berkembang. Kanker serviks berkembang perlahan di dalam tubuh. Dengan clustering sangat dibutuhkan agar kanker serviks cepat untuk ditangani.Metode K-means dipilih karena kemapuannya dalam pengelompokan data dalam jumlah besar dan waktu komputasi cepat. Metode K-means ini juga sangat mudah untuk diimplemantasikan, flesibel, dan menggunakan prinsip yang sederhana, dapat dijelaskan non statistik. Banyaknya kelebihan yang dimiliki K-means, juga memiliki kelemahan karena menngunakan jumlah clustering secara acak dan hasilnya kurang maksimal. Sulitnya dalam menentukan jumlah clustering dalam dataset secara akurat. Metode K-means tidak bisa memberikan solusi optimal penentuan jumlah clustering, sehingga perlu untuk ditingkatkan agar mendapatkan solusi optimal.PSO dipilih dikarenakan memiliki beberapa kelebihan yaitu membutuhkan sedikit parameter, mudah diterapkan, konvergensi yang cepat, lebih efisien karena membutuhkan sedikit komputasi dan sederhana. Hasil penelitian menunjukkan bahwa metode PSO - K-means dapat terbukti memberikan konstribusi yang signifikan denggan langsung mendapatkan hasil clustering yang optimum tanpa harus melakukan percobaan berulang kali dengan nilai Silhouette Coefficient mencapai 0,83 dan nilai Davies Bouldien Index mencapai 1,91.

Kata Kunci: PSO-K-Means; K-Means; Jumlah Clustering; Clustering; Particle Swarm Optization; Silhouette Coefficient;

Davies Bouldin Index

Abstract−Cervical cancer is one of the most common cancers among women in the world. It is most common in developing countries. Cervical cancer develops slowly in the body. Clustering is needed so that cervical cancer can be treated quickly. The K-means method was chosen because of its ability to group large amounts of data and fast computation time. The K-means method is also very easy to implement, flexible, and uses simple principles, which can be explained non-statistically. The many advantages that K-means has, also has weaknesses because it uses random clustering numbers and the results are not optimal.

The difficulty in accurately determining the amount of clustering in the dataset. The K-means method cannot provide an optimal solution for determining the number of clustering, so it needs to be improved in order to obtain an optimal solution. PSO was chosen because it has several advantages, namely requiring few parameters, easy to implement, fast convergence, more efficient because it requires little computation and is simple. The results showed that the PSO - K-means method can prove to provide a significant contribution by directly obtaining optimum clustering results without having to do repeated experiments with a Silhouette Coefficient value of 0.83 and a Davies Bouldien Index value of 1.91.

Keywords: PSO-K-Means; K-Means; Number of Clustering; Clustering; Particle Swarm Optimization; Silhouette Coefficients; Davies Bouldin Index

1. PENDAHULUAN

Kanker atau cancer adalah pertumbuhan sel abnormal yang dapat menyerang jaringan di sekitarnya dan juga menyebar ke bagian tubuh lain yang jauh [1] [2]. Kanker adalah penyakit berbahaya dan dapat menyebabkan kematian bagi penderitanya. Kanker juga salah satu penyebab kematian terbesar didunia, Lebih dari 8,2 juta jiwa telah meninggal karena kanker [3]. Dari sekitar 8.201.575 jiwa meninggal dari 14.067.894 jiwa penderita kanker.

Dari beberapa jenis kanker, kanker serviks adalah salah satunya [4] [5].

Di Asia, 159.800 kematian terjadi akibat kanker serviks. Jumlah kasus kanker serviks mulai meningkat pada wanita berusia 20‑29 tahun, mencapai puncaknya pada wanita berusia 55‑64 tahun, dan menurun pada wanita berusia di atas 65 tahun [6]. Penyebab pasti kanker serviks belum diketahui, namun salah satu penyebabnya adalah virus HPV [7].

Berdasarkan angka kematian dan jumlah pengidap kanker serviks yang tinggi dapat ditangani dengan teknologi komputasi. teknologi komputasi saat ini sudah sangat sering digunakan untuk mengatasi permasalahan- permasalahan yang muncul dimasyarakat.

Teknologi komputasi juga bisa digunakan untuk menganalisa akurasi dalam clustering, mengatur variabel dan pengaruh antar variabel. Guna mengurangi angka kematian yang disebabkan oleh kanker serviks, maka clustering sangat dibutuhkan agar kanker serviks cepat untuk ditangani.

Clustering merupakan metode data mining yang bersifat arahan atau data yang tidak memiliki label (unsupervised) [8] . Hirarki data clustering dan non hirarki data clustering adalah jenis data clustering yang sering digunakan dalam clustering [9]. K-means adalah metode clustering non hirarki berfugsi untuk membagi data ke satu atau lebih clustering [10].

Metode K-means adalah metode clustering yang terkenal karena kemampuannya dalam clustering data yang besar [11]. Metode K-means adalah metode clustering yang sederhana dan mudah dipahami. Metode K- means sangat populer dan bersifat tanpa kendali [12]. Metode K-means dipilih karena kemapuannya dalam

(2)

pengelompokan data dalam jumlah besar dan waktu komputasi cepat [13]. Metode K-means ini juga sangat mudah untuk diimplemantasikan, flesibel, dan menggunakan prinsip yang sederhana, dapat dijelaskan non statistik [11].

Banyaknya kelebihan yang dimiliki K-means, juga memiliki kelemahan karena menngunakan jumlah clustering secara acak dan hasilnya kurang maksimal [14]. Sulitnya dalam menentukan jumlah clustering dalam dataset secara akurat [15]. Metode K-means tidak bisa memberikan solusi optimal penentuan jumlah clustering, sehingga perlu untuk ditingkatkan agar mendapatkan solusi optimal.

Untuk mengtasi kerkurangan tersebut dan mengoptimalkan K-means. Ada beberapa metode optimasi untuk dalam menentukan jumlah clustering antara lain Ant-Colony Optimization (ACO), Genetic Algorithm (GA), Crossvalidation, Bootstrap, Elbow, Crossvalidation dan Particle Swarm Optimization (PSO). PSO adalah sejenis algoritma evolusioner yang terinspirasi oleh sekawanan burung dan sekawanan ikan [16]. Metode optimasi gerombolan partikel pada awalnya dibuat untuk menyelesaikan masalah optimasi.

Terdapat lima penelitian terdahulu sebagai referensi dari penelitian yang dibuat dengan menggunakan metode clustering untuk menentukan jumlah cluster. Masing-masing topik penelitian, diantaranya, Anisur Rahman, Zahidul Islam tentang A Hybrid Clustering Technique Combining a Novel Genetic Algorithm with K- Means [17]. Purnima Bholowalia, Arvind Kumar tentang A Clustering Technique based on Elbow Method and K- Means in WSN, Menggunakan algoritma Leach dan Kmeans dalam Wireless Sensor Network untuk menetukan nilai cluster secara otomatis [18]. Yixin Fang , Junhui Wang tentang Selection of the number of clusters via the bootstrap method, Menggunakan metode Bootstrap untuk menentukan jumlah cluster [19]. Junhui Wang tentang Consistent Selection of the number of clusters via crossvalidation [20]. Robert Tibshirani, Guenther Walther, Trevor Hastle tentang Estimating the number of clusters in a data set via the gap statistic. Penelitian ini merumuskan permasalahan bagaimana meningkatkan kinerja clustering berbasis K-Means dengan optimasi PSO.

2. METODOLOGI PENELITIAN

2.1 Persiapan Data

Dataset penelitian ini berasal dari publik dari UCI Machine Learning Repository. identifikasi dari setiap kumpulan data yang digunakan dalam penelitian ini menunjukkan atribut numerik, jumlah kumpulan data, dan nilai yang hilang

Tabel 1. Dataset

Dataset Atribut Numerik Jumlah Record Missing Value

Cervical Cancer 19 72 0

2.2 Eksperimen dan Pengujian Metode Tahapan penelitian:

1. Menyiapkan dataset penelitian

Penelitian ini menggunakan dataset dari UCI repository kanker serviks Tabel 2. Dataset kanker serviks

No X1 X2 X3 X4 X5 X6 . . X17 X18 X19

1 10 13 12 4 7 . . 12 11 8

2 10 11 11 10 14 . . 5 4 4

. . . .

71 9 12 13 10 13 6 . . 11 13 15

72 10 14 14 6 12 7 . . 13 15 15

2. Proses PSO-K-Means untuk menentukan jumlah clustering.

Dalam penelitian ini, jumlah clustering tidak diperoleh dari hasil eksperimen, dan metode Particle Swarm Optimization digunakan dalam prosedur berikut:

Langkah 1: Inisialisasi jumlah partikel dan kemudian posisi awal partikel Langkah 2: Inisialisasi kecepatan awal semua partikel ke 0

Langkah 3: Hitung fitness, lalu hitung Pbest dan Gbest

Langkah 4: Lakukan pembaruan kecepatan untuk menentukan arah pergerakan posisi partikel dalam populasi.

Langkah 5: Pembaruan posisi dilakukan dan posisi akhir setiap partikel ditentukan berdasarkan kecepatan partikel yang diperbarui dan hasil posisi awal. Setelah mendapatkan nilai kecepatan, lanjutkan dengan menghitung jumlah posisi partikel dan kecepatan sehingga diperoleh posisi terakhir. Kemudian hitung hasil fitness terbaru. Tentu saja, nilai Pbest dan Gbest terbaru.

Langkah 6: Bandingkan nilai fitness Pbest dan perbarui Pbest. Perbarui Gbest adalah nilai global tertinggi Pbest. Pada iterasi sebelumnya menggunakan kesesuaian update posisi. Nilai terbaik adalah Gbest baru pada iterasi berikutnya.

(3)

Langkah 7: Ulangi langkah 4 hingga 6 hingga kondisi konvergen terpenuhi sehingga menghasilan nilai k yang digunakan untuk proses selanjutnya.

3. Menghasilkan clustering dengan jumlah cluster terbaik

Setelah Anda menemukan nomor clustering lanjutkan ke metode K-Means. Untuk menghitung jarak terdekat centroid di K-means, penelitian ini menggunakan metode Euclidean Distance. Gambar 3.1 menunjukkan tahapan metode yang diusulkan.

Gambar 1. Flowchart PSO - K-Means 2.3 Perbaikan metode K-Means menjadi metode PSO - K-Means

Melakukan eksperimen metode yang diusulkan PSO - K-Means dengan menggunkan dataset publik dari UCI yaitu kanker serviks dengan variasi atribut dan record dataset tersebut. Kemudian pengujian dilakukan dengan membandingkan kinerjanya dengan evaluasi dari nila Silhouette Coefficient dan Davies Bouldin Index antara metode yang diusulkan dengan metode K-means dengan dataset kanker serviks untuk menguji keefektifan penentuan jumlah clustering metode yang diusulkan. Perbaikan kinerja ditunjukkan dengan nilai Silhouette Coefficient dan Davies Bouldin Indexnya.

2.4 Evaluasi Hasil

Mengevaluasi hasil clustering yang dihasilkan berdasarkan nilai Silhouette Coefficient. Digunakannya Silhouette Coefissien dari pada metode elbow adalah karena Silhouette Coeficient merupakan salah satu kriteria validasi clustering internal sedangkan metode elbow bukan kriteria tetapi merupakan metode yang dapat digunakan dengan banyak kriteria, termasuk silhouetet coeficient. Untuk evaluasi dengan nilai Silhouette Coefficient yaitu semakin mendekati 1 maka hasil clustering semakin baik. Sedangkan pada dan Davies Bouldin Index semakin kecil nilai DBI nya maka semakin baik pula clustering yang dihasilkan. Dengan semakin mendekati 1 nilai Silhouette Coefficientnya dan semakin kecil nilai Davies Bouldin Index maka dengan demikian performa K-Means dapat ditingkatkan menjadi lebih baik dan lebih optimal karena tidak perlu melakukan percobaan untuk menentukan jumlah clustering.

3. HASIL DAN PEMBAHASAN

3.1 Tahapan Penelitian

Tujuan penelitian ini adalah menerapkan pemilihan jumlah clustering pada metode K-Means untuk mendapatkan clustering yang optimal dan memperoleh kualitas clustering yang lebih baik. Pada penelitian ini dilakukan perbandingan hasil nilai SI dataset kanker serviks. Eksperimen dilakukan menggunakan metode K-Means dan metode yang diusulkan yaitu K-Means optimasi jumlah clustering dengan Particle Swarm Optimization.

3.2 Penentuan Jumlah Cluster K-means Optimasi dengan PSO 3.2.1 Untun Metode K-Means

Pada metode K-Means tahapan awalnya adalah menentukan jumlah clustering, lalu mencari pusat clustering secara random, setelah itu menghitung jarak setiap data terhadap pusat clustering dengan Euclidean Distance. Kemudian

(4)

mengelompokkan data berdasarkan jarak objek ke pusat clustering terdekat. Ulangi proses menentukan pusat clustering hingga nilai pusat clustering tidak berubah atau hingga tidak ada objek yang berpindah.

3.2.2 Menentukan Jumlah Cluster

Eksperimen dilakukan dengan menentukan jumlah clustering secara random dengan nilai k=3. Hasil clustering terbaik nantinya akan dihitung menggunakan nilai Silhouette Coefficient. Apabila nilainya mendekati 1 maka hasil clustering semakin baik namun apabila nilainya mendekati -1 maka hasil clustering semakin buruk

3.2.3 Menentukan Pusat Cluster

Pada iterasi 1 dilakukan penentuan pusat clustering dilakukan secara random. Record data 19, 47 dan 69 dipilih menjadu pusat clustering awal sehingga didapatkan pusat clustering seperti tabel 3 berikut.

Tabel 3. Pusat cluster iterasi 1, k=3

No Clustering X1 X2 X3 . . X18 X19

1 C1 10 11 12 . . 4 3

2 C2 10 14 11 . . 11 14

3 C3 10 12 15 . . 11 14

3.2.4 Menghitung jarak data dengan pusat cluster

Setelah pusat clustering ditentukan maka langkah selanjutnya adalah menghitung jarak antara data dan pusat clustering, dengan rumus :

De = √(𝑥𝑖 − 𝑠𝑖)²+ (𝑦𝑖 − 𝑡𝑖)² (1)

Untuk record data ke 2 dengan pusat cluster 1 jaraknya = 18,38477631 Dengan pusat cluster 2 jaraknya = 24,63736999

Dengan pusat cluster 3 jaraknya = 24,41311123

3.2.5 Mengelompokan data berdasarkan dengan jarak terdekat dengan pusat cluster

Setelah didapatkan hasil Euclidean Distance nya maka langkah selanjutnya adalah menentukan jarak yang paling pendek dari pusat clustering. Untuk jarak terpendek dari data atau record no 2 antara 18,38477631, 24,63736999 dan 24,41311123 adalah 18,38477631 maka bisa disimpulkan bahwa data no 2 adalah anggota kelompok dari clustering 2. Sehingga didapatkan data seperti tabel 4.

Tabel 4. Cluster pada iterasi 1

No X1 X2 . . . X17 X18 X19 C1 C2 C3 Jarak Terdekat

Clustering 1 10 13 . . . 12 11 8 18,65476 18,78829 19,39072 18,65 C1 2 10 11 . . . 5 4 4 18,38478 24,63737 24,41311 18,38 C1 3 10 15 . . . 3 3 15 19,89975 27,91057 29,46184 19,89 C1

. . . . .

71 9 12 . . . 11 13 15 26,05763 9,899495 7,141428 7,14 C3 72 10 14 . . . 13 15 15 27,0555 11,61895 8,3666 8,36 C3

Kemudian selanjutkan data akan dikelompokkan sesuai dengan kelompok clustering masing masing.

Sehingga didapat tabel sebagai berikut:

Tabel 5. Iterasi 1 k=3 C1

No Data ke X1 X2 . . X18 X19

1 1 10 13 . . 11 8

2 2 10 11 . . 4 4

3 3 10 15 . . 3 15

. . . . .

25 63 10 13 . . 3 3

26 64 10 13 . . 6 3

Dari Tabel 5 diketahui bahwa iterasi ke 1 pada cluster 1 dari 3 cluster memiliki 27 data Tabel 6. Iterasi 1 k=3 C2

No Data ke X1 X2 . . X18 X19

1 45 10 11 . . 11 15

(5)

No Data ke X1 X2 . . X18 X19

2 47 10 14 . . 11 14

3 49 10 15 . . 8 11

4 50 6 15 . . 9 3

5 53 10 9 . . 7 3

6 57 10 10 . . 15 15

7 65 10 15 . . 10 15

8 66 10 13 . . 7 11

9 67 10 12 . . 7 11

Dari Tabel 6 diketahui bahwa iterasi ke 1 pada cluster 2 dari 3 cluster memiliki 9 data Tabel 7. Iterasi 1 k=3 C3

No Data ke X1 X2 . . X18 X19

1 9 10 15 . . 15 15

2 14 9 12 . . 3 11

3 20 10 12 . . 10 9

. . . . .

35 71 9 . . 13 15

36 72 10 . . 15 15

Dari Tabel 7 diketahui bahwa iterasi ke 1 pada cluster 3 dari 3 cluster memiliki 36 data Tabel 8. Anggota cluster iterasi 1 k=3

Jumlah Anggota Cluster

C1 27

C2 9

C3 36

Dari Tabel 8 diketahui bahwa iterasi ke 1 menghasilkan cluster 1 = 27 data, cluster 2 = 9 data dan cluster 3

= 36 data.

3.2.6 Menentukan Pusat Cluster Baru

Kemudian setelah data dikelompokkan sesuai kelompoknya maka untuk melanjutkan ke iterasi ke 2 perlu ditentukan pusat clustering baru. Pusat clustering baru didapatkan dari 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟

𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑛𝑔𝑔𝑜𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 Sehingga didapatkan pusat cluster baru iterasi 2 seperti tabel 9

Tabel 9. Pusat cluster baru iterasi 2

No Clustering X1 X2 X3 . . X18 X19

1 C1 9,333333 12,96296 9,37037 . . 5,185185 6,185185 2 C2 9,555556 12,66667 10,66667 . . 9,444444 10,88889 3 C3 9,944444 12,69444 12,47222 . . 12,38889 13,19444

Dari Tabel 9 didapat pusat cluster baru yang akan digunakan pada iterasi ke 2. Ulangi proses Euclidean distance hingga mencari pusat cluster baru hingga tidak ada data yang berpindah. Untuk iterasi 2 jumlah anggota cluster dan perpindahan data yang terbentuk:

Tabel 10. Anggota cluster iterasi 2 k=3 Jumlah Anggota Cluster

C1 25

C2 11

C3 36

Dari Tabel 10 diketahui bahwa iterasi ke 2 menghasilkan cluster 1 = 26 data, cluster 2 = 10 data dan cluster 3 = 36 data.

Tabel 11. Perpindahan data iterasi 2 k=3 No Dari Clustering Ke Clustering Status

1 C1 C3 Berpindah

68 C3 C2 Berpindah

Total data berpindah 2

(6)

Dari Tabel 11 diketahui masih ada perpindahan data dari iterasi 1 ke iterasi 2 sejumlah 2 data maka akan dilanjutkan ke iterasi ke 3.

Tabel 12. Anggota cluster iterasi 3 k=3

1 C1 9,333333 12,96296 9,37037 . . 5,185185 6,185185 2 C2 9,555556 12,66667 10,66667 . . 9,444444 10,88889 3 C3 9,944444 12,69444 12,47222 . . 12,38889 13,19444 Dari Tabel 12 didapat pusat cluster baru yang akan digunakan pada iterasi ke 3

C1 25

C2 13

C3 36

Dari Tabel 13 diketahui bahwa iterasi ke 2 menghasilkan cluster 1 = 25 data, cluster 2 = 13 data dan cluster 3 = 36 data.

Tabel 14. Perpindahan data iterasi 3 k=3 No Dari Clustering Ke Clustering Status

36 C1 C3 Berpindah

54 C3 C2 Berpindah

Total data berpindah 2

Dari Tabel 14 diketahui masih ada perpindahan data dari iterasi 2 ke iterasi 3 sejumlah 2 data maka akan dilanjutkan ke iterasi ke 4.

Tabel 15. Anggota cluster iterasi 4 k=3

1 C1 9,28 13,36 9,44 . . 4,76 5,96

2 C2 9,636364 12,81818 11,09091 . . 9,545455 10,81818 3 C3 9,944444 12,38889 12,22222 . . 12,41667 13,11111 Dari Tabel 15 didapat pusat cluster baru yang akan digunakan pada iterasi ke 4

C1 25

C2 11

C3 36

Tabel 17. Perpindahan data iterasi 4 k=3 No Dari Cluster Ke Cluster Status

1 C3 C3

2 C1 C1

3 C1 C1

4 C1 C1

5 C1 C1

6 C1 C1

- - - -

71 C3 C3

72 C3 C3

Jumlah Total Berpindah 0

Dari Tabel 17 diketahui bahwa perpindahan data dari iterasi 3 ke iterasi 4 sudah tidak ada lagi sehingga iterasi berhenti di iterasi ke 4.

Tabel 18. Iterasi 3 k=3 C1

No Data ke X1 X2 . . X18 X19

1 2 10 11 . . 4 4

(7)

No Data ke X1 X2 . . X18 X19

2 3 10 15 . . 3 15

3 4 10 11 . . 4 4

4 5 8 11 . . 4 7

5 6 10 14 . . 9 6

6 7 10 15 . . 3 5

7 8 8 12 . . 7 12

8 10 7 15 . . 4 4

9 11 7 15 . . 3 9

. . . . .

24 63 10 13 . . 3 3

25 64 10 13 . . 6 3

Dari Tabel 18 diketahui bahwa iterasi ke 4 pada cluster 1 dari 3 cluster memiliki 25 data.

No Data ke X1 X2 . . X18 X19

1 45 10 11 . . 11 15

2 47 10 14 . . 11 14

3 49 10 15 . . 8 11

4 50 6 15 . . 9 3

5 53 10 9 . . 7 3

6 54 10 13 . . 9 12

. . . . .

10 67 10 12 . . 7 11

11 68 10 14 . . 11 9

Dari Tabel 19 diketahui bahwa iterasi ke 4 pada cluster 2 dari 3 cluster memiliki 11 data.

No Data ke X1 X2 . . X18 X19

1 1 10 13 . . 11 8

2 9 10 15 . . 15 15

3 14 9 12 . . 3 11

4 20 10 12 . . 10 9

5 22 10 12 . . 12 12

6 23 10 13 . . 15 15

7 24 10 15 . . 14 15

8 25 10 12 . . 10 14

9 26 10 15 . . 11 15

. . . . .

35 71 9 12 . . 13 15

36 72 10 14 . . 15 15

Dari Tabel 20 diketahui bahwa iterasi ke 4 pada cluster 3 dari 3 cluster memiliki 36 data

Gambar 2. Grafik Sebaran Cluster 3.2.7 Menentukan Nilai Silhouette Coefissien dan Nilai Davies Bouldin Index

Pada bagian ini dilakukan perhitungan nilai Silhoette Coeffisien untuk menentukan mengukur seberapa baik hasil sebuah clustering. Dimana rumus untuk menentukan nilai Silhoette Coeffisien adalah

(8)

𝑠(𝑖) = ^{𝑏(𝑖)−𝑎(𝑖)}

𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖)) (2)

Jadi untuk nilai Silhouetee Coefficient jumlah cluster 3 adalah 0,815460782. Pada bagian ini dilakukan perhitungan nilai Davies Bouldien Index untuk menentukan mengukur seberapa baik hasil sebuah cluster. Dimana menggunakan rumus persamaan. Menghitung Sum of square within clustering (SSW) dengan persamaan 𝑆𝑆𝑊_𝑖 = _𝑚¹

𝑖∑^𝑚_𝑗=𝑖^𝑖 𝑑(𝑥_𝑖, 𝑐_𝑖) (3)

Jadi untuk nilai Davies Bouliden Index clustering 3 adalah 2,258699734

3.3 Penentuan Jumlah Cluster Manual Pada K-Means Optimasi Jumlah Cluster dengan PSO

Pada metode K-Means tahapan awalnya adalah terlebih dahulu menentukan jumlah klaster. Pada metode K-Means jumlah clustering ditentukan secara acak. Maka digunakan PSO untuk melakukan optimasi jumlah clustering.

kemudian mencari pusat clustering, setelah itu menghitung jarak Euclidean Distance. Kemudian data dikelompokkan berdasarkan jarak objek ke pusat clustering terdekat. Ulangi proses menentukan pusat clustering hingga data tidak ada objek yang berpindah.

3.3.1 Untuk Metode PSO

Penentuan pusat clustering menggunakan metode Particle Swarm Optimization. Sehingga tidak diperoleh secara random dan tidak perlu dilakukan beberapa percobaan untuk mendapatkan clustering yang terbaik. Proses awal PSO adalah menentukan jumlah partikel yang digunakan, lalu Inisialisasi posisi awal partikel, hitung fitness setelah itu hitung Pbest dan Gbest, lalu update posisi dilakukan untuk menentukan posisi terbaru dari setiap partikel berdasarkan hasil update kecepatan sebelumnya. Setelah didapatkan nilai kecepatan maka dilanjutan dengan perhitungan posis partikel ditambah kecepatan tersebut sehingga didapatkan posisi terbaru Setelah itu menentukan hasil fitness terbaru yang tentunya juga akan mendapat nilai Pbest dan Gbest terbaru, kemudian update Pbest dan Gbest, yaitu dengan membandingkan nilai fitness dari Pbest dan Gbest, pada iterasi sebelumnya dengan fitness dari update Posisi. Nilai yang terbaik akan menjadi Pbest dan Gbest yang baru pada iterasi selanjutnya, Ulangi langkah update kecepatan hingga update Gbest hingga kondisi konvergen terpenuhi sehingga menghasilan jumlah clustering yang digunakan untuk proses metode K-Means selanjutnya.

3.3.2 Menentukan Jumlah Partikel

Pada pemilihan jumlah partikel atau N yang digunakan sebaiknya ukurannya tidak terlalu besar, tetapi juga tidak terlalu kecil, agar ada banyak kemungkinan posisi menuju solusi optimal. Jika terlalu kecil sedikit kemungkinan menemukan posisi partikel yang optimal namun jika terlalu besar juga akan membuat perhitungan jadi lebih panjang. Sehingga digunakan N = 20.

3.3.3 Menentukan Posisi, Kecepatam, Pbest dan Gbest Awal Partikel

Menentukan posisi awal (xi) didapatkan dengan melakukan nilai rata-rata dari 20 jumlah partikel.

Tabel 21. Partikel awal

Partikel x1 x2 x3 x4 . . x7 x8 x9 Xi 1 14 7 5 10 . . 5 5 4 7,53 2 15 4 6 4 . . 4 3 1 5,21 3 15 1 1 1 . . 2 1 1 3,00 4 13 1 1 1 . . 3 1 1 2,89 5 15 7 7 6 . . 4 1 2 6,89

. . . . .

19 15 7 7 6 . . 4 1 2 6,89 20 13 1 1 1 . . 3 1 1 3,11

Dari Tabel 21 diketahui posisi awal partikel dengan nama record x awal. Untuk iterasi awal yaitu iterasi 0 kecepatan awal adalah 0 untuk semua partikel dikarenakan partikel masih berada ditempat awal belum menuju ke solusi yang diinginkan. Pbest merupakan nilai terbaik dari partikel tersebut. Nilai Pbest awal adalah sama dengan nilai posisi awal partikel.

3.3.4 Menentukan Fitness

Penentuan nilai fitness dgunakan untuk menentukan solusi mencari jumlah clustering. Dengan rumus k = 1 + decimal(s) x ^𝑎−1

2^𝑛−1 (4)

Dimana a adalah bilangan bulat antara 1 sampai jumlah data, decimal(s) menginterpretasikan string biner (s) dan mengembalikan angka desimal yang setara.

(9)

Tabel 22. Nilai Fitness Iterasi 0

No xi V a-1 𝟐^𝒙𝒊 - 1 Fitness Pbest Gbest posisi Partikel 1 7,53 0,00 18,00 0,09817206 2

2 5,21 0,00 18,00 0,499617964 2

. . . . .

20 3,11 0,00 18,00 2,36670062 4 3.3.5 Menentukan Gbest

Gbest adalah nilai terbaik global dari seluruh data. Gbest didapatkan dari nilai minimal dari nilai fitness dan nilai Pbest. Maka didapat Gbest untuk iterasi 0 adalah 2 dengan posisi partikel di 5,21.

Tabel 23. Iterasi 0 PSO

No xi V a-1 𝟐^𝒙𝒊 - 1 Fitness Pbest Gbest posisi Partikel 1 7,53 0,00 18,00 0,09817206 2 7,53 2,00 5,21 2 5,21 0,00 18,00 0,499617964 2 5,21

. . . . .

20 3,11 0,00 18,00 2,36670062 4 3,11

Pada tabel 23 diketahui iterasi 0 dari PSO yang menghasilkan Gbest 2 dan posisi partikel di 5,21.

3.3.6 Menentukan Update Kecepatan

Langkah Langkah selanjutnya adalah menghitung update kecepatan setiap partikel. Proses ini merupakan penetuan kemana arah partikel akan berjalan. Rumus update kecepatan partikel adalah

𝑣_𝑘+1^𝑖 = 𝑣_𝑘^𝑖 + 𝑐₁𝑟₁(𝑝_𝑘^𝑖 − 𝑥_𝑘^𝑖) + 𝑐₂𝑟₂(𝑝_𝑘^𝑔− 𝑥_𝑘^𝑖) (5) Dimana c1 dan c2 masing-masing adalah learning rates untuk kemampuan individu dan pengaruh kawanan, r1 dan r2 adalah bilangan random yang bernilai interval 0 dan 1. Jadi parameter c1 dan c2 menunjukkan bobot dari memory (posisi) sebuah partikel terhadap memory (posisi) dari kelompok. Nilai dari c1 dan c2 adalah 2 sehingga perkalian c1xr1 dan c2xr2 memastikan bahwa partikel-partikel akan mendekati target sekitar setengah selisihnya.

Tabel 24. Iterasi 1 PSO

No xi V a-1 𝟐^𝒙𝒊 - 1 Fitness Pbest Gbest posisi Partikel 1 1,78 0.269487448 18,00 0,0982 2 7,80 2,00 2,99 2 4,56 -2.223171658 18,00 0,4996 2 2,99

. . . . .

20 1,89 0.204218732 18,00 2,3667 4 3,31

Pada tabel 24 diketahui iterasi 1 dari PSO yang menghasilkan Gbest 2 dan posisi partikel di 2,99 Tabel 25. Iterasi 2 PSO

No xi V a-1 𝟐^𝒙𝒊 - 1 Fitness Pbest Gbest posisi Partikel 1 7,80 2.046866815 18,00 0,0814 2 9,84 2,00 0,96 2 2,99 -2.773800467 18,00 2,5973 4 0,21

. . . . .

20 3,31 0.295050446 18,00 2,0193 4 3,60

Pada tabel 25 diketahui iterasi 2 dari PSO yang menghasilkan Gbest 2 dan posisi partikel di 0,96 posisi partikel terbaik lebih baik dari posisi partikel terbaik sebelumnya, posisi partikel juga sudah konvergen sehingga iterasi berhenti di iterasi ke 2. Iterasi berhenti karena kondisi telah konvergen. Maka k yang dipilih untuk metode K-Means adalah 2.

Gambar 3. Grafik Sebaran Cluster K-means PSO

(10)

3.3.7 Nilai Silhouette Coefissien dan Nilai Davies Bouldin Index K-means PSO

Pada bagian ini dilakukan perhitungan nilai Silhoette Coeffisien untuk menentukan mengukur seberapa baik hasil sebuah clustering. Jadi untuk nilai Silhouetee Coefficient jumlah cluster 3 adalah 0,83798587. nilai Davies Bouliden Index clustering 2 adalah 1,918113516.

3.4 Perbandingan Hasil nilai Si dan DBI Metode K-Means dengan Metode K-Means Optimasi Jumlah Cluster dengan PSO

Pada tahap ini dilakukan perbandingan hasil Silhouette Coefficient dari metode K-Means dengan metode yang diusulkan pada penelitian ini yaitu penentuan jumlah cluster pada algoritma K-Means dengan metode PSO sebanyak 2 kali percobaan dengan pusat clustering yang berbeda. Pemilihan jumlah cluster dengan metode PSO setelah divalidasi dengan Silhouette Coefficient terbukti memberikan konstribusi yang signifikan denggan langsung mendapatkan hasil cluster yang optimum tanpa harus melakukan percobaan berulang kali. Hasil nilai Silhouette Coefficient K-Means dengan PSO untuk optimasi jumlah cluster terbukti langsung menghasilkan hasil yang optimum dengan k = 2, nilai Silhouette Coefficient mencapai 0,83798587. Untuk nilai Silhouette Coefficient pada k = 3 dengan metode K-Means menghasilkan nilai Silhouette Coefficient lebih kecil yaitu 0,815460782

Gambar 4. Nilai Silhouette Coefficient

Pada Gambar 4 menjelaskan bahwa dengan pusat yang berbeda bahwa k = 2 dihasilkan dari optimasi PSO adalah yang terbaik karena nilai Silhouette Coefficientnya paling mendekati 1.

Pemilihan jumlah cluster dengan metode PSO setelah divalidasi dengan Davies Bouldien Index juga terbukti memberikan konstribusi yang signifikan denggan langsung mendapatkan hasil cluster yang optimum tanpa harus melakukan percobaan berulang kali. Hasil nilai Davies Bouldien Index K-Means dengan PSO untuk optimasi jumlah cluster terbukti langsung menghasilkan hasil baik dengan k = 2 nilai Davies Bouldien Index yang diperoleh yaitu 1,918113516.

Gambar 5. Nilai Davies Bouldin Index

Pada Gambar 5 menjelaskan setelah percobaan dengan pusat clustering yang berbeda bahwa k = 2 yang dihasilkan dari optimasi PSO adalah yang terbaik karena nilai Davies Bouldien Index paling rendah.

4. KESIMPULAN

Hasil penelitian ini menghasilkan clustering yang lebih baik, dengan dalam mentukan jumlah clusteringnya menggunakan Particle Swarm Optimzation dan tidak memerlukan percobaan berulang kali dalam menentukan jumlah clustering yang tidak tepat. Nilai Silhouette Coefficient K-Means dengan PSO untuk optimasi jumlah cluster terbukti langsung menghasilkan hasil yang optimum dengan k = 2, nilai Silhouette Coefficient mencapai

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,80,91

K-Means PSO C3 C4 C5

Nilai Silhouette Coefficient

0 1 2 3 4 5

K-Means PSO C3 C4 C5

DBI (Davies Bouldin Index)

(11)

0,83798587. Untuk nilai Silhouette Coefficient pada k = 3 dengan metode K-Means menghasilkan nilai Silhouette Coefficient lebih kecil yaitu 0,815460782 begitu juga dengan Hasil nilai Davies Bouldien Index K-Means dengan PSO untuk optimasi jumlah cluster terbukti langsung menghasilkan hasil baik dengan k = 2 nilai Davies Bouldien Index yang diperoleh yaitu 1,918113516

UCAPAN TERIMAKASIH

Terima kasih dosen pembimbing yang selalu mendukung dan membimbing saya dalam penulisan ini, serta teman teman saya yang selalu mendukung dalam penulisan ini.

REFERENCES

[1] E. J. Corwin, “Buku Saku Patofisiologi , Handbook Of Pathophysiology,” 3. pp. 839–842, 2009.

[2] N. Octavinna, A. Zuhratun, and A. Y. Chaerunnisa, “Aktivitas Senyawa Aktif Michelia champaca Sebagai Inhibitor Topoisomerase Antikanker,” J. Farmaka, vol. 16, no. 3, pp. 213–221, 2018.

[3] N. Kashyap, N. Krishnan, S. Kaur, and S. Ghai, “Risk Factors of Cervical Cancer: A Case-Control Study,” Asia-Pacific J. Oncol. Nurs., vol. 6, no. 3, pp. 308–314, 2019, doi: 10.4103/apjon.apjon_73_18.

[4] I. Rasjidi, “Epidemiologi Kanker Serviks,” Indones. J. Cancer, vol. 3, no. 3, pp. 103–108, 2009, doi:

10.33371/ijoc.v3i3.123.

[5] S. Sherly and M. M. Yunita, “Optimisme Pada Wanita Penderita Kanker Payudara Berusia Dewasa Tengah,” J. Muara Med. dan Psikol. Klin., vol. 1, no. 1, p. 40, 2021, doi: 10.24912/jmmpk.v1i1.12062.

[6] L. A. Torre, F. Bray, R. L. Siegel, J. Ferlay, J. Lortet-Tieulent, and A. Jemal, “Global cancer statistics, 2012,” CA. Cancer J. Clin., vol. 65, no. 2, pp. 87–108, 2015, doi: 10.3322/caac.21262.

[7] P. R. Evriarti and A. Yasmon, “Patogenesis Human Papillomavirus (HPV) pada Kanker Serviks,” J. Biotek Medisiana Indones., vol. 8, no. 1, pp. 23–32, 2019, doi: 10.22435/jbmi.v8i1.2580.

[8] N. F. Adani et al., “Implementasi Data Mining Untuk Pengelompokan Data Penjualan Berdasarkan Pola Pembelian Menggunakan Algoritma K-Means Clustering Pada Toko Syihan,” no. x, pp. 1–11, 2019.

[9] U. Syafiyah, I. Asrafi, B. Wicaksono, D. P. Puspitasari, and M. Sirait, “Analisis Perbandingan Metode Cluster Data Indikator Ketenagakerjaan di Jabar2020………,” vol. 2020, pp. 803–812, 2020.

[10] A. Hakim and A. Hamid, “Performance Analysis of Hierarchical and Non- Hierarchical Clustering Techniques,” vol. 9, no. 2, pp. 54–71, 2020.

[11] D. Missa, S. Achmadi, and A. Mahmudi, “Penerapan Metode Clustering Dengan Algoritma K-Means Pada Pengelompokan Data Penghasilan Orang Tua Siswa,” JATI (Jurnal Mhs. Tek. Inform., vol. 5, no. 1, pp. 125–133, 2021, doi: 10.36040/jati.v5i1.3275.

[12] Z. Wang, A. Xu, Z. Zhang, C. Wang, A. Liu, and X. Hu, “The parallelization and optimization of K-means algorithm based on spark,” 15th Int. Conf. Comput. Sci. Educ. ICCSE 2020, no. Iccse, pp. 457–462, 2020, doi:

10.1109/ICCSE49874.2020.9201770.

[13] I. B. G. Sarasvananda, R. Wardoyo, and A. K. Sari, “The K-Means Clustering Algorithm With Semantic Similarity To Estimate The Cost of Hospitalization,” IJCCS (Indonesian J. Comput. Cybern. Syst., vol. 13, no. 4, p. 313, 2019, doi:

10.22146/ijccs.45093.

[14] Y. Li and H. Wu, “A Clustering Method Based on K-Means Algorithm,” Phys. Procedia, vol. 25, pp. 1104–1109, 2012, doi: 10.1016/j.phpro.2012.03.206.

[15] S. I. Murpratiwi, I. G. Agung Indrawan, and A. Aranta, “Analisis Pemilihan Cluster Optimal Dalam Segmentasi Pelanggan Toko Retail,” J. Pendidik. Teknol. dan Kejuru., vol. 18, no. 2, p. 152, 2021, doi: 10.23887/jptk- undiksha.v18i2.37426.

[16] A. Perdana, “Analisis Perbandingan Metode Genetic Algorithm dan Particle Swarm Optimization dalam Menilai Tingkat Optimasi Hasil Pada Bin Packing Problem Satu Dimensi,” Pros. SNASTIKOM 2017, pp. 1–6, 2017.

[17] J. Karimov and M. Ozbayoglu, “Clustering Quality Improvement of k-means Using a Hybrid Evolutionary Model,”

Procedia Comput. Sci., vol. 61, pp. 38–45, 2015, doi: 10.1016/j.procs.2015.09.143.

[18] P. Bholowalia and A. Kumar, “EBK-Means: A Clustering Technique based on Elbow Method and K-Means in WSN,”

Int. J. Comput. Appl., vol. 105, no. 9, pp. 975–8887, 2014.

[19] Y. Fang and J. Wang, “Selection of the number of clusters via the bootstrap method,” Comput. Stat. Data Anal., vol. 56, no. 3, pp. 468–477, 2012, doi: 10.1016/j.csda.2011.09.003.

[20] J. Wang, “Consistent selection of the number of clusters via crossvalidation,” Biometrika, vol. 97, no. 4, pp. 893–904, 2010, doi: 10.1093/biomet/asq061.