Analisis Perbandingan Metode K-Means Dengan Improved Semi- Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

813 Analisis Perbandingan Metode K-Means Dengan Improved

Semi-Supervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)

Gusti Ngurah Wisnu Paramartha1_{, Dian Eka Ratnawati}2_{, Agus Wahyu Widodo}3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Saat ini dengan jumlah informasi yang semakin besar, konsep data mining semakin dikenal sebagai sebuah tools yang penting dalam manajemen informasi. Mengacu pada konsep data mining, salah satu teknik yang terdapat dalam konsep ini adalah teknik clustering. Salah satu metode clustering data yang paling terkenal adalah k-means. Namun pada penerapannya metode k-means memiliki beberapa masalah seperti penentuan nilai K klaster dan penentuan pusat klaster awal yang dilakukan secara random yang membuat proses tidak konsisten dan hasil klaster menjadi buruk. Oleh karena itu terdapat sebuah metode untuk mengatasi masalah tersebut yaitu improved semi-supervised k-means clustering. Dengan metode improved semi-supervised k-means clustering yang menggabungkan konsep supervised dan unsupervised clustering, pengguna hanya perlu melabeli sedikit data yang belum berlabel, kemudian data berlabel tersebut dipakai untuk mencari nilai pusat klaster awal dan nilai K yang optimal yang akan mengoptimakan proses dan hasil. Pada bagian pengimplementasian, penelitian ini membandingkan dua algoritma yaitu k-means tradisional dan semi-supervised k-means untuk klastering data indeks pembangunan manusia (IPM). Data IPM dipilih karena memiliki karakteristik yang tepat untuk klastering seperti jumlah data yang banyak dan data yang terbagi menjadi beberapa klaster. Pengujian metode improved semi-supervised k-means memeberikan rata-rata akurasi sebesar 90.3%, lebih baik dari metode k-means yang memberikan nilai akurasi 73.7%. Pengujian kedua, metode improved semi-supervised k-means menghasilkan nilai rata-rata waktu untuk satu kali konvergen 1222.9959 detik, lebih baik dari k-means dengan rata-rata 1504.75 detik. Pengujian ketiga, metode improved semi-supervised k-means menghasilkan rata-rata jumlah iterasi untuk satu kali konvergen yang lebih efisien dari algoritma k-means dengan jumlah iterasi 7.11 berbanding 9.72. Terakhir pada pengujian kualitas klaster dengan metode silhouette coefficient, metode improved semi-supervised k-means memberikan rata-rata nilai 0.69880, lebih baik dari k-means tradisional dengan rata-rata nilai 0.62734.

Kata kunci: indeks pembangunan manusia, ipm, data mining, klastering, k-means, semi-supervised k-means. Abstract

At this time with the growing amount of information, the concept of data mining getting known as an important tool in the management information. Refers to the concept of data mining, the most popular concept in data mining is a clustering technique. One well known clustering method is k-means traditional. But in its application, k-means method has some problems such as determining the value of K cluster and determining the initial cluster centers were done randomly making process was inconsistent and the results of the cluster becomes worse. Therefore, there is a method to overcome these problems are improved semi-supervised k-means clustering. With improved semi-supervised method that combines the supervised and unsupervised method, users only need to label a bit of data that has not been labeled, then the labeled data is used to find the optimal value of initial cluster center and K cluster that will optimizes the process and result of clustering process. On implementation, this research combine k-means algorithm and improved semi-supervised k-means to clustering human development index (HDI) data. HDI data chosen because it has the right characteristics for clustering such amounts of data and the data is divided into several clusters. On the testing improved semi-supervised k-means method giving out the average accuracy of 90.3%, better than k-means clustering that giving 73.7% accuracy. In the second testing, improved semi-supervised k-means method produces an average time for one convergent 1222.9959 seconds, better than k-means with 1504.75 seconds. The third testing, improved semi-supervised k-means generates an average number of iterations for one

(2)

convergent more efficient than k-means with the number of iterations of 7.11 compared 9.72. Last, on the cluster quality testing using silhouette coefficient, improved semi-supervised k-means method giving average value 0.69880, better than the traditional k-means with an average value of 0.62734.

Keywords: human development index, hdi, data mining, clustering, k-means, semi-supervised k-means.

1. PENDAHULUAN

Dengan jumlah informasi yang semakin besar, pada saat ini konsep data mining semakin dikenal sebagai sebuah tools yang penting dalam manajemen informasi. Menurut (Santosa, 2007), data mining disebut sebagai knowledge discovery in database (KDD), yaitu kegiatan yang meliputi pengumpulan dan pemakaian data historis yang bertujuan menemukan keteaturan dan pola hubungan pada data set yang memiliki ukutan besar. Output dari data mining ini dapat digunakan untuk pengambilan keputusan di masa yang akan datang. Mengacu pada konsep data mining, salah satu teknik yang terdapat dalam konsep tersebut adalah teknik clustering. Clustering adalah sebuah teknik yang dipakai untuk memasukan data ke dalam sebuah kelompok atau grup yang memiliki kedekatan khusus pada masing-masing objek. Secara umum konsep clustering ini mengelompokan sekumpulan objek ke dalam beberapa grup dilakukan tanpa pengetahuan yang mendalam tentang group tersebut. Tujuan utama dari clustering adalah mengelompokan sebuah set data ke dalam cluster yang memiliki karakteristik yang hapir sama dan antar cluster mempunyai karakteristik yang berbeda-beda.

Salah satu teknik dalam clustering adalah teknik k-means. K-means adalah sebuah metode pengklasteran memakai konsep partitioning yang nantinya dalam prosesnya algoritma akan memisahkan data-data dalam beberapa cluster/kelompok berbeda. Dengan partitioning yang dilakukan secara iteratif, k-means dapat menurunkan rata-rata nillai dari jarak/distance data ke masing-masing klasternya (MacQueen, 1967). Sifat dari k-means ini sendiri adalah metode yang menerapkan klastering tanpa adanya arahan (unsupervised). Hal tersebut didasarkan pada adanya dataset yang data itemnya sejak awal mempunyai label kelas dan dataset yang data itemnya tidak mempunyai label kelas (Agusta, 2007).

Menurut (Hanmin, 2016) dalam k-means tradisional terdapat banyak masalah seperti inisial K klaster dan pusat klaster awal yang dilakukan secara random terkadang membuat

proses tidak konsisten sehingga terkadang membutuhkan waktu yang cukup lama dalam melakukan iterasi untuk menemukan output klaster akhir. Masalah lain yang timbul pada k-means clustering tradisional adalah proses yang tidak bisa dipastikan dan sulit diestimasi. Dalam hal ini pengguna tidak dapat menentukan parameter yang tepat untuk menghasilkan output yang maksimal. Dengan adanya ketidakpastian tersebut, menyebabkan data hasil pengelompokan dan akurasi menjadi buruk. Selain itu karena inisialisasi pusat klaster yang tidak konsisten terkadang menyebabkan masalah local optimum pada proses k-means tradisional.

Dengan masalah yang ditemui pada klastering data set menggunakan metode k-means tradisional, terdapat sebuah pendekatan yang diharapkan mampu mengatasi permasalahan tersbut yaitu dengan metode semi-supervised k-means clustering (Agusta, 2007). Sesuai pada penelitian yang dilakukan oleh (Hanmin, 2016) yang membahas tentang penggunaan metode semi-supervised k-means clustering sebagai solusi permasalahan yang ada pada k-means tradisional menyebutkan bahwa metode semi-supervised k-means clustering adalah metode yang menggabungkan pendekatan supervised dan unsupervised dalam mengelompokan data set yang memiliki label kelas ataupun tidak memiliki label kelas ke dalam beberapa klaster. Untuk permasalahan ini kita hanya perlu memberikan label sebagian kecil objek dari set untuk mengklaster banyak objek yang sebelumya tidak berlabel. Sedikit objek data set yang berlabel tersebut digunakan untuk menentukan nilai K klaster dan pusat klaster awal. Dengan nilai K klaster dan pusat klaster awal yang lebih rasional maka akan memberikan hasil cluster dengan akurasi yang lebih baik dan meningkatkan efisiensi dari komputasi. Hasil dari penelitian yang dilakukan oleh (Hanmin, 2016) menghasilkan bahwa metode semi-supervised k-means clustering menghasilkan pusat klaster yang lebih baik yang lebih baik dari metode k-means tradisional.

Pada penelitian lain yang dilakukan oleh (Zhenpeng, et al., 2014) yang melakukan perbandingan antara metode k-means

(3)

tradisional, seed-k-means, dan improved semi-supervised k-means. Pada penelitian ini memberikan hasil akurasi dari improved semi-supervised k-means lebih baik 17% sampai 18% dari metode k-means tradisional dan seed-k-means. Serta jumlah iterasi berkurang sebanyak 1/3 dari k-means tradisional dan 1/2 dari seed-k-means.

Dalam penelitian dengan judul “Analisis Perbandingan Metode K-means dengan improved semi-supervised K-means pada Data Indeks Pembangunan Manusia (IPM)” ini lebih menekankan pada penerapan metode semi-supervised k-means clustering dalam mengatasi permasalahan yang ada pada metode k-means tradisional dengan metode semi-supervised k-means clustering dengan mengukur tingkat akurasi yang dihasilkan dan membandingkan tingkat akurasi dari masing-masing metode menggunakan metode silhouette coefficient. Dengan adanya penelitian ini diharapkan akan mempermudah dalam klastering data pada indeks pengembangan manusia dan mengatasi masalah pada algoritma k-means tradisional. Untuk mengetahui perbandingan dari kedua algoritma akan dilakukan pengujian pada tingkat akurasi, waktu komputasi dan kualitas klaster dengan silhouette coefficient pada masing-masing algoritma. Sehingga dengan mengetahui perbedaan dari algoritma peneliti dapat mengetahui algoritma mana yang sesuai untuk diterapkan pada domain masalah indeks pengembangan manusia.

2. DASAR TEORI 2.1 K-means clustering

K-means clustering adalah metode klastering yang dilakukan secara partisi (partitional clustering). Pengelompokan menggunakan k-means bermaksud untuk mempartisi n objek ke dalam k kelompok dimana setiap objek dimasukan ke dalam mean k terdekat. Metode ini menghasilkan kelompok k dengan perbedaan yang memungkinkan. Jumlah terbaik dari kelompok k didasari pada jarak yang disebut apriori dan harus dihitung dari data yang ada dan sesuai dengan kebutuhan. (Taft, 2005).

Algoritma k-means adalah algoritma yang memerlukan parameter masukan sebanyak k klaster, selanjutnya membagi sekumpulan n data obyek ke k klaster sampai tingkat kemiripan dari antar anggota yang ada dalam satu klaster

menjaddi tinggi tinggi dan kemiripan dengan anggota klaster lain menjadi sangat rendah (Agusta, 2007). Kemiripan data pada suatu klaster diukur sesuai dengan kedekatan obyek terhadap nilai rata-rata pada klaster atau disebut sebagai centroid, pusat massa, atau pusat klaster. 2.2 Semi-Supervised K-means Clustering

Menurut (Hanmin,2016), metode semi-supervided k-means adalah metode yang diciptakan untuk mengatasi masalah pada algoritma k-means tradisional dalam klasterisasi kelompok set data yang memiliki jumlah label data yang kecil. Sebelumnya k-means tradisional ini sendiri hanya dirancang sebagai klastering data unsupervised. Dengan itu muncul metode semi supervised k-means clustering untuk mengatasi permasalahan tersebut dengan hanya perlu memberikan label pada sedikit objek pada dataset yang besar¬. Pelabelan sedikit objek tersebut berfungsi untuk mencari nilai K dan intial cluster center yang optimal. Dengan nilai K dan pusat klaster awal yang optimal maka akan meningkatkan akurasi dari hasil clustering dan mengefisienkan waktu dan proses komputasi.

Sesuai dengan karakteristik data yang merupakan data berjenis klastering, metode semi-supervised k-means clustering ini dianggap cocok dalam mengatasi permasalahan pada algoritma k-means traditional dengan memanfaatkan data eksternal yang berlabel untuk mencari nilai K dan pusat klaster awal yang optimal. Dalam hal ini kita hanya perlu melabeli sedikit data yang sudah ada sebelumnya. Sehingga dengan penelitian ini diharapkan metode semi-supervised k-means clustering dapat dijadikan perbandingan apakah metode tersebut layak digunakan atau tidak pada domain permasalahan indeks pembangunan manusia.

MULAI

KL = Jumlah label yang berbeda (XL);

Pilih objek KL dengan label yang

berbeda dari XL If(KL ≥ √𝑁 { K = KL; do{ for each xi ∈ X if (xi ∈ XL) Menetapkan xi ke klaster yang pusat

klaster awalnya memiliki label sama;

(4)

Menetapkan xi ke cluster terdekat; update clusters; }sampai convergen; } else{ for (k= KL+1; k≤ √𝑁;k++ ){

pilih objek terjauh dari KL objek baru sebagai

inisialisasi titik tengah klaster; do{ for each xi ∈ X if (xi ∈ XL) Menetapkan xi ke klaster

yang pusat klaster awalnya

memiliki label sama; else Menetapkan xi ke cluster terdekat; update clusters; }sampai converges; Jk =∑𝑘 ∑𝑘_𝑖=1𝑑(𝑐𝑖, 𝑥𝑖) 𝑖=1 }

Pilih minimum jk dan K=k;

}

Output K klaster dan K inisial pusat klaster;

END

Sama seperti fungsi k-means tradisional, improved semi supervised k-means clustering memerlukan data masukan berupa data set X={x1, x2,…,xN} yang mana N adalah jumlah dari data objek pada data set X. Selanjutnya ada variabel XL = {xL1, xL2,…,xLabel1} yang merupakan semua objek data yang berlabel dari data set X. KL adalah jumlah dari label XL yang berbeda. Jika p clustering telah ditentukan sebelumnya, ide utama dari penentuan pusat klastering selanjutnya adalah dengan memilih data objek yang terjauh dari p pusat klaster. Untuk menentukan nilai K yang optimal, perlu untuk menentukan rentang pencarian terlebih dahulu (Hanmin, 2016).

Pada penelitian yang dilakukan (Hanmin, 2016) mengenai algoritma improved semi supervised k-means clustering, terdapat dua kondisi untuk data set. Kondisi yang pertama adalah dataset dengan jumlah labeled data yang banyak. Sedangkan kondisi yang kedua adalah dengan jumlah labeled data yang sedikit. 2.3 Silhouette Coefficient

Metode silhouette coefficient pertama kali dikembangkan oleh (Rousseeuw, 1987) yang mana metode silhouette coefficient merujuk pada validasi dan penafsiran set data. Metode

silhouette coefficient berfungsi untuk mengukur kualitas pada sebuah klaster. Fungsi lain dari silhouette coefficient adalah untuk mengindikasikan derajat kepemilikan setiap objek yang ada di dalam klaster. Metode silhouette coefficient menggabungkan konsep cohesion dan separation sebagai validasi dari hasil klastering.

Untuk menghitung nilai silhoutte coefisient diperlukan jarak antar dokumen dengan menggunakan rumus euclidean distance. Setelah itu tahapan untuk menghitung nilai silhoutte coeffisien adalah sebagai berikut (Rousseeuw, 1987):

1. Pada setiap objek data i, hitung nilai rata-rata jarak objek data i dengan seluruh objek data yang berada pada satu klaster yang sama. Nilai rata-rata pada bagian ini dapat didefinisikan dengan a(i). Dalam hal ini rumus dari mencari nilai a(i) adalah:

a(i) =

∑ 𝐃(𝐢,𝐣)

|𝑨|−𝟏 (2.1)

2. Untuk setiap objek data i, hitung nilai rata-rata jarak objek data i dengan semua objek yang ada di klaster lainnya. Dari semua jarak rata-rata yang dihasilkan tersebut, akan diambil rata-rata jarak yang memiliki nilai terkecil. Nilai terkecil ini disebut bi. Rumus dalam mencari nilai dari bi adalah sebagai berikut:

b(i) = min(D(i,C)) (2.2)

3. Setelah itu maka untuk objek i memiliki nilai silhoutte coefisien:

Si = (bi-ai)/max (ai,b) (2.3) Hasil perhitungan nilai silhoutte coeffisien bervariasi dengan rentang -1 sampai 1. Nilai clustering dapat dikatakan baik jikai nilai silhoutte coeffisien bernilai positif yaitu (ai < bi) dan ai mendekati 0. Dengan hal tersebut akan menghasilkan nilai silhoutte coeffisien yang maksimal adalah 1 ketika ai = 0. Jika si = 1 menandakan bahwa klaster i telah berada pada klaster yang tepat. Namun jika nilai si adalah 0 maka objek i berada di antara dua cluste, dengan itu dapat dikatakan bahwa objek tersebut memiliki struktur yang tidak jelas. Namun jika nilai si = -1 berarti struktur dari klaster memiliki nilai overlapping, dengan itu objek i lebih tepat dimasukan ke dalam klaster lain. Pada teorinya, nilai rata-rata silhoutte coeffisien dari tiap data objek dalam suatu klaster adalah suatu ukuran yang menunjukan seberapa ketat data

(5)

dikelompokan dalam klaster tersebut. Berikut adalah nilai silhoutte berdasarkan (Rousseeuw, 1987):

1. 0.7<SC<=1 Struktur yang kuat (strong structure)

2. 0.5< SC <=0.7 Struktur yang standar (medium structure)

3. 0.25< SC <= 0.5 Struktur yang lemah (weak structure)

4. SC <=0.25 Tidak memiliki struktur (no structure)

2.4 IPM (Indeks Pembangunan Manusia) Menurut (BPS, 2015), IPM (Indeks Pembangunan Manusia) adalah sebuah indikator penting dalam mengukur kemajuan pembangunan suatu bangsa di masing-masing negara atau bahkan tiap-tiap daerah di suatu negara. IPM menjelaskan bagaimana penduduk dapat mengakses hasil pembangunan dalam memperoleh pendapatan, kesehatan, pendidikan, dan sebagainya. IPM diperkenalkan oleh UNDP pada tahun 1990 dan dipublikasikan secara berkala dalam laporan tahunan Human Development Report (HDR). Dalam konsep IPM yang terbaru dibentuk oleh 3 (tiga) dimensi dasar:

1. Umur panjang hidup sehat (a long and healthy life)

2. Pengetahuan (knowledge)

3. Standar hidup layak (decent standard of living)

IPM memiliki berbagai manfaat antara lain IPM merupakan indikator penting untuk mengukur keberhasilan dalam upaya membangun kualitas hidup manusia (masyarakat/penduduk). Manfaat lain dari IPM adalah dapat menentukan peringkat atau level pembangunan suatu wilayah/negara. Bagi Indonesia sendiri, IPM merupakan data strategis karena selain sebagai ukuran kinerja Pemerintah, IPM juga digunakan sebagai salah satu alokator penentuan Dana Alokasi Umum (DAU) (BPS, 2015).

Beberapa feature yang digunakan dalam penelitian ini dibagi menjadi 4 bagian. Bagian pertama yaitu angka harapan hidup yang merupakan representasi dari dimensi kesehatan, rata-rata lama sekolah dan angka harapan lama sekolah yang merupakan representasi dimensi pendidikan, dan pengeluaran per kapita yang disesuaikan yang merupakan representasi dari dimensi pendidikan.

3. PERANCANGAN & IMPLEMENTASI 3.1 K-means Clustering

K-means clustering adalah metode klastering yang dilakukan secara partisi (partitional clustering). Clustering data menggunakan metode k-means bertujuan untuk mempartisi/membagi n objek data ke dalam K kelompok data. Selanjutnya semua objek data dimasukan ke klaster yang memiliki jarak terdekat. Algoritma ini memberikan nilai akhir berupa K kelompok kluster dengan perbedaan yang tinggi (Taft, 2005).

Pada tahapan awal, algoritma k-means memilih secara acak k titik data sebagai pusat atau centroid. Nilai k juga dapat diinisialisasikan pada tahapan awal. Selanjutnya, jarak antar data dengan pusat klaster (centroid) dihitung dengan euclidian distance atau dapat dilakukan dengan memakai teknik lain. Data ditempatkan ke dalam centroid (pusat klaster) yang paling dekat, dihitung dari titik tengah klaster. Centroid yang baru ditentukan jika semua objek data sudah ditempatkan ke dalam klaster yang memiliki jarak paling dekat. Proses penentuan centroid dan penempatan data dalam klaster akan terus diulang hingga centroid dari semua klaster tidak ada yang berubah lagi atau nilai centroid konvergen. Selain itu perulangan dapat dihentikan jika sudah memenuhi kondisi perulangan yang telah ditentukan sebelumnya. Misalnya perulangan hanya dilakukan 100 kali, maka setelah sampai ke perulangan yang ke-100 maka proses akan berhenti walaupun tidak konvergen. Namun secara umum penggunaan metode k-means menghentikan iterasinya jika hasil klaster telah convergen (A. K. Jain, 2009).

Flowchart dari langkah-langkah metode clustering yang menggunakan algoritma k-means tradisional ditunjukkan pada Gambar 3.1. Pengelompokkan data memakai algoritma k-means akan terus dilakukan hingga menemukan hasil iterasi yang stabil atau convergen. Berikut penjelasan dari Gambar 3.1:

1. Algoritma k-means menerima inputan dari pengguna berupa nilai jumlah klaster sebanyak k klaster, dan suatu dataset yang ingin dikelompokkan.

2. Sebanyak k data dipilih secara random dari suatu dataset yang kemudian ditentukan sebagai initial centroid.

3. Ulang langkah 4, 5 dan 6 hingga tidak ada lagi objek yang berubah di dalam suatu klaster.

(6)

4. Hitung jarak masing-masing titik objek data ke masing-masing intial centroid.

5. Mengalokasikan masing-masing titik data ke dalam klaster dengan jarak paling minimum. 6. Menghitung rata-rata dari semua data yang

terdapat di dalam klaster tersebut sebagai pusat klaster baru.

Ulangi langkah sebelumnya sampai terbentuk klaster yang stabil. Cluster yang stabil terbentuk saat hasil klastering data dari iterasi memberikan hasil yang sama dengan hasil iterasi sebelumnya. Saat klaster sudah stabil maka proses k-means selesai.

Gambar 3.1 Flowchart K-means 3.2 Semi-supervised k-means clustering

Pada bagian implementasi sistem menjelaskan bagaimana alur sistem tersebut menyelesaikan permasalahan yang telah didefinisikan pada proses sebelumnya. Menurut (Hanmin,2016), alur dari implementasi dari metode semi-supervised k-measns clustering adalah membagi proses ke dalam dua garis besar.Pada proses pertama adalah untuk jumlah data set dengan banyak labeled data berbeda. Sedangkan pada proses kedua adalah untuk jumlah data set dengan sedikit labeled data berbeda. Data set akan masuk pada proses pertama jika memenuhi kondisi KL≥√N. Jika tidak maka akan ke proses dua.

Gambar 3.2 Perancangan sistem

Dalam algoritma improved semisupervised k-means clustering yang dikemukakan oleh (Hanmin,2016), terdapat dua kondisi yaitu kondisi untuk dataset dengan jumlah labeled data yang banyak dan labeled data yang sedikit. Proses secara rinci dari algoritma adalah sebagai berikut:

1. Inisialisasi data set awal. Dalam inisialisasi dataset dilakukan pelabelan dari sedikit objek data yang ada. Hal tersebut berguna untuk mendapatkan nilai K klaster dan initial cluster center yang optimal.

2. Setelah melakukan inisialisasi data, langkah selanjutnya adalah menentukan nilai K klaster dan initial cluster center. Nilai K didapat dari nilai KL, dalam hal ini KL adalah jumlah label yang berbeda. Initial cluster center didapat dengan memilih sebanyak KL objek yang memiliki label yang berbeda dari XL.

3. Langkah selanjutnya adalah menentukan dataset masuk ke kondisi pertama atau kedua.

• Kondisi pertama, kondisi pertama adalah saat nilai KL ≥ √N bernilai benar. Kondisi ini adalah untuk data training dengan banyak data yang brelabel.

(7)

Langkah-langkahnya adalah sebagai berikut:

a. Menghitung jarak objek ke titik

pusat klaster lalu

mengelompokannya ke klaster terkait sesuai dengan algoritma improved semi-supervised k-means. Sesuai pada algoritma pada penelitian yang dilakukan (Hanmin,2016), terdapat dua kondisi untuk menentukan masing-masing objek masuk ke klaster mana. Kondisi pertama adalah jika xi ∈ XL, maka objek xi akan masuk ke klaster awalnya. Dengan kata lain untuk objek data yang berlabel klasternya tidak akan berubah. Kondisi kedua adalah ketika konsisi bernilai xi ∈ XL salah. Maka objek xi akan masuk ke klaster dengan jarak terdekat.

b. Langkah selanjutnya adalah mencari centroid baru untuk melakukan update klaster. Langkah yang dilakukan adalah dengan menghitung centroid pada setiap klaster. Perhitungannya adalah dengan mengambil nilai rata-rata semua nilai data pada setiap fiturnya.

c. Setelah mendapatkan hasil akhir berupa centroid baru, langkah selanjutnya adalah ulangi langkah a dan b sampai objek data pada klaster sebelumnya dengan klaster yang baru menjadi konvergen.

• Kondisi kedua, kondisi kedua adalah saat nilai KL ≥ √N bernilai salah. Pada kondisi ini adalah untuk data training dengan sedikit data yang berlabel. Langkah-langkahnya adalah sebagai berikut:

a. Menghitung jarak objek ke titik

pusat klaster lalu

mengelompokannya ke klaster terkait sesuai dengan algoritma improved semi-supervised k-means. Sesuai pada algoritma pada penelitian yang dilakukan (Hanmin,2016), terdapat dua kondisi untuk menentukan masing-masing objek masuk ke klaster mana. Kondisi pertama adalah jika xi ∈ XL, maka objek xi akan masuk ke klaster awalnya. Dengan kata lain

untuk objek data yang berlabel klasternya tidak akan berubah. Kondisi kedua adalah ketika konsisi bernilai xi ∈ XL salah. Maka objek xi akan masuk ke klaster dengan jarak terdekat.

b. Berbeda dengan kondisi pertama, pada kondisi kedua terlebih dahulu akan melakukan pengecekan untuk kondisi perulangan for (k= KL+1; k≤√N;k++).

c. Selanjutnya adalah memilih objek yang memiliki jarak terjauh dari objek KL sebagai pusat klaster. Jarak terjauh tersebut nanti yang digunakan sebagai inisial pusat cluster selanjutnya.

d. Langkah selanjutnya adalah mencari centroid baru untuk melakukan update cluster. Langkah yang dilakukan adalah dengan menghitung centroid pada setiap klaster. Perhitungannya adalah dengan mengambil nilai rata-rata semua nilai data pada setiap fiturnya.

e. Setelah mendapatkan hasil akhir berupa centroid baru, langkah selanjutnya adalah ulangi langkah a dan b sampai objek data pada klaster sebelumnya dengan klaster yang baru menjadi konvergen.

4. PENGUJIAN ANALISIS

Pada penelitian ini dilakukan empat kali skenario pengujian dari perbandingan kedua metode. Skenario pengujian tersebut antara lain tingkat akurasi terhadap jumlah varian data training, waktu komputasi satu kali konvergen terhadap jumlah varian data training, jumlah iterasi satu kali konvergen terhadap varian data training, dan silhouette coefficient terhadap varian data training.

a. Hasil pengujian tingkat akurasi terhadap jumlah varian data training pada metode

improved semi supervised k-means dengan k-means

Pengujian pertama digunakan untuk mengetahui perbandingkan rata-rata tingkat akurasi dari metode improved semi supervised k-means dan k-k-means tradisional. Pada bagian ini tiap proses pada masing-masing algoritma menggunakan 100, 200, 300, 400, dan 500 data

(8)

training. Untuk masing-masing data training pada algoritma k-means tradisional dilakukan percobaan sebanyak 5 kali, kemudian akan diambil rata-rata tingkat akurasi dari 5 kali percobaan tersebut. Sedangkan pada algoritma improved semi-supervised k-means akan dilakukan perulangan untuk mencari konvergen sebanyak KL+1 sampai √N.

Tabel 4.1 Tabel hasil pengujian tingkat akurasi terhadap jumlah varian data training pada metode improved semi supervised k-means dengan

k-means

Dari data pada tabel 4.1 dapat dibuat grafik hasil uji coba rata-rata tingkat akurasi yang dipengraruhi oleh variasi jumlah data training.

Gambar 4.1 Grafik pengujian tingkat akurasi terhadap jumlah varian data training pada metode improved semi-supervised k-means dengan

k-means

Dari grafik pada Gambar 4.1 dapat disimpulkan bahwa secara keseluruhan algoritma improved semi-supervised k-means menghasilkan tingkat akurasi yang lebih tinggi dan lebih konsisten dari algoritma k-means tradisional. Pada algoritma k-means tradisional akan cenderung menghasilkan tingkat akurasi yang meningkat jika data training yang digunakan semakin banyak. Sedangkan untuk algoritma semi-supervised k-means clustering cenderung menghasilkan tingkat akurasi yang

tinggi dan stabil Hal tersebut disebabkan karena pada algoritma improved semi supervised k-means clustering mendapatkan nilai pusat klaster awal yang lebih rasional dari data yang berlabel. Selain itu dengan algoritma improved semi-supervised k-means akan langsung meng-generate nilai K yang optimal, sehingga memberikan hasil yang lebih baik dan lebih baik dan konsisten dari algoritma k-means tradisional. Namun dengan hal tersbut juga menyebabkan metode improved semi supervised k-means clustering sangat bergantung dari seberapa baiknya data yang berlabel. Semakin baik data yang berlabel akan semakin meningkatkan tingkat akurasi dari metode improved semi supervised k-means clustering.

b. Hasil pengujian waktu satu kali konvergen algoritma improved semi

supervised k-means dengan k-means

tradisional

Pengujian kedua dilakukan untuk mengetahui perbandingkan rata-rata waktu untuk mencari satu kali konvergen pada algoritma improved semi supervised k-means clustering dengan algoritma k-means tradisional. Sama seperti pengujian pertama, data training yang digunakan sebanyak 500 data yang dibagi menjadi lima bagian pengujian yaitu pengujian untuk 100, 200, 300, 400, dan 500 data training. Pada algoritma improved semi supervised k-means clustering nilai rata-rata waktu untuk satu kali konvergen didapatkan dari pembagian antara total waktu dalam satu kali proses dibagi jumlah iterasi untuk mencari konvergen. Sedangkan untuk algoritma k-means tradisional rata-rata satu kali konvergen didapatkan dari rata-rata waktu pada masing-masing bagian data training (100, 200, 300, 400, dan 500 data training) yang akan diuji sebanyak lima kali proses.

(9)

Tabel 4.2 Tabel hasil pengujian waktu satu kali konvergen terhadap jumlah varian data training

pada metode improved semi supervised k-means dengan k-means

Dari data pada tabel 4.2 dapat dibuat grafik hasil uji coba rata-rata waktu untuk satu kali konvergen yang dipengraruhi oleh variasi jumlah data training.

Gambar 6.2 Grafik pengujian waktu komputasi terhadap jumlah varian data training pada metode improved semi-supervised k-means dengan

k-means

Dari grafik pada Gambar 6.2 dapat disimpulkan bahwa semakin banyak data training yang digunakan akan membuat waktu komputasi untuk mencari satu kali konvergen pada masing-masing algoritma akan semakin banyak. Hal tersebut dikarenakan tiap sub proses pada masing-masing algoritma akan semakin memakan waktu untuk memproses jumlah data yang semakin besar. Dengan data training yang semakin beragam, juga akan memperlama suatu proses untuk mencari nilai konvergen. Jika dibandingkan, algoritma improved semi supervised k-means memberikan rata-rata waktu komputasi yang lebih baik dari pada metode k-means tradisional pada tiap varian data training. Hal tersebut dikarenakan pusat klaster awal yang dihasilkan pada metode k-means tradisional dipilih secara acak sehingga proses dari

algoritma menjadi tidak stabil. Berbeda dengan algoritma improved semi supervised k-means yang menggunakan data training yang telah berlabel untuk mencari nilai pusat klaster awal yang lebih optimal. Dengan pusat klaster awal yang lebih optimal akan membuat waktu proses algoritma lebih baik dan lebih baik.

c. Hasil jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training pada metode improved semi supervised k-means dengan k-means Pada pengujian ketiga dilakukan untuk menguji perbandingan nilai rata-rata jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training antara algoritma k-means tradisional dan improved semi-supervised k-means. Sama seperti pengujian pertama dan kedua, data training yang digunakan dibagi menjadi lima jumlah varian data yaitu 100, 200, 300, 400, dan 500 jumlah data. Pada masing-masing varian data dipilih secara acak dari total sekitar 2000 data training dalam rentang tahun 2012 sampai 2015. Pada pengujian algoritma improved semi-supervised k-means, nilai rata-rata waktu untuk satu kali konvergen didapatkan dari pembagian antara total iterasi untuk satu kali konvergen dibagi jumlah iterasi untuk mencari satu kali konvergen. Sedangkan untuk algoritma k-means tradisional rata-rata iterasi untuk satu kali konvergen didapatkan dari rata-rata iterasi pada masing-masing bagian data training (100, 200, 300, 400, dan 500 data training) yang akan diuji sebanyak lima kali proses.

Tabel 4.3 Tabel hasil pengujian jumlah iterasi terhadap jumlah varian data training pada metode improved semi supervised k-means dengan

k-means

Dari data pada tabel 4.3 dapat dibuat grafik hasil uji coba jumlah iterasi yang dipengraruhi oleh variasi jumlah data training.

(10)

Gambar 4.3 Grafik hasil uji coba silhouette coefficient

Dari Gambar 6.3 dapat diketahui bahwa semakin banyak data training yang digunakan akan membuat rata-rata iterasi untuk mencapai satu kali konvergen pada algoritma semi-supervised k-means memberikan hasil rata-rata yang lebih efisien dari algoritma k-means tradisional pada semua varian data training. Selain itu dalam pengujian ini algoritma improved semi-supervised k-means menghasilkan rata-rata iterasi yang cenderung meningkat jika data training yang digunakan semakin banyak. Sedangkan untuk algoritma k-means tradisional menghasilkan rata-rata iterasi yang tidak konsisten pada masing-masing jumlah varian data. Hal tersebut dikarenakan pusat klaster awal yang dihasilkan pada algoritma k-means tradisional dipilih secara acak sehingga proses dari algoritma menjadi tidak stabil. Berbeda dengan algoritma improved semi supervised kmeans clustering yang menggunakan data training yang telah berlabel untuk mencari nilai pusat klaster awal yang lebih optimal. Dengan pusat klaster awal yang lebih optimal akan membuat proses algoritma menjadi lebih efisien dalam melakukan banyak iterasi untuk satu kali konvergen.

d. Hasil pengujian perbandingan silhouette coefficient terhadap jumlah varian data training pada metode improved semi

supervised k-means dengan k-means

Pada pengujian ketiga berguna untuk mengetahui perbandingan nilai kualitas klaster menggunakan metode evaluasi silhouette coefficient antara algoritma improved semi supervised k-means clustering dan k-means tradisional dengan konsep pengujian yang sama dengan pengujian pertama dan kedua. Pengujian pada algoritma algoritma k-means tradisional dilakukan percobaan sebanyak lima kali pada lima set data training yang berbeda, kemudian akan diambil rata-rata nilai silhouette coefficient

dari percobaan lima set data training. Sedangkan pengujian pada algoritma improved semi-supervised k-means akan dilakukan perulangan untuk mencari konvergen sebanyak KL+1 sampai √N. Selelah melalui beberapa proses konvergen akan dipilih nilai JK (objektif) yang terkecil. Nilai pusat klaster pada JK terkecil tersebutlah yang akan diuji pada algoritma improved semi supervised k-means clustering.

Tabel 4.4 Tabel hasil pengujian silhouette coefficient terhadap jumlah varian data training

pada metode improved semi supervised k-means dengan k-means

Dari data pada tabel 4.4 dapat dibuat grafik hasil uji coba nilai rata-rata silhouette coefficient yang dipengraruhi oleh variasi jumlah data training.

Gambar 4.4 Grafik hasil uji coba silhouette coefficient

Dari Gambar 4.4 dapat diketahui bahwa secara umum algoritma improved semi-supervised k-means menghasilkan nilai silhouette coefficient yang lebih baik. Hasil yang lebih baik pada algoritma improved semi-supervised k-means juga terlihat pada masing-masing varian data training. Pada lima kali pengujian menggunakan aloritma improved semi supervised k-means clustering rata-rata menghasilkan nilai silhouette coefficient dengan strong structure (nilai rentang 0.7 sampai 1). Hal tersebut dikarenakan algoritma improved

(11)

semi-supervised k-means menghasilkan nilai klaster pusat awal yang lebih rasional daripada algoritama k-means tradisional. Lebih rasional dikarenakan pencarian pusat klaster awal pada algoritma improved semi-supervised k-means didapatkan melalui data yang telah dilabeli sebelumnya. Dengan menggunakan data yang berlabel untuk mencari nilai pusat klaster, akan memberikan pusat klaster awal yang lebih baik dibanding mencari pusat klaster awal secara random pada algoritma k-means tradisional. Dengan data yang didapatkan secara random akan membuat hasil tidak konsisten. Oleh karena itu hasil klaster yang dihasilkan pada algortma improved semi-supervised k-means lebih relevan dibanding algoritma k-means tradisional saat dilakukan pengujian menggunakan 25 data uji silhouette coefficient yang diambil secara acak. 5. KESIMPULAN DAN SARAN

Bab ini membahas kesimpulan dari hasil penelitian beserta saran yang dapat digunakan dalam pengembangan penelitian yang lebih lanjut tentang analisis perbandingan metode means dengan improved semi-supervised k-means clustering pada data indeks pembangunan manusia (IPM).

5.1 Kesimpulan

Berdasarkan hasil penelitian tentang analisis perbandingan metode k-means dengan improved semi-supervised k-means clustering pada data indeks pembangunan manusia (IPM) bisa disimpulkan bahwa:

1. Penggunaan algoritma semi-supervised k-means clustering pada data indeks pembangunan manusia (IPM) mampu mengatasi permasalahan yang ada pada algoritma k-means tradisional dengan memberikan hasil pusat klaster yang lebih optimal yang didapatkan dari data yang telah dilabeli sebelumnya. Dari data yang telah dilabeli tersebut memberikan pusat klaster awal yang lebih optimal dan nilai K klaster yang lebih optimal ketimbang algoritma k-means tradisional yang pada penerapannya terkadang memberikan hasil yang tidak konsisten. Dengan pusat klaster dan nilai K yang optimal memberikan hasil yang lebih baik dalam hal tingkat akurasi, rata-rata waktu komputasi per satu kali konvergen, dan validasi hasil pusat klaster menggunakan silhouette coefficient pada metode semi-supervised k-means clustering.

2. Dari pengujian yang dilakukan yang menggunakan data training dengan variasi data sebanyak 100, 200, 300, 400, dan 500 menggunakan algoritma semi-supervised k-means clustering dan algoritma k-k-means tradisional dengan 100 data uji yang diambil secara acak memberikan rata-rata tingkat akurasi yang lebih baik yaitu 90.3%. Sedangkan untuk rata-rata hasil k-means tradisional memberikan tingkat akurasi sebesar 73.7%. Selain itu untuk setiap variasi data pada metode semi-supervised k-means clustering memberikan hasil yang lebih konsisten dengan perbedaan presentase akurasi paling besar yaitu 2%, sedangkan untuk algoritma k-means tradisional perbedaan hasil akurasi terbesar adalah 13.6%.

3. Pada pengujian rata-rata jumlah iterasi untuk satu kali konvergen algoritma improved semi-supervised k-means menghasilkan rata-rata proses iterasi yang lebih efektif dibandingkan dengan algoritma k-means tradisional dengan nilai rata-rata iterasi yang dihailkan pada lima varian data bernilai 7.11 kali iterasi berbanding 9.72 kali iterasi. Selain itu untuk algoritma improved semi-supervised k-means menghasilkan hasil yang lebih konsisten pada bagian jumlah iterasi ketimbang algoritma k-means tradisional pada pengujian jumlah iterasi dalam satu kali konvergen terhadap jumlah varian data training.

4. Metode improved semi-supervised k-means clustering memberikan rata-rata waktu komputasi untuk satu kali konvergen yang lebih baik dibandingkan dengan metode k-means tradisional. Hal tersebut dapat dilihat dari pengujian mengunakan lima variasi jumlah data yaitu 100, 200, 300, 400, dan 500 data training metode semi-supervised k-means clustering memberikan hasil yang lebih baik dengan rata-rata waktu komputasi sebesar 1222.9959 detik. Sedangkan untuk algoritma k-means tradisional memberikan rata-rata waktu komputasi sebesar 1504.75 detik. Dalam pengujian rata-rata waktu komputasi kedua metode memberikan nilai rata-rata waktu komputasi yang semakin meningkat jika data training yang digunakan semakin banyak, begitupun sebaliknya.

Pengklusteran data indeks pembangunan manusia menggunakan algoritma semi-supervised k-means clustering menggunakan metode silhouette coefficient menghasilkan nilai

(12)

validasi yang lebih baik dari metode k-means tradisional. Pada lima variasi jumlah data training yaitu 100, 200, 300, 400, dan 500 data, nilai rata-rata yang dihasilkan menggunakan algoritma semi-supervised k-means clustering menghasilkan nilai silhouette coefficient sebesar 0.69880 sedangkan untuk algoritma k-means tradisional menghasilkan silhouette coefficient sebesar 0.62734.

5.2 Saran

Berikut saran yang dapat ditawarkan sebagai bahan untuk pengembangan penelitian lebih lanjut:

1. Metode akan lebih optimal digunakan pada data yang memiliki banyak jumlah data yang berlabel. Pada data indeks pembangunan manusia memiliki jumlah data yang berlabel sebanyak empat, sehingga algoritma improved semi-supervied k-means clustering yang menggunakan data training yang semakin banyak akan melipatgandakan waktu komputasi.

2. Pada penelitian selanjutnya yang menggunakan algoritma improved semi supervised k-means clustering sebaiknya tidak diimplementasikan menggunakan Bahasa pemrograman PHP karena dengan proses dengan loop dan data yang banyak pemrograman yang berbasis pada browser memiliki limit pemrosesan data dan browser rentan hang saat proses dijalankan dengan data yang banyak.

3.

Pada penelitian selanjutnya perlu sebuah improvisasi pada metode semi-supervised k-means untuk menentukan jumlah iterasi untuk mencari konvergen sesuai dengan jumlah data yang berlabel berbeda dan jumlah data training.

DAFTAR PUSTAKA

A. K. Jain, M. N. M. P. J. F., 2009. Data Clustering: A Review.. U. S, Michigan State University.

Agusta, Y., 2007. K-means – Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika, Volume 3, pp. 47-60.

BPS, S. B. P., 2015. Indeks Pembangunan Manusia 2014 Metode Baru. 1 penyunt. Jakarta: Badan Pusat Statistik.

Hanmin, Y., Hao, L. & Qianting, S., 2016. An improved semi-supervised K-means

clustering algorithm. Guilin, China, IEEE Conference Publications .

MacQueen, J. B., 1967. Some Methods for. Berkeley, University of California Press. Rousseeuw, P. J., 1987. Silhouette: A Graphical

Aid To The Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics, Issue 20, pp. 53-56..

Taft, M. K. R. H. M. M. D. T. G. S. e. a., 2005. Oracle Data Mining Concepts.

Zhenpeng, L. et al., 2014. An Improved semi-supervised K-means Algorithm Based on Information Gain. Baoding, China, IEEE Publisher.