BAB IV IMPLEMENTASI SISTEM DAN ANALISIS HASIL
4.3 Analisis Penentuan Jumlah Cluster terbaik
Dalam sistem ini mengimplementasikan metode Elbow sebanyak k = 15 untuk mencari jumlah cluster terbaik. Pada tabel 5.8 ditampilkan nilai SSE (Sum of Square Error) pada data DAPODIK tahun 2018
Tabel 5.8 . Nilai SSE (Sum of Square Error) pada data DAPODIK tahun 2018
K Sum of Square Error
1 2115,484807
2 1837,452101
3 1547,786126
4 1528,083668
5 1517,600624
6 1352,632353
7 1339,305281
8 1293,408517
9 1283,615996
10 1278,604203
11 1274,176775
12 1271,171150
13 1268,638885
14 1264,930056
15 1263,207481
Pada gambar 4.15 menampilkan gambar grafik Elbow untuk data DAPODIK tahun 2018. Sumbu X merepresentasikan jumlah cluster, sedangkan sumbu Y merepresentasikan nilai Sum of Square Error. Pada gambar 4.15 terjadi penurunan nilai SSE secara signifikan saat k = 1 menuju k = 3, hingga k = 6.
Grafik Elbow
2500,000000
2000,000000 1500,000000 1000,000000 500,000000 0,000000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Gambar 4.15 . Grafik Elbow data DAPODIK tahun 2018
Metode Elbow menyatakan bahwa jumlah cluster terbaik memiliki ciri-ciri berupa grafik membentuk siku dan tidak ada penurunan maupun kenaikan nilai Sum of Square Error yang signifikan. Berdasarkan persyaratan tersebut, didapati bahwa jumlah cluster terbaik terletak pada k = 3, karena pada jumlah cluster ini grafik membentuk siku, dan setelahnya tidak ada penurunan nilai Sum of Square Error secara signifikan. Oleh karenanya, k = 3 direkomendasikan sebagai jumlah cluster yang terbaik.
BAB V PENUTUP
5.1 Simpulan
Penelitian tugas akhir dengan judul “Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru dengan Algoritma K-Means++
Clustering” menghasilkan beberapa kesimpulan sebagai berikut :
1. Sistem Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru berhasil dibangun dengan mengimplementasikan algoritma K-Means++
Clustering.
2. Pengujian metode Elbow yang dilakukan dengan jumlah cluster sebanyak 1 hingga 15 menghasilkan nilai k = 3 sebagai jumlah cluster yang terbaik/optimal di dalam proses clustering, dikarenakan grafik menunjukkan bahwa k = 3 mendekati bentuk sudut siku.
5.2 Saran
Pengembangan sistem sangat dibutuhkan untuk penelitian mendatang, supaya sistem dapat melakukan :
1. Menerima input dari berbagai macam tipe file.
2. Menyimpan hasil clustering
3. Menampilkan hasil clustering dengan informasi yang detail
4. Menguji kualitas suatu cluster dengan metode Silhouette Coefficien
56
DAFTAR PUSTAKA
Arthur, D.; Vassilvitskii, S. (2007). "k-means++: the advantages of careful seeding" (PDF). Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 1027–1035.
Bangoria, B., Mankad, N., dan Pambhar, V., 2013, A Survey on Efficient Enhanced K-Means Clustering Algorithm, International Journal for Scientific Research
& Development, vol. 9, hal 1698-700.
Chandra, M., Fenty, E., dan Fitri, M., 2017, Pengelompokan Kualitas Kerja Pegawai Menggunakan Algoritma K-Means++ dan COP-Kmeans Untuk Merencanakan Program Pemeliharaan Kesehatan Pegawai di PT. PLN P2B JB Depok, Jurnal Pseudocode, vol. 4, hal 16-17.
Davies, and Paul Beynon.2004. Database Systems Third Edition. New York:
Palgrave Macmillan.
Dubes dan Jain, A, (1988), Algorithm for Clustering Data, New Jersey: Prentice Hall.
Efraim Turban, dkk. 2005. “Dec S S e a d I e ge S e . Yogyakarta:ANDI.
Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining.
Camberidge, MA: The MIT Press
Han, J. dan M.Kamber. 2006. “Data Mining Concepts and Techniques Second Ed . San Francisco: Morgan Kaufmann.
Inmon, William H. 2005. B d g T e Da a Wa e e (4 ed.) . Indianapolis :Wiley Publishing, Inc..
Izenman AJ. 2008. “Modern Multivariate Statistical Techniques: Regression, C a f ca , a d Ma f d Lea g . New York (US): Springer.
John. J. Longkutoy. 1989. “Pe ge a a K e : Cetakan Keenam. Jakarta:
PT. Mutiara Sumber Widya.
Kanungo, T.; Mount, D.; Netanyahu, N.; Piatko, C.; Silverman, R.; Wu, A. (2004),
"A Local Search Approximation Algorithm for k-Means Clustering" (PDF), Computational Geometry: Theory and Applications, 28 (2–3): 89–112,
doi:10.1016/j.comgeo.2004.03.003, archived from the original (PDF) on 2006-02-09.
Kodinariya, T. M., & Makwana, P. R. (2013). Review on determining number of cluster in K-Means Clustering. . International Journal of Advance Research in Computer Science and Management Studies,I(6),90-95.
L. Kaufman and P.J. Rousseuw, “F d g G Da a , New York: John Wiley & Sons, 1990.
Madhulatha, T.S., 2012, “A O e e O C e g Me d , IOSR Journal of Engineering, II(4), pp.719-25.
Manvreet dan Usvir (2013). “Comparison Between K-Mean and Hierarchical A g U g Q e Red ec . India: Department of CSE, Sri Guru Granth Sahib World University, Fatehgarh Sahib, Punjab.
Rui Xu dan Donald C. Wunsch II, 2009, “C e g , A John Wiley & Sons, Inc., Publication.
Santoso, Budi. 2007. “Data Mining : Teknik Pemanfaatan data untuk keperluan b . Yogyakarta:Graha Ilmu.
Sugiyono (2015). “Me de Pe e a K b a (M Me d ) . Bandung:
Alfabeta
Vercellis, Bernadth. (2009). “Sistem Informa . Yogyakarta: Lokomedia
LAMPIRAN 1 DESAIN ALGORITMA
Nama Method chooseInitialCenters(points:Collection<T>) : List<CentroidCluster<T>>
Fungsi Method Mencari centroid awal, kedua, dan seterusnya
Input Data bertipe array
Output Data bertipe list
Algoritma :
1. Mengubah tipe data menjadi List untuk indeks yang akan diakses 2. Menentukan jumlah data yang ada di dalam List
3. Mendeklarasikan List centroid awal yang akan dihasilkan 4. Memilih salah satu centroid secara acak dari antara data
5. Lakukan penghitungan jarak terdekat antardata dengan menggunakan Euclidean Distance
6. Gunakan formula randomized seeding technique untuk menentukan probabilitas data yang akan menjadi centroid kedua dengan bantuan nilai acak 7. Jika ditemukan data yang memiliki kumulatif probabilitas yang lebih besar daripada nilai acak, maka akan terpilih sebagai centroid kedua.
8. Lakukan langkah 5 – 7 jika ingin mencari centroid seterusnya
Nama Method Cluster(points:Collection<T>:List Fungsi Method Menampilkan list cluster yang telah
dibentuk
Input Data bertipe list
Output Cluster 1,2 dan seterusnya
Algoritma:
1. Melakukan pengecekan apakah jumlah cluster lebih besar dari jumlah data, jika tidak maka list cluster tidak dapat dibentuk
Nama Method hitungSSE
Fungsi Method Menampilkan nilai Sum of Square Error
Input double [][] points, double[][] centroids
Output Nilai Sum of Square Error
Algoritma:
1. Mendeklarasikan variabel “sse” dengan tipe data double 2. Mendeklarasikan variabel “assignedClust” dengan tipe data int 3. Looping sebanyak cluster yang telah ditentukan
4. Variabel “assignedClust” untuk menampung cluster sebanyak looping sebelumnya
5. Variabel “sse” untuk menjumlahkan hasil perhitungan selisih jarak data dengan centroid dari sejumlah cluster pada langkah 4
2. Jika jumlah cluster lebih besar dari jumlah data, maka buat array berisi list cluster yang telah terbentuk.
3. Lakukan iterasi untuk mengetahui banyaknya list cluster yang akan ditampung terhadap array
4. Jika tidak ada lagi perubahan terhadap list cluster, maka iterasi dihentukan