PENGELOMPOKAN SEKOLAH MENENGAH PERTAMA BERDASARKAN DISTRIBUSI USIA GURU DENGAN ALGORITMA K- MEANS++ CLUSTERING

(1)

i

PENGELOMPOKAN SEKOLAH MENENGAH PERTAMA

BERDASARKAN DISTRIBUSI USIA GURU DENGAN ALGORITMA K- MEANS++ CLUSTERING

(STUDI KASUS : DATA GURU SEKOLAH MENENGAH PERTAMA DI PULAU KALIMANTAN)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh:

Bagas Dhitya Taufiqqi 165314093

PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

2020

(2)

ii

CLUSTERING OF JUNIOR HIGH SCHOOLS BASED ON AGE DISTRIBUTION OF TEACHERS WITH K-MEANS++ CLUSTERING

ALGORITHM

(CASE STUDY : DATA OF JUNIOR HIGH SCHOOL TEACHERS IN KALIMANTAN)

UNDERGRADUATE THESIS

Presented as Partial Fullfillment of the Requirement to Obtain Sarjana Komputer Degree

in Informatics Study Program

By:

Bagas Dhitya Taufiqqi 165314093

INFORMATICS STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY YOGYAKARTA

2020

(3)

HALAMAN PERSEMBAHAN

v

The Greater Our Knowledge Increases The Mo e O Igno ance Unfold

John F. Kennedy, 35

^th

President of United States of America

Karya Dipersembahkan Oleh Penulis Untuk : Allah SWT

Orangtua Keluarga Teman-teman

(4)

ABSTRAK

vii

Menurut data DAPODIK tahun 2018, pulau Kalimantan memiliki Sekolah Menengah Pertama (SMP) sebanyak 1210 sekolah yang tersebar di berbagai provinsi. Berdasarkan banyaknya SMP tersebut, seringkali menimbulkan ketidakseimbangan pada perbandingan jumlah guru berusia muda dengan guru berusia lanjut. Guru berusia lanjut yang akan memasuki masa pensiun, tentu sudah tidak seproduktif guru yang masih berusia muda. Namun, guru berusia lanjut mempunyai pengalaman dan pengetahuan lebih banyak dari guru yang berusia muda. Maka, perbandingan antara guru muda dan guru berusia lanjut sebaiknya harus seimbang, supaya dapat saling berkolaborasi dalam meningkatkan mutu sekolah. Pengelompokan merupakan solusi tepat untuk mengatasi permasalahan tersebut, dengan metode ini diharapkan pemerintah dapat memeriksa SMP yang memiliki kemiripan jumlah guru muda dan berusia lanjut, agar dapat dilakukan upaya lanjutan untuk melakukan pemerataan.

Dalam penelitian ini, penulis mengimplementasikan metode clustering dengan algoritma K-Means++ Clustering menggunakan bahasa pemrograman Java untuk mengelompokkan SMP yang memiliki kemiripan dalam distribusi usia guru.

Jumlah cluster terbaik ditentukan dengan metode Elbow. Hasil dari metode Elbow berupa grafik yang menggambarkan nilai Sum of Square Error dari setiap penambahan cluster pada proses clustering.

Dalam hasil akhir penelitian, metode clustering dengan algoritma K- Means++ Clustering telah berhasil diimplementasikan pada Sistem Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru.

Nilai Sum of Square Error dapat divisualisasikan dengan menggunakan grafik Elbow yang berfungsi untuk menentukan jumlah cluster terbaik. Dari pengujian data yang berjumlah 1204 record, didapatkan hasil bahwa jumlah cluster terbaik berada di k = 6.

Kata Kunci : SMP, Distribusi, Guru, Usia, Clustering, K-Means++ Clustering, Metode Elbow, Nilai Sum of Square Error

(5)

ABSTRACT

viii

Based on DAPODIK year of 2018, Kalimantan island has 1212 Junior High School spread across various provinces. Based on amount of Junior High Schools, it often creates an imbalance in the amount comparison between young teachers with older teachers. Older teachers who are about to retire are certainly not as productive as teachers who are still young. However, older teachers have more experience and knowledge than younger teachers. So, the comparison between young teachers and elderly teachers should be balanced, so that they can collaborate with each other in improving the quality of schools. Clustering is the right solution to overcome these problems, with this method the government is expected to be able to examine junior high schools that have similar amounts of young and elderly teachers, so that further efforts can be made to make equity.

In this research, the authors implemented the clustering method with K- Means++ Clustering algorithm using Java programming language to clustering Junior High School that have similarities in the distribution of teachers age. The best number of cluster was determined by the Elbow method. The results of the Elbow method in the form of a graph that illustrates the value of Sum of Square Error of each additional cluster in the clustering process.

In the final result, the clustering method with K-Means++ Clustering algorithm has been succesful implemented in the Junior High School Clustering Based on Teachers Age Distribution System. The value of Sum of Square Error can be visualized using the Elbow graphic which serves to determine the best number of clusters. From testing data totaling 1204 records, the result show that the best cluster number is at k = 6.

Key Words : Junior High School, Distribution, Teacher, Age, Clustering, Clustering, K-Means++ Clustering, Elbow method, Sum of Square Error value

(6)

xii DAFTAR ISI

HALAMAN JUDUL ... I TITLE PAGE ... II

HALAMAN PERSETUJUAN ... III HALAMAN PENGESAHAN ... IV HALAMAN PERSEMBAHAN... V PERNYATAAN KEASLIAN KARYA ... VI ABSTRAK ... VII ABSTRACT ... VIII LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN AKADEMIS ... IX

KATA PENGANTAR ... X DAFTAR ISI. ... XII DAFTAR TABEL ... XV DAFTAR GAMBAR. ... XVI

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan ... 3

1.4 Batasan Masalah ... 3

1.5 Manfaat ... 3

1.6 Sistematika Penulisan ... 3

BAB II LANDASAN TEORI ... 6

(7)

xii i

2.1.1 Pengertian Data ... 6

2.1.2 Jenis Data ... 6

2.2 Data Mining ... 6

2.2.1 Pengertian Data Mining ... 6

2.2.2 Tahapan Knowledge Discovery Database... 7

2.2.2 Karakteristik Data Mining ... 8

2.2.3 Tugas-tugas Data Mining ... 9

2.3 Clustering ... 9

2.3.1 Pengertian Clustering ... 9

2.3.2 K-Means Clustering ... 10

2.3.3 K-Means++ Clustering ... 11

2.3.3.1 Randomized Seeding Technique ... 12

2.3.4 Flowchart K-Means++ Clustering ... 12

2.3.5 Tinjauan Pustaka ... 14

2.4 Metode Elbow ... 15

BAB III METODE PENELITIAN ... 18

3.1 Gambaran Umum ... 18

3.2 Bahan Riset/Data ... 20

3.2.1 Pemrosesan Awal ... 22

3.2.1.1 Pembersihan Data(Data Cleaning) ... 22

3.2.1.2 Integrasi Data(Data Integration) ... 23

3.2.1.3 Seleksi Data(Data Selection) ... 23

3.2.1.4 Transformasi Data(Data Transformation) ... 24

3.3 Peralatan Penelitian ... 24

3.4 Desain Alat Uji ... 24

3.5 Model Fungsi Sistem ... 26

(8)

xiv

3.5.2 Diagram Class ... 27

3.5.3 Desain Algoritma ... 27

BAB IV IMPLEMENTASI SISTEM DAN ANALISIS HASIL ... 31

4.1 Implementasi Sistem ... 31

4.1.1 Menu Cari File ... 32

4.1.2 Menu Tambah ... 33

4.1.3 Menu Hitung Cluster ... 33

4.1.4 Menu Hitung Nilai SSE ... 34

4.1.5 Jumlah Cluster ... 35

4.2 Analisis Hasil Implementasi Algoritma K-Means++ Clustering ... 36

4.2.1 Uji Validasi ... 36

4.2.1.2 Perhitungan Manual ... 37

4.2.1.3 Perhitungan Perangkat Lunak ... 48

4.2.2 Evaluasi Hasil Perhitungan Manual dan Perangkat Lunak ... 50

4.3 Analisis Penentuan Jumlah Cluster terbaik ... 51

BAB V PENUTUP ... 56

5.1 Simpulan ... 56

5.2 Saran ... 56

DAFTAR PUSTAKA ... 57

Lampiran 1 : Desain Algoritma ... 58

(9)

DAFTAR TABEL

xv

Tabel 3.1 . Sampel Data Dapodik 2018. ... 20

Tabel 3.2 . Keterangan Atribut ... 21

Tabel 3.3 . Keterangan Noise ... 22

Tabel 3.4 . Atribut Yang Tidak Digunakan Pada Data Dapodik Tahun 2018... 23

Tabel 3.5 . Keterangan Fungsi... 25

Tabel 5.1 . Dataset Uji Validasi ... 38

Tabel 5.2 . Hasil Perhitungan Randomized Seeding Technique ... 40

Tabel 5.3 . Iterasi Pertama ... 42

Tabel 5.4 . Iterasi Kedua ... 45

Tabel 5.5 . Iterasi Ketiga... 47

Tabel 5.6 . Hasil Perhitungan MATLAB. ... 48

Tabel 5.7 . Hasil Akhir Perhitungan Manual, Perangkat Lunak, dan MATLAB. .. 50

Tabel 5.8 . Nilai SSE (Sum of Square Error) ... 52

(10)

DAFTAR GAMBAR

xvi

Gambar 2. 1 . Tahapan Dalam Data Mining (Fayyad,1996). ... 8

Gambar 2. 2 . Flowchart Algoritma K-Means++ Clustering ... 13

Gambar 3. 1 . Gambaran Umum Sistem... 19

Gambar 3.2 . Prototype Sistem ... 24

Gambar 3.3 . Diagram Usecase... 26

Gambar 3.4 . Diagram Class... 27

Gambar 4.1 . Tampilan Halaman Masuk. ... 31

Gambar 4.2 . Tampilan Halaman Utama ... 32

Gambar 4.3 . Menu Cari File ... 32

Gambar 4.4 . Menu Tambah... 33

Gambar 4.5 . Tabel Data... 33

Gambar 4.6 . Menu Hitung Cluster... 34

Gambar 4.7 . Tempat Output Hasil K-Means++ Clustering. ... 34

Gambar 4.8 . Menu Hitung Nilai SSE ... 34

Gambar 4.9 . Tabel Output Nilai SSE ... 35

Gambar 4.10 . Menu Jumlah Cluster... 35

Gambar 4.11 . Menu Lihat Grafik. ... 35

Gambar 4.12 . Tampilan Grafik Elbow ... 36

Gambar 4.13 . Nilai Random Pada Excel ... 42

Gambar 4.14 . Hasil Clustering Pada Perangkat Lunak. ... 49 Gambar 4.15 . Grafik Elbow Data Dapodik Tahun 2018...

(11)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Indonesia merupakan negara kepulauan yang memiliki luas wilayah membentang dari Sabang sampai Merauke. Menurut data dari Perserikatan Bangsa- Bangsa(PBB) pada tahun 2005, total luas keseluruhan wilayah Indonesia mencapai 1910931 km², dengan perkiraan penduduk mencapai 261.115.456 orang pada tahun 2016. Dengan wilayah luas dan penduduk yang mencapai ratusan juta tersebut, seringkali membuat pemerintah daerah mengalami kesulitan dalam memperhatikan kualitas pendidikan di daerahnya masing-masing, khususnya Pulau Kalimantan.

Menurut data yang bersumber dari Data Pokok Pendidikan (DAPODIK) tahun 2018, Pulau Kalimantan memiliki sekolah baik negeri maupun swasta berjumlah 1824 yang tersebar di berbagai provinsi, dengan rincian Sekolah Menengah Pertama(SMP) negeri/swasta sebanyak 1204 sekolah. Salah satu faktor yang mempengaruhi kualitas suatu SMP ialah jumlah guru yang berusia muda, karena usia muda dianggap lebih produktif untuk diterjunkan sebagai tenaga pengajar.

Berdasarkan paragraf sebelumnya, dapat digali pokok-pokok permasalahan yang ditimbulkan dari banyaknya jumlah SMP di Pulau Kalimantan. Jumlah SMP yang sebanyak itu seringkali menimbulkan ketidakseimbangan pada jumlah guru berusia muda, dengan guru berusia lanjut. Guru berusia lanjut yang akan memasuki masa pensiun, tentu sudah tidak seproduktif guru yang masih berusia muda.

Namun, guru berusia lanjut memiliki pengalaman dan pengetahuan lebih banyak dari guru yang berusia muda. Maka, perbandingan antara guru muda dan guru berusia lanjut sebaiknya memiliki jumlah yang seimbang, supaya dapat saling berkolaborasi dalam meningkatkan kualitas sekolah. Berdasarkan fakta yang ditemukan, terdapat beberapa sekolah tidak memiliki jumlah guru muda dan guru berusia lanjut yang seimbang. Akibat yang ditimbulkan dari ketidakseimbangan tersebut, tentu mempengaruhi kualitas antara satu SMP dengan SMP yang lain.

(12)

Solusi untuk menyelesaikan persoalan tersebut salah satunya ialah pengelompokan menggunakan algoritma K-Means++ Clustering yang ditemukan oleh David Arthur dan Sergei Vassilvitski pada tahun 2007 silam. Dalam jurnalnya, David Arthur dan Sergei Vassilvitski mengemukakan bahwa algoritma temuannya ini mempunyai performa lebih baik dalam hal kecepatan dan akurasi dibandingkan pendahulunya (Arthur dan Vassilvitski, 2007). Selain itu, dalam jurnal yang berjudul Pengelompokan Kualitas Kerja Pegawai Menggunakan Algoritma K- Means++ Dan COP-Kmeans Untuk Merencanakan Program Pemeliharaan Kesehatan Pegawai Di PT. PLN P2B JB Depok, (Chandra dkk., 2017) juga dibuktikan bahwa algoritma K-Means++ Clustering mampu memberikan hasil yang lebih mendekati kebenaran dibandingkan K-Means Clustering, walaupun kecepatan perhitungan algoritma K-Means++ Clustering lebih lambat.

Dengan berbagai permasalahan yang ada di latar belakang ini, maka penulis tertarik untuk mengangkat tema Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru Dengan Algoritma K-Means++ Clustering.

Penelitian ini diharapkan dapat membantu dinas pendidikan daerah di Pulau Kalimantan dalam mengelompokkan SMP berdasarkan distribusi usia guru guna meningkatkan kualitas sekolah. Data yang digunakan mengacu kepada data jumlah guru muda dan guru berusia lanjut yang mengajar pada SMP yang terletak di Pulau Kalimantan.

1.2 Rumusan Masalah

1. Bagaimana algoritma K-Means++ Clustering dapat mengelompokkan SMP berdasarkan distribusi usia guru?

2. Bagaimana menentukan jumlah cluster terbaik dalam proses clustering dengan metode Elbow?

(13)

1.3 Tujuan

1. Menerapkan algoritma K-Means++ Clustering dalam melakukan pengelompokan SMP berdasarkan distribusi usia guru

2. Menentukan jumlah cluster terbaik dalam proses clustering dengan menggunakan metode Elbow

1.4 Batasan Masalah

1. Implementasi menggunakan Netbeans

2. Data yang digunakan adalah data rentang usia guru SMP di Pulau Kalimantan yang berasal dari Data Pokok Pendidikan (DAPODIK) Tahun 2018

1.5 Manfaat

1. Membantu dinas pendidikan daerah dalam memperhatikan kualitas pendidikan, khususnya di pulau Kalimantan, dengan mengidentifikasi SMP mana saja yang memiliki kemiripan dalam hal distribusi usia guru.

2. Memberikan gambaran pengklasteran mengenai SMP mana saja yang memiliki kemiripan distribusi usia guru.

1.6 Sistematika Penulisan

1. Bab I, berisi tentang latar belakang, rumusan masalah, tujuan, manfaat, batasan masalah, dan sistematika penulisan

2. Bab II, memaparkan teori yang digunakan sebagai dasar penelitian, serta mendukung perancangan dan implementasi selama penelitian berlangsung.

3. Bab III, membahas mengenai metodologi penelitian yang terdiri dari rumusan masalah, tahap perencanaan, observasi dan pengumpulan data, studi literatur, serta algoritma K-Means++ Clustering

4. Bab IV, membahas mengenai pemrosesan awal, implementasi sistem dan analisis hasil, terdiri dari teknik atau model analisis yang disebutkan

(14)

di bab metodologi penelitian. Dalam bab ini juga dipaparkan mengenai bagian-bagian dalam sistem(GUI) yang akan digunakan untuk melakukan clustering dengan algoritma K-Means++ Clustering, dan pengujian terhadap data beserta hasil ujinya.

5. Bab V, membahas mengenai penutup yang terdiri dari kesimpulan dan saran. Kesimpulan merupakan jawaban atas permasalahan yang telah dirumuskan pada latar belakang, sedangkan saran berisi tentang himbauan penulis kepada pihak pembaca untuk mengatasi permasalahan yang belum sempat diselesaikan karena tidak ada relevansi dengan pokok bahasannya secara langsung.

(15)

BAB II

LANDASAN TEORI 2.1 Data

2.1.1 Pengertian Data

Menurut pendapat Drs.Jhon J Longkutoy (1996), data merupakan istilah majemuk dari fakta yang menyimpan arti dan dihubungkan dengan simbol, angka, huruf, gambar maupun kenyataan yang membuktikan suatu objek,ide, atau kondisi.

Selain itu, seorang ahli yang bernama Vercellis (2009) juga mengemukakan bahwa data merupakan sebuah penggambaran fakta yang tersusun secara terstruktur.

Dalam pendapat lain, data merupakan sebuah rekaman dari konsep,fakta, atau instruksi pada media penyimpanan untuk hubungan perolehan, dan pemrosesan dengan cara otomatis sebagai informasi yang dapat dipahami oleh manusia (Inmon,2005)

2.1.2 Jenis Data

Data yang digunakan dalam penelitian ini merupakan kombinasi antara data kuantitatif dan data kualitatif. Data kuantitatif merupakan salah satu jenis data yang berisi informasi berupa bilangan atau angka sehingga dapat dihitung maupun diukur secara langsung, sedangkan data kualitatif merupakan data yang berupa kata, gambar, alur skema. (Sugiyono,2015). Data kuantitatif dalam penelitian ini adalah jumlah guru pada rentang usia tertentu, sedangkan data kualitatifnya berupa nama sekolah dan nama provinsi.

2.2 Data Mining

2.2.1 Pengertian Data Mining

Data Mining merupakan disiplin ilmu yang mengkaji metode dalam menggali informasi atau mendapatkan pola dari suatu data (Han dan Kamber,

6

(16)

2006). Data Mining juga menggambarkan proses semi otomatik yang memanfaatkan teknik Machine Learning, Artificial Intelligence, statistik, dan matematika dalam mengenali serta mengekstraksi informasi yang berguna dan bermanfaat pada database besar (Turban dkk., 2005). Data Mining sering disebut sebagai Knowledge Discovery in Database (KDD), yaitu kegiatan yang mencakup pemakaian data,pengumpulan data, historis untuk mendapatkan keteraturan, pola maupun hubungan dalam set data berukuran besar (Santoso, 2007).

2.2.2 Tahapan Knowledge Discovery Database

Data Mining merupakan bagian dari proses Knowledge Discovery in Database (KDD). Sebagai bagian dari proses KDD, Data Mining berkaitan erat dengan penghitungan pada pola suatu data. Adapun beberapa tahapan dalam KDD adalah sebagai berikut (Fayyad, 1996) :

1. Data Selection

Seleksi data dikerjakan dari suatu himpunan data operasional. Sebelum memasuki tahap penggalian informasi dalam KDD, tahapan ini perlu dikerjakan. Data hasil seleksi akan disimpan pada berkas yang terpisah dari database operasional

2. Preprocessing/Cleaning

Dalam tahapan ini, terjadi proses pembuangan data yang mempunyai duplikasi, data yang inkonsisten, serta memperbaiki kesalahan pada data. Dilakukan pula proses enrichment untuk memperkaya data yang telah ada dengan data/informasi lain yang tentunya harus relevan.

3. Transformation

Coding merupakan proses transformasi yang sesuai untuk pengerjaan Data Mining pada data yang telah dipilih. Coding dalam KDD sangat dipengaruhi oleh jenis atau pola informasi yang akan dicari dalam database.

4. Data Mining

Proses dalam mencari sebuah pola atau informasi yang menarik dalam data terpilih dengan metode tertentu disebut sebagai Data Mining.

(17)

Data Mining mempunyai algoritma, teknik, ataupun metode yang bervariasi. Proses KDD pun sangat dipengaruhi oleh pemilihan algoritma dan metode yang tepat.

5. Interpretation/Evaluation

Proses untuk membawakan pola informasi yang dihasilkan dari kegiatan Data Mining oleh pihak yang berkepentingan, disebut sebagai Interpretation/Evaluation. Interpretation/Evaluation mencakup pengecekan terhadap informasi atau pola yang ditemukan supaya tidak berseberangan dengan hipotesis atau fakta yang ada sebelumnya. Penjelasan diatas dapat diilustrasikan pada gambar 2.1

Gambar 2. 1 . Tahapan dalam Data Mining (Fayyad,1996)

2.2.2 Karakteristik Data Mining

Adapun beberapa karakteristik Data Mining sebagai berikut (Davies, 2004) : 1. Data Mining sering digunakan pada data yang jumlahnya sangat besar.

Hal ini dilakukan agar mendapatkan hasil yang lebih dipercaya.

2. Data Mining berasosiasi dengan penciptaan sesuatu yang masih tersembunyi dan pola data tertentu yang belum diketahui sebelumnya.

3. Data Mining bermanfaat dalam pembuatan keputusan yang kritis, terutama strategi.

(18)

2.2.3 Tugas-tugas Data Mining

Data Mining dibagi ke dalam beberapa tugas, antara lain (Fayyad dan Usama,

1996):

1. Klasifikasi (Classification)

Menyamaratakan model yang diketahui untuk diterapkan pada data yang baru. Misalkan, klasifikasi penyakit ke dalam sejumlah jenis.

2. Regresi (Regression)

Menciptakan fungsi yang memodelkan data dengan kesalahan prediksi sesedikit mungkin.

3. Klastering (Clustering)

Menggolongkan data, yang belum diketahui label kelasnya, ke dalam beberapa golongan tertentu sesuai dengan presentase kemiripannya.

2.3 Clustering

2.3.1 Pengertian Clustering

Clustering atau pengelompokan data memperhitungkan sebuah pendekatan dalam menyelidiki kesamaan dalam data dan meletakkan data yang memiliki kesamaan ke berbagai kelompok. Algoritma ini membagi himpunan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok lebih besar daripada kelompok yang lain (Wunsch II dan Xu, 2009). Algoritma Clustering dipergunakan secara menyeluruh, tidak hanya terpaut pada masalah pengkategorian data, namun juga dapat menangani kompresi data maupun struktur model (Dubes dan Jain, 1988).

(19)

2.3.2 K-Means Clustering

Algoritma Clustering ini mempunyai beberapa metode, salah satu diantaranya ialah K-Means Clustering. Cara kerja K-Means Clustering berpatokan pada pemilihan jumlah awal kelompok dengan menginterpretasikan nilai centroid awalnya (Madhulatha, 2012). Dalam prosesnya, K-Means Clustering akan memproduksi titik centroid yang dijadikan target atau tujuan dari K-Means Clustering itu sendiri. Saat iterasi K-Means Clustering berhenti, dataset sudah terisi oleh objek yang menjadi anggota dari suatu cluster. Nilai cluster dihasilkan dengan mencari seluruh objek untuk mengidentifikasi cluster dengan jarak terdekat ke objek. K-Means Clustering mengumpulkan item data dalam suatu dataset ke suatu cluster berdasarkan jarak terdekat (Bangoria dkk., 2013). Adapun algoritma K- Means Clustering sebagai berikut (Arthur dan Vassilvitski, 2007) :

1. Pilih secara acak k pusat awal C = {c1, . . . , ck}.

2. Untuk setiap i ∈ {1,...,k} , atur cluster Ci menjadi himpunan poin di X yang lebih dekat ke ci daripada mereka untuk cj untuk semua j

3. Untuk setiap i {1,...,k} , atur ci menjadi pusat massa semua titik dalam

Ci: ci = 1/ Ci x Ci^x

4. Ulangi langkah 2 dan 3 hingga C tidak berubah

Dalam machine learning dan statistik, clustering K-Means merupakan metode analisis kelompok yang mengarah kepada pembagian N objek pemantauan ke dalam cluster dimana setiap objek pemantauan dimiliki oleh kelompok dengan mean terdekat, dimana keduanya berupaya untuk mendapatkan centroid dari dalam data sebanyak iterasi yang dilakukan. Pengukuran jarak dengan Euclidean menggunakan formula:

(20)

𝐷( ! , ") = '∑^#$%! ( ! ")^"……….(2.1) D merupakan jarak antara data X2 dengan X1 adalah nilai mutlak (Manvreet dan Usvir, 2013) dimana X merupakan sebuah titik centroid.

2.3.3 K-Means++ Clustering

Algoritma K-Means Clustering pun mengalami perkembangan dari tahun ke tahun. Pada tahun 2007, David Arthur dan Sergei Vassilvitski menemukan algoritma K-Means++ Clustering. Dalam jurnalnya, David Arthur dan Sergei Vassilvitski membuktikan bahwa K-Means++ Clustering lebih unggul daripada pendahulunya, yaitu K-Means Clustering, dalam hal akurasi dan kecepatan.

Adapun algoritma K-Means++ Clustering sebagai berikut (Arthur dan Vassilvitski, 2007) :

1. Pilih satu centroid secara acak dari antara titik data.

2. Untuk setiap titik data x , hitung D ( x ), jarak antara x dan centroid terdekat yang telah dipilih.

3. Pilih satu titik data baru secara acak sebagai centroid baru, menggunakan distribusi probabilitas tertimbang di mana titik x dipilih dengan probabilitas sebanding dengan D ( x ) 2 .

4. Ulangi Langkah 2 dan 3 sampai k centroid telah dipilih.

5. Sekarang setelah centroid awal telah dipilih, lanjutkan menggunakan pengelompokan standar k -means

Meskipun algoritma ini membutuhkan waktu yang lebih lama dalam pencarian centroid awal, bagian K-Means Clustering itu sendiri menyatu secara cepat setelah algoritma ini dieksekusi, dengan demikian algoritma tersebut sebenarnya menurunkan waktu komputasi. Algoritma ini diuji dengan dataset nyata maupun buatan dengan hasil diperoleh peningkatan lebih cepat dua kali lipat dalam hal kecepatan daripada K-Means Clustering biasa (Kanungo, T. dkk., 2004).

(21)

2.3.3.1 Randomized Seeding Technique

Masing-masing anggota mempunyai peluang untuk terpilih menjadi centroid sehingga setiap anggota dihitung nilai peluang untuk terpilih dan yang paling mendekati adalah yang paling tepat. Berikut formula randomized seeding technique:

Dengan keterangan :

!(#’ !

∑# ' !(#’! (2.2)

X = titik centroid

x = cluster

D(x )² = Jarak Euclidean Distance

x XD(x )² = Jumlah Jarak Euclidean Distance

Rumus Randomized Seeding Technique akan menghasilkan sebuah angka yang dijadikan sebagai acuan semakin jauh nilai objek, maka semakin besar kemungkinan nilai objek akan menjadi nilai C berikutnya

2.3.4 Flowchart K-Means++ Clustering

Pada Gambar 2.2 akan dijelaskan mengenai alur algoritma K-Means++

Clustering ke dalam bentuk flowchart. Alur dimulai dari tahapan memproses data (Data Processing), dimana tahapan ini meliputi pemilihan atribut data, jumlah data, dll. Setelah itu memasuki tahap penentuan jumlah cluster yang akan dipatok, lalu dilanjut dengan menentukan centroid awal secara acak. Kemudian, melakukan penghitungan jarak data terhadap masing-masing centroid menggunakan formula Randomized Seeding Technique.

Langkah selanjutnya ialah menentukan nilai centroid kembali secara acak, hingga setelahnya dilakukan pengelompokan data sesuai minimum jarak ke masing-masing centroid menggunakan formula Euclidean Distance. Setelah pengelompokan data, maka dimulai mencari centroid selanjutnya dengan algoritma K-Means, dari tahap ini akan diketahui perubahan cluster. Jika cluster berubah,

(22)

maka akan mengulang kembali pencarian centroid dengan algoritma K-Means. Jika cluster tetap, maka hasil cluster telah diperoleh.

(23)

Gambar 2. 2 . Flowchart Algoritma K-Means++ Clustering

2.3.5 Tinjauan Pustaka

Dalam tinjauan pustaka penelitian Algoritma K-Means++ Clustering, penulis merujuk referensi contoh kasus pada sebuah jurnal yang ditulis oleh Chandra dkk., 2017. Dalam referensi jurnal ini menyimpulkan bahwa Algoritma K- Means++ Clustering dapat diimplementasikan dengan baik pada sebuah database

(24)

)%!

kesehatan. Hal tersebut telah dibuktikan sebagaimana yang dikatakan oleh Chandra dkk., 2017 pada akhir kesimpulan bahwa dalam hasil perhitungan akhir menyatakan kualitas kerja pegawai dapat dikelompokkan menjadi 5 kelompok serta tidak ada pegawai yang sama dengan kelompok lain.

2.4 Metode Elbow

Metode Elbow adalah sebuah metode yang diaplikasikan untuk membentuk suatu informasi dalam menentukan jumlah cluster terbaik dengan cara melihat persentase hasil perbandingan antara jumlah cluster yang akan membentuk siku pada sebuah titik. Berikut merupakan algoritma dari metode Elbow dalam menentukan jumlah cluster terbaik (Merliana, N.P.E. dkk.,2015) :

1. Mendeklarasikan awal nilai k;

2. Menaikkan nilai k;

3. Menghitung hasil dari SSE (Sum of Square Error) dari tiap nilai k;

4. Menganalisa hasil SSE dari nilai k yang mengalami penurunan secara signifikan;

5. Cari dan tetapkan nilai k yang berbentuk siku;

Dalam metode Elbow, nilai cluster terbaik diambil dari nilai SSE yang mengalami penurunan signifikan serta membentuk sebuah siku. Berikut merupakan formula untuk menghitung SSE (Kodinariya & Makwana, 2013)

𝑆𝑆𝐸 = ∑⁾ ∑_$∈'_!|| $ 𝐶(||^"………... (2.3)

Keterangan : K = jumlah cluster

S = K-cluster yang telah terbentuk

$ = data x pada indeks ke - i

𝐶( = rata-rata K-cluster pada nilai k (k=1,2,...K)

(25)

Sum of Square Error (SSE) adalah formula yang sering dimanfaatkan untuk melakukan pengukuran terhadap data yang diperoleh dengan model prediksi yang telah dilakukan sebelumnya. SSE sering digunakan acuan dalam menentukan cluster yang optimal.

(26)

BAB III

METODE PENELITIAN 3.1 Gambaran Umum

Penelitian ini bertujuan untuk membantu dinas pendidikan daerah masing- masing provinsi di Pulau Kalimantan dalam mendapatkan informasi mengenai persebaran SMP mana saja yang memiliki jumlah guru seimbang dan belum seimbang dengan mengacu pada perbandingan antara guru muda dengan guru yang berusia lanjut menggunakan algoritma K-Means++ Clustering. Dari hasil pengklasteran tersebut nantinya akan dihasilkan pengelompokan ke dalam beberapa cluster sekolah-sekolah yang memiliki kemiripan jumlah distribusi usia guru.

Dengan penelitian ini, diharapkan dapat membantu dinas pendidikan daerah dalam meningkatkan kualitas pendidikan di masing-masing daerah dengan melakukan pengelompokan terhadap sekolah-sekolah yang mempunyai kemiripan jumlah guru muda dan guru berusia lanjut. Dalam Gambar 3.1 berikut merupakan rancangan umum penggunaan sistem dari penelitian ini :

1. Menekan tombol “Masukan File untuk memasukkan DAPODIK yang bertipe xls

2. Mengklik button “BUKA” untuk membuka data yang sudah diinputkan sebelumnya ke dalam Tabel Data

3. Mengklik button “HAPUS” bila ingin menghapus isi tabel

4. Menginputkan jumlah cluster yang diinginkan sebelum melakukan clustering

5. Mengklik button “HITUNG” untuk menghitung hasil clustering dari algoritma K-Means++ Clustering dan menampilkan hasilnya

6. Mengklik button “HITUNG NILAI SSE” untuk menghitung nilai Sum of Square Error dan menampilkan hasilnya

18

(27)

7. Mengklik button “LIHAT GRAFIK ELBOW” untuk menampilkan grafik dari metode Elbow yang dihasilkan dari penghitungan nilai Sum of Square Error

(28)

Gambar 3. 1 . Gambaran Umum Sistem

3.2 Bahan Riset/Data

Penelitian ini menggunakan Data Pokok Pendidikan (DAPODIK) tahun 2018. Total data sejumlah 1204 record dengan 9 atribut. Isi DAPODIK berupa data Sekolah Menengah Pertama yang berstatus Negeri ataupun Swasta dari seluruh provinsi di Pulau Kalimantan. Pada Tabel 3.1. berikut merupakan 10 sampel record data yang diambil pada DAPODIK tahun 2018 dalam bentuk excel :

Tabel 3.1 . Sampel data DAPODIK 2018

Nama Sekolah Provinsi Um ur Gur u <

30

Um ur Gur u 31 - 35

Um ur Gur u 36 - 40

Um ur Gur u 41 - 45

Um ur Gur u 46 - 50

Um ur Gur u 51 - 55

Um ur Gur u >

55

SMP NEGERI 6 PALANGKAR

AYA

Prov.

Kalimant an Tengah

3 2 7 5 8 27 10

SMP NEGERI 1 TENGGARON

G

Prov.

Kalimant an Timur

1 1 3 3 8 26 8

SM NEGERI 2 SAMARINDA

Prov.

Kalimant an Timur

0 1 6 3 16 20 19

SMP NEGERI 1 BANJARBARU

Prov.

Kalimant 5 13 4 3 7 19 7

(29)

an Selatan SMP NEGERI 3

SUNGAI RAYA

Prov.

Kalimant an Barat

7 2 2 2 8 18 6

SMP IT AL MUMTAZ

Prov.

Kalimant an Barat

23 10 1 1 0 0 0

SMP IT AL FITYAN

Prov.

Kalimant an Barat

20 4 0 0 1 1 0

SMP NEGERI 1 SEKADAU

HILIR

Prov.

Kalimant an Barat

19 6 4 4 8 10 6

SMP NEGERI 6 KETAPANG

Prov.

Kalimant an Barat

16 6 9 4 13 2 1

SMP HARAPAN MASA DEPAN

CERAH 01

Prov.

Kalimant an Barat

16 8 1 0 0 1 0

Penjelasan dari atribut Nama Sekolah, Provinsi, beserta Umur Guru akan dijelaskan pada Tabel 3.2 .

Tabel 3.2 . Keterangan Atribut

Nama Atribut Keterangan

Nama Sekolah Berisi nama-nama Sekolah Menengah Pertama,baik yang dikelola oleh Negara

maupun Swasta

Provinsi Berisi nama-nama provinsi letak sekolah berada

Umur Guru Kurang Rentang Umur Guru Kurang dari 30

(30)

dari 30 Tahun tahun Umur Guru 31-35

Tahun

Rentang Guru 31-35 tahun Umur Guru 36-40

Tahun Rentang Umur Guru 36-40 tahun Umur Guru 41-45

Tahun Rentang Umur Guru 41-45 tahun Umur Guru 46-50

Tahun

Rentang Umur Guru 46-50 tahun

Umur Guru 51-55 Tahun

Rentang Umur Guru 51-55 tahun Umur Guru Lebih

dari 55 Tahun Rentang Umur Guru Lebih dari 55 tahun

3.2.1 Pemrosesan Awal

3.2.1.1 Pembersihan Data(Data Cleaning)

Data cleaning merupakan proses awal dalam data mining yang dilakukan untuk menghilangkan noise. Dalam data yang diujikan pada penelitian ini terdapat beberapa noise berupa data sekolah yang berbeda jenjang. Peneliti menghilangkan noise tersebut karena tidak sesuai dengan fokus penelitian. Tabel 3.3 berikut berisikan keterangan mengenai noise yang ada di dalam data.

Tabel 3.3 . Keterangan Noise

Nama Sekolah Keterangan Noise SD – SMP Negeri Satu Atap 1

Pangkalan Banteng

Beberapa institusi yang memiliki sistem satu atap (gabungan lintas

jenjang) menyebabkan tidak jelasnya informasi mengenai jumlah rentang usia guru yang

mengajar di masing-masing SD – SMP Negeri Satu Atap 1

Laung Tuhup

SD SMP Negeri Satu Atap 3 Arut Utara

SMP NEGERI 3 MUARA

KOMAM(SD-SMP Satap 02 Muara Kom

SD SMP NEGERI SATU ATAP 1

(31)

MARIKIT jenjang sekolah tersebut SD SMP NEGERI SATU ATAP 2

ARUT UTARA

Dalam melakukan pembersihan data, peneliti menelusuri cell di dalam data excel, kemudian menghapus noise secara langsung tanpa menggunakan tools khusus.

3.2.1.2 Integrasi Data(Data Integration)

Peneliti tidak melakukan tahap ini dikarenakan data tersebut berasal dari sumber referensi yang sama, yaitu data excel DAPODIK tahun 2018 bertipe xls.

3.2.1.3 Seleksi Data(Data Selection)

Sebelum melakukan penggalian informasi dalam KDD, diperlukan tahap penyeleksian data terhadap sekumpulan data operasional. Seleksi data merupakan tahap menganalisis data yang relevan dari database. Atribut yang tidak digunakan pada data DAPODIK tahun 2018 akan dijelaskan dalam tabel 3.4

Tabel 3.4 . Atribut yang tidak digunakan pada data DAPODIK tahun 2018

DATA ATRIBUT TIDAK

DIGUNAKAN Data DAPODIK tahun 2018 Kepala Sekolah Akreditasi Status

Akses Internet NPSN Jenjang Kurikulum

Atribut yang terdapat dalam tabel 4.1 tidak dibutuhkan untuk proses pengelompokan di penelitian ini. Proses pengelompokan hanya membutuhkan atribut nama sekolah, provinsi, dan rentang usia guru.

(32)

3.2.1.4 Transformasi Data(Data Transformation)

Dalam penelitian ini tidak dilakukan normalisasi, keseluruhan data memiliki interval yang sama, yaitu 0-4.

3.3 Peralatan Penelitian

Alat yang digunakan dalam penelitian ini adalah:

1) Laptop dengan Spesifikasi :

- Processor Intel Core i5 1.8 GHz - RAM 8 GB 1600 MHz DDR3 2) Spesifikasi Software :

- MacOS Mojave 10.14.6 - Netbeans IDE 8.0.2 - Apache POI jar 3.4 Desain Alat Uji

Perencanaan sistem dilaksanakan untuk mendukung tahap awal pembangunan sistem menggunakan bahasa pemrograman Java. Perencanaan sistem menggambarkan tampilan atau interface dari sistem, proses algoritma K- Means++ Clustering, hingga hasil akhir dari clustering. Pada Gambar 3.2 diperlihatkan prototype sistem yang akan digunakan dalam penelitian ini.

(33)

Gambar 3.2 . Prototype Sistem

Dalam Tabel 3.5 . akan dijelaskan mengenai keterangan dari nama fungsi beserta kegunaan masing-masing fungsi yang terdapat di dalam sistem.

Tabel 3.5 . Keterangan Fungsi

Nama Fungsi Kegunaan

Cari File Memasukkan file data

DAPODIK

Buka Membuka dan menampilkan

data yang telah dipilih ke dalam Tabel Data

Hapus Menghapus keseluruhan

data yang ada di dalam Tabel Data

Hitung Cluster Melakukan proses

pengelompokan dengan algoritma K-Means++

Clustering

(34)

Hitung Nilai SSE Melakukan penentuan jumlah cluster terbaik dari kinerja algoritma K- Means++ Clustering terhadap data yang digunakan menggunakan metode Elbow

Jumlah Cluster Menentukan jumlah cluster yang akan diujikan

Lihat Grafik Melihat grafik Elbow yang dihasilkan dari nilai SSE

3.5 Model Fungsi Sistem

3.5.1 Diagram Usecase

Pada sistem yang di dalam Gambar 3.3 ini terdapat satu pengguna yang dapat memasukkan file data DAPODIK, menghapus data dalam tabel, menampilkan hasil clustering dari algoritma K-Means++ Clustering, dan menampilkan nilai cluster terbaik dari hasil clustering dengan algoritma K- Means++ Clustering.

(35)

Gambar 3.3 . Diagram Usecase 3.5.2 Diagram Class

Pada Gambar 3.4 merupakan tampilan diagram class dari sistem yang telah dibuat. Terdapat tiga class yaitu HalamanMasuk,HalamanUtama,dan KMeansPlusPlus

(36)

Gambar 3.4 . Diagram Class

3.5.3 Desain Algoritma

Adapun desain algoritma metode-metode utama yang terdapat di dalam class dapat dilihat pada Lampiran 1.

(37)

BAB IV

IMPLEMENTASI SISTEM DAN ANALISIS HASIL

4.1 Implementasi Sistem

Pada gambar 4.1 berikut merupakan tampilan dari sistem untuk halaman masuk ketika ingin menuju ke halaman utama. Kemudian, halaman utama yang ditampilkan pada gambar 4.2 mempunyai beberapa fitur, diantaranya adalah menu Cari File,menu Tambah,kolom Jumlah Cluster, menu Hitung Cluster,dan menu Hitung Nilai SSE.

Gambar 4.1 . Tampilan halaman masuk

31

(38)

Gambar 4.2 . Tampilan halaman utama

4.1.1 Menu Cari File

Menu Cari File yang ditampilkan pada Gambar 4.3 ini merupakan menu pertama untuk memulai melakukan clustering. Pada menu ini terdapat satu tombol Cari File yang berfungsi untuk memilih file data DAPODIK bertipe xls yang akan diolah oleh sistem.

Gambar 4.3 . Menu Cari File

(39)

4.1.2 Menu Tambah

Menu Tambah yang ditampilkan pada Gambar 4.4 ini berfungsi untuk menampilkan data yang sudah melalui pemilihan kategori jenis SMP dan provinsi pada sebuah tabel data. Tabel data ditunjukkan pada Gambar 4.5

Gambar 4.4 . Menu Tambah

Gambar 4.5 . Tabel Data

4.1.3 Menu Hitung Cluster

Menu yang ditunjukkan pada Gambar 4.6 mempunyai fungsi sebagai penghitungan algoritma K-Means++ Clustering. Pada Gambar 4.7 akan ditampilkan hasil pengelompokan dari penghitungan algoritma K-Means++

Clustering dalam bentuk Pane yang dilakukan oleh fungsi Menu Hitung Cluster.

(40)

Gambar 4.6 . Menu Hitung Cluster

Gambar 4.7 . Tempat Output Hasil K-Means++ Clustering

4.1.4 Menu Hitung Nilai SSE

Menu yang ditunjuk oleh Gambar 4.8 memiliki fungsi sebagai penghitungan nilai SSE dari kinerja algoritma K-Means++ Clustering dengan metode Elbow terhadap data yang digunakan. Adapun hasil dari perhitungan tersebut ditampilkan dalam bentuk pada Gambar 4.9

Gambar 4.8 . Menu Hitung Nilai SSE

(41)

Gambar 4.9 . Tabel Output Nilai SSE

4.1.5 Jumlah Cluster

Menu yang ditunjukkan pada Gambar 4.10 memiliki fungsi untuk menentukan jumlah cluster yang akan diujikan. User menginputkan jumlah cluster pada text field yang tersedia.

Gambar 4.10 . Menu Jumlah Cluster4.1.6 Menu Lihat Grafik Menu yang ditunjukkan pada Gambar 4.11 mempunyai fungsi untuk menampilkan grafik Elbow dari penghitungan nilai SSE sebelumnya. Gambar 4.12 merupakan tampilan grafiknya.

Gambar 4.11 . Menu Lihat Grafik

(42)

Gambar 4.12 . Tampilan Grafik Elbow

4.2 Analisis Hasil Implementasi Algoritma K-Means++ Clustering

Pada tahap ini dilakukan pengujian program terhadap pengelompokan data DAPODIK tahun 2018 dengan menggunakan algoritma K-Means++ Clustering.

Data yang akan diuji merupakan 15 sampel data rentang umur guru pada seluruh Sekolah Menengah Pertama di Pulau Kalimantan dari jumlah 1204 record data yang tersedia.

4.2.1 Uji Validasi

Uji validasi dilakukan dengan membandingkan perhitungan manual menggunakan excel dan hasil akhir dari sistem. Dalam uji validasi yang dilakukan

(43)

oleh peneliti menggunakan k (jumlah cluster) = 2 dengan sebanyak 15 data. Atribut yang diuji meliputi seluruh rentang usia guru.

4.2.1.2 Perhitungan Manual

Pada tabel 5.1 berikut akan ditunjukkan dataset yang digunakan.

Tabel 5.1 Dataset Uji Validasi

Nama

sekolah Provinsi

Umu r Gur u <

30 Tah un

Umu r Gur u - 31- 35 Tah un

Umu r Gur u - 36- 40 Tah un

Umu r Gur u - 41- 45 Tah un

Umu r Gur u - 46- 50 Tah un

Umu r Gur u - 51- 55 Tah un

Umu r Gur u - Lebi h dari 55 Tah un

SMPIT AL MUMTAZ

Prov.

Kaliman

tan Barat 23 10 1 1 0 0 0

SMPIT AL- FITYAN

Prov.

Kaliman

tan Barat 20 4 0 0 1 1 0

SMP

NEGERI 1 SEKADAU HILIR

Prov.

Kaliman

tan Barat 19 6 4 4 8 10 6

SMP HARAPAN MASA DEPAN CERAH 01

Prov.

Kaliman

tan Barat 16 8 1 0 0 1 0

SMP

NEGERI 6

Prov.

Kaliman 16 6 9 4 13 2 1

(44)

KETAPANG tan Barat

SMP DARUL HIJRAH PUTERI

Prov.

Kaliman tan

Selatan 15 20 11 3 5 3 1

SMP ISLAM AL

HASYIMIYY AH

Prov.

Kaliman tan

Tengah 15 3 3 3 5 0 0

SMP PLUS CITRA MADINATU L ILMI

Prov.

Kaliman tan

Selatan 15 2 1 1 1 0 0

SMP

NEGERI 14 BANJARMA SIN

Prov.

Kaliman tan

Selatan 14 4 5 2 7 13 5

SMP

NEGERI 1 PULAU SEMBILAN

Prov.

Kaliman tan

Selatan 14 2 5 0 2 0 0

SMP ISLAM NURUL IHSAN

Prov.

Kaliman tan

Tengah 14 2 5 0 4 0 0

SMP

NEGERI 2 NUNUKAN

Prov.

Kaliman

tan Utara 13 10 4 9 8 4 0

SMP

NEGERI 2 SENDAWAR

Prov.

Kaliman tan

Timur 13 5 1 4 7 14 2

SMP

HASBUNAL LAH

Prov.

Kaliman tan

Selatan 13 4 3 0 1 0 2

(45)

SMP IT QARDHAN HASANA

Prov.

Kaliman tan

Selatan 13 3 1 1 0 0 0

Proses clustering dengan mengimplementasikan algoritma K-Means++ Clustering, dilakukan dengan tahapan-tahapan sebagai berikut :

1. Dalam awal proses clustering, dilakukan pemilihan satu centroid awal.

Pada algoritma K-Means++ pemilihan dilakukan secara random Centroid 1 : SMP IT AL MUMTAZ

2. Penentuan centroid kedua dan seterusnya. Dalam proses penentuan ini diawali dengan melakukan penghitungan jarak tiap data ke centroid yang telah terpilih, lalu mencari jarak centroid terdekat dari setiap data dan hitung kuadrat dari jarak terdekat tersebut. Langkah selanjutnya dengan menggunakan formula randomized seeding technique, hitung probabilitas dan probabilitas secara kumulatif pada setiap data. Hasil penghitungan ditampilkan pada tabel 5.2 berikut :

Tabel 5.2 Hasil Penghitungan Randomized Seeding Technique

Nama Sekolah D1 Min Min² D(x)²/ D( )² Kumulatif

SMPIT AL

MUMTAZ 0 0 0 0 0

SMPIT AL-

FITYAN 7 7 49 0,00028628 0,0002863

HILIR 15,8113883 15,8113883 250 0,00745217 0,0077385

SMP HARAPAN

MASA DEPAN 7,41619849 7,4161985 55 0,00036069 0,0080991

(46)

CERAH 01 SMP NEGERI 6

KETAPANG 17,6635217 17,6635217 311,9999988 0,01160679 0,0197059

SMP DARUL

HIJRAH PUTERI 17,4068952 17,4068952 303,0000005 0,01094682 0,0306528 SMP ISLAM AL

HASYIMIYYAH 12,083046 12,0830460 146,0000006 0,00254161 0,0331944

SMP PLUS

CITRA

MADINATUL

ILMI 11,3578167 11,3578167 129,0000002 0,00198419 0,0351785 SMP NEGERI 14

BANJARMASIN 19,4164878 19,4164878 376,9999985 0,01694672 0,0521253 SMP NEGERI 1

PULAU

SEMBILAN 12,8840987 12,8840987 165,9999993 0,00328563 0,0554109

SMP ISLAM

NURUL IHSAN 13,3416641 13,3416641 178,0000010 0,00377783 0,0591887 SMP NEGERI 2

NUNUKAN 15,9059737 15,9059737 252,9999993 0,0076321 0,0668208 SMP NEGERI 2

SENDAWAR 19,5703858 19,5703858 383,0000004 0,01749043 0,0843113 SMP

HASBUNALLAH 12,083046 12,0830460 146,0000006 0,00254161 0,0868529

SMP IT

QARDHAN

HASANA 12,2065556 12,2065556 148,9999996 0,00264713 0,0895000 Dalam menentukan centroid yang terpilih, diperlukan nilai random. Nilai random yang ditentukan sebesar 0,00 setelah itu membandingkan antara kumulatif probabilitas setiap data dengan nilai random tersebut. Data yang mempunyai nilai random yang lebih kecil dari kumulatif probabilitas, akan terpilih menjadi centroid. Pada gambar 4.13 akan ditampilkan gambaran mengenai nilai random.

(47)

Gambar 4.13 . Nilai random pada excel

Centroid 2 : SMP NEGERI 1 SEKADAU HILIR

3. Ketika telah berhasil mendapatkan seluruh centroid awal untuk proses clustering, langkah selanjutnya ialah penghitungan jarak setiap data ke seluruh centroid dengan mengimplementasikan formula Euclidean Distance. Kemudian melakukan perbandingan antara penghitungan jarak ke suatu centroid, dengan jarak ke centroid lainnya, tentukan jarak terdekat dengan centroid dan menetapkan sebuah data yang akan tergabung ke dalam cluster. Data yang dimaksud ialah apabila mempunyai jarak terdekat dengan suatu centroid, maka posisi data berada dalam satu cluster dengan centroid tersebut. Pada tabel 5.3 akan ditampilkan hasil dari iterasi pertama.

Tabel 5.3 . Iterasi pertama

Nama

Sekolah C1 C2 Jarak

Terpendek Cluster

SMPIT AL

MUMTAZ 0 15,81 0 1

(48)

SMPIT AL-

FITYAN 7 14,25 7 1

HILIR 15,81 0 0 2

CERAH 01 7,42 14,80 7,42 1

SMP NEGERI 6

KETAPANG 17,66 12,17 12,17 2

SMP DARUL

HIJRAH PUTERI 17,41 18,57 17,41 1

SMP ISLAM AL

HASYIMIYYAH 12,08 13,11 12,08 1

SMP PLUS CITRA MADINATUL

ILMI 11,36 15,33 11,36 1

SMP NEGERI 14

BANJARMASIN 19,42 6,71 6,71 2

SMP NEGERI 1 PULAU

SEMBILAN 12,88 15,17 12,88 1

SMP ISLAM

NURUL IHSAN 13,34 14,49 13,34 1

SMP NEGERI 2

NUNUKAN 15,91 12,21 12,21 2

(49)

SMP NEGERI 2

SENDAWAR 19,57 8,89 8,89 2

SMP

HASBUNALLAH 12,08 14,90 12,08 1

SMP IT QARDHAN

HASANA 12,21 16,22 12,21 1

4. Ketika anggota dari tiap cluster telah diketahui, tahap selanjutnya yang dilakukan ialah penghitungan centroid baru berdasarkan anggota cluster

Centroid 1

Umur Guru Kurang dari 30 Tahun

(23+20+16+15+15+15+14+14+13+13) / 10 = 15,8 Umur Guru 31 – 35 Tahun

(10+4+8+20+3+2+2+2+4+3) / 10 = 5,8 Umur Guru 36 – 40 Tahun

(1+0+1+11+3+1+5+5+3+1) / 10 = 3,1 Umur Guru 41 – 45 Tahun

(1+0+0+3+3+1+0+0+0+1) / 10 = 0,9 Umur Guru 46 – 50 Tahun

(0+1+0+5+5+1+2+4+1+0) / 10 = 1,9 Umur Guru 51 – 55 Tahun

(0+1+1+3+0+0+0+0) / 10 = 0,5 Umur Guru Lebih dari 55 Tahun (0+0+0+1+0+0+0+0+2+0) / 10 = 0,3 Centroid 2

Umur Guru Kurang dari 30 Tahun (19+16+14+13+13) / 5 = 15 Umur Guru 31 – 35 Tahun

(50)

(6+6+4+10+5) / 5 = 6,2 Umur Guru 36 – 40 Tahun (4+9+5+4+1) / 5 = 4,6 Umur Guru 41 – 45 Tahun (4+4+2+9+4) / 5 = 4,6 Umur Guru 46 – 50 Tahun (8+13+7+8+7) / 5 = 8,6 Umur Guru 51 – 55 Tahun (10+2+13+4+14) / 5 = 8,6 Umur Guru Lebih dari 55 Tahun (6+1+5+0+2) / 5 = 2,8

5. Langkah selanjutnya setelah menentukan centroid baru ialah melakukan penghitungan ulang jarak setiap data ke seluruh centroid baru, dan pastikan setiap data telah masuk ke cluster yang sama. Apabila posisi data dalam cluster berubah, diperlukan iterasi selanjutnya hingga posisinya tetap. Pada tabel 5.4 berikut ditampilkan hasil dari iterasi kedua

Tabel 5.4 Iterasi Kedua

Nama

SMPIT AL

MUMTAZ 8,82 16,13 8,82 1

SMPIT AL-

FITYAN 5,70 13,98 5,70 1

HILIR 13,44 5,41 5,41 2

(51)

CERAH 01 3,75 13,34 3,75 1

SMP NEGERI 6

KETAPANG 13,06 9,32 9,32 2

SMP DARUL

HIJRAH PUTERI 16,90 16,78 16,78 2

SMP ISLAM AL

HASYIMIYYAH 4,78 10,49 4,78 1

ILMI 4,54 13,53 4,54 1

SMP NEGERI 14

BANJARMASIN 14,69 6,29 6,29 2

SMP NEGERI 1 PULAU

SEMBILAN 4,74 12,86 4,74 1

SMP ISLAM

NURUL IHSAN 5,18 11,95 5,18 1

SMP NEGERI 2

NUNUKAN 11,89 8,22 8,22 2

SMP NEGERI 2

SENDAWAR 15,29 7,15 7,15 2

SMP

HASBUNALLAH 3,98 12,84 3,98 1

SMP IT 4,90 14,00 4,90 1

(52)

QARDHAN HASANA

6. Pada iterasi kedua telah terjadi pergeseran posisi data, sehingga menyebabkan data berpindah cluster. Maka diperlukan untuk melakukan iterasi selanjutnya, dan didapatkan hasil iterasi pada tabel 5.5 berikut :

Tabel 5.5 Iterasi Ketiga

Nama

SMPIT AL

MUMTAZ 9,38 15,11 9,38 1

SMPIT AL-

FITYAN 4,83 13,99 4,83 1

HILIR 14,06 6,54 6,54 2

CERAH 01 4,39 12,51 4,39 1

SMP NEGERI 6

KETAPANG 13,96 8,82 8,82 2

SMP DARUL

HIJRAH PUTERI 18,77 13,98 13,98 2

SMP ISLAM AL

HASYIMIYYAH 4,51 10,64 4,51 1

(53)

ILMI 2,78 13,75 2,78 1

SMP NEGERI 14

BANJARMASIN 15,13 7,93 7,93 2

SMP NEGERI 1 PULAU

SEMBILAN 4,12 12,79 4,12 1

SMP ISLAM

NURUL IHSAN 4,77 11,98 4,77 1

SMP NEGERI 2

NUNUKAN 13,05 7,11 7,11 2

SMP NEGERI 2

SENDAWAR 15,63 8,92 8,92 2

SMP

HASBUNALLAH 3,60 12,58 3,60 1

SMP IT QARDHAN

HASANA 3,74 14,01 3,74 1

7. Setelah mendapatkan hasil dari iterasi ketiga, dapat dilihat tidak ada pergeseran posisi data yang menyebabkan berpindahnya ke cluster lain.

Oleh karenanya, maka iterasi dihentikan. Sehingga hasil akhir dari proses clustering ini terpampang di iterasi ketiga pada tabel 5.5

(54)

4.2.1.2 Perhitungan Perangkat Lunak

Pada gambar 4.14 berikut akan ditampilkan hasil dari proses clustering yang berjalan pada perangkat lunak.

Gambar 4.14 . Hasil Clustering Pada Perangkat Lunak

Pada output yang dihasilkan oleh perangkat lunak, ditampilkan baris array (dari atas ke bawah) untuk cluster pertama, kedua, dan seterusnya. Apabila ingin menambahkan jumlah cluster, maka baris array akan bertambah secara otomatis.

Dalam suatu struktur array menggambarkan data usia guru dari sebuah SMP.

Kumpulan angka pada struktur array merupakan jumlah orang dari masing-masing rentang usia guru yang terdapat dalam suatu SMP.

4.2.1.3 Perhitungan MATLAB

Pada perhitungan menggunakan software MATLAB, didapatkan hasil dalam tabel 5.6 berikut :

(55)

Tabel 5.6 Perhitungan Matlab

Nama Sekolah C1 C2 Min.

Distance Cluster SMP ISLAM AL

HASYIMIYYAH 6,73 8,91 6,73 1

CERAH 01 5,88 11,47 5,88 1

SMP IT AL

MUMTAZ 13,45 15,10 13,45 1

SMP IT AL

FITYAN 8,22 12,34 8,22 1

SMP ISLAM

NURUL IHSAN 5,56 12,21 5,56 1

SMP NEGERI 1 PULAU

SEMBILAN 8,39 11,90 8,39 1

SMP PLUS

CITRA

MADINATUL

ILMI 4,20 10,98 4,20 1

SMP

HASBUNALLAH 5,33 12,09 5,33 1

SMP NEGERI 14

BANJARMASIN 14,26 8,28 8,28 2

SMP NEGERI 2

NUNUKAN 12,03 9,47 9,47 2

(56)

SMP IT QARDHAN

HASANA 5,71 12,40 5,71 1

SMP NEGERI 2

SENDAWAR 15,70 4,23 4,23 2

SMP NEGERI 6

KETAPANG 14,34 9,77 9,77 2

SMP DARUL

HIJRAH PUTERI 16,07 15,89 15,89 2

HILIR 13,66 5,67 5,67 2

4.2.2 Evaluasi Hasil Perhitungan Manual, Perangkat Lunak, dan MATLAB Berdasarkan hasil pengujian, didapatkan kesimpulan bahwasanya proses clustering pada penghitungan perangkat lunak dan manual memiliki hasil akhir yang sama. Tabel 5.7 berikut merupakan hasil akhir dari kedua percobaan penghitungan yang dilakukan oleh peneliti.

(57)

Tabel 5.7 . Hasil Akhir Perhitungan Manual, Perangkat Lunak, dan MATLAB

Perhitungan Manual Perhitungan Perangkat Lunak

Perhitungan MATLAB

C1 C2 C1 C2 C1 C2

SMP IT SMP SMP SMP SMP SMP

AL NEGERI 1 NEGERI 1 DARUL ISLAM AL NEGERI

MUMTAZ SEKADA PULAU HIJRAH HASYIMI 14

U HILIR SEMBILA PUTERI YYAH BANJAR

N MASIN

SMP IT SMP SMP SMP SMP SMP

AL NEGERI 6 ISLAM AL NEGERI 1 HARAPA NEGERI 2

FITYAN KETAPA HASYIMI SEKADA N MASA NUNUKA

NG YYAH U HILIR DEPAN N

CERAH 01

SMP SMP SMP SMP SMP IT SMP

HARAPA DARUL HASBUN NEGERI 2 AL NEGERI 2

N MASA HIJRAH ALLAH NUNUKA MUMAZ SENDAW

DEPAN PUTERI N AR

CERAH 01

SMP SMP SMP IT SMP SMP IT SMP

ISLAM AL NEGERI AL NEGERI 6 AL NEGERI 6

HASYIMI 14 MUMTAZ KETAPA FITYAN KETAPA

YYAH BANJAR NG NG

MASIN

SMP PLUS SMP SMP SMP SMP SMP

CITRA NEGERI 2 HARAPA NEGERI 2 ISLAM DARUL

MADINAT NUNUKA N MASA SENDAW NURUL HIJRAH

UL ILMI N DEPAN AR IHSAN PUTERI

(58)

CERAH 01 SMP

NEGERI 1 PULAU SEMBILA

N

SMP NEGERI 2 SENDAW

AR

SMP PLUS CITRA MADINAT

UL ILMI

SMP NEGERI

14 BANJAR

MASIN

SMP NEGERI 1

PULAU SEMBILA

N

SMP NEGERI 1

SEKADA U HILIR

SMP ISLAM NURUL IHSAN

SMP IT QARDHA

N HASANA

SMP PLUS CITRA MADINAT

UL ILMI SMP

HASBUN ALLAH

SMP IT AL FITYAN

SMP HASBUN

ALLAH SMP IT

QARDHA N HASANA

SMP ISLAM NURUL

IHSAN

SMP IT QARDHA

N HASANA

4.3 Analisis Penentuan Jumlah Cluster terbaik

Dalam sistem ini mengimplementasikan metode Elbow sebanyak k = 15 untuk mencari jumlah cluster terbaik. Pada tabel 5.8 ditampilkan nilai SSE (Sum of Square Error) pada data DAPODIK tahun 2018

Tabel 5.8 . Nilai SSE (Sum of Square Error) pada data DAPODIK tahun 2018

K Sum of Square Error

1 2115,484807

2 1837,452101

3 1547,786126

(59)

4 1528,083668

5 1517,600624

6 1352,632353

7 1339,305281

8 1293,408517

9 1283,615996

10 1278,604203

11 1274,176775

12 1271,171150

13 1268,638885

14 1264,930056

15 1263,207481

Pada gambar 4.15 menampilkan gambar grafik Elbow untuk data DAPODIK tahun 2018. Sumbu X merepresentasikan jumlah cluster, sedangkan sumbu Y merepresentasikan nilai Sum of Square Error. Pada gambar 4.15 terjadi penurunan nilai SSE secara signifikan saat k = 1 menuju k = 3, hingga k = 6.

Grafik Elbow

2500,000000

2000,000000 1500,000000 1000,000000 500,000000 0,000000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

(60)

Gambar 4.15 . Grafik Elbow data DAPODIK tahun 2018

Metode Elbow menyatakan bahwa jumlah cluster terbaik memiliki ciri-ciri berupa grafik membentuk siku dan tidak ada penurunan maupun kenaikan nilai Sum of Square Error yang signifikan. Berdasarkan persyaratan tersebut, didapati bahwa jumlah cluster terbaik terletak pada k = 3, karena pada jumlah cluster ini grafik membentuk siku, dan setelahnya tidak ada penurunan nilai Sum of Square Error secara signifikan. Oleh karenanya, k = 3 direkomendasikan sebagai jumlah cluster yang terbaik.

(61)

BAB V PENUTUP

5.1 Simpulan

Penelitian tugas akhir dengan judul “Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru dengan Algoritma K-Means++

Clustering” menghasilkan beberapa kesimpulan sebagai berikut :

1. Sistem Pengelompokan Sekolah Menengah Pertama Berdasarkan Distribusi Usia Guru berhasil dibangun dengan mengimplementasikan algoritma K-Means++

Clustering.

2. Pengujian metode Elbow yang dilakukan dengan jumlah cluster sebanyak 1 hingga 15 menghasilkan nilai k = 3 sebagai jumlah cluster yang terbaik/optimal di dalam proses clustering, dikarenakan grafik menunjukkan bahwa k = 3 mendekati bentuk sudut siku.

5.2 Saran

Pengembangan sistem sangat dibutuhkan untuk penelitian mendatang, supaya sistem dapat melakukan :

1. Menerima input dari berbagai macam tipe file.

2. Menyimpan hasil clustering

3. Menampilkan hasil clustering dengan informasi yang detail

4. Menguji kualitas suatu cluster dengan metode Silhouette Coefficien

56

(62)

DAFTAR PUSTAKA

Arthur, D.; Vassilvitskii, S. (2007). "k-means++: the advantages of careful seeding" (PDF). Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 1027–1035.

Bangoria, B., Mankad, N., dan Pambhar, V., 2013, A Survey on Efficient Enhanced K-Means Clustering Algorithm, International Journal for Scientific Research

& Development, vol. 9, hal 1698-700.

Chandra, M., Fenty, E., dan Fitri, M., 2017, Pengelompokan Kualitas Kerja Pegawai Menggunakan Algoritma K-Means++ dan COP-Kmeans Untuk Merencanakan Program Pemeliharaan Kesehatan Pegawai di PT. PLN P2B JB Depok, Jurnal Pseudocode, vol. 4, hal 16-17.

Davies, and Paul Beynon.2004. Database Systems Third Edition. New York:

Palgrave Macmillan.

Dubes dan Jain, A, (1988), Algorithm for Clustering Data, New Jersey: Prentice Hall.

Efraim Turban, dkk. 2005. “Dec S S e a d I e ge S e . Yogyakarta:ANDI.

Fayyad, U. M, 1996, Advances in Knowledge Discovery and Data Mining.

Camberidge, MA: The MIT Press

Han, J. dan M.Kamber. 2006. “Data Mining Concepts and Techniques Second Ed . San Francisco: Morgan Kaufmann.

Inmon, William H. 2005. B d g T e Da a Wa e e (4 ed.) . Indianapolis :Wiley Publishing, Inc..

Izenman AJ. 2008. “Modern Multivariate Statistical Techniques: Regression, C a f ca , a d Ma f d Lea g . New York (US): Springer.

John. J. Longkutoy. 1989. “Pe ge a a K e : Cetakan Keenam. Jakarta:

PT. Mutiara Sumber Widya.

Kanungo, T.; Mount, D.; Netanyahu, N.; Piatko, C.; Silverman, R.; Wu, A. (2004),

"A Local Search Approximation Algorithm for k-Means Clustering" (PDF), Computational Geometry: Theory and Applications, 28 (2–3): 89–112,

(63)

doi:10.1016/j.comgeo.2004.03.003, archived from the original (PDF) on 2006-02-09.

Kodinariya, T. M., & Makwana, P. R. (2013). Review on determining number of cluster in K-Means Clustering. . International Journal of Advance Research in Computer Science and Management Studies,I(6),90-95.

L. Kaufman and P.J. Rousseuw, “F d g G Da a , New York: John Wiley & Sons, 1990.

Madhulatha, T.S., 2012, “A O e e O C e g Me d , IOSR Journal of Engineering, II(4), pp.719-25.

Manvreet dan Usvir (2013). “Comparison Between K-Mean and Hierarchical A g U g Q e Red ec . India: Department of CSE, Sri Guru Granth Sahib World University, Fatehgarh Sahib, Punjab.

Rui Xu dan Donald C. Wunsch II, 2009, “C e g , A John Wiley & Sons, Inc., Publication.

Santoso, Budi. 2007. “Data Mining : Teknik Pemanfaatan data untuk keperluan b . Yogyakarta:Graha Ilmu.

Sugiyono (2015). “Me de Pe e a K b a (M Me d ) . Bandung:

Alfabeta

Vercellis, Bernadth. (2009). “Sistem Informa . Yogyakarta: Lokomedia

(64)

LAMPIRAN 1 DESAIN ALGORITMA

Nama Method chooseInitialCenters(points:Collection<T>) : List<CentroidCluster<T>>

Fungsi Method Mencari centroid awal, kedua, dan seterusnya

Input Data bertipe array

Output Data bertipe list

Algoritma :

1. Mengubah tipe data menjadi List untuk indeks yang akan diakses 2. Menentukan jumlah data yang ada di dalam List

3. Mendeklarasikan List centroid awal yang akan dihasilkan 4. Memilih salah satu centroid secara acak dari antara data

5. Lakukan penghitungan jarak terdekat antardata dengan menggunakan Euclidean Distance

6. Gunakan formula randomized seeding technique untuk menentukan probabilitas data yang akan menjadi centroid kedua dengan bantuan nilai acak 7. Jika ditemukan data yang memiliki kumulatif probabilitas yang lebih besar daripada nilai acak, maka akan terpilih sebagai centroid kedua.

8. Lakukan langkah 5 – 7 jika ingin mencari centroid seterusnya

Nama Method Cluster(points:Collection<T>:List Fungsi Method Menampilkan list cluster yang telah

dibentuk

Input Data bertipe list

Output Cluster 1,2 dan seterusnya

Algoritma:

1. Melakukan pengecekan apakah jumlah cluster lebih besar dari jumlah data, jika tidak maka list cluster tidak dapat dibentuk

(65)

Nama Method hitungSSE

Fungsi Method Menampilkan nilai Sum of Square Error

Input double [][] points, double[][] centroids

Output Nilai Sum of Square Error

Algoritma:

1. Mendeklarasikan variabel “sse” dengan tipe data double 2. Mendeklarasikan variabel “assignedClust” dengan tipe data int 3. Looping sebanyak cluster yang telah ditentukan

4. Variabel “assignedClust” untuk menampung cluster sebanyak looping sebelumnya

5. Variabel “sse” untuk menjumlahkan hasil perhitungan selisih jarak data dengan centroid dari sejumlah cluster pada langkah 4

2. Jika jumlah cluster lebih besar dari jumlah data, maka buat array berisi list cluster yang telah terbentuk.

3. Lakukan iterasi untuk mengetahui banyaknya list cluster yang akan ditampung terhadap array

4. Jika tidak ada lagi perubahan terhadap list cluster, maka iterasi dihentukan