TUGAS AKHIR
Disusun Untuk Memenuhi Salah Satu Syarat Kelulusan Program Strata I pada Sekolah Tinggi Manajemen Informatika dan Komputer
(STMIK) Palangkaraya
OLEH HENDY SUKMA
C1855201050
PROGRAM STUDI TEKNIK INFORMATIKA
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER (STMIK) PALANGKARAYA
2021
i
CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENTUKAN KELAYAKAN BANTUAN
SISWA MISKIN DAN BERPRESTASI
TUGAS AKHIR
Disusun Untuk Memenuhi Salah Satu Syarat Kelulusan Program Strata I pada Sekolah Tinggi Manajemen Informatika dan Komputer
(STMIK) Palangkaraya
OLEH HENDY SUKMA
C1855201050
PROGRAM STUDI TEKNIK INFORMATIKA
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER (STMIK) PALANGKARAYA
2021
ii
LEMBAR PERNYATAAN
Yang bertanda tangan di bawah ini :
Nama Mahasiswa : HENDY SUKMA
NIM : C1855201050
Menyatakan bahwa Tugas Akhir dengan judul :
CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENTUKAN KELAYAKAN BANTUAN
SISWA MISKIN DAN BERPRESTASI
Adalah hasil karya saya dan bukan merupakan duplikasi Sebagian atau seluruhnya dari karya orang lain, kecuali bagian yang sumber informasi dicantumkan.
Pernyataan ini dibuat dengan sebenar-benarnya secara sadar dan bertanggung jawab dan saya bersedia menerima sanksi pembatalan Tugas Akhir apabila terbukti melakukan duplikasi terhadap Tugas Akhir atau karya ilmiah lain yang sudah ada.
Palangka Raya, 07 Desember 2021 Yang Membuat Pernyataan,
HENDY SUKMA Materai
Rp. 10.000
iii
PERSETUJUAN
CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENTUKAN KELAYAKAN BANTUAN
SISWA MISKIN DAN BERPRESTASI
Tugas Akhir Ini Telah Disetujui Untuk Diujikan pada Tanggal 3 Desember 2021
Pembimbing I, Pembimbing II,
Lili Rusdiana, M.Kom. Veny Cahya Hardita, M.Kom.
NIK. 198707282011007 NIK. 199504302020002
Mengetahui
Ketua STMIK Palangkaraya,
Suparno, M.Kom.
NIK. 196901041995105
iv
PENGESAHAN
CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA UNTUK MENENTUKAN KELAYAKAN BANTUAN
SISWA MISKIN DAN BERPRESTASI
Tugas Akhir ini telah Diujikan, Dinilai, dan Disahkan Oleh Tim Penguji pada Tanggal 9 Desember 2021
Tim Penguji Tugas Akhir :
1) Sulistyowati, S.Kom., M.Cs. ………..
Ketua
2) Ferdiyani Haris, M.Kom. ………...
Sekretaris
3) Sam’ani, S.T., M.Kom. ………
Anggota
4) Lili Rusdiana, M.Kom ………
Anggota
5) Veny Cahya Hardita, M.Kom ………
Anggota
v
MOTTO DAN PERSEMBAHAN
Jika pendidikan tidak mendorong Manusia untuk berjuang mewujudkan impiannya, berbagi dan berkarya untuk berkontribusi pada lingkungannya, serta mengokohkan keimanan pada sang pencipta, maka untuk apa pendidikan itu ada?
Kupersempahkan Skripsi Ini Teruntuk : Ayah dan Ibu Tercinta
Yang telah berjuang dengan penuh keikhlasan, yang telah menorehkan segala kasih dan sayangnya dengan penuh rasa ketulusan yang tak kenal Lelah dan batas waktu. Special for my Mam Engkaulah Inspirasiku disaat aku rapuh & Ketika semangatku memudar.
vi
INTISARI
Hendy Sukma, C1855201050, 2021. Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi, Pembimbing I Lili Rusdiana, M.Kom., Pembimbing II Veny Cahya Hardita, M.Kom.
Dalam mencerdaskan bangsa dan negara tidak lepas dari proses dalam menimba ilmu pengetahuan serta mendapatkan wadah dalam hal pendidikan dengan melalui sekolah. Dengan melahirkan anak-anak yang memiliki potensi belajar yang baik serta anak-anak yang berprestasi dalam sekolahnya memungkinkan terdapat beberapa kendala didalam biaya sekolah.
Banyak permasalahan yang menjadi faktor kesulitan dalam sekolah contoh yang paling banyak dalam masyarakat yaitu permasalahan ekonomi keluarga.
Melihat anak-anak yang memiliki semangat belajar dan berprestasi tetapi terhalang oleh biaya sekolah.
Pemerintah dan kemendikbud mengadakan Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi. Maka dari itu topik Tugas Akhir penulis yaitu mengolah program untuk Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin Dan Berprestasi menggunakan metode K-Means dengan Bahasa pemograman python. Penulis memilih tempat penelitian SMPN-6 Kota Palangka serta menentukan beberapa variabel yang diambil seperti pekerjaan orang tua, penghasilan orang tua, usia orang tua dan nilai rata-rata siswa tujuan dari penelitian ini agar bantuan tersebut benar-benar tersampaikan kepada siswa yang berprestasi namun keadaan keluarga tidak mampu.
Hasil akhir dari program Clustering K-Means yaitu berdasarkan logika jika nilai rata-rata tinggi dan penghasilan rendah maka BSM layak didapat serta program berhasil mengklasterkan data siswa SMPN-6 Kota Palangka Raya antara cluster layak dan tidak layak.
Kata Kunci : BSM, Berprestasi, Clustering, K-Means
vii
ABSTRACT
Hendy Sukma, C1855201050, 2021. Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi, Pembimbing I Lili Rusdiana, M.Kom., Pembimbing II Veny Cahya Hardita, M.Kom.
In educating the nation and state, it cannot be separated from the process of gaining knowledge and getting a forum in terms of education through schools. By giving birth to children who have good learning potential and children who excel in school, it is possible that there are several obstacles in school fees.
There are many problems that are a factor in the difficulty in the sample school, which is the most common in the community, namely family economic problems. Seeing children who have a passion for learning and achievement but are hindered by school fees.
The government and the Ministry of Education and Culture held a Poor Student Assistance (BSM) for students who excel. Therefore, the topic of the author's Final Project is to process a program for Clustering Data for SMPN-6 Palangka Raya Students to Determine the Eligibility of Assistance for Poor and Achieving Students using the K-Means method with the Python programming language. The author chose the research location at SMPN-6 Palangka City and determined several variables such as parents' occupations, parents' income, parents' age and the average value of the students. poor family. The final result of the K- Means Clustering program is based on the logic that if the average value is high and the income is low, then BSM is feasible and the program is successful in clustering the data of SMPN-6 Palangka Raya students between feasible and unfeasible clusters.
Keywords : Achievers, BSM, Clustering, K-Means
viii
KATA PENGANTAR
Segala puji dan syukur atas ke hadirat Tuhan Yang Maha Pengasih dan Maha Penyayang atas segala limpahan kasih, karunia, dan kehendak-Nya. Sehingga Tugas Akhir Skripsi dengan judul Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi, dapat diselesaikan dengan baik.
Selesainya Tugas Akhir ini tidak lepas dari bantuan, bimbingan, dan do’a dari berbagai pihak. Pada kesempatan ini ingin disampaikan terima kasih kepada semua pihak yang telah membantu dalam pembuatan karya ini, ucapan terima kasih yang sebesar-besarnya kepada yang terhormat :
1. Suparno, M.Kom selaku ketua STMIK Palangka Raya
2. Lili Rusdiana, M.Kom selaku dosen pembimbing I selama penyelesaian Tugas Akhir
3. Veny Cahya Hardita, M.Kom selaku dosen pembimbing II selama penyelesaian Tugas Akhir
4. Wahidah, Spd., H.pd selaku kepala sekolah SMPN-6 Palangka Raya 5. Bertine, Spd selaku wakil kepala sekolah SMPN-6 Palangka Raya
6. Guru – guru SMPN-6 Palangka Raya telah membantu selama penelitian dalam memperoleh data – data siswa.
7. Semua pihak yang telah membantu hingga terselesaikannya pembuatan Tugas Akhir maupun dalam penyusunan Tugas Akhir yang tidak dapat disebutkan satu persatu.
ix
Demikian penulis mengharapkan saran dan kritik untuk membangun kesempurnaan karya ini. Semoga karya ini bermanfaat, Amin.
Palangka Raya, 07 Desember 2021
Penulis
x DAFTAR ISI
LEMBAR PERNYATAAN ... ii
PERSETUJUAN ... iii
PENGESAHAN ... iv
MOTTO DAN PERSEMBAHAN ... v
INTISARI ... vi
ABSTRACT ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... x
DAFTAR TABEL ... xii
DAFTAR LAMPIRAN ... xiv
BAB I PENDAHULUAN ... 1
BAB II LANDASAN TEORI ... 6
a. Bantuan Siswa Miskin (BSM) ... 12
b. Data Mining ... 12
c. Clustering ... 13
d. Algoritma K-Means ... 13
e. Anaconda Navigator ... 15
f. Jupyter Notebook... 15
g. Microsoft Excel ... 15
h. Python... 16
i. Flowchart ... 16
j. White Box Testing... 17
k. Flowgraph ... 18
BAB III METODE PENELITIAN ... 19
BAB IV HASIL DAN PEMBAHASAN ... 30
4.1.1 Implementasi ... 30
4.1.2. Pengujian ... 47
BAB V PENUTUP ... 58
xi DAFTAR PUSTAKA
xii
DAFTAR TABEL
Tabel 1. Penelitian yang relevan ... 8
Tabel 2. Simbol-simbol Flowchart ... 17
Tabel 3. Kebutuhan Perangkat Lunak ... 22
Tabel 4. Desain Dataset Siswa ... 28
Tabel 5. Desain Dataset Siswa ... 29
Tabel 6. Listing Program Clustering K-Means Analisis ... 48
Tabel 7. Pengujian Basis Path ... 53
xiii
DAFTAR GAMBAR
Gambar 1. Flowchart Clustering K-Means ... 27
Gambar 2. Dataset pada tampilan Microsoft Excel ... 30
Gambar 3. Tampilan Anaconda Navigator ... 31
Gambar 4. Tampilan Jupyter Notebook ... 31
Gambar 5. Tampilan Workspace Jupyter Notebook ... 32
Gambar 6. Bentuk Dataframe dari Dataset ... 33
Gambar 7. Tampilan Dataframe ... 34
Gambar 8. Describing Data ... 34
Gambar 9. Tampilan info dari Dataset ... 35
Gambar 10. Tampilan Histogram ... 36
Gambar 11. Tampilan Histogram ... 36
Gambar 12. Tampilan Histogram ... 37
Gambar 13. Tampilan Histogram ... 38
Gambar 14. Tampilan Pairplot dari Multivariate Analysis ... 39
Gambar 15. Menampilkan Data Kosong pada Variabel ... 39
Gambar 16. Tampilan menghapus data kosong ... 40
Gambar 17. Tampilan Data Frame ... 41
Gambar 18. Data outlier pada masing-masing variabel ... 41
Gambar 19. Tampilan Data frame yang baru ... 42
Gambar 20. Bentuk Array ... 43
Gambar 21. Tampilan scalling data ... 44
Gambar 22. Source code menambahkan ... 45
Gambar 23. Grafik Scatter plot hasil akhir ... 46
Gambar 24. Tampilan Data frame hasil akhir ... 46
Gambar 25. Flowgraph ... 48
Gambar 26. Data awal ... 54
Gambar 27. Menentukan jumlah cluster ... 54
Gambar 28. Nilai jarak terdekat ... 55
Gambar 29. Hasil akhir cluster ... 57
xiv
DAFTAR LAMPIRAN Lampiran 1. Surat tugas pembimbing tugas akhir Lampiran 2. Lembar konsultasi bimbingan tugas akhir Lampiran 3. Surat ijin penelitian
Lampiran 4. Surat keterangan telah melakukan penelitian Lampiran 5. Lembar wawancara
Lampiran 6. Lembar dokumentasi Lampiran 7. Surat tugas penguji seminar Lampiran 8. Berita acara sidang tugas akhir Lampiran 9. Listing Program
Lampiran 10. Pembahasan Source Code
1
Keunggulan sebuah negara dapat diukur dari kualitas sumber daya manusia yang ada dalam suatu negara tersebut. Suatu negara dapat dikatakan maju dan berprestasi jika negara tersebut mampu menguasai ilmu pengetahuan dan teknologi (IPTEK). Maka dari itu anak-anak sangat membutuhkan edukasi dalam pendidikan dan pembelajaran dengan cara sekolah. Sama halnya para siswa di SMPN-6 Kota Palangka Raya yang memiliki jumlah total sekitar 800 siswa sebagai tempat lokasi penelitian penulis.
Dalam proses mencerdaskan kehidupan bangsa tentu tidak lepas dari beberapa kendala, salah satunya kendala dalam biaya pendidikan terutama bagi keluarga kurang mampu. Relatif mahalnya biaya pendidikan dipicu oleh mahalnya biaya transportasi ke sekolah, mahalnya biaya penunjang pendidikan (pakaian seragam, buku pelajaran, dan peralatan sekolah). Maka dari itu Kemendikbud menyalurkan beberapa bantuan kepada siswa salah satunya Bantuan Siswa Miskin (BSM). Kemendikbud menyalurkan bantuan dengan menurun kan ke Dinas Kota Palangka Raya dan diturunkan lagi ke beberapa sekolah salah satunya SMPN-6 Kota Palangka Raya. Beberapa sekolah di Indonesia menerapkan Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi. Maka dari itu penulis ingin mengembangkan penelitian ini agar bantuan yang diselenggarakan benar – benar tersampaikan pada siswa
yang membutuhkan serta rujukan atau rekomendasi pada SMPN-6 Kota Palangka Raya agar adanya Bantuan Siswa Miskin (BSM) untuk siswa berprestasi. Dengan itu penulis menggunakan data siswa SMPN-6 Kota Palangka Raya yang berjumlah 260 data dari 800 data siswa , dikarenakan banyak data yang kosong setelah dianalisis.
Maka dilakukan pengelompokkan data siswa untuk menentukan siswa miskin yang layak menerima Bantuan Siswa Miskin (BSM) untuk siswa berprestasi berupa sejumlah uang dari Dinas Sosial Kota Palangka Raya untuk Sekolah Menengah Pertama Negeri 6 Kota Palangka Raya Jl. Seth Adji perlu dibuat sistem yang terkomputerisasi guna memberikan kemudahan dalam pengelompokkan tersebut, adapun variabel yang penulis ambil dari SMPN-6 Palangka Raya yaitu, pekerjaan orang tua, penghasilan orang tua, usia orang tua dan nilai rata – rata. Tujuan dari pengelompokkan data siswa tersebut untuk menentukan siswa yang mendapat Bantuan Siswa Miskin (BSM) khususnya untuk siswa yang berprestasi sehingga dapat meminimalis kecurangan yang bisa saja terjadi. karena sebelumnya bantuan ini diberikan hanya kepada siswa miskin yang direkomendasikan dan memenuhi syarat.
Perumusan Masalah
Rumusan masalah yaitu Bagaimana menentukan penerima Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi di SMPN-6 Kota Palangka Raya dengan menggunakan metode data mining algoritma K-Means Clustering?
Batasan Masalah
Batasan masalah pada pengelompokkan data siswa dalam menentukan siswa yang layak mendapat Bantuan Siswa Miskin (BSM) untuk siswa berprestasi adalah :
a. Dalam penelitian ini metode yang digunakan K-Means Clustering.
b. Dalam Penelitian ini menentukan penerima Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi berdasarkan data siswa.
c. Cluster ditentukan sebanyak 2 cluster, yakni layak dan tidak layak.
d. Data yang digunakan yakni data 1 tahun terakhir sebanyak 260 data dari data nilai rata-rata kelas 9.
e. Atribut yang diambil ada 4 yaitu penghasilan orang tua, pekerjaan orang tua, usia orang tua dan nilai rata-rata
f. Jenis bantuan dalam penelitian ini yaitu Bantuan Siswa Miskin (BSM) Tujuan dan Manfaat
a. Tujuan Penelitian
Tujuan masalah pada pengelompokkan data siswa dalam menentukan siswa yang layak mendapat Bantuan Siswa Miskin (BSM) untuk siswa berprestasi adalah :
1) Mengimplementasikan algoritma K-Means Clustering menggunakan bahasa pemograman Python.
2) Menentukan penerima yang layak mendapat Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi di SMPN-6 Kota Palangka Raya dengan menggunakan aplikasi Anaconda Navigator dengan bahasa
pemograman Python dan metode data mining algoritma K-Means Clustering.
3) Sebagai bahan rujukan atau rekomendasi dalam menentukan Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi di SMPN-6 Kota Palangka Raya.
b. Manfaat Penelitian
Hasil dan penelitian ini nantinya diharapkan dapat bermanfaat bagi : 1) Sekolah SMPN- 6 Palangka Raya
Dapat membantu dan memberikan dana dari pemerintah kepada siswa yang benar-benar membutuhkan.
2) Bagi Penulis
Manfaat bagi penulis yaitu dapat membantu menentukan data siswa mana yang termasuk golongan penerima Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi dan mana yang tidak mendapatkan Bantuan Siswa Miskin (BSM) untuk siswa yang beprestasi dari data siswa yang sudah ada. serta mengetahui manfaat penerapan data mining dan aplikasi Anaconda dengan bahasa pemograman Python dalam membantu menentukan dari data siswa mana yang layak menerima Bantuan Siswa Miskin (BSM) untuk siswa yang berprestasi.
3) STMIK Palangkaraya
Sebagai bahan referensi untuk mahasiswa serta literatur pustaka untuk melengkapi karya ilmiah pada perpustakaan di STMIK Palangkaraya dan juga sebagai bahan rujukan atau kajian yang dapat digunakan penulis selanjutnya yang memiliki topik terkait dengan pengelompokkan data menggunakan data mining Clustering K-Means.
Sistematika Penulisan
Untuk mempermudah melihat dan mengetahui pembahasan yang ada pada Tugas Akhir ini secara menyeluruh, maka perlu dikemukakan sistematika yang merupakan kerangka dan pedoman penulisan Tugas Akhir.
Adapun sistematika penulisannya adalah sebagai berikut :
BAB I PENDAHULUAN
Bab ini terdiri dari latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan skripsi.
BAB II LANDASAN TEORI
Bab ini berisikan tentang tinjauan pustaka yang diambil dari penelitian yang relevan beserta susunan kajian teori yang disesuaikan dengan tema Tugas Akhir
BAB III METODE PENELITIAN
Bab ini berisikan tentang tahapan yang dilakukan peneliti dalam mengumpulkan informasi atau data yang dibutuhkan.
BAB IV HASIL DAN PEMBAHASAN
Bab ini berisikan tentang hasil dari penelitian dan pembahasan dari hasil yang didapat.
BAB V KESIMPULAN DAN SARAN
Bab ini berisikan tentang kesimpulan dan saran yang diberikan untuk pengembangan selanjutnya
6
Setelah peneliti melakukan telaah terhadap beberapa penelitian, ada beberapa yang memiliki keterkaitan dengan penelitian yang peneliti lakukan, peneliti-peneliti tersebut antara lain:
a) Penelitian yang relevan dilakukan oleh (Gulo, et al., 2019) berjudul “K- Means Dalam Memprediksi Siswa Yang Layak Menerima Bantuan Siswa Miskin Pada Sd Negeri 127696 Pematang Siantar” membahas tentang prediksi siswa yang layak atau tidak layak dalam menerima bantuan siswa miskin dengan menggunakan algoritma K-Means Clustering dan aplikasi Rapidminer.
b) Penelitian yang relevan dilakukan oleh (Gustini & Aziz, 2019) berjudul
“Pengembangan Model Pengambilan Keputusan Penerima Kartu Indonesia Pintar (KIP) Dengan Metode K-Means Dan Average Linkage Clustering (Studi Kasus : SMA Negeri 1 Kotagajah)” membahas tentang pengambilan keputusan penerima KIP dengan memerlukan sebuah pengembangan aplikasi Weka dikarenakan dengan menginput data yang dilakukan oleh operator melalui aplikasi DAPODIK banyak yang tidak tepat sasaran.
c) Penelitian yang relevan dilakukan oleh (Akbar & Uyun, 2021) berjudul
“Penentuan bantuan Siswa Miskin Menggunakan Fuzzy Tsukamoto dengan Perbandingan Rule pakar dan Decision Tree (Studi Kasus : Sdn
37 Bengkulu Selatan)” membahas tentang penelitian penentuan calon bantuan siswa miskin ini di Sekolah Dasar Negeri 37 Bengkulu Selatan Masalah yang terjadi ada ketidaksesuaian dari hasil output dalam pemberian bantuan siswa miskin, dengan itu menggunakan metode keputusan untuk setiap kriteria dan masih menggunakan penilaian prediksi atau perkiraan untuk calon penerima bantuan. Metode penelitian yang dilakukan menggunakan Fuzzy Tsukamoto dengan perbandingan dua metode yaitu rule pakar dan Decision Tree Simple Cart..
d) Penelitian yang relevan dilakukan oleh (Sirait, et al., 2021) berjudul
“Implementasi Moora Berbasis Web pada Penentuan Kelayakan Penerima Bantuan Siswa Miskin” membahas mengolah program penentuan bantuan siswa miskin (BSM) untuk siswa yang berprestasi dengan mengimplementasikan moora berbasis web.
e) Penelitian yang relevan dilakukan oleh (Sudarsono & Lestari, 2021) berjudul “Clustering Penerima Beasiswa Yayasan Untuk Mahasiswa Menggunakan Metode K-Means” membahas tentang Pengelompokan penerima beasiswa Bantuan beasiswa akan dibuat berdasarkan nilai yang diakumulasikan menggunakan clustering untuk penerima beasiswa ini akan diberikan beasiswa dengan jumlah dan besaran yang berbeda, dikarenakan beasiswa dari yayasan terbatas dan memiliki tingkatan terhadap pembagiannya.
f) Penelitian yang relevan dilakukan oleh (Wahyudi, et al., 2021) berjudul
“Fuzzy K-Means Dalam Prediksi Bantuan Sekolah SDN Jabang 1”
membahas tentang memprediksi siswa yang berasal dari keluarga yang kurang mampu dengan menggunakan Fuzzy K-Means.
Tabel 1. Penelitian yang relevan No Penulis/
Tahun
Topik
Penelitian Metode Pembahasan Hasil 1. Gulo,
dkk/
2019
Tentang memprediksi siswa yang layak menerima bantuan siswa miskin
menggunakan algoritma K- Means
Clustering dan aplikasi
Rapidminer.
Data mining Algoritma K-Means Clustering
Memprediksi siswa yang layak menerima bantuan siswa miskin menggunakan algoritma K- Means dengan menentukan jumlah cluster, centroid dan menghitung nilai dari jarak centroid.
didapat cluster siswa yang layak menerima bantuan terdisi dari cluster 1 sebanyak 13 siswa yang paling layak menerima bantuan siswa miskin dan yang di utamakan, sedangkan cluster 2 tidak layak
menerima bantuan siswa miskin
berjumlah 19.
2. Gustini, Aziz/
2019
Pengembangan Model
Pengambilan Keputusan Penerima Kartu Indonesia Pintar (KIP) Dengan
metode yang digunakan untuk meningkat- kan kualitas metode pengelompok kan adalah
Dalam penelitian ini pembahasan hanya
terbatas pada pengembangan model pengambilan keputusan
Dari hasil clustering menggunakan metode Average Linkage didapatkan Cluster siswa yang berhak menerima KIP adalah 282 Siswa dari 1024 Siswa..
No Penulis/
Tahun
Topik
Penelitian Metode Pembahasan Hasil Metode K-
Means Dan Average Linkage Clustering dengan studi kasus SMAN- 1 Kota Gajah.
metode clustering.
Metode clustering yang digunakan pada penelitian
menggunakan metode K- Means dan Average Linkage Clustering.
yang berhak menerima KIP adalah 282 Siswa dari 1024 Siswa.
Target
penerima KIP.
3. Akbar, Uyun/
2021
Penentuan bantuan siswa miskin
menggunakan fuzzy
tsukomoto dengan perbandingan rule system pakar dan decision tree.
Mengguna- kan Fuzzy Tsukomoto dan Rule system pakar.
Melakukan penentuan bantuan siswa mengguna- kan dataset siswa mengguna- kan beberapa variable yang terkait dalam studi kasus yang dipilih dengan pembentukan rule fuzzy dan mengolah decision tree mengguna- kan aplikasi WEKA.
dari hasil perhitungan perbandingan menggunakan metode rule pakar dan decision tree berdasarkan 75 data
uji dengan hasil akhir diperoleh hasil
rule pakar
sebesar 72%
dan
Decision tree SimpleCart sebesar 76%.
4. Sirait, dkk/
2021
Program Bantuan Siswa Miskin (BSM)
merupakan bantuan dari pemerintah dengan tujuan
Wawancara untuk pengumpu- lan data dilakukan kepada pihak pengambil keputusan
Mengolah program penentuan bantuan siswa miskin (BSM) untuk siswa yang berprestasi dengan
Berdasarkan hasil penelitian dapat dilihat nilai Optimasi 2,22692. dapat disimpulkan Metode Moora merupakan metode yang cocok untuk mendapatkan
No Penulis/
Tahun
Topik
Penelitian Metode Pembahasan Hasil agar anak-anak
miskin yang berprestasi mampu terus sekolah
yang akan diseleksi sebagai penerima BSM pada sekolah tersebut.
Dan metode Moora untuk
menentukan kelayakan penerima Bantuan Siswa Miskin (BSM) pada SD Negeri 127696
Mengimple- mentasikan moora berbasis web
hasil yang baik di dalam menentukan siswa yang layak menerima bantuan siswa miskin
5. Sudar- sono, Lestari/
2021
Menentukan penerima beasiswa Yayasan untuk mahasiswa dengan metode data mining algoritma K- Means Clustering.
Metode yang digunakan yaitu Clustering yang berarti cluster atau pengelompo- kan adalah salah satu metode dalam sebuah pengelompo- kan data mining serta Pengelompo- kan data mahasiswa dengan Algoritma K-Means.
Penelitian ini melakukan jarak terpendek antara setiap kriteria dan kondisi yang memiliki jenis dan karakteristik yang hampir sama dengan untuk prestasi non
akademik dan disiplin mengguna- kan
pernyataan sangat baik yang bernilai
Pada hasil akhir terlihat jelas semua data meliliki kedekatan yang sama antara satu dengan lainnya sehingga terbentuk satu pegelompokkan berdasarkan jarak kedekatan dengan nilai data.
No Penulis/
Tahun
Topik
Penelitian Metode Pembahasan Hasil 100, baik
bernilai 80, cukup bernilai 60, buruk bernilai 40 dan sangat buruk bernilai 20, berikut kandidat calon peserta penerima beasiswa Yayasan.
6. Wahyudi
dkk/
2021
Memprediksi bantuan di SDN Jabang 1 menggunakan Fuzzy K- Means dalam penentuan calon penerima BSM.
.Mengguna- kan metode deskriptif kuantitatif dan untuk posedur penelitian mengguna- kan Teknik waterfall atau sering disebut dengan metode air terjun
Memprediksi calon siswa yang mendapat BSM di SDN Jabang 1 mengguna- kan Fuzzy K- Means dengan memilah data dan
memasukan data yang akan dicluster, serta
menentukan beberapa yang
berkaitan dan mendukung dalam studi kasus tersebut.
Berdasarkan pada
penelitian yang telah dilakukan, maka dapat disimpulkan bahwa
penggunaan metode Fuzzy K- Means dalam pembuatan system penerima Bantuan Siswa Miskin (BSM) ini dapat mendapatkan bantuan tersebut agar tidak terjadi kesalahan penerima
2.2 Kajian Teori
a. Bantuan Siswa Miskin (BSM)
BSM adalah rencana nasional yang bertujuan untuk membantu siswa miskin. (Juddah & Abidin, 2021). Siswa miskin mendapatkan layanan pendidikan yang sesuai, mencegah putus sekolah, menarik siswa miskin kembali ke sekolah, membantu siswa memenuhi kebutuhan kegiatan belajar, mendukung program wajib belajar dasar, dan menghilangkan hambatan siswa miskin untuk bersekolah. Sembilan tahun (bahkan mencapai tingkat mahir), dan membantu kelancaran perkembangan kursus sekolah.
Proses penyeleksian pemberian Bantuan Siswa Miskin (BSM) pada siswa yang berprestasi, menggunakan beberapa penilaian atau beberapa kriteria yang ditentukan (Nofriansyah, 2016). Penentuan pemberian Bantuan Siswa Miskin dilakukan dengan mempertimbangkan nilai – nilai calon siswa yang layak pada setiap kriteria penilaian. Kriteria dapat diperoleh ditempat kasus penelitian yang bersifat nyata. Dengan itu penulis menggunakan serangkaian proses perhitungan pada data mining dengan data – data atau kriteria yang diperoleh pada tempat penelitian.
b. Data Mining
Data Mining merupakan proses penggalian informasi dan pola yang bermanfaat dari data yang sangat besar. Data mining mencakup pengumpulan data , ekstraksi data, analisis data dan statistic data. Data mining juga dikenal sebagai Knowledge discovery, Knowledge extraction, data/pattern analysis, information harvesting, dan lain-lain (Arhami &
Nasir, 2020).
Secara garis besar KDD meliputi tiga tahapan, yaitu pre processing, process (data mining) dan post processing. Kesimpulannya, data mining adalah proses penemuan pola-pola tertentu dari sebuah data atau basis yang
berukuran besar untuk memperoleh informasi yang sangat berguna. Jenis atau teknik data mining yang dikerapkan yaitu association, classification dan clustering. Association mencari pola hubungan yang terdapat pada data atau basis data, classification dan clustering lebih cenderung menemukan pola-pola untuk pengelompokkan (Prasetyowati, 2017)
Secara skematis proses data mining dibagi beberapa langkah proses pelaksanaan data mining dalam 3 aktivitas yaitu :
1) Eksplorasi Data
2) Membuat Model dan Pengujian Validasi Model 3) Penerapan Model
Data Mining bermaksud menyelesaikan permasalahan dengan membangun model berdasarkan data yang sudah digali. Beberapa metode yang dimiliki data mining dalam menyelesaikan permasalahan tersebut salah satunya Clustering (Herlawati, 2020).
c. Clustering
Clustering merupakan salah satu teknik dari salah satu fungsionalitas data mining. Algoritma Clustering merupakan algoritma pengelompokkan sejumlah data menjadi kelompok-kelompok data tertentu (cluster). Pada proses clustering, tahap menentukan atau menentukan mendeskripsikan nilai kuantitatif dari tingkat kemiripan atau ketidakmiripan data (proximity measure) (Aditya, et al., 2020).
Secara umum dapat dikatakan bahwa data dalam satu klaster memiliki tingkat kesamaan yang tinggi dan data dalam klaster yang berbeda memiliki tingkat kesamaan yang rendah. Adapun teknik – teknik yang perlu digunakan untuk mengukur tingkat kesamaan antara lain :
1) Minowski Distance (Masuk dalam kelompok ini Manhattan, Eulidean dan Chebysev).
2) Tanimoto Measure 3) Pearson’s r Measure 4) Mahalanobis Measure
Dalam kasus Tugas Akhir ini penulis menggunakan teknik Eulidean agar dapat mengetahui kesamaan nilai – nilai pada masing klaster yang ditentukan (Herlawati, 2020). Adapun algoritma atau metode yang digunakan dalam clustering yaitu Algoritma K-Means.
d. Algoritma K-Means
Algoritma K-Means merupakan metode non-hirearki yang pada awalnya mengambil Sebagian banyaknya komponen populasi untuk dijadikan pusat kluster awal. Pada tahap ini pusat kluster dipilih secara acak dari sekumpulan populasi data. Berikutnya K-Means menguji masing- masing komponen di dalam populasi data dan menandai komponen tersebut
ke salah satu pusat kluster yang telah didefinisikan tergantung dari jarak minimum antar komponen dengan dengan tiap-tiap kluster. Posisi pusat kluster akan dihitung kembali sampai semua komponen data digolongkan ke dalam tiap-tiap pusat kluster dan terakhir akan terbentuk posisi pusat kluster yang baru (Wahyudi, et al., 2020)
Secara Umum Algoritma K-Means memiliki Langkah-langkah dalam pengelompokkan, diantaranya :
1. Inisialisasi : menentukan nilai K centroid yang diinginkan dan metrik ketidakmiripan (jarak) yang diinginkan.
2. Memilih K data dari set X sebagai centroid, untuk menentukan centroid dapat menggunakan persamaan 1.
𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝐽𝑢𝑚𝑙𝑎ℎ 𝑐𝑙𝑎𝑠𝑠 + 1
3. Mengalokasikan semua data ke centroid terdekat dengan metrik jarak yang telah ditetapkan.
4. Menghitung Kembali centroid C berdasarkan data yang mengikuti cluster masing-masing.
5. Mengulangi Langkah 3 dan 4 hingga kondisi konvergen tercapai.
Berikut ini adalah rumus untuk menentukan jumlah cluster dapat menggunakan persamaan 2.
𝐾 = √𝑁 2 Keterangan :
K = Klaster N = Jumlah data
(1)
(2)
Menghitung jarak pada ruang jarak Euclidean menggunakan formula seperti pada persamaan 3.
𝐷𝑒 = √(𝑥𝑖 − 𝑠𝑖)2+ (𝑦𝑖 − 𝑡𝑖)2 Keterangan :
De = Euclidean distance x = Banyaknya objek Σ = Jumlah data record e. Anaconda Navigator
Anaconda Navigator adalah antarmuka pengguna dengan ilustratif desktop (GUI) yang termasuk kedalam penyaluran Anaconda. Hal ini memungkinkan kita untuk menjalankan aplikasi yang disediakan dalam distribusi Anaconda dan dengan mudah mengelola paket conda, lingkungan, dan saluran tanpa menggunakan perintah baris-per baris (Harani &
Hasanah, 2020). Aplikasi yang disediakan pun berbagai macam salah satunya Jupyter Lab dan Jupyter Notebook.
f. Jupyter Notebook
Jupyter Notebook merupakan versi terbaru dari python, dikenal dengan IPython, dengan ekstensi file tersendiri yaitu *.ipynb. Dengan Jupyter Notebook, penggunaan python jadi lebih mudah karena karakternya yang interaktif membuat perintah atau source code yang diketik langsung dieksekusi (Herlawati, 2020).
g. Microsoft Excel
Microsoft Excel merupakan aplikasi untuk mengolah data secara otomatis yang dibuat oleh Microsoft, Berguna untuk membuat perhitungan dasar, rumus, pemakaian fungsi-fungsi, pengolahan data dan tabel, pembuatan grafik, manajemen data dan keperluan reporting baik personal maupun perusahaan (Hardianto, 2019).
(3)
h. Python
Bahasa Pemograman Python adalah Bahasa pemograman yang dibuat oleh Guido van Rossum dari Amsterdam, Belanda. Pada awalnya motivasi pembuatan Bahasa pemograman ini adalah untuk Bahasa skrip tingkat tinggi pada system operasi terdistribusi Amoeba, Bahasa pemograman ini menjadi umum digunakan untuk kalangan engineer seluruh dunia dalam pembuatan perangkat lunaknya, bahkan beberapa perusahaan seperti Google, NASA, Instagram, Youtube dan Spotify menggunakan Python sebagai pembuat perangkat lunak komersial. Python banyak digunakan untuk membuat berbagai macam program, seperti program CLI, Program GUI (desktop), Aplikasi Mobile, Web, IoT, Game, Program untuk Hacking dan sebagainya (Wardana, 2019)
i. Flowchart
Flowchart adalah suatu teknik untuk menggambarkan urutan logika dari suatu prosedur penyelesaian masalah (Hanief & Jepriana, 2020).
Flowchart juga dapat disebut sebagai Langkah-langkah dalam menyelesaikan masalah dengan menggunakan simbol-simbol tertentu.
Flowchart memiliki sebuah alur logika untuk menunjukkan didalam suatu program.
Flowchart memiliki manfaat selain sebagai media komunikasi, flowchart juga berfungsi sebagai dokumentasi dari suatu program. Tujuan dari flowchart adalah untuk menggambarkan suatu tahapan penyelesaian masalah secara sederhana, terurai, rapi, dan jelas dengan menggunakan simbol-simbol standar. Dapat juga digunakan sebagai alur dari proses jalannya program yang diolah oleh penulis, maka dengan adanya flowchart proses atau tahapan dari jalannya sebuah program akan tersetruktur atau sesuai dengan alur yang diolah menggunakan flowchart. Pada Tabel 2
terdapat simbol-simbol yang digunakan untuk menggambarkan algoritma dalam bentuk diagram alir dengan masing-masing fungsinya.
Tabel 2. Simbol-simbol Flowchart
No Simbol Nama Fungsi
1
Terminal Menyatakan awal atau akhir dari suatu tahapan yang
disajikan dalam flowchart.
2
Decision Menunjukan pengujian terhadap suatu kondisi yang menghasilkan dua jawaban : ya/tidak.
Setiap jawaban akan bergantung dari kebenaran kondisi yang diuji.
3
Process Menyatakan suatu tindakan/aksi(proses) yang dilakukan.
4
Flow Menyatakan jalannya arus suatu proses.
Sumber : (Hanief & Jepriyana, 2020) j. White Box Testing
White box testing merupakan pengujian yang dilakukan pada pengecekan terhadap detail perancangan (Alda, 2021). Pengujian tersebut menggunakan struktur control dari desain program secara teratur atau mempunyai alur yang terstruktur untuk membagi pengujian ke dalam beberapa studi kasus pengujian
k. Flowgraph
Flowgraph merupakan alat bantu untuk mencari jumlah path dalam kode program pada suatu modul atau method yang disebut dengan Cyclomatic Complexity atau V(G) . setiap node pada flowgraph mewakili setiap statement/pernyataan maupun keputusan (Azis, et al., 2019). Nilai dalam menentukan jumlah jalur flowgraph atau basis path menggunakan rumus V(G) = E-N+2.
19
Dalam menyelesaikan Proposal Tugas Akhir yang berjudul
“Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi” Penulis melakukan penelitian di SMPN-6 Kota Palangka Raya yang berlokasi di Jl. Letkol Seth Adji Kota Palangka Raya. Penulis memilih lokasi ini untuk mendapatkan data-data yang berkaitan dalam membantu penyelesaian proposal tugas akhir.
3.2 Teknik Pengumpulan Data
Teknik pengumpulan data dapat diperoleh secara langsung dari objek penelitian dan referensi-referensi yang telah diperoleh, cara-cara yang mendukung untuk mendapatkan data yang dilakukan selama penelitian adalah sebagai berikut :
a. Observasi
Observasi yang dilakukan penulis yaitu dengan melakukan pengamatan, merasakan dan memahami pengetahuan ditempat penelitian yaitu SMPN-6 Kota Palangka Raya untuk mendapatkan informasi-informasi siswa yang dibutuhkan untuk melanjutkan suatu penelitian Tugas Akhir.
b. Wawancara
Wawancara yang dilakukan penulis yaitu dengan mewawancarai Ibu Wahidah, Spd. M.pd. selaku Kepala Sekolah SMPN-6 Kota Palangka Raya dan beberapa guru yaitu Bapak Jasman, Spd. selaku guru BK dan Ibu
Bertine, Spd. selaku wakil kepala sekolah bagian kesiswaan SMPN-6 Kota Palangka Raya guna mengumpulkan informasi yang diperlukan dalam penelitian tugas akhir.
c. Dokumentasi
Dokumentasi digunakan dalam penelitian ini guna memperoleh data langsung dari tempat penelitian, meliputi buku-buku yang relevan, kegiatan serta data-data siswa yang berkaitan dengan penelitian Tugas Akhir seperti data Pekerjaan Orang Tua, Penghasilan Orang Tua, Usia Orang Tua dan Nilai Rata-Rata Siswa.
d. Studi Pustaka
Metode studi Pustaka digunakan dalam penelitian ini sebagai bahan referensi atau acuan dari topik penelitian penulis seperti pengumpulan data dengan cara mengumpulkan literatur, jurnal, buku dan dokumen yang berhubungan dengan topik dan permasalahan seperti dalam menentukan variabel – variabel yang berkaitan dengan topik penelian serta memiliki panduan dari beberapa penelitian sebelumnya yang mirip dengan topik penelitian penulis.
3.3 Perencanaan Alat dan bahan a. Alat
Alat yang digunakan dalam penentuan kelayakan Bantuan Siswa Miskin dan Berprestasi pada siswa SMPN-6 Palangka Raya dengan metode data mining algoritma K-Means Clustering meliputi :
1) Laptop : ASUS A407U dengan prosesor Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz 1.80 GHz 2) Sistem Operasi : Windows 10/64 bits.
b. Bahan
Bahan yang digunakan dalam penentuan kelayakan Bantuan Siswa Miskin dan Berprestasi pada siswa SMPN-6 Palangka Raya dengan metode data mining algoritma K-Means Clustering yaitu penulis membutuhkan data-data siswa sebanyak 200 data. Data yang digunakan yaitu data 1 tahun terkahir yakni tahun 2021 dengan berisi variabel yang berkaitan dengan judul penelitian penulis.
Jenis penelitian
Jenis penelitian yang digunakan pada penelitian ini menggunakan metode kuantitatif. Adapun pengertian metode kuantitatif yaitu salah satu jenis penelitian yang memiliki spesifikasi secara sistematis, terstruktur dan jelas dari awal hingga desain pada penelitiannya.
Metode penelitian ini menerjemahkan data menjadi angka untuk menganalisis hasil temuannya. Penelitian kuantitatif dapat bersifat deskriptif, korelasi, dan asosiatif berdasarkan hubungan antarvariabelnya
.
Penelitian kuantitatif banyak digunakan baik dalam ilmu alam maupun ilmu sosial, dari fisika dan biologi hingga sosiologi dan jurnalisme. Pendekatan ini juga digunakan sebagai cara untuk meneliti berbagai aspek dari pendidikan.3.5 Analisis Kebutuhan
Pada tahap ini analisis terhadap kebutuhan perangkat lunak dan perangkat keras untuk dapat menjalankan aplikasi pendukung untuk mengolah pengelompokkan data kelayakan penerima Bantuan Siswa Miskin (BSM) untuk siswa berprestasi di SMPN-6 Kota Palangka Raya yang nantinya akan berjalan pada perangkat computer. Sementara pengumpulan data untuk menuju tahap pemrosesan pengelompokkan data siswa dilakukan dengan melakukan observasi, wawancara, studi pustaka dan dokumentasi.
1) Kebutuhan Perangkat Lunak
Dalam kebutuhan perangkat lunak (Software) yang penulis gunakan dalam pembuatan program pengelompokkan data siswa seperti pada Tabel 3 :
Tabel 3. Kebutuhan Perangkat Lunak
2) Kebutuhan Informasi
Penulis menggunakan beberapa tahapan atau metode dalam melakukan penelitian untuk mendapatkan informasi pada penyusunan tugas akhir ini diantaranya yaitu wawancara, dokumentasi dan studi pustaka.
No Perangkat Lunak Spesifikasi
1. Sistem Operasi Windows 10 64 bit
2. Anaconda Navigator Sebagai aplikasi bahasa pemograman Python
3. Microsoft Office Excel Sebagai mengolah data awal
a. Analisis Data
Data yang telah terkumpul melalui hasil studi pustaka, wawancara dan dokumentasi langsung ke lokasi penelitian yaitu SMPN-6 Kota Palangka Raya selanjutnya dianalisa dengan menguraikan dan mencocokan data yang perlu digunakan untuk pengelompokkan dalam menentukan kelayakan siswa yang berprestasi dalam menerima Bantuan Siswa Miskin (BSM).
b. Analisis Proses
1) Implementasi Clustering K-Means secara umum
Dalam melakukan Clustering, data yang diperoleh akan dihitung terlebih dahulu berdasarkan jumlah siswa di SMP Negeri 6 Kota Palangka Raya Hasil penjumlahan berdasarkan 4 parameter penilaian yaitu pekerjaan orang tua (X1), Penghasilan Orang Tua (X2), Usia Orang tua (X3) dan Nilai Rata-rata (X4)
Maka dari itu penginisialan dilakukan dengan menyeleksi seluruh data teks diubah ke dalam bentuk angka seperti pekerjaan orang tua di urutkan berdasarkan urutan data pekerjaan seperti:
1) Karyawan Swasta = 1 2) Wiraswasta = 2 3) Buruh = 3 4) Peternak = 4 5) Petani = 5 6) Pensiunan = 6
7) Pedagang kecil = 7 8) Nelayan = 8 9) Lainnya = 9 10) Wirausaha = 10
Sedangkan inisialisasi yang dilakukan untuk merubah penghasilan ke dalam bentuk angka dilakukan dengan menentukan besar kecilnya penghasilan orang tua, penghasilan orang tua lebih besar dari Rp. 3.000.000,- maka disimpulkan berpenghasilan “Tinggi”, jika penghasilan orang tua sebesar Rp. 2.500.000,- maka disimpulkan berpenghasilan “Cukup”, jika penghasilan dibawah Rp. 2.500.000,- maka disimpulkan berpenghasilan “Rendah”. Dari penentuan penghasilan orang tua tersebut maka diinisialkan lagi menjadi rendah (1), Cukup (2) dan tinggi (3). Kemudian untuk variabel usia orang tua dan nilai rata-rata tidak perlu di inisialisasikan karena rentang atau jarak nilai antar variabel tidak terlalu jauh. Setelah keseluruhan data diinisialkan maka proses penentuan centroid awal sudah dapat dilakukan dengan beberapa tahap yaitu :
a. Menentukan Jumlah Cluster
Untuk menentukan jumlah cluster ini dilakukan dengan mengambil nilai secara random dari data inisialisasi siswa sebanyak 2 cluster. Cluster tersebut diantaranya cluster layak (C1) dan tidak layak (C2) berdasarkan dari data siswa miskin.
b. Menentukan Centroid
Menentukan centroid awal cluster (Cluster) ditentukan secara random yang diambil dari data yang ada dalam range. Nilai Cluster 1 diambil dari data paling tinggi dan nilai cluster 2 diambil dari nilai data yang paling rendah.
c. Menghitung Jarak dari Nilai Centroid
Untuk menghitung jarak untuk titik centroid dengan titik tiap objek menggunakan Euclidian Distance. Rumus untuk menghitung jarak dari centroid menggunakan persamaan 3 : Setelah itu menentukan nilai minimum dari masing-masing nilai Euclidian Distance. Lalu menentukan hitungan ke Iterasi-2, Jika hasil Iterasi-2 sama dengan hasil Iterasi-1 Proses perhitungan dihentikan. Maka dapat ditentukan berapa siswa yang masuk pada Cluster1 (Layak) dan Cluster2 (Tidak Layak).
2) Implementasi Clustering K-Means menggunakan Python
Adapun tahapan Clustering K-Means menggunakan Python yang pertama, yaitu peneliti harus memilki sebuah dataset yang nantinya akan dianalisis dan dilakukan pengklasteran. Sebelum melakukan pengklasteran data terlebih dahulu mengimport beberapa library atau package agar support dalam memproses pengklasteran pada dataset.
Setelah itu mengimport dataset kedalam program menggunakan source code pemograman Python.
Diawali dengan beberapa tahap analisis data seperti reading and understanding data, cleaning data dan outlier treatment. Pada tahap analisis penulis dapat menentukan variabel-variabel mana saja yang akan dilakukan pengklasteran. Setelah dari tahap analisis, proses pengklasteran dapat dilakukan dengan mengubah data frame menjadi array agar terlihat ukuran data antar variabel yang telah ditentukan.
Setelah itu dilakukannya scalling data atau standarisasi pada ukuran data yang memiliki rentang perbedaan yang sangat jauh antar variabel yang akan menyebabkan plot tidak muncul dengan sempurna.
Setelah itu menentukan jumlah klasternya dan melihat nilai pusat dari setiap klaster yang telah ditentukan. Setelah itu kolom hasil pengklasteran dapat ditambahkan kedalam data frame. Agar terlihat secara visualisasi hasil klaster yang dilakukan dapat menambahkan grafik scatter plot.
c. Analisis Kelemahan
Kelemahan dari penelitian yang dilakukan adalah :
a) Data siswa yang digunakan dalam penelitian ini lebih banyak kosong dalam record atau isi dari data siswa tersebut.
b) Data yang diperoleh dan layak digunakan sangat terbatas atau minim.
c) Data siswa tersebut tidak pernah dilakukannya pengelompokkan menggunakan Bahasa Python secara terkomputerisasi.
3.6 Desain
a. Desain Proses 1) Flowchart
Flowchart untuk pengimplementasian Clustering K-Means dalam program menggunakan Bahasa pemograman Python dapat dilihat pada Gambar 1 :
Pada Gambar 1 menjelaskan proses dari Clustering dengan metode algoritma K-Means didalam pemograman menggunakan bahasa pemograman Python. Flowchart pada Gambar 1 dapat dijelaskan sebagai berikut :
1) Mengimport beberapa library atau package agar support dalam mengolah program Clustering K-Means.
2) Dataset yang ingin dilakukan pengklasteran di input menggunakan perintah atau source code Python.
Gambar 1. Flowchart Clustering K-Means penentuan kelayakan bantuan.
3) pada tahap analisis memiliki banyak tahapan dalam menganalisis dataset tersebut seperti reading and understanding data, cleaning data dan outlier treatment.
4) Setelah dari tahap analisis dilakukan pengklasteran terhadap dataset.
Clustering memiliki beberapa tahapan seperti mengubah data frame menjadi array, melakukan scalling data, menentukan jumlah cluster dan melihat nilai pusat dari setiap cluster yang telah ditentukan. Setelah itu kolom hasil pengklasteran dapat ditambahkan kedalam data frame.
3.1 Desain Dataset
Desain Dataset yang diolah menggunakan aplikasi Microsoft Excel sebelum dilakukannya pengolahan program Clsutering K-Means.
Berikut tabel data siswa yang digunakan untuk perhitungan algoritma K- Means Clustering.
Tabel 4. Desain Dataset Siswa
No Nama Pekerjaan Orang Tua
1. Abi Abas Ifnul Mulkan
2
2. Adetia Setiawan 2
3. Adhelia Kirana 2
4. Adinda Desya Safira 10
Adapun Tabel 4 merupakan contoh bentuk dataset yang akan diolah kedalam program Clustering K-Means. Sebelum diolah dataset tersebut diimplementasikan kedalam aplikasi Microsoft Excel. Dataset diatas memiliki 2 Variabel yaitu Nama Siswa dan Pekerjaan Orang Tua.
Tabel 5. Desain Dataset Siswa
Penghasilan Orang Tua Usia Orang Tua Nilai rata-rata
3 50 80
3 52 76
3 45 90
3 40 95
Adapun Tabel 5 merupakan contoh bentuk dataset yang akan diolah kedalam program Clustering K-Means. Sebelum diolah dataset tersebut diimplementasikan kedalam aplikasi Microsoft Excel. Dataset diatas memiliki 3 Variabel yaitu Penghasilan Orang Tua, Usia Orang Tua dan Nilai rata – rata.
30 Implementasi
Dalam pengolahan program Clustering Data Siswa SMPN-6 Palangka Raya Untuk Menentukan Kelayakan Bantuan Siswa Miskin dan Berprestasi, penulis menggunakan software atau aplikasi bantu yaitu aplikasi Anaconda Navigator dan aplikasi didalamnya yaitu Jupyter Notebook menggunakan Bahasa pemograman Python. Program tersebut dibuat untuk mengelompokkan data siswa yang berprestasi dan layak untuk mendapatkan Bantuan Siswa Miskin (BSM). Hal pertama yang dilakukan pengguna dalam mengolah program Clustering K-Means yaitu menyiapkan dataset yang dibuat menggunakan Microsoft Office Excel dengan format .csv.
File output Microsoft Excel dengan format .csv akan terlihat seperti pada Gambar 2. Dataset diatas merupakan data asli dari tempat penelitian yaitu SMPN-6 Kota Palangka Raya dengan jumlah data siswa keseluruhan sebanyak 260 data. Dataset tersebut berisikan 4 field dan memiliki 219 record
Gambar 2. Dataset pada tampilan Microsoft Excel
disetiap masing-masing fieldnya. Data tersebut yang akan dilakukan pengklasteran atau pengelompokkan data siswa yang berprestasi dan layak mendapat Bantuan Siswa Miskin (BSM). Setelah itu menjalankan aplikasi Anaconda Navigator dan memilih aplikasi didalam nya yaitu Jupyter Notebook dengan menggunakan Bahasa pemograman Python. Seperti pada Gambar 3 :
Jupyter Notebook merupakan tool yang populer untuk mengolah data di Python. Jupyter Notebook memungkinkan untuk mengintegrasikan antara kode dengan output di dalam satu dokumen secara interaktif. Setelah menjalankan Jupyter Notebook, pengguna akan diarahkan ke tampilan browser untuk mengolah data atau tahap pemograman.
Gambar 4. Tampilan Jupyter Notebook Gambar 3. Tampilan Anaconda Navigator
Setelah memilih directory atau tempat penyimpanan, pengguna ke menu new disebelah kanan pojok atas dan pilih Python3. Setelah itu akan diarahkan ke tampilan Jupyter Notebook yaitu tempat untuk mengolah program.
Dengan menggunakan beberapa library, module, package untuk mendukung pengolahan program Clustering K-Means dan berbagai perintah/coding yang banyak disediakan sesuai kebutuhan dan program apa yang pengguna ingin diolah.
Setelah tampilan Jupyter Notebook terbuka tahap pertama yang dilakukan yaitu memasukan beberapa library. Adapun contoh source code untuk menambahkan library yang digunakan dalam pengolahan program Clustering K-Means seperti pada lampiran 10.
Ada 6 library yang digunakan contohnya seperti numpy untuk memudahkan operasi komputasi data numerik, pandas digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya, seaborn digunakan untuk membuat grafik dan statistik, serta library untuk perhitungan Clustering K-Means dan membuat area plot secara visualisasi.
Gambar 5. Tampilan Workspace Jupyter Notebook
Setelah itu tekan shift+enter untuk lanjut ke cell baru. Langkah selanjutnya mengimport dataset yang sebelumnya sudah diolah pada Microsoft Office Excel. Adapun source code untuk mengimport dataset dapat dilihat pada lampiran 10
Dengan menggunakan perintah seperti pada lampiran tersebut untuk memanggil file dataset sesuaikan dengan nama file lengkap beserta format nya. Untuk menampilkan dataset tersebut pengguna menggunakan perintah seperti pada Gambar 6 :
Perintah pada Gambar 6 untuk menampilkan dibagian awal atau kepala dari dataset. Perintah diatas hanya menampilkan 5 data teratas dari 260 data. Setelah itu dikarenakan pengguna berfokus pada 4 variabel yaitu
“Pekerjaan Orang Tua”, “Penghasilan Orang Tua”, “Usia Orang Tua” dan
“Nilai Rata-Rata” untuk menentukan siswa berprestasi yang layak menerima Bantuan Siswa Miskin (BSM), maka pengguna menggunakan perintah seperti pada lampiran 10.
Perintah tersebut untuk mengambil variabel yang pengguna tentukan.
Dari 5 variabel diatas pengguna hanya mengambil 4 variabel yaitu “Pekerjaan Orang Tua”, “Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai Rata-
Gambar 6. Bentuk Dataframe dari Dataset
Rata”. Untuk menampilkan hasil dari perintah tersebut pengguna menggunakan perintah seperti pada Gambar 7 :
Perintah pada Gambar 7 menampilkan 5 dataset teratas dari 260 dataset. Untuk variabel yang digunakan juga sudah sesuai dengan yang pengguna tentukan sebelumnya yaitu variabel “Pekerjaan Orang Tua”,
“Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai Rata-Rata”. Setelah itu pengguna ingin melihat maupun mengolah kesimpulan data statistika nya dengan melakukan describe dataset dengan menggunakan perintah seperti pada lampiran 10 :
Dari Gambar 8 kita dapat melihat nilai Count, mean, std (standar deviasi), min, 25%, 50%, 75% dan max dari masing – masing variabel.
Penulis juga dapat mengambil kesimpulan statistika nya dengan melihat letak standar deviasi terbesar berada divariabel “Nilai Rata-Rata” dan letak standar
Gambar 7. Tampilan Dataframe
Gambar 8. Describing Data
deviasi terkecil berada divariabel “Penghasilan Orang Tua” serta kesimpulan statistika lainnya. Kemudian penulis ingin melihat nomor index beserta tipe datanya dari dataset tersebut dapat menggunakan perintah seperti pada lampiran 10.
Setelah tampil info dari setiap variabel beserta type datanya penulis dapat melihat columns yang terdapat pada dataframe dan banyak nya data dari masing – masing variabel. Setelah itu penulis ingin melihat frekuensi dari 4 variabel tersebut yaitu “Pekerjaan Orang Tua”, “Penghasilan Orang Tua”,
“Usia Orang Tua” dan “Nilai Rata-Rata” dengan dituangkan kedalam bentuk histogram agar terlihat jelas dan nampak secara visualisasi. Maka dari itu penulis dapat menggunakan perintah seperti pada lampiran 10 untuk melihat frekuensi dari variabel “Pekerjaan Orang Tua”.
Gambar 9. Tampilan info dari Dataset
Dapat dilihat bahwa hasil dari histogram pada variabel “Pekerjaan Orang Tua” frekuensi tertinggi berada pada angka 2 atau hasil dari inisialisasi wiraswasta, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua bekerja sebagai wiraswasta.
Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Penghasilan Orang Tua”. Penulis menggunakan perintah seperti pada lampiran 10
Dapat dilihat bahwa hasil dari histogram pada variabel “Penghasilan Orang Tua” frekuensi tertinggi berada pada angka 3 atau hasil dari inisialisasi penghasilan orang tua diantara Rp. 1,000,000 - Rp. 1,999,999, maka dari itu
Gambar 10. Tampilan Histogram
Gambar 11. Tampilan Histogram
penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua berpenghasilan diantara Rp. 1,000,000 - Rp. 1,999,999.
Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Usia Orang Tua”. Penulis menggunakan perintah seperti pada lampiran 10.
Dapat dilihat bahwa hasil dari histogram pada variabel “Usia Orang Tua” frekuensi tertinggi berada pada usia 40 tahun, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak orang tua berusia 40 tahun. 40 tahun merupakan usia yang memasuki kategori cukup tua. Setelah itu penulis ingin melihat frekuensi dari variabel selanjutnya yaitu variabel “Nilai Rata-Rata” agar terlihat nilai rata-rata tertinggi pada 260 data siswa dengan begitu penulis dapat menarik kesimpulan antara 2 variabel dengan logika semakin banyak frekuensi berpenghasilan rendah dan semakin tinggi frekuensi untuk nilai rata -rata diantara 85-90 ke atas maka penulis dapat melihat kemungkinan berapa banyak siswa berprestasi yang mendapat Bantuan Siswa Miskin (BSM).
Gambar 12. Tampilan Histogram
Untuk menampilkan histogram variabel “Nilai Rata-Rata” Penulis menggunakan perintah seperti pada lampiran 10.
Dapat dilihat bahwa hasil dari histogram pada variabel “Nilai Rata- Rata” frekuensi tertinggi berada pada nilai 90, maka dari itu penulis dapat menarik kesimpulan bahwa dari 260 data siswa tersebut lebih banyak siswa yang memiliki nilai rata-rata 90. Setelah itu penulis ingin menganalisa keempat variabel tersebut menggunakan Multivariate Analysis dengan Pairplot agar mengetahui korelasi atau hubungan antar 2 buah variabel.
Dengan begitu pengguna lebih mudah melihat korelasi atau hubungan antar variabel. Untuk menampilkan analisa tersebut penulis menggunakan perintah seperti pada lampiran 10.
Pada lampiran tersebut merupakan perintah untuk menganalisa 4 variabel secara bersamaan menggunakan Multivariate Analysis dengan Pairplot, hasil dari Multivariate Analysis dapat dilihat pada Gambar 14.
Gambar 13. Tampilan Histogram
Pada Gambar 14 terlihat hasil dari Multivariate Analysis dengan menggunakan Pairplot, maka dari itu penulis dapat melihat secara visualisasi hubungan antar keempat variabel tersebut. Setelah itu penulis ingin melihat data yang kosong atau missing value pada kolom keempat variabel tersebut pada dataset dengan menggunakan perintah seperti pada lampiran 10.
Adapun perintah untuk menampilkan data yang kosong atau missing value pada kolom di masing – masing variabel dapat menggunakan perintah pada lampiran 8 bagian L , setelah itu ditampilkan hasil dari perintah tersebut seperti pada Gambar 15.
Gambar 14. Tampilan Pairplot dari Multivariate Analysis
Gambar 15. Menampilkan Data Kosong pada Variabel
Dari Gambar 15 dapat dilihat bahwa terdapat data yang kosong sebanyak 25 pada variabel “Pekerjaan Orang Tua”, terdapat data kosong sebanyak 25 pada variabel “Penghasilan Orang Tua”, terdapat data kosong sebanyak 18 pada variabel “Usia Orang Tua”, dan terdapat data kosong sebanyak 0 pada variabel “Nilai Rata-Rata” atau tidak ada data kosong. Maka penulis ingin menghapus data kosong tersebut agar pengklasteran menjadi lebih mudah dan sempurna. Penulis dapat menggunakan perintah seperti pada lampiran 10.
Pada Gambar 16 terlihat data kosong atau missing value pada masing- masing variabel telah dihapus atau bernilai 0 maka dari itu proses pengklasteran nanti menjadi lebih sempurna dan dapat dilanjutkan ke tahap selanjutnya. Setelah itu penulis ingin melakukan pencarian data yang outlier atau data pencilan, maka penulis dapat menggunakan perintah seperti pada lampiran 10.
Dengan menggunakan perintah tersebut untuk mencari data yang outlier atau data pencilan seperti pada lampiran maka selanjutnya penulis akan menampilkan data frame dengan perintah “df” . Maka data frame ditampilkan seperti pada Gambar 17.
Gambar 16. Tampilan menghapus data kosong
.
Pada Gambar 17 terlihat Data Frame yang telah dilakukan pencarian data outlier sebelumnya dengan jumlah baris sebanyak 219 dan 4 kolom, setelah itu pada tahap selanjutnya penulis ingin menampilkan hasil dari pencarian data outlier pada masing-masing variabel dengan menggunakan perintah seperti pada lampiran 10.
Pada lampiran tersebut merupakan perintah yang digunakan dalam menampilkan data outlier atau data yang pencilan dari masing – masing variabel, setelah itu ditampilkan data-data outlier tersebut seperti pada Gambar 18 :
Gambar 18. Data outlier pada masing-masing variabel Gambar 17. Tampilan Data Frame
Pada Gambar 18 menampilkan data – data yang outlier pada masing – masing variabel, data outlier paling banyak terdapat pada variabel
“Pekerjaan Orang Tua” dan terdapat 3 data outlier pada variabel “Usia Orang Tua”.
Setelah itu penulis ingin menghapus data outlier tersebut agar pengklasteran nanti menjadi lebih mudah dan sempurna. Adapun perintah yang penulis gunakan untuk menghapus data outlier tersebut dapat dilihat pada lampiran 10.
lampiran tersebut merupakan perintah untuk menghapus data outlier pada variabel yang terdapat data outlier sekaligus mengolah data frame baru atau data frame yang sudah tidak memiliki data outlier. Setelah itu penulis menampilkan data frame yang baru dengan menggunakan perintah pada lampiran 10.
Pada Gambar 19 dengan menampilkan data frame yang baru atau data frame setelah dilakukannya penghapusan data outlier pada masing – masing.
variabel memiliki perbedaan dengan data frame sebelumnya. Adapun perbedaan yang dimaksud yaitu jumlah baris pada data frame sebelumnya
Gambar 19. Tampilan Data frame yang baru
dengan jumlah 219 menjadi 171 pada data frame baru, maka dari itu tahap treatment outlier berhasil dilakukan. Setelah itu penulis ingin menampilkan data frame tersebut menjadi ke bentuk array guna melihat rentang atau jarak nilai antar variabel dengan menggunakan perintah seperti pada lampiran 10.
:
Dengan mengubah data frame ke bentuk array seperti pada Gambar 20, maka akan menjadi lebih mudah melihat rentang atau jarak nilai antar variabel. Dikarenakan penulis ingin mempunyai rentang nilai antara 0 dan 1 agar pengklasteran menjadi lebih sempurna dan mudah dilakukan, maka penulis menggunakan perintah untuk scalling data seperti pada lampiran 10.
Gambar 20. Bentuk Array
Dapat dilihat pada Gambar 21 rentang atau jarak nilai antar variabel berubah menjadi antara 0 sampai 1 sehingga proses pengklasteran menjadi lebih mudah dilakukan. Setelah itu pengguna mulai memasuki tahap Clustering K-Means diawali dengan menentukan jumlah cluster dengan menggunakan perintah seperti pada lampiran 10.
Perintah pada lampiran tersebut adalah untuk menentukan dan mengkonfigurasi fungsi K-Means nya. Seperti menentukan jumlah cluster dan random state nya. Menentukan jumlah cluster diambil dari data sebelumnya yaitu data x_scaled. Setelah itu penulis mencari nilai pusat dari masing-masing cluster dengan menggunakan perintah seperti pada lampiran 10.
Maka pada Gambar 22 didapat nilai pusat dari masing-masing cluster yaitu nilai pusat cluster 1 dan cluster 2 pada variabel “Pekerjaan Orang Tua”,
Gambar 21. Tampilan scalling data
Gambar 22. Menampilkan nilai Centroid
“Penghasilan Orang Tua”, “Usia Orang Tua” dan “Nilai Rata-Rata”. Setelah itu pengguna dapat mencetak hasil cluster dari 171 data tersebut dengan menggunakan perintah pada lampiran 8 bagian U
Dari Gambar 23 maka kita dapat melihat 171 data dengan masing- masing cluster nya diantara cluster 0 atau cluster 1. Dari hasil cluster tersebut pengguna akan menampilkan kedalam bentuk data frame dengan mengolah kolom baru untuk cluster nya. Adapun perintah untuk mengolah nya yaitu seperti pada lampiran 10.
Pada Gambar 22 kolom cluster pun sudah ditambahkan dengan mengambil dari data K-Means Labels sebelumnya. Agar dapat terlihat secara visualisasi hasil cluster yang telah diolah dengan hasil yang nampak dan jelas
Gambar 23. Menampilkan Cluster
Gambar 22. Source code menambahkan kolom Cluster
maka penulis mengolah grafik Scatterplot menggunakan perintah seperti pada lampiran 10
Hasil grafik scatterplot yang telah dibuat pada Gambar 23 kita dapat melihat secara nampak dan jelas kedua cluster beserta anggota - anggota nya.
Maka dapat pula diolah kesimpulan dengan menampilkan tabel 5 data nilai rata-rata tertinggi dan 5 data penghasilan orang tua terendah dengan menggunakan perintah seperti pada Gambar 24 :
Gambar 23. Grafik Scatter plot hasil akhir
Gambar 24. Tampilan Data frame hasil akhir