Penerapan Metode K-Means Pengelompokan Calon Penerima Bantuan Sosial
di Desa Lemberang
Endratul Khoir Fika Lestari1, Ade Mubarok2, Sari Susanti3
1,2,3Universitas BSI
1[email protected], 2[email protected], 1[email protected]
Abstract
In the Lemberang Village Government, there is one office which is in charge of serving the community. The position is named Seksi Kesejahteraan dan Pemberdayaan (Kesdaya)..
Therefore, poverty grouping can assist Lemberang Village Goverment in making the right decission to prevent the inaccuracies of recipient of social assistance. In this research, application of the k-means clustering method implemented on rapidmaner software version 5 made with 4 clusters. Of the accounting Devies Bouldin Index in the software work at the software Rapidmaner gives the value of 0,07, if the value is closer to 0 (zero), the data will be more valuable. From the calculation results obtained 101 data in the first cluster will get Rastra’s help, 165 data in the second cluster and 46 data in the third cluster will get PKH help and the last 85 data in the fourth cluster will get BPNT help.
Keywords
: Data Mining, K-Means, Social Assistance, Poverty
Abstrak
Pada Pemerintahan Desa Lemberang, terdapat salah satu jabatan yang bertugas melayani masyarakat. Jabatan itu adalah Seksi Kesejahteraan dan Pemberdayaaan (Kesdaya). Selama ini bagian Kesdaya belum mempunyai metode atau teknik tertentu untuk mengelompokkan maysrakat penerima bantuan agar tepat sasaran. Oleh sebab itu, pengelompokkan kemiskinan dapat membantu mencegah ketidaktepatsasaran dalam penerimaan bantuan sosial. Maka, peneliti menerapkan metode K-Means dengan bantuan sofware Rapidmaner versi 5 yang dibuat dengan 4 cluster. Dari perhitungan Davies Bouldin Index dalam Performance Vector di software Rapidmaner menghasilkan nilai 0,07 dimana apabila nilai makin mendekati 0 (nol) maka data akan semakin baik. Dari hasil perhitungan diperoleh 101 data pada cluster pertama yang nantinya akan mendapatkan bantuan Rastra, 165 data pada cluster kedua dan 46 data pada cluster ketiga yang akan mendapatkan bantuan PKH (Program Keluarga Harapan) yang nantinya akan diseleksi lagi kemudian yang terahir dengan jumlah 85 data pada cluster keempat yang akan mendapatkan Bantuan Pangan Non Tunai.
Kata Kunci: Data Mining, K-Means, Bantuan Sosial, Kemiskinan
1. Pendahuluan
Kategori masyarakat miskin merupakan suatu kondisi dimana fisik masyarakat yang tidak memiliki akses ke prasarana dan sarana dasar lingkungan yang memadai, dengan kualitas perumahan dan pemukiman yang jauh di bawah standar kelayakan serta mata pencaharian yang tidak menentu yang mencakup seluruh multidimensi (Annur, 2018).
Kemiskinan adalah persoalan yang sangat kompleks. Kemiskinan ditinjau dari sudut pandang mekanis merupakan refleksi rendahnya tingkat pedapatan, akan tetapi pada perekonomian subsistem, tingkat pendapatan saja tidak dapat dijadikan
ukuran kemiskinan yang sahih (Ludoni, Noor, & Hakim, 2016).
Banyak program yang telah dilakukan untuk mengurangi kemiskinan di Indonesia, seperti Bantuan Langsung Tunai (BLT) dan beras miskin (raskin). Namun upaya pengentasan kemiskinan tersebut sampai saat ini belum berhasil dengan adanya angka kemiskinan yang terus mengalami peningkatan. (Wulandari, Novita, Haerani, & Salisah, 2017).
Keseriusan pemerintah dalam upaya mencapai target penurunan kemiskinan tercantum dalam Rencana Pembangunan Jarak Menengah (RPJM) 2015-2019 yang menunjukan bahwa salah satu visi pembangunan sosial adalah mempercepat pemerataan dan keadilan.
Strategi pengentasan kemiskinan yang telah diterapkan belum mampu menciptakan pemerataan pendapatan, mengatasi ketimpangan-ketimpangan serta mengurangi kemiskinan. Problematika kemiskinan yang dialami masyarakat merupakan penghambat bagi upaya peningkatan kesejahteraan penduduk (Wahyuni & Jatmiko, 2019).
Dalam dunia ilmu komputer, dikenal luas data mining sebagai teknik untuk meringkas data dengan cara yang berbeda dengan yang biasa diterapkan, menemukan hubungan yang tidak diduga, menemukan pola yang dapat dipahami dan bermanfaat bagi pemilik data (Iswari & Ayu, 2016).
Aktivasi data mining dapat dipisahkan menjadi 6 (enam), berdasarkan tujuan dari analisis yaitu, Estimasi, Deskripsi, Prediksi, Klasifikasi, Clustering dan Asosiasi (Waworuntu & Amin, 2018).
Berdasarkan metode yang ada, penelitian ini akan menggunakan metode Clustering atau pengelompokkan. Clustering merupakan proses pengelompokkan objek kedalam sebuah cluster, dimana objek dalam suatu cluster saling memiliki kemiripan, namun berbeda jauh dengan objek yang ada pada cluster lain (Salulolo, Tanaamah, & Wowor, 2016).
K-Means merupakan metode non hirarki yang paling banyak digunakan dalam pengklasteran. Algoritma K-Means mudah diimplementasikan. Pada metode ini, peneliti menentukan sendiri jumlah klaster yang akan dibentuk. Peneliti mengelompokkan entitas ke dalam k kelompok, biasanya dilakukan secara acak.
Pada masing-masing kelompok dihitung rata-ratanya. Hitung jarak setiap entitas terhadap pusat masing-masing kelompok (rata-rata kelompoknya) (Silvi, 2018).
Penelitian akan melakukan clustering menggunakan metode K-Means sesuai dengan tingkat akurasi penelitian terdahulu. Data yang akan digunakan merupakan dataset Desa Lemberang Kecamatan Sokaraja Kabupaten Banyumas yang berupa data keseluruhan anggota keluarga, data penghasilan keluarga dan data lain yang menunjang indikator kemiskinan lainnya. Hasil dari clustering ini nantinya akan dijadikan acuan sebagai pertimbangan pengambilan keputusan terkait penyaluran bantuan sosial di Desa Lemberang Kecamatan Sokaraja.
2. Metode Penelitian
Gambar III.1 Proses Data Mining Instrumen penelitian adalah suatu alat yang digunakan untuk mengukur fenomena alam maupun sosial yang diamati, secara spesifik fenomena ini disebut variabel penelitian (Sugiyono, 2016).
Pada penelitian ini akan digunakan beberapa instrumen penelitian, antara lain sebagai berikut :
1. Perangkat Lunak (Software)
Perangkat lunak yang akan digunakan dalam penelitian ini adalah software rapidmaner versi 5.
2. Dataset
Penelitian ini menggunakan dataset data masyarakat miskin di Desa Lemberang Kecamatan Sokaraja Kabupaten Banyumas sebanyak 400 data yang telah melalui proses cleaning dan transformation terdiri dari atribut Status Pekerjaan, Jumlah Anggota Keluarga, Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar, Bahan Bakar untuk Memasak dan Jumlah Pendapatan per Bulan.
Pada tahap ini merupakan tahap untuk memastikan data masyarakat yang dipilih telah layak untuk dilakukan proses pengolahan.
1. Data Cleaning
Pada tahap ini dilakukan pemilihan atribut data yang akan digunakan dalam penelitian, maka untuk atribut data yang tidak digunakan seperti Alamat, Jenis
Kelamin, Tanggal Lahir dan Nomor Kartu Keluarga akan dihilangkan.
2. Data Transformation
Data yang berjenis nominal seperti Status Pekerjaan, Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar dan Bahan Bakar untuk Memasak harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka atau numerikal. Untuk melakukan inisialisasi dapat dilakukan dengan cara pengurutan angka berdasarkan frekuensinya.
Tabel III.2
Tabel Inisialisasi Status Pekerjaan Status Pekerjaan Frekuensi Inisialisasi
BHL 219 1
Buruh Tani 41 2
MRT 37 3
Pedagang 31 4
Karyawan Swasta 29 5
Wiraswasta 26 6
Tukang (Batu & Kayu) 9 7
Sopir 6 8
Karyawan Honorer 2 9
400
Berdasarkan tabel diatas penentuan urutan nomor inisialisasi ditentukan berdasarkan besar frekuensinya. Yaitu diurutkan berdasarkan frekuensi terbesar ke frekuensi terkecil.
Tabel III.3
Tabel Inisialisasi Sumber Penerangan Sumber
Penerangan
Frekuens
i Inisialisas i
PLN 377 1
Non PLN 23 2
400
Tabel III.4
Tabel Inisialisasi Penggunaan Fasilitas Buang Air Besar
Penggunaan Fasilitas BAB
Frekuensi Inisialisasi
Milik Sendiri 211 1
Tidak Punya 189 2
400
Tabel III.5
Tabel Inisialisasi Bahan Bakar untuk Memasak
Bahan Bakar Memasak
Frekuensi Inisialisasi
Gas 3 kg 352 1
Kayu Bakar 48 2
400
Untuk penomoran inisialisasi Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar dan Bahan Bakar untuk Memasak , sama seperti penomoran pada tabel Status Pekerjaan, yaitu diurutkan berdasarkan frekuensi terbesar ke frekuensi terkecil.
Tabel III.6
Contoh Tabel Dataset yang Sudah Dilakukan Inisialisasi
N O
Pek erja an
Ju mla
h Ang
got a Kel uar ga
Sum ber Pene rang an
Peng guna an Fasili
tas Buan
g Air Besa r
Bah an Bak ar unt uk Me mas
ak Juml
ah Pend
apat an per Bula n
1 1 3 1 1 1 7000
00
2 1 1 1 2 2 7000
00
3 1 3 1 2 1 8000
00
4 1 3 1 2 1 7500
00
5 6 5 1 2 1 1000
000
6 1 3 1 2 1 7300
00
7 2 1 1 2 2 8500
00
8 6 4 1 2 1 8100
00
9 1 2 1 2 1 8500
00 1
0
7 4 1 1 1 9000
00
Tabel diatas merupakan contoh tabel atribut yang sudah melalui proses inisialisasi dari nominal menjadi numerik.
3. Hasil dan Pembahasan 3.1. Hasil Perhitungan Manual
Gambar IV.1 Flowchart K-Means Untuk menemukan banyaknya cluster k dapat dilakukan dengan beberapa pertimbangan seperti pertimbangan teoritis dan konseptual yang mungkin diusulkan untuk menentukan berapa banyak cluster.
Penetapan jumlah cluster k pada penelitian ini yaitu berjumlah 4 cluster.
Tabel IV.1 Titik Awal tiap Cluster
Ti tik
P us
at Pek erja an
An ggo
ta Kel uar ga
Sum ber Pene rang an
Peng guna an Fasili
tas Buan
g Air Besa r
Bah an Bak ar unt uk Me ma sak
Juml ah Pend
apat an perb ulan
C 1
1 6 1 1 1 1000
000 C
2
2 3 1 1 1 9000
00 C
3
1 4 1 1 1 7500
00 C
4
6 3 1 1 1 8000
00
Hitung jarak setiap data ke pusat cluster antara objek ke centroid dengan perhitungan jarak Euclidean. Persamaan yang digunakan adalah :
(𝑝, 𝑞)
= √
(𝑝1 − 𝑞1)2+ (𝑝2 − 𝑞2)2+ (𝑝3 − 𝑞3)2 +(𝑝4 − 𝑞4)2+
(𝑝5 − 𝑞5)2+ (𝑝6 − 𝑞6)2
Persamaan di atas digunakan karena atribut yang digunakan berjumlah 6.
Sebagai contoh, akan dihitung jarak dari data masyarakat pertama ke pusat cluster pertama dengan persamaan : (1,1)
= √(1 − 1)2+ (3 − 6)2+ (1 − 1)2+ (1 − 1)2+ (1 − 1)2+ (700000 − 1000000)2
= √(0)2+ (−3)2+ (0)2+ (0)2+ (0)2+ (−300000)2
= √9 + 90000000000
= √90000000009
= 300000
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster pertama adalah 300000.
Jarak dari data masyarakat pertama ke pusat cluster kedua dengan persamaan (1,2) :
= √(1 − 2)2+ (3 − 3)2+ (1 − 1)2+ (1 − 1)2+ (1 − 1)2+ (700000 − 900000)2
= √(−1)2+ (0)2+ (0)2+ (0)2+ (0)2+ (−200000)2
= √1 + 40000000000
= √40000000001
= 200000
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster kedua adalah 200000.
Jarak dari data masyarakat pertama ke pusat cluster ketiga dengan persamaan (1,3) :
= √(1 − 1)2+ (3 − 4)2+ (1 − 1)2+ (1 − 1)2 +(1 − 1)2+ (700000 − 750000)2
= √(0)2+ (−1)2+ (0)2+ (0)2+ (0)2+ (−50000)2
= √1 + 25000000000
= √2500000001
= 50000
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster ketiga adalah 50000.
Jarak dari data masyarakat pertama ke pusat cluster keempat dengan persamaan (1,4) :
= √(1 − 6)2+ (3 − 3)2+ (1 − 1)2+ (1 − 1)2 +(1 − 1)2+ (700000 − 800000)2
= √(−5)2+ (0)2+ (0)2+ (0)2+ (0)2 +(−100000)2
= √25 + 10000000000
= √10000000025
= 100000
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster keempat adalah 100000.
Berdasarkan hasil keempat perhitungan di atas dapat disimpulkan bahwa jarak data masyarakat pertama yang paling dekat adalah cluster 3, sehingga masyarakat pertama dimasukkan ke dalam cluster 3. Hasil perhitungan selengkapnya dapat dilihat pada tabel IV.2.
Kelompokkan data ke dalam cluster dengan jarak terdekat (minimal)
Tabel IV.3
Tabel dengan Centroid Awal
N o
Cluste r 1
Cluste r 2
Cluste r 3
Cluste r 4
1 0 0 1 0
2 0 0 1 0
3 0 0 0 1
4 0 0 1 0
5 1 0 0 0
6 0 0 1 0
7 0 1 0 0
8 0 0 0 1
9 0 1 0 0
10 0 1 0 0
3.2. Hasil Software Rapidmaner
1. Langkah pertama adalah buka software rapidmaner versi 5 yang tampilannya seperti di bawah ini, kemudia pilih new process
Gambar IV.2 Tampilan Awal Rapidmaner
2. Setelah memilih new process maka tampilan akan menjadi seperti pada gambar IV.3
Gambar IV.3 New Process
3. Setelah tampilan seperti diatas maka selanjutnya adalah memilih Read Excel pada Operation seperti pada gambar IV.4 kemudia di drag atau double click.
4. Selanjutnya adalah memasukan dataset yang akan diolah di bagian Read Excel
Gambar IV.5 Masukkan Dataset
5. Pilih dataset yang akan diolah
6. Selanjutnya adalah klik pada Import Configuration Wizard
7. Pilih data sesuai yang tadi sudah dipilih kemudian klik next
Gambar IV.8 Pilih Dataset
8. Kemudian pada proses selanjutnya adalah mengubah tipe data, disini data dirubah menjadi tipe integer
9. Selanjutnya adalah memilih metode K-Means pada button operator
Gambar IV.10 Pilih K-Means 10. Selanjutnya menentukan nilai K, disini K = 4
Gambar IV.11 Tentukan Nilai K 11. Langkah selanjutnya yaitu cari Performance dengan anam Cluster Distance Performance di Operator
12. Setelah Performance di drag pada lembar kerja kemudian tarik garis seperti pada gambar di bawah ini
Gambar IV.13 Hubungkan Conector
13. Selanjutnya bisa kita lihat hasil dari data yang sudah diolah
Gambar IV.14 Hasil Cluster Pada data yang sudah diolah menghasilkan data yang sudah dikelompokkan menjadi 4 cluster seperti pada gambar diatas yang semuanya berjumlah 400 data.
Data diatas juga merupakan data berbentuk table yang setiap data sudah tercatat dimana data tersebut masuk ke dalam cluster.
Gambar IV.16 Centroid Tabel Gambar diatas menunjukkan centroid akhir dari setiap cluster.
14. Selanjutnya bisa kita lihat Validasi Cluster pada Performance
Gambar IV.17 Performance Vector Berdasarkan hasil dari olah data di software Rapidmaner versi 5, 400 data masyarakat di bagi ke dalam 4 cluster
berdasarkan jenis pekerjaan, jumlah anggota keluarga, sumber penerangan, fasilitas buang air besar, bahan bakar untuk memasak dan pendapatan perbulan dengan nilai index 0,07.
Cluster 1 yang memiliki pendapatan tinggi dengan anggota keluarga yang banyak berjumlah 101 orang dengan pendapatan rata-rata Rp. 976.980,00. Cluster 2 yang memiliki pendapatan agak tinggi dengan jumlah anggota keluarga agak banyak berjumlah 168 orang dengan rata-rata pendapatan Rp. 876.904,00. Cluster 3 yang memiliki pendapatan paling rendah dengan jumlah anggota normal berjumlah 46 orang dengan rata-rata pendapatan Rp.
743.043,00. Cluster 4 yang memiliki pendapatan sedang dengan jumlah keluarga normal berjumlah 85 orang dengan rata-rata pendapatan Rp. 794.588,00.
Dari 4 cluster yang terbentuk, cluster 3 dan cluster 4 adalah cluster yang paling membutuhkan bantuan. Kedua cluster memiliki pendapatan paling rendah walaupun dibandingkan cluster 1 dan cluster 2, mereka memiliki lebih jumlah anggota keluarga yang lebih sedikit.
Hasil dari penelitian ini dapat membantu pihak Pemerintahan Desa Lemberang dalam mengambil keputusan untuk memilih warga yang berhak menerima bantuan. Dengan adanya pengelompokan warga yang ada di desa bisa terlihat berapa jumlah warga yang memiliki pendapatan rendah, memiliki jumlah anggota keluarga yang banyak dan lain sebagainya. Bantuan nantinya bisa berbentuk macam-macam sesuai dengan kebutuhan masing-masing warga yang membutuhkan dilihat dari sumber pekerjaan, jumlah anggota keluarga, sumber penerangan, fasilitas buang air besar, bahan bakar umtuk memasak dan pendapatan
perbulannya.
4. Kesimpulan 4.1. Kesimpulan
1. Penerapan metode K-Means untuk pemetaan masyarakat berdasarkan tingkat kemiskinan Desa Lemberang berhasil diterapkan sehingga penerima bantuan bisa tepat sasaran.
2. Selain dari jenis pekerjaan, jumlah anggota keluarga, sumber penerangan, penggunaan fasilitas buang air besar, bahan bakar untuk memasak dan jumlah pendapatan perbulan yang dapat menyebabkan masyarakat digolongkan dalam penerima bantuan, masih ada
faktor-faktor lainnya. Untuk mengetahuinya dapat dilakukan penelitian lebih lanjut lagi.
3. Pada proses pengelompokan masyarakat penerima bantuan dengan menggunakan 400 data yang didapat dari data Tahun 2018 didapatkan jumlah cluster menggunakan Uji Validitas Davies Bpuldin Index (DBI) sebnayak 4 cluster dengan nilai 0,07 dan nilai tersebut paling optimal digunakan karena mendekati 0 (nol).
4. Hasil pengelompokkan terhadap 4 cluster masyarakat penerima bantuan dengan anggota cluster 1 sebanyak 101 data sebagai penerima bantuan Rastra, cluster 2 sebanyak 168 data dan cluster 3 sebanyak 46 data yang akan menerima bantuan PKH dan cluster 4 sebanyak 85 data yang akan menerima BPNT.
4.2. Saran
1. Untuk penelitian selanjutnya, bisa menambah atribut kondisi masyarakat di Desa Lemberang agar bisa memberikan informasi tambahan sehingga hasil pengolahan data lebih detail.
2. Penelitian ini dapat dikembangkan dengan menambahkan metode analisis selain metode K-means sebagai bahan perbandingan agar diketahui metode analisis yang lebih akurat dalam mengolah data penelitian.
3. Hasil dari penelitian ini dapat diajukan sebagai salah satu referensi bagi pihak Pemerintahan Desa Lemberang dalam mendukung keputusan masyarakat yang berhak menerima bantuan.
Referensi
Annur, H. (2018). Klasifikasi Masyarakat Miskin Menggunakan Metode Naive Bayes. Jurnal Ilmiah.
Astuti, F. D. (2017). Penerapan Data Mining untuk Clustering Data Penduduk Miskin Menggunakan Algoritma Hard C-Means. Jurnal Ilmiah Data Manajemen dan Teknologi Informasi.
Defiyanti, S. (2017). Integrasi Metode Clustering dan Klasifikasi untuk Data Numerik. Ilmu Komputer.
Hasan, M. (2017). Prediksi Tingkat Kelancaran Pembayaran Kredit Bank Menggunakan ALgoritma Naive Bayes Berbasis Forward Selection. Ilmu Komputer.
Iswari, L., & Ayu, E. G. (2016). Pemanfaatan
Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Jurnal Teknik Informatika.
Ludoni, S., Noor, I., & Hakim, L. (2016).
Perencanaan Program-Program Pengentasan Kemiskinan dalam Pencapain Target MDG3 Tahun 2015 di Kota Batu. Jurnal Informatika.
Mabrur, A. G., & Lubis, R. (2017).
Penerapan Data Mining untuk Memprediksi Kriteria Nasabah Kredit. Jurnal Komputer dan Informatika.
Prakoso, S. B. (2015). Efektivitas Pelayanan Kesehatan BPJS di Puskesmas Kecamatan Batang. Economics Development Analysis Journal.
Salulolo, Y. H., Tanaamah, A. R., & Wowor, A. D. (2016). Analisis dan Perbandingan Algoritma Clustering dalam Penentuan Alokasi Bantuan Dana Pendidikan Propinsi Jawa Tengah. Jurnal Informatika.
Waluyo, S. H., & Prihandoko. (2017).
Klasifikasi Pemanfaat Program Beras Sejahtera (Rastra) Berdasarkan Tingkat Kemiskinan Dengan Menggunakan Algoritma Decision Tree C4.5 Berbasis Particle Swarm Optimization. Ilmu Komputer.
Waworuntu, M. N., & Amin, M. F. (2018).
Penerapan Metode K-Means Pemetaan Calon Penerima Jamkesda. Jurnal Ilmu Komputer.
Widayu, H., Nasution, S. D., Silalahi, N., &
Mesran. (2017). Data Mining untuk Memprediksi Jenis Transaksi Nasabah pada Koperasi SImpan Pinjam dengan Algoritma C4.5.
Media Informatika Budidarma.
Wulandari, F., Novita, R., Haerani, E., &
Salisah, F. N. (2017).
ModelOenanggulangan Kemiskinan berbasis Wilayah Menggunakan Fuzzy C-Means dan Simple Matching Coefficient. Jurnal Ilmiah Rekayasa dan Manajemen Sistem Informasi.
Z, Z. A., & Sarjono. (2016). Analisis Data Mining untuk Menentukan Kelompok Prioritas Penerima
Bantuan Bedah Rumah
Menggunaan Metode Clustering K- Means (Studi Kasus : Kantor Kecamatan Bahar Utara). Jurnal