Data Mining, K-Means, Social A

(1)

Penerapan Metode K-Means Pengelompokan Calon Penerima Bantuan Sosial

di Desa Lemberang

Endratul Khoir Fika Lestari¹, Ade Mubarok², Sari Susanti³

1,2,3Universitas BSI

1[email protected], ²[email protected], ¹[email protected]

Abstract

In the Lemberang Village Government, there is one office which is in charge of serving the community. The position is named Seksi Kesejahteraan dan Pemberdayaan (Kesdaya)..

Therefore, poverty grouping can assist Lemberang Village Goverment in making the right decission to prevent the inaccuracies of recipient of social assistance. In this research, application of the k-means clustering method implemented on rapidmaner software version 5 made with 4 clusters. Of the accounting Devies Bouldin Index in the software work at the software Rapidmaner gives the value of 0,07, if the value is closer to 0 (zero), the data will be more valuable. From the calculation results obtained 101 data in the first cluster will get Rastra’s help, 165 data in the second cluster and 46 data in the third cluster will get PKH help and the last 85 data in the fourth cluster will get BPNT help.

Keywords

: Data Mining, K-Means, Social Assistance, Poverty

Abstrak

Pada Pemerintahan Desa Lemberang, terdapat salah satu jabatan yang bertugas melayani masyarakat. Jabatan itu adalah Seksi Kesejahteraan dan Pemberdayaaan (Kesdaya). Selama ini bagian Kesdaya belum mempunyai metode atau teknik tertentu untuk mengelompokkan maysrakat penerima bantuan agar tepat sasaran. Oleh sebab itu, pengelompokkan kemiskinan dapat membantu mencegah ketidaktepatsasaran dalam penerimaan bantuan sosial. Maka, peneliti menerapkan metode K-Means dengan bantuan sofware Rapidmaner versi 5 yang dibuat dengan 4 cluster. Dari perhitungan Davies Bouldin Index dalam Performance Vector di software Rapidmaner menghasilkan nilai 0,07 dimana apabila nilai makin mendekati 0 (nol) maka data akan semakin baik. Dari hasil perhitungan diperoleh 101 data pada cluster pertama yang nantinya akan mendapatkan bantuan Rastra, 165 data pada cluster kedua dan 46 data pada cluster ketiga yang akan mendapatkan bantuan PKH (Program Keluarga Harapan) yang nantinya akan diseleksi lagi kemudian yang terahir dengan jumlah 85 data pada cluster keempat yang akan mendapatkan Bantuan Pangan Non Tunai.

Kata Kunci: Data Mining, K-Means, Bantuan Sosial, Kemiskinan

1. Pendahuluan

Kategori masyarakat miskin merupakan suatu kondisi dimana fisik masyarakat yang tidak memiliki akses ke prasarana dan sarana dasar lingkungan yang memadai, dengan kualitas perumahan dan pemukiman yang jauh di bawah standar kelayakan serta mata pencaharian yang tidak menentu yang mencakup seluruh multidimensi (Annur, 2018).

Kemiskinan adalah persoalan yang sangat kompleks. Kemiskinan ditinjau dari sudut pandang mekanis merupakan refleksi rendahnya tingkat pedapatan, akan tetapi pada perekonomian subsistem, tingkat pendapatan saja tidak dapat dijadikan

ukuran kemiskinan yang sahih (Ludoni, Noor, & Hakim, 2016).

Banyak program yang telah dilakukan untuk mengurangi kemiskinan di Indonesia, seperti Bantuan Langsung Tunai (BLT) dan beras miskin (raskin). Namun upaya pengentasan kemiskinan tersebut sampai saat ini belum berhasil dengan adanya angka kemiskinan yang terus mengalami peningkatan. (Wulandari, Novita, Haerani, & Salisah, 2017).

Keseriusan pemerintah dalam upaya mencapai target penurunan kemiskinan tercantum dalam Rencana Pembangunan Jarak Menengah (RPJM) 2015-2019 yang menunjukan bahwa salah satu visi pembangunan sosial adalah mempercepat pemerataan dan keadilan.

(2)

Strategi pengentasan kemiskinan yang telah diterapkan belum mampu menciptakan pemerataan pendapatan, mengatasi ketimpangan-ketimpangan serta mengurangi kemiskinan. Problematika kemiskinan yang dialami masyarakat merupakan penghambat bagi upaya peningkatan kesejahteraan penduduk (Wahyuni & Jatmiko, 2019).

Dalam dunia ilmu komputer, dikenal luas data mining sebagai teknik untuk meringkas data dengan cara yang berbeda dengan yang biasa diterapkan, menemukan hubungan yang tidak diduga, menemukan pola yang dapat dipahami dan bermanfaat bagi pemilik data (Iswari & Ayu, 2016).

Aktivasi data mining dapat dipisahkan menjadi 6 (enam), berdasarkan tujuan dari analisis yaitu, Estimasi, Deskripsi, Prediksi, Klasifikasi, Clustering dan Asosiasi (Waworuntu & Amin, 2018).

Berdasarkan metode yang ada, penelitian ini akan menggunakan metode Clustering atau pengelompokkan. Clustering merupakan proses pengelompokkan objek kedalam sebuah cluster, dimana objek dalam suatu cluster saling memiliki kemiripan, namun berbeda jauh dengan objek yang ada pada cluster lain (Salulolo, Tanaamah, & Wowor, 2016).

K-Means merupakan metode non hirarki yang paling banyak digunakan dalam pengklasteran. Algoritma K-Means mudah diimplementasikan. Pada metode ini, peneliti menentukan sendiri jumlah klaster yang akan dibentuk. Peneliti mengelompokkan entitas ke dalam k kelompok, biasanya dilakukan secara acak.

Pada masing-masing kelompok dihitung rata-ratanya. Hitung jarak setiap entitas terhadap pusat masing-masing kelompok (rata-rata kelompoknya) (Silvi, 2018).

Penelitian akan melakukan clustering menggunakan metode K-Means sesuai dengan tingkat akurasi penelitian terdahulu. Data yang akan digunakan merupakan dataset Desa Lemberang Kecamatan Sokaraja Kabupaten Banyumas yang berupa data keseluruhan anggota keluarga, data penghasilan keluarga dan data lain yang menunjang indikator kemiskinan lainnya. Hasil dari clustering ini nantinya akan dijadikan acuan sebagai pertimbangan pengambilan keputusan terkait penyaluran bantuan sosial di Desa Lemberang Kecamatan Sokaraja.

2. Metode Penelitian

Gambar III.1 Proses Data Mining Instrumen penelitian adalah suatu alat yang digunakan untuk mengukur fenomena alam maupun sosial yang diamati, secara spesifik fenomena ini disebut variabel penelitian (Sugiyono, 2016).

Pada penelitian ini akan digunakan beberapa instrumen penelitian, antara lain sebagai berikut :

1. Perangkat Lunak (Software)

Perangkat lunak yang akan digunakan dalam penelitian ini adalah software rapidmaner versi 5.

2. Dataset

Penelitian ini menggunakan dataset data masyarakat miskin di Desa Lemberang Kecamatan Sokaraja Kabupaten Banyumas sebanyak 400 data yang telah melalui proses cleaning dan transformation terdiri dari atribut Status Pekerjaan, Jumlah Anggota Keluarga, Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar, Bahan Bakar untuk Memasak dan Jumlah Pendapatan per Bulan.

Pada tahap ini merupakan tahap untuk memastikan data masyarakat yang dipilih telah layak untuk dilakukan proses pengolahan.

1. Data Cleaning

Pada tahap ini dilakukan pemilihan atribut data yang akan digunakan dalam penelitian, maka untuk atribut data yang tidak digunakan seperti Alamat, Jenis

(3)

Kelamin, Tanggal Lahir dan Nomor Kartu Keluarga akan dihilangkan.

2. Data Transformation

Data yang berjenis nominal seperti Status Pekerjaan, Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar dan Bahan Bakar untuk Memasak harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka atau numerikal. Untuk melakukan inisialisasi dapat dilakukan dengan cara pengurutan angka berdasarkan frekuensinya.

Tabel III.2

Tabel Inisialisasi Status Pekerjaan Status Pekerjaan Frekuensi Inisialisasi

BHL 219 1

Buruh Tani 41 2

MRT 37 3

Pedagang 31 4

Karyawan Swasta 29 5

Wiraswasta 26 6

Tukang (Batu & Kayu) 9 7

Sopir 6 8

Karyawan Honorer 2 9

400

Berdasarkan tabel diatas penentuan urutan nomor inisialisasi ditentukan berdasarkan besar frekuensinya. Yaitu diurutkan berdasarkan frekuensi terbesar ke frekuensi terkecil.

Tabel III.3

Tabel Inisialisasi Sumber Penerangan Sumber

Penerangan

Frekuens

i Inisialisas i

PLN 377 1

Non PLN 23 2

400

Tabel III.4

Tabel Inisialisasi Penggunaan Fasilitas Buang Air Besar

Penggunaan Fasilitas BAB

Frekuensi Inisialisasi

Milik Sendiri 211 1

Tidak Punya 189 2

400

Tabel III.5

Tabel Inisialisasi Bahan Bakar untuk Memasak

Bahan Bakar Memasak

Frekuensi Inisialisasi

Gas 3 kg 352 1

Kayu Bakar 48 2

400

Untuk penomoran inisialisasi Sumber Penerangan, Penggunaan Fasilitas Buang Air Besar dan Bahan Bakar untuk Memasak , sama seperti penomoran pada tabel Status Pekerjaan, yaitu diurutkan berdasarkan frekuensi terbesar ke frekuensi terkecil.

Tabel III.6

Contoh Tabel Dataset yang Sudah Dilakukan Inisialisasi

N O

Pek erja an

Ju mla

h Ang

got a Kel uar ga

Sum ber Pene rang an

Peng guna an Fasili

tas Buan

g Air Besa r

Bah an Bak ar unt uk Me mas

ak Juml

ah Pend

apat an per Bula n

1 1 3 1 1 1 7000

00

2 1 1 1 2 2 7000

00

3 1 3 1 2 1 8000

00

4 1 3 1 2 1 7500

00

5 6 5 1 2 1 1000

000

6 1 3 1 2 1 7300

00

7 2 1 1 2 2 8500

00

8 6 4 1 2 1 8100

00

9 1 2 1 2 1 8500

00 1

0

7 4 1 1 1 9000

00

Tabel diatas merupakan contoh tabel atribut yang sudah melalui proses inisialisasi dari nominal menjadi numerik.

(4)

3. Hasil dan Pembahasan 3.1. Hasil Perhitungan Manual

Gambar IV.1 Flowchart K-Means Untuk menemukan banyaknya cluster k dapat dilakukan dengan beberapa pertimbangan seperti pertimbangan teoritis dan konseptual yang mungkin diusulkan untuk menentukan berapa banyak cluster.

Penetapan jumlah cluster k pada penelitian ini yaitu berjumlah 4 cluster.

Tabel IV.1 Titik Awal tiap Cluster

Ti tik

P us

at Pek erja an

An ggo

ta Kel uar ga

Sum ber Pene rang an

Peng guna an Fasili

tas Buan

g Air Besa r

Bah an Bak ar unt uk Me ma sak

Juml ah Pend

apat an perb ulan

C 1

1 6 1 1 1 1000

000 C

2

2 3 1 1 1 9000

00 C

3

1 4 1 1 1 7500

00 C

4

6 3 1 1 1 8000

00

Hitung jarak setiap data ke pusat cluster antara objek ke centroid dengan perhitungan jarak Euclidean. Persamaan yang digunakan adalah :

(𝑝, 𝑞)

= √

(𝑝1 − 𝑞1)²+ (𝑝2 − 𝑞2)²+ (𝑝3 − 𝑞3)² +(𝑝4 − 𝑞4)²+

(𝑝5 − 𝑞5)²+ (𝑝6 − 𝑞6)²

Persamaan di atas digunakan karena atribut yang digunakan berjumlah 6.

Sebagai contoh, akan dihitung jarak dari data masyarakat pertama ke pusat cluster pertama dengan persamaan : (1,1)

= √(1 − 1)²+ (3 − 6)²+ (1 − 1)²+ (1 − 1)²+ (1 − 1)²+ (700000 − 1000000)²

= √(0)²+ (−3)²+ (0)²+ (0)²+ (0)²+ (−300000)²

= √9 + 90000000000

= √90000000009

= 300000

Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster pertama adalah 300000.

Jarak dari data masyarakat pertama ke pusat cluster kedua dengan persamaan (1,2) :

= √(1 − 2)²+ (3 − 3)²+ (1 − 1)²+ (1 − 1)²+ (1 − 1)²+ (700000 − 900000)²

= √(−1)²+ (0)²+ (0)²+ (0)²+ (0)²+ (−200000)²

= √1 + 40000000000

= √40000000001

= 200000

Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster kedua adalah 200000.

Jarak dari data masyarakat pertama ke pusat cluster ketiga dengan persamaan (1,3) :

= √(1 − 1)²+ (3 − 4)²+ (1 − 1)²+ (1 − 1)² +(1 − 1)²+ (700000 − 750000)²

= √(0)²+ (−1)²+ (0)²+ (0)²+ (0)²+ (−50000)²

= √1 + 25000000000

= √2500000001

= 50000

Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster ketiga adalah 50000.

Jarak dari data masyarakat pertama ke pusat cluster keempat dengan persamaan (1,4) :

= √(1 − 6)²+ (3 − 3)²+ (1 − 1)²+ (1 − 1)² +(1 − 1)²+ (700000 − 800000)²

(5)

= √(−5)²+ (0)²+ (0)²+ (0)²+ (0)² +(−100000)²

= √25 + 10000000000

= √10000000025

= 100000

Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data masyarakat pertama dengan cluster keempat adalah 100000.

Berdasarkan hasil keempat perhitungan di atas dapat disimpulkan bahwa jarak data masyarakat pertama yang paling dekat adalah cluster 3, sehingga masyarakat pertama dimasukkan ke dalam cluster 3. Hasil perhitungan selengkapnya dapat dilihat pada tabel IV.2.

Kelompokkan data ke dalam cluster dengan jarak terdekat (minimal)

Tabel IV.3

Tabel dengan Centroid Awal

N o

Cluste r 1

Cluste r 2

Cluste r 3

Cluste r 4

1 0 0 1 0

2 0 0 1 0

3 0 0 0 1

4 0 0 1 0

5 1 0 0 0

6 0 0 1 0

7 0 1 0 0

8 0 0 0 1

9 0 1 0 0

10 0 1 0 0

3.2. Hasil Software Rapidmaner

1. Langkah pertama adalah buka software rapidmaner versi 5 yang tampilannya seperti di bawah ini, kemudia pilih new process

Gambar IV.2 Tampilan Awal Rapidmaner

2. Setelah memilih new process maka tampilan akan menjadi seperti pada gambar IV.3

Gambar IV.3 New Process

3. Setelah tampilan seperti diatas maka selanjutnya adalah memilih Read Excel pada Operation seperti pada gambar IV.4 kemudia di drag atau double click.

4. Selanjutnya adalah memasukan dataset yang akan diolah di bagian Read Excel

Gambar IV.5 Masukkan Dataset

(6)

5. Pilih dataset yang akan diolah

6. Selanjutnya adalah klik pada Import Configuration Wizard

7. Pilih data sesuai yang tadi sudah dipilih kemudian klik next

Gambar IV.8 Pilih Dataset

8. Kemudian pada proses selanjutnya adalah mengubah tipe data, disini data dirubah menjadi tipe integer

9. Selanjutnya adalah memilih metode K-Means pada button operator

Gambar IV.10 Pilih K-Means 10. Selanjutnya menentukan nilai K, disini K = 4

Gambar IV.11 Tentukan Nilai K 11. Langkah selanjutnya yaitu cari Performance dengan anam Cluster Distance Performance di Operator

12. Setelah Performance di drag pada lembar kerja kemudian tarik garis seperti pada gambar di bawah ini

Gambar IV.13 Hubungkan Conector

(7)

13. Selanjutnya bisa kita lihat hasil dari data yang sudah diolah

Gambar IV.14 Hasil Cluster Pada data yang sudah diolah menghasilkan data yang sudah dikelompokkan menjadi 4 cluster seperti pada gambar diatas yang semuanya berjumlah 400 data.

Data diatas juga merupakan data berbentuk table yang setiap data sudah tercatat dimana data tersebut masuk ke dalam cluster.

Gambar IV.16 Centroid Tabel Gambar diatas menunjukkan centroid akhir dari setiap cluster.

14. Selanjutnya bisa kita lihat Validasi Cluster pada Performance

Gambar IV.17 Performance Vector Berdasarkan hasil dari olah data di software Rapidmaner versi 5, 400 data masyarakat di bagi ke dalam 4 cluster

berdasarkan jenis pekerjaan, jumlah anggota keluarga, sumber penerangan, fasilitas buang air besar, bahan bakar untuk memasak dan pendapatan perbulan dengan nilai index 0,07.

Cluster 1 yang memiliki pendapatan tinggi dengan anggota keluarga yang banyak berjumlah 101 orang dengan pendapatan rata-rata Rp. 976.980,00. Cluster 2 yang memiliki pendapatan agak tinggi dengan jumlah anggota keluarga agak banyak berjumlah 168 orang dengan rata-rata pendapatan Rp. 876.904,00. Cluster 3 yang memiliki pendapatan paling rendah dengan jumlah anggota normal berjumlah 46 orang dengan rata-rata pendapatan Rp.

743.043,00. Cluster 4 yang memiliki pendapatan sedang dengan jumlah keluarga normal berjumlah 85 orang dengan rata-rata pendapatan Rp. 794.588,00.

Dari 4 cluster yang terbentuk, cluster 3 dan cluster 4 adalah cluster yang paling membutuhkan bantuan. Kedua cluster memiliki pendapatan paling rendah walaupun dibandingkan cluster 1 dan cluster 2, mereka memiliki lebih jumlah anggota keluarga yang lebih sedikit.

Hasil dari penelitian ini dapat membantu pihak Pemerintahan Desa Lemberang dalam mengambil keputusan untuk memilih warga yang berhak menerima bantuan. Dengan adanya pengelompokan warga yang ada di desa bisa terlihat berapa jumlah warga yang memiliki pendapatan rendah, memiliki jumlah anggota keluarga yang banyak dan lain sebagainya. Bantuan nantinya bisa berbentuk macam-macam sesuai dengan kebutuhan masing-masing warga yang membutuhkan dilihat dari sumber pekerjaan, jumlah anggota keluarga, sumber penerangan, fasilitas buang air besar, bahan bakar umtuk memasak dan pendapatan

perbulannya.

4. Kesimpulan 4.1. Kesimpulan

1. Penerapan metode K-Means untuk pemetaan masyarakat berdasarkan tingkat kemiskinan Desa Lemberang berhasil diterapkan sehingga penerima bantuan bisa tepat sasaran.

2. Selain dari jenis pekerjaan, jumlah anggota keluarga, sumber penerangan, penggunaan fasilitas buang air besar, bahan bakar untuk memasak dan jumlah pendapatan perbulan yang dapat menyebabkan masyarakat digolongkan dalam penerima bantuan, masih ada

(8)

faktor-faktor lainnya. Untuk mengetahuinya dapat dilakukan penelitian lebih lanjut lagi.

3. Pada proses pengelompokan masyarakat penerima bantuan dengan menggunakan 400 data yang didapat dari data Tahun 2018 didapatkan jumlah cluster menggunakan Uji Validitas Davies Bpuldin Index (DBI) sebnayak 4 cluster dengan nilai 0,07 dan nilai tersebut paling optimal digunakan karena mendekati 0 (nol).

4. Hasil pengelompokkan terhadap 4 cluster masyarakat penerima bantuan dengan anggota cluster 1 sebanyak 101 data sebagai penerima bantuan Rastra, cluster 2 sebanyak 168 data dan cluster 3 sebanyak 46 data yang akan menerima bantuan PKH dan cluster 4 sebanyak 85 data yang akan menerima BPNT.

4.2.^Saran

1. Untuk penelitian selanjutnya, bisa menambah atribut kondisi masyarakat di Desa Lemberang agar bisa memberikan informasi tambahan sehingga hasil pengolahan data lebih detail.

2. Penelitian ini dapat dikembangkan dengan menambahkan metode analisis selain metode K-means sebagai bahan perbandingan agar diketahui metode analisis yang lebih akurat dalam mengolah data penelitian.

3. Hasil dari penelitian ini dapat diajukan sebagai salah satu referensi bagi pihak Pemerintahan Desa Lemberang dalam mendukung keputusan masyarakat yang berhak menerima bantuan.

Referensi

Annur, H. (2018). Klasifikasi Masyarakat Miskin Menggunakan Metode Naive Bayes. Jurnal Ilmiah.

Astuti, F. D. (2017). Penerapan Data Mining untuk Clustering Data Penduduk Miskin Menggunakan Algoritma Hard C-Means. Jurnal Ilmiah Data Manajemen dan Teknologi Informasi.

Defiyanti, S. (2017). Integrasi Metode Clustering dan Klasifikasi untuk Data Numerik. Ilmu Komputer.

Hasan, M. (2017). Prediksi Tingkat Kelancaran Pembayaran Kredit Bank Menggunakan ALgoritma Naive Bayes Berbasis Forward Selection. Ilmu Komputer.

Iswari, L., & Ayu, E. G. (2016). Pemanfaatan

Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Jurnal Teknik Informatika.

Ludoni, S., Noor, I., & Hakim, L. (2016).

Perencanaan Program-Program Pengentasan Kemiskinan dalam Pencapain Target MDG3 Tahun 2015 di Kota Batu. Jurnal Informatika.

Mabrur, A. G., & Lubis, R. (2017).

Penerapan Data Mining untuk Memprediksi Kriteria Nasabah Kredit. Jurnal Komputer dan Informatika.

Prakoso, S. B. (2015). Efektivitas Pelayanan Kesehatan BPJS di Puskesmas Kecamatan Batang. Economics Development Analysis Journal.

Salulolo, Y. H., Tanaamah, A. R., & Wowor, A. D. (2016). Analisis dan Perbandingan Algoritma Clustering dalam Penentuan Alokasi Bantuan Dana Pendidikan Propinsi Jawa Tengah. Jurnal Informatika.

Waluyo, S. H., & Prihandoko. (2017).

Klasifikasi Pemanfaat Program Beras Sejahtera (Rastra) Berdasarkan Tingkat Kemiskinan Dengan Menggunakan Algoritma Decision Tree C4.5 Berbasis Particle Swarm Optimization. Ilmu Komputer.

Waworuntu, M. N., & Amin, M. F. (2018).

Penerapan Metode K-Means Pemetaan Calon Penerima Jamkesda. Jurnal Ilmu Komputer.

Widayu, H., Nasution, S. D., Silalahi, N., &

Mesran. (2017). Data Mining untuk Memprediksi Jenis Transaksi Nasabah pada Koperasi SImpan Pinjam dengan Algoritma C4.5.

Media Informatika Budidarma.

Wulandari, F., Novita, R., Haerani, E., &

Salisah, F. N. (2017).

ModelOenanggulangan Kemiskinan berbasis Wilayah Menggunakan Fuzzy C-Means dan Simple Matching Coefficient. Jurnal Ilmiah Rekayasa dan Manajemen Sistem Informasi.

Z, Z. A., & Sarjono. (2016). Analisis Data Mining untuk Menentukan Kelompok Prioritas Penerima

Bantuan Bedah Rumah

Menggunaan Metode Clustering K- Means (Studi Kasus : Kantor Kecamatan Bahar Utara). Jurnal

(9)