Klasterisasi Data Penerima Bantuan Langsung Tunai Menggunakan Algoritma K-Means
Nurahman*, Jetri Susanto
Fakultas Ilmu Komputer, Program Studi Sistem Informasi, Universitas Darwan Ali, Sampit, Indonesia Email: 1,*[email protected], 2[email protected]
Email Penulis Korespondensi: [email protected] Submitted 11-02-2023; Accepted 01-04-2023; Published 30-04-2023
Abstrak
Bertambahnya penduduk dan penyebaran penduduk yang tidak merata bahkan dengan kondisi tingkat kemiskinan yang beragam perlu menjadi pusat perhatian dan penanganan yang tepat. Pada Desa Pelangsian terdapat 202 penduduk yang menerima BLTD tahun 2021.
Adanya kuota penerima bantuan dan jumlah kondisi pihak penerima yang tidak sesuai sering kali menjadi hambatan dalam penentuan penerima bantuan. Sehingga dari data yang diperoleh dalam penelitian ini perlu dilakukannya klasterisasi. Hasil klasterisasi dapat digunakan untuk mengetahui bahwa penduduk yang menerima BLTD sesuai dengan kriteria yang telah ditentukan. sehingga Selanjutnya dapat membantu pemerintah dalam melihat kategori masyarakat yang benar-benar berhak untuk mendapatkan bantuan tersebut. Klaterisasi data dapat dilakukan dengan menggunakan algoritma pada data mining. Algoritma yang digunakan dalam klasterisasi data penduduk desa pelangsian pada penelitian ini adalah algoritma K-Means. Metodologi penelitian dilakukan dengan beberapa tahapan, seperti pemilihan masalah, pengumpulan data, preprocessing data, pemilihan algoritma data mining, evaluasi hasil, dan interpretasi hasil. Klasterisasi dilakukan dengan membentuk 2 klaster data. Sebelum data diklaster maka 202 record perlu dilakukan preprocessing data sehingga ditemukan bahwa terdapat 196 record data valid yang dapat diproses sesuai dengan kebutuhan penelitan.
Hasil pengolahan data dilakukan dengan mengcluster data menjadi 2 kelompok. Klasterisasi menggunakan algoritma K-Means dengan menentukan nilai K=2 sehingga diperoleh bahwa cluster0 berjumlah 115 penduduk dan cluster1 berjumlah 81 penduduk. Pengujian performa Algoritma menunjukkan bahwa Algoritma K-Means memperoleh nilai Devies-Bouldin -0.794. Dengan nilai Davies-Bouldin- 0.794, dapat dikatakan bahwa performa algoritma clustering tersebut cukup baik.
Kata Kunci: Klasterisasi; K-Means; Davies Bouldin; Bantuan Sosial; BLTD Abstract
Increasing population and unequal distribution of population even with conditions of varying poverty levels need to be the center of attention and proper handling. In Pelangsian Village, there were 202 residents who received BLTD in 2021. The existence of a quota of beneficiaries and the number of recipients' conditions that were not suitable often became an obstacle in determining beneficiaries.
So that from the data obtained in this study it is necessary to do clustering. Clustering results can be used to find out if the population receiving BLTD meets predetermined criteria. so that it can further assist the government in seeing the categories of people who are really entitled to get this assistance. Data clustering can be done using algorithms in data mining. The algorithm used in the data clustering of Pelangsian villagers in this study is the K-Means algorithm. The research methodology was carried out in several stages, such as problem selection, data collection, data preprocessing, data mining algorithm selection, results evaluation, and results interpretation. Clustering is done by forming 2 data clusters. Before the data is clustered, 202 records need to be preprocessed so that it is found that there are 196 valid data records that can be processed according to research needs. The results of data processing are done by clustering the data into 2 groups. Clustering uses the K-Means algorithm by determining the value of K = 2 so that it is obtained that cluster0 has 115 residents and cluster1 has 81 residents. Algorithm performance testing shows that the K-Means Algorithm obtains a Devies-Bouldin value of -0.794. With a Davies-Bouldin-0.794 value, it can be said that the performance of the clustering algorithm is quite good.
Keywords: Clusterization; K-Means; Davies Bouldin; Social Assistance; BLTD
1. PENDAHULUAN
Wabah menular disebabkan oleh Virus SARS-CoV-2 yang menyerang dunia Sejak tahun 2019 hingga 2021 salah satunya adalah Virus COVID-19 [1],[2],[3]. Virus ini memberikan dampak terhadap masyarakat, perusahaan, dan Pemerintahan[4]. Dampak yang sangat terasa bagi masyarakat adalah dampak ekonomi-sosial [5], khususnya bagi masyarakat kurang mampu dan memiliki usia yang rentan. Dampak yang ditimbulkan diperusahaan yaitu banyak perusahaan yang menutup usahanya karena kebangkrutan[6]. Kemudian berdampak pula kepada karyawan perusahaan karena banyaknya pengurangaan karyawan disetiap perusahaan[7].
Penderita Covid-19 biasanya menggap remeh gejala-gejala yang di timbulkan oleh virus tersebut. Gejala yang sering dialami seperti gangguan batuk kering, kesulitan bernafas, dan demam tinggi[8]. Virus ini dapat di cegah atau di kurangi populasi penyebarannya dengan mengurangi berkumpul dan beraktivitas di tempat umum. Kemudian juga masyarakat harus tetap berada dirumah, memakai masker saat berpergian, selalu rajin mencuci tangan dengan sabun dan air yang mengalir. Tetapi hal tersebut sering kali dianggap remeh oleh masyarakat sehingga penularan Covid-19 sulit dicegah. Pemerintah akhirnya mengeluarkan berbagai kebijakan yang dapat membantu semua kalangan masyarakat baik yang di kota maupun yang di desa.
Desa pelangsian merupakan desa yang berada di provinsi Kalimantan tengah, terdapat di kabupaten kotawaringin timur. Desa ini bertepatan di kecamatan mentawa baru ketapang dengan luas desa 12,061 km2. Desa Pelangsian memiliki jumlah penduduk sebanyak 3.191 jiwa. Di tahun 2003 desa pelangsian mengalami pemekaran menjadi 3 desa yaitu, Desa Eka Bahurui, Desa, Desa Ganefo, dan Desa Bapeang. Ditahun 2011 Desa Pelangsian kembali melakukan pemekaran
menjadi Desa Telaga Baru dan Desa Bangkuaang Makmur. Sehingga saat ini ditahun 2022 jumlah penduduk yang terdaftar pada desa pelangsian adalah 3.345 jiwa.
Jumlah Penduduk yang semakin banyak dapat membawa beberapa tantangan bagi pemerintah [9] ditambah dengan permasalahan kemiskinan semakin beragam pula. Pemerintah harus dapat menangani dengan baik. Kebijakan pemerintah dalam menangani kemiskinan seperti penerima bantuan langsung tunai Covid-19 Desa Pelangsian Kecamatan Mentawa Baru Ketapang mengalami berbagai permasalahan. Permasalahan yang ditimbulkan mulai dari jumlah kuota penerima bantuan dan kondisi lapangann untuk menerima bantuan tidak seimbang. Kemudian kesulitan dalam menentukan siapa yang sebenarnya membutuhkan bantuan dengan tepat. Bahkan penyaluran bantuan yang tidak tepat seringkali berakibat terjadinya kecemburuan sosial. Terjadinya beberapa kesulitian tersebut maka diperlukan penelitian secara mendalam dan sistematis. Penelitian ini menggunakan sampel data 202 penduduk desa Pelangsian yang menerima BLTD pada tahun 2021, dari data tersebut dilakukan nya klasterisasi untuk mengetahui bahwa penduduk yang menerima BLTD sesuai dengan kriteria yang telah ditentukan, sehingga selanjutnya dapat membantu pemerintah dalam melihat kategori masyarakat yang benar-benar berhak untuk mendapatkan bantuan tersebut. Pengklasteran data ini bertujuan untuk membantu kebijakan pemerintah menglompok penduduk yang berhak mendapatkan bantuan langsung desa atau sebagai rekomendasi penerima bantuan[10]. Penglompokan ini berdasarkana dari penduduk yang masuk dalam kategori miskin maupun tidak miskin, mengklaster penerima bantuan langsung tunai desa membutuhkan data yang lengkap dan akurat [11] tentang kondisi sosial ekonomi, dan infrastruktur untuk mengetahui tingkat kelompok penduduk yang masuk dalam kategori miskin maupun tidak miskin. Mengatasi permasalahan dalam kerumitan menentukan penduduk miskin yang menjadi prioritas penerima bantuan proses clustering dalam data mining sangat tepat digunakan[12]. Algoritma yang digunakan dalam klasterisasi data penduduk desa pelangsian pada penelitian ini adalah algoritma K-Means.
Data mining ialah suatu kegiatan penggabungan data atau pengolahan data dengan tujuan untuk menghasilakan suatu informasi yang terdapat pada sebuah data [3]. Suatu data yang dikumpulkan dan di ekstrak [13] dapat dilakukan dengan menggunakan metode dari perangakat lunak dengan menggunakan bantuan perhitungan matematika, statistika[14] bahkan bisa dilakukan dengan bantuan teknologi Artifical Intelligence[15]. Penerapan perhitungan matematika dengan mencari titik centroid terdekat adalah algoritma K-Means [16]. Algoritma K-Means memliki keunggulan seperti mudah di implementasikan, mudah beradaptasi, dan mampu memproses data dengan cepat [17]. Pada Penelitain data mining terdapat tahapan pengolahan data yang salah satunya sering dikenal dengan nama KDD (Knowledge Discovery in Database) [18]. KDD memiliki beberapa tahapan seperti Seleksi data, preprocessing, transformasi, data mining, evaluasi dan temuan pengetahuan [19].
Algoritma yang digunakan dalam klasterisasi data penduduk desa pelangsian pada penelitian ini adalah algoritma K-Means. K-means merupakan sebuah metode clustering dengan jenis unsupervised learning [20]. Penelitian ini memiliki kesenjangan terhadap penelitian terdahulu seperti karakteristik data yang diteliti berbeda, penerapan metodologi penelitian yang berbeda dan pada penelitian ini juga selain melakukan klasterisasi juga mencari nilai DBI. Pengklasteran yang dilakukan bertujuan untuk dapat membedakan data yang memiliki karakter yang sama dan data memiliki karakter berbeda dan dapat di kelompokan di masing-masing karakteristiknya. Sehingga hasil penelitian ini nantinya dapat diketahui bahwa data prioritas penduduk yang masuk dalam kategori penerima bantuan langsung tunai
2. METODOLOGI PENELITIAN
Metodologi penelitian adalah sebuah rangkaian kerja yang berisi sebuah tahapan–tahapan yang dipergunakan dalam sebuah penelitian. Penelitian data mining sangat penting untuk mengikuti metodologi penelitian yang baik dan sistematis.
Ini memastikan bahwa penelitian memiliki validitas dan reliabilitas yang tinggi, dan membantu menghindari kesalahan dan distorsi dalam hasil penelitian. Metodologi penelitian data mining biasanya meliputi beberapa tahapan, seperti pemilihan masalah, pengumpulan data, preprocessing data, pemilihan algoritma data mining, evaluasi hasil, dan interpretasi hasil. Dalam setiap tahapan, penting untuk mengikuti prosedur yang benar dan mengacu pada sumber yang terpercaya. Selain itu juga, penting untuk memastikan bahwa hasil penelitian data mining diterjemahkan dengan benar dan dimengerti oleh pihak sasaran yang tepat, seperti pemerintah, bisnis, atau masyarakat. Ini memastikan bahwa hasil penelitian dapat digunakan untuk memecahkan masalah dan membuat keputusan yang tepat. Sehingga tahapan penelitian yang akan dilakuan seperti mengidentifikasi maslah, menganalisis masalah, mengumpulkan data, dan akan diterapkan menggunakan metedologi Knowlede Discovery in Database (KDD). klasterisasi dapat menggunakan metodologi Knowledge Discovery in Database (KDD) sebagai salah satu bagian dari proses analisis data. KDD adalah proses menemukan pola dan hubungan baru dalam data yang berguna dan memiliki makna untuk memecahkan masalah. Dalam klasterisasi, KDD dapat digunakan untuk menemukan pola dan kelompok dalam data yang berhubungan dengan tingkat kemiskinan, seperti tingkat pendapatan, tingkat pendidikan, dan kondisi pemukiman. Ini dapat membantu mengidentifikasi kelompok miskin dan memprioritaskan bantuan ke kelompok yang membutuhkan bantuan paling banyak.Penelitian ini akan dilakukan menggunakan tahapan – tahapan seperti gambar 1 berikut .
Gambar 1. Alur Penelitian
Gambar 1 menunjukkan tahapan yang dilakukan dalam penelitian untuk dapat menyelesaikan permasalahan yang ditemui pada objek penelitian. Adapun penjelasan mengenai tahapan yang dilakukan dalam penelitian dapat diurakan sebagai berikut:
a. Studi Literatur pada penelitian merupakan tahapan sangat penting dalam penelitian data mining. Studi literatur membantu peneliti untuk memahami dan meninjau hasil-hasil penelitian yang telah dilakukan sebelumnya dalam bidang yang sama atau terkait. Ini memungkinkan peneliti untuk memahami dan mengidentifikasi celah atau kesenjangan dalam penelitian sebelumnya dan memastikan bahwa penelitian yang dilakukan merupakan penambahan yang berguna bagi bidang tersebut. Studi literatur juga membantu peneliti untuk memahami konsep dan teori yang berlaku dalam bidang yang diteliti, memperkuat hipotesis dan metodologi penelitian, dan memastikan bahwa penelitian yang dilakukan sesuai dengan standar dan praktik terbaik. Studi literatur merupakan bagian penting dari proses penelitian dan harus dilakukan dengan benar dan cermat untuk memastikan hasil yang berkualitas dan bermanfaat.
b. Identifikasi masalah ialah sebuah langkah awal yang diambil oleh peneliti saat riset. Peneliti medapatkan suatu masalah pada saat identifikasi, yang dapat diselesaikan oleh peneliti dalam kata lain identifikasi masalah menggambarkan topik yang akan diselesaikan oleh peneliti.
c. Topik Penelitian Penelitian ini dilakukan untuk mengetahui sebarapa berhak nya penerima BLT desa pelangsian tahun 2019 yang terdampak virus covid-19 dengan dilihat dari bebrapa dataset yang telah dikumpulkan seprti rata-rata penghasian perbulan, jumlah anggota keluarga laki-laki dan perempuan yang tinggal dirumah , dan dilihat dari atap rumah dan dinding tempat tinggal penerima BLT desa tersebut. Hasil dari penelitian ini diharapkan dapat memberikan informasi tentang efektivitas BLT desa dalam mengurangi dampak ekonomi Covid-19 di desa dan memberikan masukan untuk perbaikan program BLT desa dalam situasi pandemi di masa yang akan datang
d. Setelah melakukan identifikasi masalah yang dilakukan seorang peneliti yaitu perumusan masalah,dalam kata lain perumusan masalah ialah sebuah arah tujuan dari penelitian agar dapat focus terhadap pembahasan penelitian.
e. Peroses pengumpulan data di peroleh dari pihak atau petugas kelurahan pelangsian setelah pendataan petugas kelurahan yang berhak mendapatkan bantuan langsung tunai (BLT)
f. Penerapan Knowld Disccovery in Database (KDD) adalah sebagai peroses dalam melakukan metode data mining untuk mengumpulkan data – data yang penting, pada proses ini terdapat lima langkah penting yaitu, Selection, Preprocessing, Transformation, Data Mining, dan Interpretation Evaluation.
g. Analisis hasil terhadap pengolahan data dapat dilakukan dengan cara memahami hasil pengolahan data h. Laporan akhir ialah membuat suatu karya ilmiah berdasarkan dari pengolahan data, dan analisis hasil.
2.1 Knowledge Discovery in Database (KDD)
Proses Knowledge Discovery in Database (KDD) dari sebuah penelitian ini bertujuan untuk pengetahuan pengambilan keputusan. Didalam sebuah penelitan menjelaskan ada beberapa tahapan – tahapan dalam Knowledge Discovery in Database (KDD) diantaran adalah, Selection, Preprocessing, Transformation, Data Mining, dan Interpretation Evaluation[21]. Tahapan KDD dapat dilihat pada gambar 2.
Gambar 2. Knowledge Discovery in Database
Gambar 2 menunjukkan tahapan-tahapan yang diterapkan pada KDD. Tahapan ini dilakukan setelah melakukan pengumpulan data kemudian untuk memastikan data yang akan diolah dan dianalisis telah valid maka terlebih dahulu dilakukan selection, preprocessing, dan transformasi. Hal tersebut juga merupakan bagian dari tahapan KDD. Penjelasn mengenai gambar 2 dapat diuraikan sebagai berikut:
a. Selection
Pada tahapan sebelum pengolahan data harus dilakukan selection data. Data didapat melalui petugas desa, data yang diterima oleh petugas desa didapat dari pendataan ketua RT, yang mendata warga nya yang berhak mendapatkan bantuan BLTD. Data – data tersebut diseleksi dengan kebutuhan Knowledge Discovery in Database (KDD). Sehingga nantinya tidak semua atribut yang diperoleh dalam pengumpulan data digunakan semua. Pada tahapan ini akan memilih atribut yang dianggap perlu untuk kebutuhan pengolahan dan analisis data saja[22].
b. Preprocessing
Pada tahapan preprocessing akan di fokuskan pada data yang mau di proses. Penelitian ini akan dilakukan beberapa proses seperti reduction, intergration, cleaning.
c. Transformasi
Transformasi data merupakan peroses penting dalam proses data mining, karena data yang diolah kedalam data mining biasanya memiliki berbagai jenis dan bentuk yang berbeda – beda. Transformasi data merupakan peroses mengubah data dari bentuk aslinya kedalam bentuk yang lebih sesuai dengan kebutuhan dan tujuan penelitian. Dalam penelitian yang menggunakan algoritma K-Means Clustring, teransformasi data biasanya dilakukan untuk mengubah data yang tidak sesuai dengan tipe data yang dapat diolah oleh algoritma tersebut. Sebagai contoh, jika data yang akan diolah merupakan data katagorikal (non-numerik), maka transformasidata harus dilakukan untuk mengubah data tersebut menjadi data numerik atau integer.
d. Data mining
Data mining merupakan peroses yang digunakan untuk menemukan pola-pola dan hubungan-hubungan yang tersembunyi didalam data yang besar dan kompleks.proses data mining biasanya dilakukan melalui tahap-tahap tertentu, yang disebut dengan peroses mining. Peroses mining biasanya terdidi dari beberapa tahap yaitu, seleksi data, transformasi data, pemilihan algoritma, penerapan algoritma, evaluasi hasil.
e. Intrpertional evaluation
Tahapan interpertasi merupakan peroses atau evaluasi merupakan tahap akhir dari proses data mining. Tahap ini dilakukan setelah data telah diolah dengan menggunakan algoritma yang telah dipilih, dan tujuannya adalah untuk mengevaluasi hasil yang diperoleh dari peroses mining tersebut.
2.2 Data Mining
Data mining adalah suatu proses yang digunakan untuk mengidentifikasi pola dan hubungan dalam data yang besar dan kompleks[22],[23]. Proses ini menggunakan teknik statistik, matematika, dan pembelajaran mesin untuk mengekstraksi informasi yang berguna dari data. Data mining dapat digunakan dalam berbagai bidang, seperti bisnis, pemerintahan, kesehatan, dan ilmu pengetahuan. Data mining dapat membantu dalam mengklaster penduduk miskin dengan menganalisis data demografis, ekonomi, dan sosial. Data mining menggunakan teknik statistik dan analisis data untuk menemukan pola dan hubungan antar variabel dalam data. Ini dapat membantu mengidentifikasi kelompok penduduk yang memiliki tingkat kemiskinan tinggi dan membutuhkan dukungan lebih. Dengan memanfaatkan data mining, pemerintah dapat mengumpulkan informasi tentang karakteristik demografis, ekonomi, dan sosial penduduk miskin, seperti tingkat pendidikan, tingkat pendapatan, dan kondisi pemukiman. Ini dapat membantu memprioritaskan bantuan dan layanan yang dibutuhkan oleh kelompok yang berbeda.
2.3 Clusterisasi
Clustering adalah proses pembagian satu set objek data ke dalam kelompok-kelompok yang disebut cluster[24]. Objek yang terdapat dalam suatu cluster memiliki karakteristik yang serupa antara satu dengan yang lain, dan berbeda dengan objek yang terdapat dalam cluster lainnya. Proses clustering dilakukan dengan menggunakan algoritma yang telah ditentukan, sehingga tidak dilakukan secara manual. Clustering sangat berguna dalam menemukan kelompok atau group dalam data yang tidak dikenal sebelumnya. Dengan memanfaatkan klasterisasi, pemerintah dapat memprioritaskan bantuan ke kelompok yang membutuhkan bantuan paling banyak, seperti kelompok miskin yang tinggal di wilayah terpencil atau yang memiliki tingkat pendidikan rendah. Ini dapat memastikan bahwa bantuan yang disalurkan dapat membantu masyarakat yang paling membutuhkan dan memaksimalkan dampak positif dari bantuan. Namun, perlu diingat bahwa klasterisasi dengan data mining tidak selalu memberikan hasil yang akurat dan dapat terpengaruh oleh keterbatasan data yang tersedia. Oleh karena itu, penting untuk memastikan bahwa data yang digunakan dalam analisis data mining adalah data yang akurat dan representatif dari keadaan sebenarnya, dan bahwa hasil analisis dikonfirmasi dengan metode lain.
2.4 K-Means
Algoritma K-means merupakan algoritma yang tepat digunkan dalam penelitian yang menggunakan dataset yang tidak memiliki label. Algoritma K-Means merupakan algoritma kelasterisasi yang digunakan untuk menglompokan objek pengamatan kedalam kelompok (cluster) yang memiliki mean terdekat. Pada algoritma K-Means, peroses penglompokan
objek pengamatan dilakukan dengan mencari pusat dari kelompok dalam data dengan menggunakan Algoritma K-Means dengan penerapan persamaan (1).
𝑑(∝, 𝑦) = √∑(∝𝑖− 𝑦𝑖
𝑛
𝑖=1
(1)
Persamaan 1 merupakan persamaan secara umum yang digunakan dalam penyelesain untuk melakukan klasterisasi data. Peroses klasterisasi dimulai dengan mengedintifikasi data yang akan di kelaster. Setelah data teredintifikasi, selanjutnya dapat menerapkan persamaan untuk menghitung jarak antara data x ke data y. setelah jarak antara data x dan y dihitung. Selanjutnya dapat dicari nilai titik centroid dari kluster K. tititk centroid merupakan titik yang mewakili cluster tersebut, dan biasanya dihitung dengan mencari rata-rata dari setiap fitur pada data yang terkandung dalam kluster tersebut. Adapun tahapan yang akan dilakukan pada penerpan algoritma K-Means dapat dilihat pada gambar 3.
Gambar 3. Tahapan Algoritma K-Means
Gambar 3 menunjukkan tahapan-tahapan yang akan dilakukan dalam mengimplementasikan Algoritma K-Means.
Adapaun penjelasan mengenai tahapan yang ada pada gambar 3 adalah sebagai berikut:
a. Mulai, Pertama harus memulai proses klasterisasi dengan menyiapkan dataset yang akan diolah
b. Menyiapkan dataset, Dataset yang akan digunakan yaitu data penerima CPVID-19 BLTD Desa Pelangsian Kecamatan Mentawa Baru Ketapang Kabupaten Kotawaringin Timur.
c. Tentukan jumlah klister: Selanjutnya, harus menentukan jumlah klister yang akan di bentuk. Nilai K adalah nilai yang akan di bentuk.
d. Pemilihan titik centroid, setelah menentukan jumlah klaster, selanjutnya harus memilih titik centroid secara acak.
Titik centroid ini akan digunakan sebagai pusat perhitungan dalam setia klister.
e. Penglompokan data, Selanjutnya data akan di kelompokan ke dalam K buah cluster dengan titik centroid yang telah ditentukan
f. Hasil penglompokan, setelah data dikelompokan maka akan didapat hasil penglompokan data berdasarkan iterasi yang dilakukan
g. Perbaruan titik centroid, selanjutnya akan dilakukan perbaruan nilai titik centroid untuk mengetahui adanya perubahan titik centroid atau tidak. Jika tidak terdapat perubahan, maka peroses perhitungan akan di hentikan.
3. HASIL DAN PEMBAHASAN
Pada data BLTD desa pelangsian terdapt 203 jumlah penerima bantuan yang terdaftar di kantor desa pelangsian kecamatan mentawa baru ketapang. Pada data tersebut dilakukannya kelasterisasi untuk mengetahui masyarakat yang yang menerima bantuan tersebut sesuai dengan kategori yang telah ditentukan pemerintah, sehingga dapat membantu untuk penyaluran bantuan desa selanjutnya kepada masyarakat yang benar-benar membutuhkan. Dalam penelitian inin akan dilakukan alur/tahapan metedologi penelitian seperti studi literatur, mengedintifikasi masalah, topik penelitian, perumusan masalah, data diberikan oleh pemerintahan kecamatan dan melakukan validasi data di RT, dan melakukan penerapan Knowld Discovery in database (KDD). Untuk hasil dan pembahasannya ada tahapan-tahapan seperti dataset adalah kumpulan data yang diambil dari sumber tertentu. Dataset dapat berupa data numerik, kategorikal, atau teks, dan dapat diperoleh dari berbagai sumber data kecamatan dengan divalidasi kepihak RT pada desa pelangsian. Seleksi data adalah proses memilih subset dari dataset yang akan digunakan dalam analisis lebih lanjut. Preprocessing adalah proses membersihkan dan mempersiapkan data untuk analisis lebih lanjut. Data mining adalah proses mengeksplorasi data untuk mengidentifikasi pola, hubungan, atau tren yang tersembunyi di dalam data.
3.1 Dataset
Penelitian ini dilakukan untuk mengklasterisasi masyarakat di desa pelangsian. Klasterisasi dilakukan dengan membentuk 2 kelompok. Dataset yang digunakan di penelitian ini adalah penerima BLTD Covid-19 di desa Pelangsian. Dataset ini
dilengkapi dengan berbagai atribut seperti nama, jenis kelamin, tanggal lahir, umur, almat lengkap, RT, RW, pekerjaan, Penghasilan rata-rata jumlah anggota laki-laki, jumlah anggota perempuan, atap rumah, dan dinding rumah.
Tabel 1. Atribut Dataset
Atribute Type Data
Nama Polynominal
Jenis Kelamin Binominal
Tanggal Lahir Date
Umur Integer
Alamat Lengkap Polynominal
Rt Integer
Rw Integer
Pekerjaan Polynominal
Penghasilan Rata-Rata Polynominal Jumlah Anggota Laki-Laki Integer Jumlah Anggota Perempuan Integer
Atap Rumah Polynominal
Dinding Rumah Polynominal
Pada tabel tabel 1 ada beberapa type data yang digunakan yaitu Polynominal, Binominal, Date, dan Integer, Pada tabel tersebut yang menggunakan type data Polynominal ada 6 attribute seperti nama, alamat lengkap, Pekerjaan, penghasilan rata-rata, atap rumah, dan dinding rumah. Pada atributr jenis kelamin laki-laki menggunakan Binominal, pada attribute tanggal lahir menggunakan type data date, dan yang memakai type data integer ada 5 atribut yaitu umur, rt, rw, jumlah anggota laki-laki dan perempuan.
3.2 Selections
Selection adalah suatu tahap pemilihan data yang akan diperoses untuk dilakukan penelitinan. Proses ini dilakukan untuk memilih fitur-fitur atau atribut-atribut penting dari data yang akan digunakan dalam proses data mining. Fitur yang dipilih memiliki informasi yang berkaitan dengan tujuan penelitian dan memiliki hubungan yang kuat dengan tujuan penelitian.
Atribut dari data BLT desa Pelangsian tidak semua dilakukan pemrosesan, maka akan dilakukannya peroses selection atribut. Pada pemrosesan ini akan menggunakan aplikasi rapid minner dengan memakai operator Select Attirubutes.
Seperti gambar sebagai berikut :
Gambar 4. Desain Select Attribut
Pada gambar 4 ini menunjukan pemrosesan seleksi atribut yang akan dipakai untuk pengolahan data. Atribut yang digunakan dalam pemrosesan data terdapat 12 atribut yaitu : Nama, Jenis Kelamin, Tanggal Lahir, Umur, Alamat Lengkap,Rt,Rw,Pekerjaan,Penghasilan Rata-Rata, Jumlah Anggota Laki-Laki, Jumlah Anggota Perempuan, Atap Rumah, dan Dinding Rumah. Atribut tanggal lahir tidak digunakan dalam proses pengolahan data dikarenakan pada penelitian ini dianggap bahwa atribut umur lebih tepat dan sudah mewakili dari proses klasterisasi data. Beberapa atribut yang telah dipilih dianggap telah memberikan beberapa informasi penting. Informasi penting yang dapat diperoleh dari atribut tersebut seperti Jenis Kelamin, Umur, dan Penghasilan Rata-Rata memiliki informasi demografis dan ekonomi yang bisa membantu dalam menentukan kelompok penerima bantuan. Atribut Alamat Lengkap, Rt, dan Rw bisa memberikan informasi lokasi geografis penerima bantuan, sementara Atap Rumah dan Dinding Rumah memberikan informasi tentang kondisi rumah penerima bantuan. Dengan informasi ini, klustrisasi data penerima bantuan dapat dilakukan dengan membandingkan dan mengelompokkan penerima bantuan berdasarkan informasi yang diberikan oleh atribut tersebut. Hal ini membantu dalam memahami karakteristik dan kebutuhan penerima bantuan, sehingga bisa diterapkan program bantuan yang sesuai dan efektif.
3.3 Preprocessing
Preprocessing data penduduk adalah tahap penting dalam analisis data demografis. Tujuan dari preprocessing data penduduk adalah untuk mempersiapkan data sehingga siap digunakan untuk analisis lebih lanjut. Operator preprocessing yang digunakan pada penelitian ini untuk menyaring data yang tidak relevan atau tidak sesuai dengan kebutuhan adalah Filter Examples. Pada RapidMiner Preprocessing gambar 5 dibawah ini digunakan untuk Menghapus data yang tidak konsisten dan data yang rusak menjadi data yang dapat digunakna nantinya dalam pemrosesan data. Dengan menyaring data yang tidak relevan atau tidak sesuai dengan kebutuhan, kualitas data akan meningkat dan akurasi proses data mining akan lebih baik. Operator Filter Examples adalah salah satu operator preprocessing yang penting dalam proses preprocessing data.
Gambar 5. Preprocessing
Pada Gambar 5 Preprocessing data menggunakan operator filter examples. Operator filter examples salah satu metode yang digunakan dalam preprocessing data di RapidMiner. Operator filter examples memungkinkan pengguna untuk memfilter contoh data berdasarkan kondisi tertentu, seperti menghapus contoh data yang hilang, tidak valid, atau memenuhi kriteria tertentu. Dengan menggunakan operator filter examples, pengguna dapat mengatasi masalah data yang tidak bisa diproses dan memastikan bahwa data yang digunakan untuk analisis adalah data yang akurat dan representatif.
Operator filter examples juga memungkinkan pengguna untuk membuat filter berdasarkan kondisi tertentu, seperti memfilter contoh data berdasarkan rentang nilai tertentu atau memfilter contoh data berdasarkan kategori tertentu. Dalam penggunaan operator filter examples, penting untuk memastikan bahwa kondisi filter yang diterapkan benar dan sesuai dengan tujuan analisis. Ini memastikan bahwa data yang digunakan untuk analisis adalah data yang akurat dan representatif, dan memastikan bahwa hasil analisis data tidak distorsi oleh data yang tidak bisa diproses. Pemrosesan ini dilakukan untuk penghapusan record yang tidak memiliki atribut yang lengkap. Dataset sebelum dilakukannya pemrosesan ada 203 data setelah dilakukan tahapan pemrosesan preprocessing selesai data yang akan digunakan berjumlah 196 record.
Gambar 6. Transformasi Data (Nominal ke Numerical)
Operator Nominal to Numerical pada RapidMiner dapat digunakan untuk transformasi data. Operator ini digunakan untuk mengkonversi data kategori (nominal) menjadi representasi numerik. Dalam data mining, algoritma seringkali membutuhkan data numerik sebagai masukan. Oleh karena itu, transformasi data kategori menjadi numerik merupakan tahap penting dalam preprocessing data. Operator Nominal to Numerical memungkinkan pengguna untuk mengkonversi data kategori menjadi representasi numerik dengan memasukkan label numerik untuk setiap kategori.
Misalkan, jika data kategori memiliki fitur jenis kelamin dengan kategori "pria" dan "wanita", operator Nominal to Numerical dapat mengkonversi data kategori tersebut menjadi representasi numerik dengan memasukkan label 0 untuk
"pria" dan label 1 untuk "wanita". Operator Nominal to Numerical dapat membantu dalam transformasi data yang efisien dan memastikan bahwa data yang digunakan dalam analisis adalah data yang siap digunakan. Penting untuk memastikan bahwa transformasi data dilakukan dengan benar dan sesuai dengan tujuan analisis, sehingga hasil analisis data tidak distorsi oleh data yang tidak bisa diproses. Pada gambar 6 Transformasi data menggunakan operator Nominal to Numerical. Pemrosesan ini dilakukan untuk mengubah bilangan nominal di sebuah data penelitian dengan di ubah
kebilangan numerik, pada data penelitian ini bilangan yang belum di ubah ke bilangan numerik adalah atribut Nama, Jenis Kelamin, Umur, Alamat, Pekerjaan, Penghasilan rata-rata, Atap rumah, dan dinding rumah. Maka data tersebut akan di ubah kebilangan numerik menggunakan operator Nominal to Numerical.
3.4 Data Mining
Dataset yang telah dilakukan tahapan preprocessing maka data siap untuk dilakukan tahapan selanjutnya yaitu procces mining. Jumlah data yang valid pada data ini sebanyak 196 record. Pada tabel 2 dibawah ini menampilkan dataset siap untuk dilakukan mining proses. Pada gambar 6 data telah menjadi valid maka selanjutnya dapat dilakukan dengan mengolah data dengan memasuki tahapan cluster data. Cluster data dilakukan dengan menggunakan algoritma K-Means pada tools rapid minner. Clustering merupakan salah satu teknik analisis data yang digunakan untuk membagi data menjadi beberapa kelompok (cluster) berdasarkan kesamaan antar elemen data. Nilai K adalah jumlah cluster yang diinginkan dalam proses clustering. Ini berarti bahwa setiap contoh data akan diklasifikasikan ke salah satu dari K cluster.
Jika K ditentukan sebagai 2, maka data akan dibagi menjadi 2 cluster.
Penentuan nilai K merupakan hal penting dalam proses clustering, karena mempengaruhi hasil akhir dari clustering. Nilai K yang terlalu kecil dapat mengakibatkan data tidak terbagi dengan baik, sementara nilai K yang terlalu besar dapat mengakibatkan cluster yang terlalu spesifik dan tidak memiliki signifikansi. RapidMiner menyediakan beberapa metode untuk membantu dalam penentuan nilai K, seperti metode elbow, metode Silhouette, atau metode Davies-Bouldin. Pengguna dapat memilih metode yang sesuai dengan tujuan analisis dan memastikan bahwa nilai K yang ditentukan memenuhi kriteria yang dibutuhkan. Data yang digunakan disini dikelompokan menjadi 2 cluster dengan menetapkan nilai K=2. Penglompokan dari 2 cluster ini dapat menghasilkan model cluster seperti gambar 7 sebagai berikut.
Gambar 7. Cluster Model Penglompokan BLT Desa Pelangsian
Gambar 7 menampilkan kelompok dari setiap Cluster. Hasil cluster menunjukkan bahwa ada 115 data yang tergabung dalam Cluster_0 dan 81 data yang tergabung dalam Cluster_1. Ini berarti bahwa pada hasil clustering tersebut, data dibagi menjadi dua kelompok yang terdiri dari 115 dan 81 data. Setelah mendapatkan nilai Cluster selanjutnya akan menentukan titik centroid. Titik centroid selanjutnya akan dipilih secara acak di setiap kelompok Cluster. Titik centroid akan ditampilkan pada tabel 2.
Tabel 2. Titik Centroid
No Antribute Cluster0 Cluster1
1 JENIS KELAMIN = L 0.852174 0.641975
2 JENIS KELAMIN = P 0.147826 0.358025
3 ALAMAT LENGKAP = Jl. Niaga 0.034783 0.012346
4 ALAMAT LENGKAP = Jl. Ir. H. Juanda 0.034783 0.049383
5 ALAMAT LENGKAP = Gg Binjai 0.026087 0.024691
6 ALAMAT LENGKAP = Desa Pelangsian Hulu 0.008696 0.049383
7 ALAMAT LENGKAP = Gg. Damai 0.008696 0.012346
8 ALAMAT LENGKAP = Jl. Pelangsian 1 0.113043 0.160494
9 ALAMAT LENGKAP = Gg. Rahmat 0.017391 0
10 ALAMAT LENGKAP = Jl.Ir.H.Juanda Gg.Damai 0.008696 0 11 ALAMAT LENGKAP = Jl. Pasar Desa 0.026087 0.037037 12 ALAMAT LENGKAP = Jl.Ir.H.Juanda 0.182609 0.111111
… … … …
98 Jumlah anggota perempuan 1.626087 1.395062
Pada tabel 2 ini menampilkan nilai titik Centroid, diketahui atribut jenis kelamin = L pada Cluster0 memiliki nilai 0.852174 pada Cluster1 memiliki nilai 0.641975, atribut jenis kelamin = P pada Cluster0 memiliki nilai 0.147826 pada Cluster1 memiliki nilai 0.358025, atribut alamat lengkap = Jl. Niaga pada Cluster 0 memilki nilai 0.034783 pada Cluster1 memiliki nilai 0.012346, dan pada atribut jumlah anggota perempuan untuk Cluster0 memiliki nilai 1.626087 pada Cluster1 memiliki nilai 1.395062.
Gambar 7. Performa Algotitma (Nilai DBI)
Pada gambar 7 Performance model yang dihasilkan Algoritma menampilkan sebuah nilai Davies Bouidin. Hasil pengujian performa algoritma clustering dengan nilai K=2 dan nilai Davies-Bouldin=-0.794 menunjukkan bahwa performa algoritma clustering tersebut memiliki hasil yang cukup baik. Nilai Davies-Bouldin merupakan salah satu metode untuk mengukur performa algoritma clustering. Skala nilai Davies-Bouldin berkisar antara -1 dan +inf, dimana nilai yang lebih rendah menunjukkan performa yang lebih baik. Nilai yang mendekati -1 menunjukkan bahwa kelompok data sangat terpisah dan tidak memiliki overlap, sementara nilai yang mendekati 0 menunjukkan bahwa ada overlap antar kelompok data. Dengan nilai Davies-Bouldin=-0.794, dapat dikatakan bahwa performa algoritma clustering tersebut cukup baik. Ini menunjukkan bahwa kelompok data yang dibentuk oleh algoritma memiliki jarak yang jauh satu sama lain dan memiliki tingkat overlap yang rendah. Pengklasteran data dalam konteks ini dapat membantu pemerintah untuk mengidentifikasi kelompok penduduk yang paling membutuhkan bantuan langsung tunai desa dan memberikan bantuan tersebut secara efektif dan efisien, dan Hasil pengklasteran data ini dapat membantu pemerintah untuk menentukan kelompok penduduk mana yang memenuhi syarat untuk menerima bantuan langsung tunai desa dan juga menentukan jumlah bantuan yang diberikan. Selain itu, analisis ini dapat membantu pemerintah dalam merencanakan program- program yang lebih efektif dan efisien untuk membantu masyarakat yang membutuhkan.
4. KESIMPULAN
Penelitian ini memperoleh data sebanyak 203 record. Diketahui bahwa pengujian data dengan menggunakan 202 record ditemukan bahwa terdapat 196 record data valid yang dapat diproses sesuai dengan kebutuhan penelitan. Hasil pengolahan data dilakukan dengan mengcluster data menjadi 2 kelompok. Klasterisasi menggunakan algoritma K-Means dengan menentukan nilai K=2 sehingga diperoleh bahwa cluster0 berjumlah 115 penduduk dan cluster1 berjumlah 81 penduduk. Pengujian performance Algoritma menunjukkan bahwa Algoritma K-Means memperoleh nilai Devies-Bouldin
=-0.794. Dengan nilai Davies-Bouldin=-0.794, dapat dikatakan bahwa performance algoritma clustering tersebut cukup baik. Dalam penelitian ini, hanya digunakan 203 record data. Untuk meningkatkan validitas hasil penelitian, sebaiknya penelitian selanjutnya mempertimbangkan penggunaan jumlah data yang lebih besar. Semakin banyak data yang digunakan, akan menghasilkan model yang berbeda bahkan memungkinkan untuk menjadikan semakin valid pula hasil yang didapatkan.
REFERENCES
[1] İ. M. Eligüzel and E. Özceylan, “A Comparative Study of Classification Methods on the States of the USA Based on COVID-19 Indicators,” in IFIP Advances in Information and Communication Technology, 2021, vol. 632 IFIP. doi: 10.1007/978-3-030- 85906-0_63.
[2] A. L. Fairuz, R. D. Ramadhani, and N. A. F. Tanjung, “Analisis Sentimen Masyarakat Terhadap COVID-19 Pada Media Sosial Twitter,” Journal of Dinda : Data Science, Information Technology, and Data Analytics, vol. 1, no. 1, 2021, doi:
10.20895/dinda.v1i1.180.
[3] E. Esyudha Pratama, H. Sastypratiwi, and Yulianti, “Analisis Kecenderungan Informasi Terkait Covid-10 Berdasarkan Big Data Sosial Media dengan Menggunakan Metode Data Mining,” JIP (Jurnal Informatika Polinema), vol. 7, no. 2, pp. 1–6, Feb. 2021.
[4] Y. F. S. Y. Damanik, S. Sumarno, I. Gunawan, D. Hartama, and I. O. Kirana, “Penerapan Data Mining Untuk Pengelompokan Penyebaran Covid-19 Di Sumatera Utara Menggunakan Algoritma K-Means,” Jurnal Ilmu Komputer dan Informatika, vol. 1, no. 2, 2021, doi: 10.54082/jiki.13.
[5] B. Santoso, “Analisa Pengaruh Pandemi Covid-19 terhadap Kinerja Keuangan Sektoral Perusahaan Emiten di Bursa Efek Indonesia,” Journal of Management and Business Review, vol. 18, no. 2, 2021, doi: 10.34149/jmbr.v18i2.268.
[6] T. M. Permata Aulia, N. Arifin, and R. Mayasari, “PERBANDINGAN KERNEL SUPPORT VECTOR MACHINE (SVM) DALAM PENERAPAN ANALISIS SENTIMEN VAKSINISASI COVID-19,” SINTECH (Science and Information Technology) Journal, vol. 4, no. 2, 2021, doi: 10.31598/sintechjournal.v4i2.762.
[7] W. Wiyanto and Z. Setyaningsih, “Sentiment Analysis Pemutusan Hubungan Kerja Akibat Pandemi Covid-19 Menggunakan Algoritma NaïveBayes Dan PSO,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 10, no. 3, 2021, doi:
10.32736/sisfokom.v10i3.1299.
[8] N. Nurahman and D. Dwi Aulia, “Algoritma K-Means Untuk Melihat Penularan Tertinggi Virus Covid-19 Diseluruh Provinsi Indonesia,” 2021. doi: https://doi.org/10.36050/betrik.v12i2.331.
[9] N. Nurahman and S.- Aminah, “Klasifikasi Penerima Bantuan Sosial Di Desa Batuah Menggunakan Metode Algoritma C4.5,”
Jurnal Teknik Informasi dan Komputer (Tekinkom), vol. 5, no. 2, p. 271, Dec. 2022, doi: 10.37600/tekinkom.v5i2.516.
[10] A. Imam, B. S. Rintyarna, and D. Arifianto, “Pengelompokan Golongan Ekonomi Masyarakat di Desa Kartonegoro Kecamatan
Jenggawah dengan menggunakan Algoritma K-Means,” Sekripsi Universitas Muhammadiyah Jember Fakultas Teknik, 2016.
[11] Y. Kusnadi and M. S. Putri, “Clustering Menggunakan Metode K-Means Untuk Menentukan Prioritas Penerima Bantuan Bedah Rumah (Studi Kasus : Desa Ciomas Bogor),” Jurnal Teknologi Informatika dan Komputer, vol. 7, no. 1, 2021, doi:
10.37012/jtik.v7i1.498.
[12] A. Ikhwan and N. Aslami, “Implementasi Data Mining untuk Manajemen Bantuan Sosial Menggunakan Algoritma K-Means,”
Jurnal Teknologi Informasi, vol. 4, no. 2, 2020, doi: 10.36294/jurti.v4i2.2103.
[13] M. Rizki, D. Devrika, I. H. Umam, and F. S. Lubis, “Aplikasi Data Mining dalam Penentuan Layout Swalayan dengan Menggunakan Metode MBA,” Jurnal Teknik Industri: Jurnal Hasil Penelitian dan Karya Ilmiah dalam Bidang Teknik Industri, vol. 5, no. 2, 2020, doi: 10.24014/jti.v5i2.8958.
[14] F. Elfaladonna and A. Rahmadani, “ANALISA METODE CLASSIFICATION-DECISSION TREE DAN ALGORITMA C.45 UNTUK MEMPREDIKSI PENYAKIT DIABETES DENGAN MENGGUNAKAN APLIKASI RAPID MINER,” SINTECH (Science and Information Technology) Journal, vol. 2, no. 1, 2019, doi: 10.31598/sintechjournal.v2i1.293.
[15] D. Galih Pradana, M. L. Alghifari, M. Farhan Juna, and S. Dwisiwi Palaguna, “Klasifikasi Penyakit Jantung Menggunakan Metode Artificial Neural Network,” Indonesian Journal of Data and Science (IJODAS), vol. 3, no. 2, pp. 55–60, 2022.
[16] N. Dwitri, J. A. Tampubolon, S. Prayoga, F. I. R.H Zer, and D. Hartama, “PENERAPAN ALGORITMA K-MEANS DALAM MENENTUKAN TINGKAT PENYEBARAN PANDEMI COVID-19 DI INDONESIA,” Jurnal Teknologi Informasi, vol. 4, no.
1, 2020, doi: 10.36294/jurti.v4i1.1266.
[17] M. Mursalim, P. Purwanto, and M. A. Soeleman, “Penentuan Centroid Awal Pada Algoritma K-Means Dengan Dynamic Artificial Chromosomes Genetic Algorithm Untuk Tuberculosis Dataset,” Techno.Com, vol. 20, no. 1, 2021, doi:
10.33633/tc.v20i1.4230.
[18] N. Nurahman, A. Purwanto, and S. Mulyanto, “Klasterisasi Sekolah Menggunakan Algoritma K-Means berdasarkan Fasilitas, Pendidik, dan Tenaga Pendidik,” MATRIK : Jurnal Manajemen, Teknik Informatika dan Rekayasa Komputer, vol. 21, no. 2, pp.
337–350, Mar. 2022, doi: 10.30812/matrik.v21i2.1411.
[19] M. R. Muttaqin and M. Defriani, “Algoritma K-Means untuk Pengelompokan Topik Skripsi Mahasiswa,” ILKOM Jurnal Ilmiah, vol. 12, no. 2, 2020, doi: 10.33096/ilkom.v12i2.542.121-129.
[20] O. Mar, atun Sholihah, N. Suarna, and G. Dwilestari, “Implementasi Metode K-means Clustering Untuk Menganalisa Penerima Bantuan di Desa Palasah,” Jurnal Informatika dan Teknologi Informasi, vol. 1, no. 2, 2023, doi: 10.56854/jt.v1i2.121.
[21] Sri Widaningsih, “Perbandingan Metode Data Mining Untuk Prediksi Nilai Dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika Dengan Algoritma C4.5, Naive Bayes, KNN, Dan SVM,” Jurnal Tekno Insentif, vol. 13, no. 1, 2019.
[22] Nurahman, M. M. Alfitri, and E. Mashamy, “Klasifikasi Data Penduduk Untuk Menerima Bantuan Pangan Non Tunai Menggunakan Algoritma Naïve Bayes,” JURIKOM (Jurnal Riset Komputer), vol. 9, no. 4, pp. 1035–1043, 2022, doi:
10.30865/jurikom.v9i4.4678.
[23] N. Nurahman and D. Tjahjo Seabtian, “Classification of Poverty Reduction Program Recipients with Neural Network Algorithm in East Kotawaringin Communities,” E-Komtek, vol. 5, no. 2, pp. 190–202, 2021, doi: 10.37339/e-komtek.v5i2.751.
[24] r gupitha, “Penentuan Strategi Marketing Sekolah Menengah Kejuruan Terpadu Lampang Subang Menggunakan Metode K- Means Clustering,” Global, 2018.