Evaluasi Performa Algoritma Naïve Bayes Dalam Mengklasifikasi Penerima Bantuan Pangan Non Tunai
Mohammad Mastur Alfitri, Nurahman*, Minarni, Depi Rusda
Fakultas Ilmu Komputer, Program Studi Sistem Informasi, Universitas Darwan Ali, Sampit, Indonesia Email: 1[email protected], 2,*[email protected], 3[email protected], 4[email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Peningkatan taraf hidup masyarakat di Desa Bapinang Hulu dilakukan dengan berbagai macam program bantuan sosial. Realisasi pelaksanaan program bantuan sosial tidaklah berjalan mulus. Sering kali terjadi kecemburuan sosial dikalangan masyarakat dalam pembagian bantuan sosial. Pembagian bantuan dilakukan berdasarkan penilaian para pengurus desa dan Badan Permusyawaratan Desa. Kemudian divalidasi oleh ketua RT dan RW. Kuota yang diberikan pemerintah sering juga tidak sesuai dengan kondisi jumlah yang berhak menerima di Desa. Kesulitan lain yang dialami yaitu menentukan kreteria atau atribut yang digunakan untuk pemilihan masyarakat penerima Bantuan Pangan Non Tunai. Penelitian ini bertujuan untuk memperoleh model klasifikasi yang nantianya pola dari model klasifikasi dapat diterapkan. Memperoleh atribut yang memiliki korelasi tinggi terhadap atribut yang lain sehingga dapat digunakan dalam klasifikasi data penduduk desa Bapinang Hulu untuk seleksi penerima bantuan sosial. Untuk menyelesaikan permasalah maka diterapkan metode klasifikasi dengan menggunakan Algoritma Naive Bayes. Hasil penelitian menunjukkan bahwa performa model algoritma Naive Bayes sebelum seleksi fitur nilai tertinggi terdapat pada pengujian ke-8 dengan akurasi 89,80%. Sedangkan setelah seleksi fitur nilai akurasi tertinggi terdapat pada pengujian ke-3 dengan akurasi 88,37%. Hasil seleksi fitur menggunakan algoritma Information Gain dari atribut sebanyak 16 menjadi 6 atribut. Dengan demikian diketahui bahwa akurasi tertinggi terdapat sebelum seleksi fitur hanya saja dalam melakukan seleksi penerima bantuan sosial perlu menerapkan kreteria lebuh banyak dan cukup memakan waktu.
Sedangkan setelah seleksi fitur hanya menggunakan 6 kreteria untuk menentukan penerima bantuan sosial.
Kata Kunci: Algoritma; Naïve Bayes; Data Mining; Klasifikasi; Bantuan Sosial; Gain; Seleksi Fitur;
Abstract−The improvement of the standard of living of the community in Bapinang Hulu Village is carried out through various social assistance programs. However, the realization of the implementation of social assistance programs did not go smoothly.
Social jealousy often occurs among the community during the distribution of social assistance. The distribution of assistance is carried out based on the assessment of the village officials and the Village Consultative Body, which is then validated by the heads of RT and RW. The quota provided by the government is often not in accordance with the actual number of eligible recipients in the village. Another difficulty is determining the criteria or attributes used for the selection of Non-Cash Food Assistance recipients. This study aims to obtain a classification model from which the classification pattern can be applied to the population data of Bapinang Hulu Village for the selection of social assistance recipients. To solve this problem, the classification method is applied using the Naive Bayes Algorithm. The research results show that the performance of the Naive Bayes algorithm model before feature selection had the highest accuracy in the 8th test with an accuracy of 89.80%. Meanwhile, after feature selection, the highest accuracy was found in the 3rd test with an accuracy of 88.37%. The feature selection using the Information Gain algorithm reduced the number of attributes from 16 to 6. Therefore, it is known that the highest accuracy is obtained before feature selection, but in selecting social assistance recipients, more criteria need to be applied, which is time- consuming. Meanwhile, after feature selection, only 6 criteria are used to determine social assistance recipients.
Keywords: Algorithm; Naive Bayes; Data Mining; Classification; Social Assistance; Gain; Feature Selection.
1. PENDAHULUAN
Desa merupakan perwujudan atau kesatuan goegrafi, sosial, ekonomi, politik dan kultur dan budaya yang terdapat di dalamnya. Pada suatu desa juga memiliki hubungan dan pengaruhnya secara timbal balik dengan daerah lain.
Bapinang Hulu merupakan salah satu desa dari 14 (empat belas) desa yang ada di Kecamatan Pulau Hanaut [1].
Bapinang Hulu yang memiliki 3 (tiga) Rw dan 9 (Sembilan) RT merupakan salah satu dari 14 desa yang ada di Kecamatan Pulau Hanaut dengan jumlah penduduk 1.107 jiwa serta Nilai Indeks Desa Membangun : 0.814 dengan status Desa Maju [2].
Secara geografis Desa Bapinang Hulu yang berada di sebelah timur tepi Sungai Mentaya. Transportasi yang umum digunakan di Kecamatan Pulau Hanaut adalah Darat dan Air. Observasi lapangan menunjukkan bahwa secara kultur budaya desa Bapinang Hulu masih sangat kuat perpegang pada tradisi dan kebiasaan para tetuha atau sesepuh di masyarakat sehingga dapat menyebabkan kesulitan untuk bisa berkembang lebih cepat (berpola hidup terbuka). Dalam hubungan sosial kemasyarakatan Desa Bapiang Hulu Kecamatan Pulau Hanaut juga merupakan salah satu desa yang belum mendapatkan kemajuan secara signifikan, walaupun telah mendapat bantuan kucuran dana desa beberapa tahun terakhirnya.
Pemerintah tetap berupaya untuk meningkatkan kebutuhan masyarakat[3] di desa Bapinang Hulu melalui peningkatan kebutuhan masyarakat yang dilakukan secara bertahap[4] dari berbagai bidang pembangunan, seperti pembangunan infrastrukur desa, fasilitas kesehatan, fasilitas pendidikan, dan jalur transportasi. Selain peningkatan fasilitas desa, pemerintah juga melakukan peningkatan taraf hidup masyarakat [5] desa Bapinang Hulu, seperti peningkatan taraf hidup masyarakat yang dilakukan dengan adanya berbagai macam program bantuan sosial[6].
Untuk progamnya, bantuan sosial itu seharusnya merupakan komitmen pemerintah untuk mempercepat dalam penanggulangan untuk mengatasi dan menurunkan angka kemiskinan di daerah tersebut.
Bantuan Sosial adalah bantuan berupa uang, barang, atau jasa kepada seseorang, keluarga, kelompok atau masyarakat miskin, tidak mampu, dan/atau rentan terhadap risiko sosial, untuk memenuhi kebutuhan dasar fakir miskin [7]. Negara melaksanakan penanganan fakir miskin dengan melakukan penyaluran Bantuan Sosial Pangan secara Non Tunai[8]. Pemerintah juga berupaya menciptakan penyaluran bantuan sosial pangan yang lebih efektif, tepat sasaran, dan mendorong kemanfaatan secara optimal buat masyarakat.
Program program bantuan sosial ini diluncurkan mulai dari pemerintah pusat secara langsung hingga sampai program bantuan sosial yang dikelola langsung oleh pihak desa dengan menggunakan dana anggaran desa seperti Bantuan Langsung Tunai BNBA (By Name By Address). Beberapa Program Bantuan Sosial untuk masyarakat diantaranya mencakup Program Indonesia Pintar (PIP), Program Jaminan Kesehatan Nasional (JKN- KIS), Program Keluarga Harapan (PKH), Bantuan Langsung Tunai Dana Desa (BLT-DD) dan Bantuan Rastra / Bantuan Pangan Non Tunai (BPNT). Perluasan program bantuan sosial merupakan komitmen pemerintah untuk mempercepat penanggulangan dan penurunan angka kemiskinan, terutama pada Pasca masa pandemi covid19 tahun 2021 dan 2022.
Kementerian sosial mengkategorikan bantuan sosial dibagi menjadi bantuan sosial reguler dan bantuan sosial khusus. Bansos reguler dirancang untuk mendukung kebijakan pemerintah dalam percepatan penanganan kemiskinan. Bansos reguler yang dimaksud adalah Program Keluarga Harapan (PKH) dan Bantuan Pangan Non Tunai (BPNT) / Kartu Sembako. Adapun bansos khusus memiliki karakteristik berbeda. Bansos khusus eksisting yang dikelola Kemensos adalah Bantuan Sosial Tunai (BST). BST ini dirancang untuk kedaruratan, bukan untuk keperluan permanen.
Realisasi pelaksanaan program bantuan sosial tidaklah berjalan mulus. Dalam pembagiannya, pihak penerima bantuan sosial sering kali terjadi bentuk kecemburuan sosial dikalangan masyarakat. Teknik pembagian bantuan sosial dilakukan berdasarkan penilaian para pengurus desa dan Badan Permusyawaratan Desa (BPD).
Sebelum melakukan pembagian bantuan sosial pengurus desa dan BPD melakukan pendataan secara menyeluruh terhadap masyarakat. Dari data yang terkumpul pihak pengurus desa dan Badan Per musyawaratan Desa (BPD) melakukan konfirmasi atau validasi terhadap penanggungjawab wilayah yaitu ketua RT dan RW yang di anggap mengetahui persis kondisi masyarakatnya. Belum lagi mengenai kuota yang diberikan pemerintah kerap juga terjadi pertanyaan masyarakat, karena merasa di data oleh perngurus desa maka yang bersangkutan meminta bantuan yang dianggap telah dijanjikan oleh pemerintah desa.
Program bantuan sosial dilaksanakan setiap tahun sehingga seharusnya perlu dilakukan pengumpulan data kembali atau melakukan pendataan secara update. Data yang digunakan dalam pengajuan bantuan sosial ke pemerintah sering kali menggunakan data lama yang terkadang kondisi masyarakat telah berubah dari yang dulu miskin telah menjadi orang mampu, Kemudian yang dulu mampu saat ini menjadi orang miskin, pindah penduduk, meninggal dunia dan lain-lain. Hal ini juga merupakan salah satu permasalah yang dapat menimbulkan permasalahan di masyarakat sehingga sampai berujung pada timbulnya sikap kecemburuan sosial.
Pada desa bapinang hulu mengalami kesulitan dalam melakukan klasifikasi data penduduk penerima Bantuan Pangan Non Tunai (BPNT). Selain itu juga kesulitan untuk menentukan kreteria atau atribut yang digunakan untuk menentukan masyarakat penerima Bantuan Pangan Non Tunai (BPNT). Untuk memudahkan penentun atribut maka pengurus desa memengikuti standar umum yang sewajarnya diperlukan untuk memilih penerima Bantuan Pangan Non Tunai (BPNT).
Hal ini juga masih dianggap merepotkan karena atribut yang digunakan cukup banyak sehingga dalam pendataan satu penduduk juga cukup memakan waktu. Selain itu, dari penelitian yang telah dilakukan sebelumnya juga bahwa dengan pengujian yang dilakukan 9 (sembilan) kali dan menggunakan sebanyak 102 (seratus dua) record menghasilkan Accuracy performance vector mencapai 90.00% [9].
Permasalahan mengenai klasifikasi terhadap data Bantuan Sosial Pangan Non Tunai (BPNT) juga pernah dilakukan dalam penelitian [10]. Pada penelitiannya klasifikasi dilakukan dengan menggunakan algoritma naive bayes. Hasil penelitian menunjukkan bahwa Algoritma naive bayes mampu mengklasifikasi data dengan tingkat akurasi 88%. Algoritma naive bayes memiliki kelebihan Sangat simple, mudah untuk digunakan dan cepat, Membutuhkan lebih sedikit data pelatihan.
Menangani data yang kontinyu maupun diskrit (tidak saling berhubungan), model ini juga dapat digunakan untuk prediksi probabilistik [11],[12]. Akurasi digunakan untuk menunjukkan tingkat keakuratan model yang dibangun oleh algoritma dalam mengklasifikasi data. Akurasi merupakan perhitungan yang dilakukan dengan mengetahui nilai kebenaran dalam memprediksi data hasil dibagi seluruh data penelitian [13]. Meningkatkan ketepatan sasaran dan waktu penerimaan Bantuan Pangan Non Tunai sebagai KPM, memberikan pilihan dan kendali kepada KPM dalam memenuhi bantuan pangan Non Tunai, dan Mendorong hasil pencapaian Tujuan Pembangunan Berkelanjutan [14].
Berdasarkan permasalahan dan beberapa penelitian terdahulu yang telah diuraikan di atas, maka penelitian ini dilakukan dengan melajutkan penelitian [9] yaitu menggali kembali data sample pada penelitian. Selain itu, penelitian ini juga melakukan seleksi fitur atau atribut. Analisis yang dilakukan dalam penelitian ini yaitu dengan membandingkan nilai performa yang dihasilkan dari model yang dibangun algoritma yang digunakan. Algoritma memungkinkan mesin untuk menerima data, menganalisisnya, dan kemudian menghasilkan keluaran yang berada dalam kisaran yang dapat diterima[15].
2. METODOLOGI PENELITIAN
Pada penelitian ini termasuk jenis penelitian kuantitatif. Penelitian kuantitatif adalah suatu proses menemukan pengetahuan yang menggunakan data berupa angka sebagai alat menganalisis keterangan mengenai apa yang ingin diketahui [16]. Penelitian ini dapat diartikan sebagai bagian dari serangkaian investigasi sistematika terhadap fenomena dengan mengumpulkan data untuk kemudian diukur dengan teknik statistik matematika atau komputasi.
Riset ini sebagian besar dilakukan dengan menggunakan metode statistik dalam pengumpulan data kuantitatif lewat studi penelitian[17]. Pada penelitian kuantitatif biasanya menggunakan tahapan-tahapan dalam menyelesaikan penelitiannya[18]. Untuk itu gambar 1 menunjukkan tahapan-tahapan penelitian yang akan dilaksanakan untuk menemukan hasil dari penelitian ini.
Gambar 1. Tahapan Penelitian 2.1 Penelitian Sebelumnya
Penelitian ini dilakukan terinspirasi dari penelitian sebelumnya yaitu mengenai penelitian klasifikasi penduduk untuk menerima Bantuan Pangan Non Tunai (BPNT) [9]. Penelitian kali ini merupakan penelitian lanjutan yang akan melakukan pengembangan penelitian. Pada peneltian ini melakukan penambahan data sampel yang akan diolah. Pada penelitian ini juga akan melakukan seleksi fitur untuk mengetahui performa algoritma dalam mengklasifikasi data penelitian.
2.2 Studi Literatur
Pada studi literature ini dilakukan untuk mengembangkan pemahaman peneliti mengenai kasus penelitian yang dipilih. Peneliti mencari referensi pendukung yang dapat memperkuat penelitian yang akan dilaksanakan hingga nantinya hasil penelitian dapat relevan sesuai dengan ketentuan prosedur penelitian. Referensi yang dipilih untuk mendukung penelitian ini berkaitan dengan teori-teoi dalam bidang ilmu data mining. Selain itu, juga memperhatikan penelitian-penelitian lain yang telah dilakukan oleh para pakar data mining.
2.3 Penggalian Data
Penggalian data dilakukan dengan beberapa langkah untuk memperoleh data penelitian yang sesuai dengan kebutuhan penelitian. Beberapa langka dalam penggalian data yang dilakukan adalah sebagai berikut[19] :
1. Observasi – Penelitian ini melakukan observasi lapangan dengan berkunjung langsung ke desa Bapinang Hulu Kecamatan Pulau Hanaut Kotawaringin Timur untuk mendapatkan informasi yang lebih detail. Peneliti melakukan pengamatan terhadap komponen-komponen penting yang dibutuhkan dalam penelitian.
2. Telaah Dokumen / Studi pustaka – Penelitian ini melakukan telaahan terhadap dokumen-dokumen yang ada di desa Bapinang Hulu Kecamatan Pulau Hanaut Kabupaten Kotawaringin Timur, terutama mengenai dokumen penerimaan Bantuan Pangan Non Tunai (BPNT). Pada telaahan dokumen peneliti memperhatikan mulai dari dokumen pemilihan penerima hingga dokumen keputusan terhadap Kelompok Penerima Manfaat (KPM) atau para penerima Bantuan Pangan Non Tunai (BPNT).
3. Wawancara – pada penelitian ini juga melakukan wawancara untuk memvalidasi data-data yang dianggap kurang tepat berdasarkan hasil observasi dan telaahan dokumen. Wawancara dilakukan untuk mempertajam hasil pengumpulan data. Beberapa pihak yang diwawancarai diantaranya kepala desa, kaur umum, dan masyarakat atau Kelompok Penerima Manfaat (KPM) yang dipilih dalam penelitian.
2.4 Pra-Prosesing Data
Pra-prosesing data dilakukan untuk mendapatkan data-data yang relevan dalam penelitian[20] dan siap untuk dilakukan pemodelan [21]. Pada penelitian ini data yang memiliki missing dilakukan cleaning data dan reduksi data.
2.4.1 Seleksi Fitur dengan Pencarian Nilai Gain
Seleksi fitur dilakukan dalam penelitian ini untuk memperoleh fitur-fitur yang lebih relevan yaitu dengan memilih fitir-fitur yang memiliki kontribusi tinggi terhadap fitur-fitur lainnya [22], [23], [12]. Hal ini dilakukan dengan mencari nilai entropi terlebih dahulu dan kemudian mencari nilai information gain[24]. Kemudian, entropy dihitung dengan menggunakan persamaan (1) dan information gain dihitung dengan menggunakan persamaan (2).
Entropy (S) = ∑ni=i−pi ∗ log2 p2 (1)
Gain (S, A) = Entropy (S) − ∑ |Si|
|S|
ni=1 ∗ Entropy (Si) (2)
2.4.2 Pemilihan Gain tertinggi
Setelah setiap fitur memiliki nilai information gain, maka selanjutnya dipilih lah fitur yang akan digunakan dalam penelitian. Fitur yang yang akan digunakan dalam penelitian merupakan fitur yang memiliki nilai information Gain tertinggi[25].
2.5 Klasifikasi Data dengan Algoritma Naiive Bayes
Klasifikasi data dilakukan dengan menggunakan Algoritma naïve bayes. Algoritma naïve bayes. Klasifikasi yang dilakukan algoritma naïve bayes dilakukan untuk mengetahui bahwa pada data testing apa penduduk berhak memdapatkan Bantuan Pangan Non Tunai (BPNT) atau tidak. Teorema Bayes memiliki bentuk umum dengan persamaan (3) dibawah ini.
P(C|X) = P(X|C)·P(C) / P(X) (3)
2.6 Evaluasi Performa
Evaluasi performa dilakukan dengan membandingkan nilai kebenaran yang dihasilkan oleh algoritma terhadap nilai data yang sebenarnya[26]. Untuk itu dalam penelitian ini dilakukan dengan membentuk Confusion matrix.
Dari Confusion matrix yang dihasilkan maka selanjutnya dapat dihitung dengan nilai untuk mendapatkan nilai akurasi. Persamaan (4) merupakan bentuk persamaan matematika yang akan digunakan untuk mengetahui nilai akurasi.
Accuracy = (TP + TN) / (TP + TN + FP + FN) (4)
2.7 Perbandingan Performa
Selanjutnya setelah mendapatkan nilai akurasi maka peneliti dapat membandingkan hasil nilai akurasi. Nilai akurasi yang dibandingkan adalah hasil klasifikasi tanpa seleksi fitur dengan hasil klasifikasi data yang menggunakan seleksi fitur.
3. HASIL DAN PEMBAHASAN
3.1 Dataset
Dataset penelitian yang digunakan adalah data penduduk di desa bapinang hulu. Pada dataset memiliki beberapa variabel yang digunakan sebagai acuan dalam penentuan penerima bantuan social di desa bapinang hulu. Beberapa variabel yang akan menjadi pertimbangan dalam klasifikasi data pada penelitian ini adalah sebagai berikut :
1. Variabel penghasilan dapat digunakan untuk menentukan apakah suatu keluarga atau individu memenuhi kriteria pendapatan yang dibutuhkan untuk menerima bantuan sosial.
2. Variabel jumlah anak laki-laki dan jumlah anak perempuan dapat digunakan untuk mengidentifikasi keluarga dengan anak yang membutuhkan bantuan sosial.
3. Variabel jumlah anggota keluarga yang hamil dapat digunakan untuk mengidentifikasi keluarga yang membutuhkan bantuan kesehatan atau gizi.
4. Variabel pendidikan dan pekerjaan dapat digunakan untuk mengidentifikasi keluarga atau individu yang membutuhkan bantuan pendidikan atau pelatihan kerja.
5. Variabel jumlah anak SD, SMP, dan SMA dapat digunakan untuk mengidentifikasi anak-anak yang membutuhkan bantuan pendidikan.
6. Variabel jumlah bumil (ibu hamil) dan jumlah usia dini dapat digunakan untuk mengidentifikasi keluarga yang membutuhkan bantuan kesehatan dan gizi khususnya untuk ibu dan anak balita.
7. Variabel jumlah lansia dapat digunakan untuk mengidentifikasi keluarga yang membutuhkan bantuan kesehatan khususnya untuk lansia.
Pada penelitian ini fitur atau variabel yang digunakan memiliki beberapa type data dalam mengklasifikasi bantuan pangan non tunai. Tabel 1 menunjukkan type data yang tterdapat pada dataset yang akan digunakan dalam klasifikasi bantuan pangan non-tunai pada penelitian ini.
Tabel 1. Typedata pada Dataset
No Nama Fitur/Variabel Type Data
1 Nama Kepala Keluarga Polinominal (Sebagai ID)
2 Jenis Kelamin Binominal
3 Penghasilan Integer
4 Jumlah Anak Laki-Laki Integer
5 Jumlah Anak Perempuan Integer
6 Jumlah Anggota Keluarga Yang Hamil Integer
7 Rt Integer
8 Pendidikan Polinominal
9 Pekerjaan Polnominal
10 Jumlah Anak Sd Integer
11 Jumlah Anak Smp Integer
12 Jumlah Anak Sma Integer
13 Jumlah Bumil Integer
14 Jumlah Usia Dini Integer
15 Jumlah Lansia Integer
16 Penerima Bantuan Binominal (Sebagai Label) Penerima/Tidak
Pada tabel 1 terdapat 3 jenis type data yang digunakan pada penelitian. Type data yang digunakan yaitu binominal, polinominal, dan integer. Variabel yang memiliki 2 hasil atau 2 pilihan disebut variabel dengan type data binominal yang terdapat pada variabel jenis kelamin dan variabel penerima bantuan. Variabel yang menunjukkan type data polinominal yaitu Nama Kepala Keluarga, Pendidikan dan Pekerjaan. Selanjutnya Variabel yang memiliki type data integer terdapat pada beberapa variabel berikut ini:
a. Penghasilan: Jumlah pendapatan dalam suatu periode tertentu
b. Jumlah Anak Laki-Laki: Jumlah anak laki-laki dalam sebuah keluarga c. Jumlah Anak Perempuan: Jumlah anak perempuan dalam sebuah keluarga
d. Jumlah Anggota Keluarga Yang Hamil: Jumlah anggota keluarga yang sedang hamil pada suatu periode tertentu
e. Rt: Nomor Rumah Tangga dalam suatu wilayah atau kompleks perumahan f. Jumlah Anak SD: Jumlah anak yang masih bersekolah di Sekolah Dasar
g. Jumlah Anak SMP: Jumlah anak yang masih bersekolah di Sekolah Menengah Pertama h. Jumlah Anak SMA: Jumlah anak yang masih bersekolah di Sekolah Menengah Atas i. Jumlah Bumil: Jumlah ibu hamil dalam suatu populasi atau kelompok tertentu
j. Jumlah Usia Dini: Jumlah anak balita atau usia dini dalam suatu populasi atau kelompok tertentu k. Jumlah Lansia: Jumlah individu yang berusia lanjut dalam suatu populasi atau kelompok tertentu.
3.2 Preprocessing
Tahap Preprocessing dilakukan dengan baik dapat mempengaruhi performa model Algoritma[27]. Untuk itu, dilakukan juga dengan memperbaiki penulisan yang typo dalam dataset pada tahap preprocessing. Hal ini dilakukan karena memperbaiki penulisan yang typo pada dataset termasuk sebagai salah satu tahapan dalam preprocessing data. Preprocessing data adalah proses persiapan data sebelum melakukan analisis atau pemodelan data. Tujuannya adalah memastikan bahwa data dalam kondisi yang baik dan siap digunakan dalam analisis data.
Preprocessing data meliputi beberapa tahapan, seperti membersihkan data (data cleaning), penghapusan atau pengisian nilai yang hilang (missing value), penghapusan outlier (data yang sangat berbeda), normalisasi data, pengkodean kategori data, reduksi dimensi, dan masih banyak lagi. Salah satu tahapan preprocessing data adalah memperbaiki penulisan yang typo pada dataset, yang dapat dilakukan dengan menggunakan berbagai teknik, seperti penggunaan fungsi pencarian dan penggantian (find and replace), penggunaan kamus (dictionary), dan penggunaan teknik otomatisasi deteksi dan koreksi typo pada data. Oleh karena itu, sebelum melakukan analisis atau pemodelan data, perlu dilakukan tahapan preprocessing data yang tepat dan terstruktur, termasuk memperbaiki penulisan yang typo pada dataset, untuk memastikan kualitas data yang baik dan hasil analisis yang akurat.
3.3 Pengolahan Data Tanpa Seleksi Fitur
Langkah awal dalam menggunakan adalah dengan membagi dataset menjadi dua bagian, yaitu data latih (training data) dan data uji (testing data). Data latih digunakan untuk melatih model atau algoritma, sedangkan data uji digunakan untuk menguji performa model atau algoritma yang telah dilatih. Selanjutnya, variabel-variabel yang dapat dijadikan fitur atau input pada algoritma. Algoritma dapat dirancang untuk mempelajari pola atau hubungan antara fitur atau variabel dengan kelas yang ada pada dataset. Dalam hal ini, kelas yang diinginkan adalah
"penerima bantuan" dan "non-penerima bantuan". Setelah Model algoritma dilatih, dapat dilakukan pengujian terhadap data uji untuk mengukur akurasi dan performa model.
Algoritma naïve bayes diterapkan dengan menggunakan rumus pada persamaan (3). Secara rinci untuk dapat meperoleh hasil dari persaman (3) maka dilakukan beberapa tahapan dalam mengolah data menggunakan algoritma naïve bayes yaitu : Prior probability, Likelihood probability, dan Posterior probability. Tabel 2 menunjukkan perbedaan value label antara hasil perolehan data lapangan dengan hasil perhitungan menggunakan algoritma naïve bayes.
Tabel 2. Hasil Prediksi Algoritma Naïve Bayes
No Jumlah Data Training Jumlah Data Testing Hasil Prediksi Sama Hasil Prediksi Berbeda
1 25 221 91 130
2 49 197 168 29
3 74 172 139 33
4 98 148 117 31
5 123 123 104 19
6 148 98 76 22
7 172 74 61 13
8 197 49 44 5
9 222 24 18 6
Pada tabel 2 menunjukkan bahwa prediksi yang dilakukan dengan menggunakan data training sebanyak 25 record dan data testing sebanyak 221 record menghasilkan kesalahan prediksi yang dilakukan algoritma naïve bayes sebanyak 130 record data. Selanjutnya pada data testing sebanyak 197 memiliki kesalahan prediksi 29 record, data testing sebanyak 172 memiliki kesalahan prediksi 33 record, data testing sebanyak 148 memiliki kesalahan prediksi 31 record, data testing sebanyak 123 memiliki kesalahan prediksi 19 record, data testing sebanyak 98 memiliki kesalahan prediksi 22 record, data testing sebanyak 172 memiliki kesalahan prediksi 33 record, data testing sebanyak 74 memiliki kesalahan prediksi 13 record, data testing sebanyak 49 memiliki kesalahan prediksi 5 record, dan data testing sebanyak 24 memiliki kesalahan prediksi 6 record data.
3.4 Pengolahan Data Setelah Seleksi Fitur
Pada penelitian ini seleksi fitur dilakukan dengan menggunakan Algoritma Information Gain. Seleksi fitur adalah proses memilih subset dari fitur yang paling informatif dalam sebuah dataset. Salah satu cara yang umum digunakan untuk seleksi fitur adalah dengan menggunakan algoritma Information Gain. Pencarian fitur terbaik dilakukan dengan algoritma Information gain pada penelitian ini menggunakan Software RapidMinner. Hasil perhitungan Algoritma Information gain menggunakan software RapidMinner ditunjukan pada tabel 3. atribut yang dihitung nilai information gainnya adalah variabel yang menjaadi pertimbangan dalam menentukan penerima bantuan pangan non-tunai. Untuk itu, kolom Nama Kepala keluarga (ID role) dan Kolom Penerima bantuan (Label) tidak diperhitungkan untuk menpatkan niai information gain.
Tabel 3. Nilai Information gain atribut
No Nama Atribut Nilai Information Gain
1 Jumlah Bumil 0.0
2 Jumlah Anak Perempuan 0.001
3 Jumlah Anak Smp 0.003
4 Jumlah Usia Dini 0.004
No Nama Atribut Nilai Information Gain
5 RT 0.004
6 Jumlah Anak Sma 0.005
7 Jumlah Anggota Keluarga Yang Hamil 0.013
8 Jumlah Anak Sd 0.013
9 Jumlah Lansia 0.023
10 Jumlah Anak Laki-Laki 0.027
11 Jenis Kelamin 0.098
12 Pendidikan 0.185
13 Pekerjaan 0.201
14 Penghasilan 0.436
Tabel 3 menunjukkan bahwa bahwa fitur "Penghasilan" adalah fitur yang paling informatif dalam membedakan kelas pada dataset. Hal ini disebabkan oleh fakta bahwa nilai Information Gain pada fitur
"Penghasilan" adalah yang tertinggi (0,436). Hal tersebut menunjukkan bahwa fitur memiliki pengaruh paling besar dalam membedakan antara kelas pada dataset. Selanjutnya, fitur "Pekerjaan" dan "Pendidikan" juga memiliki nilai Information Gain yang cukup tinggi (masing-masing 0,201 dan 0,185), yang menunjukkan bahwa kedua fitur tersebut juga berkontribusi cukup besar dalam membedakan kelas pada dataset. Sementara itu, fitur "Jenis Kelamin" juga memiliki nilai Information Gain yang cukup tinggi (0,098), yang menunjukkan bahwa fitur ini memiliki pengaruh yang cukup besar dalam membedakan kelas pada dataset. Fitur-fitur lainnya memiliki nilai Information Gain yang lebih rendah, yang menunjukkan bahwa kontribusi fitur tersebut dalam membedakan kelas pada dataset relatif lebih rendah dibandingkan dengan fitur-fitur yang memiliki nilai Information Gain lebih tinggi.
Kemudian selanjutnya setelah mengetahui nilai information gain maka dilakukan seleksi fitur untuk memilih fitur atau atribut yang akan digunakan untuk mengklasifikasi data penduduk dalam penentuan penerima bantuan pangan non-tunai. Pada penelitian ini seleksi atribut juga dilakukan dengann menggunakan Software rapid minner. penyeleksian atribut pada penelitian ini dapat dilihat pada gambar 2.
Gambar 2. Seleksi Fitur (attibutes)
Diketahui bahwa terdapat beberapa atribut yang memiliki nilai information gain tinggi pada tabel 3 digunakan sebagai rekomendasi dalam memprediksi penerima bantuan pangan non-tunai. Untuk itu, gambar 2 menunjukkan bahwa dilakukannya seleksi fitur terhadap atribut yang digunakan dalam penelitian. Beberapa atribut yang digunakan adalah jenis kelamin, pendidikan, pekerjaan dan penghasilan. Untuk atribut Nama Kepala Keluarga tetap dijadikan sebagai role ID sedangkan Penerima Bantuan Sebagai atribut label atau variabel target yang ingin di ketahui hasil keputusannya.
Pada tahapan selanjutnya dilakukan pengolahan data dengan menggunakan Algoritma naïve bayes berdasarkan atribut jenis kelamin, pendidikan, pekerjaan dan penghasilan. Untuk itu, selanjutnya dapat dilakukan pelatihan model. Algoritma Naive Bayes akan mempelajari pola dan distribusi dari atribut-atribut yang ada pada
data pelatihan, dan menghasilkan model yang dapat digunakan untuk memprediksi label pada data uji. Tabel 4 merupakan haasil dari data uji yang dilakukan oleh Algoritma naïve bayes.
Tabel 4. Hasil Prediksi Algoritma Naïve Bayes Setelah Seleksi Fitur
No Jumlah Data Training Jumlah Data Testing Hasil Prediksi Sama Hasil Prediksi Berbeda
1 25 221 180 34
2 49 197 174 23
3 74 172 152 20
4 98 148 129 19
5 123 123 99 24
6 148 98 86 12
7 172 74 62 12
8 197 49 41 8
9 222 24 19 5
Berdasarkan informasi yang diberikan pada tabel 4 dapat disimpulkan bahwa pengujian dilakukan sebanyak 9 kali dengan proporsi training yang berbeda-beda, yaitu 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, dan 90%
dari total 246 record data. Setelah itu, algoritma Naive Bayes dijalankan pada setiap kelompok training dan menghasilkan perbedaan prediksi seperti yang tertera pada tabel 4. Perbedaan prediksi yang terjadi dapat diartikan sebagai selisih antara jumlah data yang diprediksi dengan benar dan jumlah data yang seharusnya diprediksi dengan benar pada masing-masing kelompok training. Dengan demikian, semakin besar nilai perbedaan prediksi, semakin buruk kinerja model Naive Bayes dalam memprediksi label pada data uji. Berikut adalah interpretasi dari hasil perbedaan prediksi yang terjadi:
a. Pada kelompok training dengan 10% data, terjadi perbedaan prediksi sebanyak 34 data. Hal ini mungkin disebabkan oleh kurangnya jumlah data yang digunakan untuk melatih model, sehingga model tidak dapat mempelajari pola yang cukup dari data pelatihan.
b. Pada kelompok training dengan 20% data, terjadi perbedaan prediksi sebanyak 23 data. Meskipun lebih baik daripada kelompok sebelumnya, masih terjadi perbedaan yang cukup besar pada model.
c. Pada kelompok training dengan 30% data, terjadi perbedaan prediksi sebanyak 20 data. Kinerja model sedikit meningkat dibandingkan kelompok sebelumnya, tetapi masih belum cukup baik.
d. Pada kelompok training dengan 40% data, terjadi perbedaan prediksi sebanyak 19 data. Kinerja model semakin meningkat, dan perbedaan prediksi mulai menunjukkan nilai yang lebih kecil.
e. Pada kelompok training dengan 50% data, terjadi perbedaan prediksi sebanyak 24 data. Terjadi penurunan kinerja model pada kelompok ini, meskipun masih lebih baik daripada kelompok dengan 10% data.
f. Pada kelompok training dengan 60% data, terjadi perbedaan prediksi sebanyak 12 data. Kinerja model semakin meningkat dan perbedaan prediksi menurun secara signifikan.
g. Pada kelompok training dengan 70% data, terjadi perbedaan prediksi sebanyak 12 data, yang sama dengan kelompok sebelumnya.
h. Pada kelompok training dengan 80% data, terjadi perbedaan prediksi sebanyak 8 data. Kinerja model semakin meningkat dan perbedaan prediksi semakin kecil.
i. Pada kelompok training dengan 90% data, terjadi perbedaan prediksi sebanyak 5 data. Kelompok ini menunjukkan kinerja model yang paling baik, karena menggunakan sebagian besar data untuk melatih model.
3.5 Performa Algoritma
Performa algoritma Naive Bayes dapat diukur dengan menggunakan beberapa metrik salah satunya adalah akurasi [28]. Banyak hal yang dapat mempengaruhi performa dari algoritma naïve bayes seperti yang akan dibahas sebagai berikut.
3.5.1 Performa Algoritma Naïve Bayes Sebelum Seleksi Fitur
Akurasi dari sebuah model, perlu dilakukan proses pembelajaran atau pelatihan terlebih dahulu dengan menggunakan data training dan validasi yang cukup. Setelah model terlatih, barulah dapat dilakukan pengujian pada data testing untuk mengetahui nilai akurasi model. Nilai akurasi dapat diperoleh dengan menghitung berbagai metrik evaluasi seperti accuracy, precision, recall, dan lain sebagainya setelah melakukan proses pelatihan dan pengujian pada data training dan data testing.
Untuk melakukan perhitungan akurasi pada penelitian ini menggunakan software rapid minner. Hasil dari perhitungan nilai akurasi menggunakan aplikasi rapid minner dapat dilihat pada gambar 3. Pada gambar 3 dilakukan pembangian data training dan data testing. Data training yang digunakan dalam pengujian gambar 3 sebanyak 90% dari 246 record dataset. Sehingga data yang dijadikan sebagai data training sebanyak 222 record data. Karena data training yang digunakan dalam pengujian gambar 3 sebanyak 222 record, maka yang dapat digunakan dalam proses testing pada gambar 3 adalah 24 record data. Pada tabel 2 telah diketahui bahwa hasil prediksi dari sebanyak data testing 24 record diperoleh prediksi sama dengan kondisi lapangan sebanyak 18 record data. Sedangkan terdapat 6 record data memiliki hasil prediksi berbeda dengan kondisi lapangan.
Gambar 3. Performa Algoritma Sebelum Seleksi fitur
Gambar 3 memberikan informasi tentang empat kemungkinan prediksi yang dapat dilakukan oleh model, yaitu prediksi penerima (positif) dan prediksi tidak penerima (negatif) yang masing-masing dibandingkan dengan kelas sebenarnya, yaitu data yang sebenarnya penerima (true penerima) dan data yang sebenarnya tidak penerima (true tidak). Dengan menggunakan rumus precision dan recall, didapatkan hasil sebagai berikut:
1. Precision = TP / (TP + FP) = 14 / (14 + 2) = 87.78%
Precision merupakan metrik evaluasi yang menghitung proporsi data yang benar diklasifikasikan sebagai positif (penerima) dari seluruh data yang diprediksi sebagai positif. Dari hasil tersebut, dapat diketahui bahwa 87.78% data yang diprediksi sebagai penerima benar-benar merupakan penerima bantuan pangan non-tunai.
2. Recall = TP / (TP + FN) = 14 / (14 + 4) = 77.78%
Recall merupakan metrik evaluasi yang menghitung proporsi data yang benar diklasifikasikan sebagai positif (penerima) dari seluruh data yang sebenarnya positif. Dari hasil tersebut, dapat diketahui bahwa 77.78% data penerima bantuan pangan non-tunai telah terdeteksi dengan benar oleh model.
3. Precision untuk kelas TIDAK = TN / (TN + FN) = 4 / (4 + 2) = 66.67%
4. Recall untuk kelas TIDAK = TN / (TN + FP) = 4 / (4 + 4) = 50.00%
5. Dari hasil tersebut, dapat diketahui bahwa precision untuk kelas tidak penerima (negatif) sebesar 66.67% dan recall sebesar 50.00%.
Kesimpulannya, model memiliki precision yang baik untuk kelas penerima (87.78%), namun memiliki recall yang sedikit lebih rendah (77.78%). Sedangkan untuk kelas tidak penerima (negatif), model memiliki precision sebesar 66.67% dan recall sebesar 50.00%. Oleh karena itu, perlu dilakukan evaluasi lebih lanjut terhadap model untuk meningkatkan performanya terutama pada kelas yang memiliki recall yang lebih rendah.
Nilai Accuracy dari gambar 3 adalah 75.00% yang diperoleh dengan rumus Accuracy = (TP + TN) / (TP + TN + FP + FN) yang mana diketahui bahwa nilai TP=14, TN=4, FP=2, FN=4. Sehingga perhitungan yang dapat dilakukan adalah:
Accuracy = 14+4
14+4+2+4= 75,00%
Selanjutnya untuk mengathui nilai akurasi dari setiap pengujian mulai dari pengujian Ke-1 hingga pengijian Ke-9 dapat dilihat pada tabel 5.
Tabel 5. Nilai performa Algoritma (Accuracy) Sebelum Seleksi Fitur No Jumlah Data
Training
Jumlah Data Testing
Hasil Prediksi Sama
Hasil Prediksi Berbeda
Nilai Akurasi
1 25 221 91 130 41,18
2 49 197 168 29 85,26
3 74 172 139 33 80,81
4 98 148 117 31 79,05
5 123 123 104 19 84,55
6 148 98 76 22 77,55
7 172 74 61 13 82,43
8 197 49 44 5 89,80
9 222 24 18 6 75,00
Tabel 5 menunjukan nilai akurasi dari beberapa tahapan yang telah dilakukan dengan melakukan menerapkan rumus Accuracy. Nilai-nilai yang diperoleh yaitu Pengujian 1: 41.18%, Pengujian 2: 85.26%, Pengujian 3: 80.81%, Pengujian 4: 79.05%, Pengujian 5: 84.55%, Pengujian 6: 77.55%, Pengujian 7: 82.43%, Pengujian 8: 89.80%, dan Pengujian 9: 75.00%
Dari nilai-nilai tersebut, terlihat bahwa nilai akurasi memiliki variasi yang cukup besar dari setiap pengujian. Pengujian ke-8 memiliki akurasi tertinggi dengan nilai 89.80%, sedangkan pengujian ke-1 memiliki akurasi terendah dengan nilai 41.18%. Rata-rata akurasi dari keseluruhan pengujian adalah sebesar 78.49%.
3.5.2 Performa Algoritma Naïve Bayes Setelah Seleksi Fitur
Performa Algoritma setelah seleksi fitur dilakukan untuk mengetahui hasil dari kinarja algoritma naïve bayes dalam mengklasifikasi peneduduk penerima bantuan pangan non-tunai. Setelah dilakukan seleksi fitur dan pembagian data menjadi data training dan data testing, langkah selanjutnya adalah melakukan pelatihan (training) model pada data training dan evaluasi performa model pada data testing. Evaluasi performa dapat dilakukan dengan menggunakan metrik evaluasi seperti akurasi, precision, recall, dan lain-lain
Jumlah record data sebelum dan setelah seleksi fitur seharusnya sama. Seleksi fitur dilakukan dengan memilih subset atribut yang dianggap paling relevan dan signifikan dalam memprediksi target variabel. Oleh karena itu, seleksi fitur tidak mempengaruhi jumlah record data yang ada dalam dataset. Sebagai contoh, dalam penelitian ini sebelum seleksi fitur terdapat 246 record data dengan total 16 atribut, setelah dilakukan seleksi fitur terhadap 6 atribut yang dianggap paling relevan, maka jumlah record data dalam dataset akan tetap 246, namun hanya terdapat 6 atribut pada dataset yang akan digunakan untuk membangun model. Jadi pada dataset ini memiliki empat jenis variabel regular, yaitu: Jenis kelamin, Pekerjaan, Pendidikan, dan Penghasilan. Sedangkan untuk variabel target adalah "Penerima bantuan". Variabel "Nama Kepala Keluarga"dijadikan sebagai Role ID.
Data yang di proses pada gambar 5 merupakan data yang telah di kelompokkan menjadi data training dan data testing dari 246 record data. Data Training dialokasikan sebnyak 90% dan data testing sebanyak 10%.
Sehingga pada pengujiannya jumlah data training 222 record dan Jumlah data testing sebanyak 24 record data.
Hasil pengolahan data menunjukkan bahwa dari 24 record data testing terdapat 19 record data mampu diprediksi Algoritma Naïve bayes sesuai dengan hasil apangan sedangkan masih terdapat 5 record data menghasilkan prediksi yang berbeda dengan kondisi lapangan. Sehingga hasil dari nilai accuracy Algoritma Naïve bayes dapat dilihat pada gambar 5.
Gambar 5. Performa Algoritma Setelah Seleksi fitur
Pada Gambar 5 diketahui bahwa hasil prediksi yang diberikan adalah terdapat 24 record data yang menjadi sample data training. Diketahui bahwa 16 terdapat 16 data yang masuk pada kolom true PENERIMA. Kemudian dari 16 data tersebut, terdapat 13 sampel yang sebenarnya termasuk ke dalam kategori "PENERIMA" dan berhasil diprediksi dengan benar, sementara 3 data yang sebenarnya termasuk ke dalam kategori "TIDAK" diprediksi sebagai "PENERIMA".
Kemudian pada kolom true TIDAK terdapat 8 record. Hasil prediksi menunjukkan bahwah 6 data yang sebenarnya termasuk ke dalam kategori "TIDAK" dan berhasil diprediksi dengan benar, sementara 2 sampel yang sebenarnya termasuk ke dalam kategori "PENERIMA" diprediksi sebagai "TIDAK". Dengan menggunakan rumus precision dan recall maka diperoleh nilai :
1. Dalam hal ini, precision atau akurasi prediksi untuk kategori "PENERIMA" adalah 13/(13+3) x 100% = 81.25%, sedangkan untuk kategori "TIDAK" adalah 6/(6+2) x 100% = 75.00%.
2. Sementara itu, recall atau kemampuan model untuk mengenali kategori "PENERIMA" adalah 13/16 x 100%
= 81.25%, sedangkan untuk kategori "TIDAK" adalah 6/8 x 100% = 75.00%.
3. Precision untuk kelas TIDAK = TN / (TN + FN) = 6 / (6 + 3) = 66.67%
4. Recall untuk kelas TIDAK = TN / (TN + FP) = 6 / (6 + 2) = 75.00%
Nilai Accuracy pada gambar 5 diperoleh dengan rumus (TP + TN) / (TP + TN + FP + FN) sehingga Accuracy = 13+6
13+6+2+3= 79,17.
Pencapaian 79,17% accuracy setelah melakukan seleksi fitur pada dataset penerima bantuan pangan non- tunai. Selanjutnya untuk mengathui nilai akurasi dari setiap pengujian mulai dari pengujian Ke-1 hingga pengijian Ke-9 dapat dilihat pada tabel 6
Tabel 6. Nilai performa Algoritma (Accuracy) Setelah Seleksi Fitur
No Jumlah Data Training
Jumlah Data Testing
Hasil Prediksi Sama
Hasil Prediksi Berbeda
Nilai Akurasi
1 25 221 180 34 84,62
2 49 197 174 23 88,32
No Jumlah Data Training
Jumlah Data Testing
Hasil Prediksi Sama
Hasil Prediksi Berbeda
Nilai Akurasi
3 74 172 152 20 88,37
4 98 148 129 19 87,16
5 123 123 99 24 80,49
6 148 98 86 12 87,76
7 172 74 62 12 83,78
8 197 49 41 8 83,67
9 222 24 19 5 79,17
3.6 Analisis Perbandingan
Dataset penelitian telah memiliki karakteristik yang sama dengan data penerima bantuan pangan non-tunai, sehingga hasil dari analisis dapat diterapkan pada data asli. Algoritma yang dipilih telah memiliki kemampuan untuk mengolah data penerima bantuan pangan non-tunai dan sudah terbukti memiliki performa yang baik pada tugas-tugas yang serupa. Hal ini telah terbukti pada penelitain sebelumnya[9] bahwa hasil klasifikasi data dengan menggunakan dataset sebanyak 102 record data menghaasilkan nilai akurasi sebesar 90% pada pengujian ke-9.
Dengan membagi data training 90% dan data testing 10%.
Berdasarkan penelitian [9] maka penelitian ini perlu dilakukan kembali dengan jumlah dataset yang digunakan lebih banyak dari data sebelumnya. Sebagaimana menurut penelitian [29] dan [30] yang menyatakan banyaknya data dalam penelitian juga akan mempengaruhi hasil penelitian. Dalam penelitian, semakin besar ukuran dataset yang digunakan, semakin representatif hasil yang diperoleh terhadap populasi yang diteliti. Dengan jumlah data yang lebih banyak, akan memungkinkan algoritma machine learning untuk belajar lebih banyak pola dan memprediksi dengan lebih baik. Bahkan dengan menambah jumlah data tidak selalu berarti akan meningkatkan performa model. Kualitas data dan keberagaman data juga mempengaruhi performa model.
Berbagai tahapan pengolahan data telah dilakukan bahkan hingga pengujian role performa algoritma yang dihasilkan oleh algoritma naïve bayes. Maka langkah selanjutnya adalah melakukan evaluasi terhadap hasil yang diperoleh. Evaluasi dilakukan dengan memperhatikan nilai accuracy yang dihasilkan dari pengolahan data yang telah diterapkan. Perbandingan Nilai accuracy dapat dilihat pada tabel 7.
Tabel 7. Analisis Perbandingan
Pengujian Ke- Nilai Akurasi Sebelum Seleksi Fitur Nilai Akurasi Setelah Seleksi Fitur
1 41,18 84,62
2 85,26 88,32
3 80,81 88,37
4 79,05 87,16
5 84,55 80,49
6 77,55 87,76
7 82,43 83,78
8 89,80 83,67
9 75,00 79,17
Tabel 7 menunjukkan hasil pengujian akurasi sebelum dan setelah seleksi fitur pada sembilan pengujian yang dilakukan. Dalam tabel tersebut, terdapat dua kolom yang masing-masing menunjukkan nilai akurasi sebelum dan setelah dilakukan seleksi fitur. Tabel 7 tersebut dapat dilihat bahwa seleksi fitur berhasil meningkatkan nilai akurasi pada beberapa pengujian, namun pada beberapa pengujian lainnya justru menurunkan nilai akurasi.
Selanjutnya untuk mengetahui bahwa perubahan nilai akurasi mengalami tingkat signifikansi atau tidak perlu dilakukan pula pengujian pairen t-Test. Uji Pairen t-Test terhadap nilai akurasi akan dapat menunjukkan tingkat signifikansi pada Classifiers. Uji Pairen t-Test dilakukan pada sub bab ini yaitu dengan menguji nilai akurasi sebelum seleksi fitur dengan setelah menggunkan metode seleksi fitur Information Gain. Tingkat signifikansi dapat dijelaskan pada bagian berikut ini dengan ketentuan Jika t ≤ - z atau t ≥ z. Tabel 8 menunjukkan nilai signifikansi terhadap perubahan nilai akurasi dalam penelitian ini.
Tabel 8. t-Test: Paired Two Sample for Means
Nilai Akurasi Sebelum Seleksi Fitur
Nilai Akurasi Setelah Seleksi Fitur
Mean 77,29222222 84,81555556
Variance 202,9849944 11,51087778
Observations 9 9
Pearson Correlation 0,036892741
Hypothesized Mean
Difference 0
df 8
Nilai Akurasi Sebelum Seleksi Fitur
Nilai Akurasi Setelah Seleksi Fitur
t Stat -1,554043442
P(T<=t) one-tail 0,079390174
t Critical one-tail 1,859548038
P(T<=t) two-tail 0,158780347
t Critical two-tail 2,306004135
Uraian tabel 8 menunjukkan bahwa penggunaan Algoritma Naive Bayes mengalami peningkatan akurasi secara signifikan setelah menerapkan metode seleksi fitur dengan Algoritma Information Gain. Hal tersebut diperlihatkan dengan nilai t Stat adalah -1,554043442 dan nilai t Critical two-tail adalah 2,306004135. Sehingga skema penulisan persamaannya adalah nilai -7.462902557 ≤ -2,306004135 dan dapat disimpulkan bahwa pernyataan tersebut benar bahwan nilai t- Stat ≤ t Critical two-tail. Hal ini menunjukkan bahwa secara keseluruhan nilai akurasi mengalami peningkatan signifikan ketika dilakukan seleksi fitur pada dataset penelitian walaupun pada pada pengujian ke-8 sebelum seleksi fitur masih terdapat nilai akurasi tertinggi yang sebesar 89,80. Dengan demikian pada penelitian ini merekomendasikan 2 pilihan model klasifikasi yang dihasilkan dari algoritma naïve bayes dalam melakukan seleksi penerima bantuan sosial. Pilihan pertama menggunakan model klasifikasi setelah seleksi fitur pada pengujian ke-3 dengan nilai akurasi 88,37 sehingga dalam menentukan penerim bantuan sosial dapat lebih cepat tanpa memerlukan waktu lebih lama.
4. KESIMPULAN
Pada penelitian melakukan klasifikasi data penduduk untuk menentukan penerima bantuan sosial dengan menerapkan 9 kali pengujian. Selain itu juga melakukan perbandiangan antara pengolahan data penelitian sebelum dan sesudah dilakukannya seleksi fitur pada data penelitian. Hasil penelitian menunjukkan bahwa performa model algoritma Naive Bayes sebelum seleksi fitur nilai tertinggi terdapat pada pengujian ke-8 dengan akurasi 89,80%.
Sedangkan setelah seleksi fitur nilai akurasi tertinggi terdapat pada pengujian ke-3 dengan akurasi 88,37%. Hasil seleksi fitur menggunakan algoritma Information Gain dari atribut sebanyak 16 menjadi 6 atribut. Dengan demikian penelitian ini memperoleh 2 pilihan rekomendasi dalam melakukan seleksi penerima bantuan sosial.
Pilihan pertama menggunakan model klasifikasi yang memiliki akurasi tertinggi. Dengan pola tanpa seleksi fitur hanya saja dalam melakukan seleksi penerima bantuan sosial perlu menerapkan kreteria lebih banyak dan cukup memakan waktu. Pilihan ke-2 menggunakan model klasifikasi setelah seleksi fitur yaitu hanya menggunakan 6 kreteria untuk menentukan penerima bantuan sosial. Untuk mengembangkan penelitian ini, pada penelitian selanjutnya dapat melakukan teknik atau algoritma-algoritma lainnya dalam tahapan preprocessing maupun seleksi fitur
REFERENCES
[1] A. A. Wadha, “Tradisi Manugal Pada Masyarakat Dayak Kahayan Kalimantan Tengah Perspektif Ekonomi Islam,” 2020.
Accessed: Apr. 15, 2023. [Online]. Available: http://digilib.iain-palangkaraya.ac.id/2991/1/Annisa Aulya Wadha - 1604120554.pdf.
[2] Idm, “Hasil Rekomendasi IDM,” Direktorat Jenderal Pembangunan Desa dan Perdesaan, 2020.
https://idm.kemendesa.go.id/rekomendasi (accessed Apr. 15, 2023).
[3] G. Mahadika, “Conditional Harmony: The Relations between Mining Company and Local People,” JCIC J. CIC Lemb.
Ris. dan Konsult. Sos., vol. 3, no. 1, 2021, doi: 10.51486/jbo.v3i1.24.
[4] B. S. Kehik and M. Y. Mael, “Analisis Pengelolaan Alokasi Dana Desa dalam Peningkatan Perekonomian Masyarakat Petani di Desa Usapinonot,” AGRIMOR, vol. 2, no. 04, 2017, doi: 10.32938/ag.v2i04.319.
[5] D. A. Soraya, “Dampak Pemberian Dana Hibah Pemerintah Kota Metro Terhadap Peningkatan Taraf Hidup Masyarakat di Kelurahan Yosorejo Metro Timur,” J. Keperawatan. Univ. Muhammadya Malang, vol. 4, no. 1, 2017.
[6] M. Luthfi, “Efektifitas Bantuan Sosial Program Keluarga Harapan Dalam Meningkatkan Kesejahteraan Keluarga (Studi Kasus di Desa Margajaya Kecamatan Ngamprah KBB),” Comm-Edu (Community Educ. Journal), vol. 2, no. 1, 2019, doi: 10.22460/comm-edu.v2i1.2442.
[7] M. I. Timmerman, S. Sambiran, and S. E. Pangemanan, “Implementasi Kebijakan Jaring Pengaman Sosial Program Keluarga Harapan Dalam Penanganan Covid-19 Di Kelurahan Mahakeret Barat,” J. Gov., vol. 1, no. 1, 2021.
[8] I. Laloan, S. Kairupan, and J. Langkai, “Evaluasi Proses Implementasi Program Bantuan Pangan Nontunai di Kecamatan Tomohon Selatan,” J. Adm. J. Kaji. Kebijak. dan ilmu Adm. Negara, vol. 2, no. 2, 2021, doi:
10.53682/administro.v2i2.1681.
[9] Nurahman, M. M. Alfitri, and E. Mashamy, “Klasifikasi Data Penduduk Untuk Menerima Bantuan Pangan Non Tunai Menggunakan Algoritma Naïve Bayes,” JURIKOM (Jurnal Ris. Komputer), vol. 9, no. 4, pp. 1035–1043, 2022, doi:
10.30865/jurikom.v9i4.4678.
[10] A. A. A. Arifin, W. Handoko, and Z. Efendi, “Implementasi Metode Naive Bayes Untuk Klasifikasi Penerima Program Keluarga Harapan,” J-Com (Journal Comput., vol. 2, no. 1, 2022, doi: 10.33330/j-com.v2i1.1577.
[11] M. Siddik, H. Hendri, R. N. Putri, Y. Desnelita, and G. Gustientiedina, “Klasifikasi Kepuasan Mahasiswa Terhadap Pelayanan Perguruan Tinggi Menggunakan Algoritma Naïve Bayes,” INTECOMS J. Inf. Technol. Comput. Sci., vol. 3, no. 2, 2020, doi: 10.31539/intecoms.v3i2.1654.
[12] I. Oktanisa and A. A. Supianto, “Perbandingan Teknik Klasifikasi Dalam Data Mining Untuk Bank Direct Marketing,”
J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 5, 2018, doi: 10.25126/jtiik.201855958.
[13] R. Indra Borman and M. Wati, “Penerapan Data Maining Dalam Klasifikasi Data Anggota Kopdit Sejahtera Bandarlampung Dengan Algoritma Naïve Bayes,” J. Ilm. Fak. Ilmu Komput., vol. 09, no. 01, pp. 25–34, 2020.
[14] I. Fadlurrohim, S. A. Nulhaqim, and S. Sulastri, “Implementasi Program Bantuan Pangan Non Tunai (Studi Kasus di Kota Cimahi),” Share Soc. Work J., vol. 9, no. 2, 2020, doi: 10.24198/share.v9i2.20326.
[15] H. Jurnal, A. Fathurohman FKIP, and P. Fisika, “Machine Learning Untuk Pendidikan: Mengapa dan Bagaimana,” vol.
1, no. 3, pp. 57–62, 2021.
[16] A. Rahman, “Mengukur Loyalitas Konsumen Terhadap Suatu E-Commerce Untuk Meningkatkan Penjualan dengan Metode Logistic Regression,” J. Ilmu Data, vol. 2, no. 10, 2022.
[17] I Made Laut Mertha Jaya, Metode Penelitian Kuantitatif dan Kualitatif: Teori, Penerapan, dan Riset Nyata. 2020.
[18] J. Jabbar, “Sistem Informasi Stok Barang Menggunakan Metode Clustering Kmeans (Studi Kasus Rmd Store),”
INFOTECH J., vol. 8, no. 1, 2022, doi: 10.31949/infotech.v8i1.2280.
[19] N. Nosiel, S. Sriyanto, and F. Maylani, “Perbandingan Teknik Data Mining Untuk Prediksi Penjualan Pada UMKM Gerabah,” Pros. Semin. Nas. Darmajaya, vol. 1, 2021.
[20] E. Etriyanti, D. Syamsuar, and N. Y. Kunang, “Implementasi Data Mining Menggunakan Algoritme Naive Bayes Classifier dan C4.5 untuk Memprediksi Kelulusan Mahasiswa,” Telematika, vol. 13, no. 1, pp. 56–67, Feb. 2020, doi:
10.35671/telematika.v13i1.881.
[21] Y. Pristyanto, A. Sidauruk, and A. Nurmasani, “Klasifikasi Penyakit Diabetes Pada Imbalanced Class Dataset Menggunakan Algoritme Stacking,” J. MEDIA Inform. BUDIDARMA, vol. 6, no. 1, 2022, doi: 10.30865/mib.v6i1.3442.
[22] N. Nurahman and D. Tjahjo Seabtian, “Classification of Poverty Reduction Program Recipients with Neural Network Algorithm in East Kotawaringin Communities,” E-Komtek, vol. 5, no. 2, pp. 190–202, 2021, doi: 10.37339/e- komtek.v5i2.751.
[23] N. Nurahman and P. Prihandoko, “Perbandingan Hasil Analisis Teknik Data Mining ‘Metode Decision Tree, Naive Bayes, Smo Dan Part’ Untuk Mendiagnosa Penyakit Diabetes Mellitus,” J. Inf., vol. 4, no. 1, pp. 39–44, 2019, doi:
10.25139/inform.v4i1.1403.
[24] S. Aljawarneh, M. Aldwairi, and M. B. Yassein, “Anomaly-based intrusion detection system through feature selection analysis and building hybrid efficient model,” J. Comput. Sci., vol. 25, no. 1, pp. 152–160, 2018, doi:
10.1016/j.jocs.2017.03.006.
[25] M. Hakiem, M. A. Fauzi, and Indriati, “Klasifikasi Ujaran Kebencian pada Twitter Menggunakan Metode Naïve Bayes Berbasis N-Gram Dengan Seleksi Fitur Information Gain,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 3, no. 3, 2019.
[26] V. I. Yani, A. Aradea, and H. Mubarok, “Optimasi Prakiraan Cuaca Menggunakan Metode Ensemble pada Naïve Bayes dan C4.5,” J. Tek. Inform. dan Sist. Inf., vol. 8, no. 3, 2022, doi: 10.28932/jutisi.v8i3.5455.
[27] Syahril Dwi Prasetyo, Shofa Shofiah Hilabi, and Fitri Nurapriani, “Analisis Sentimen Relokasi Ibukota Nusantara Menggunakan Algoritma Naïve Bayes dan KNN,” J. KomtekInfo, 2023, doi: 10.35134/komtekinfo.v10i1.330.
[28] N. Nurahman and S.- Aminah, “Klasifikasi Penerima Bantuan Sosial Di Desa Batuah Menggunakan Metode Algoritma C4.5,” J. Tek. Inf. dan Komput., vol. 5, no. 2, p. 271, Dec. 2022, doi: 10.37600/tekinkom.v5i2.516.
[29] K. Maksim et al., “Classification of wafer maps defect based on deep learning methods with small amount of data,” 2019, doi: 10.1109/EnT47717.2019.9030550.
[30] W. Musu, A. Ibrahim, and Heriadi, “Pengaruh Komposisi Data Training dan Testing terhadap Akurasi Algoritma C4 . 5,” Pros. Semin. Ilm. Sist. Inf. Dan Teknol. Inf., vol. X, no. 1, 2021.