1
ANALISIS ALGORITMA NAIVE BAYES UNTUK MENGKLASIFIKASI PENDUDUK KE DALAM STATUS TAHAPAN KELUARGA SEJAHTERA BERBASIS FORWARD
SELECTION
Bayu Setyawan1, Aripin 2
Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Jl. Nakula 1 No. 5-11 Semarang 50131, Telp. (024) 3520165 Fax : 3569684
E-mail : [email protected]1, [email protected]2
ABSTRAK
Keluarga adalah salah satu kelompok atau kumpulan manusia yang hidup bersama sebagai satu kesatuan atau unit masyarakat terkecil dan biasanya selalu ada hubungan darah, ikatan perkawinan atau ikatan lainnya, tinggal bersama dalam satu rumah yang dipimpin oleh seorang kepala keluarga. Dimensi kesejahteraan penduduk sangat luas dan sangat kompleks,sehingga tingkat kesejahteraan dapat di nilai dari berbagai indikator yang sudah terukur yakni di Desa Pesagi Kecamatan Kayen Kabupaten Pati yang disusun guna menggambarkan perkembangan tingkat kesejahteraan yang sudah dilakukan di desa tersebut.
Ada 20 indikator untuk menentukan kesejahteraan penduduk. Ada 5 kategori untuk dijadikan target kesejahteraan yakni Keluarga Pra Sejahtera, KS I, KS II, KS III, KS III+. Program pemerintah yang pro rakyar akan meningkat ,contohnya raskin,jamkesmas,BLT dll. Pada penelitian kali ini menggunakan algoritma Naive Bayes dan selain mendapatkan nilai akurasi yang baik maka akan menambahkan Feature Selection untuk menentukan model atribut yang berpengaruh.Forward Selection berbasis Naive Bayes lebih akurat dan efektif dalam mengklasifikasikan keluarga sejahtera dengan data yang besar dengan hasil akurasi 99.50%
dan termasuk dalam kategori “Kappa excellent”. Dibanding dengan menggunakan algoritma Naive Bayes saja dengan hasil akurasi hanya 99.23%.
Kata kunci: Keluarga Sejahtera, Naïve Bayes, Forward Selection
ABSTRACK
Of families were one of a group of or collection of people who live together as one whole or units the community the smallest and are always there was a correlation blood, the bonds of marriage or ties other, live together in one house led by a head of household. Dimensions welfare those who are extremely broad and very complex, so that the rate welfare can be in the value of of indicators already measurable in pesagi village kayen subdistric, pati distric starch prepared to describing the development of welfare level has been done in village. There are 20 indicators to determine the welfare. There are five category for the targets Keluarga Pra- Sejahtera, KS I, KS II, KS III, KS III+. Government programs pro the people will increase, for example raskin, jamkesmas, BLT etc. To research this time using Naïve Bayes alghoritms and besides obtaining value good accuracy hence will add Feature Selection model to determine an attribute that influential. Forward selection based Naïve Bayes more accurate and effective in classifying prosperous family with massive data with the result of accuracy 99.50% and included in category “kappa excellent”. Compared with the use of algorithms naïve Bayes course wih the result only 99.23% accuracy.
Keywords : Prosperous Family, Naïve Bayes, Forward Selection
2
1.PENDAHULUANKeluarga adalah salah satu kelompok atau kumpulan manusia yang hidup bersama sebagai satu kesatuan atau unit masyarakat terkecil dan biasanya selalu ada hubungan darah, ikatan perkawinan atau ikatan lainnya, tinggal bersama dalam satu rumah yang dipimpin oleh seorang kepala keluarga. "Keluarga adalah sekumpulan orang dengan ikatan perkawinan, kelahiran, dan adopsi yang bertujuan untuk menciptakan, mempertahankan budaya, dan meningkatkan perkembangan fisik, mental, emosional, serta sosial dari tiap anggota keluarga[1]. Keluarga merupakan unit terkecil dari masyarakat yang terdiri dari kepala keluarga dan beberapa orang yang berkumpul dan tinggal di suatu tempat di bawah satu atap dalam keadaan saling ketergantungan.
Pendataan Keluarga yang dilakukan bersama masyarakat ini merupakan data mikro keluarga di daerah yang sesungguhnya dapat menyediakan data dan informasi yang sangat penting untuk Program Pembangunan di Daerah, khususnya Program BKKBN, akan tetapi upaya untuk meningkatkan makna dan pemanfaatannya masih terkendala untuk dapat merekam data pendataan keluarga menjadi Database Keluarga di daerah, karena keterbatasan dari sisi kompetensi tenaga, maka dibuatlah teknologi terkomputerisasi yang mudah untuk dapat dimplementasikan di daerah.
Pemanfaatan data yang dilakukan dewasa ini masih dilakukan dalam bentuk tabulasi pengolahan sederhana, terutama untuk manajemen operasional, pembuatan segmentasi potensi sasaran per wilayah dan pembuatan peta kerja operasional di lapangan.
Banyak indikator untuk penentuan kategori keluarga tidak akurat dan juga menjadi masalah.
Pada penelitian kali ini selain bertujuan mendapatkan nilai akurasi yang baik juga bertujuan mendapatkan model atribut dengan cara menerapkan Feature Selection.
Feature Selection adalah salah satu cara untuk menentukan atribut yang paling berpengaruh di dalam dataset. Feature Selection berperan memilih subset yang tepat dari set fitur asli, karena tidak semua fitur/atribut relevan dengan masalah [4]. Bahkan beberapa dari fitur atau atribut tersebut mengganggu
dan dapat mengurangi akurasi. Noisy Features atau fitur yang tidak terpakai tersebut harus dihapus untuk meningkatkan akurasi. Selain itu dengan fitur atau atribut yang banyak akan memperlambat proses komputasi. Pada penelitian ini juga akan menggunakan Forward Selection. Forward Selection atau seleksi kedepan dalam analisisnya pemilihan ke depan di mulai dengan tidak ada prediktor dalam model untuk membantu meningkatkan hasil akurasi dan menentukan atribut yang berpengaruh.
2.METODEPENELITIAN
Jenis penelitian yang dilaksanakan ini merupakan penelitian eksperimen.
2.1 Pengumpulan Data
Tahap ini dilakukan sebagai langkah awal dari suatu penelitian. Untuk memperoleh data yang benar-benar akurat, maka penentuan jenis dan sumber data sangatlah penting. Sumber data pada penelitian ini adalah dataset keluarga sejahtera di Desa Pesagi Kecamatan Kayen Kabupaten Pati..
2.2 Teknik Analisis Data
Tahap pengolahan awal data dilakukan untuk mempersiapkan data yang benar-benar valid sebelum diproses pada tahap berikutnya. Menurut Gurunescu [10] pada tahap ini dilakukan cleansing, transformasi, reduksi dan seleksi fitur. Data yang didapat diolah untuk mendapatkan atribut yang relevan dan sesuai.
Tahap pengolahan awal data dilakukan untuk mempersiapkan data yang benar-benar valid sebelum diproses pada tahap berikutnya namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data). Jumlah data awal yang diperoleh dari pengumpulan data, namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data). Untuk mendapatkan data yang berkualitas, menurut Vercellis [15] dilakukan beberapa teknik:
3
1.Data integration and transformation, untukmeningkatkan akurasi dan efisiensi algoritma. Data yang digunakan dalam penulisan ini bernilai kategorikal. Data ditransformasikan kedalam software RapidMiner. Tabel kategorikal atribut.
2.Data size reduction, untuk memperoleh data set dengan jumlah atribut dan record yang lebih sedikit tetapi tetap bersifat informatif.
2.3 Metode Naïve Bayes
Tahap ini akan membahas metode yang akan digunakan untuk penelitian nanti. Berikut ini adalah tahap yang akan dilakukan dalam penelitian. Dataset diklasifikasikan menggunakan algoritma Naive Bayes, hasil proses klasifikasi di evaluasi dengan menggunakan Confussion Matrix dan Kappa untuk mengukur performan atau tingkat akurasi.
Gambar 2.1 Tahapan metode naïve bayes
Tahap ini akan membahas metode yang akan digunakan untuk penelitian. Berikut ini adalah tahap yang akan dilakukan dalam penelitian. Tahapan dilakukan mengikuti langkah-langkah metode Forward Selection dengan algoritma Naïve Bayes yaitu:
1.Dataset dari Keluarga Sejahtera diseleksi fitur menggunakan Forward Selection, Metode Forward Selection adalah pemodelan dimulai dari nol peubah (empty model).
2.Pemilihan fitur seleksi forward selection diuji menggunakan training atau metode Naive Bayes.
3.Dari training Naive Bayes yang diujikan mendapatkan hasil dan pembobotan.
4.Apabila proses tersebut lolos maka akan mendapatkan suatu atribut/model yang optimal dari klasifikasi Naive Bayes.
5.Sedangkan bila proses tersebut berhenti pada stopping criterion maka proses tersebut diulang dari awal (pemilihan fitur seleksi forward selection) sampai mendapatkan atribut/model optimal.
6.Setelah mendapatkan atribut/model yang optimal pada klasifikasi Naive Bayes maka akan muncul hasil akurasi dari klasifikasi Naive Bayes yang sudah di fitur seleksi.
2.4 Pengujian Model/Metode
Pada tahap ini, dijelaskan tentang teknik pengujian yang digunakan. Metode eksperimen dan pengujian ini mengikuti cara pengklasifikasian menggunakan RapidMiner, dataset diklasifikasi menggunakan algoritma Naïve Bayes dan dihitung akurasinya dan nilai Kappa.
2.5 Evaluasi Dan Validasi Hasil
Pada tahap ini akan dibahas tentang hasil evaluasi dari eksperimen yang telah dilakukan. Model yang terbentuk akan diuji dengan menggunakan Confusion Matrix untuk mengetahui tingkat akurasi. Confusion Matrix akan menggambarkan hasil akurasi mulai dari prediksi positif yang benar, predisksi positif yang salah, prediksi negative yang benar, dan prediksi negative yang salah. Akurasi akan dihitung dari seluruh prediksi yang benar (baik prediksi positif dan negatif). Semakin tinggi nilai akurasi, semakin baik pula model yang dihasilkan.
3.HASILDANPEMBAHASAN
Pada penelitian ini menguji keakuratan klasifikasi Keluarga Sejahtera dengan menggunakan algoritma
4
Naïve Bayes, setelah itu Naïve Bayes dengan ForwardSelection sebagai fitur seleksi. Penelitian ini menggunakan dataset yang diambil dari Dataset Keluarga Sejahtera, yaitu dataset dari Desa Pesagi Kecamatan Kayen, Kabupaten Pati. Data tersebut berisi 21 atribut dan 394 record.
3.1 Algoritma Naïve Bayes
Naïve Bayes adalah metode yang baik karena mudah dibuat, tidak membutuhkan skema estimasi parameter perulangan yang rumit, ini berarti bisa diaplikasikan untuk dataset berukuran besar [16].
Berikut teorema bayes :
} Keterangan :
X: Data dengan class yang belum diketahui H: Hipotesis data x merupakan suatu class spesifik P(H|X): Probabilitas hipotesis H berdasarkan kondisi X
(posteriori probability)
P(H) : Probabilitas hipotesis H (prior probability) P(X|H) : Probabilitas X berdasar kondisi pada hipotesis H
P(X): Probabilitas dari X
3.2 Evaluasi Naïve Bayes dengan data lengkap Hasil klasifikasi menggunakan data lengkap (Data Set Keluarga Sejahtera) dengan metode Naïve Bayes diperoleh hasil nilai akurasi sebesar 99.50%. Naïve Bayes dengan Forward Selection sebagai fitur seleksi
Gambar 3.1 : Validasi Naïve Bayes Data Lengkap
=
= 0.9950
= 99.50%
Evaluasi dan validasi pada penelitian ini mengikuti aturan Kappa, dengan perhitungan nilai Kappa:
Gambar 3.2 : Kappa Naïve Bayes Data Lengkap
Pr(a) adalah proporsi unit yang dua Rater yang sama.
Pr(e) adalah proporsi yang diharapkan secara kebetulan.
Kappa = 0.9930
Kappa = 0.9930 termasuk kategori Kappa excellent.
Berdasarkan dari eksperimen algoritma Naïve Bayes dengan Forward Selection sebagai fitur seleksi menggunakan data lengkap Dataset Keluarga Sejahtera pemodelan seleksi atribut Forward Selection diperoleh hanya satu model atribut yaitu hanya atribut
“A19”.
Tabel 4.18: Model Atribut Forward Selection-Naïve Bayes Data Lengkap
Nama Atribut
A19
Dengan hasil nilai akurasi sebesar 99.50%.
Gambar 3.3 : Validasi Forward Selection-Naïve Bayes Data Lengkap
5
=
= 0.9950
= 99.50%
Evaluasi dan validasi pada penelitian ini mengikuti aturan Kappa, dengan perhitungan nilai Kappa:
Gambar 3.4: Kappa Forward Selection-Naïve Bayes Data Lengkap
(20)
Kappa = 0.994923381
Kappa = 0.9940 termasuk kategori Kappa excellent.
(21)
Evaluasi dan validasi dari eksperimen Naïve Bayes dengan Forward Selection sebagai fitur seleksi menggunakan data lengkap (Meinl Cymbals dataset) berdasarkan aturan Kappa diperoleh nilai Kappa 0.9940 dan termasuk kategori Kappa excellent.
3.3 Hasil Penelitian
Pada penelitian ini menguji keakuratan klasifikasi keluarga sejahtera dengan menggunakan algoritma Naïve Bayes dengan Forward Selection sebagai fitur seleksi dari dataset yang diambil dari Dataset Keluarga Sejahtera, dengan data yang besar (memiliki 394 record dan 20 attribute).
Seperti diketahui sebelumnya bahwa Naïve Bayes bisa memecahkan masalah data Class Imbalance dan fitur
seleksi dari Forward Selection adalah salah satu cara untuk mereduksi dimensi dataset yang besar, Forward Selection berperan memilih subset yang tepat dari set fitur asli, karena tidak semua fitur/atribut relevan dengan masalah karena beberapa dari fitur atau atribut tersebut mengganggu dan dapat mengurangi akurasi.
Tujuan dari penelitian ini adalah mendapatkan model fitur/atribut parameter yang relevan dengan algoritma Naïve Bayes. Data dianalisa dengan melakukan dua perbandingan yaitu menggunakan algoritma Naïve Bayes saja dan algoritma Naïve Bayes dengan Forward Selection sebagai fitur seleksi.
Pada eksperimen tahap awal, dilakukan mencari nilai akurasi dari masing masing atribut yang dimiliki oleh dataset berdasar metode X-Validation yang akan digunakan sebagai nilai subset Forward Selection.
Eksperimen algoritma Naïve Bayes memperoleh hasil akurasi sebesar 99.23% dengan dengan nilai Kappa 0.990 dan termasuk kategori Kappa excellent.
Eksperimen algoritma Naïve Bayes dengan Forward Selection sebagai fitur seleksi memperoleh hasil akurasi sebesar 93.50% dengan dengan nilai Kappa 0.993 dan termasuk kategori Kappa excellent.
Berdasarkan pemodelan seleksi atribut dengan Forward Selection diperoleh hasil hanya satu model atribut, yaitu atribut A13, A18, A19.
Dari hasil penelitian kali ini dapat disimpulkan ke dalam tabel berikut ini:
Tabel 4.19: Hasil Eksperimen Dataset Keluarga Sejahtera
Algoritma Naive Bayes Forward Selection berbasis Naive Bayes
Akurasi 99.23% 99.50%
6
Kappa 0.990 0.993
Waktu Komputasi
Sangat Cepat
Cepat
Model Atribut terpilih
20 atribut (semua atribut
terpakai)
3 atribut:
A13, A18, A19
4. KESIMPULAN DAN SARAN
Algoritma Naive Bayes terbukti efektif dalam mengklasifikasikan keluarga sejahtera dari dataset dengan dimensi data yang besar dan memiliki keadaan kelas yang tidak seimbang antara kelas yang satu dengan kelas yang lain atau bersifat Class Imbalance.
Metode Forward Selection dapat mereduksi dimensi dataset yang besar dan dapat membantu meningkatkan hasil akurasi klasifikasi Naïve Bayes.
Dalam hal ini Naive Bayes memanfaatkan fungsi seleksi fitur dari Forward Selection untuk pemilihan atribut data dengan karakteristik data itu sendiri, dan meningkatkan ketepatan klasifikasi Naïve Bayes.
Forward Selection berbasis Naive Bayes lebih akurat dan efektif dalam mengklasifikasikan keluarga sejahtera dengan data yang besar dengan hasil akurasi 99.50% dan termasuk dalam kategori “Kappa excellent”. Dibanding dengan menggunakan algoritma Naive Bayes saja dengan hasil akurasi hanya 99.23%.
4.1 Saran
Metode Forward Selection berbasis Naive Bayes terbukti akurat dalam klasifikasi genre musik dari dataset yang bersifat Class Imbalance dengan dimensi data yang besar, tetapi dalam penelitian ini terdapat beberapa saran dalam pengembangannya antara lain prosedur ini tidak selalu mengarahkan ke model pemilihan atribut yang terbaik. Forward Selection berbasis Naive Bayes hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin, sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah, seiring dengan penambahan jumlah variabel bebas.
1.Penelitian ini diharapkan dapat digunakan sebagai bahan pertimbangan untuk klasifikasi keluarga sejahtera yang bekerja di BKKBN.
2.Penelitian ini dapat dikembangkan dengan metode klasifikasi Data Mining lainnya, penggunaan metode fitur seleksi atau metode optimasi lainnya yang dapat mengatasi masalah dimensi data yang besar, Class Imbalance dan multiclass seperti pada penelitian ini.
5. DAFTAR PUSTAKA