PREDIKSI PENYAKIT DIABETES MENGGUNAKAN
NAIVE BAYES DENGAN OPTIMASI PARAMETER
MENGGUNAKAN ALGORITMA GENETIKA
Frisma Handayanna1, Rinawati2, Ester Arisawati3, Linda Sari Dewi41
STMIK Nusa Mandiri Jakarta e-mail: [email protected]
2
STMIK Nusa Mandiri Jakarta e-mail: [email protected]
3
STMIK Nusa Mandiri Jakarta e-mail: [email protected]
4
STMIK Nusa Mandiri Jakarta e-mail: [email protected]
Abstrak
Penyakit diabetes merupakan salah satu penyakit yang jumlahnya semakin meningkat dan bisa menyebabkan kematian. Penyakit diabetes merupakan penyakit sosial yang serius dan orang bisa terkena dalam jumlah besar, serta menyebabkan komplikasi dan melibatkan biaya yang tinggi. Untuk mengatasi permasalahan yang ada diperlukan suatu model yang mampu mengklasifikasikan dan memprediksi penyakit diabetes Type 3. Dalam penelitian ini dilakukan pengujian yaitu algoritma Naive Bayes dan algoritma Naive Bayes berbasis Algoritma Genetika mendapatkan rule dalam memprediksi penyakit diabetes dengan memberikan nilai akurasi yang lebih akurat. Dikarenakan masih banyak penelitian yang menggunakan metode Naive Bayes dalam memprediksi penyakit diabetes, tetapi nilai akurasi yang dihasilkan masih kurang akurat. Diharapkan penelitian ini dapat membantu masyarakat karena dengan adanya atribut yang menjelaskan penyebab dari penyakit diabetes type 3 sehingga mengetahui lebih dini apa yg menyebabkan penyakit diabetes type 3. Untuk dunia kesehatan, sebagai second opinion untuk tindakan atau langkah yang akan dilakukan oleh dokter untuk mendeteksi penyakit diabetes type 3. Dan bagi pengembangan keilmuan adalah penerapan algoritma Naive Bayes berbasis Algoritma Genetika dapat digunakan untuk prediksi penyakit diabetes type 3 dengan lebih cepat dan akurat. Dengan dilakukannya pengujian dengan dua model yaitu Algoritma Naive Bayes dan Naive Bayes berbasis Algoritma Genetika. Hasil yang didapat adalah pengujian dengan menggunakan Naive Bayes didapatkan nilai accuracy adalah 72.00% sedangkan pengujian dengan menggunakan Naive Bayes berbasis Algoritma Genetika didapatkan nilai accuracy 74.74% dan Sehingga dapat disimpulkan bahwa penerapan model Naive Bayes dengan Algoritma Genetika untuk seleksi fitur dan optimalisasi parameter terbukti dapat meningkatkan akurasi dalam prediksi penyakit diabetes type 3. Keywords: Diabetes, Naive Bayes, Algoritma Genetika
1. Pendahuluan
Diabetes adalah penyakit di mana tubuh tidak mampu untuk menggunakan gula (atau glukosa) yang mengakibatkan terlalu banyak gula dalam darah (hiperglikemia). Ada tiga jenis diabetes: tipe 1 (insulin dependent), tipe 2 (non-insulin dependent diabetes mellitus (NIDDM) atau "onset dewasa"), dan diabetes mellitus gestasional (GDM). Jenis ketiga diabetes ada yang hanya mempengaruhi perempuan dan disebut
gestational diabetes mellitus (GDM) (Okatiranti, 2016). GDM adalah jenis sementara diabetes yang terjadi selama kehamilan. Kebanyakan wanita dengan GDM akan kembali ke kadar glukosa yang normal setelah melahirkan bayi (Gestational Diabetes & First Nations Women, 2009). Klasifikasi Naive Bayes sering bekerja jauh lebih baik di banyak situasi dunia nyata yang kompleks dari mengharapkan satu kekuatan. Dimana variabel independen
dianggap untuk tujuan prediksi atau terjadinya peristiwa (Pattekari & Parveen, 2012). Algoritma Genetika adalah metode pencarian umum stokastik, mampuefektif menjelajahi ruang pencarian besar (Karegowda, Manjunath & Jayaram, 2011) . Algoritma yang paling efektif keputusan besar perhitungan pengurangan sistem dalam praktek adalah Algoritma Genetika (Mahmud, Agiza & Radwan, 2009).
2. Metode Penelitian
Dalam penelitian ini dilakukan beberapa langkah yangdilakukan dalam proses penelitian.
1. Pengumpulan data
Pada tahap ini dicari data yang tersedia, memperolehdata tambahan yang dibutuhkan, mengintegrasikansemua data kedalam data set, termasuk variabel yangdiperlukan dalam proses.
2. Pengolahan data awal
Ditahap ini dilakukan penyeleksian data, datadibersihkan dan ditransformasikan kebentuk yangdiinginkan sehingga dapat dilakukan persiapan dalampembuatan model.
3. Metode yang diusulkan
Pada tahap ini data dianalisis, dikelompokan variabelmana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data kedalam data latihan (training data) dan data uji (testing data)juga diperlukan untuk pembuatan model.
4. Eksperimen dan pengujian metode Pada tahap ini model yang diusulkan akan diuji untukmelihat hasil berupa rule yang akan dimanfaatkan dalampengambilan keputusan.
5. Evaluasi dan validasi
Pada tahap ini dilakukan evaluasi terhadap model yangditetapkan untuk mengetahui tingkat keakurasian model.
Tabel 1. Atribut Dan Data Penyakit Diabetes Type 3
Berapa Kali Hamil Konsentrasi Glukosa Tekanan Darah Lipatan Kulit Serum Insulin Massa Tubuh Diabetes type 3
Silsilah Fungsi Umur Kelas
6 14 148 35 0 33.6 0.627 50 Ya 1 85 66 29 0 26.6 0.351 31 Tidak 8 18 64 0 0 23.3 0.672 32 Ya 1 89 66 23 94 28.1 0.167 21 Tidak 0 13 40 35 168 43.1 2.288 33 Ya 5 11 74 0 0 25.6 0.201 30 Tidak 3 78 50 32 88 31.0 0.248 26 Ya 10 115 115 0 0 35.3 0.134 29 Tidak 2 19 70 45 543 30.5 0.158 53 Ya 8 12 96 0 0 0.0 0.232 54 Ya
Sumber: (UCI Repository) Teknik pengumpulan data
Teknik pengumpulan datayang diperoleh adalah data sekunder karena diperoleh dari Pima Indian diabetes Type 3 database dalam UCI (singkatan dari Pima Diabetes). Masalah yang harus dipecahkan di sini adalah prediksi terjadinya diabetes type 3 melitusType 3 dalam waktu 5 tahun dengan menggunakan Pima yang berisi 786 orang yang diperiksa dan sebanyak 500 pasien tidak terdeteksi terkena penyakit diabetes, sehingga 268 pasien terdeteksi penyakit
diabetes. Data pasien penyakit diabetes type 3 bisa di lihat pada Tabel 1.
Pengolahan data awal
Jumlah data awal yang diperoleh dari pengumpulan data yaitu sebanyak 768 data, namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data).
yang digunakan No Atribut Nilai
1 Berapa Kali
Hamil Berapa kali wanita hamil 2 Konsentrasi
Glukosa
Konsentrasi glukosa plasma 2 jam dalam tes
toleransi glukosa oral 3 Tekanan
Darah
Tekanan Darah diastolik (mmHg) 4 Lipatan Kulit Triceps ketebalan lipatan kulit (mm) 5 Serum Insulin
2-Jam serum insulin (mu U / ml) 6 Masssa
Tubuh
Indeks massa tubuh (berat dalam kg / (tinggi
dalam m) ^ 2) 7 Diabetes type 3 Silsilah Fungsi
Diabetes type 3 silsilah fungsi 8 Umur Umur (tahun) Sumber: (UCI Repository)
Metode yang diusulkan
Pada tahap modeling ini dilakukan pemprosesan data traning sehingga akan membahas metode algoritma yang diuji dengan memasukan data penyakit diabetes type 3 kemudian di analisa dan dikomparasi.
Given a population of particles with random positions and velocities A particle in the population
Atrbute Weight represented by this particle Genetic Algorithm
Traning Naïve Bayes Model Update particle velocitiy and
global position
Optimal Naïve Bayes Atribute obtined
Optimal Naïve Bayes classification model obtined
Is stop condition satisfied? No
Yes
Sumber: Hasil Penelitian (2017)
Gambar 2. Metode yang diusulkan Eksperimen dan Pengujian Metode Tahap modeling untuk menyelesaikan prediksi penyakit diabetes type 3 dengan menggunakan dua metode yaitu algoritma naive bayesdan algoritma algoritma genetika.
1. Naive Bayesyaitu suatu metode sebuah metode seleksi fitur, dan mengambilsalah satu yang memilikiakurasiklasifikasiterbaik. 2.Algoritma Genetikayaitu Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan Naive Bayes berbasis Algoritma Genetika.
Evaluasi dan Validasi Hasil
Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan naive bayesNaive Bayes berbasis Algoritma Genetika
3. Pembahasan
Hasil Eksperimen dan Metode
3.1 Evaluasi dan validasi hasil Naive Bayes
Hasil dari pengujian model yang dilakukan memprediksi penyakit diabetes type 3 dengan Naive Bayes untuk menentukan nilai accuracy dan AUC. Dalammenentukan nilai tingkat keakurasian dalam model dengan Naive Bayes. Metode pengujiannya menggunakan cross validation dengan desain modelnya sebagai berikut.
Sumber: Hasil Penelitian (2017) Gambar 3. Desain Model Validasi Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan algoritma Naive Bayes berbasis pada framework RapidMiner sebagai berikut:
Sumber: Hasil Penelitian (2017)
Gambar 4. Model Pengujian Validasi Naive Bayes
Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes didapatkan hasil pada tabel 3
1. Confusion Matrix
Tabel 4 diketahui dari 768 data, 115 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan metode naïve bayes, lalu 62 data diprediksi ya tetapi ternyata hasilnya prediksi tidak, 438data class tidak diprediksi sesuai, dan 153 data diprediksi tidak ternyata hasil prediksinya ya.
Tabel 4. Model Confusion Matrix untuk Metode Naive Bayes
accuracy:72.00% +/-5.12% (mikro: 72.01%) True Ya True Tidak Class precission pred. Ya 115 62 71.08% pred. Tidak 153 438 75.08% class recall 44.03% 90.04%
Sumber: Hasil Penelitian (2017)
Berdasarkan Tabel 4tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes adalah sebesar 72,00%,
2. Kurva ROC
Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives.
Sumber: Hasil Penelitian (2017)
Gambar 5. Kurva ROC dengan Metode Naïve Bayes
Dari Gambar 3 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.753 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive Bayes mempunyai tingkat akurasi sebesar 72.00 % dan mempunyai nilai AUC sebesar 0.753.
3.2 Evaluasi dan validasi hasil Naive Bayes Berbasis Genetika Algoritma Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan Naive Bayes berbasis Genetika Algoritma pada framework RapidMiner sebagaiberikut
Sumber: Hasil Penelitian (2017)
Gambar 6. Model pengujian validasi Naive Bayes berbasis Genetika Algoritma Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes berbasis Genetika Algoritmadidapatkan hasil pada tabel 5
1. Confusion Matrix
Tabel 5 diketahui dari 768 data, 116 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan validasi Naive Bayes berbasis Genetika Algoritma, lalu 42 data diprediksi ya tetapi ternyata hasilnya prediksi
tidak, 458 data class tidak diprediksi sesuai, dan 152 data diprediksi tidak ternyata hasil prediksinya ya.
Tabel 5. Model Confusion Matrix untuk Metode validasi Naive Bayes berbasis
Genetika Algoritma accuracy:74.74% +/-2.90% (mikro: 74.74%) True Ya True Tidak Class precission pred. Ya 116 42 73.42% pred. Tidak 152 458 75.08% class recall 43.28% 91.60%
Sumber: Hasil Penelitian (2017)
Berdasarkan Tabel 5 tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes berbasis Algoritma Genetika adalah sebesar 74,74%.
3. Kurva ROC
Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives.
Sumber: Hasil Penelitian (2017)
Gambar 7. Kurva ROC dengan Metode Naïve Bayesberbasis Algoritma Genetika Dari Gambar 7 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.790 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive
Bayesberbasis Algoritma
Genetikamempunyai tingkat akurasi sebesar 74.74% dan mempunyai nilai AUC sebesar 0.790.
Tabel 6. Pengujian algoritma Naive Bayes dan Naïve Bayes
Berbasis Algoritma Genetika Accuracy AUC Naive Bayes 72.00% 0.753 Naive Bayes Berbasis Algoritma Genetika 74.74% 0.759
Sumber: Hasil Penelitian (2017) 4. Simpulan
Berikut ini kesimpulan yang penulis ambil setelah melakukan penelitian.
Hasil eksperimen pengujian data penyakit diabetes UCI data set dengan menggunakan Naive Bayes sebelum dan sesudah dilakukan seleksi atribut dengan optimasi parameter dengan Algoritma Genetika, menunjukkan bahwa adanya perbedaan yang signifikan pada akurasinya. Dan penerapan model Naive Bayes Algoritma Genetika untuk seleksi fitur dan optimasi parameter terbukti meningkatkan akurasi dalam prediksi penyakit diabetes type 3 . Pada penelitian ini penerapan model Naïve Bayes berbasis Algoritma Genetika dapat meningkatkan akurasi prediksi penyakit diabetes type 3, akan tetapi karena keterbatasan mengenai penelitian yang dilakukan ini disarankan untuk melakukan penelitian selanjutnya yang berkaitam dengan prediksi untuk mendapatkan akurasi yang lebih baik. Adapun saran yang diberikan yaitu:
1. Data Prediksi penyakit diabetes type 3 merupakan data yang diambil dari UCI Repository dimana atribut disesuaikan dengan kondisi penyakit diabates type 3, penelitian ini dapat dijadikan acuan bagi penentuan penyakit diabetes yang datanya bermanfaat bagi dunia kesehatan.
2. Parameter yang digunakan untuk penentuan penyakit diabetes type 3 mungkin akan bertambah dengan perubahan lingkungan.
3. Penelitian ini dapat dikembangkan dengan metode klasifikasi data mining lainnya seperti Decision tree, Neural Network, KNN dan lainnya serta melakukan optimasi dengan Ant Colony
Optimization (ACO), Adaboost, dan lainnya.
Referensi
Iancu, E., Iancu, I., & Sfredel, V. (2010). Predictive Control Of Blood Glucose In Diabetes Mellitus Patients. International Conference On Automation, Quality And Testing, Robotics , 1-6.
Karegowda, A.G. Manjunath, A.S. Jayaram, M.A. (2011). Application Of Genetic Algorithm Optimized Neural Network Connection Weights For Medical Diagnosis Of Pima Indians Diabetes. International Journal On Soft Computing (Ijsc ). 15-23.
Mahmud ,W.M. Agiza, H N. & Radwan, E. (2009). Intrusion Detection Using Rough Sets Based Parallel Genetic Algorithm Hybrid Model. Proceedings Of The World Congress On Engineering And Computer Science.
Mason, R. (2005). The Natural Diabetes Cure. Usa: 4th Printing Spring 2012. Okatiranti, O. (2016). PENGETAHUAN
PASIEN DIABETES MELITUS TIPE II TENTANG PERAWATAN KAKI DI WILAYAH KERJA PUSKESMAS CIKUTRA BARU KECAMATAN
CIBEUNYING KALER
BANDUNG. KEPERAWATAN, 1(1). Pattekari, S.A. Parveen, A. (2012).
Prediction System For Heart Disease Using Naive Bayes. International Journal of Advanced Computer and Mathematical Sciences, 290-294
Biodata Penulis
Frisma Handayanna, M.Kom. Lulus Tahun 2006 Diploma Tiga (DIII) Jurusan Komputer
Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program Strata Satu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta. Telah melakukan penulisan paper di Jurnal STMIK Antarbangsa Jurnal Sistem Informasi ISSN 2089-8711 Vol. IV No.1 Februari 2015, Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. I No. 2 Agustus 2015 ISSN. 2442-2444. Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. II No. 1 Februari 2016 ISSN. 2442-2444.
Ester Arisawati, M.Kom. lulus Tahun 2007 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.
Rinawati, M.Kom. lulus Tahun 2005 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2008 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.
Linda Sari Dewi, M.Kom. lulus Tahun 2009Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.