PREDIKSI PENYAKIT DIABETES MENGGUNAKAN NAIVE BAYES DENGAN OPTIMASI PARAMETER MENGGUNAKAN ALGORITMA GENETIKA

(1)

PREDIKSI PENYAKIT DIABETES MENGGUNAKAN

NAIVE BAYES DENGAN OPTIMASI PARAMETER

MENGGUNAKAN ALGORITMA GENETIKA

Frisma Handayanna1, Rinawati2, Ester Arisawati3, Linda Sari Dewi4

1

STMIK Nusa Mandiri Jakarta e-mail: [email protected]

2

3

4

Abstrak

Penyakit diabetes merupakan salah satu penyakit yang jumlahnya semakin meningkat dan bisa menyebabkan kematian. Penyakit diabetes merupakan penyakit sosial yang serius dan orang bisa terkena dalam jumlah besar, serta menyebabkan komplikasi dan melibatkan biaya yang tinggi. Untuk mengatasi permasalahan yang ada diperlukan suatu model yang mampu mengklasifikasikan dan memprediksi penyakit diabetes Type 3. Dalam penelitian ini dilakukan pengujian yaitu algoritma Naive Bayes dan algoritma Naive Bayes berbasis Algoritma Genetika mendapatkan rule dalam memprediksi penyakit diabetes dengan memberikan nilai akurasi yang lebih akurat. Dikarenakan masih banyak penelitian yang menggunakan metode Naive Bayes dalam memprediksi penyakit diabetes, tetapi nilai akurasi yang dihasilkan masih kurang akurat. Diharapkan penelitian ini dapat membantu masyarakat karena dengan adanya atribut yang menjelaskan penyebab dari penyakit diabetes type 3 sehingga mengetahui lebih dini apa yg menyebabkan penyakit diabetes type 3. Untuk dunia kesehatan, sebagai second opinion untuk tindakan atau langkah yang akan dilakukan oleh dokter untuk mendeteksi penyakit diabetes type 3. Dan bagi pengembangan keilmuan adalah penerapan algoritma Naive Bayes berbasis Algoritma Genetika dapat digunakan untuk prediksi penyakit diabetes type 3 dengan lebih cepat dan akurat. Dengan dilakukannya pengujian dengan dua model yaitu Algoritma Naive Bayes dan Naive Bayes berbasis Algoritma Genetika. Hasil yang didapat adalah pengujian dengan menggunakan Naive Bayes didapatkan nilai accuracy adalah 72.00% sedangkan pengujian dengan menggunakan Naive Bayes berbasis Algoritma Genetika didapatkan nilai accuracy 74.74% dan Sehingga dapat disimpulkan bahwa penerapan model Naive Bayes dengan Algoritma Genetika untuk seleksi fitur dan optimalisasi parameter terbukti dapat meningkatkan akurasi dalam prediksi penyakit diabetes type 3. Keywords: Diabetes, Naive Bayes, Algoritma Genetika

1. Pendahuluan

Diabetes adalah penyakit di mana tubuh tidak mampu untuk menggunakan gula (atau glukosa) yang mengakibatkan terlalu banyak gula dalam darah (hiperglikemia). Ada tiga jenis diabetes: tipe 1 (insulin dependent), tipe 2 (non-insulin dependent diabetes mellitus (NIDDM) atau "onset dewasa"), dan diabetes mellitus gestasional (GDM). Jenis ketiga diabetes ada yang hanya mempengaruhi perempuan dan disebut

gestational diabetes mellitus (GDM) (Okatiranti, 2016). GDM adalah jenis sementara diabetes yang terjadi selama kehamilan. Kebanyakan wanita dengan GDM akan kembali ke kadar glukosa yang normal setelah melahirkan bayi (Gestational Diabetes & First Nations Women, 2009). Klasifikasi Naive Bayes sering bekerja jauh lebih baik di banyak situasi dunia nyata yang kompleks dari mengharapkan satu kekuatan. Dimana variabel independen

(2)

dianggap untuk tujuan prediksi atau terjadinya peristiwa (Pattekari & Parveen, 2012). Algoritma Genetika adalah metode pencarian umum stokastik, mampuefektif menjelajahi ruang pencarian besar (Karegowda, Manjunath & Jayaram, 2011) . Algoritma yang paling efektif keputusan besar perhitungan pengurangan sistem dalam praktek adalah Algoritma Genetika (Mahmud, Agiza & Radwan, 2009).

2. Metode Penelitian

Dalam penelitian ini dilakukan beberapa langkah yangdilakukan dalam proses penelitian.

1. Pengumpulan data

Pada tahap ini dicari data yang tersedia, memperolehdata tambahan yang dibutuhkan, mengintegrasikansemua data kedalam data set, termasuk variabel yangdiperlukan dalam proses.

2. Pengolahan data awal

Ditahap ini dilakukan penyeleksian data, datadibersihkan dan ditransformasikan kebentuk yangdiinginkan sehingga dapat dilakukan persiapan dalampembuatan model.

3. Metode yang diusulkan

Pada tahap ini data dianalisis, dikelompokan variabelmana yang berhubungan dengan satu sama lainnya. Setelah data dianalisis lalu diterapkan model-model yang sesuai dengan jenis data. Pembagian data kedalam data latihan (training data) dan data uji (testing data)juga diperlukan untuk pembuatan model.

4. Eksperimen dan pengujian metode Pada tahap ini model yang diusulkan akan diuji untukmelihat hasil berupa rule yang akan dimanfaatkan dalampengambilan keputusan.

5. Evaluasi dan validasi

Pada tahap ini dilakukan evaluasi terhadap model yangditetapkan untuk mengetahui tingkat keakurasian model.

Tabel 1. Atribut Dan Data Penyakit Diabetes Type 3

Berapa Kali Hamil Konsentrasi Glukosa Tekanan Darah Lipatan Kulit Serum Insulin Massa Tubuh Diabetes type 3

Silsilah Fungsi Umur Kelas

6 14 148 35 0 33.6 0.627 50 Ya 1 85 66 29 0 26.6 0.351 31 Tidak 8 18 64 0 0 23.3 0.672 32 Ya 1 89 66 23 94 28.1 0.167 21 Tidak 0 13 40 35 168 43.1 2.288 33 Ya 5 11 74 0 0 25.6 0.201 30 Tidak 3 78 50 32 88 31.0 0.248 26 Ya 10 115 115 0 0 35.3 0.134 29 Tidak 2 19 70 45 543 30.5 0.158 53 Ya 8 12 96 0 0 0.0 0.232 54 Ya

Sumber: (UCI Repository) Teknik pengumpulan data

Teknik pengumpulan datayang diperoleh adalah data sekunder karena diperoleh dari Pima Indian diabetes Type 3 database dalam UCI (singkatan dari Pima Diabetes). Masalah yang harus dipecahkan di sini adalah prediksi terjadinya diabetes type 3 melitusType 3 dalam waktu 5 tahun dengan menggunakan Pima yang berisi 786 orang yang diperiksa dan sebanyak 500 pasien tidak terdeteksi terkena penyakit diabetes, sehingga 268 pasien terdeteksi penyakit

diabetes. Data pasien penyakit diabetes type 3 bisa di lihat pada Tabel 1.

Pengolahan data awal

Jumlah data awal yang diperoleh dari pengumpulan data yaitu sebanyak 768 data, namun tidak semua data dapat digunakan dan tidak semua atribut digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data).

(3)

yang digunakan No Atribut Nilai

1 Berapa Kali

Hamil Berapa kali wanita hamil 2 Konsentrasi

Glukosa

Konsentrasi glukosa plasma 2 jam dalam tes

toleransi glukosa oral 3 Tekanan

Darah

Tekanan Darah diastolik (mmHg) 4 Lipatan Kulit Triceps ketebalan lipatan kulit (mm) 5 Serum Insulin

2-Jam serum insulin (mu U / ml) 6 Masssa

Tubuh

Indeks massa tubuh (berat dalam kg / (tinggi

dalam m) ^ 2) 7 Diabetes type 3 Silsilah Fungsi

Diabetes type 3 silsilah fungsi 8 Umur Umur (tahun) Sumber: (UCI Repository)

Metode yang diusulkan

Pada tahap modeling ini dilakukan pemprosesan data traning sehingga akan membahas metode algoritma yang diuji dengan memasukan data penyakit diabetes type 3 kemudian di analisa dan dikomparasi.

Given a population of particles with random positions and velocities A particle in the population

Atrbute Weight represented by this particle Genetic Algorithm

Traning Naïve Bayes Model Update particle velocitiy and

global position

Optimal Naïve Bayes Atribute obtined

Optimal Naïve Bayes classification model obtined

Is stop condition satisfied? No

Yes

Sumber: Hasil Penelitian (2017)

Gambar 2. Metode yang diusulkan Eksperimen dan Pengujian Metode Tahap modeling untuk menyelesaikan prediksi penyakit diabetes type 3 dengan menggunakan dua metode yaitu algoritma naive bayesdan algoritma algoritma genetika.

1. Naive Bayesyaitu suatu metode sebuah metode seleksi fitur, dan mengambilsalah satu yang memilikiakurasiklasifikasiterbaik. 2.Algoritma Genetikayaitu Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan Naive Bayes berbasis Algoritma Genetika.

Evaluasi dan Validasi Hasil

Model yang diusulkan pada penelitian tentang prediksi penyakit diabetes type 3 adalah dengan menerapkan Naive Bayes dan naive bayesNaive Bayes berbasis Algoritma Genetika

3. Pembahasan

Hasil Eksperimen dan Metode

3.1 Evaluasi dan validasi hasil Naive Bayes

Hasil dari pengujian model yang dilakukan memprediksi penyakit diabetes type 3 dengan Naive Bayes untuk menentukan nilai accuracy dan AUC. Dalammenentukan nilai tingkat keakurasian dalam model dengan Naive Bayes. Metode pengujiannya menggunakan cross validation dengan desain modelnya sebagai berikut.

Sumber: Hasil Penelitian (2017) Gambar 3. Desain Model Validasi Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan algoritma Naive Bayes berbasis pada framework RapidMiner sebagai berikut:

Gambar 4. Model Pengujian Validasi Naive Bayes

(4)

Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes didapatkan hasil pada tabel 3

1. Confusion Matrix

Tabel 4 diketahui dari 768 data, 115 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan metode naïve bayes, lalu 62 data diprediksi ya tetapi ternyata hasilnya prediksi tidak, 438data class tidak diprediksi sesuai, dan 153 data diprediksi tidak ternyata hasil prediksinya ya.

Tabel 4. Model Confusion Matrix untuk Metode Naive Bayes

accuracy:72.00% +/-5.12% (mikro: 72.01%) True Ya True Tidak Class precission pred. Ya 115 62 71.08% pred. Tidak 153 438 75.08% class recall 44.03% 90.04%

Berdasarkan Tabel 4tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes adalah sebesar 72,00%,

2. Kurva ROC

Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives.

Gambar 5. Kurva ROC dengan Metode Naïve Bayes

Dari Gambar 3 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.753 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive Bayes mempunyai tingkat akurasi sebesar 72.00 % dan mempunyai nilai AUC sebesar 0.753.

3.2 Evaluasi dan validasi hasil Naive Bayes Berbasis Genetika Algoritma Pada penelitian penentuan hasil penyakit diabetes type 3 menggunakan Naive Bayes berbasis Genetika Algoritma pada framework RapidMiner sebagaiberikut

Gambar 6. Model pengujian validasi Naive Bayes berbasis Genetika Algoritma Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Hasil pengujian dengan menggunakan model Naive Bayes berbasis Genetika Algoritmadidapatkan hasil pada tabel 5

1. Confusion Matrix

Tabel 5 diketahui dari 768 data, 116 diklasifikasikan ya sesuai dengan prediksi yang dilakukan dengan validasi Naive Bayes berbasis Genetika Algoritma, lalu 42 data diprediksi ya tetapi ternyata hasilnya prediksi

(5)

tidak, 458 data class tidak diprediksi sesuai, dan 152 data diprediksi tidak ternyata hasil prediksinya ya.

Tabel 5. Model Confusion Matrix untuk Metode validasi Naive Bayes berbasis

Genetika Algoritma accuracy:74.74% +/-2.90% (mikro: 74.74%) True Ya True Tidak Class precission pred. Ya 116 42 73.42% pred. Tidak 152 458 75.08% class recall 43.28% 91.60%

Berdasarkan Tabel 5 tersebut menunjukan bahwa, tingkat akurasi dengan menggunakan algoritma Naive Bayes berbasis Algoritma Genetika adalah sebesar 74,74%.

3. Kurva ROC

Hasil perhitungan divisualisasikan dengan kurva ROC. Perbandingan kedua metode komparasi bisa dilihat pada Gambar 3 yang merupakan kurva ROC untuk algoritma Naive Bayes. Kurva ROC pada gambar 3 mengekspresikan confusion matrix dari Tabel 4. Garis horizontal adalah false positives dan garis vertikal true positives.

Gambar 7. Kurva ROC dengan Metode Naïve Bayesberbasis Algoritma Genetika Dari Gambar 7 terdapat grafik ROC dengan nilai AUC (Area Under Curve) sebesar 0.790 dimana diagnosa hasilnya Fair classification. Berdasarkan hasil eksperiment yang dilakukan untuk memecahkan masalah prediksi hasil prediksi penyakit diabetes type 3, dapat disimpulkan bahwa hasil eksperiment menggunakan metode Naive

Bayesberbasis Algoritma

Genetikamempunyai tingkat akurasi sebesar 74.74% dan mempunyai nilai AUC sebesar 0.790.

Tabel 6. Pengujian algoritma Naive Bayes dan Naïve Bayes

Berbasis Algoritma Genetika Accuracy AUC Naive Bayes 72.00% 0.753 Naive Bayes Berbasis Algoritma Genetika 74.74% 0.759

Sumber: Hasil Penelitian (2017) 4. Simpulan

Berikut ini kesimpulan yang penulis ambil setelah melakukan penelitian.

Hasil eksperimen pengujian data penyakit diabetes UCI data set dengan menggunakan Naive Bayes sebelum dan sesudah dilakukan seleksi atribut dengan optimasi parameter dengan Algoritma Genetika, menunjukkan bahwa adanya perbedaan yang signifikan pada akurasinya. Dan penerapan model Naive Bayes Algoritma Genetika untuk seleksi fitur dan optimasi parameter terbukti meningkatkan akurasi dalam prediksi penyakit diabetes type 3 . Pada penelitian ini penerapan model Naïve Bayes berbasis Algoritma Genetika dapat meningkatkan akurasi prediksi penyakit diabetes type 3, akan tetapi karena keterbatasan mengenai penelitian yang dilakukan ini disarankan untuk melakukan penelitian selanjutnya yang berkaitam dengan prediksi untuk mendapatkan akurasi yang lebih baik. Adapun saran yang diberikan yaitu:

1. Data Prediksi penyakit diabetes type 3 merupakan data yang diambil dari UCI Repository dimana atribut disesuaikan dengan kondisi penyakit diabates type 3, penelitian ini dapat dijadikan acuan bagi penentuan penyakit diabetes yang datanya bermanfaat bagi dunia kesehatan.

2. Parameter yang digunakan untuk penentuan penyakit diabetes type 3 mungkin akan bertambah dengan perubahan lingkungan.

3. Penelitian ini dapat dikembangkan dengan metode klasifikasi data mining lainnya seperti Decision tree, Neural Network, KNN dan lainnya serta melakukan optimasi dengan Ant Colony

(6)

Optimization (ACO), Adaboost, dan lainnya.

Referensi

Iancu, E., Iancu, I., & Sfredel, V. (2010). Predictive Control Of Blood Glucose In Diabetes Mellitus Patients. International Conference On Automation, Quality And Testing, Robotics , 1-6.

Karegowda, A.G. Manjunath, A.S. Jayaram, M.A. (2011). Application Of Genetic Algorithm Optimized Neural Network Connection Weights For Medical Diagnosis Of Pima Indians Diabetes. International Journal On Soft Computing (Ijsc ). 15-23.

Mahmud ,W.M. Agiza, H N. & Radwan, E. (2009). Intrusion Detection Using Rough Sets Based Parallel Genetic Algorithm Hybrid Model. Proceedings Of The World Congress On Engineering And Computer Science.

Mason, R. (2005). The Natural Diabetes Cure. Usa: 4th Printing Spring 2012. Okatiranti, O. (2016). PENGETAHUAN

PASIEN DIABETES MELITUS TIPE II TENTANG PERAWATAN KAKI DI WILAYAH KERJA PUSKESMAS CIKUTRA BARU KECAMATAN

CIBEUNYING KALER

BANDUNG. KEPERAWATAN, 1(1). Pattekari, S.A. Parveen, A. (2012).

Prediction System For Heart Disease Using Naive Bayes. International Journal of Advanced Computer and Mathematical Sciences, 290-294

Biodata Penulis

Frisma Handayanna, M.Kom. Lulus Tahun 2006 Diploma Tiga (DIII) Jurusan Komputer

Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program Strata Satu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta. Telah melakukan penulisan paper di Jurnal STMIK Antarbangsa Jurnal Sistem Informasi ISSN 2089-8711 Vol. IV No.1 Februari 2015, Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. I No. 2 Agustus 2015 ISSN. 2442-2444. Jurnal STMIK Antarbangsa Jurnal Teknik Informatika Vol. II No. 1 Februari 2016 ISSN. 2442-2444.

Ester Arisawati, M.Kom. lulus Tahun 2007 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.

Rinawati, M.Kom. lulus Tahun 2005 Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2008 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.

Linda Sari Dewi, M.Kom. lulus Tahun 2009Diploma Tiga (DIII) Jurusan Komputer Akutansi AMIK BSI Jakarta. Tahun 2010 lulus dari Program StrataSatu (S1) Program Studi Sistem Informasi STMIK Nusa Mandiri Jakarta lulus dari Program Strata Dua (S2) Prodi Imu Komputer STMIK Nusa Mandiri Jakarta Tahun 2012. Aktif mengajar di STMIK Nusa Mandiri Jakarta.