PENERAPAN ALGORITMA NAIVE BAYES DALAM MENDIAGNOSA PENYAKIT ISPA
Muhtajuddin Danny1), Rita Hardianti2) Program Studi Teknik Informatika Fakultas Teknik
Universitas Pelita Bangsa [email protected] Disetujui, 31 Maret 2020
Abstraksi
Kesehatan merupakan hal paling penting dalam kehidupan manusia, namun ternyata masyarakat Indonesia masih jauh dari kata pola hidup sehat. Salah satu penyakit yang dapat disebabkan oleh pola hidup tidak sehat adalah penyakit ISPA yang dapat menular dengan cepat. Selama ini banyak data yang besar di Rumah Sakit namun datanya belum dapat dimaksimalkan dengan baik padahal jika data tersebut dapat dimanfaatkan maka dapat digunakan untuk Mendiagnosa penyakit ISPA menggunakan Algoritma Naïve Bayes. Pengumpulan data ini menggunakan data primer yaitu dan diolah mengunakan metode Split Validation dimana metode ini dapat membagi data menjadi 2 bagian yaitu data training dan juga data testing dengan split ratio yang telah ditentukan, penelitian ini menghasilkan nilai akurasi sebesar 81,82, pada nilai Recall hasil yang didapat adalah sebesar 50.00% dan hasil Precision yang didapatkan pada pengujian Naïve Bayes memiliki nilai yaitu sebesar 75,00%.
Kata Kunci : Data Mining, Naïve Bayes, ISPA.
Abstract
Health is the most important thing in human life, however, it turns out that Indonesian society is still far from saying a healthy lifestyle. One of the diseases that can be caused by an unhealthy lifestyle is an ARI, which can be transmitted quickly. So far, there is a lot of large data in the hospital, but the data cannot be maximized properly, even though if the data can be used, it can be used to diagnose ARI using the Naïve Bayes Algorithm. This data collection uses primary data, namely and is processed using the Split Validation method where this method can divide the data into 2 parts, namely training data and also testing data with a predetermined split ratio, this study produces an accuracy value of 81.82, on the Recall results value. obtained is 50.00% and the Precision results obtained in the Naïve Bayes test have a value of 75.00%.
Keywords: Data Mining, Naïve Bayes, ISPA.
1. Pendahuluan
Perkembangan teknologi informasi yang pesat terutama di bidang kesehatan memberikan sumbangan data yang sangat besar. Saat ini berbagai instansi kesehatan sudah mulai menerapkan sistem informasi berbasis komputer untuk mendukung manajemen dalam hal pendataan pasien. Salah satunya adalah pendataan rekam medis pasien. Namun, saat ini hanya sedikit instansi kesehatan yang memanfaatkan data- data tersebut untuk kepentingan instansi itu sendiri. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of knowledge”, karena data yang terkumpul itu hanya digunakan untuk kebutuhan operasional saja, bahkan tidak jarang kumpulan data itu dibiarkan begitu saja seakanakan menjadi “kuburan data” [1].
Infeksi Saluran Pernapasan Akut (ISPA) mencakup tiga unsur utama, yaitu infeksi, saluran pernapasan, dan keakutan. Infeksi adalah invasi kuman atau mikroorganisme ke dalam tubuh manusia dimana mereka mereproduksi dirinya sendiri, dengan demikian menyebabkan gejala penyakit.Saluran pernapasan adalah seperangkat organ tubuh, dimulai dari hidung ke alveoli bersama dengan organ adneksa. Sementara itu, infeksi akut adalah infeksi yang berlangsung selama 14 hari atau lebih. Mengacu pada data kematian anak neonatal dibawah umur < 1 tahun di Provinsi Sumatera Selatan sampai dengan bulan Desember 2015 mencapai 579 kasus, menurun jika dibandingkan tahun 2014 sebanyak 626 kasus. Penyakit Infeksi Saluran Pernapasan akut merupakan penyebab kematian utama sebagian besar disebabkan karena pneumonia, yaitu sebesar 23,6
%. ISPA merupakan salah satu penyebab utama kunjungan pasien di sarana kesehatan. Sebanyak 40-60%
kunjungan berobat di puskemas dan 15- 30% kunjungan berobat di bagian rawat jalan dan rawat inap di rumah sakit disebabkan penyakit ISPA [2].
Infeksi Saluran Pernapasan Akut (ISPA) mencakup tiga unsur utama, yaitu infeksi, saluran pernapasan, dan keakutan. Infeksi adalah invasi kuman atau mikroorganisme ke dalam tubuh manusia dimana mereka mereproduksi dirinya sendiri, dengan demikian menyebabkan gejala penyakit.Saluran pernapasan adalah seperangkat organ tubuh, dimulai dari hidung ke alveoli bersama dengan organ adneksa.
Sementara itu, infeksi akut adalah infeksi yang berlangsung selama 14 hari atau lebih [3].
Data mining berhubungan dengan pencarian data untuk menemukan pola atau pengetahuan dari data keseluruhan. Ternyata kumpulan data yang besar dapat menghasilkan sebuah data yang hasilnya dapat memberikan informasi pengetahuan yang baru. Data mining adalah sebuah langkah penting dalam proses menemukan pengetahuan [4].
Dalam data mining prediksi dan klasifikasi banyak digunakan untuk menganalisis suatu data yang dapat menggambarkan kelas data atau untuk Mendiagnosa data di masa depan. Proses klasifikasi memiliki dua tahap, tahap pertama adalah proses pembelajaran dimana kumpulan data training dianalisis dengan algoritma klasifikasi. Model pengklasifikasian disajikan dengan aturan klasifiasi atau menemukan pola.
Tahap kedua adalah penggunaan model untuk klasifikasi, dan kumpulan data testing digunakan untuk memperkirakan keakuratan dalam aturan klasifikasi [5]. Pada penelitian sebelumnya yang dilakukan oleh Siti Muharni menggunakan Algoritma Decision Tree(ID3) tentang prediksi penyakit ISPA didapatkan hasil akurasi sebesar 87,5%.
Berdasarkan latar belakang yang dinyatakan diatas, maka dilakukan penelitian dengan judul
“Penerapan Algoritma Naïve Bayes Dalam Mendiagnosa Penyakit ISPA”.
2. Tinjaun Studi 2.1. Data Mining
Data mining merupakan salah satu bagian ilmu komputer yang terdapat beberapa proses untuk menemukan sebuah pola baru atau pengetahuan baru dari suatu dataset. Proses mencari suatu pola dari dataset yang telah dipilih dapat menggunakan metode-metode tertentu, metode atau algoritma dalam data mining memiliki banyak variasi, oleh karena itu pemilihan algoritma yang tepat bergantung pada tujuan seorang peneliti. Tujuan utama data mining yaitu mempelajarai informasi- informasi dari suatu dataset untuk diubah menjadi suatu pengetahuan baru yang nantinya dapat digunakan untuk masa depan [7].
Data mining bukan merupakan suatu bidang yang baru, namun sudah pernah digunakan untuk penelitian-penelitian sebelumnya. Menurut para ahli, data mining adalah suatu proses yang diawali observasi sebuah data dalam jumlah besar yang datanya masih belum diketahui sebelumnya lalu dibuat dengan sebuah metode baru agar mudah dipahami dan diketahui kegunaannya [8].
Data mining atau Knowledge Discovery in Database (KDD) memiliki tahap-tahap yang harus dilakukan sebelum diproses. Gambar 1. menggambarkan tahapan data mining.
Gambar 1. Tahapan Data Mining
Berikut adalah tahapan-tahapan data mining atau Knowledge Discovery in Database (KDD) [9] : 1. Data Selection
Pemilihan data perlu dilakukan sesuai dengan kebutuhan- kebutuhan yang diperlukan sebelum tahap penggalian informasi dilakukan. Hasil data yang telah diseleksi sebaiknya disimpan pada berkas terpisah dengan basis data operasional, sehingga mempermudah untuk proses selanjutnya.
2. Data Preprocessing (Data Cleaning)
Sebelum proses data mining dilakukan, hendaknya dilakukan proses pembersihan data. Pembersihan
data ini meliputi hilangnya data, duplikasi data,data yang inkosisten, dan juga atribut-atribut yang kemungkinan tidak relevan agar tidak mengurangi tingkat akurasi penelitian.
3. Transformation
Setelah data telah dipilih dan juga sudah melewati proses pembersihan data, selanjutnya yaitu mengubah format data sehingga dapat diproses untuk data mining.
4. Data Mining
Data mining adalah suatu proses mencari pola dari data yang telah dipilih dengan menggunakan metode atau teknik yang bervariasi, pemilihan metode yang tepat akan berpengaruh pada tujuan penilitian.
5. Interpertation (Evaluation)
Tahap ini merupakan tahap paling akhir dari tahapan-tahapan Data Mining. Pada tahap ini memiliki tujuan yaitu menampilkan pola atau aturan yang telah dihasilkan dari proses data mining lalu ditampilkan dalam bentuk yang sederhana sehingga mudah dimengerti oleh pihak yang berkepentingan. Tahap ini juga berguna untuk memeriksa pola yang telah ditemukan dengan fakta atau hipotesis yang telah dijabarkan sebelumnya.
2.2. Klasifikasi
Klasifikasi secara taksonomi adalah suatu proses menempatkan objek atau konsep kedalam satu kelompok kategori berdasarkan objek atau konsep yang bersangkutan. Metode ini biasa digunakan untuk membantu dalam memahami cara pengelompokkan data, klasifikasi sendiri merupakan salah satu cabang dari discovery data mining [10].
Klasifikasi sendiri merupakan bagian dari prediksi, dimana nilai yang akan diprediksi berupa label.
Klasifikasi menentukan class atau grup untuk tiap data, input dari metode klasifikasi adalah data samples dan outputnya berupa class dari data samples itu sendiri, dalam machine learning untuk membangun model klasifikasi dapat menggunakan metode supervised learning. Metode supervised learning adalah metode pendekatan dimana ada data latih dan terdapat varibel target yang akan dicari hubungan antara data latih dan variabel target, hubungan yang telah ditemukan biasa disebut dengan model. Dalam metode klasifikasi kita dapat menentukan objek kedalam suatu kategori tertentu, contoh dalam menangani masalah klasifikasi adalah menentukan apakah seseorang pasien “mengidap” atau “tidak mengidap” penyakit tertentu.
Informasi tentang data pasien sebelumnya dapat digunakan sebagai bahan untuk melatih algoritma untuk mendapatkan rule atau aturan [5].
2.3. Naive Bayes
Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes, yang digunakan untuk Mendiagnosa peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Algoritma ini mengunakan teorema bayes dan mengasumsikan semua atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel kelas [21]. Algoritma Naïve Bayes classifier juga dapat didefinisikan sebagai suatu model independen yang membahas mengenai klasifikasi sederhana berdasarkan teorema Bayes. Naive bayes bekerja dengan cara menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari data set yang diberikan Merupakan teknik probabilistik klasifikasi berdasarkan teorema Bayes dengan asumsi independensi diantara variabel prediktor. Secara sederhana, pengelompokan Naïve Bayes menganggap adanya suatu fitur tertentu dalam sebuah kelas tidak terkait dengan adanya fitur lainnya [22]. Teorema Bayes memberikan cara untuk menghitung posterior probability P (C|X) dari P (C), P (X) dan P (X|C) dengan persamaan berikut:
Keterangan:
P(C|X) : posterior probability kelas (C, target) yang diberikan prediktor (X, atribut) P(C) : probabilitas kelas sebelumnya
P(X|C) : Kemungkinan yang merupakan probabilitas prediktor kelas yang diberikan
P(X) : probabilitas prediktor sebelumnya Evaluasi
3. Desain Penelitian/Metodologi 4.
Pada penelitian ini, data yang digunakan adalah data penderita penyakit ISPA. Data pasien ini akan diolah menggunakan beberapa metode data mining sehingga diperoleh metode yang dapat digunakan sebagai rules dalam memprediksi penyakit diabetes. Dalam penelitian ini akan dilakukan beberapa langkah-langkah atau tahapan penelitian seperti yang terlihat pada Gambar 2.
Gambar 2. Tahapan Penelitian
6. Pengumpulan Data
Pada bagian ini dijelaskan tentang bagaimana dan dari mana data dalam penelitian ini didapatkan, meliputi data sekunder dan data primer. Data sekunder berisi tentang sumber perolehan data untuk keperluan penelitian, sedangkan data primer berisi tentang data yang dihasilkan dari penelitian.
7. Pengolahan Awal Data
Pada bagian ini dijelaskan tentang tahap awal data mining. Pengolahan awal data meliputi proses input data ke format yang dibutuhkan, pengelompokan dan penentuan atribut data.
8. Metode yang Diusulkan
Pada bagian ini dijelaskan tentang metode yang diusulkan untuk digunakan pada prediksi penyakit diabetes. Penjelasan meliputi pengaturan dan pemilihan dari atribut-atribut yang digunakan sebagai parameter dan arsitektur melalui uji coba.
9. Eksperimen dan Pengujian Metode
Pada bagian ini dijelaskan tentang langkah-langkah eksperimen meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat.
10. Evaluasi dan Validasi Hasil
Dalam tahap ini dilakukan evaluasi dan menafsirkan pola yang didapatkan dari hasil algoritma yang dipakai untuk mengetahui aturan, kehandalan, dan lain-lain. Evaluasi dilakukan dengan menerapkan pola yang didapat dari proses sebelumnya terhadap data testing yang disediakan.
Evaluasi dilakukan dengan confusion matrix dan kurva ROC. Hasil dari confusion matrix akan digunakan untuk menampilkan hasil Accuracy, Precision, dan Recall. Accuracy merupakan presentase antara nilai prediksi dengan nilai sebenarnya yang ada.Recall merupakan kinerja keberhasilan algoritma yang digunakan. Precision merupakan nilai akurasi dengan class yang telah diprediksi. Dan kurva ROC digunakan untuk menghasilkan nilai Area Under Curve (AUC) [11].
Berikut adalah tabel confusion matrix:
Tabel 1. Model Confusion Matrix Confusion Matrix Nilai Prediksi
Positif Negatif Nilai
Sebenarnya
Positif (a) TP
(b) FP Negatif (c)
FN
(d) TN Keterangan :
a : jika nilai prediksi positif dan kelas sebenarnya positif b : jika nilai prediksi negatif dan kelas sebenarnya positif c : jika nilai prediksi positif dan kelas sebenarnya negatif d : jika nilai prediksi negatif dan kelas sebenarnya negatif Berikut adalah rumus untuk menghitung Accuracy :
Keakurasian nilai AUC dapat dikategorikan menjadi 5 kategori antara lain :
B. Akurasi bernilai 0,90 - 1,00 = Excellent Classification C. Akurasi bernilai 0,80 - 0,90 = Good Classification D. Akurasi bernilai 0,70 - 0,80 = Fair Classification E. Akurasi bernilai 0,60 - 0,70 = Poor Classification F. Akurasi bernilai 0,50 - 0,60 = Failure Classification
G. Pengumpulan data
Dalam metode pengumpulan data terdapat 2 metode yaitu pengumpulan data primer dan sekunder. Data primer adalah data yang didapat langsung dari sumbernya sedangkan data sekunder adalah data yang diperoleh secara tidak langsung dari sumbernya [12]. Pada penelitian ini peneliti menggunakan data primer karena dataset tersebut diambil langsung di Rumah Sakit Medirossa 2 Cibarusah seperti pada Tabel 2.
Tabel 2. Dataset Penyakit ISPA
N o
Us ia
Ber at Bad an
Jeni s Kela min
Hipert ens i
Ba tu k
Pil ek
Ses ak Na pa s
Diagn osa
1 3 Ring Laki- Ya Ya Ti Ya
Ya
an laki d a k 2 4 Ring
an
Peremp uan
Ya Tid ak
Ya Tid ak
Tidak 3 12 Cuk
up
Laki- laki
Tid ak
Ya Ti d a k
Ya Tidak
4 5 Bera t
Peremp uan
Tid ak
Ya Ya Ya Ya 5 4 Bera
t
Peremp uan
Ya Tid ak Ti
d a k
Tidak Ya
6 4 Bera
t Peremp
uan Ya Ya Ya Ya Ya
7 3 Cuk
up Laki- laki Tid
ak Ya Ya Ya Ya 8 4 Bera
t
Peremp uan
Tid ak
Tid ak
Ya Ya Ya
9 5 Cuk
up
Laki- laki
Ya Ya Ti d a k
Tidak Tidak
1 0
2 Bera t
Laki- laki
Tid ak
Tid ak
Ti d a k
Ya Ya
... ... ... ... ... … … … ...
H. Pengolahan Data Awal
Pada data pasien penderita ispa sebelum diolah maka harus dilakukan data cleaning terlebih dahulu, yaitu melihat apakah ada yang missing value, data hilang dan lain sebagainya. Dari Tabel 2. kita dapat melihat bahwa atribut yang digunakan ada 8 (delapan) atribut atau bisa dilihat pada table berikut.
Tabel 3. Atribut Dataset yang digunakan
No Atribut Tipe Data Keterangan
1 Usia Integer -
2 Berat Badan Polynominal -
3 Jenis Kelamin Binominal Laki – Laki & Perempuan
4 Hipertensi Binominal Ya & Tidak
5 Batuk Binominal Ya & Tidak
6 Pilek Binominal Ya & Tidak
7 Sesak Nafas Binominal Ya & Tidak
8 Diagnosa Binominal Ya & Tidak
Data yang sudah disiapkan untuk klasifikasi dibagi menjadi dua untuk data training (80%) dan data testing
(20%). Pembagian data menjadi data training dan data testing menggunakan tools Split Validation. Split Validation adalah teknik validasi yang membagi data menjadi dua bagian secara acak, sebagian sebagai data training dan sebagian lainnya sebagai data testing. Dengan menggunakan Split Validation akan dilakukan percobaan training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk kemudian sisa dari split ratio data training akan dianggap sebagai data testing.
Data training adalah data yang akan dipakai dalam melakukan pembelajaran sedangkan data testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau keakurasian hasil pembelajaran [13]. Berikut adalah ilustrasi split validation :
Gambar 3. Ilustrasi Split Validation
5. Hasil Dan Pembahasan
Pada tahap ini dijelaskan tentang pengolahan data menggunakan operator Split Validation. Operator Split Validation disini berguna untuk membagi data menjadi 2 bagian berdasarkan split ratio yang telah ditentukan sebelumnya, split ratio yang telah dipilih akan digunakan sebagai data training dan sisanya akan digunakan sebagai data testing. Pada parameters Split Validation pilih split ratio 0.8 karena peneliti ingin datanya dibagi menjadi 80% untuk data training dan 20% untuk data testing. Namun jika diklik 2 kali Split Validation memiliki dua bagian yaitu seperti gambar berikut
Gambar 4. Split Validation
Dari data yang telah diproses dari rapidminer didapatkan simple distribution sebagai berikut:
Gambar 5. Hasil Simple Distribution
Setelah didapat simple distribution kemudian melihat confusion matrix. Accuracy yang didapat dari 113 data adalah sebesar 81.82%.
Gambar 6. Hasil Accuracy
Hasil Recall yang didapat adalah sebesar 50,00%.
Gambar 7. Hasil Recall
Hasil Precision yang didapat adalah sebesar 75,00%.
Gambar 8. Hasil Precision Berikut adalah hasil AUC:
Gambar 9. Hasil AUC Berikut adalah tabel hasil pengujian.
Tabel 4 Hasil Pengujian Hasil Pengujian
Accuracy Precision Recall AUC
81.82% 75.00% 50.00% 0,646
Daftar Pustaka
I. A. Rianawati and W. F. Mahmudy, “Implementasi Algoritma Genetika Untuk Optimasi Komposisi Makanan Bagi Penderita Diabetes Mellitus,” DORO Repos. J. Mhs. PTIIK Univ. Brawijaya, vol. 5, no. 14, pp. 1–12, 2015.
J. J. J. Pangaribuan, “Mendiagnosis Penyakit Diabetes Melitus Dengan Menggunakan Metode Extreme Learning Machine,” Isd, vol. 2, no. 2, pp. 2528–5114, 2016.
K. KEMENKES, “INFO DATIN SITUASI DAN ANALISIS DIABETES,” 2014.
L. M. Renuka Devi and J. Maria Shyla, “Analysis of various data mining techniques to predict diabetes mellitus,” Int. J. Appl. Eng. Res., vol. 11, no. 1, pp. 727–730, 2016.
M. Fatmawati, “Perbandingan Algoritma Klasifikasi Data Mining
Model C4 . 5 Dan Naive Bayes Untuk Prediksi Penyakit Diabetes,”
J. Techno Nusa Mandiri, vol. XIII, no. 1, pp. 50–59, 2016.
N. A. Muzakir and R. A. Wulandari, “Model Data Mining sebagai Prediksi Penyakit Hipertensi Kehamilan dengan Teknik Decision Tree,” Sci. J. Informatics, vol. 3, no. 1, pp. 19–26, 2017.
O. V. VijayanV and A. Ravikumar, “Study of Data Mining Algorithms for Prediction and Diagnosis of Diabetes Mellitus,” Int. J. Comput. Appl., vol. 95, no. 17, pp. 12–16, 2014.
P. S. H. David Hartanto Kamagi, “Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Tingkat Kelulusan Mahasiswa,” ULTIMATICS, vol. VI, no. 1, pp. 254–260, 2014.
Q. M. Yuli, “Data Mining : Klasifikasi Menggunakan Algoritma C4.5,” J. Edik Inform., vol. 2, no. 2, pp. 213–219, 2017.
R. A. Andriani, “Sistem Prediksi Penyakit Diabetes Berbasis
Decision Tree,” Bianglala Inform., vol. 1, no. 1, pp. 1–10, 2013.
S. M. K. Jiawei Han, Jian Pei, Data Mining: Concepts andTechniques. San Francisco: Elsevier B.V., 2006.
T. L. Swastina, “Penerapan Algoritma C4.5 untuk Penentuan Jurusan Mahasiswa,” J. Gema Aktual., vol.
2, no. 1, pp. 93–98, 2013.
U. M. A. Witten, I. H., Frank, E., & Hall, “Data Mining Practical Machine Learning Tools and Techniques Third Edition,” Burlingt. Elsevie, 2011.