JURNAL DATA SCIENCE & INFORMATIKA (JDSI)
Vol. 1 No. 1 (Juli 2021) p.6-10 ISSN Media Elektronik: xxx-xxxx
Implementasi Algoritma Naïve Bayes dalam Klasifikati Penyakit Diabetes
Nur Farisah Patimah1, Muhamad Abdurrohman2 Ade Rizki Rinaldi3 Arif rinaldi Dikananda4
1Program Studi Rekayasa Perangkat Lunak, STMIK IKMI Cirebon
2Program Studi Rekayasa Perangkat Lunak, STMIK IKMI Cirebon
3Program Studi Rekayasa Perangkat Lunak, STMIK IKMI Cirebon
4Program Studi Rekayasa Perangkat Lunak, STMIK IKMI Cirebon
1[email protected]*, 2[email protected]* (beri tanda * jika penulis koresponding)
Abstract
Human health can depend greatly on many factors, among others due to environmental factors of residence or due to hereditary / genetic factors. Health is the main strength of humans to carry out their life activities. One of the diseases that becomes a killing machine is Diabetes Mellitus (DM). Health checks related to DM in the medical world can be done by diagnosing diseases that produce laboratory test results and medical records of pain symptoms. To reduce mortality from DM, health experts must diagnose the disease as early as possible. But in diagnosing the disease only refers to the medical record. This DM apparently can be done automatically using the branch of information technology that is by utilizing a data mining work method with the application of the Naive Bayesian method. The Naive Bayesian method will calculate the probability value for each occurrence of the target attribute in each case through calculation of the Diabetes Mellitus medical record data. Performancevector Research Results: Accuracy: 35.00% Confusionmatrix: True: Treated Return Home Treated: 3 9 Return: 4 4 Precision: 50.00% (Positive Class: Return) Confusionmatrix: True: Treated Return Home Treated: 3 9 Return: 4 4 Recall: 30.77% (Positive Class: Going Home) Confusionmatrix: True: Treating Home Treating: 3 9 Home: 4 4.
Keyword : Data Mining, Classification, SPP Payment, Naive Bayes Algorithm.
Abstrak
Kesehatan manusia bisa sangat bergantung dari banyak faktor, antara lain karena faktor lingkungan tempat tinggal ataupun karena faktor keturunan/genetikal. Kesehatan inilah yang menjadi kekuatan utama manusia untuk melaksanakan aktivitas hidupnya. Salah satu penyakit yang mengakibatkan tingginya angka kematian adalah Diabetes Mellitus(DM). Pemeriksaan kesehatan yang berkaitan dengan DM dalam dunia medis dapat dilakukan dengan cara diagnosa penyakit yang menghasilkan data hasil uji laboratorium dan rekam medis gejala sakit. Guna menekan angka kematian dari penyakit DM ini, para pakar kesehatan harus melakukan diagnosa penyakit sedini mungkin. Namun dalam mendiagnosa penyakit tersebut hanya mengacu pada rekam medis. DM ini ternyata dapat pula melibatkan secara otomatis menggunakan cabang ilmu teknologi informasi yaitu dengan pemanfaatan suatu metode kerja penambangan data (data mining) dengan penerapan metode Naive Bayesian. Metode Naive Bayesian akan menghitung nilai probabilitas untuk setiap kejadian dari atribut target pada setiap kasus melalui penghitungan dari data rekam medis Diabetes Mellitus tersebut. Hasil Penelitian Performancevector: Accuracy: 35.00%
Confusionmatrix: True: Dirawat Pulang Dirawat: 3 9 Pulang: 4 4 Precision: 50.00% (Positive Class: Pulang) Confusionmatrix: True: Dirawat Pulang Dirawat : 3 9 Pulang: 4 4 Recall: 30.77% (Positive Class: Pulang) Confusionmatrix: True: Dirawat Pulang Dirawat : 3 9 Pulang : 4 4.
Kata kunci : Diabetes Mellitus, Klasifikasi, Naïve Bayes.
1. Pendahuluan
Kerusakan pada kinerja organ badan manusia sangatlah merugikan serta jadi sumber permasalahan terbanyak berusia ini. Salah satu penyakit yang jadi pembunuh nomer satu di dunia merupakan diabet mellitus( desimeter). Diabet mellitus ialah salah satu penyakit metabolik yang diisyarati dengan hiperglikemia yang diakibatkan sebab terdapatnya sesuatu kendala sekresi insulin, dari kerja insulin maupun keduanya. Hiperglekemia kronis pada diabet mellitus hendak menimbulkan banyak kerusakan pada oragan badan manusia, contohnya ginjal, mata, saraf, jantung serta pembuluh darah[1]. Diabet mellitus dipecah jadi sebagian jenis. Diabet melitus jenis i umumnya memunculkan indikasi saat sebelum umur penderita 30 tahun, meski indikasi bisa timbul kapan saja Pasien diabetes melitus tipe i memerlukan insulin dari luar tubuhnya untuk kelangsungan hidupnya.
Diabetes melitus tipe ii biasanya dialami saat pasien berusia 30 tahun atau lebih, dan pasien tidak tergantung dengan insulin dari luar tubuh, kecuali pada keadaan- keadaan tertentu. Tipe diabetes mellitus lainnya adalah diabetes melitus gestasional, yakni diabetes mellitus yang terjadi pada ibu hamil, yang disebabkan oleh gangguan toleransi glogosa pada pasien tersebut.
Penyakit ini merupakan penyakit yang menurun yang bisa di turunkan orang tua kepada anaknya, dan sangat disayangkan bila diusia yang masih muda sudah mengalami diabetes. Setiap tahunnya penderita diabetes di indonesia terus bertambah. [6]
Akibat lonjakan tersebut, di wilayah Kota Cirebon penderita diabetes meningkat tiap tahunya, disebabkan oleh tingkat kesadaran masyarakat Cirebon yang rendah juga menjadi salah satu unsur peyebab diabetes terus- menerus merenggut kehidupan masyarakat luas ini tanpa disadari.
Penentuan seseorang terserang Diabetes Mellitus amat sulit untuk ditentukan. Melalui rekam medis dan uji laboratorium akan menghasilkan data yang valid.
Data yang diperoleh dari hasil rekam medis itu nantinya akan diberikan adanya penyakit ini, atau murni hanya diabetes saja. Kurangnya penanganan dalam menentukan penyakit inilah yang mendorong dunia teknologi informasi, khususnya dengan penerapat ilmu mining akan ikut andil di dalamnya, agar mempermudah dunia medis khususnya dokter ahli menentukan suatu klasifikasi Diabetes Mellitus kepada pasien. Guna mendapatkan klasifikasi tentang DM dan penelitian tentang klasifikasi dengan kasus ini, maka penulis mencoba mengaitkan kasus dengan menggunakan metode Naive Bayes. Metode ini untuk menjawab permasalahan-permasalahan di bidang probabilitas dan statistik, yang akan diterapkan untuk menjawab persoalan keterjangkitan Diabetes Mellitus di masyarakat dewasa ini
2. Metode Penelitian
Metodologi yang digunakan dalam penelitian dalam penerapan Naïve Bayes pada klasifikasi penyakit diabetes, berikut Langkah-langkah penelitian yang dilakukan dalam pemecahan masalah tersebut dapat dilihat dalam diagram alir penelitian seperti pada gambar [1] [2][3].
Gambar 1. Diagram Alir
Penelitian Awal, penelitian memiliki beberapa tahapan di antaranya [9] [10] : 1) Rumusan masalah, pada tahap ini merupakan tahap awal dari metodologi penelitian. Rumusan masalah di dalam penelitian yakni Bagaimana mengklasifikasi penyaki dibetes menggunakan algoritma Naïve Bayes. 2) Menentukan tujuan penelitian, pada tahap ini setelah diketahui masalah yang akan diselesaikan maka mentukan tujuan yang akan dicapai yaitu mendapatkan klasifikasi penyakit diabetes militus menggunakan algoritma Naïve Bayes. 3) Observasi, pada tahapan ini observasi dilakukan dengan melakukan pengamatan dan pemahaman serta mencatat hal-hal penting dan mengumpulkan data-data mengenai penyakit diabetes militus. 4) Wawancara, pada tahap wawancara memiliki tujuan untuk mengumpulkan informasi yang dibutuhkan dalam menerapkan metode Naïve bayes dalam menentukan status penyakit diabetes militus. 5) Studi literatur, pada tahap ini akan dilakukan dengan mecari dan memahami terkait teori-teori yang akan diselesaikan dalam penelitian ini. Tahap ini dilakukan dengan memahami penelitian-penelitian terdahulu, buku, publikasi ilmiah dan internet terkait dengan penyakit diabetes militus.
Pengumpulan Data, memiliki tahapan : 1) Identifikasi Kriteria, pada tahapan ini dilakukan untuk mendapatkan penyakit diabetes militus. 2) Identifikasi
Kriteria, pada tahap ini dilakukan dengan cara memahami penelitian-penelitian terdahulu terkait kriteria-kriteria dalam menentukan penyakit diabetes militus. 3) Identifikasi dan Penyusunan Data, setelah kriteria yang akan digunakan sudah diidentifikasi, maka tahap selanjutnya adalah penyusunan instrumen yang akan digunakan untuk pengambilan data untuk penelitian ini.
Pengolahan Data, metode analisis data adalah proses penelitian yang dilakukan setelah semua data yang dibutuhkan sudah terkumpul baik berupa data primer atau data sekunder. Analisis data di sini maksudnya untuk menemukan pola umum dari data yang terkumpul dengan cara mengolah atau meringkasnya. Metode analisis data yang digunakan di penelitian ini adalah analisis deskriptif dalam menyeleksi data kuantitatif.
Dalam fungsinya analisis deskriptif digunakan untuk mendeskripsikan atau menggambarkan dari data yang terkumpul dari fakta fakta yang ada, data yang dimaksud adalah data sekunder yang berupa data kuantitatif yang bentuk angka-angka dapat digunakan untuk opersi matematika, Dalam penelitian ini penyajian datanya dalam bentuk table.
Metode analisis data adalah proses penelitian yang dilakukan setelah semua data yang dibutuhkan sudah terkumpul baik berupa data primer atau data sekunder.
Analisis data di sini maksudnya untuk menemukan pola umum dari data yang terkumpul dengan cara mengolah atau meringkasnya. Metode analisis data yang digunakan di penelitian ini adalah analisis deskriptif dalam menyeleksi data kuantitatif. Dalam fungsinya analisis deskriptif digunakan untuk mendeskripsikan atau menggambarkan dari data yang terkumpul dari fakta fakta yang ada, data yang dimaksud adalah data sekunder yang berupa data kuantitatif yang bentuk angka-angka dapat digunakan untuk opersi matematika, Dalam penelitian ini penyajian datanya dalam bentuk tabel.
Metode penelitian yang digunakan penulis dalam Menerapkan Algoritma naïve bayes untuk klasifikasi penyakit diabetes militus adalah metode dengan proses Knowledge Discovery in Databases (KDD):
Berikut tahapan-tahapan yang akan dilakukan dalam penelitian ini : Seleksi Data (Selection), selection (seleksi/pemilihan) data dari merupakan sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam Knowledge Discovery Database (KDD) dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
Pemilihan Data (Preprocessing/Cleaning), proses Preprocessingmencakup adalah dengan membuang duplikasi data, mengecek data yang tidak konsisten, dan meluruskan kesalahan datanya, seperti kesalahan cetak (tipografi). Dengan dilakukan proses enrichment, yaitu proses “memperkaya” data yang sebeumnya telah ada dengan data atau informasi lainnya yang berhubungan dan diperlukan untuk Knowledge Discovery Database
(KDD), contohnya pada data atau informasi eksternal.
Transformasi (Transformation), pada tahap ini yang dilakukan adalah menkonversi bentuk data yang belum mempunyai entitas dengan jelas pada bentuk data yang valid atau siap untuk dilakukan prose Data Mining. Data Mining, pada tahap ini yang dilakukan adalah mempergunakan algoritma atau metode pencarian pengetahuan. Interpretasi/Evaluasi (Interpratation /Evaluation), pada tahap terakhir ini yang dilaksanakan adalah proses membangun keluaran yang mudah dipahami yang berasal dari proses Data Mining Pola informasi.
Algoritma adalah teknik penyusunan tahapan untuk menyelesaikan masalah dalam bentuk kalimat dengan jumlah kata yang terbatas, tersusun secara logis dan sistematis[10]. Algoritma juga sering didefinisakan sebagai suatu prosedur untuk menyelesaikan persoalan dengan menggunakan langkah – langkah tertentu dan terbatas jumlahnya[2].
Dalam algoritma ini menggunakan teorema Bayes dan mengasumsikan semua atribut indepeden atau tidak saling ketergantungan yang diberikan nilai oleh variabel kelas[11]. Dasar teorema Naive Bayes adalah sebagai berikut[12].
𝑃(𝐻|𝑋) =𝑃(𝑋|𝐻).𝑃(𝐻)
𝑃(𝑋) (1) Dimana :
X = Data dengan class yang belum diketahui H = Hipotesis Data X merupakan suatu class spesifik
P(H|X) = Probabilitas hipotesis H berdasarkan kondisi X (posteriori
probabilitas)
P(H)= Probabilitas hipotesis H (prior probabilitas) P(X|H)= Probabilitas X berdasarkan kondisi
tersebut
P(X)= Probabilitas dari X
Berdasarkan uraian diatas, dapat dijelaskan bahwa P(H|X) merupakan probabilitas dari H yang didalam X atau dalam bahasa lain bahwa P(H|X) merupakan persentase dengan banyaknya H didalam X, P(X|H) merupakan probabilitas X didalam H, P(H) merupakan probabilitas prior dari H dan P(X) merupakan probabilitas prior dari X.
Dan adapun untuk klasifikasi data continue menggunakan rumus Densitas Gauss[5]:
𝑃(𝐹𝑖= 𝑓𝑖 | 𝐶 = 𝑐𝑗) = 1
√2𝜋𝑠𝑗 𝑒
(𝑓𝑖 − 𝑥̅𝑗)2 2𝑠 𝑗2
(2)
Dimana :
P = Peluang
𝐹𝑖 = Atribut ke - 𝑖 𝑓𝑖 = Nilai Atribut ke - 𝑖 C = Kelas yang dicari 𝑐𝑗 = Sub kelas yang dicari
𝑥̅𝑗 = Rata – rata (Mean) hitung dari suatu atribut pada kelas ke -𝑗
𝑠 𝑗2 = Variansi dari suatu atribut pada kelas ke -𝑗
𝑠𝑗 = Deviasi standar dari suatu atribut pada kelas ke -𝑗
Adapun pengujian akurasi yang digunakan pada Algoritma Naive Bayes umumnya menggunakan metode Confusion Matrix dengan rumus sebagai berikut[13].
Tabel 1 Rumus Confusion Matrix Correct
Classification
Classified as
+ -
+ True
Positive (TP)
False Negative (FN)
- False
Postive (FP)
True Negative (TN)
Berikut adalah penjelasan dari tabel rumus confusion matrix: Precision digunakan untuk mengukur seberapa besar proporsi dari kelas positif yang berhasil diprediksi dengan benar dari keseluruhan kelas postive, yang dihitung menggunakan rumus :
Precision = 𝑇𝑃
𝑇𝑃+𝐹𝑃 (3)
Recall digunakan untuk menunjukkan presentase kelas data positif yang berhasil diprediksi benar dari seluruh data kelas positif, yang dihitung menggunakan rumus:
Recall = 𝑇𝑃
𝑇𝑃+𝐹𝑁 (4)
Accuracy adalah jumlah perbandingan data yang benar dengan jumlah keseluruhan data. Dapat dihitung dengan menggunakan rumus:
Accuracy = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑁+𝐹𝑃∗ 100% (5) 3. Hasil dan Pembahasan
A. Populasi dan Sampling
Populasi adalah wilayah generalisasi yang terdiri atas obyek atau subyek yang mempunyai kualitas dan karakteristik tertentu yang ditetapkan oleh peneliti untuk dipelajari dan kemudian ditarik kesimpulannya.
Penelitian yang akan digunakan menggunakan data kementrian desa khusus wilayah desa se kabupaten cirebon.
Teknik pengambilan sampel yang tidak memberikan peluang/kesempatan sama bagi setiap unsur atau anggota populasi untuk dipilih menjadi sampel.
Penelitian ini menggunakan teknik sampling jenuh adalah teknik penentuan sampel bila semua anggota populasi digunakan sebagai sampel. Sample yang digunakan ialah 241 data latih dan 127 data uji.
B. Preprocessing
Data yang digunakan meliputu rekam medis rumah sakit dengan atribut adalah NoCM, Nama Lengkap, Umur, Jenis Kelamin, Alamat, Kelurahan, Kecamatan, Kota, Diagnosa, Tgl Masuk, Tgl Pulang, Lama, Dirawa, Jenis Pasien, Nama, Ruangan, Expr1, Status Pulang, Kondisi, Pulang. Maka dalam mendukung penelitian ini akan dilakukan preprocessing artinya data yang tidak didperlukan oleh algoritma naïve bayes perlu di normalisasi. Data yang setelah dilakukan normalisasi yaitu sebaga berikut :
Tabel 1. Data Kriteria Preprocessing No Nama Kriteria Keterangan
1 NoCM 2 Umur 3 Jenis Kelamin 4 Kota
5 Diagnosa 6 Jenis Pasien 7 Kondisi Pulang
C. Model Algoritma Naïve Bayes
Model algoritma naïve bayes dapat dilihat pada gambar berikut ini :
Gambar 2. Model Algoritma Naïve Bayes Berdasarkan gambar 2 Model Algoritma Naïve Bayes diatas menjelaskan bahwa operator yang digunakan yaitu retrive, naïve bayes, aplly model dan performance.
D. Pembahasan
Berdasarkan hasil model diatas maka dapat ditarik hasil akurasi model tersebut sebai berikut :
Gambar. 3 Hasil Akurasi
Berdasarkan gambar 3 tentang hasil akurasi menjelaskan bahwa Hasil Prediksi dirawat maka denga true dirawat sebanyak 3 data, Hasil Prediksi dirawat maka denga true pulang sebanyak 9 data, Hasil Prediksi pulang maka denga true dirawat sebanyak 4 data, Hasil Prediksi pulang maka denga true pulang sebanyak 4 data.
Hasil Performance PerformanceVector:
accuracy: 35.00%
ConfusionMatrix:
True: DIRAWAT
PULANG
DIRAWAT: 3 9
PULANG: 4 4
precision: 50.00% (positive class:
PULANG)
ConfusionMatrix:
True: DIRAWAT
PULANG
DIRAWAT: 3 9
PULANG: 4 4
recall: 30.77% (positive class: PULANG) ConfusionMatrix:
True: DIRAWAT
PULANG
DIRAWAT: 3 9
PULANG: 4 4
AUC (optimistic): 0.418 (positive class:
PULANG)
AUC: 0.396 (positive class: PULANG) AUC (pessimistic): 0.374 (positive class:
PULANG) 4. Kesimpulan
Kesimpulan penelitian ini yaitu Performance vector:
Accuracy: 35.00% Confusionmatrix : True : Dirawat Pulang Dirawat : 39 Pulang : 44 Precision : 50.00%
(Positive Class: Pulang) Confusionmatrix : True : Dirawat Pulang Dirawat : 39 Pulang : 44 Recall : 30.77%
(Positive Class : Pulang) Confusionmatrix : True:
Dirawat Pulang Dirawat : 39 Pulang : 44.
Daftar Rujukan
[1] M. Muqorobin, K. Kusrini, and E. T. Luthfi, “Optimasi Metode Naive Bayes Dengan Feature Selection Iinformation Gain Untuk Prediksi Keterlambatan Pembayaran SPP Sekolah,” J. Ilm. SINUS, vol. 17, no. 1, p. 1, 2019, doi: 10.30646/sinus.v17i1.378.
[2] O. Nurdiawan, F. A. Pratama, D. A. Kurnia, Kaslani, and N.
Rahaningsih, “Optimization of Traveling Salesman Problem on Scheduling Tour Packages using Genetic Algorithms,” J. Phys.
Conf. Ser., vol. 1477, no. 5, pp. 0–6, 2020, doi: 10.1088/1742- 6596/1477/5/052037.
[3] O. Nurdiawan and Noval Salim, “Penerapan Data Mining Pada Penjualan Barang Menggunakan Metode Metode Naive Bayes Classifier Untuk Optimasi Strategi Pemasaran,” Teknol. Inf. dan Komun., no. April, pp. 1–19, 2018.
[4] Rukmana, Rahmat, 1995,, Kanisius, Yogyakarta. Sunyoto, Andi, 2007, Pemograman Database dengan Visual Basic dan Microsoft SQL, Andi Offset, Yogyakarta.
[5] Bramer, Max. 2007. Principles of Data Mining. London : Springer [6] Gorunescu, Florin. 2011. Data Mining: Concepts, Models, and
Techniques. Verlag Berlin Heidelberg : Springer
[7] Han, J.,&Kamber, M. 2006.Data Mining Concept and Tehniques.San Fransisco : Morgan Kauffman.
[8] Kusrini&Luthfi,E.T. 2009. Algoritma Data Mining. Yogyakarta : Andi Publishing.
[9] Larose, D. T. 2005. Discovering Knowledge in Data. New Jersey : John Willey & Sons, Inc.
[10] Liao. 2007. Recent Advances in Data Mining of Enterprise Data : Algorithms and Application. Singapore : World Scientific Publishing
[11] Maimon, Oded&Rokach, Lior. 2005. Data Mining and Knowledge Discovey Handbook. New York : Springer [12] Noerlina. 2007. Perancangan Sistem Informasi Berbasis Object
Oriented. Jakarta
[13] I. Wahyudi, S. Bahri, and P. Handayani, “Aplikasi Pembelajaran Pengenalan Budaya Indonesia,” vol. V, no. 1, pp. 135–138, 2019, doi: 10.31294/jtk.v4i2.
[14] O. Nurdiawan, “Seleksi Penerima Bantuan Sosial Berdasarkan Sistem Pendukung Keputusan Dalam Upaya Mengurangi Siswa Rawan Putus Sekolah,” J. Teknol. Inf., vol. XIII, no.
2, pp. 32–40, 2018.
[15] O. Nurdiawan and Noval Salim, “Penerapan Data Mining Pada Penjualan Barang Menggunakan Metode Metode Naive Bayes Classifier Untuk Optimasi Strategi Pemasaran,”
Teknol. Inf. dan Komun., no. April, pp. 1–19, 2018.
[16] O. Nurdiawan, F. A. Pratama, and N. Nurhadiansyah,
“Implementasi Expert System Untuk Mengetahui Penyakit Hiv Aids Menggunakan Algoritma Best-First Search,”
Infotekmesin, vol. 10, no. 2, pp. 33–37, 2019, doi:
10.35970/infotekmesin.v10i2.34.
[17] O. Nurdiawan, “Pengenalan Sandi Morse dengan Menggunakan Jaringan Syaraf Tiruan Metode Backpropagation,”
KOPERTIP J. Ilm. Manaj. Inform. dan Komput., vol. 2, no.
2, pp. 50–61, 2018, doi: 10.32485/kopertip.v2i2.43.