• Tidak ada hasil yang ditemukan

STUDI LITERATUR DATA MINING UNTUK PREDIKSI PENYAKIT DEMAM BERDARAH (DBD)

1Ria Arafiyah, Fariani Hermin

1Universitas Negeri Jakarta, farianihermin@yahoo.com

2Universitas Negeri Jakarta , riaunj@gmail.com ABSTRAK

Penanganan terhadap penyakit menular, sangat ditentukan oleh ketepatan dan kecepatan diagnosa.

Pemerintah melalui Peraturan Menteri Kesehatan Republik Indonesia nomor 82 tahun 2014 tentang Penanggulangan Penyakit Menular menetapkan Demam Berdarah Dengue (DBD), menjadikan penanggulangan DBD menjadi prioritas nasional. Penelitian ini merupakan studi pustaka mengenai berbagai metode yang pernah digunakan untuk memprediksi DBD terutama penggunaan data mining untuk memprediksi penyakit.Pembahasan difokuskan pada cara kerja metode, data yang digunakan, dan ketepatan prediksi. Diakhir paper akan diusulkan metode data mining yang diperkirakan akurat untuk memprediksi penyakit DBD.

Kata Kunci: Data Mining, Demam Berdarah Dengue (DBD) PENDAHULUAN

Salah satu masalah pencegahan dan pemberantasan penyakit menular yang sampai saat ini masih merupakan masalah kesehatan masyarakat adalah penyakit Dengue Haemorhagic Fever atau yang lebih dikenal dengan nama Demam Berdarah Dengue (DBD). Vektor penyakit DBD ini adalah nyamuk Aedes aegypti melalui gigitan yang berulang-ulang kepada orang yang susceptible (rentan). Malaysia dan Singapura telah berhasil mencanangkan bebas demam berdarah karena adanya perhatian Pemerintah terhadap masalah Kesehatan Lingkungan, dengan melegitimasi persoalan kesehatan lingkungan dalam bentuk peraturan dan sangsi bagi rumah yang terdapat jentik nyamuk. Sementara Indonesia sejak tahun 1968 penyebaran penyakit DBD semakin meluas keseluruh wilayah Indonesia bahkan beberapa wilayah setiap tahunnya selalu menjadi daerah epidemi..

Penelitian prediksi penyakit DBD diantaranya menggunakan pemodelan SIR (Susceptible-Infected-Removed)

(Kartikasari, 2013), Jaringan Syaraf Tiruan ( Asriani et. al), 2007). Permasalahan dalam prediksi penyakit DBD diantaranya adalah banyaknya variable dan jumlah data yang besar untuk mengatasi permasalahan data yang besar sekarang ini sedang berkembang tehnik data mining.

Penggunaan data mining utk prediksi penyakit diantaranya, untuk prediksi penyakit diabetes dengan menggunakan Dicision Tree

algoritma C4.5, (Andriani, 2013), prediksi penyakit jantung dengan algoritma C4.5 berbasis PSO (particle Swarm Optimization).

Selanjutnya akan dibahas mengenai penyakit DBD, berbagai metode data mining dan metode untuk mengevaluasi dan validasi model yang dihasilkan.

Teknik Data Mining

Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi (MacLennan, 2009).

Berikut adalah fungsi data mining secara umum:

1. Classification

Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih. Menurut (Purba), Classification untuk membangun model (fungsi) yang menguraikan dan membedakan kelas atau konsep untuk peramalan kedepan.

Misal, mengklasifkasikan negara

berdasarkan iklim atau

mengklasifikasikan mobil berdasarkan konsumsi bahan bakarnya. Jadi Classification adalah teknik yang mengklasifikasikan target class untuk dijadikan pendukung kesimpulan peramalan kedepannya.

132 Gambar 2.1 Proses klasifikasi menggunakan

Decision Tree Sumber: (MacLennan, 2009) 2. Clustering

Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.

Gambar 2.2 Mengelompokan pendapatan kedalam tiga kategori umur Sumber:

(MacLennan, 2009) 3. Association

Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan ruleassociation yang ada.

Gambar 2.3 Keterkaitan mencari pola pembelian antara satu produk dengan produk lainnya Sumber: (MacLennan,

2009) 4. Regression

Fungsi dari regression hampir mirip dengan klasifikasi.Fungsi dari regression

adalah bertujuanuntuk mencari prediksi dari suatu pola yang ada.

5. Forecasting

Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkantrend yang telah terjadi di waktu sebelumnya.

Gambar 2.4 Peramalan pada kemungkinan kejadian/ fenomena akan terjadi di waktu yang

akan dating Sumber: (MacLennan, 2009) 6. Sequence Analysis

Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian.

Gambar 2.5 Menyusun pola kejadian/

fenomena yang ada berdasarkan urutan terjadinya Sumber: (MacLennan,

2009) 7. Deviation Analysis

Fungsi dari devation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).

Adapun taxonomi data mining sebagai berikut:

133 Klasifikasi memprediksi data dalam bentuk katagori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Klasifikasi data dilakukan dengan dua tahapan. Pada tahap pertama, model dibentuk dengan menentukan kelas-kelas data.

Data sampel ini membentuk training data set yang selanjutnya dianalisa untuk membangun model. Setiap sample yang membentuk training set disebut training sample dan secara acak dipilih dari sample population. Karena label kelas dari setiap training sample telah diketahui, maka tahapan ini disebut juga supervised learning. Supervised learning ini kebalikan dari unsupervised learning, dimana pada unsupervised learning label kelas dari setiap training sample tidak diketahui. Pada tahap kedua, model digunakan untuk klasifikasi. Pertama, akurasi model prediksi (atau classifier) ditentukan menggunakan data test. Sample ini secara acak dipilih, independent dengan training sample. Akurasi dari model pada test set adalah prosentase dari sample test set yang diklasifikasikan oleh model dengan benar. Untuk setiap sample test, label kelas yang telah diketehui dibandingkan dengan model kelas prediksi yang telah dilatih untuk sample tersebut. Jika akurasi dari model bisa diterima, maka model bisa digunakan untuk mengklasifikasikan data tuples dimana label kelasnya tidak diketahui. Misalnya, classification rule yang telah dihasilkan dari analisis data dari pelanggan yang ada dapat digunakan untuk memprediksi credit rating dari pelanggan baru. Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sample yang tidak berlabel, atau untuk menguji nilai atau rentang nilai dari suatu atribut. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction (Han & Kamber, 2001).

Berbagai penelitian berkaitan dengan penggunaan data mining untuk prediksi, sebagai berikut: Angga Raditya (2010) menggunakan data mining klasifikasi Naïve Bayes untuk memprediksi English Proficiency Test, hasilnya 98% prediksi akurat.

Subekti Mujiasih (2011) menggunakan metode classification tree dan random forest untuk Prediksi cuaca awan dari masukan tutupan awan, kecepatan angin, Suhu udara dan suhu

titik embun, hasilnya diddapat minimum support : 53%, dan minimum Confidence : 89%. Alfa Saleh (2015) menggunakan metode naïve bayes untuk memprediksi besarnya penggunaan listrik tiap rumah tangga, dengan tingkat keakuratan 78,3333%. Mohammad Aminudin (2011), membuat sistem peramalan cuaca Surabaya tahun 2011 dengan menggunakan metode moving average dan klasifikasi Naive Bayes. Selanjutnya akan dibahas metode Naïve Bayes.

Naïve Bayes

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut(Santoso, 2007), klasifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah class.

Menurut (Olson & Dursun, 2008) yang menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek.

Klasifikasi Bayesian ini dihitung berdasarkan Teorema Bayes berikut ini :

Sumber: (Han, Kamber, & Pei, 2011)

Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior probability X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas ke-empat kelas lainnya.

Selanjutnya untuk mengukur ketepatan model yang dihasilkan dari metode data mining yang digunakan perlu adanya evaluasi dan validasi model.

134 Evaluasi dan Validasi

Untuk evaluasi dan validasi model yang dihasilkan dapat menggunakan confusion matrix dan kurva ROC (Receiver Operating Characteristic).

1. Confusion Matrix

Metode ini hanya menggunakan tabel matriks seperti pada Tabel 1, jika dataset hanya terdiri dari dua kelas, kelas yang satu dianggap sebagai positif dan yang lainnya negatif (Bramer, 2007). Evaluasi dengan confusion matrix menghasilkan nilai accuracy, precison, dan recall. Accuracy dalam klasifikasi adalah persentase ketepatan record data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi (Han &

Kamber, 2006). Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya. Recall atau sensitivity adalah proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar (Powers, 2011).

True Positive adalah jumlah record positif yang diklasifikasikan sebagai positif, false positiveadalah jumlah record negative yangdiklasifikasikan sebagai positif, false negative adalah jumlah record positif yang diklasifikasikan sebagai negative, true negative adalah jumlah record negative yang diklasifikasikan sebagai negative, kemudian masukkan data uji. Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang telah dimasukkan tersebut untuk dihitung jumlah sensitivity (recall), Specifity, precision, dan accuracy. Sensitivity

digunakan untuk membandingkan jumlah t_pos terhadap jumlah record yang positif sedangkan Specifity, precision adalah perbandingan jumlah t_neg terhadap jumlah record yang negative. Untuk menghitung digunakan persamaan dibawah ini (Han & Kamber, 2006).

2. Kurva ROC(Receiver Operating Characteristic) Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual. ROC mengekspresikan confusion matrix. ROC adalah grafik dua dimensi dengan false positives sebagai garis horizontal dan true positive sebagai garis vertical (Vercellis, 2009).

The area under curve (AUC) dihitung untuk mengukur perbedaan performansi metode yang digunakan. AUC digunakan dengan menggunakan rumus (Liao, 2007):

Keterangan : X = Output positif Y = Output negatif

ROC memiliki tingkat nilai diagnosa yaitu(Gorunescu, 2011):

Akurasi bernilai 0.90-1.00 = excellent classification

Akurasi bernilai 0.80-0.90 = good classification Akurasi bernilai 0.70-0.80 = fair classification Akurasi bernilai 0.60-0.70 = poor classification Akurasi bernilai 0.50-0.60 = failure

METODE PENELITIAN

Penelitian ini merupakan studi literatur yang bersumber dari buku dan jurnal data mining, yang berkaitan dengan prediksi penyakit DBD.

HASIL YANG DICAPAI

Data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui.

135 Prediksi penyakit DBD dapat menggunakan metode klasifikasi diantaranya metode klasifikasi Naïve Bayes.

Ketepatan klasifikasi Naïve Bayes dapat dilihat dari accuracy sensitivity dan grafik Receiver Operating Characteristic (ROC).

KESIMPULAN

Metode Naïve bayes dapat digunakan untuk memprediksi penyakit DBD. Hasil prediksi dapat dievaluasi dan divalidasi dengan melihat accuracy sensitivity dan grafik Receiver Operating Characteristic (ROC).

DAFTAR PUSTAKA

Ajeng, 2011, Deteksi dan Prediksi Daerah Endemis Demam Berdarah Dengue (DBD) dengan Pemodelan Matematis Susceptible, Infected, Recovered (SIR) (Studi Kasus : Kabupaten Semarang)

Alfa Saleh, Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Mohammad Aminudin, Penggunaan Listrik Rumah Tangga, Citec Journal, Vol. 2, No. 3, Mei 2015 – Juli 2015 ISSN: 2354-5771 Ance (1996). Klimatologi Pengaruh Iklim Terhadap

Tanah dan Tanaman. Bina Aksara, Jakarta.

Andriani, Anik. Jurnal Bianglala Informatika, Vol.

I, September 2013

Arafiyah, 2015, Sistem Pakar Pencegahan Epidemi Demam Berdarah Dengue

Arafiyah, Ria, 2015, Optimization Of Epidemic Dengue Fever In East Jakarta Based On Anfis Bramer, M. (2007). Principles of Data Mining.

United Kingdom: Springer.

Demšar, Janez and Blaž Zupan, Orange: Data Mining Fruitful and Fun - A Historical Perspective,

Gandasoebrata. R. 1985. Penuntun Laboratorium Klinik. Bagian Patologi Klinik Fakultas Kedokteran Universitas Indonesia. Jakarta.

Gorunescu, F. (2011). Data Mining Concepts,Models and Techniques. Berlin:

Springer.

Han, J., & Kamber, M. (2006). Data Mining Concepts And Techniques 2nd Edition. San Fransisco: Elsevier.

Han, Jiawei, Micheline Kamber, 2001, Data Mining : Concepts and Techniques. Morgan Kaufmann.

Hand, David, Heikki Mannila, Padhraic Smyth, 2001, Priciples Of Data Mining, The MIT Press.

Hasan, R. 1985. Buku Ajar Ilmu Kesehatan Anak.

Bagian Ilmu Kesehatan anak Fakultas Kedokteran Universitas Indonesia. Jakarta.

Helmy, 2009, Peramalan Cuaca Dengan Metode Data Mining Wynne Hsu Mong Li Lee Bing Liu

Tok Wang Ling, Exploration Mining in Diabetic Patients Databases: Findings and Conclusions Hendarwanto.1987. Buku Ajar Ilmu Penyakit

Dalam. Balai Penerbit Fakultas Kedokteran Universitas Indonesia. Jakarta.

Ihaka, R. & Gentleman, R. (1996). "R: A Language for Data Analysis and Graphics". Journal of Computational and Graphical Statistics 5 (3):

299314. www.jstor.org

Janez Demšar; Tomaž Curk; Aleš Erjavec; Črt Gorup; Tomaž Hočevar; Mitar Milutinovič;

Martin Možina; Matija Polajnar; Marko Toplak; Anže Starič; Miha Stajdohar; Lan Umek; Lan Žagar; Jure Žbontar; Marinka Žitnik; Blaž Zupan (2013). "Orange: data mining toolbox in Python" (PDF). JMLR. 14 (1):

2349–2353.

Liao, T. W. (2007). Enterprise Data Mining:

AReview and Research Directions. Recent Advances inData Mining of Enterprise Data:

Algorithms and Applications , 1-109.

Lis Saumi Ramdhani, 2016, Penerapan Particle Swarm Optimization (Pso) Untuk Seleksi Atribut Dalam Meningkatkan Akurasi Prediksi Diagnosis Penyakit Hepatitis Dengan Metode Algoritma C4.5

Martiana K, Entin, Peramalan Cuaca Kota Surabaya Tahun 2011 Mengunakan Metode Moving Average Dan Klasifikasi Naive Bayes, Institut Teknologi Sepuluh Nopember Surabaya 2011.

Powers, D. (2011). Evaluation: From Precision, Recall and F-Measure To ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies , 37-63.

Prawirowardoyo, S. 1996, Meteorologi, Penerbit ITB, Bandung.

Sutaryo. 2004. Dengue. Medika Fakultas Kedokteran Universitas Gajah Mada , Yogyakarta.

Tala, Fadillah Z., 2003, A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Institute for Logic, Language and Computation Universeit Van Amsterdam.

Tan, A., 1999, Text mining: The state of the art and the challenges, In Proceedings of the Pacific Asia Conference on Knowledge Discovery and Data mining, PAKDD'99 workshop on Knowledge Discovery from Advanced Databases.

Vercellis, C. (2009). Business Intelligence. United Kingdom: John Wiley and Sons.

Wakil, Mohammed El, 2002, Introducing Text Mining, 9th Scientific Conference for Information Systems and Information Technology (ISIT02), Feb. 2002.

137

STUDI PENDIDIKAN MATEMATIKA SEMESTER III TAHUN

Garis besar

Dokumen terkait