Klasifikasi diagnosa diabetes mellitus dengan penerapan metode Naive Bayesian Clasifier.

(1)

ABSTRAK

Kesehatan manusia bisa sangat bergantung dari banyak faktor, antara lain karena faktor lingkungan tempat tinggal ataupun karena faktor keturunan/genetikal. Kesehatan inilah yang menjadi kekuatan utama manusia untuk melaksanakan aktivitas hidupnya. Salah satu penyakit yang menjadi mesin pembunuh adalah Diabetes Mellitus(DM). Pemeriksaan kesehatan yang berkaitan dengan DM dalam

dunia medis dapat dilakukan dengan cara pendiagnosaan penyakit yang menghasilkan data hasil uji laboratorium dan rekam medis gejala sakit. Guna menekan angka kematian dari penyakit DM ini, para pakar kesehatan harus melakukan pendiagnosaan penyakit sedini mungkin.

DM yang banyak berasal dari penyakit keturunan nyatanya memiliki banyak cabang penyakitnya. Pengklasifikasian DM dan terhadap gejala lain yang timbul dari DM ini ternyata dapat dilakukan secara otomatis menggunakan cabang ilmu teknologi informasi yaitu dengan pemanfaatan suatu metode kerja penambangan data (data mining) dengan penerapan metode Naive Bayesian Clasifier. Metode Naive Bayesian Clasifier akan menghitung nilai probabilitas untuk setiap kejadian

dari atribut target pada setiap kasus melalui penghitungan dari data rekam medis Diabetes Mellitus tersebut.

Keluaran dari sistem ini adalah suatu identifikasi/diagnosa tentang prediksi penyakit DM seseorang yaitu klasifikasi DM yang diderita, murni DM atau ada penyakit lain yang diderita. Penelitian ini menggunakan data sebanyak 258 data dan menerapkan nilai fold sebanyak 3, 5, 7, dan 9. Hasil pengujian yang dilakukan sebanyak 4 kali dengan rata-rata tertinggi sebesar 83.89%.

(2)

ABSTRACT

The health of human beings can be so depended on many factors, such as because of the factor of circumstances or because of the factor of genetics. The health becomes the human’s main power to do their lives’ activities. One of diseases which becomes a killer machine is Diabetes Mellitus (DM). Medical checkup related to DM in medical world can be conducted by the diagnosis of the disease which results laboratory examination data and the ill symptoms medical record. In order to push the mortal rate from this DM disease, health experts must conduct the diagnosis of the disease from the early beginning stage.

DM which is originated from inheritance disease in fact has many branches. The classification of DM and toward other symptoms which arises from it, actually can be conducted automatically using the branch of information and technology science i.e. by the use of data mining working method and the application of Naïve Bayesian Classifier methods. Naïve Bayesian Classifier method would count the probability value for every event from attributive target on every case by means of the counting from Diabetes Mellitus medical data record.

(3)

i

KLASIFIKASI DIAGNOSA DIABETES MELLITUS

DENGAN PENERAPAN METODE NAÏVE BAYESIAN CLASIFIER

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Thomas Wiga Heru Prasetya (125314074)

Teknik Informatika Fakultas Sains Dan Teknologi Universitas Sanata Dharma Yogyakarta

(4)

ii

Naive Bayesian Classifier Method Implementation for Diabetes

Melitus Diagnose Classification

Thesis

Present as Partial Fullfillment of the Requirements To Obtain Sarjana Komputer Degree In Departement of Informatics Engineering

By :

Thomas Wiga Heru Prasetya (125314074)

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECNOLOGY SANATA DHARMA UNIVERSITY

(5)

iii

(6)

iv

(7)

v MOTO

Terang itu bercahaya di dalam kegelapan dan kegelapan itu tidak

menguasainya.

( Yohanes 1:5)

Your Future is Created by What Yo Do Today, Not Tomorrow!

Musuh yang Paling Berbahaya adalah Penakut dan Bimbang. Teman yang Paling Setia adalah Keberanian dan Keyakinan Untuk Mau Maju.

(8)

vi

HALAMAN PERSEMBAHAN

Kupersembahkan kripsi ini untuk :

1. Tuhan Yesus Kristus yang senantiasa memberikan berkat

karunia-Nya.

2. Orangtuaku, Ignatius Sukemi dan Anna Supariyem yang tak

lelah berjuang memberikan dukungan moral maupun materiil

sampai saat ini dengan penuh kasih sayang dan cinta

kasihnya.

3. Kakakku Dominikus Nanang Purwanto, Christine Herninta,

Stevanus Widuri Nursusanto dan Andi Fransisca Natasha yang

selalu memberikan motivasi, semangat dan doa.

4. Angela Krista Juliandari yang senantiasa menemani dan

selalu memberikan semangat serta doa untuk menyelesaikan

skripsi ini.

5. Para sahabatku yang saling memberi semangat untuk

(9)

vii

(10)

viii

(11)

ix ABSTRAK

Kesehatan manusia bisa sangat bergantung dari banyak faktor, antara lain karena faktor lingkungan tempat tinggal ataupun karena faktor keturunan/genetikal. Kesehatan inilah yang menjadi kekuatan utama manusia untuk melaksanakan aktivitas hidupnya. Salah satu penyakit yang menjadi mesin pembunuh adalah Diabetes Mellitus(DM). Pemeriksaan kesehatan yang berkaitan dengan DM dalam

dunia medis dapat dilakukan dengan cara pendiagnosaan penyakit yang menghasilkan data hasil uji laboratorium dan rekam medis gejala sakit. Guna menekan angka kematian dari penyakit DM ini, para pakar kesehatan harus melakukan pendiagnosaan penyakit sedini mungkin.

DM yang banyak berasal dari penyakit keturunan nyatanya memiliki banyak cabang penyakitnya. Pengklasifikasian DM dan terhadap gejala lain yang timbul dari DM ini ternyata dapat dilakukan secara otomatis menggunakan cabang ilmu teknologi informasi yaitu dengan pemanfaatan suatu metode kerja penambangan data (data mining) dengan penerapan metode Naive Bayesian Clasifier. Metode Naive Bayesian Clasifier akan menghitung nilai probabilitas untuk setiap kejadian

dari atribut target pada setiap kasus melalui penghitungan dari data rekam medis Diabetes Mellitus tersebut.

Keluaran dari sistem ini adalah suatu identifikasi/diagnosa tentang prediksi penyakit DM seseorang yaitu klasifikasi DM yang diderita, murni DM atau ada penyakit lain yang diderita. Penelitian ini menggunakan data sebanyak 258 data dan menerapkan nilai fold sebanyak 3, 5, 7, dan 9. Hasil pengujian yang dilakukan sebanyak 4 kali dengan rata-rata tertinggi sebesar 83.89%.

(12)

x

ABSTRACT

The health of human beings can be so depended on many factors, such as because of the factor of circumstances or because of the factor of genetics. The

health becomes the human’s main power to do their lives’ activities. One of diseases

which becomes a killer machine is Diabetes Mellitus (DM). Medical checkup related to DM in medical world can be conducted by the diagnosis of the disease which results laboratory examination data and the ill symptoms medical record. In order to push the mortal rate from this DM disease, health experts must conduct the diagnosis of the disease from the early beginning stage.

DM which is originated from inheritance disease in fact has many branches. The classification of DM and toward other symptoms which arises from it, actually can be conducted automatically using the branch of information and technology science i.e. by the use of data mining working method and the application of Naïve Bayesian Classifier methods. Naïve Bayesian Classifier method would count the probability value for every event from attributive target on every case by means of the counting from Diabetes Mellitus medical data record.

The output from this system was an identification/diagnosis about the prediction of DM disease to a subject i.e. the classification of DM possessed by the patient, it was purely DM or any other diseased possessed. The research used data sum up to 258 data and applied fold value sum up to 3, 5, 7 and 9. The result of the examination conducted summed to 12 times with the highest average was 83.89 %.

(13)

xi

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus, yang telah memeberikan rahmat dan karunia yang berlimpah sehingga penulis dapat menyelesaikan tugas akhir yang berjudul Klasifikasi Diagnosa Diabetes Mellitus dengan Penerapan Metode Naive Bayesian Clasifier dengan baik. Sebagaimana

disyaratkan dalam Kurikulum Program Studi Teknik Informatika (TI), Fakultas Sains dan Teknologi (FST), Universitas Sanata Dharma (USD) Yogyakarta.

Penulis menyadari bahwa pada saat penulisan dan pengerjaan tugas akhir ini penulis menyadari bahwa mendapatkan banyak sekali bantuan dari berbagai pihak, baik berupa dukungan, perhatian, kritik dan saran, serta doa yang sangat dibutuhkan penulis guna kelancaran pengerjaan dan mendapatkan hasil yang baik. Pada kesempatan ini secara khusus penulis akan menyampaikan terimakasih kepada :

1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta

2. Dr. Anastasia Rita Widiarti, M.Kom. selaku Ketua Program Studi Teknik Informatika yang selalu memberikan dukungan dan perhartian serta saran kepada mahasiswa tugas akhir dalam pengerjaan tugas akhir.

3. Dr. Cyprianus Kuntoro Adi, SJ., M.A., M.Sc. selaku dosen pembimbing akademik dan pembimbing tugas akhir yang telah dengan sabar dan penuh perhatian membimbing penulis dalam penyususnan tugas akhir mulai dari awal pengerjaan, pertengahan dan pada akhir penulisan.

4. Segenap dosen Program Studi Teknik Informatika Sanata Dharma yang dengan penuh dedikasi mendidik, membimbing, memberikan dukungan, bantuan, dan arahan yang sangat bermanfaat dari awal kuliah sampai selesai.

5. Staff personalia, rekam medis, dan seluruh staff yang berada di Rumah Sakit Panti Nugroho, Pakem, Yogyakarta yang telah memberikan waktu dan kesempatannya untuk melakukan penelitian serta pengambilan data rekam medis tentang diabetes mellitus.

(14)

xii

7. Kakakku, Dominikus Nanang Purwanto, Stevanus Widuri Nursusanto, Christine Herninta, dan Andi Fransisca Natasha, keponakanku Gabriel Alfa Tanaputra serta adik-adikku Wanda, Aden, Enggar, Yora, dan Varel yang sudah memberikan dukungan, doa, dan perhatian dalam menyelesaikan skripsi ini.

8. Engelbert Eric dan Laurencius Echo yang selalu memberikan masukan dan saran dalam pengerjaan skripsi ini.

9. Angela Krista Juliandari yang tida henti memberikan support, doa dan motivasi pada proses pengerjaan skripsi.

10.Selutuh anggota Keluarga Mahasiswa/i dan Pelajar Katolik Sumatra bagian Selatan (KMPKS) , paduan suara Senandung Nafiri dan para Frater-frater serta Romo SCJ yang telah memberikan doa, semangat, motivasi dan tempat berkeluh kesah dari awal proses perkuliahan sampai disaat penulis mengalami kesusahan pada pengerjaan skripsi.

11.Teman-teman mahasiswa Teknik Informtika 2012 Alvin, Alex, Anjar, Cahyo, Danil, Eva, Nada, Hugo, Henri, Maryadi, Wisnu, Xave, Yosua, Dhesa dan yang tidak dapat disebutkan satu per satu. Terimakasih atas dinamika belajar yang pernah dimulai dari awal perkuliahan hingga penulis selesai menyelesaikan tugas akhir ini.

12.Egidius Gala Pratama, Anjar Nugraha Jati, Yuhacim Tito, Boni, Dona, Sri Lestari, Dingo, Luna, Misti, dan Choco yang selalu memberikan inspirasi dan semangat di rumah tinggal kepada penulis dalam perkuliahan hingga penyelesaian tugas akhir ini.

13.Teman Genus da Music : Dolok, Novan, Teki, Bima, Yoga, Danil, Gilang, Rino, Puput, Rani, dan Nindi yang selalu memberikan support dan semangat dalam menyelesaikan skripsi ini.

(15)

(16)

xiv

DAFTAR ISI

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN SKRIPSI ... iv

MOTO ... v

HALAMAN PERSEMBAHAN ... vi

PERNYATAAN KEASLIAN KARYA ... vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH viii ABSTRAK ... ix

ABSTRACT ... x

KATA PENGANTAR ... xi

DAFTAR ISI ... xiv

DAFTAR GAMBAR ... xvii

DAFTAR TABEL ... xviii

DAFTAR LAMPIRAN ... xix

BAB I ... 1

1.1. Latar Belakang ... 1

1.2. Rumusan Masalah ... 2

1.3. Tujuan ... 3

1.4. Batasan Masalah ... 3

1.5. Metodologi Penelitian ... 3

1.6. Sistematika Pembahasan ... 4

BAB II ... 6

2.1. Pengertian Diabetes Mellitus ... 6

2.2. Tipe Diabetes Mellitus ... 8

2.3. Klasifikasi Diabetes Milletus tipe 2 ... 9

2.4. Diagnosis dan Pemeriksaan Diabetes Milletus ... 10

2.5. Teori Penambangan Data ... 11

(17)

xv

2.5.2. Proses Penambangan Data ... 11

2.6. Generalisasi Data ... 13

2.6.2. Diskretisasi pada Naive Bayes Clasifier ... 14

2.7. Pengelompokan pada Data Mining ... 15

2.8. Teorema Naive Bayesian ... 17

2.8.1. Pengertian Teorema Bayesian ... 17

2.8.2. Naive Bayesian Classifier ... 18

2.8.3. Evaluasi/Validasi Data ... 19

2.8.4. Akurasi Klasifikasi (Confution Matrix) ... 20

BAB III ... 22

3.1. Data Penelitian ... 22

3.1.1. Data Diabetes ... 22

3.1.2. Skenario Pengambilan Data ... 26

3.2. Analisa Pengolahan Data ... 27

3.2.1. Seleksi Data dan Integrasi Data ... 27

3.2.2. Cleaning Data ... 27

3.2.3. Transformasi ... 28

3.2.4. Penerapan Teknik Mining ... 30

3.2.5. Evaluasi Data ... 37

4.1. Analisa Hasil Akurasi Klasifikasi ... 41

4.2. Kelebihan dan Kekurangan Sistem ... 43

4.2.1. Kelebihan ... 43

4.2.2. Kekurangan ... 43

4.3. User Interface ... 44

4.3.1. Halaman Utama ... 44

4.3.2. Menu Import Data ... 44

4.3.3. Menu Proses Klasifikasi ... 45

4.3.4. Menu Grafik Data ... 46

(18)

xvi

4.3.6. Uji Data Tunggal ... 47

BAB V ... 48

5.1. Kesimpulan ... 48

5.2. Saran ... 49

DAFTAR PUSTAKA ... 50

(19)

xvii

DAFTAR GAMBAR

Gambar 2. 1 Data Mining dan proses KDD (Source: Fayyad, et.al., 1996) ... 11

Gambar 2. 2 Proses Diskretisasi... 13

Gambar 3. 1 Alur Pengolahan Data ... 27

Gambar 3. 2 Alur Kerja Naive Bayes ... 31

Gambar 3. 3 Alur Kerja Desain Pengujian ... 38

Gambar 4. 1 Grafik Perbandingan Akurasi ... 42

Gambar 4. 2 Halaman Sistem... 44

Gambar 4. 3 Menu Import dan Tabel Data ... 45

Gambar 4. 4 Menu Proses Klasifikasi ... 45

Gambar 4. 5 Menu Grafik Data... 46

Gambar 4. 6 Menu Confution Matrix dan Akurasi ... 46

(20)

xviii

DAFTAR TABEL

Tabel 2. 1 Tipe Diabetes Mellitus ... 8

Tabel 2. 2 Klasifikasi Diabetes Milletus tipe 2 ... 9

Tabel 2. 3 Cross Validation ... 20

Tabel 3. 1 Pengelompokan Data Mentah ... 22

Tabel 3. 2 Contoh EWD ... 28

Tabel 3. 3 Menghitung n ... 29

Tabel 3. 4 Tabel Interval ... 30

Tabel 3. 5 Hasil Diskretisasi ... 30

Tabel 3. 6 Contoh Tabel Training ... 31

Tabel 3. 7 Contoh Data Tabel Testing ... 35

Tabel 3. 8 Confution Matrix ... 37

Tabel 3. 9 Data dengan 3 Fold ... 38

(21)

xix

DAFTAR LAMPIRAN

Lampiran 1 TrainingData.fit ... 51

Lampiran 2 Listing preData ... 51

Lampiran 3 Listing Cleaning ... 52

Lampiran 4 Listing EWD ... 53

Lampiran 5 Listing freqTable ... 54

Lampiran 6 Listing kFold ... 55

Lampiran 7 Listing prediction (NBC) ... 56

Lampiran 8 Data Diabetes Mellitus ... 57

(22)

1 BAB I

PENDAHULUAN

Pada bab pertama ini akan dibahas tentang latar belakang, rumusan masalah, tujuan dan manfaat penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.

1.1.Latar Belakang

Kerusakan pada kinerja organ tubuh manusia sangatlah merugikan dan menjadi sumber masalah terbesar dewasa ini. Salah satu penyakit yang menjadi pembunuh nomer satu di dunia adalah Diabetes Mellitus (DM). Diabetes Mellitus merupakan salah satu penyakit metabolik yang ditandai dengan

hiperglikemia yang disebabkan karena adanya suatu gangguan sekresi insulin, dari kerja insulin ataupun keduanya. Hiperglekemia kronis pada Diabetes Mellitus akan menyebabkan banyak kerusakan pada oragan tubuh manusia,

contohnya ginjal, mata, saraf, jantung dan pembuluh darah (ADA, 2012). Diabetes Mellitus dibagi menjadi beberapa tipe. Diabetes Melitus tipe

I biasanya menimbulkan gejala sebelum usia pasien 30 tahun, walaupun gejala dapat muncul kapan saja. Pasien Diabetes Melitus tipe I memerlukan insulin dari luar tubuhnya untuk kelangsungan hidupnya. Diabetes Melitus tipe II biasanya dialami saat pasien berusia 30 tahun atau lebih, dan pasien tidak tergantung dengan insulin dari luar tubuh, kecuali pada keadaan-keadaan tertentu. Tipe Diabetes Mellitus lainnya adalah Diabetes Melitus gestasional, yakni Diabetes Mellitus yang terjadi pada ibu hamil, yang disebabkan oleh gangguan toleransi glogosa pada pasien tersebut.

(23)

Akibat lonjakan tersebut, Indonesia mendapatkan peringkat ke lima dunia penderita diabetes. Tingkat kesadaran masyarakat Indonesia yang rendah juga menjadi salah satu unsur peyebab diabetes terus-menerus merenggut kehidupan masyarakat luas ini tanpa disadari.

Penentuan seseorang terserang Diabetes Mellitus amat sulit untuk ditentukan. Melalui rekam medis dan uji laboratorium akan menghasilkan data yang valid. Data yang diperoleh dari hasil rekam medis itu nantinya akan diberikan adanya cabang dari penyakit ini, atau murni hanya diabetes saja. Kurangnya penanganan dalam menentukan penyakit inilah yang mendorong dunia teknologi informasi, khususnya dengan penerapat ilmu mining akan ikut andil di dalamnya, agar mempermudah dunia medis khususnya dokter ahli menentukan suatu klasifikasi Diabetes Mellitus kepada pasien.

Guna mendapatkan klasifikasi tentang DM dan penelitian tentang klasifikasi dengan kasus ini, maka penulis mencoba mengaitkan kasus dengan menggunakan metode Naive Bayes Clasifier. Metode ini pertama kali dikenalkan oleh ilmuan Inggris bernama Thomas Bayes, yang mana metode ini berhasil untuk menjawab permasalahan-permasalahan di bidang probabilitas dan statistik, yang akan diterapkan untuk menjawab persoalan keterjangkitan Diabetes Mellitus di masyarakat dewasa ini.

1.2.Rumusan Masalah

Berdasarkan paparan latar belakang di atas, masalah yang dipecahkan dalam penelitian ini adalah:

a) Apakah metode Naive Bayesian Clasifier mampu secara otomatis melakukan klasifikasi dari diabetes yang diderita pasien secara tepat, dan bagaimana bentuk aplikasi untuk menentukannya?

b) Berapa besar tingkat akurasi klasifikasi dengan metode Naive Bayesian Clasifier, jika dipakai untuk pengklasifikasian tipe Diabetes

(24)

1.3.Tujuan

Sesuai dengan latar belakang dan rumusan masalah di atas, tujuan penelitian ini secara umum adalah membangun sistem tentang klasifikasi Diabetes Mellitus dengan penerapan metode Naive Bayesian Clasifier sehingga mampu mempermudah dunia medis guna menentukan klasifikasi seseorang terkena diabetes. Sementara itu, secara khusus tujuan penelitian ini dirinci sebagai berikut :

 Membangun sistem berdasarkan pendekatan Naive Bayesian yang secara otomatis mampu mengklasifikasikan jenis-jenis dari penyakit diabetes.

1.4.Batasan Masalah

1. Penelitian kerja berada di ranah kesehatan yang membahas Diabetes Mellitus.

2. Penelitian terhenti bila sudah dapat menentukan klasifikasi Diabetes Mellitus dan memberikan jawaban tipe Diabetes Mellitus.

3. Sistem yang dibangun hanya digunakan untuk membantu membuat suatu keputusan tentang jenis diabetes militus yang diderita, bukan untuk memberikan solusi (cara penanganan).

4. Memanfaatkan metode Naive Bayes Clasifier sebagai acuan kerja sistem.

1.5.Metodologi Penelitian

Metodologi penelitian dapat dilakukan dengan penerapan proses KDD (Knowledge Discovery in Databases) melalui beberapa tahapan sebagai berikut:

1. Pembersihan dan penghilangan noise pada data yang inkonsisten. 2. Melakukan integrasi data dari hasil riset yang dilakukan.

(25)

4. Penerapan konsep data mining, yaitu dengan menerapkan konsep naive bayesian clasifier.

5. Evaluasi data hasil mining

Tahapan inilah yang akan menjadi tolok ukur keberhasilan penerapan mining dari data yang tersedia dan akan menjadi pengukuran akurasi untuk menentukan hipotesa data.

6. Presentasi pengetahuan.

Presentasi pengetahuan yang didapatkan dari hasil evaluasi yang dijadikan pola untuk menentukan tahapan akhir mining yang membantu guna menentukan keputusan dari analisa hasil sebelumnya.

1.6.Sistematika Pembahasan Bab I : Pendahuluan

Dalam bab ini berisi tentang pemahaman dasar tentang bagaimana latar belakang masalah, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian yang dipakai dan sistematika penulisan.

Bab II : Landasan Teori

Dalam bab II berisi tentang teori yang digunakan guna menunjang penelitian dan menjadi dasar atau sumber tertulis dari apa yang akan dilakukan, yaitu berupa pengertian dan klasifikasi dari Diabetes Mellitus, teori penambangan data, proses penambangan data, klasifikasi dan pengertian algoritma Naive Bayesian.

Bab III : Metodologi Penelitian

(26)

Bab IV : Analisa Hasil Dan Implentasi Sistem

Dalam bab ini, akan berisi tentang implementasi dari sistem (komputerisasi sistem) berdasarkan hasil perancangan yang telah dibuat, dan akan dijelaskan tentang analisis sistem yang telah dibuat serta kelebihan dan kekurangan dari sistem.

Bab V : Penutup

(27)

6 BAB II

LANDASAN TEORI

Pada bab ini, akan dijelaskan tentang pengertian Diabetes Mellitus, klasifikasi dari diabetes, diagnosa dan pemeriksaan diabetes, teori penambangan data, proses penambangan data, pengelompokan penambangan data dan teorema Naive Bayesian Clasifier.

2.1. Pengertian Diabetes Mellitus

World Health Organization (WHO) menyatakan bahwa Diabetes Mellitus tidak dapat didefinisikan secara singkat dan jelas namun dapat

dikatakan sebagai kumpulan permasalahan yang kompleks tentang anatomi dan kimiawi akibat beberapa faktor dimana terdapat defisiensi insulin absolut (Purnamasari, 2009)

Diabetes Mellitus merupakan salah satu penyakit metabolik yang

ditandai dengan hiperglikemia disebabkan karena adanya suatu gangguan sekresi insulin, dari kerja insulin ataupun keduanya. Hiperglekemia kronis pada Diabetes Mellitus akan menyebabkan banyak kerusakan pada oragan tubuh manusia, contohnya ginjal, mata, saraf, jantung dan pembuluh darah (American Diabetes Association/ADA, 2012).

Menurut Dorland Diabetes Mellitus (DM) adalah kelainan yang ditandai dengan ekskresi urine (pengeluaran air kencing) yang berlebihan. Selain itu, Diabetes mellitus atau penyakit kencing manis merupakan suatu penyakit menahun yang ditandai dengan kadar glukosa darah (gula darah) melebihi nilai normal yaitu kadar gula darah sewaktu sama atau lebih dari 200 mg/dl. Diagnosis khas DM pada umumnya yaitu polyuria (banyak kencing), polydipsia (banyak minum), polifagia (banyak makan), dan penurunan berat badan yang tidak jelas sebabnya (Misnadiarly,2006).

(28)

tekanan darah arteri secara persisten, penyebabnya mungkin tidak diketahui (essential, idiopatic, primary) atau mungkin disebabkan oleh penyebab lain ( secondary). Ulcus atau ulcer adalah defek lokal atau ekskavasi permukaan suatu organ atau jarinagn, akibat pengelupasan jaringan radang yang nekrotik (Dorland edisi 28, 2002). Selain itu Ulcus atau ulcer merupakan penyakit lambung (penyakit maag) yang terjadi apabila dinding lambung rusak akibat mucus yang menyelimutinya rusak. Enzim yang dihasilkan didalam mucus memakan bagian-bagian kecil pada lapisan permukaan lambung. Neuropathy adalah gangguan fungsional atau perubahan patologis pada sistem saraf tepi, kadang-kadang penggunaannya dibatasi hanya untuk lesi noninflamasi sebagai lawan dari lesi neuritis (Dorland).

(29)

2.2. Tipe Diabetes Mellitus

Tipe Diabetes Melitus menurut Perkumpulan Endokrinologi Indonesia (PERKENI) 2006 meliputi :

Tabel 2. 1 Tipe Diabetes Mellitus

Jenis Diabetes

Etiologi

Tipe 1 Destruksi sel β, umumnya menjurus ke defisiensi insulin absolut, yaitu :

• Autoimun

• Idiopatik

Tipe 2 Bervariasi, mulai dari resistensi insulin yang disertai defisiensi insulin relatif hingga defeksekresi insulin yang dibarengi resistensi insulin.

Tipe Lain • Defek genetik fungsi selβ

• Defek genetik kerja insulin

• Penyakit eksokrin pankreas

• Endokrinopati

(30)

2.3. Klasifikasi Diabetes Milletus tipe 2

Tabel 2. 2 Klasifikasi Diabetes Milletus tipe 2

Jenis tipe 2 Keterangan dan ciri

Diabetes Milletus  Mati rasa

 Sering mengeluarkan urine  Berat badan berkurang  Nafsu makan meningkat

 Penglihatan mulai kabur atau buram  Bermasalah dengan kulit (biasanya

terdapat luka)

 Mudah lelah dan emosi  Mudah merasakan haus  Terjadi gangguan di gusi  Infeksi jamur

Diabetes Milletus dengan Hiperglikemia

 Kadar gula meningkat  Jantung berdebar  Mual

 Kelemahan pada otot Diabetes Milletus

dengan Hipertensi

 Detak jantung berdebar  Sering terjadi mimisan  Sakit kepala yang berlebihan  Sesak nafas

 Sering buang air kecil

 Mengalami kesemutan hingga mati rasa Diabetes Milletus

dengan Ulkus

 Kehilangan keseimbangan atau koordinasi

(31)

Diabetes Milletus dengan Neuropaty

 Penurunan berat badan  Mual muntah berwarna hitam

 Perubahan warna tinja menjadi hitam  Nyeri pada bagian kaki

 Luka yang tidak sembuh-sembuh

2.4. Diagnosis dan Pemeriksaan Diabetes Milletus

Menurut Perkumpulan Endokrinologi Indonesia (PERKENI) berbagai keluhan dapat ditemukan pada penyandang Diabetes Mellitus. Kecurigaan adanya Diabetes Mellitus perlu dipikirkan apabila terdapat keluhan klasik Diabetes Mellitus, antara lain :

a) Keluhan klasik Diabetes Mellitus berupa : poliuria, polifagia, dan penurunan berat badan yang tidak dijelaskan sebabnya.

b) Keluhan lain dapat berupa: lemah badan (mudah capai), kesemutan, gatal, mata kabur dan disfungsi ereksi pada laki-laki serta pruritus vulva pada perempuan.

Selain dengan keluhan, diagnosa Diabetes Mellitus harus ditegakkan berdasarkan pemeriksaan kadar glukosa darah dengan cara enzimatik dengan bahan darah plasmavena. Penggunaan bahan darah utuh (wholeblood), vena ataupun kapiler sesuai kondisi dengan memperhatikan angka-angka kriteria diagnostik yang berbeda sesuai pembakuan World Heald Organization (WHO). Sedangkan untuk tujuan pemantauan hasil

pengobatan dapat dilakukan dengan menggunakan pemeriksaan glukosa darah kapiler (Gustaviani, 2006; PERKENI, 2006).

Dengan pemanfaatan diagnosa dan juga data laboratorium, dunia teknologi informasi memberikan solusi guna pemecahan masalah klasifikasi Diabetes Mellitus ini. Cabang ilmu data mining yaitu Healtcare Informatics adalah cabang ilmu dari dunia mining yang secara khusus

(32)

2.5. Teori Penambangan Data 2.5.1. Definisi Data Mining

Data mining adalah suatu proses untuk mencari informasi dari database atau KDD (Knowledge Discovery in Database). Dari proses

pengolahan data tersebut akan menemukan korelasi penuh arti, pola dan informasi yang dapat digunakan sebagai pengambilan keputusan atau decision making (Han and Kamber, 2006).

Data mining adalah mengenai pemecahan masalah dengan

menganalisa data yang ada di dalam database dan sering juga didefinisikan sebagai proses menemukan pola dalam data, dimana proses tersebut harus otomatis atau semi-otomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009).

2.5.2. Proses Penambangan Data

Di bawah ini adalah gambar alur kerja data mining untuk menentukan suatu knowledge :

Gambar 2. 1 Data Mining dan proses KDD (Source: Fayyad, et.al., 1996)

1. Selection :

(33)

3. Cleaning :

Data Cleaning merupakan pembersihan atau penghilangan missing value pada data. Pembersihan data ini akan mempengaruhi performasi dari teknik mining sendiri karena data yang ditangani akan diberikan nilai untuk setiap data yang kosong yang mengacu pada mean tiap atributnya. Mean adalah rata-rata dari data yang diperoleh berupa angka yang didapat dari nilai-nilai dibagi dengan jumlah individu (Sutrisno Hadi, 1998), dengan rumusan :

� =∑_�...(2.1) � � = ∑

4. Transformation :

Data Transformation merupakan cara untuk mentransformasikan data yang diubah ke bentuk yang tepat untuk diproses pada proses mining.

5. Data mining :

Data mining merupakan langkah terpenting dimana akan diaplikasikannya metode kerja yang paling tepat untuk mengekstrasi data.

6. Interpretation / Evalution :

Proses ini yang nantinya kana berguna untuk mengidentifikasi dan mengevaluasi pola yang benar dan menarik. Pola inilah yang akan mewakili pengetahuan berdasarkan atas beberapa tindakan mining yang menarik.

7. Knowledge Presentation :

(34)

2.6. Generalisasi Data

Generalisasi data adalah ketika data level rendah (low-level data) diganti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval (Hartanto Junaedi, 2011). Berikut ini merupakan proses kerja dari diskretisasi :

Gambar 2. 2 Proses Diskretisasi

Proses diskretisasi secara umum terdiri dari empat tahapan pada gambar di atas, yaitu :

1. Sorting, melakukan sorting nilai atribut continuous yang akan didiskretisasi.

2. Melakukan “cut-point”, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy.

3. Splitting, dilakukannya evaluasi poin ke dua yang ada dan pilih satu yang terbaikdan lakukan split range nilai atribut kontinu ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai.

(35)

Terdapat lima metode untuk melakukan diskretisasi pada data kontinu, yaitu binning, cluster analysis, histogram analysis, entropy-based discretization, dan segmentation by “natural partitioning”. Pada kasus data medis yang menjadi pusat bahasan ini (penerapan Naive Bayesian Clasifier), diskretisasi yang akan dilakukan adalah dengan metode histogram analysis sesuai dengan bahasan dari Ying Yang dan Geoffrey I.Web di tahun 2005 tentang diskretisasi umtuk Naive-Bayes-Learning.

2.6.2. Diskretisasi pada Naive Bayes Clasifier

Diskretisasi pada Naive Bayes Clasifer ada beberapa pilihan antara lain dengan menghitung jarak dan frekuensi, ada juga dengan perhitungan entropi dan diskretisasi yang dilakukan setelah adanya tes data. Berikut ini adalah dua diantara banyak metode diskretisasi yang bisa diterapkan pada metode Naive Bayesian Clasifier.

1. Equal Width Discretization

Equal Width Discretization (EWD) pertama kali

dikemukanakan oleh Catlett pada tahun 1991 dan dikembangkan oleh Kerber dan Dougherty. Metode ini memungkinkan untuk menentukan interval berdasarkan perhitungan range dari nilai minimum dan maksimum data pada atributnya untuk didiskretisasi. Pada EWD, pengguna metode diminta untuk menentukan besaran jenis kelas bagian pada setiap atribut (k) sebagai parameter. Cara hitung untuk menentukan hasil diskretisasinya adalah nilai tiap data kontinu yang akan didiskretisasi cari bilangan maksimum dan minimumnya setelah itu bagi dengan nilai interval yang telah ditentukan sebelumnya, dengan rumusan sebagai berikut :

(36)

menentukan jarak interval untuk membagi datanya ke bentuk yang lebih sederhana.

2. Equal Frequency Discretization

Equal Frequency Discretization(EFD) dikemukanan

oleh Catlett di tahun 1991 dan Kerber 1992. Jika EWD menghitung n menggunakan nilai min-max tiap atribut, EFD menggunakan banyaknya baris (i) pada atribut yang dibagi oleh k, dengan rumusan sebagai berikut :

� = ...(2.3)

2.7. Pengelompokan pada Data Mining 1. Klasifikasi

Di dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah (Kusrini, 2009).

Klasifikasi akan menggunakan data dengan target (class/label) yang berupa nilai diskrit/kontinu. Menurut Goronescu, proses klasifikasi didasarkan pada empat elemen penting yang sangat mendasar, yaitu :

a) Kelas

Variabel dependen dari model, merupakan variabel kategorikal yang merepresentasikan label pada objek setelah klasifikasinya. Contohnya adalah adanya kelas penyakit diabetes yang diderita seseorang, kelas gempa bumi dan banyak lainnya.

b) Prediktor

Variabel dependen dari model, yang direpresentasikan oleh karakter khas atribut dari data yang akan diklasifikasikan. Contohnya adalah data gejala dan hasil uji lab.

c) Training dataset

(37)

dalam mengenali kelas yang sesuai berdasarkan prediktor yang tersedia.

d) Testing dataset

Berisi data baru yang nantinya akan diklasifikasikan oleh model yang telah dibangun sebelumnya, sehingga akan menghasilkan akurasi klasifikasi dan dapat dievaluasi. 2. Klastering

Klustering merupakan pengelompokan record, pengamatan atau memperhatikan dan membentuk kelas objek yang memiliki kemiripa-kemiripan (Kusrini, 2009). Klustering berbeda dengan klasifikasi karena tidak adanya variabel target dalam pengklusteran.

3. Deskripsi

Terkadang peneliti dan analisa secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola.

4. Estimasi

Estimasi hampir sama dengan klasifikasi, keculai variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi (Kusrini, 2009).

5. Prediksi

(38)

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu (Kusrini, 2009). Asosiasi lebih kental dengan suatu analisis kebutuhan.

2.8. Teorema Naive Bayesian

2.8.1. Pengertian Teorema Bayesian

Bayesian Classifier adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class (Kusrini, 2009). Bayesian classifier didasarkan pada teorema

Bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree dan neural network. Pendekatan teorema ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam suatu keputusan.

Teorema ini mampu diaplikasi pada database dengan data yang besar dan memiliki tingkat akurasi dan kecepatan yang tinggi. Teorema Bayesian memiliki bentuk umum sebagai berikut :

� �| =�( |_{� �}�)� � ...(2.4) Keterangan :

E = data dengan class yang belum diketahui

H = hipotesis data E merupakan suatu class spesifik P(H|E) = probabilitas hipotesis H berdasarkan kondisi E

(posteriori probability)

P(H) = pobabilitas hipotesis H (prior probability)

P(E|H) = probabilitas E berdasaerkan kondisi pada hipotesis H P(E) = probabilitas dari E

(39)

1) Sebuah probabilitas awal/prior H atau P(H) adalah probabilitas dari suatu hipotesis sebelum bukti diamati. 2) Sebuah probabilitas akhir H atau P(H|E) adalah probabilitas

dari suatu hipotesis setelah bukti diamati.

Dalam Bayes (terutama Naive Bayes), maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain dalam data yang sama (Eko Prasetyo, 2012).

2.8.2. Naive Bayesian Classifier

Metode Naive Bayes merupakan algoritma machine learning yang bertipe supervised learning yang menerapkan teorema Bayes

yang “naif” dimana asumsinya adalah tiap fitur atribut datra

dianggap independen, satu dan lainnya terpisal dan memiliki nilai sendiri (Zhang, 2004). Metode ini dianggap memiliki peforma yang handal dan kompetitif dalam proses pengklasifikasian karena asumsi independen atribut yang dimiliki sebuah data sangat sesuai dengan pengaplikasiaan di dunia nyata.

Kaitan antara Naive Bayes dengan klasifikasi, korelasi hipotesis, dan bukti dengan klasifikasi adalah bahwa hipotesis dalam teorema Bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi, sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi (Eko Prasetyo, 2012). Jika X adalah vektor masukan yang berisi fitur dan Y adalah label kelas, Naive Bayes dituliskan dengan P(Y|X). Notasi tersebut berarti probabilitas label Y didapatkan setelah fitur dari X diamati. Notasi ini disebut juga dengan probabilitas akhir (posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior probability).

(40)

� | =� ��=� � �|

� ...(2.5)

Keterangan :

P(Y|X) : Probabilitas data dengan vektor X pada kelas Y P(Y) : Probabilitas awal kelas Y

�₌ � | : Probabilitas independen kelas Y dari semua fitur vektor X

Pada umumnya, Bayes mudah dihitung untuk fitur bertipe kategories seperti pada kasus diskrit. Namun untuk fitur numerik (data kontinu)ada perlakuan khusus sebelum dimasukkan dalam Naive Bayes. Cara tersebut meliputi :

1) Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan dengan mentransformasikan fitur kontinu ke dalam fitur ordinal. 2) Mengasumsikan bentuk tertentu dari distribusi dengan data

penelitian. Distribusi Gausian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas P(Xi|Y), sedangkan distribusi Gausian dikarakterisasikan dengan dua parameter yaitu mean, µ, dan

varian, σ2_.

2.8.3. Evaluasi/Validasi Data

(41)

2.8.4. Akurasi Klasifikasi (Confution Matrix)

Metode ini hanya menggunakan tabel matriks terdapat pada proses jika dataset memiliki kelas yaitu kelas yang dianggap positif dan kelas lainnya merupakan kelas negatif (Bramer, 2007).

Evaluasi dengan confution matrix ini menghasilkan nilai akurasi, precison, dan recall terhadap klasifikasi yang telah dilakukan. Akurasi dalam klasifikasi adalah presentase ketetapan record data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi (Han & Kamber, 2006). Sedangkan precision atau confidence adalah proporsi kasus yang diprediksi positif yang juga positif benar pada data yang sebenarnya. Recall atau sensitivitas adalah proporsi kasus positif yang sebenarnya yang diprediksi positif secara benar (Powers, 2011).

Correct

Clasification

Classified as

+ -

+ True positives False negative

- False positive True negative

Tabel 2. 3 Cross Validation

True positive dan false positive adalah jumlah record positif

dan negatif yang diklasifikasikan sebagai positif, sedangkan false negative dan true negatif adalah jumlah record positif dan negatif yang diklasifikasikan sebagai negatif. Lalu masukkan data uji, setelah itu hitung nilai yang telah dimasukkan tersebut untuk dihitung sensitivitinya, spesifikasinya, presisinya dan akurasinya.

(42)

Kuantitas matriks dapat diringkas menjadi dua nilai yaitu akurasi dan laju error. Dua nilai ini digunakan sebagai matriks kinerja dengan formula sbb (Hann & Kamber, 2006) :

�� = _ℎℎ

=

(43)

22 BAB III

METODOLOGI PENELITIAN

Pada bab ke tiga ini, akan dijelaskan tentang analisa kebutuhan, data penelitian, skenario pengambilan data, analisa pengolahan data, analisa kebutuhan pengguna, spesifikasi hardware dan software yang digunakan serta beberapa user interface awal.

3.1. Data Penelitian 3.1.1. Data Diabetes

Data diabetes yang digunakan nantinya adalah data gejala penyakit diabetes sebanyak 274 data kotor, yang diperoleh dari studi kasus di rumah sakit di Rumah Sakit Panti Nugroho Pakem, Daerah Istimewa Yogyakarta.

Data tersebut nantinya akan dikelompokkan menjadi 26 atribut termasuk atribut kelas.

Tabel 3. 1 Pengelompokan Data Mentah

No Nama

Atribut Keterangan Bobot

1. No. RM Nomer kode pasien Nomor ID 2.

(44)

(45)

(46)

18.

RDW-SD Atribut ini

(47)

informasi tentang nilai

Dari data-data tersebut, didapatkan 258 data bersih, yang mana data itu akan masuk ke proses selanjutnya. Dan pada saat melakukan proses mining, yang dipakai adalah 25 atribut yaitu menghilangkan no.RM.

3.1.2. Skenario Pengambilan Data

1. Pengambilan data diambil dengan studi kasus di Rumah Sakit Panti Nugroho berdasarkan tipe gejala penyakit diabetes milletus dari dokumen rekam medis perorang yang menderita penyakit DM.

2. Data dikelompokkan menjadi 25 atribut berdasarkan sifat-sifatnya.

3. Data diolah sedemikian rupa dengan meminimalkan/ menghilangkan missing value.

(48)

3.2. Analisa Pengolahan Data

Berikut ini merupakan langkah-langkah dari analisa pengolahan data yang akan dilakukan

Gambar 3. 1 Alur Pengolahan Data

3.2.1. Seleksi Data dan Integrasi Data

Pada tahap ini akan dilakukan penyeleksian terhadap data gejala terhadap data yang kurang relevan terhadap penelitian (menghilangkan atau menghapus data gejala yang memiliki missing value sangat banyak sehingga sulit untuk dikenali gejala ataupun

data labnya). Setelah diseleksi, dilakukan penggabungan seluruh data yang telah diperoleh atau dilakukannya integrasi data. Setelah itu data akan disimpan dalam satu file dengan ekstensi .xlsx atau .csv berdasarkan atribut dari tiap gejala sesuai dengan kriteria atributnya.

3.2.2. Cleaning Data

Pada tahap ini dilakukan pembersihan data atribut uji lab. yang kurang atau tidak relevan terhadap penelitian (pengisian missing value), yaitu dengan melakukan pengisian nilai missing

(49)

3.2.3. Transformasi

Pada tahap ini akan dilakukan perubahan data menjadi data numerik semua untuk mempermudah penghitungan pada proses mining nanti. Yaitu mengubah nilai pada atribut sex, diagnosa penyakit dan atribut kelas. Perubahan itu dengan melakukan transformasi sebagai berikut ini dan hasilnya terdapat pada lampiran tabel contoh data pada contoh kolom K1 dan K25:

1. Transformasi pada kolom K1 : a. L = 1

b. P = 2

2. Transformasi pada kolom K3 sampai kolom K12 : a. T = 1

b. Y = 2

3. Transformasi pada kolom data kontinu dilakukannya proses diskretisasi dengan EWD.

a. Pilih atribut yang akan didiskretisasi, sebagai contoh atribut umur (K3) dan gula darah (K13), data diambil secara acak.

b. Data tersebut akan dicari nilai n untuk interval dari tiap data pada atributnya. Cari nilai minimal dan maksimal dari tiap atribut

 K3 nilai minimal 30, nilai maksimal 83  K13 nilai minimal 125, nilai maksimal 360 c. Hitung besarnya nilai n (interval) yaitu dengan

(50)

2.6.2 poin 1. Nilai n tersebut dapat ditentukan dengan mencari nilai standar deviasi dari tiap atribut.

Tabel 3. 3 Menghitung n langkah selanjutnya cari nilai k dengan penerapan rumus EWD.

� = − ...(3.2) �� = − = = . =

�� = − = = . =

(51)

Tabel 3. 4 Tabel Interval hasil diskretisasi datanya sebagai berikut :

Tabel 3. 5 Hasil Diskretisasi

K3 K13

4. Transformasi pada kolom K25 : a. DM = 2

b. DM_Hiperglikemia = 3 c. HT_DM = 4

d. Ulkus_DM = 5 e. DM_Neuropati = 6

3.2.4. Penerapan Teknik Mining

Pada tahap ini data yang telah ditransformasi dan menjadi data yang sangat relevan (data setelah cleaning), data gejala Diabetes Millitus tersebut akan diklasifikasikan ke tipe dari diabetes

(52)

atribut gejala sakit dan data lab. dan outputya adalah kelas dari diabetes yang diderita.

Gambar 3. 2 Alur Kerja Naive Bayes

Berikut ini merupakan pengerjaan metode Naive Bayes pada data Diabetes Milletus :

a) Setelah melakukan preprosesing pada data, selanjutnya lakukan mining terhadap data. Yang pertama-tama dikerjakan adalah membuat kelas training pada langkah-langkah dibawah ini.

b) Hitung jumlah kelas/label. Untuk percontohan pengerjaan gunakan data sbb, yang mana data diambil secara acak dan memakai data berdasarkan hasil transformasi data :

Tabel 3. 6 Contoh Tabel Training

K1 K2 K3 K14 K15 K25

1 1 2 3 1 2

2 3 2 4 2 2

2 3 2 3 1 2

2 2 2 3 1 2

(53)

2 3 1 4 1 3

Probabilitas K1 banding K25

(54)

� � | = = , , � � | = = ,

� � | = = , ,� � | = = , � � | = = , , � � | =

� � | =

� � | = ,� � | = = , � � | = = , , � � | =

� � | =

� � | = , � � | = = , � � | = = , , � � | =

� � | =

� � | = ,� � | = = , � � | = = , , � � | = = ,

� � | =

� � | = ,� � | = = ,

� � | = = , , � � | = = ,

� � | =

� � | = ,� � | = = � � | = = ,� � | =

(55)

(56)

� � | = = , , � � | =

� � | =

� � | = = , � � | = � � | = = , , � � | =

� � | =

c) Setelah data training selesai diolah, dilakukanlah suatu testing terhadap data. Data testing disini penulis mencoba membuat suatu data baru. Setelah itu lakukan penghitungan probabilitas dari masing-masing kelas dan ditentukan bahwa probabilitas terbesarlah yang menjadi jawaban dari kelas yang dicari.

Tabel 3. 7 Contoh Data Tabel Testing

K1 K2 K3 K14 K15 K25

1 1 2 1 1 ?

Cari probabilitas pada hitungan dengan mencocokkan pada tabel 3.7

� � | = , , � � | = , , � � | = , , � � | = , ,

� � | = , � � | = ,

(57)

� � | = , , � � | = , , � � | = ,

� � | = . , � � | = . � � | = . , � � | =

� � | =

� � | = , , � � | =

� � | = , , � � | = ,

� � | =

Lalu semua hasil dikalikan terhadap hasil probabilitas berdasarkan pengelompokan kelasnya. � = , × , × × . × , = ,

� = , × × × . × =

� = , × × , × . × , = � = , × × , × × , =

� = , × × × × =

(58)

3.2.5. Evaluasi Data

Setelah dilakukannya proses modeling, maka akan dilakukan proses menghitung akurasi dari kebenaran data dengan metode confution matrix, yaitu dengan menjumlahkan data yang benar dan

membaginya dengan semua data yang benar maupun data salah dan dikalikan dengan 100%. Berikut ini contoh dari confution matrix-nya.

Tabel 3. 8 Confution Matrix

Kelas DM

DM_Hiper-glikemia

HT_DM Ulkus_DM

DM_Neu-ropati

Berdasarkan tabel 3.8 diatas, jumlah akurasi dari tiap percobaan dapat dihitung dengan rumusan berikut :

� � =_{∑ + ∑ ∗}∑ %

∑ , dapat dicari dengan menjumlahkan semua T yang terdapat pada tabel 3.8. Sementara itu ∑ diperoleh dari semua nilai F pada tabel. Setelah ∑ dihitung, dibagikan dengan ∑ + ∑ dan setelah itu dapat dikalikan dengan 100%.

3.3. Desain Pengujian

(59)

Gambar 3. 3 Alur Kerja Desain Pengujian

Pengujian ini dilakukan sebanyak k yang dimasukkan (jumlah k-fold). Berikut merupakan tabel pengujian dengan menggunakan data

training dan testing sesuai dengan jumlah masukan k yang ditentukan pengguna.

Tabel 3. 9 Data dengan 3 Fold

Pengujian Training Testing

1 1,2 3

2 1,3 2

3 2,3 1

Tabel diatas merupakan pembagian data dengan 3 fold, yaitu semua data akan dibagi menjadi 3 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.

1 1,2,3,4 5

2 1,2,3,5 4

3 1,2,4,5 3

4 1,3,4,5 2

5 2,3,4,5 1

(60)

1 1,2,3,4,5,6 7

2 1,2,3,4,5,7 6

3 1,2,3,4,6,7 5

4 1,2,3,5,6,7 4

5 1,2,4,5,6,7 3

6 1,3,4,5,6,7 2

7 2,3,4,5,6,7 1

Tabel 3.11 diatas merupakan pembagian data dengan 7 fold, yaitu semua data akan dibagi menjadi 7 bagian yang sama rata dan data-data tersebut akan secara bergantian digunakan sebagai training dan testing.

Pengujian Training Testing 1 1,2,3,4,5,6,7,8 9 2 1,2,3,4,5,6,7,9 8 3 1,2,3,4,5,6,8,9 7 4 1,2,3,4,5,7,8,9 6 5 1,2,3,4,6,7,8,9 5 6 1,2,3,5,6,7,8,9 4 7 1,2,4,5,6,7,8,9 3 8 1,3,4,5,6,7,8,9 2 9 2,3,4,5,6,7,8,9 1

(61)

3.4. Spesifikasi Alat 3.4.1. Hardware

Adapun hardware yang digunakan adalah :  Processor Intel Core I3

 RAM 4 GB 3.4.2. Software

Adapun software yang digunakan adalah :

(62)

BAB IV

ANALISA HASIL DAN IMPLEMENTASI SISTEM

Pada bab ini akan dibahas berbagai hal yang berkaitan dengan implementasi dari sistem dan hasil yang telah didapat dari beberapa pengujian yang dilakukan, serta analisa dari hasil penghujian.

4.1. Analisa Hasil Akurasi Klasifikasi

Berdasarkan hasil dari pengujian yang telah dilakukan dengan menggunakan Naive Bayesian Clasifier dan juga menggunakan k-fold validation, akan diperoleh hasil pada tabel di bawah ini dengan ketentuan

pengaruh besar kecilnya nilai k untuk penentuan interval EWD. Berikut merupakan hasil akurasi dari klasifikasi yang telah dilakukan :

Tabel 4. 1 Hasil Percobaan Klasifikasi

Banyak Fold

Akurasi Perbagia n Data

Grafik akurasi fold Akurasi Akhir

(63)

7

Dari hasil percobaan tersebut, ditemukan dan dapat diketahui bahwa hasil akurasi terbaik terdapat pada pembagian data dengan 7 fold yaitu dengan persentase sebesar 83.89%.. Hasil akurasi yang hampir sama adalah pada pembagian 9 fold. Nilai akurasi di atas menjadi sangat bervariatif karena peranan dari pembagian diskretisasi oleh EWD, juga dibentuk karena besar/kecilnya nilai k dari EWD-nya.

Gambar 4. 1 Grafik Perbandingan Akurasi

(64)

Gambar 4.1 merupakan grafik perbandingan rata-rata akurasi. Percobaan dilakukan berdasarkan nilai hasil diskretisasi menggunakan EWD. Hasil diskretisasi akan dilakukan empat kali percobaan yang terdapat pada setiap fold. Hasil dari akurasi di tiap fold akan dirata-rata untuk mencari nilai akurasi yang paling besar/maksimal dari percobaan berdasarkan hasil klasifikasinya. Berdasarkan hasil beberapa percobaan yang telah dilakukan rata-rata terbesar terdapat pada hasil dengan nilai fold ke 7. Hal ini terjadi karena pembagian data pada fold ke 7 lebih banyak data yang masuk dalam kategori klasifikasi benar secara pembagian/persebaran data, nilai errornya lebih sedikit dibanding dengan nilai fold lainnya.

Hasil klasifikasi dari data diabetes ini sangat berpengaruh dari bagaimana pengolahan data sebelum klasifikasinya (preprosesing). Dengan melakukan diskretisasi terhadap data kontinu, tentu saja akan mendapatkan perhitungan atau menjalankan proses mining dengan lebih mudah dan hasil klasifikasi lebih jitu.

4.2. Kelebihan dan Kekurangan Sistem 4.2.1. Kelebihan

 Sistem ini mampu menangani data yang butuh pengolahan secara khusus, yang tidak mampu dilakukan metode NaiveBayes.fit pada fitur pilihan Matlab.

 Sistem ini mampu menganalisa dan menentukan luaran diabetes yang ingin diketahui.

4.2.2. Kekurangan

(65)

4.3. User Interface

4.3.1. Halaman Utama

Guna mempermudah proses klasifikasi pada penelitian ini, dibuatlah suatu user interface. User interface ini akan mempermudah dalam proses preprosesing data dan pengklasifikasian juga untuk menguji suatu hasil klasifikasi untuk menentukan penyakit diabetes yang diderita seseorang. Berikut merupakan user interface yang telah dibangun dengan menggunakan satu muka interface :

Gambar 4. 2 Halaman Sistem

4.3.2. Menu Import Data

(66)

Gambar 4. 3 Menu Import dan Tabel Data

4.3.3.Menu Proses Klasifikasi

Menu ini berfungsi untuk melakukan proses preprosesing data dan juga melakukan klasifikasi data. Setelah data diimport, data akan masuk proses cleaning dan transformasi klik button “Cleaning & Transformasi” pada menu proses klasifikasi, maka data akan diubah ke bentuk transformasi data.

Setelah itu tentukan banyaknya fold dan klik button “Klasifikasi” untuk memulai proses klasifikasi. Setiap proses yang telah dilakukan, perubahan data akan tersaji pada tabel utama dan akan dapat dilihat persebaran data pada menu grafik data.

(67)

4.3.4. Menu Grafik Data

Menu ini berfungsi untuk melihat/memfisualisasikan persebaran data dari proses preprosesing hingga pengklasifikasian termasuk nilai fold yang digunakan untuk penghitungan akurasi.

Gambar 4. 5 Menu Grafik Data

4.3.5. Menu Confution Matrix dan Akurasi

Menu Confution Matrix pada bagian kiri, berfungsi untuk menampilkan hasil perhitungan Confution Matrix akhir yang didapat dari hasil percobaan klasifikasi. Lalu, menu “Akurasi Data” (kanan atas), berfungsi untuk melihat akurasi dari tiap bagian data setelah dilakukan fold yang didapat dari proses klasifikasi. Dan, menu “Akurasi

Akhir” (kanan bawah), berfungsi untuk melihat akurasi akhir dari penjumlahan nilai akurasi di tiap bagian fold.

Gambar 4. 6 Menu Confution Matrix dan Akurasi

(68)

4.3.6.Uji Data Tunggal

Menu ini berfungsi untuk melakukan proses pengujian data secara tunggal (testing). Masukkan data acak yang akan dilihat hasil klasifikasinya pada sub-sub menu yang telah disedikan pada menu ini (masukan berupa data sex, data umur, data gejala dan data lab., bila masukan pada data gejala tidak diketahui berilah angka 0). Untuk data lab, sudah terdapat contoh masukannya pada menu tersebut, yaitu berupa range angka masukan. Setelah itu klik test, maka sistem akan memberitahu hasil uji klasifikasinya berupa angka kelas diabetesnya pada kotak field sebelah button “Test”.

(69)

48 BAB V

PENUTUP

5.1. Kesimpulan

Identifikasi klasifikasi diabetes mellitus dengan menggunakan metode Naive Bayesian Clasifier dengan melakukan penelitian terhadap data diagnosa dan data laboratorium, dapat diambil kesimpulan sebagai berikut :

1. Metode Naive Bayesian Clasifier dapat melakukan dan menentukan secara otomatis klasifikasi Diabetes Mellitus dengan Hiperglikemia, Diabetes Mellitus dengan Hipertensi, Diabetes Mellitus dengan Ulkus, Diabetes Mellitus dengan Neuropati atau Diabetes Mellitus saja.

(70)

5.2. Saran

Berdasarkan hasil analisa dan pengujian tugas akhir ini, penulis memberikan saran untuk perbaikan dalam pengembangan penelitian dan sistem secara lebih lanjut, antara lain :

1. Penambahan data training untuk setiap kelas klasifikasi terutama pada kelas Diabetes Mellitus dengan Neuropaty. 2. Menambahkan jenis kelas klasifikasi, yaitu dengan pemilihan

masukan berdasarkan data diagnosa/lab namun menghasilkan keluaran yang lebih.

(71)

DAFTAR PUSTAKA

Guestrin, Carlos. 2006. Naive Bayes with Continues Logistic Regression. Carnegie Mellon University.

Kusrini. 2009. Algoritma Data Mining. Penerbit Andi. Yogyakarta.

Lavrenko, Victor and Nigel Goddard. 2014. Introductory Applied Machine Learning : Naive Bayes. Scholl of Informatics.

Misnadiarly. 2006. Diabetes Mellitus Gangren, Ulcer, Infeksi, Mengenali Gejala, Menanggulangi, dan Mencegah Komplikasi. Jakarta: Pustaka Obor

Populer.

Prasetyo, Eko. 2012. Data Mining Konsep & Aplikasi Menggunakan Matlab. Penerbit Andi, Yogyakarta.

Syawli, Almira dkk. Diagnosa Penyakit Diabetes Mellitus dengan Metode Naive Bayes Berbasis Dekstop Application. Universitas Brawijaya, Malang.

WHO. 2006. Definition, Diagnosis and Classification of Diabetes Mellitus and its Complication. WHO.

(72)

LAMPIRAN

Lampiran 1 TrainingData.fit

(73)

(74)

(75)

(76)

(77)

(78)

57 Lampiran 8 Data Diabetes Mellitus

K1 K2 K3 K4 K5 K6 K7 K8 K9 K10 K11 K12 K13 K14 K15 K16 K17 K18 K19 K20 K21 K22 K23 K24 K25

P 49 T T T Y T Y Y Y T T 257 260 0,42 12 13 37,8 4,34 49,3 243 4,48 42,8 DM

L 46 T T T T T Y Y T T T 1,21 19 16,7 46,9 11,53 10,13 250 5,2 38,2 DM

L 49 T Y T Y T Y Y T Y T 257 260 0,83 24,4 15,1 43,6 18,1 77,1 203 4,8 10,5 DM

P 52 T Y T Y Y T Y T T Y 258 300 0,99 12,7 8 22 12,18 83 350 2,61 11,4 DM_HIPERGLIKEMIA

L 45 T Y Y Y T Y T T T Y 208 230 1,38 37,8 15,3 45,9 18,6 15,5 125 4,44 12,4 7,5 DM

L 49 T T T T T Y T T T T 222 203 1,49 84,2 11,8 34,4 3,7 51,7 104 4,26 14,3 8 DM

P 61 T Y T Y Y T Y T T Y 258 300 0,99 12,7 8 22 12,18 83 350 2,61 11,4 DM_HIPERGLIKEMIA

P 62 T Y T Y Y Y Y T Y Y 317 278 1,2 21,1 10,2 36,5 9,2 65,2 355 4,3 13,4 DM_HIPERGLIKEMIA

L 61 T T T Y T T Y T T T 402 400 1,53 13,4 14,2 41,1 7,41 83,9 363 5,15 10,3 DM_NEUROPATI

P 65 Y T Y T T Y Y Y Y Y 256 258 1,01 15,3 12,9 37,6 19,58 91,9 179 4,17 11,3 DM

P 69 T T T Y T Y Y T T Y 260 266 1,64 75 10,8 32,1 6,1 67,5 359 3,37 39,2 DM_HIPERGLIKEMIA

P 52 Y Y T Y T Y Y T Y Y 258 261 0,75 26,1 10,9 32,9 61,7 46,7 9,4 DM_HIPERGLIKEMIA

L 50 Y Y T Y Y Y Y T T Y 315 280 1,05 84 11,1 31,1 21,7 8 DM_HIPERGLIKEMIA

L 69 Y Y T Y Y Y Y T T Y 332 280 1,05 84 11,1 31,1 21,7 8 DM_HIPERGLIKEMIA

L 49 Y T T Y T Y T Y Y Y 257 260 0,8 24,1 15,4 46,4 9,76 67,7 249 4,6 9,8 DM

P 58 Y Y T Y T Y Y Y T Y 100 210 0,76 24,4 11,4 32,8 13,12 78,7 172 3,61 11,5 DM

P 58 T Y T Y Y Y Y T T Y 258 266 1,1 58,7 11,3 33,6 7,22 63 356 4,09 9,3 DM_HIPERGLIKEMIA

P 58 T Y T Y Y Y Y T T Y 258 300 1,1 58,7 11,3 33,6 7,22 63 356 4,09 9,3 DM_HIPERGLIKEMIA

L 63 Y Y T Y Y Y Y T T Y 260 261 0,9 58,1 11,4 33,1 8,74 80,8 352 3,6 7,4 DM_HIPERGLIKEMIA

P 52 Y Y T Y Y Y Y Y Y Y 258 283 11,6 34,5 10,8 89,8 352 3,95 8,7 DM_HIPERGLIKEMIA

L 71 T T T Y Y Y Y T T T 410 399 0,92 17,6 14,3 43,1 8,73 87,4 363 4,94 9,1 DM_NEUROPATI

(79)

58

L 49 Y T Y Y T Y Y Y T T 1,28 33,9 14,4 41,6 10,33 86,1 225 4,6 11 DM

P 60 T Y T Y Y T Y T T Y 314 1,32 33,7 11,7 34,3 16,98 79,9 350 3,83 11,4 DM_HIPERGLIKEMIA

P 58 Y Y T Y Y Y Y Y Y Y 262 353 1,95 109 11,8 35,3 15,26 89,9 357 4,29 38,7 DM_HIPERGLIKEMIA

L 66 T T T Y Y T Y T T Y 333 263 2,52 54,9 12,1 35,3 10,1 83,1 362 4,37 13,3 8,4 DM_HIPERGLIKEMIA

L 60 T T T Y Y T Y T T Y 278 273 1,47 38 12,9 37,9 7,6 77,6 359 4,53 12,5 7,4 DM_HIPERGLIKEMIA

L 49 Y Y Y Y T Y Y T Y T 210 230 0,8 38,9 13,3 40 13,68 89,5 250 4,95 8,7 DM

P 46 Y T T T T Y T T T T 1,02 39,6 11,6 34,1 9,58 70,9 120 4,51 8,7 DM

L 66 Y Y T Y Y T Y T T Y 332 300 1,34 26,4 13,3 40,2 12,68 82,6 350 4,43 9,9 DM_HIPERGLIKEMIA

L 46 Y Y T Y T Y Y Y T T 254 226 1,53 52,5 16,4 45,2 2,07 63,3 104 5,61 10,6 DM

L 55 Y Y Y T T Y T Y T Y 1,53 60,5 14,1 42,1 5,33 73,5 110 4,93 10,9 DM

P 49 Y Y Y T T Y T T Y Y 254 260 1,89 66,6 8,7 26,8 19,1 90,5 249 3,37 10,2 DM

P 52 T T T Y Y T Y T T Y 319 283 13,5 38,6 24,7 23,3 355 4,54 12,7 4,7 DM_HIPERGLIKEMIA

L 60 Y Y T Y T Y Y Y T Y 230 1,8 67,9 16,9 31,6 8,96 49,8 110 4,19 8,3 DM

L 60 T T T Y Y Y Y T T Y 277 288 1,19 51 14,8 41,3 21,1 95,2 355 5,2 12,8 9,5 DM_HIPERGLIKEMIA

P 45 Y T T Y T Y Y Y T Y 181 224 0,79 69,2 10,3 30,7 22,5 87,3 140 3,74 12 DM

L 65 Y Y Y Y T Y T T Y T 100 108 1,86 73,8 9,2 26,6 0,33 90,7 110 3,12 9,8 DM

L 49 Y Y T Y T Y T Y Y Y 225 253 1,07 75,59 12,6 36,3 9,86 51,3 182 4,04 9,3 DM

P 45 Y T T Y T Y Y Y T Y 160 203 1,16 87,6 11,5 35,4 12,2 94,8 201 4,26 11,7 DM

P 54 T T T Y Y T Y T T Y 265 300 0,85 47,1 14,9 43,4 27 68,7 359 45,2 15,6 DM_HIPERGLIKEMIA

L 52 T T T Y Y T Y T T Y 300 274 1,38 37,8 15,3 45,9 18,6 83,4 361 6,96 12,4 7,5 DM_HIPERGLIKEMIA

P 45 Y Y Y T T Y T Y T Y 256 260 1,04 108 9,6 27,9 4,03 59 109 3,14 11,7 DM

L 58 Y Y Y Y T Y T T Y Y 194 197 2,34 109,1 14 38,1 6,6 12,8 6,1 DM

L 49 Y T T Y T Y Y Y Y Y 225 210 2,1 111,9 11,3 33 15,7 3,7 DM

P 49 Y T T Y T Y T T T Y 7,57 195,7 7,6 22,5 79,7 55,7 8,6 DM