SKRIPSI OPTIMASI ALGORITMA GENETIKA DALAM MEMPREDIKSI PENYAKIT DIABETES DENGAN MENGGUNAKAN METODE DECISION TREE

(1)

SKRIPSI

OPTIMASI ALGORITMA GENETIKA DALAM MEMPREDIKSI

PENYAKIT DIABETES DENGAN MENGGUNAKAN METODE

DECISION TREE

Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Informatika

Disusun oleh: Alfiyan 311510429

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS PELITA BANGSA

KABUPATEN BEKASI

(2)

ii

HALAMAN PENGESAHAN

Nama : Alfiyan

NIM : 311510429

Program Studi : Teknik Informatika-S1

Judul Tugas Akhir : Optimasi Algoritma Genetika Dalam Memprediksi Penyakit Diabetes Dengan Menggunakan Metode

Decision Tree

Tugas Akhir ini telah diujikan dan dipertahankan dihadapan dewan penguji pada sidang tugas akhir tanggal 10 Agustus 2019. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar

Sarjana Komputer (S. Kom)

Bekasi, 13 Agustus 2019 Dewan Penguji:

Dosen Penguji I Dosen Penguji II

Suherman, S.Kom.,M.Kom NIDN. 0308086805

Wiyanto, S.Kom.,M.Kom NIDN. 0417118103

(3)

iii

PERNYATAAN KEASLIAN SKRIPSI

Sebagai mahasiswa Universitas Pelita Bangsa, yang bertanda tangan dibawah ini, saya: Nama : Alfiyan

NIM : 311510429

Menyatakan bahwa karya ilmiah saya yang berjudul :

Optimasi Algoritma Genetika Dalam Memprediksi Penyakit Diabetes Dengan Menggunakan Metode Decision Tree

Merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti laptop dll). Apabila dikemudian hari, karya saya disinyalir bukan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian Surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di: Bekasi Tanggal : 11 Juli 2019 Yang menyatakan

(4)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI

Sebagai mahasiswa Universitas Pelita Bangsa, yang bertanda tangan dibawah ini, saya: Nama : Alfiyan

NIM : 311510429

Demi mengembangkan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Pelita Bangsa Hak Bebas Royalti Non-Eksklusif (Non-Exclusive

Royalty-Free Right) atas karya ilmiah saya yang berjudul:

Optimasi Algoritma Genetika Dalam Memprediksi Penyakit Diabetes Dengan Menggunakan Metode Decision Tree

Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Pelita Bangsa berhak untuk menyimpan data, mengcopy ulang, mempergunakan dan mengelola dalam bentuk database, serta mendistribusikan dan menampilkan/mempublikasikan karya ilmiah ini di internet atau media lain untuk kepentingan akademis tanpa ijin dari saya selama tetap mencantumkan saya sebagai penulis dan pemilik hak cipta. Segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta karya ilmiah ini menjadi tanggungjawab saya pribadi.

Dibuat di: Bekasi Tanggal : 11 Juli 2019 Yang menyatakan

(5)

(6)

vi

UCAPAN TERIMAKASIH

Segala puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan anugrahnya kepada penulis, sehingga penulis dapat menyelesaikan Laporan Tugas Akhir ini. Penulisan Laporan Tugas Akhir dengan judul “OPTIMASI ALGORITMA GENETIKA DALAM MEMPREDIKSI PENYAKIT DIABETES DENGAN MENGGUNAKAN METODE DECISION TREE”.

Penulis menyadari bahwa dalam penyusunan Laporan Tugas Akhir ini bukanlah dari jerih payah sendiri, melainkan dari bimbingan berbagai pihak. Oleh sebab itu penulis mengucapkan banyak terimakasih kepada semua pihak yang turut membantu dalam proses penulisan Laporan Tugas Akhir ini, yaitu kepada:

1. Allah SWT yang telah memberikan penulis rahmat sempat dan kesehatan 2. Dr. Ir. Supriyanto, M.P., selaku Ketua STT Pelita Bangsa

3. Aswan S. Sunge, SE., M.Kom , selaku ketua Program Studi Teknik Informatika dan selaku Dosen Pembimbing 1 (pertama) yang banyak memberikan pengarahan dan masukan terkait materi penelitian kepada penulis.

4. Ir. Nanang Tedi K, M.T selaku Dosen Pembimbing 2 (kedua) yang telah memberikan pengarahan dan masukan terkait penulisan kepada penulis dan seluruh Dosen Teknik Informatika yang telah mendidik dan memberikan pengetahuan yang tak ternilai kepada penulis selama mengikuti perkuliahan. 5. Orang tua, keluarga, teman-teman serta semua pihak yang telah memberikan

dukungan moril, doa dan kasih sayang.

Penulis menyadari bahwa mungkin masih terdapat kekurangan dalam Laporan Tugas Akhir ini, Oleh karena itu kritik dan saran dari pembaca sangat bermanfaat bagi penulis. Semoga laporan ini dapat bermanfaat bagi semua pihak yang membacanya.

Bekasi, 11 Juli 2019

(7)

vii

DAFTAR ISI

HALAMAN PERSETUJUAN ... Error! Bookmark not defined.

HALAMAN PENGESAHAN ... ii

PERNYATAAN KEASLIAN SKRIPSI ... iii

PERNYATAAN PERSETUJUAN PUBLIKASI ... iv

UCAPAN TERIMAKASIH ... v

ABSTRAK ... vii

ABSTRACT ... x

DAFTAR ISI ... vii

DAFTAR TABEL ... xi

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Identifikasi Masalah ... 3 1.3 Rumusan Masalah ... 3 1.4 Batasan Masalah ... 3 1.5 Manfaat Penelitian ... 4 1.6 Tujuan Penelitian ... 4 1.7 Sistematika Penulisan ... 4

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI ... 6

2.1 Tinjauan Pustaka ... 6

2.2 Landasan Teori ... 7

2.2.1 Diabetes Melitus... 8

2.2.2 Data Mining ... 10

(8)

viii

2.2.4 Decision Tree ... 16

2.2.5 Algoritma C4.5 ... 18

2.2.6 Algoritma Genetika ... 21

2.3 Kerangka Pemikiran ... 22

BAB III METODE PENELITIAN... 24

3.1 Metode Penelitian ... 24

3.2 Metode Pengumpulan Data ... 25

3.3 Pengelolahan Data Awal ... 26

3.4 Metode Yang Diusulkan ... 30

BAB IV HASIL PENGUJIAN DAN PEMBAHASAN ... 32

4.1 Hasil Pengujian ... 32

4.1.1 Pengujian Decision Tree ... 32

4.1.2 Pengujian Decision Tree + Algoritma Genetika ... 41

4.2 Pembahasan Hasil Pengujian ... 43

BAB V PENUTUP ... 46

5.1 Kesimpulan ... 46

5.2 Saran ... 46

DAFTAR PUSTAKA ... 47

(9)

ix

ABSTRAK

Kesehatan merupakan hal paling penting dalam kehidupan manusia, namun ternyata masyarakat Indonesia masih jauh dari kata pola hidup sehat. Salah satu penyakit yang dapat disebabkan oleh pola hidup tidak sehat adalah penyakit diabetes melitus yang dapat menyebabkan banyak kematian. Selama ini banyak data yang besar di Rumah Sakit namun datanya belum dapat dimaksimalkan dengan baik padahal jika data tersebut dapat dimanfaatkan maka dapat digunakan untuk memprediksi penyakit diabetes. Penggalian data dalam jumlah besar biasa disebut dengan data mining. Pada penelitian sebelumnya yang membahas tentang perbandingan antara metode algoritma C4.5 dan Naive Bayes dalam memprediksi penyakit diabetes. Hasil yang didapatkan oleh algoritma C4.5 menghasilkan nilai yang tidak lebih baik dari algoritma Naive

Bayes. Maka dari itu perlu adanya peningkatan akurasi untuk menghasilkan informasi

yang lebih baik. Optimasi menggunakan algoritma genetika dipilih untuk dapat meningkatkan hasil akurasi pada algorima C4.5. Dalam melakukan pengujian ini tools yang digunakan adalah RapidMiner. Hasil yang didapatkan menggunakan algoritma C4.5 tanpa optimasi adalah sebesar 72.08% dan hasil yang didapatkan algoritma C4.5 dan optimasi algoritma genetika adalah sebesar 84,42% atau naik sebesar 12,34% dari algoritma C4.5 tanpa optimasi.

Kata Kunci : Data Mining, Decision Tree, Algoritma C4.5, Algoritma Genetika, Diabetes Melitus.

(10)

x

ABSTRACT

Health is the most important thing in human life, but it turns out that Indonesian people are still far from the word healthy lifestyle. One of the diseases that can be caused by unhealthy lifestyle is diabetes melitus which can cause many deaths. So far there is a large amount of data in the hospital but the data cannot be maximized properly even though if the data can be utilized it can be used to predict diabetes. Extracting large amounts of data is usually called data mining. In a previous study that discussed the comparison between the C4.5 and Naive Bayes algorithm methods in predicting diabetes. The results obtained by the C4.5 algorithm produce a value that is no better than the Naive Bayes algorithm. Therefore, it is necessary to increase accuracy to produce better information. Optimization using genetic algorithms was chosen to be able to improve the accuracy of the C4.5 algorithm. In conducting this test using the RapidMiner application. The results obtained using the C4.5 algorithm without optimation are 72.08% and the results obtained by the C4.5 with optimation genetic algorithm are 84.42% or up by 12.34% from the C4.5 algorithm without optimation.

Keywords: Data Mining, Decision Tree, C4.5 Algorithm, Genetic Algorithm, Diabetes Melitus.

(11)

xi

DAFTAR TABEL

Tabel 3. 1 Dataset Pima Indians Diabetes ... 26

Tabel 3. 2 Atribut yang digunakan ... 27

Tabel 3. 3 Model Confusion Matrix ... 29

(12)

xii

DAFTAR GAMBAR

Gambar 2. 1 Bidang Ilmu Data Mining ... 10

Gambar 2. 2 Tahapan Data Mining ... 12

Gambar 2. 3 Pohon Keputusan Sederhana ... 17

Gambar 2. 4 Kerangka Pemikiran ... 23

Gambar 3. 1 Tahapan Penelitian... 24

Gambar 3. 2 Ilustrasi Split Validation ... 28

Gambar 3. 3 Metode Usulan ... 31

Gambar 4. 1 Import Dataset ... 33

Gambar 4. 2 Edit Parameter Replace Missing Value ... 34

Gambar 4. 3 Hasil Operator Replace Missing Value ... 35

Gambar 4. 4 Select Attributes ... 36

Gambar 4. 5 Split Validation ... 37

Gambar 4. 6 Model Pengujian Decision Tree ... 37

Gambar 4. 7 Pohon Keputusan ... 38

Gambar 4. 8 Hasil Accuracy Decision Tree ... 39

Gambar 4. 9 Hasil Precision Decision Tree ... 39

Gambar 4. 10 Hasil Recall Decision Tree ... 40

Gambar 4. 11 Hasil AUC Decision Tree ... 40

Gambar 4. 12 Konfigurasi Operator Generate ... 41

Gambar 4. 13 Model Decision Tree + Algoritma Genetika ... 41

Gambar 4. 14 Hasil Accuracy Decision Tree + Algoritma Genetika ... 42

Gambar 4. 15 Hasil Precision Decision Tree + Algoritma Genetika ... 42

Gambar 4. 16 Hasil Recall Decision Tree + Algoritma Genetika ... 42

Gambar 4. 17 Hasil AUC Decision Tree + Algoritma Genetika ... 43

Gambar 4. 18 Grafik Hasil Pengujian ... 44

(13)

xiii

DAFTAR LAMPIRAN

Lampiran 1. Kartu Kendali Bimbingan Skripsi ... 51 Lampiran 2. Data Diri ... 53

(14)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Kesehatan merupakan hal paling penting dalam kehidupan manusia, namun ternyata masyarakat Indonesia masih jauh dari kata pola hidup sehat. Bahkan menurut perusahaan asuransi AIA Grup dari 15 negara di Asia Pasifik, Indonesia menempati peringkat terendah dalam penerapan pola hidup sehat, Indonesia bahkan hanya meraih skor 55 dari batas skor 100 dalam AIA Healthy Living Index 2013. Dengan perkembangan teknologi menyebabkan pola hidup masyarakat juga sangat berubah terutama soal makanan, orang Indonesia kini lebih memilih serba instan seperti

fastfood atau junkfood. Akibat pola makanan yang tidak sehat ini dapat menimbulkan

penyakit salah satunya diabetes melitus [1].

Diabetes melitus merupakan sebuah penyakit gangguan metabolik akibat dari pankreas tidak dapat memproduksi cukup insulin atau tubuh tidak dapat menggunakan insulin yang telah diproduksi secara efektif. Berdasarkan laporan World Health

Organization (WHO), Indonesia meduduki peringkat keempat tertinggi didunia yang

mempunyai pasien penderita diabetes, dimana jumlah penderita diabetes di Indonesia pada tahun 2000 adalah sebanyak 8,4 juta orang setelah India (31,7 juta) berikutnya adalah Cina (20,8 juta) dan Amerika Serikat (17,7 juta). WHO juga melaporkan jika terdapat lebih dari 143 juta orang penderita diabetes diseluruh dunia, dan jumlah ini diperkirakan dapat meningkat menjadi dua kali lipat di tahun 2030 dan diperkirakan sebanyak 77% diantaranya akan terjadi dinegara berkembang, yang artinya Indonesia memliki presentasi yang besar dalam peningkatan pendarita penyakit DM baik yang telah terdiagnosa ataupun belum terdiagnosa[2].

(15)

Menurut International Diabetes Federation (IDF) terdapat 382 juta orang yang terkena penyakit diabetes melitus. Pada tahun 2035 diperkirakan jumlahnya akan bertambah menjadi 592 juta orang, dari jumlah tersebut diperkirakan terdapat 175 juta diantaranya belum terdiagnosis, sehingga terancam berkembang secara progresif dapat menjadi komplikasi tanpa adanya pencegahan sebelumnya. Riset Kesehatan Dasar (Riskesdas) tahun 2007 dan 2013 telah melakukan wawancara terhadap masyarakat usia 15 tahun ke atas untuk menghitung proporsi diabetes melitus. Di definisikan pada wawancara ini pernah di diagnosis atau belum pernah di diagnosis tetapi dalam 1 bulan terakhir mengalami gejala sering lapar, sering haus, sering buang air kecil dan berat badan turun. Dari hasil wawancara tersebut didapatkan pada 2013 meningkat hampir dua kali lipat dibanding tahun 2007. Kebanyakan masyarakat tidak menyadari bahwa ia telah menderita diabetes sehingga tidak mengubah pola hidupnya yang sebenarnya kurang baik dan ketika didiagnosa terkena diabetes pasien tidak bisa mendapatkan penanganan lebih awal yang dapat berakibat pada kematian. Peningkatan angka kematian akibat diabetes melitus dapat dikurangi jika diagnosa yang lebih akurat sejak dini [3].

Selama ini banyak data yang sangat besar di Rumah Sakit dan Institusi terkait medis yang datanya belum digunakan secara maksimal, padahal jika data itu dapat dimaksimalkan maka dapat digunakan untuk memprediksi suatu penyakit. Penggalian data dalam jumlah besar ini biasa disebut dengan data mining [4]. Data mining merujuk pada keseluruhan data yang telah diproses sebelumnya mulai pengumpulan dan analisis data kemudian mengadopsi praktek pengambilan keputusan berdasarkan pengetahuan yang telah diperoleh [5]. Dengan metode klasifikasi pada data mining data seperti, umur, jenis kelamin dan atribut-atribut lain yang mungkin terkait, dapat digunakan sebagai faktor pendukung dalam mempresiksi kemungkinan pasien terkena suatu penyakit sehingga pasien yang didiagnosa terkena penyakit lebih awal dapat mengobati sebelum penyakit itu bertambah parah [6].

(16)

Berdasarkan latar belakang yang dinyatakan diatas, maka dilakukan penelitian dengan judul “Optimasi Algoritma Genetika Dalam Memprediksi Penyakit Diabetes Dengan Menggunakan Metode Decision Tree”.

1.2 Identifikasi Masalah

Berdasarkan latar belakang yang telah diuraikan, maka masalah dapat di identifikasi sebagai berikut :

1. Masyarakat belum terlalu faham tentang gejala-gejala penyakit diabetes sehingga cenderung tidak perduli dengan pola hidup sehat.

2. Terjadi keterlambatan diagnosa pada penyakit diabetes yang dapat mengakibatkan komplikasi diabetes.

3. Angka kematian akibat penyakit diabetes semakin meningkat setiap tahunnya. 4. Pada penelitian sebelumnya tentang perbandingan algoritma C4.5 dan Naive

bayes untuk prediksi penyakit diabetes. Hasil yang didapatkan algoritma C4.5

lebih rendah dibanding Naive Bayes, maka perlu adanya peningkatan pada algoritma C4.5.

1.3 Batasan Masalah

Berdasarkan identifikasi dan rumusan masalah maka dibatasi permasalahan dalam penelitian, yaitu peningkatan akurasi algoritma C4.5 dengan dioptimasi menggunakan algoritma genetika untuk memprediksi penyakit diabetes melitus dan menggunakan aplikasi RapidMiner untuk menghitung tingkat akurasi.

1.4 Rumusan Masalah

Berdasarkan identifikasi masalah tersebut, maka dapat dirumuskan permasalahan yaitu : bagaimana optimasi algoritma genetika dalam menentukan prediksi diabetes dengan menggunakan metode algoritma C4.5?

(17)

1.5 Tujuan Penelitian

Berdasarkan rumusan masalah yang telah dijelaskan, maka tujuan dari penelitian ini adalah untuk mengetahui optimasi algoritma genetika dalam menentukan prediksi diabetes dengan menggunakan metode algoritma C4.5.

1.6 Manfaat Penelitian

Manfaat dari penelitian ini yaitu : 1. Bagi penulis

a. Untuk menerapkan ilmu yang telah diproleh dari bangku kuliah.

b. Untuk menambah wawasan serta pengetahuan penulis dalam bidang data

mining.

2. Bagi Fakultas Teknik Pelita Bangsa

a. Diharapkan dapat memberi masukan ilmu bagi program studi Teknik Informatika tentang bidang ilmu data mining.

b. Menambah sumber kajian diperpustakaan yang dapat digunakan sebagai raferensi kepada mahasiswa pelita bangsa.

3. Bagi Instansi Kesehatan

Dapat digunakan untuk memprediksi pasien diabetes secara dini agar segera mendapatkan penanganan untuk mengurangi resiko terkena komplikasi.

1.7 Sistematika Penulisan

Untuk lebih dapat memahami laporan skripsi ini, maka laporan skripsi dikelompokan ke dalam beberapa sub bab sebagai berikut:

BAB I PENDAHULUAN

Bab ini menjelaskan mengenai uraian secara umum mengenai latar belakang masalah, identifikasi masalah, rumusan dan batasan masalah, tujuan dan manfaat yang ingin dicapai dari penelitian ini serta sistematika penulisan.

(18)

BAB II TINJAUAN PUSTAKA

Menjelaskan tentang kajian pustaka serta teori yang melandasi penilian algoritma C4.5 dan optimasi algoritma genetika untuk prediksi penyakit diabetes.

BAB III METODE PENELITIAN

Menjelasakan tentang metode penelitian dari pengumpulan data eksperimen dengan menguji data yang ada menggunakan algortima C4.5 dan optimasi algoritma genetika untuk memprediksi diabetes.

BAB IV HASIL DAN PEMBAHASAN

Menjelaskan dan menampilkan hasil prediksi dengan menggunakan algoritma C4.5 dan optimasi algoritma genetika.

BAB V PENUTUP

(19)

6

BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Tinjauan Pustaka

Kajian pustaka berisi tentang beberapa penelitian terkait metode yang dilakukan pada penelitian ini, antara lain :

1. Perbandingan algoritma klasifikasi data mining model C4.5 dan Naive Bayes untuk prediksi penyakit diabetes [5]. Dalam penelitian ini membahas tentang perbandingan antara metode algoritma C4.5 dan Naive Bayes, hasil dari penelitian ini yaitu algoritma C4.5 memiliki nilai akurasi sebesar 73.30%, sedangkan Naive Bayes memiliki nilai akurasi sebesar 75,13%. Dari hasil diatas dapat disimpulkan bahwa Naive Bayes lebih tinggi tingkat akrurasinya dibanding algoritma C4.5.

2. Optimasi algoritma C4.5 menggunakan algoritma genetika dalam memprediksi Web phising [7]. Dalam penelitian ini memprediksi tentang keamanan internet terutama dalam phising dengan menggunakan metode algoritma C4.5 dengan optimasi algoritma genetika .

3. Implementasi Algoritma Genetika Pada Perancangan Aplikasi Android Untuk Memprediksi Buta Warna [8]. Dalam penelitian ini menggunakan 21 dengan atribut umur, jenis kelamin, buta warna, buta warna sebagian, pembawa buta warna. Hasilnya implementasi algoritma genetika untuk aplikasi prediksi buta warna mampu memberikan hasil yang lebih optimal.

4. Deteksi Dini Penyakit Diabetes Menggunakan Algoritma Neural Network Berbasiskan Algoritma Genetika [9]. Dalam penelitian ini membahas tentang Algoritma Neural Network yang dioptimasi menggunakan Algoritma Genetika. hasilnya terjadi penurunan nilai RMSE(Root Mean Square Error) yang berarti terjadi peningkatan akurasi karena semakin kecil RMSE maka kualitas

(20)

akurasinya akan semakin baik. Hasilnya menunjukan peningkatan akurasi prediksi yaitu dari 0,402 +/- 0,035 menjadi 0,396 +/- 0,032.

5. Review : Data mining menggunakan Algoritma Genetika [10]. Algoritma genetika dapat diterapkan ke dalam berbagai sistem data mining, algoritma genetika dapat digunakan untuk meningkatkan suatu akurasi data. Berdasarkan hasil penelitian yang telah dilakukan oleh berbagai peneliti, tingkat keakuratan menggunakan algoritma genetika pada data mining berada pada rentang 70% hingga 90%.

6. Type 2 diabetes melitus prediction model based on data mining [11]. Dalam penelitiannya peneliti menggunakan beberapa metode yaitu, Our model, Random Forest, Naive Bayes, dan algoritma C4.5 hasilnya algoritma Our model mendapat hasil akurasi tertinggi yaitu sebesar 0,907 dan algoritma C4.5 mendapat hasil akurasi terendah yaitu sebesar 0,72.

7. Perbandingan Performa Algoritma Koloni Semut Dengan

Algoritma Genetika – Tabu Search Dalam Penjadwalan

Kuliah [12]. Dalam penilitiannya peneliti membandingkan algoritma koloni semut dengan algoritma genetika – tabu search hasilnya nilai fitness dari algoritma genetika – tabu search lebih baik 11% dibandingkan dengan algoritma koloni semut.

2.2 Landasan Teori

Dasar teori berisi landasan-landasan yang berkaitan dengan penelitian yang dilakukan. Pengertian-pengertian serta teori yang dijabarkan yaitu mengenai penjelasan tentang diabetes melitus, pengertian data mining, bagian data mining, tahapan data mining, klasifikasi, pengertian decision tree, pengertian algoritma C4.5, dan pengertian algoritma genetika.

(21)

2.2.1 Diabetes Melitus

Diabetes Melitus adalah sebuah penyakit gangguan metabolik akibat dari pankreas tidak dapat memproduksi cukup insulin atau tubuh tidak dapat menggunakan insulin yang diproduksi secara efektif. Fungsi dari insulin sendiri merupakan hormon untuk mengatur keseimbangan kadar gula yang terdapat dalam tubuh [13]. Kondisi normal tubuh seseorang maka tubuh akan memproduksi insulin yang berfungsi memastikan kadar gula tetap stabil ,pada ambang batas normal, ketika tubuh tidak memproduksi insulin secara cukup maka gula darah akan naik dari ambang batas normal dan sel tidak memberikan respon yang tepat sehingga penyakit DM terjadi [9]. Pada penyakit diabetes terdapat 2 jenis yaitu diabetes tipe 1 dan tipe 2. DM tipe1 merupakan diabetes yang tergantung pada insulin, dimana pankreas tidak dapat memproduksi insulin secara cukup atau sama sekali tidak dapat 7menghasilkan insulin dan pada diabetes ini biasa terjadi pada usia dibawah 30 tahun. Sedangkan pada DM tipe 2 yaitu pankreas tetap dapat menghasilkan insulin namun kadarnya lebih tinggi dari ambang batas normal yang mengakibatkan terjadinya tubuh membentuk kekebalan terhadap efeknya, Penyebab DM tipe 2 ada beberapa faktor seperti kelebihan berat badan, kurang aktifitas fisik, pola makan yang tidak baik, dan riwayat keluarga, DM tipe 2 inilah yang merupakan 90% dari seluruh penyakit diabetes. Gejala awal dari DM biasanya diawali oleh tiga kondisi, yaitu polidipsi (rasa haus yang berlebihan), polifagi (meningkatnya rasa lapar) dan poliuri (meningkatnya pengeluaran kemih). Gejala yang jarang disadari ini jika dibiarkan dan tidak cepat diatasi maka dapat menyebabkan komplikasi yang serius seperti serangan jantung, stroke, kebutaan, gagal ginjal, dan penyakit pembuluh darah yang dapat menyebabkan amputasi [14].

Berdasarkan laporan World Health Organization (WHO), Indonesia meduduki peringkat keempat tertinggi didunia yang mempunyai pasien penderita diabetes, dimana jumlah penderita diabetes di Indonesia pada tahun 2000 adalah sebanyak 8,4 juta orang setelah India (31,7 juta) kemudian Cina (20,8 juta) dan Amerika Serikat (17,7 juta). WHO juga melaporkan jika terdapat lebih dari 143 juta orang penderita

(22)

diabetes diseluruh dunia, dan jumlah ini diperkirakan dapat meningkat menjadi dua kali lipat di tahun 2030 dan diperkirakan sebanyak 77% diantaranya akan terjadi dinegara berkembang, yang artinya Indonesia memliki presentasi yang besar dalam peningkatan pendarita penyakit DM [2].

Menurut International Diabetes Federation (IDF) pasien yang terkena penyakit diabetes melitus sebanyak 382 juta orang. Pada tahun 2035 diperkirakan jumlahnya akan bertambah menjadi 592 juta orang, dari jumlah tersebut diperkirakan terdapat 175 juta diantaranya yang belum terdiagnosis, sehingga terancam berkembang secara progresif dapat menjadi komplikasi tanpa adanya pencegahan sebelumnya. Riset Kesehatan Dasar (Riskesdas) tahun 2007 dan 2013 telah melakukan wawancara terhadap masyarakat usia 15 tahun ke atas untuk menghitung proporsi penyakit diabetes millitus. Pada wawancara ini digunakan untuk mendapatkan data pernah di diagnosis atau belum pernah di diagnosis sebelumnya tetapi dalam waktu 1 bulan terakhir mengalami gejala sering buang air kecil, sering haus, sering lapar dan berat badan turun. Dari hasil wawancara tersebut didapatkan pada 2013 meningkat hampir dua kali lipat dibanding tahun 2007. Kebanyakan masyarakat tidak menyadari bahwa ia telah menderita diabetes sehingga tidak mengubah pola hidupnya yang sebenarnya kurang baik dan ketika didiagnosa terkena diabetes pasien tidak bisa mendapatkan penanganan lebih awal yang dapat berakibat pada kematian. Peningkatan angka kematian akibat diabetes melitus dapat dikurangi jika diagnosa yang lebih akurat sejak dini [15].

Dari beberapa penjelasan diatas maka dapat disimpulkan bahwa penyakit diabetes adalah suatu penyakit yang timbul jika tubuh tidak dapat memproduksi insulin dengan baik, insulin merupakan hormon yang dapat mengatur keseimbangan gula darah. Sebagian besar masyarakat Indonesia tidak menyadari bahwa ia telah menderita diabetes sehingga pasien penderita diabetes tidak bisa mendapatkan penanganan lebih awal.

(23)

2.2.2 Data Mining

1. Definisi Data Mining

Data mining merupakan salah satu bagian ilmu komputer yang terdapat beberapa

proses untuk menemukan sebuah pola baru atau pengetahuan baru dari suatu dataset. Proses mencari suatu pola dari dataset yang telah dipilih dapat menggunakan metode-metode tertentu, metode-metode atau algoritma dalam data mining memiliki banyak variasi, oleh karena itu pemilihan algoritma yang tepat bergantung pada tujuan seorang peneliti. Tujuan utama data mining yaitu mempelajarai informasi-informasi dari suatu dataset untuk diubah menjadi suatu pengetahuan baru yang nantinya dapat digunakan untuk masa depan [16].

Data mining bukan merupakan suatu bidang yang baru, namun sudah pernah

digunakan untuk penelitian-penelitian sebelumnya. Menurut para ahli, data mining adalah suatu proses yang diawali observasi sebuah data dalam jumlah besar yang datanya masih belum diketahui sebelumnya lalu dibuat dengan sebuah metode baru agar mudah dipahami dan diketahui kegunaannya [17].

(24)

Data mining merupakan kenyataan bahwa ilmu yang mewarisi aspek-aspek,

teknik dan bidang-bidang ilmu lainnya yang sudah ada terlebih dahulu. Bisa dilihat pada Gambar 2.1 menunjukan bahwa data mining memiliki akar banyak dan bidang ilmu seperti Machine learning, database, statistik, kecerdasan buatan (artificial

intelegent) dan juga information retrieval.

Data mining adalah sebuah rangkaian suatu proses mulai dari analisis dari suatu

dataset berdasarkan pada pendefinisian tujuan sampai pada tahap interpretasi dan juga evaluasi hasil yang merupakan tahap paling akhir dalam data mining untuk menemukan pola atau pengetahuan baru [18]. Data mining juga dapat diartikan sebagai suatu proses untuk menemukan pola baru dari sebuah dataset dimana prosesnya harus otomatis atau semi-otomatis yang nantinya akan menghasilkan pola yang memiliki arti dan memiliki beberapa keuntungan [19]. Salah satu alasan mengapa data mining diperlukan yaitu karena terdapat data yang jumlahnya besar belum dapat digunakan secara maksimal terutama untuk menghasilkan suatu informasi dan pengetahuan. Informasi dan pengetahuan tersebut dapat digunakan untuk berbagai bidang misalkan kesehatan, pendidikan, industri dan lain-lain [20].

Berdasarkan penjelasan diatas maka dapat disimpulkan bahwa data mining merupakan suatu proses mengelola suatu data untuk menggali informasi dengan tujuan untuk mendapatkan suatu pola pengetahuan baru yang belum diketahui sebelumnya.

2. Tahapan Data mining

Data mining atau Knowledge Discovery in Database (KDD) memiliki beberapa

tahapan-tahapan yang harus dilakukan sebelum data tersebut dapat diproses. Penjelasan tentang tahapan data mining dapat dilihat pada Gambar 2.2 yang menggambarkan beberapa tahap yang harus dilakukan jika ingin melakukan data

(25)

Gambar 2. 2 Tahapan Data Mining [10]

Berikut adalah tahapan-tahapan data mining atau Knowledge Discovery in

Database (KDD) [21] :

a. Data Selection

Pemilihan data perlu dilakukan sesuai dengan kebutuhan-kebutuhan yang diperlukan sebelum tahap penggalian informasi dilakukan. Hasil data yang telah diseleksi sebaiknya disimpan pada berkas terpisah dengan basis data operasional, sehingga mempermudah untuk proses selanjutnya.

b. Data Preprocessing (Data Cleaning)

Sebelum proses data mining dilakukan, hendaknya dilakukan proses pembersihan data. Pembersihan data ini meliputi hilangnya data, duplikasi data,data yang inkosisten, dan juga atribut-atribut yang kemungkinan tidak relevan agar tidak mengurangi tingkat akurasi penelitian.

c. Transformation

Setelah data telah dipilih dan juga sudah melewati proses pembersihan data, selanjutnya yaitu mengubah format data sehingga dapat diproses untuk data mining. d. Data Mining

Data mining adalah suatu proses mencari pola dari data yang telah dipilih dengan

menggunakan metode atau teknik yang bervariasi, pemilihan metode yang tepat akan berpengaruh pada tujuan penilitian.

(26)

e. Interpertation (Evaluation)

Tahap ini merupakan tahap paling akhir dari tahapan-tahapan Data Mining. Pada tahap ini memiliki tujuan yaitu menampilkan pola atau aturan yang telah dihasilkan dari proses data mining lalu ditampilkan dalam bentuk yang sederhana sehingga mudah dimengerti oleh pihak yang berkepentingan. Tahap ini juga berguna untuk memeriksa pola yang telah ditemukan dengan fakta atau hipotesis yang telah dijabarkan sebelumnya.

3. Pengelompokan Data Mining

Pengelompokan data mining bisa dikelompokan berdasarkan prakteknya dan juga berdasarkan tugasnya. Dalam prakteknya data mining memiliki dua tujuan utama yaitu untuk melakukan prediksi dan deskripsi. Prediksi melibatkan beberapa variabel dalam suatu dataset untuk memprediksi nilai yang belum diketahui sebelumnya kemudian berfokus untuk menemukan suatu pola yang menggambarkan data yang dapat diinterpretasikan oleh manusia. Sedangkan deskripsi digunakan untuk menemukan pola-pola yang akan memudahkan manusia yang berkepentingan dalam mengartikan karakteristik suatu data [22].

Berdasarkan tugasnya data mining dapat dikelompokan menjadi beberapam bagian, yaitu :

a. Description (deskripsi)

Peneliti dan analis biasanya ingin mencari cara untuk menggambarkan suatu pola secara sederhana yang cenderung bersumber dari sumber data. Sebagai contoh, lembaga survei mungkin dapat menemukan keterangan siapa yang nanti akan terpilih dalam pemilihan presiden. Hasil dari survey nantinya akan membentuk suatu pola-pola tertentu yang dapat mendeskripsikan hasil dari pemilihan presiden.

b. Estimation (estimasi)

Estimasi hampir memiliki kemiripan dengan klasifikasi, perbedaanya berada pada variabel target estimasi yang arahnya lebih ke arah numerik/number dari pada ke

(27)

arah kategori. Pembentukan model dibangun dengan memanfaatkan record data yang nilai variabel target digunakan sebagai prediksi. Contoh, estimasi nilai Ujian Nasional dengan melihat nilai siswa di Ujian Akhir Semester sebelumnya. c. Prediction (prediksi)

Prediksi hampir memiliki kesamaan dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi hasil dari nilai yang telah diprediksi akan ada di masa mendatang.

Contoh dari prediksi :

1) Prediksi presentase angka kecelakaan lalu lintas tahun depan jika jalan tol telah resmi dioperasikan.

2) Prediksi melonjaknya harga pangan menjelang bulan suci Ramadhan.

Beberapa teknik dan metode yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan untuk prediksi.

d. Classification (klasifikasi)

Klasifikasi memiliki target variabel berupa kategori. Sebagai contoh, pengelompokan penghasilan dapat dipisahkan menjadi 3 kategori yaitu penghasilan tinggi, penghasilan sedang dan penghasilan rendah.

e. Clustering (pengklusteran)

Pengklusteran adalah metode pengelompokan data dengan cara melakukan analisa atau pengamatan untuk membentuk kelas objek-objek yang memiliki kemiripan. Pengklusteran berbeda dengan klasifikasi karena dalam pengklusteran tidak memiliki variabel target. Pengklusteran banyak digunakan dalam berbagai aplikasi seperti web search, pengenalan pola citra, bidang ilmu biologi, dan untuk keamanan (security). Sebagai contoh, mengkelompokan konsumen untuk target pemasaran dari suatu produk.

f. Assosiation (asosiasi)

Asosiasi adalah suatu cara untuk menemukan aturan assosiatif dengan memanfaatkan beberapa kombinasi item. Sebagai contoh, analisa pembelian di suatu mini market dapat diketahui seberapa besar kemungkinan seorang pelanggan

(28)

membeli roti dan susu secara bersamaan. Dengan pengetahuan tersebut pemilik

mini market dapat mengatur penempatan barangnya atau merancang promo untuk

keduanya.

Dari beberapa penjelasan diatas,maka dapat disimpulkan bahwa data mining terdiri dari 6 (enam) kelompok yaitu deskripsi, estimasi, prediksi, klasifikasi, pengklasteran dan asosiasi untuk dapat mengelola data dengan baik sehingga dapat menghasilkan data yang akurat [23].

2.2.3 Klasifikasi

Klasifikasi secara taksonomi adalah suatu proses menempatkan objek atau konsep kedalam satu kelompok kategori berdasarkan objek atau konsep yang bersangkutan. Metode ini biasa digunakan untuk membantu dalam memahami cara pengelompokkan data, klasifikasi sendiri merupakan salah satu cabang dari discovery

data mining [18].

Klasifikasi sendiri merupakan bagian dari prediksi, dimana nilai yang akan diprediksi berupa label. Klasifikasi menentukan class atau grup untuk tiap data, input dari metode klasifikasi adalah data samples dan outputnya berupa class dari data

samples itu sendiri, dalam machine learning untuk membangun model klasifikasi dapat

menggunakan metode supervised learning. Metode supervised learning adalah metode pendekatan dimana ada data latih dan terdapat varibel target yang akan dicari hubungan antara data latih dan variabel target, hubungan yang telah ditemukan biasa disebut dengan model. Dalam metode klasifikasi kita dapat menentukan objek kedalam suatu kategori tertentu, contoh dalam menangani masalah klasifikasi adalah menentukan apakah seseorang pasien “mengidap” atau “tidak mengidap” penyakit tertentu, dari informasi tentang data pasien sebelumnya maka data tersebut dapat digunakan sebagai bahan untuk melatih algoritma untuk mendapatkan rule atau aturan yang nantinya akan berguna sebagai acuan dalam melakukan suatu prediksi [5].

(29)

2.2.4 Decision Tree

Decision tree adalah salah satu metode klasifikasi dan prediksi yang sangat

terkenal dan sering digunakan untuk mengelola data yang ingin digunakan sebagai prediksi. Metode ini mengubah fakta yang besar menjadi pohon keputusan sesuai dengan aturan yang berlaku, aturan-aturan ini menggambarkan sebuah struktur yang digunakan untuk kumpulan data yang besar dan diubah menjadi himpunan-himpunan yang lebih kecil [6].

Decision tree atau pohon keputusan berguna untuk mengeksplorasi data, yaitu

dengan cara menemukan ada atau tidaknya hubungan antara variabel-variabel input dengan variabel-variabel target. Dalam pembentukan suatu pohon keputusan dapat dibentuk menggunakan cara manual atau secara otomatis dengan menerapkan salah satu algoritma pohon keputusan untuk menemukan suatu pola atau model dari suatu data yang belum terklasifikasi [24].

Sebuah model decision tree dapat terbentuk dari sekumpulan aturan untuk membagi sejumlah populasi data yang heterogen menjadi lebih kecil dan lebih

homogen dengan memperhatikan pada variabel tujuannya. Variabel tujuan biasanya

berupa label kemudian dikelola menggunakan model decision tree yang menggunakan perhitungan probabilitas dari tiap-tiap record dengan mengelompokannya dalam satu kelas. Metode Decision tree juga dapat digunakan untuk mengestimasi suatu nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini [25].

Banyak algoritma yang dapat dipakai dalam pembentukan decision tree, antara lain lD3, CART, dan C4.5. Algoritma C 4.5 merupakan pengembangan dari algoritma 1D3 . Data dalam decision tree biasanya berbentuk table yang didalamnya terdapat atribut dan record. Atribut digunakan untuk menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan pembelian mobil, kriteria yang dapat digunakan adalah penghasilan, pekerjaan, tempat tinggal, dan lain-lain. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut yang memiliki nilai-nilai tertentu disebut

(30)

dengan instance. Misalkan pada atribut pekerjaan mempunyai instance berupa karyawan tetap dan karyawan kontrak. Proses dalam decision tree adalah untuk mengubah data yang awalnya berbentuk tabel menjadi bentuk pohon keputusan yang mempumyai rule atau aturan tertentu berdasarkan tabel yang telah diolah [5].

Decision tree merupakan salah satu metode klasifikasi yang menggunakan

representasi struktur pohon, dimana setiap node merepresentasikan atribut, dan daun

(leaf) merepresentasikan kelas. Node yang paling atas dari pohon keputusan disebut

sebagai akar (root), tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. Internal node merupakan node percabangan, hanya terdapat satu input dan mempunyai output minimal dua. Pada node daun hanya terdapat satu input dan tidak mempunyai output [26]. Contoh sebuah pohon keputusan sederhana diperlihatkan pada Gambar 2.3.

Gambar 2. 3 Pohon Keputusan Sederhana

Pada Gambar 2.3 menggambarkan keputusan kelasnya adalah yes atau no. Apabila age = middle_aged (yes), age = senior & credit_rating = excellent (no), age=

senior & credit_rating = fair (yes), age = youth & student = no (no), age = youth & student yes (yes).

(31)

Decision tree merupakan algoritma pembelajaran mesin terawasi yang digunakan

untuk menyelesaikan masalah klasifikasi. Tujuan utamanya adalah prediksi kelas target menggunakan aturan keputusan yang diambil dari data sebelumnya menggunakan node dan ruas untuk prediksi dan klasifikasi. Root node dapat memiliki dua atau lebih cabang sedangkan node leaf mewakili klasifikasi. Dalam setiap tahap, pohon Keputusan memilih setiap simpul dengan mengevaluasi perolehan informasi tertinggi di antara semua atribut[27].

Dari beberapa penjelasan diatas maka dapat disimpulkan bahwa decision tree merupakan salah satu model klasifikasi dan prediksi yang sangat terkenal dengan cara mengubah data dalam jumlah besar menjadi suatu pohon keputusan sesuai aturan.

2.2.5 Algoritma C4.5

Algoritma C4.5 pertama kali diperkenalkan oleh J. Ross Quinlan yang merupakan perkembangan dari algoritma ID3, algoritma tersebut digunakan untuk membuat suatu pohon keputusan. Pohon keputusan dianggap sebagai salah satu pendekatan yang paling populer, dalam klasifikasi pohon keputusan sendiri terdiri dari sebuah node yang membentuk suatu akar, node akar tidak memiliki inputan [5].

Algroritma C4.5 merupakan salah satu algoritma klasifikasi yang cukup populer dengan menggunakan teknik pohon keputusan yang dapat menghasilkan aturan-aturan yang mudah diinterpretasikan dan merupakan algoritma yang tercepat dibanding algoritma-algoritma lainnya. Salah satu hal yang harus diperhatikan jika menggunakan algoritma ini yaitu keakuratan prediksi, keakuratan prediksi merupakan kemampuan untuk dapat memprediksi label tiap kelas terhadap data baru atau data yang belum diketahui sebelumnya dengan baik. Hal lain yaitu tentang kecepatan atau efisiensi waktu yang diperlukan dalam membangun dan menggunakan model yang telah ditentukan. Selain itu ada skalabilitas yang merupakan kemampuan membangun suatu model dengan data yang jumlahnya besar. Dan yang terakhir interpretabilitas yaitu

(32)

kemampuan untuk menghasilkan model yang mudah dipahami dan juga memiliki perintah tertulis secara sistematis [28].

Algoritma C4.5 merupakan salah satu algoritma yang digunakan untuk membentuk sebuah pohon keputusan. Sedangkan pohon keputusan dapat diartikan sebagai cara yang digunakan untuk memprediksi atau mengklarifikasi data, selain itu pohon keputusan dapat membagi kumpulan data dalam skala besar menjadi himpunan-himpunan record data yeng lebih kecil yang berguna dalam membuat aturan-aturan keputusan [26].

Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4. yaitu:

1. Menyiapkan data training. Data training biasanya berbentuk tabel-tabel yang didalamnya terdapat atribut dan record yang datanya sendiri diambil dari history data yang pernah terjadi sebelumnya kemudian dikelompokan kedalam atribut-atribut tertentu.

2. Menentukan akar dari pohon. Data training digunakan untuk melatih algoritma agar menghasilkan suatu akar tertentu, penentuan akar tertinggi dihasilkan dari data yang telah diolah dan memiliki nilai gain yang tertinggi dari seluruh atribut yang diolah, sebelum kita menghitung gain kita akan menghitung entropy terlebih dahulu [23].

Langkah pertama yang harus dilakukan untuk membuat pohon keputusan adalah menentukan atribut mana yang akan menjadi simpul akar dan atribut yang akan menjadi simpul selanjutnya begitupun seterusnya hingga semua atribut yang berpengaruh terhitung seluruhnya. Secara heuristik atribut yang dipilih adalah atribut yang memiliki nilain simpul dengan ukuran purity tertinggi, ukuran purity dapat dihitung dengan menggunakan konsep Entropy. Entropy dapat dihitung jika sekumpulan objek diberikan label/output yang terdiri dari objek berlabel 1, 2 sampai n. Entropy dari objek dengan n kelas ini dapat dihitung dengan rumus berikut :

(33)

Entropy(S) =∑𝑛_𝑖=0− 𝑝𝑖 ∗ 𝑙𝑜𝑔₂ 𝑝𝑖 Keterangan :

S : himpunan (dataset) kasus n : banyaknya data

pi : probabilitas yang di dapat dari kelas dibagi total kasus

Setelah kita mendapatkan nilai entropy dari masing-masing atribut, langkah selanjutnya yaitu menghitung nilai dari information gain. Information gain adalah kriteria yang sering digunakan untuk menetukan akar utama dalam suatu pohon keputusan. Cara menghitung information gain adalah menghitung nilai dari output tiap atribut. Adapun rumus yang digunakan adalah sebagai berikut :

Gain(S,A) = Entropy(S) - ∑ |𝑆𝑖| |𝑆| 𝑛 𝑖=0 * Entropy(Si) Keterangan : S : Himpunan kasus A : Atribut

n : Jumlah partisi atribut A |Sὶ| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

Dari beberapa pengertian diatas maka dapat disimpulkan bahwa algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk suatu pohon keputusan yang memiliki aturan-aturan tertentu dan memiliki langkah-langkah yang harus dilalui untuk mencapai sebuah pohon keputusan yang sesuai dengan aturan yang telah terbentuk dari pengolahan data sebelumnya.

(34)

2.2.6 Algoritma Genetika

Algoritma genetika (GA) merupakan salah satu metode data mining yang efektif digunakan untuk pengenalan pola dan solusi masalah optimasi. Algoritma genetika biasa digunakan untuk proses optimasi dan pencarian pola yang menggunakan prinsip kerja seperti proses seleksi alam. Algoritma ini memiliki konsep menyerupai proses seleksi alam dimana yang terkuat akan menjadi pemenang, pemenang terbaik merupakan hasil yang optimal dari proses genetika yang disebut fitness. Tahap penyelesaian yang didapatkan dari algoritma ini dapat diimplementasikan pada populasi individu yang disebut kromosom. Nilai yang didipat dari setiap solusi dan setiap individu bergantung pada nilai kromosom dan dievaluasi oleh fungsi fitness [9]. Algoritma genetika sendiri memiliki sebuah aturan populasi masing- masing mewakili sebuah solusi untuk suatu masalah. Algoritma genetik muncul disaat yang tepat ketika suatu masalah tersebut memerlukan optimasi sehubungan dengan komputasi. Paradigma ini dapat diterapkan untuk memecahkan masalah pada data

mining. Tujuannya adalah untuk mengurangi error dalam pengklasifikasian tranning

set. Ide utama algoritama genetik adalah mengumpulkan populasi yang merupakan solusi untuk suatu masalah, dan mencoba untuk menghasilkan solusi yang lebih baik dari sebelumnya. Algoritma genetika beoperasi melalui siklus sederhana yang terdiri dari empat tahapan sebagai berikut: insialisasi, seleksi, crossover dan mutasi [29].

Setiap satu iterasi yang telah dilakukan dalam algoritma genetika disebut dengan generasi. Setiap generasi akan dievaluasi tingkat keberhasilannya menggunakan nilai solusinya terhadap masalah yang akan diselesaikan menggunakan sebuah nilai atau ukuran yang disebut dengan fitness. Dalam melakukan proses seleksi, kromosom atau individu yang dipilih adalah yang memiliki nilai fitness yang tinggi. Kromosom baru atau offspring dapat dibentuk dengan cara perkawinan silang antar kromosom dalam satu generasi. Proses ini biasa disebut dengan crossover. Jumlah kromosom dalam populasi yang mengalami perkawinan silang ditentukan dengan parameter yang disebut

(35)

gen dalam populasi yang mengalami mutasi ditentukan oleh parameter yang disebut

mutation rate. Setelah beberapa generasi terbentuk, kromosom akan bernilai konvergen

yang merupakan solusi terbaik untuk masalah yang akan diselesaikan[10].

Algoritma genetika memainkan peran penting dalam teknologi data mining, yang diputuskan berdasarkan adanya karakteristik dan keunggulan tersendiri,terutama dalam aspek berikut:

1. Algoritma genetika dapat menetapkan parameter yang langsung beroperasi untuk mengatur dataset, antrian, matrik, grafik dan struktur lainnya.

2. Memiliki kinerja pencarian yang lebih baik; mengurangi resiko solusi optimal parsial. Pada saat yang sama, algoritma genetika itu sendiri juga sangat mudah untuk bekerja secara parallel.

3. Mengunakan fungsi fitness untuk mengevaluasi data. 4. Algoritma genetika dapat memandu arah pencarian.

Algoritma genetika memiliki tiga operator genetik utama yaitu crossover (proses penukaran kromosom), mutasi (proses penggantian salah satu solusi untuk meningkatkan keragaman populasi), seleksi (penggunaan solusi dengan nilai fitness yang tinggi untuk lulus ke generasi berikutnya)[30].

2.3 Kerangka Pemikiran

Dalam suatu penelitian perlu adanya kerangka pemikiran yang digunakan sebagai landasan dan pedoman agar penelitian ini berjalan sesuai dengan yang telah direncanakan. Permasalahan pada penelitian ini adalah belum adanya metode yang dapat digunakan untuk memprediksi penyakit diabetes, kemudian dilakukan studi literatur yang berguna untuk mendapatkan referensi tentang permasalahan yang sedang diteliti. Metode yang digunakan pada penelitian ini adalah algoritma C4.5 dan juga algoritma genetika untuk dilakukan pengujian. Pengujian dari metode yang telah diterapkan menggunakan cara Confusion Matrix dan Kurva ROC. Untuk tool yang

(36)

digunakan untuk melakukan pengujian metode adalah aplikasi RapidMiner. Adapun kerangka pemikiran yang digunakan sebagai berikut :

MASALAH

Hasil yang didapatkan pada penelitian sebelumnya algoritma C4.5 lebih rendah dibanding Naive Bayes, maka perlu adanya peningkatan pada algoritma C4.5.

STUDI LITERATUR

Mencari referensi teori yang sesuai dengan permasalahan yang akan dilakukan penelitian

PERCOBAAN

DATA METODE TOOL

Dataset Pima Indians Diabetes

Algoritma C4.5 dan

Algoritma Genetika RapidMiner

PENGUKURAN

Confusion Matrix dan Curva ROC

HASIL

teknik optimasi menggunakan algoritma genetika berhasil meningkatkan akurasi dari algoritma C4.5 dalam mendiagnosa penyakit diabetes melitus. Hasil akurasi dari algoritma C4.5 tanpa optimasi adalah sebesar 72,08% dan setelah dioptimasi

menggunakan algoritma genetika hasil akurasinya menjadi sebesar 84,42% atau naik sebesar 12,34% dari algoritma C4.5 tanpa optimasi.

(37)

24

BAB III

METODE PENELITIAN

3.1 Metode Penelitian

Pada penelitian ini, data yang digunakan adalah data penderita penyakit diabetes melitus. Data pasien ini akan diolah menggunakan beberapa metode data mining sehingga diperoleh metode yang dapat digunakan sebagai rules dalam memprediksi penyakit diabetes. Dalam penelitian ini akan dilakukan beberapa langkah-langkah atau tahapan penelitian seperti yang terlihat pada Gambar 3.1.

(38)

1. Pengumpulan Data

Pada bagian ini dijelaskan tentang bagaimana dan dari mana data dalam penelitian ini didapatkan, meliputi data sekunder dan data primer. Data sekunder berisi tentang sumber perolehan data untuk keperluan penelitian, sedangkan data primer berisi tentang data yang dihasilkan dari penelitian.

2. Pengolahan Awal Data

Pada bagian ini dijelaskan tentang tahap awal data mining. Pengolahan awal data meliputi proses input data ke format yang dibutuhkan, pengelompokan dan penentuan atribut data.

3. Metode yang Diusulkan

Pada bagian ini dijelaskan tentang metode yang diusulkan untuk digunakan pada prediksi penyakit diabetes. Penjelasan meliputi pengaturan dan pemilihan dari atribut-atribut yang digunakan sebagai parameter dan arsitektur melalui uji coba. 4. Eksperimen dan Pengujian Metode

Pada bagian ini dijelaskan tentang langkah-langkah eksperimen meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat.

5. Evaluasi dan Validasi Hasil

Pada bagian ini dijelaskan tentang evaluasi dan validasi hasil penerapan metode pada penelitian yang dilakukan. Penjelasan mengenai hal ini akan dipaparkan pada BAB IV.

3.2 Metode Pengumpulan Data

Dalam metode pengumpulan data terdapat 2 metode yaitu pengumpulan data primer dan sekunder. Data primer adalah data yang didapat langsung dari sumbernya sedangkan data sekunder adalah data yang diperoleh secara tidak langsung dari sumbernya [31]. Pada penelitian ini peneliti menggunakan data sekunder karena dataset

(39)

yang diperoleh dari pihak lain yaitu Kaggle. Berikut adalah dataset yang diambil dari Kaggle seperti pada Tabel 3.1

Tabel 3. 1 Dataset Pima Indians Diabetes

kehamilan glukosa tekanan_darah ketebalan_kulit insulin BMI keturunan umur diagnosa

6 148 72 35 0 33,6 0,627 50 1 1 85 66 29 0 26,6 0,351 31 0 8 183 64 0 23,3 0,672 32 1 1 89 66 23 94 28,1 0,167 21 0 0 137 40 35 168 43,1 1,423 33 1 5 116 74 0 25,6 0,201 30 0 3 78 50 32 88 31 0,248 26 1 10 115 0 35,3 0,134 29 0 2 197 70 45 543 30,5 0,158 53 1 8 125 96 0 0,232 54 1 4 110 92 0 37,6 0,191 30 0 ... ... ... ... ... ... ... ... ...

3.3 Pengelolahan Data Awal

Pada data pasien penderita diabetes sebelum diolah maka harus dilakukan data

cleaning terlebih dahulu, yaitu melihat apakah ada yang missing value, data hilang dan

lain sebagainya. Dari Tabel 3.1 atribut kehamilan ada yang memiliki nilai 0, yang artinya kemungkinan pasien belum pernah hamil atau berjenis kelamin laki-laki. Namun pada atribut tekanan darah, glukosa dan ketebalan ada atribut yang bernilai 0.

(40)

Karena tidak mungkin seseorang memiliki glukosa dan tekanan darah 0 maka nilai 0 pada atribut ini dianggap missing value yang selanjutnya akan ditangani menggunakan aplikasi RapidMiner mengambil nilai rata-rata setiap atribut.

Tabel 3. 2 Atribut yang digunakan

No Atribut Tipe Data Keterangan

1 Kehamilan Integer -

2 Glukosa Numeric -

3 Tekanan Darah Numeric -

4 Ketebalan Kulit Numeric -

5 Insulin Numeric -

6 Body Mass Index Numeric -

7 Keturunan Numeric -

8 Umur Integer -

9 Diagnosa Binominal 0 = Negatif & 1 = Positif

Data yang sudah disiapkan untuk klasifikasi dibagi menjadi dua untuk data

training (80%) dan data testing (20%). Pembagian data menjadi data training dan data testing menggunakan tools Split Validation. Split Validation adalah teknik validasi

yang membagi data menjadi dua bagian secara acak, sebagian sebagai data training dan sebagian lainnya sebagai data testing. Dengan menggunakan split validation akan dilakukan percobaan training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk kemudian sisa dari split ratio data training akan dianggap sebagai

data testing. Data training adalah data yang akan dipakai dalam melakukan

pembelajaran sedangkan data testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau keakurasian hasil pembelajaran [32]. Berikut adalah ilustrasi split validation :

(41)

Gambar 3. 2 Ilustrasi Split Validation

1. Choosing the appropriate Data Mining task

Pada tahap ini memilih jenis data mining yang digunakan. Pada penelitian untuk prediksi penyakit diabetes maka dipilih jenis data mining yang akan digunakan adalah klasifikasi.

2. Choosing the Data Mining Algorithm

Setelah pemilihan jenis data mining yang akan digunakan yaitu klasifikasi, maka selanjutnya menentukan algoritma klasifikasi yang akan digunakan yaitu Algoritma C4.5 setelah itu dioptimasi menggunakan algoritma genetika.

3. Employing the Data Mining Algorithm

Tahap ini dilakukan untuk pengolahan data dengan algoritma yang telah dipilih untuk mendapatkan algoritma terbaik dengan tingkat akurasi yang tinggi dalam klasifikasi prediksi penyakit diabetes melitus.

(42)

4. Evaluation

Dalam tahap ini dilakukan evaluasi dan menafsirkan pola yang didapatkan dari hasil algoritma yang dipakai untuk mengetahui aturan, kehandalan, dan lain-lain. Evaluasi dilakukan dengan menerapkan pola yang didapat dari proses sebelumnya terhadap data testing yang disediakan. Evaluasi dilakukan dengan

confusion matrix dan kurva ROC. Hasil dari confusion matrix akan digunakan

untuk menampilkan hasil Accuracy, Precision, dan Recall. Accuracy merupakan presentase antara nilai prediksi dengan nilai sebenarnya yang ada.Recall merupakan kinerja keberhasilan algoritma yang digunakan. Precision merupakan nilai akurasi dengan class yang telah diprediksi. Dan kurva ROC digunakan untuk menghasilkan nilai Area Under Curve (AUC) [33]. Berikut adalah tabel confusion

matrix:

Tabel 3. 3 Model Confusion Matrix

Confusion Matrix Nilai Prediksi

Positif Negatif Nilai Sebenarnya Positif (a) TP (b) FP Negatif (c) FN (d) TN Keterangan :

a : jika nilai prediksi positif dan kelas sebenarnya positif b : jika nilai prediksi negatif dan kelas sebenarnya positif c : jika nilai prediksi positif dan kelas sebenarnya negatif d : jika nilai prediksi negatif dan kelas sebenarnya negatif Berikut adalah rumus untuk menghitung Accuracy :

Accuracy = a+d 𝑎+𝑏+𝑐+𝑑

(43)

Berikut adalah rumus untuk menghitung Recall :

Recall = a 𝑎+𝑐

Berikut adalah rumus untuk menghitung Precision :

Precision = a 𝑎+𝑏

Keakurasian nilai AUC dapat dikategorikan menjadi 5 kategori antara lain :

a. Akurasi bernilai 0,90 - 1,00 = Excellent Classification

b. Akurasi bernilai 0,80 - 0,90 = Good Classification c. Akurasi bernilai 0,70 - 0,80 = Fair Classification d. Akurasi bernilai 0,60 - 0,70 = Poor Classification e. Akurasi bernilai 0,50 - 0,60 = Failure Classification 5. Using the discovered knowledge

Pada tahap ini menggunakan pengetahuan yang diperoleh dari proses data

mining untuk penerapan pada aplikasi atau lainnya. Pengetahuan klasifikasi

penyakit diabetes diterapkan pada data baru untuk membuat klasifikasi pasien yang terdiagnosis.

3.4 Metode Yang Diusulkan

Dalam penelitian ini akan dilakukan analisa menggunakan metode algoritma C4.5 dan Optimasi GA. Data dihitung dengan menggunakan algoritma sesuai dengan metodenya kemudian dibandingkan metode optimasi GA dengan melihat perbandingan tertinggi. Dalam tahapan ini akan dilakukan beberapa langkah pengujian data yaitu seperti berikut:

(44)

Gambar 3. 3 Metode Usulan

Dari kerangkat Gambar 3.3 kita akan dapat mengetahui hasil yang didapatkan oleh algoritma C4.5 kemudian pada hasil tersebut ditambahkan algoritma genetika sebagai optimasi yang digunakan untuk meningkatkan hasil dari algoritma C4.5. Pada tahap akhir hasil dari keduanya akan dibandingkan sehingga akan diketahui seberapa efektif optimasi algoritma genetika pada penyakit diabetes.

(45)

32

BAB IV

HASIL PENGUJIAN DAN PEMBAHASAN

4.1 Hasil Pengujian

Sebuah penelitian tentunya tidak dapat terlepas dengan pengujian untuk mengetahui hasil dari suatu proses penelitian. Berikut adalah beberapa hasil pengujian yang telah dilakukan :

4.1.1 Pengujian Decision Tree

Tahapan awal yang dilakukan dalam penelitian ini yaitu mempersiapkan data yang telah diperoleh dari kaggle.com. Data yang diambil adalah dataset pima indians diabetes yang merupakan data pasien penderita diabetes berjumlah 768 data dan memiliki 9 atribut.

Tabel 4. 1 Data Awal

kehamilan glukosa tekanan_darah ketebalan_kulit insulin BMI keturunan umur diagnosa

6 148 72 35 0 33,6 0,627 50 1 1 85 66 29 0 26,6 0,351 31 0 8 183 64 0 23,3 0,672 32 1 1 89 66 23 94 28,1 0,167 21 0 0 137 40 35 168 43,1 1,423 33 1 5 116 74 0 25,6 0,201 30 0 3 78 50 32 88 31 0,248 26 1 ... ... ... ... ... ... ... ... ...

(46)

Dari Tabel 4.1 dapat dikatakan bahwa ini adalah data awal yang harus dikelola terlebih dahulu karena peneliti menganggap ada data yang tidak sesuai sebelum diproses kedalam aplikasi RapidMiner. Data tersebut antara lain tekanan darah, ketebalan kulit, glukosa, dan body mass index yang bernilai 0 (nol), Maka akan dihapus atau dikosongkan agar nantinya akan diisi menggunakan nilai rata-rata dari masing-masing atribut menggunakan operator yang terdapat pada aplikasi RapidMiner.Setelah data preprocesing dianggap sudah cukup maka tahap selanjutnya adalah pengujian pada aplikasi RapidMiner. Pengujian ini menggunakan Aplikasi RapidMiner 9.3. Adapun operators yang digunakan yaitu sebagai berikut :

Pertama peneliti menggunakan operators Read Excel yang digunakan untuk melakukan import dataset dengan cara pilih Import Configuration Wizard lalu pilih data yang akan dikelola dan pilih atribut diagnosa rolenya menjadi label, maka akan tampil hasil seperti berikut :

(47)

Dari Gambar 4.1 bisa dilihat bahwa data yang tadi kita kosongkan atau kita hapus menjadi tanda tanya (?). Hal ini akan mempengaruhi hasil dari penelitian jika dibiarkan, maka dari itu tahap selanjutnya adalah mengisi nilai yang memiliki nilai kosong atau tanda tanya (?).

Tahap kedua setelah kita berhasil memasukan data adalah memperbaiki nilai tanda tanya (?) dengan menggunakan nilai rata-rata setiap atribut. Peneliti menggunakan operator Replace Missing Value yang berguna untuk mengisi data yang masih kosong bisa menggunakan nilai minimum, maximum, average, ataupun dengan

zero. Semua atribut bernilai kosong itu bisa diedit pada menu Edit List yang terdapat

pada fitur Replace Missing Value atau bisa dilihat seperti gambar berikut :

(48)

Jika sudah membahkan operator Replace Missing Value dan pada menu Edit List sudah diatur, maka hasilkan akan seperti berikut :

Gambar 4. 3 Hasil Operator Replace Missing Value

Dari Gambar 4.3 dapat dilihat bahwa data yang awalnya kosong dan diisi dengan tanda tanya (?), sekarang diisi dengan nilai rata-rata dari masing-masing atribut seperti pada atribut tekanan darah pada baris ke 8 yang awalnya datanya kosong kini diisi dengan nilai 72 yang merupakan nilai rata-rata dari atribut tekanan darah begitupun pada atribut ketebalan kulit data yang awalnya kosong kini seluruhnya diisi dengan nilai 29 yang merupakan nilai rata-rata dari atribut ketebalan kulit.

Tahap ketiga jika dataset dianggap sudah layak dan tidak ada data yang kosong atau tidak relevan maka selanjutnya peneliti menggunakan operator Select Attributes yang digunakan untuk memilih atribut apa saja yang akan digunakan dan atribut apa saja yang tidak akan digunakan. Pada menu operator Select Attributes atur attribut filter

(49)

Gambar 4. 4 Select Attributes

Dari Gambar 4.4 dapat dilihat bahwa seluruh atribut dari dataset yang telah dimasukkan ada pada menu select attributes. Jika kita ingin menggunakan atribut yang akan digunakan maka harus dipindahkan ke kolom sebelah kanan dan jika tidak ingin digunakan maka harus dipindahkan ke kolom sebelah kiri.

Tahap keempat setelah kita memilih atribut mana saja yang akan digunakan adalah menggunakan operator Split Validation. Operator Split Validation disini berguna untuk membagi data menjadi 2 bagian berdasarkan split ratio yang telah ditentukan sebelumnya, split ratio yang telah dipilih akan digunakan sebagai data

training dan sisanya akan digunakan sebagai data testing. Pada parameters Split Validation pilih split ratio 0.8 karena peneliti ingin datanya dibagi menjadi 80% untuk data training dan 20% untuk data testing. Namun jika diklik 2 kali maka split

(50)

validation akan memiliki dua bagian yaitu Training dan Testing, atau bisa dilihat

seperti gambar berikut :

Gambar 4. 5 Split Validation

Dari Gambar 4.5 dapat dilihat pada bagian Training digunakan untuk algoritma klasifikasi Decision Tree dan pada bagian Testing menggunakan operator

Apply Model untuk mengaplikasikan model pada data testing dan operator Performance yang digunakan untuk menampilkan accuracy.

Tahap kelima yaitu mengghubungkan seluruh operator yang akan digunakan atau bisa dilihat seperti gambar berikut :

Gambar 4. 6 Model Pengujian Decision Tree

Dari proses yang telah dijalankan dalam Gambae 4.6 maka didapatkan hasil sebagai berikut :

(51)

Gambar 4. 7 Pohon Keputusan

Dari Gambar 4.7 dapat dilihat bentuk dari pohon keputusan atau bisa dilihat deskripsinya sebagai berikut :

glukosa > 166.500 | tekanan_darah > 93 | | kehamilan > 7.500: 1 {1=2, 0=0} | | kehamilan ≤ 7.500 | | | glukosa > 186: 1 {1=1, 0=1} | | | glukosa ≤ 186: 0 {1=0, 0=2} | tekanan_darah ≤ 93: 1 {1=65, 0=8} glukosa ≤ 166.500 | kehamilan > 13.500: 1 {1=3, 0=0} | kehamilan ≤ 13.500 | | glukosa > 154.500 | | | insulin > 542.500: 0 {1=0, 0=2} | | | insulin ≤ 542.500 | | | | umur > 53.500 | | | | | kehamilan > 3.500: 0 {1=0, 0=3} | | | | | kehamilan ≤ 3.500: 1 {1=1, 0=1} | | | | umur ≤ 53.500 | | | | | umur > 24.500 | | | | | | kehamilan > 7.500: 1 {1=9, 0=0} | | | | | | kehamilan ≤ 7.500 | | | | | | | glukosa > 163.500 | | | | | | | | glukosa > 165.500: 1 {1=2, 0=0} | | | | | | | | glukosa ≤ 165.500: 0 {1=0, 0=3} | | | | | | | glukosa ≤ 163.500: 1 {1=16, 0=2} | | | | | umur ≤ 24.500: 0 {1=1, 0=2} | | glukosa ≤ 154.500 | | | glukosa > 77.500 | | | | umur > 28.500

| | | | | Body Mass Index > 47.800: 1 {1=4, 0=0} | | | | | Body Mass Index ≤ 47.800

(52)

| | | | | | insulin > 441: 1 {1=2, 0=0} | | | | | | insulin ≤ 441

| | | | | | | Body Mass Index > 26.350: 0 {1=113, 0=127}

| | | | | | | Body Mass Index ≤ 26.350

| | | | | | | | Body Mass Index > 9.650: 0 {1=1, 0=45} | | | | | | | | Body Mass Index ≤ 9.650: 1 {1=2, 0=1}

| | | | umur ≤ 28.500

| | | | | | Body Mass Index > 47.700: 1 {1=2, 0=0} | | | | | | Body Mass Index ≤ 47.700: 0 {1=21, 0=41} | | | | | glukosa ≤ 127.500

| | | | | | Body Mass Index > 45.400: 1 {1=3, 0=1} | | | | | | Body Mass Index ≤ 45.400

| | | | | | | Body Mass Index > 30.950

| | | | | | | | Body Mass Index > 31.100: 0 {1=17, 0=94}

| | | | | | | | Body Mass Index ≤ 31.100: 1 {1=1, 0=1}

| | | | | | | Body Mass Index ≤ 30.950: 0 {1=2, 0=137} | | | glukosa ≤ 77.500: 0 {1=0, 0=29}

Deskripsi diatas menunjukan aturan-aturan yang berlaku untuk digunakan sebagai landasan memprediksi penyakit diabetes. Berikut adalah hasil accuracy, recall,

precision, dan nilai AUC.

Gambar 4. 8 Hasil Accuracy Decision Tree

Dari Gambar 4.8 maka dapat dilihat bahwa nilai accuracy yang didapat dari pengujian algoritma Decision Tree C4.5 yaitu sebesar 72,08%.

(53)

Dari Gambar 4.9 maka dapat dilihat bahwa nilai precision yang didapat dari pengujian algoritma Decision Tree C4.5 yaitu sebesar 70,80%.

Gambar 4. 10 Hasil Recall Decision Tree

Dari Gambar 4.10 maka dapat dilihat bahwa nilai recall yang didapat dari pengujian algoritma Decision Tree C4.5 yaitu sebesar 97.00%.