• Tidak ada hasil yang ditemukan

PERBANDINGAN ALGORITMA DECISION TREE C4.5 DAN K-NEAREST NEIGHBOR (K-NN) DALAM MENDIAGNOSA PENYAKIT LIVER SKRIPSI

N/A
N/A
Protected

Academic year: 2022

Membagikan "PERBANDINGAN ALGORITMA DECISION TREE C4.5 DAN K-NEAREST NEIGHBOR (K-NN) DALAM MENDIAGNOSA PENYAKIT LIVER SKRIPSI"

Copied!
121
0
0

Teks penuh

(1)

SKRIPSI

Oleh :

ADIMAS ANGGARA 311410015

PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018

(2)

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan Program Strata Satu (S1) pada Program Studi Teknik Informatika

Oleh :

ADIMAS ANGGARA 311410015

PROGRAM STUDI TEKNIK INFORMATIKA SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018

(3)

i

PERSETUJUAN

SKRIPSI

Perbandingan Algoritma Decision Tree C4.5 Dan K-Nearest Neighbor (K-NN) Dalam Mendiagnosa Penyakit Liver.

Yang disusun Oleh :

Adimas Anggara 311410015

Telah disetujui oleh Dosen Pembimbing Penelitian, Pada Tanggal, 2 November 2018

Dosen Pembimbing I, Dosen Pembimbing II,

Candra Naya, S.Kom., M.Kom. Giri Nurpribadi, S.TP., M.M.

NIDN : 0415107904 NIDN : 0413086804

Mengetahui,

Ketua Prodi Studi Teknik Informatika,

Aswan S. Sunge, S.E., M.Kom.

NIDN : 0426018003

(4)

ii

PENGESAHAN

SKRIPSI

Perbandingan Algoritma Decision Tree C4.5 Dan K-Nearest Neighbor (K-NN) Dalam Mendiagnosa Penyakit Liver

Diajukan sebagai syarat memperoleh gelar Sarjana Teknik Informatika Yang disusun Oleh :

Adimas Anggara 311410015

Dosen Penguji I, Dosen Penguji II,

M. Fatchan,S.Kom.,M.Kom. Tyas Ismi Trialfhianty, S.Pi., M.Sc.

NIDN : 0403107605 NIDN :

Dosen Pembimbing I, Dosen Pembimbing II,

Candra Naya, S.Kom., M.Kom. Giri Nurpribadi, S.TP., M.M.

NIDN : 0415107904 NIDN : 0413086804 Menyetujui,

Kaprodi Teknik Informatika

Aswan S. Sunge, S.E., M.Kom.

NIDN: 0426018003 Mengetahui, Ketua STT Pelita Bangsa

Dr. Ir. Supriyanto, M.P NIDN: 0401066605

(5)

iii

SURAT PERNYATAAN KEASLIAN TUGAS AKHIR

Yang bertanda tangan dibawah ini :

Nama : Adimas Anggara

NIM : 311410015

Perguruan Tinggi : Sekolah Tinggi Teknologi Pelita Bangsa

Alamat Kampus : Jalan Inspeksi Kalimalang – Tegal Danas, Cikarang Pusat Kab. Bekasi.

Alamat Rumah : Perum. Villa Mutiara Cikarang Blok D2 No. 35, Kec.

Cikarang Selatan, Kab. Bekasi.

Dengan ini menyatakan bahwa tugas akhir yang telah saya buat dengan judul :

“Perbandingan Algoritma Decision Tree C4.5 Dan K-Nearest Neighbor (K-NN) Dalam Mendiagnosa Penyakit Liver” adalah benar hasil karya saya sendiri.

Demikian surat pernyataan ini saya buat dengan sebenar-benarnya tanpa ada paksaan dari pihak manapun juga. Apabila dikemudian hari ternyata saya memberikan keterangan palsu dan pihak lain mengklaim bahwa tugas akhir yang saya buat adalah hasil karya seseorang saya bersedia diproses sesuai perundang – undangan yang berlaku.

Bekasi, 6 November 2018

Adimas Anggara NIM : 311410015

(6)

iv

KATA PENGANTAR

Alhamdulillah, segala puji dan syukur kepada Tuhan Yang Maha Esa yang telah melimpahkan berkat dan anugerah-Nya, sehingga penulis dapat menyelesaikan Skripsi ini dengan judul “Perbandingan Algoritma Decision Tree C4.5 Dan K-Nearest Neighbor (K-NN) Dalam Mendiagnosa Penyakit Liver”,

Skripsi ini disusun sebagai syarat untuk memperoleh gelar pada Program Sarjana di SEKOLAH TINGGI TEKNOLOGI (STT) PELITA BANGSA.

Dalam penyusunan Skripsi ini, penulis menyadari banyak sekali pihak yang memberikan bantuan, bimbingan dan petunjuk, baik langsung maupun tidak langsung. Oleh karena itu, penulis mengucapkan banyak terima kasih dan memberikan penghargaan yang tinggi kepada:

1. Allah Subhanahu Wata‘alaa yang selalu melimpahkan rahmat-Nya kepada penulis dalam setiap langkah pembuatan Skripsi.

2. Kedua orang tua dan saudara-saudaraku, yang selalu memberikan dukungan, baik materi ataupun non-materi. Serta bimbingan, kesabaran, ketabahan, dan kebijakan dalam mendidik.

3. Bapak Dr. Ir. Supriyanto, M.P selaku Ketua STT Pelita Bangsa.

4. Bapak Aswan S. Sunge, S.E., M.Kom. selaku Ketua Program Studi Teknik Informatika.

5. Bapak Candra Naya, S.Kom., M.Kom. Selaku Dosen Pembimbing 1 yang telah meluangkan waktu, tenaga, dan pikirannya dalam mengarahkan dan

(7)

v

membimbing penulis dengan penuh kesabaran sampai terselesaikannya penyusunan skripsi ini.

6. Bapak Giri Nurpribadi, S.TP., M.M. Selaku Dosen Pembimbing 2 yang telah meluangkan waktu, tenaga, dan pikirannya dalam mengarahkan dan membimbing penulis dengan penuh kesabaran sampai terselesaikannya penyusunan skripsi ini.

7. Rekan-rekan Mahasiswa Teknik Informatika TI.14.C.1 Angkatan 2014 yang selalu kompak dan telah banyak memberikan inspirasi serta semangat kepada peneliti untuk dapat menyelesaikan studi jenjang Strata 1.

8. Semua pihak yang tidak dapat peneliti sebut satu persatu, yang telah memberikan bantuan moral dan spiritual, atas keikhlasannya peneliti ucapkan terima kasih.

Semoga Tuhan memberikan balasan yang berlipat, atas segala kebaikan yang telah mereka berikan kepada penulis. Akhir kata, Penulis mengharapkan kritik dan saran yang membangun untuk tugas akhir ini, dan semoga tugas akhir ini dapat berguna bagi semua orang yang membacanya.

Bekasi, 6 November 2018

Adimas Anggara (Penulis)

(8)

vi

DAFTAR ISI

LEMBAR PERSETUJUAN ... i

LEMBAR PENGESAHAN ... ii

KATA PENGANTAR ... iv

DAFTAR ISI ... vi

DAFTAR TABEL... x

DAFTAR GAMBAR ... xii

ABSTRACT ... xiv

ABSTRAK ... xv

BAB I ... 1

PENDAHULUAN ... 1

1.1 Latar Belakang... 1

1.2 Identifikasi Masalah ... 2

1.3 Rumusan Masalah ... 3

1.4 Batasan Masalah ... 3

1.5 Tujuan dan Manfaat ... 4

1.5.1 Tujuan Penelitian ... 4

1.5.2 Manfaat Penelitian ... 4

(9)

vii

1.6 Sistematika Penulisan ... 5

BAB II ... 6

TINJAUAN PUSTAKA ... 6

2.1 Landasan Teori ... 6

2.2 Dasar Teori ... 9

2.1.1 Penyakit Liver ... 9

2.1.2 Pengertian Data Mining... 12

2.1.3 Tahap - Tahap Data Mining ... 13

2.1.4 Pengelompokan Data Mining ... 15

2.1.5 Pengertian Algoritma Decision Tree C4.5 ... 18

2.1.6 Keuntungan Algoritma Decision Tree C4.5... 18

2.1.7 Kekurangan Algoritma Decision Tree C4.5... 19

2.1.8 Tahapan Pada Algoritma Decision Tree C4.5... 20

2.1.9 Pengertian Algoritma K-Nearest Neighbor (K-NN) ... 21

2.1.10 Kelebihan Algoritma K-Nearest Neighbor (K-NN) ... 22

2.1.11 Kekurangan Algoritma K-Nearest Neighbor (K-NN)... 22

2.1.12 Tahapan pada Algoritma K-Nearest Neighbor (K-NN) ... 23

2.3 Kerangka Pemikiran ... 25

BAB III ... 26

METODE PENELITIAN ... 26

(10)

viii

3.1 Objek Penelitian ... 26

3.2 Tahapan Penelitian ... 26

3.2.1 Pengumpulan Data ... 27

3.2.2 Pengolahan Data Awal ... 28

3.2.3 Penentuan Metode ... 36

3.2.4 Pengujian Metode... 37

3.2.5 Evaluasi dan Validasi Hasil ... 37

3.3 Komponen Pendukung ... 38

3.4 Waktu Penelitian ... 38

BAB IV ... 40

HASIL DAN PEMBAHASAN ... 40

4.1 Hasil Penelitian ... 40

4.1.1 Perhitungan Jumlah Kasus Data Keseluruhan, Data Training, dan Data Testing ... 40

4.1.2 Pemodelan Menggunakan Algoritma Decision Tree C4.5 ... 44

4.1.3 Pemodelan Menggunakan Algoritma K-Nearest Neighbor ... 61

4.1.4 Pengujian Hasil Menggunakan Aplikasi RapidMiner... 67

4.1.4.1 Pengujian 1 ... 68

4.1.4.2 Pengujian 2 ... 72

4.2 Pembahasan ... 74

(11)

ix

BAB V ... 76

KESIMPULAN ... 76

5.1 Kesimpulan ... 76

5.2 Saran ... 77

DAFTAR PUSTAKA ... 78

LAMPIRAN ... 80

(12)

x

DAFTAR TABEL

Tabel 3.1 Dataset ILPD (Indian Liver Patient Dataset) ... 28

Tabel 3.2 Atribut yang digunakan ... 29

Tabel 3.3 Atribut Missing Values... 31

Tabel 3.4 Data Transformation ... 32

Tabel 3.4 Data Testing ... 33

Tabel 3.5 Data Training ... 34

Tabel 3.6 Confusion Table ... 37

Tabel 3.7 Waktu Penelitian ... 39

Tabel 4.1 Jumlah Kasus Nilai Atribut Keseluruhan... 40

Tabel 4.2 Jumlah Kasus Nilai Atribut Data Training ... 41

Tabel 4.3 Jumlah Kasus Nilai Atribut Data Testing ... 43

Tabel 4.4 Pehitungan Node 1 ... 45

Tabel 4.5 Pehitungan Node 1.1 ... 48

Tabel 4.6 Pehitungan Node 1.2 ... 50

Tabel 4.7 Pehitungan Node 1.3 ... 52

Tabel 4.8 Pehitungan Node 1.3.1 ... 54

Tabel 4.9 Pehitungan Node 1.3.2 ... 55

Tabel 4.10 Pehitungan Node 1.3.2.1 ... 57

Tabel 4.11 Pehitungan Node 1.3.2.1.1 ... 59

(13)

xi

Tabel 4.12 Pembobotan Nilai Atribut ... 61

Tabel 4.13 Data Training ... 62

Tabel 4.13 Data Testing ... 63

Tabel 4.14 Pehitungan Data 1 ... 64

Tabel 4.15 Pengurutan Jarak Terdekat ... 66

Tabel 4.16 Penghitungan Seluruh Data Uji... 66

Tabel 4.17 Rule Hasil Pohon Keputusan RapidMiner ... 70

Tabel 4.18 Hasil Penelitian ... 74

(14)

xii

DAFTAR GAMBAR

Gambar 2.1 Diagram Hasil Akurasi Penelitian Terdahulu ... 8

Gambar 2.2 Fungsi Hati Pada Manusia... 9

Gambar 2.3 Tahap - Tahap Data Mining ... 13

Gambar 2.4 Tahapan Algoritma K-Nearest Neighbor ... 23

Gambar 2.5 Kerangka Berfikir ... 25

Gambar 3.1 Tahapan Penelitian ... 27

Gambar 3.1 Proses Split Data ... 33

Gambar 4.1 Pohon keputusan Node 1 ... 48

Gambar 4.2 Pohon keputusan Node 1.1 ... 50

Gambar 4.3 Pohon keputusan Node 1.2 ... 52

Gambar 4.4 Pohon keputusan Node 1.3 ... 53

Gambar 4.5 Pohon keputusan Node 1.3.1 dan 1.3.2 ... 56

Gambar 4.6 Pohon keputusan Node 1.3.2.1 ... 58

Gambar 4.7 Pohon keputusan Node 1.3.2.1.2 ... 60

Gambar 4.8 Model Pengujian 1 dengan Decision Tree C4.5 ... 68

Gambar 4.9 Hasil Import Data Training ... 68

Gambar 4.10 Hasil Pohon Keputusan RapidMiner ... 69

Gambar 4.11 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix ... 71

Gambar 4.12 Model Pengujian 2 dengan K-Nearest Neighbor ... 72

(15)

xiii

Gambar 4.13 Hasil Import Data Training ... 72 Gambar 4.14 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix ... 73

(16)

xiv ABSTRACT

Liver disease is inflammation of the liver caused by infection with hepatitis viruses, bacteria or toxic substances so that the liver cannot perform its function properly. Errors in diagnosing diseases can cause things that are harmful to patients' health and can even cause death, therefore a method is needed to facilitate the diagnosis of disease. One of them is with the field of data mining with classification techniques. Classification is a method used to predict new data target variables based on existing data. In conducting classification, the Decision Tree C4.5 and K-Nearest Neighbor algorithms have been widely used to solve data classification problems. Therefore it is necessary to compare which algorithms are better at diagnosing liver disease. The object of the research used is the Indian Liver Patient Dataset dataset contained in the UCI Machine Learning Repository and has 10 attributes and 1 target attribute with 2 values, namely patients or non- patients. The algorithm that will be compared is the Decision Tree C4.5 and K- Nearest Neighbor algorithm. The results of this study indicate the similarity of values between the two algorithms with an accuracy value of 82.91%.

Keywords: Liver, Classification, Decision Tree C4.5, K-Nearest Neighbor

(17)

xv ABSTRAK

Penyakit Liver merupakan peradangan hati yang disebabkan oleh inveksi virus hepatitis, bakteri atau bahan – bahan beracun sehingga hati tidak dapat melakukan fungsinya dengan baik. Kesalahan dalam mendiagnosa penyakit dapat menyebabkan hal yang membahayakan bagi kesehatan pasein bahkan dapat menyebabkan kematian, oleh karena itu maka diperlukan suatu metode untuk mempermudah dalam melakukan diagnosa penyakit. Salah satunya adalah dengan bidang ilmu data mining dengan teknik klasifikasi. Klasifikasi merupakan suatu metode yang digunakan untuk memprediksi variabel target data baru berdasarkan data yang sudah ada. Didalam melakukan klasifikasi, algoritma Decision Tree C4.5 dan K-Nearest Neighbor sudah banyak digunakan untuk menyelesaikan masalah klasifikasi data. Oleh karena itu perlu dilakukan perbandingan algoritma mana yang lebih baik dalam melakukan diagnosa penyakit liver. Objek penelitian yang digunakan adalah dataset Indian Liver Patient Dataset yang terdapat pada UCI Machine Learning Repository dan memiliki 10 atribut dan 1 atribut target dengan 2 nilai yaitu pasein atau non pasein. Algoritma yang akan dilakukan perbandingan adalah algoritma Decision Tree C4.5 dan K-Nearest Neighbor. Hasil dari penelitian ini menunjukkan kesamaan nilai antara 2 algoritma tersebut dengan nilai akurasi sebesar 82,91%.

Kata kunci : Liver, Klasifikasi, Decision Tree C4.5, K-Nearest Neighbor

(18)

1 BAB I

PENDAHULUAN

1.1 Latar Belakang

Seiring dengan terus berkembangnya dunia Teknologi dan Informasi, semakin meningkat juga kebutuhan kita akan suatu informasi dari berbagai aspek, baik dalam bidang pendidikan atau bidang kesehatan. namun dalam suatu informasi tersebut sangat dibutuhkan keakuratan data dalam sebuah informasi tersebut. Untuk mendapat informasi yang akurat kita dapat melakukan pengolahan data dalam jumlah besar untuk mendapatkan sebuah pengetahuan baru yang biasa disebut data mining. Data mining merupakan salah satu ilmu komputer yang melibatkan beberapa proses komputasi, teknik statistik, clustering, klasifikasi dan menemukan pola yang terdapat pada dataset. Tujuan utama data mining digunakan untuk mengekstrak informasi dari dataset yang besar dengan mengubah menjadi format yang dapat dimengerti serta dipahami untuk penggunaan masa depan. (Veena &

Ravikumar, 2014).

Data Mining juga dapat digunakan untuk memprediksi suatu penyakit seperti penyakit Liver. Penyakit Liver sendiri merupakan peradangan hati yang disebabkan oleh inveksi virus hepatitis, bakteri atau bahan – bahan beracun sehingga hati tidak dapat melakukan fungsinya dengan baik. Dalam bidang kesehatan, dalam mendiagnosa penyakit yang dialami pasein adalah tanggung jawab yang paling berat untuk diemban oleh ahli kesehatan. Kesalahan dalam mendiagnosa penyakit

(19)

dapat menyebabkan hal yang membahayakan bagi kesehatan pasein bahkan dapat menyebabkan kematian (Neshat, Sargolzaei, Nadjaran Toosi, & Masoumi, 2012).

Seiring dengan berkembangnya teknologi informasi pada saat ini, tuntutan akan adanya pengetahuan berbasis komputer sebagai teknik analisis dalam mendiagnosa suatu penyakit menjadi semakin penting untuk menggantikan teknik analisis konvensional secara manual yang selama ini digunakan. Oleh karenanya, saat inilah waktu yang tepat untuk mengembangkan sistem pengetahuan berbasis komputer untuk meningkatkan efektivitas dan efisiensi dalam mendiagnosa penyakit. Beberapa penelitian telah dilakukan dengan menggunakan berbagai algortima diantaranya, Naive Bayes, Decision Tree C4.5, K-Nearest Neighbor, Neural Network, Support Vector Machine dan QUEST.

Dari beberapa hasil penelitian yang telah dilakukan, disini penulis akan mengambil 2 algoritma yang akan dibandingkan tingkat akurasinya dalam mendiagnosa penyakit Liver dengan menggunakan data pasein yang bersumber dari alamat web : http://archive.ics.uci.edu/ml/. Algoritma yang akan dipakai adalah algoritma Decision Tree C4.5 dan K-Nearest Neighbor.

1.2 Identifikasi Masalah

Berdasarkan hasil penelitian dan pengamatan penulis, maka diperlukan peningkatan akurasi prediksi pada penggunaan algoritma data mining. Maka dari itu penulis mencoba untuk mengidentifikasi masalah sebagai berikut :

1. Diperlukan pengolahan data lebih lanjut untuk mendapatkan suatu informasi yang akurat.

(20)

2. Tuntutan penggunaan komputer sebagai teknik analisis untuk mendiagnosa penyakit liver.

3. Kesalahan prediksi dalam mendiagnosa penyakit liver dapat membahayakan kesehatan pasein.

4. Sudah banyak penelitian dalam mendiagnosa penyakit liver menggunakan berbagai algoritma data mining.

1.3 Rumusan Masalah

Dalam proses mendiagnosa suatu penyakit membutuhkan waktu yang panjang untuk mengetahui hasilnya secara tepat dan akurat. Data mining diharapkan dapat membantu mempercepat proses dalam mendiagnosa suatu penyakit secara tepat dan akurat. Untuk itu penulis merumuskan beberapa pertanyaan riset, yaitu :

1. Bagaimana perbandingan nilai akurasi dari algoritma Decision Tree C4.5 dan K-Nearest Neighbor dalam memprediksi penyakit liver?

2. Bagaimana meningkatkan akurasi sebuah algoritma data mining?

3. Apakah algoritma dalam data mining sudah bisa digunakan untuk memprediksi penyakit liver ?

1.4 Batasan Masalah

Batasan masalah yang akan penulis bahas yaitu, membandingkan tingkat akurasi algoritma Decision Tree C4.5 dan K-Nearest Neighbor (K-NN) dalam memprediksi penyakit liver pada aplikasi Rapidminer.

(21)

1.5 Tujuan dan Manfaat

Penulisan ini mempunyai beberapa tujuan dan manfaat antara lain sebagai berikut :

1.5.1 Tujuan Penelitian

Adapun tujuan penulisan tugas akhir ini adalah sebagai berikut :

1. Untuk mengetahui perbandingan nilai akurasi dari algoritma Decision Tree C4.5 dan K-Nearest Neighbor.

2. Untuk meningkatkan nilai akurasi algoritma dalam data mining.

3. Untuk menerapkan algoritma dalam data mining sebagai alat untuk memprediksi suatu penyakit.

1.5.2 Manfaat Penelitian

Peneliti berharap bahwa hasil penelitian ini dapat memberikan kontribusi lebih yang dapat dirasakan oleh berbagai pihak, khususnya bagi penulis, umumnya bagi semua pihak yang terlibat dalam penulisan Tugas ini, antara lain:

1. Bagi Peneliti

Dapat menambah kemampuan peneliti mengenai analisis dan perancangan sistem yang pernah diajarkan oleh dosen di STT Pelita Bangsa dan dapat mengembangkan wawasan tentang algoritma dan metode -metode yang dapat digunakan dalam mengolah suatu data.

2. Bagi Institusi

Sebagai tambahan informasi dan sumber bagi pihak yang berkompeten terhadap permasalahan yang dibahas dan dapat juga memberikan kontribusi sumber lain.

(22)

3. Bagi Masyarakat

Dapat digunakan sebagai dasar dalam prediksi dini untuk mendiagnosa penyakit Liver .

1.6 Sistematika Penulisan

Penyusunan laporan Tugas Akhir ini menggunakan kerangka pembahasan yang terbentuk dalam susunan bab, dengan uraian sebagai berikut :

BAB 1 PENDAHULUAN

Pada bab ini berisi tentang latar belakang, identifikasi masalah, pembatasan masalah atau ruang lingkup, rumusan masalah, tujuan dan manfaat penelitian, metode penelitian, dan sistematika penulisan.

BAB 2 LANDASAN TEORI

Berisi kumpulan tinjauan pustaka, landasan teori dan kerangka pemikiran yang berhubungan dengan judul yang diambil oleh penulis.

BAB 3 METODE PENELITIAN

Pada bab ini diuraikan mengenai metode yang akan digunakan untuk menyelesaikan permasalahan.

BAB 4 HASIL DAN PEMBAHASAN

Menguraikan tentang hasil dari penelitian dalam menyelesaikan permasalahan yang ada.

BAB 5 PENUTUP

Bab ini berisi tentang kesimpulan dan saran dari hasil penyusunan laporan tugas akhir yang telah di susun.

(23)

6 BAB II

TINJAUAN PUSTAKA

2.1 Landasan Teori

Kajian pustaka berisi beberapa teori dan referensi yang penulis gunakan sebagai dasar untuk melakukan penelitian ini. Beriku beberapa penelitian terdahulu yang sudah pernah dilakukan. Penilitan pertama oleh (Rahmawati, 2015) dalam jurnalnya yang berjudul “Analisa Komparasi Algoritma Naive Bayes dan C4.5 Untuk Prediksi Penyakit Liver”. Pada penelitiannya, peneliti menggunakan algoritma Naive Bayes dan Decision Tree C4.5 untuk membandingkan tingkat akurasi dari kedua algoritma pada dataset Indian Liver Patient Dataset yang terdapat pada UCI Machine Learning Repository. Sebelum data diuji menggunakan kedua algoritma, peneliti melakukan preprocessing data dengan menggunakan replace missing value untuk menormalisasikan data. Hasil dari penelitian yang dilakukan menggunakan aplikasi KNAME menunjukkan bahwa algoritma Decision Tree C4.5 memiliki tingkat akurasi 72,845% dimana itu menghasilkan akurasi yang lebih baik dari algoritma Naive Bayes yang hanya memiliki tingkat akurasi 63,362%.

Penelitian kedua oleh (Erawati, 2015) dengan judul “Prediksi Penyakit Hati Dengan Menggunakan Model Algoritma Neural Network” dengan menggunakan algoritma Neural Network dan metode Ensemble dengan teknik Adaboost pada aplikasi RapidMiner. Dataset yang digunakan adalah Indian Liver Patient Dataset

(24)

yang terdapat pada UCI Machine Learning Repository. Peneliti juga menggunakan replace missing value untuk menormalisasikan data. Hasil dari penelitian menunjukkan tingkat akurasi algoritma Neural Network dan metode Ensemble dengan teknik Adaboost adalah 70,99%.

Penelitian ketiga dengan judul “Model Support Vector Machine Berbasis Particle Swarm Optimization Untuk Prediksi Penyakit Liver” dilakukan oleh (Nu’man & Rifai, 2018). Penelitian ini menggunakan dua model support vector machine dan support vector machine berbasiskan particle swarm optimization sebagai algoritma dan aplikasi RapidMiner. Dataset yang digunakan adalah Indian Liver Patient Dataset yang terdapat pada UCI Machine Learning Repository dan menggunakan replace missing value untuk menormalisasikan data pada dataset.

Hasil dari penelitian ini mendapatkan nilai akurasi masing – masing 71,36% untuk support vector machine dan 77,36% untuk support vector machine berbasiskan particle swarm optimization.

Pada tahun 2014 Muhammad Rosyid Abdurrahman, Dwi Ispriyanti, dan Alan Prahutama melakukan penelitian dengan judul “Pembentukan Pohon Klasifikasi Biner Dengan Algoritma Quest (Quick, Unbiased, And Efficient Statistical Tree) Pada Data Pasien Liver” (Muhammad Rosyid Abdurrahman, Dwi Ispriyanti, 2014). Mereka menggunakan algoritma Quest (Quick, Unbiased, And Efficient Statistical Tree) pada aplikasi Matlab dengan dataset yang digunakan adalah Indian Liver Patient Dataset yang terdapat pada UCI Machine Learning Repository. Dengan algoritma tersebut mereka mendapatkan nilai akurasi 73,40%.

(25)

Dari penelitian – penelitian tersebut akan digunakan oleh penulis sebagai bahan referensi dalam menghasilkan tingkat akurasi dalam meprediksi penyakit penyakit liver. Dari penelitian diatas penulis akan mencoba membandingkan nilai akurasi dari algoritma Decision Tree C4.5 yang penulis lakukan dan melakukan percobaan dengan menggunakan algoritma K-Nearest Neighbor untuk membandingkan nilai akurasi dari kedua algoritma. Tools yang akan digunakan oleh penulis sendiri adalah aplikasi RapidMiner dan juga Indian Liver Patient Dataset sebagai dataset.

Pada gambar berikut menunjukkan diagram hasil dari penelitian terdahulu :

Gambar 2.1 Diagram Hasil Akurasi Penelitian Terdahulu Sumber : (Penulis, 2018)

Decision Tree C4.5

Naive Bayes

Neural

Network QUEST SVM SVM PSO

Wati Erawati 70,99

Nu'man dan Bakhtiar 71,36 77,36

Muhammad Rosyid A. 73,4

Eva Rahmawati 72,84 63,36 0

10 20 30 40 50 60 70 80 90

Akurasi (%)

(26)

2.2 Dasar Teori

Dasar teori berisi beberapa teori yang terkait dalam penelitian yang dilakukan.

2.1.1 Penyakit Liver

Penyakit liver adalah istilah yang digunakan ketika hati mengalami gangguan sehingga tidak berfungsi sebagaimana mestinya. Hati pada konsep biologi adalah identik dengan hepar. Hepar yang dimaksud adalah hati pada manusia. Fungsi Hepardapat dilihat pada gambar 2.2 dibawah ini :

Gambar 2.2 Fungsi Hati Pada Manusia

Sumber : (http://cacatanipa.blogspot.com/2015/06/fungsi-hati.html)

Penyebab penyakit liver bervariasi, sebagian besar disebabkan oleh virus yang menular secara fekal-oral, parenteral, seksual, perinatal dan sebagainya.

Penyebab lain dari penyakit liver adalah akibat efek toksik dari obat-obatan, alkohol, racun, jamur dan lain-lain. Di samping itu juga terdapat beberapa penyakit hati yang belum diketahui pasti penyebabnya (Depkes RI, 2007). Penderita Liver

(27)

meningkat dari tahun ke tahun. Hal ini dikarenakan keterlambatan diagnosa penyakit dan juga karena gaya hidup yang tidak sehat (Niswati, 2015).

Walaupun angka pasti prevalensi dan insidens penyakit liver di Indonesia belum diketahui, tetapi data WHO menunjukkan bahwa untuk penyakit liver yang disebabkan oleh virus, Indonesia termasuk dalam peringkat endemik yang tinggi (Depkes RI, 2007).

Beberapa penyebab penyakit hati antara lain (Depkes RI, 2007):

1. Infeksi virus hepatitis, dapat ditularkan melalui selaput mukosa, hubungan seksual atau darah (parenteral).

2. Zat-zat toksik, seperti alkohol atau obat-obat tertentu.

3. Genetik atau keturunan, seperti hemochromatosis.

4. Gangguan imunologis, seperti hepatitis autoimun yang ditimbulkan karena adanya perlawanan sistem pertahanan tubuh terhadap jaringan tubuhnya sendiri. Pada hepatitis autoimun, terjadi perlawanan terhadap sel-sel hati yang berakibat timbulnya peradangan kronis.

5. Kanker, seperti Hepatocellular Carcinomadapat disebabkan oleh senyawa karsinogenik antara lain aflatoksin, polivinil klorida (bahan pembuat plastik), virus, dan lain-lain. Hepatitis B dan C maupun sirosis hati juga dapat berkembang menjadi kanker hati.

Beberapa tes fungsi hati yang umum digunakan (Pondok Indah Healtcare Group, 2017) :

(28)

1. Alanine Transaminase (ALT) / Alamine Aminotransferase (SGPT).

Merupakan enzim yang ditemukan terutama di dalam sel hati.

ALT dapat membantu metabolisme protein dalam tubuh. Dalam kondisi normal, kadar ALT didalam darah adalah rendah, sebaliknya tingginya kadar ALT mengindikasikan adanya kerusakan hati. Nilai Normal (7 - 55 unit per liter (U/L).

2. Aspartate Transaminase(AST) / Aspartate Aminotransferase (SGOT).

Enzim AST berperan dalam metabolisme alanine. AST ditemukan dalam kadar yang tinggi di sel-sel hati, jantung, dan otot – otot lainnya. Namun jika AST tersebut ditemukan dengan kadar yang tinggi di dalam darah, ini mengindikasikan adanya kerusakan atau penyakit hati. Nilai Normal (8 - 48 U/L).

3. Alkaline Phosphatase (ALP).

Enzim ALP ditemukan dalam konsentrasi yang tinggi di hati, saluran empedu, dan beberapa jaringan lainnya. Peningkatan kadar ALP mengindikasikan adanya kerusakan atau penyakit hati, terutama bila terjadi penyumbatan di saluran empedu. Nilai Normal (45 - 115 U/L).

4. Albumin (ALB).

Kadar Albumin (Protein yang dibuat oleh hati) menunjukkan baiknya kemampuan hati memproduksi protein untuk kebutuhan tubuh memerangi infeksi dan menjaga fungsi lainnya. Berkurangnya kadar

(29)

dari nilai normal mengindikasikan adanya kerusakan atau penyakit hati.

Nilai Normal (3.5 - 5.0 gram per desiliter (g/dL)).

5. Total Protein (TP).

Sama seperti Albumin, Total Protein juga mempengaruhi kekebalan tubuh dalam memerangi infeksi dan juga menjaga fungsi lainnya. Nilai Normal (6 - 8 g/dL).

6. Bilirubin (Direct Bilirubin dan Total Bilirubin).

Bilirubin dihasilkan oleh pemecahan haemoglobin di dalam hati.

Bilirubin dikeluarkan melalui empedu dan dibuang melalui feses.

Peningkatan kadar bilirubin menunjukkan adanya penyakit hati atau saluran empedu. Nilai Normal (0,1-0,4 mg/100 ml dan 0,2-0,9 mg/100 ml).

2.1.2 Pengertian Data Mining

Data mining adalah proses yang meggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Nofriansyah, 2015).

Data mining merupakan suatu proses pendukung pengambil keputusan dimana kita mencari pola informasi dalam data. Pencarian ini dapat dilakukan oleh pengguna, misalnya dengan menggunakan query (dalam kasus ini sangat sulit dilakukan) atau dapat dibantu dengan suatu aplikasi yang secara otomatis mencari pola informasi pada basis data (Kusumo, Bijaksana, & Darmantoro, 2003).

(30)

Dari dua teori diatas dapat diambil kesimpulan bahwa data mining adalah suatu proses untuk mengekstraksi dan mengidentifikasi informasi dalam suatu database dengan menggunakan beberapa teknik agar hasil yang didapatkan bisa digunakan untuk pendukung pengambilan keputusan.

2.1.3 Tahap - Tahap Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap proses yang diilustrasikan pada Gambar 2.2. Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base (Ridwan, Suyono, & Sarosa, 2013).

Gambar 2.3 Tahap - Tahap Data Mining Sumber (Ridwan et al., 2013)

(31)

Tahap-tahap data mining adalah sebagai berikut:

1 Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilang-kan noise dan data yang tidak konsisten atau data tidak relevan.

2 Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru.

3 Seleksi data (data selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.

4 Transformasi data (data transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining.

5 Proses Mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.

6. Evaluasi pola (pattern evaluation)

Untuk mengidentifikasi pola-pola menarik ke dalam knowledge based yang ditemukan.

7. Presentasi pengetahuan (knowledge presentation)

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna.

(32)

2.1.4 Pengelompokan Data Mining

Data mining dapat dibagi menjadi beberapa kelompok berdasarkan tugasnya, yaitu (Larose, 2005):

1. Deskripsi

Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat mengumpulkan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelesan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih kearah numerik daripada ke arah kategori. Model dibangun dengan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.

(33)

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang. Contoh prediksi dalam bisnis dan penelitian adalah :

a. Prediksi harga beras dalam tiga bulan yang akan datang.

b. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah dinaikan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4. Klasifikasi

Dalam klasifikasi, terdapat terget variabel kategori. sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori yaitu:

pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.

Contoh lain klasifikasi dalam bisnis dan penelitian adalah:

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.

c. mendiagnosis penyakit seorang pasien untuk mendapatkan termasuk kategori penyakit apa.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

(34)

Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan tidak memiliki kemiripan dengan record-record dalam cluster lain.

Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keselurahan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam suatu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengklusteran dalam bisnis dan penelitian adalah:

a. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk sebuah perusahaan yang tidak memiliki dana pemasaran yang besar.

b. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik maupun mencurigakan.

c. Melakukan pengklusteran terhadap ekspresi dari suatu gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar.

6. Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang pasar. Contoh asosiasi dalam bisnis dan penelitian adalah:

(35)

a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan.

b. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.

(Handoko Agustin, Kusrini, & Taufiq Luthfi, 2017)

2.1.5 Pengertian Algoritma Decision Tree C4.5

Algoritma decision tree digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar (Rohman, Suhartono, & Supriyanto, 2017).

Decision tree dengan algoritma C.45 merupakan salah satu metode klasifikasi yang menggunakan representasi struktur pohon (tree) dimana setiap node merepresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas (Sembiring, Fitri Larasati Sibuea, & Sapta, 2018).

Dapat disimpulkan bahwa algortima decision tree merupakan metode klasifikasi yang mudah dimengerti karena dapat direpresentasikan sebagai struktur pohon.

2.1.6 Keuntungan Algoritma Decision Tree C4.5

Berikut beberapa keuntungan dari penggunaan algoritma Decision Tree C4.5 (Minardi & Suyatno, 2016).

(36)

1 Mudah untuk dipahami dan ditafsirkan.

2 Memiliki nilai walau hanya dengan data yang sedikit.

3 Dapat dipadukan dengan teknik pengambilan keputusan lainnya.

4 Membentangkan semua masalah sehingga semua kemungkinan dapat diklasifikasikan.

5 Memungkinkan untuk menganalisa dalam mengambil keputusan mengenai kemungkinan dari alternatif.

6 Menyediakan suatu kerangka kerja untuk mengukur hasil dari nilai dan kemungkinan untuk mencapai keputusan.

7 Membantu untuk membuat keputusan yang terbaik berdasarkan informasi yang ada.

2.1.7 Kekurangan Algoritma Decision Tree C4.5

Adapun kekurangan yang ada menurut algoritma Decision Tree C4.5 yaitu (Singh & Gupta, 2014) :

1 Algoritma C4.5 dapat membangun cabang kosong yang nilainya tidak berkontribusi untuk menghasilkan aturan.

2 Terjadi overfitting akibat dari noise data.

3 Kebisingan (noise data) yang rentan terjadi pada C4.5.

(37)

2.1.8 Tahapan Pada Algoritma Decision Tree C4.5

Algortima Decision Tree C4.5 memiliki beberapa tahap dalam pengimplementasiannya, berikut tahap – tahapannya menurut (Agustina &

Wijanarto, 2016):

1. Mempersiapkan data training. Data training merupakan data – data yang pernah terjadi sebelumnya atau disebut data masa lalu serta telah mengalami pengelompokan ke dalam kelas tertentu.

2. Menghitung akar dari pohon. Akar akan diambil dari attribute yang akan terpilih dengan cara menghitung nilai gain dari setiap attribute kemudian nilai gain attribute yang tertinggi akan menjadi akar pertama atau node pertama. Sebelum menghitung nilai gain dari attribute hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus dibawah:

Rumus Entropy :

3. Setelah mendapatkan nilai dari entropy maka akan digunakan untuk mencari nilai information gain. Rumus menghitung information gain :

4. Kemudian mencari nilai Split Info dengan menggunakan rumus : 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ −

𝑛

𝑗=1

𝑃𝑗∗ 𝑙𝑜𝑔2∗ 𝑃𝑗

𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑|𝑆𝑖|

|𝑆| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

𝑛

𝑖=1

𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝑆, 𝐴) = − ∑𝑆𝑖

𝑆 ∗ 𝑙𝑜𝑔2∗𝑆𝑖 𝑆

𝑛

𝑖=1

(38)

5. Setelah mendapatkan nilai Information Gain dan Split Info, lalu mencari nilai Gain Rasio dengan rumus sebagai berikut :

Keterangan :

S = Himpunan kasus n = jumlah partisi S

Pj = Probabilitas dari atribut kelas dibagi jumlah total kasus (j) Si = jumlah kasus pada atribut A yang memiliki partisi (i) A = Atribut

6. Nilai Gain Ratio tertinggi akan digunakan sebagai atribut akar.

Dengan itu akan terbentuk pohon keputusan sebagai node 1.

7. Ulangi proses ke-2 sampai semua cabang memiliki kelas yang sama.

8. Maka akan terbentuk pohon keputusan.

9. Dari pohon keputusan yang terbentuk maka dapat ditentukan Rule- Rule.

2.1.9 Pengertian Algoritma K-Nearest Neighbor (K-NN)

Algoritma K-Nearest Neighbor merupakan metode klasifikasi yang mengelompokan data baru berdasarkan jarak data baru itu kebeberapa data/tetangga (neighbor) terdekat (Rohman, 2015).

𝐺𝑎𝑖𝑛 𝑅𝑎𝑡𝑖𝑜 (𝑆, 𝐴) = 𝐺𝑎𝑖𝑛 (𝑆, 𝐴)

𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝑆, 𝐴)

(39)

Algoritma K-Nearest Neighbord (K-NN) merupakan suatu metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut (Abdul Rohman, 2016)

Berdasarkan 2 penjelasan diatas, dapat ditarik kesimpulan bahwa Algoritma K-Nearest Neighbor merupakan metode klasifikasi yang mengelompokan objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut.

2.1.10 Kelebihan Algoritma K-Nearest Neighbor (K-NN)

Beberapa kelebihan yang ada pada algoritma K-Nearest Neighbor menurut (Lestari, 2014) adalah :

1. Tangguh terhadap data training yang memiliki banyak Noise.

2. Efektif apabila training datanya besar.

2.1.11 Kekurangan Algoritma K-Nearest Neighbor (K-NN)

Adapun beberapa kekurangan yang ada pada algoritma K-Nearest Neighbor menurut (Lestari, 2014) adalah :

3. Algoritma K-Nearest Neighbor perlu menentukan nilai dari parameter k (jumlah dari tetangga terdekat).

4. Training berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan.

5. Atribut mana yang harus digunakan untuk mendapatkan hasil terbaik.

6. Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari setiap query instance pada keseluruhan training sample.

(40)

2.1.12 Tahapan pada Algoritma K-Nearest Neighbor (K-NN)

Algoritma K-Nearest Neighbor memiliki beberapa tahap dalam pengimplementasiannya, berikut tahap – tahapannya menurut (Lestari, 2014) :

Gambar 2.4 Tahapan Algoritma K-Nearest Neighbor Sumber : (Lestari, 2014)

7. Tentukan parameter K.

8. Hitung jarak antara data yang akan dievaluasi dengan semua pelatihan.

9. Urutkan jarak yang terbentuk (urut naik) 10. Tentukan jarak terdekat sampai urutan K.

11. Pasangkan kelas yang bersesuaian.

(41)

12. Cari jumlah kelas dari tetangga yang terdekat dan tetapkan kelas tersebut sebagai kelas data yang akan dievaluasi.

Rumus Algoritma K-Nearest Neighbor (K-NN) :

𝑑𝑖 = √∑(𝑋2𝑖− 𝑋1𝑖)2… . . (1)

𝑝

𝑖=1

Keterangan : X1 = Sampel Data X2 = Data Uji/Testing I = Variabel Data d = Jarak

p = Dimensi Data

(42)

2.3 Kerangka Pemikiran

Gambar 2.5 Kerangka Berfikir Sumber : (Penulis, 2018)

(43)

26 BAB III

METODE PENELITIAN

Metode penelitian merupakan salah satu rangkaian kegiatan ilmiah untuk mendapatkan data yang valid dengan langkah-langkah yang teratur dan sistematis (Sugiyono, 2016). Penelitian digunakan untuk mengetahui, menemukan, dan mengembangkan suatu pengetahuan tertentu untuk dapat menarik kesimpulan berdasarkan faktor-faktor yang mempengaruhinya.

Penelitian ini menggunakan metode penelitian kuantitatif, karena analisis data bersifat kuantitatif/statistik dengan tujuan untuk menguji hipotesis yang ditetapkan.

3.1 Objek Penelitian

Pada penelitian ini penulis menggunakan data dari pasein penyakit Liver sebagai objek penelitian. Data yang digunkan merupakan dataset pasein penyakit liver yang berasal dari data publik yaitu dari : http://archive.ics.uci.edu/ml/ dengan jumlah data sebanyak 583 data.

3.2 Tahapan Penelitian

Tahapan pada penelitian ini dapat dilihat pada Gambar 3.1. Tahapan penelitian dilakukan untuk mempermudah penelitian sehingga penelitian dapat berjalan dengan baik dan sistematis serta memenuhi tujuan yang diingikan.

(44)

Gambar 3.1 Tahapan Penelitian Sumber : (Penulis, 2018)

3.2.1 Pengumpulan Data

Metode pengumpulan data dibagi menjadi dua sumber data yaitu data primer dan data sekunder. Data primer yaitu data yang dikumpulkan dari sumbernya langsung, sedangkan data sekunder yaitu data yang dikumpulkan dari peneliti

(45)

sebelumnya (Nu’man & Rifai, 2018). Sumber data yang digunakan pada penelitian ini adalah data sekunder yang berasal dari : http://archive.ics.uci.edu/ml/ yaitu ILPD (Indian Liver Patient Dataset) dengan jumlah data sebanyak 583 data.

Berikut tabel yang menunjukkan sebagian isi dari dataset:

Tabel 3.1 Dataset ILPD (Indian Liver Patient Dataset)

Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector

62 Female 0,7 0,1 187 16 18 6,8 3,3 0,90 1

62 Male 10,9 5,5 699 64 100 7,5 3,2 0,74 1

62 Male 7,3 4,1 490 60 68 7,0 3,3 0,89 1

58 Male 1,0 0,4 182 14 20 6,8 3,4 1,00 1

72 Male 3,9 2,0 195 27 59 7,3 2,4 0,40 1

46 Male 1,8 0,7 208 19 14 7,6 4,4 1,30 1

26 Female 0,9 0,2 154 16 12 7,0 3,5 1,00 1

29 Female 0,9 0,3 202 14 11 6,7 3,6 1,10 1

17 Male 0,9 0,3 202 22 19 7,4 4,1 1,20 2

55 Male 0,7 0,2 290 53 58 6,8 3,4 1,00 1

57 Male 0,6 0,1 210 51 59 5,9 2,7 0,80 1

72 Male 2,7 1,3 260 31 56 7,4 3,0 0,60 1

64 Male 0,9 0,3 310 61 58 7,0 3,4 0,90 2

74 Female 1,1 0,4 214 22 30 8,1 4,1 1,00 1

61 Male 0,7 0,2 145 53 41 5,8 2,7 0,87 1

25 Male 0,6 0,1 183 91 53 5,5 2,3 0,70 2

38 Male 1,8 0,8 342 168 441 7,6 4,4 1,30 1

33 Male 1,6 0,5 165 15 23 7,3 3,5 0,92 2

40 Female 0,9 0,3 293 232 245 6,8 3,1 0,80 1

40 Female 0,9 0,3 293 232 245 6,8 3,1 0,80 1

.... ... ... ... ... ... ... ... ... ... ...

Sumber : (UCI Machine Learning Repository, 2014)

3.2.2 Pengolahan Data Awal

Pada tahap ini menjelaskan tentang tahap awal data mining. Dalam pengolahan data awal, data yang telah didapatkan akan diolah kedalam bentuk yang diinginkan, lalu dikelompokkan dan ditentukan atribut datanya. Tahapan pada

(46)

pengolahan data awal yang akan dilakukan diantaranya, yaitu : select data, preprocessing data, data transformation, dan split data.

1. Select Data

Pada tahap ini dilakukan pemilihan variabel data yang akan dianalisis, dari total 583 data dengan 10 Variabel dan 1 Class. Semua variabel akan dipakai dalam proses data mining, variabel yang dipakai diantaranya :

Tabel 3.2 Atribut yang digunakan

No. Atribut Type Keterangan

1 Age Text Umur

2 Gender Text Jenis Kelamin

3 TB Text Total Bilirubin

4 DB Text Direct Bilirubin

5 Alkphos Text Alkaline Phosphotase

6 SGPT Text Serum Glutamic Pyruvate Transaminase 7 SGOT Text Serum Glutamic Oxaloacetic Transaminase

8 TP Text Total Proteins

9 ALB Text Albumin

10 A/G Text Ratio Albumin and Globulin Rasio 11 Selector Text Pasein atau Non Pasein

Sumber : (Penulis, 2018)

(47)

2. Preprocessing Data

Pada data ILPD (Indian Liver Patient Dataset) yang berasal dari UCI dataset repository mempunyai 583 data yang terdiri dari 10 atribut dan 1 class. Atribut class sendiri mempunyai 2 nilai yaitu pasein dan non pasein yang direpresentasikan dengan angka 1 sebagai pasein dan angka 2 sebagai non pasein. Namun dalam dataset tersebut juga masih terkandung beberapa data dengan nilai yang inkonsisten dan missing value, sehingga perlu dilakukannya tahap data preprocessing. Data preprocessing digunakan untuk membersihkan data dari nilai yang inkonsisten dan missing value tersebut.

berikut tahapan yang dilakukan pada data preprocessing, yaitu : A. Replace Missing Values

Dalam dataset yang digunakan dalam penelitian ini, masih terdapat beberapa data yang mengandung missing values, seperti yang ada pada tabel 3.3. untuk mengatasi hal tersebut dapat menggunakan tools replace missing values yang ada pada aplikasi rapidminer, dan menggunakan teknik subtitusi, yaitu menggantikan nilai yang hilang dengan mengubahnya menjadi nilai yang diinginkan yaitu nilai rata-rata pada atribut. Berikut tabel yang menunjukkan atribut yang terdapat missing values pada dataset :

(48)

Tabel 3.3 Atribut Missing Values

No. Atribut Jumlah Missing

Values

1 Age 0

2 Gender 0

3 TB : Total Bilirubin 0

4 DB : Direct Bilirubin 0

5 Alkphos : Alkaline Phosphotase 0

6 SGPT : Serum Glutamic Pyruvate Transaminase 0 7 SGOT : Serum Glutamic Oxaloacetic Transaminase 0

8 TP : Total Proteins 0

9 ALB : Albumin 0

10 Ratio Albumin and Globulin Rasio 4

11 Selector (pasein atau non pasein) 0

Sumber : (Penulis, 2018) 3. Data Transformation

Pada tahap ini, data akan diubah kedalam format yang dibutuhkan untuk mempermudah dalam proses mining. Data yang digunakan akan dirubah type datanya dari numerik menjadi text dengan cara mengelompokkan nilai dari setiap atribut menggunakan format Normal dan Tidak Normal berdasarkan nilai normal dari masing – masing atribut. Dapat dilihat pada tabel 3.4 dibawah ini.

(49)

Tabel 3.4 Data Transformation

No. Atribut Nilai Normal Pengelompokkan Data 1 Age - <=32, 33 .... 61,& =>62

2 Gender - Male dan Female

3 TB 0,2 - 0,9 Normal dan Tidak Normal 4 DB 0,1 - 0,4 Normal dan Tidak Normal 5 Alkphos 45 - 115 Normal dan Tidak Normal 6 SGPT 7 - 55 Normal dan Tidak Normal 7 SGOT 8 - 48 Normal dan Tidak Normal

8 TP 6 - 8 Normal dan Tidak Normal

9 ALB 3 - 5 Normal dan Tidak Normal

10 A/G 1,5 - 3 Normal dan Tidak Normal

11 Selector - Pasein Atau Non Pasein

Sumber : (Penulis, 2018) 4. Split Data

Split Data digunakan untuk membagi dataset menjadi dua, yaitu untuk data training dan data testing. Pembagian data menggunakan tools split data yang ada pada aplikasi Rapid Miner seperti pada gambar 3.1, kemudian didapat hasil yaitu 466 data testing, dan 117 data training seperti pada tabel 3.5 dan tabel 3.6.

(50)

Gambar 3.1 Proses Split Data Sumber : (RapidMiner, 2018)

Tabel 3.4 Data Testing

Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector

<= 32 Male Tidak Normal

Tidak Normal

Tidak

Normal Normal Normal Tidak Normal

Tidak Normal

Tidak

Normal Pasein 33 ..61 Female Tidak

Normal Normal Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Tidak

Normal

Tidak

Normal Normal Normal Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Tidak

Normal

Tidak

Normal Normal Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Pasein

=> 62 Male Tidak Normal

Tidak Normal

Tidak

Normal Normal Normal Tidak Normal

Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Normal Normal Tidak

Normal Normal Normal Tidak Normal

Tidak Normal

Tidak Normal

Non Pasein 33 ..61 Male Tidak

Normal

Tidak Normal

Tidak

Normal Normal Normal Normal Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Tidak

Normal

Tidak Normal

Tidak

Normal Normal Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Tidak

Normal

Tidak Normal

Tidak

Normal Normal Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein

<= 32 Female Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein

=> 62 Male Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein 33 ..61 Male Tidak

Normal

Tidak Normal

Tidak

Normal Normal Normal Normal Tidak Normal

Tidak

Normal Pasein

=> 62 Male Tidak Normal

Tidak Normal

Tidak Normal

Tidak Normal

Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein

=> 62 Female Tidak Normal

Tidak Normal

Tidak

Normal Normal Normal Normal Tidak Normal

Tidak

Normal Pasein 33 ..61 Female Tidak

Normal

Tidak Normal

Tidak

Normal Normal Tidak

Normal Normal Tidak Normal

Tidak

Normal Pasein

Gambar

Gambar 4.13 Hasil Import Data Training ............................................................
Gambar 2.1 Diagram Hasil Akurasi Penelitian Terdahulu  Sumber : (Penulis, 2018) DecisionTreeC4.5NaiveBayesNeuralNetwork QUEST SVM SVMPSOWati Erawati70,99
Gambar 2.2 Fungsi Hati Pada Manusia
Gambar 2.3 Tahap - Tahap Data Mining  Sumber (Ridwan et al., 2013)
+7

Referensi

Dokumen terkait

data yang digunakan sama seperti penelitian yang terdahulu dengan topik implementasi data mining untuk menentukan kelayakan pemberian kredit dengan menggunakan

Dalam penelitian ini ada ketentuan dan asumsi seperti berikut: (1) semua emisi partikel timbal tidak ada yang mengalami deposisi karena jarak antara sumber emisi dengan jalur

Pihak pertama berjanji akan mewujudkan target kinerja yang seharusnya sesuai lampiran perjanjian ini, dalam rangka mencapai target kinerja jangka menengah seperti yang telah

Data pada tabel 1 di atas menunjukkan bahwa secara keseluruhan penerapan model pembelajaran PKn sebagai yadnya pada siswa SD kelas VI di Bali dalam penelitian ini

Pada kotoran manusia yang merupakan campuran tinja dan air seni yang relative kaya akan senyawa nitrat, proses dekomposisi terjadi melalui siklus nitrogen.. relative kaya akan

Setelah hasil pretes diolah dari kedua kelompok tersebut dan mendapatkan hasil yang homogen, ini berarti penelitian dapat dilanjutkan dimana siswa kelas XI IPS 1

Hal ini berbeda dengan penelitian Syarifudin (2014) hasil penelitiannya menyatakan peran internal auditor tidak berpengaruh signifikan terhadap kualitas laporan

terbaik bagi manusia agar dapat terbebas dari penderitaan di dunia sehingga dapat mencapai kesempurnaan (nirwana) dan berharap tidak akan terlahir kembali di dunia untuk merasakan