Evaluasi dan Validasi Hasil - Tahapan Penelitian

3.2 Tahapan Penelitian

3.2.5 Evaluasi dan Validasi Hasil

Evaluasi dapar dilakukan dengan mengamati dan menganalisis hasil dari algoritma yang digunakan untuk memastikan bahwa pengujian benar – benar sesuai dengan pembahasan, sedangkan validasi digunakan untuk mengukur hasil prediksi untuk mengetahui tingkat akurasi, presisi dan recall.

Accuracy merupakan persentase antara nilai prediksi dengan nilai sebenarnya yang ada. Recall merupakan persentase nilai kinerja keberhasilan algoritma yang dipakai. Precision merupakan nilai akurasi dengan class yang telah diprediksi, (Thirumal & Nagarajan, 2015). Berikut adalah persamaan model confusion matrix:

Tabel 3.6 Confusion Table

Confusion matrix

Nilai Prediksi Positive Negative Nilai

Sebenarnya

Positive TP FP

Negative FN TN

Sumber : (Penulis, 2018)

Rumus Accuracy :

Rumus Recall :

Rumus Precision :

Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative 3.3 Komponen Pendukung

Dalam penelitian ini membutuhkan beberapa alat pendukung untuk menjalankan penelitian, kebutuhan yang diperlukan mencakup kebutuhan Hardware (perangkat keras), dan kebutuhan Software (perangkat lunak).

1. Kebutuhan Hardware (perangkat keras) a. Laptop Intel Core i5

b. Ram 8 GB

c. Harddisk 500 GB d. Printer

2. Kebutuhan Software (perangkat lunak) a. Sistem Operasi Windows 10 versi 64 bit b. RapidMiner versi 9.0.0

3.4 Waktu Penelitian

Penelitian ini terbagi menjadi 3 tahap yaitu tahap persiapan, tahap pelaksanaan dan tahap penyelesaian. Adapun waktu dimulainya penelitian sampai

Accuracy = ^{𝑇𝑃+𝑇𝑁}

(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁)

Recall = ^𝑇𝑃

(𝑇𝑃+𝐹𝑁)

Precision = ^𝑇𝑃

(𝑇𝑃+𝐹𝑃)

tahap penyelesaian dimulai dari bulan September 2018 sampai November 2018.

Berikut adalah tabel perincian tahap-tahap penelitian : Tabel 3.7 Waktu Penelitian

No Kegiatan Penelitian

Bulan Pelaksanaan Tahun 2018

September Oktober November

1 Tahap persiapan

Penyusunan

proposal

Pengumpulan

data

Persiapan

peralatan

2 Tahap

pelaksanaan

Implementasi Pembahasan hasil

penelitian 3 Tahap

penyelesaian

Penulisan skripsi Penyelesian

kerangka skripsi Penyerahan

Skripsi

Sumber : (Penulis, 2018)

40 BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Penelitian

4.1.1 Perhitungan Jumlah Kasus Data Keseluruhan, Data Training, dan Data Testing

Jumlah data keseluruhan yang digunakan adalah 583 kasus dengan keputusan Pasein dan Non Pasein, kemudian jumlah keseluruhan data dibagi menjadi data training sebanyak 117 kasus dan data testing sebanyak 466 kasus. Berikut hasil perhitungan jumlah kasus pada data keseluruhan.

Tabel 4.1 Jumlah Kasus Nilai Atribut Keseluruhan No. ATTRIBUTE VALUE JUMLAH

Sumber : (Penulis, 2018)

Pada tabel diatas memperlihatkan jumlah kasus pada data keseluruhan berjumlah 583 data dengan keputusan Pasein sebanyak 416 kasus dan keputusan Non Pasein sebanyak 167 kasus. Data keseluruhan yang dibagi menjadi data

training dan data testing dihitung kembali jumlah kasusnya. Pada tabel 4.2 adalah jumlah kasus pada tabel data training dan data ini yang akan dijadikan sebagai data sekunder dalam pembuatan pohon keputusan dalam mendiagnosa penyakit Liver.

Tabel 4.2 Jumlah Kasus Nilai Atribut Data Training

No. ATTRIBUTE VALUE JUMLAH

Sumber : (Penulis, 2018)

Pada tabel data training dapat dilihat bahwa terdapat total 117 Kasus dengan keputusan Pasein sebanyak 89 Kasus dan keputusan Non Pasein sebanyak 28

Kasus. Sedangkan pada tabel 4.3 dibawah ini adalah jumlah kasus pada data testing yang akan digunakan sebagai data untuk menguji rule algoritma Decision Tree C4.5.

Tabel 4.3 Jumlah Kasus Nilai Atribut Data Testing

No. ATTRIBUTE VALUE JUMLAH

No. ATTRIBUTE VALUE JUMLAH KASUS (S)

PASEIN (S1)

NON PASEIN (S2)

9 ALB Normal 280 188 92

Tidak

Normal 186 139 47

10 A/G Normal 30 20 10

Tidak

Normal 436 307 129

Sumber : (Penulis, 2018)

4.1.2 Pemodelan Menggunakan Algoritma Decision Tree C4.5

Dalam tahap ini, akan dijelaskan tahapan dalam membuat pohon keputusan dengan algoritma decision tree C4.5 yang dibuat berdasarkan hasil perhitungan Entropy dan Gain. Setelah pohon keputusan tebentuk, maka akan menghasilkan sebuah rule berdasarkan cabang pohon keputusan. Berikut langkah – langkah dalam mengklasifikasi diagnosa penyakit Liver menggunakan algoritma algoritma decision tree C4.5 secara manual dan analisa menggunakan aplikasi Rapidminer.

A. Node 1 (Root) Atribut Total

Proses perhitungan klasifikasi diagnosa penyakit Liver menggunakan algoritma decision tree C4.5 adalah sebagai berikut :

Menghitung jumlah kasus, menghitung jumlah kasus untuk keputusan Pasein dan Non Pasein, dan menghitung entropy dari semua kasus. setelah itu lakukan perhitungan gain dari setiap atribut.

Tabel 4.4 Pehitungan Node 1

ENTROPY INFORMATION GAIN

No. ATTRIBUTE VALUE

ENTROPY INFORMATION GAIN

Sumber : (Penulis, 2018)

Dari perhitungan yang ada pada tabel 4.4 diketahui bahwa jumlah dari total kasus adalah 117 kasus, dengan jumlah keputusan Pasein (S1) adalah 89 kasus, dan jumlah keputusan Non Pasein (S2) adalah 28 kasus. Perhitungan entropy pada tabel diatas dapat dihitung dengan menggunakan persamaan sebagai berikut :

Entropy (Total) = (⁸⁹

117∗ 𝐿𝑜𝑔2(⁸⁹

117)) + (²⁸

117∗ 𝐿𝑜𝑔2(²⁸

117)) Entropy (Total) = 0,09647305819

Sementara itu, nilai Information Gain pada atribut age dapat dihitung dengan menggunakan persamaan sebagai berikut :

Information Gain (Total, Age) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑ ^{|𝐴𝑔𝑒|}

|𝑇𝑜𝑡𝑎𝑙|∗

𝑛𝑖=1

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐴𝑔𝑒)

Information Gain (Total, Age) = 0,793901359 − ((²⁰

117∗ 0,970950594) + ((⁷⁰

117∗ 0,749595257) + ((²⁷

117∗ 0,691289869) Information Gain (Total, Age) = 0,019922672

Kemudian hitung nilai Split Info dengan persamaan sebagai berikut :

Setelah nilai Split Info diketahui langkah terakhir adalah menghitung niali gain rasio dengan persamaan sebagai berikut :

Untuk perhitungan dari artibut-atribut lainnya dapat menggunakan pehitungan pada atribut Age. Sehingga dapat diketahui dari tabel 4.4 bahwa atribut dengan nilai gain ratio tertinggi ada pada atribut ALB yaitu sebesar : 0,096473058, sehingga dengan demikian atribut ALB bisa menjadi node akar.

Ada 2 nilai dari atribut ALB yaitu Normal dan Tidak Normal. Dari kedua nilai tersebut masih memerlukan pehitungan lebih lanjut. Dan hasil pehitungan tersebut dapat digambarkan pada pohon keputusan seperti pada gambar 4.1.

𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝐴𝑔𝑒)

= (− (20

117∗ 𝐿𝑜𝑔2 (20

117)) + (70

117∗ 𝐿𝑜𝑔2 (70

117)) + (27

117∗ 𝐿𝑜𝑔2 (27

117)) = 1,367199458

𝐺𝑎𝑖𝑛 𝑅𝑎𝑡𝑖𝑜 (𝐴𝑔𝑒) = 𝐺𝑎𝑖𝑛 (𝐴𝑔𝑒)

𝑆𝑝𝑙𝑖𝑡 𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝐴𝑔𝑒)= 0,019922672 1,367199458

= 0,014571884

Gambar 4.1 Pohon keputusan Node 1 Sumber : (Penulis, 2018)

B. Node 1.1 ALB nilai Normal

Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.5 Pehitungan Node 1.1

No. ATTRIBUTE VALUE

ENTROPY INFORMATION GAIN

No. ATTRIBUTE VALUE

ENTROPY INFORMATION GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.5 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah SGPT dengan nilai 0,117473462, dengan demikian atribut SGPT bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.2.

Gambar 4.2 Pohon keputusan Node 1.1 Sumber : (Penulis, 2018)

C. Node 1.2 SGPT nilai Normal

Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.6 Pehitungan Node 1.2

No. ATTRIBUTE VALUE

ENTROPY INFORMATION

GAIN SPLIT INFO GAIN

No. ATTRIBUTE VALUE

ENTROPY INFORMATION

GAIN SPLIT INFO GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.6 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TP dengan nilai 0,0404196 , dengan demikian atribut TP bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.3.

Gambar 4.3 Pohon keputusan Node 1.2 Sumber : (Penulis, 2018)

D. Node 1.3 TP nilai Normal

Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.7 Pehitungan Node 1.3

No. ATTRIBUTE VALUE

ENTROPY INFORMATION

GAIN SPLIT INFO GAIN

No. ATTRIBUTE VALUE

ENTROPY INFORMATION

GAIN SPLIT INFO GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.7 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah Age dengan nilai 0,031107523, dengan demikian atribut Age bisa menjadi node cabang. Ada tiga nilai atribut yaitu <=32, 33...61, dan => 62, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.4.

Gambar 4.4 Pohon keputusan Node 1.3 Sumber : (Penulis, 2018)

E. Node 1.3.1 Age nilai <= 32 dan Node 1.3.2 Age nilai 33 ... 61 Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.8 Pehitungan Node 1.3.1

No. ATTRIBUTE VALUE

ENTROPY INFORMATION GAIN

Sumber : (Penulis, 2018)

Tabel 4.9 Pehitungan Node 1.3.2

ENTROPY INFORMATION GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.8 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TB dengan nilai 0,412598, terdapat dua nilai atribut dari TB yaitu Normal dan Tidak Normal. Hasil dari perhitungan tersebut sudah didapatkan hasil akhir dari pohon keputusan sehingga tidak memerlukan perhitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.5. Sedangkan pada tabel 4.9 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah DB dengan nilai 0,153910095, dengan demikian atribut DB

bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.5.

Gambar 4.5 Pohon keputusan Node 1.3.1 dan 1.3.2 Sumber : (Penulis, 2018)

F. Node 1.3.2.1 DB nilai Normal

Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.10 Pehitungan Node 1.3.2.1

ENTROPY INFORMATION GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.10 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TB dengan nilai 6,5827261, dengan demikian atribut TB bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.6.

Gambar 4.6 Pohon keputusan Node 1.3.2.1 Sumber : (Penulis, 2018)

G. Node 1.3.2.1.1 TB nilai Normal

Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.

Tabel 4.11 Pehitungan Node 1.3.2.1.1

ENTROPY INFORMATION

GAIN

Sumber : (Penulis, 2018)

Dari tabel 4.11 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah SGOT dengan nilai 7,2605044, terdapat dua nilai atribut dari SGOT yaitu Normal dan Tidak Normal. Hasil dari perhitungan tersebut sudah didapatkan hasil akhir dari pohon keputusan sehingga tidak memerlukan perhitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.7.

Gambar 4.7 Pohon keputusan Node 1.3.2.1.2 Sumber : (Penulis, 2018)

Pada pohon keputusan yang terbentuk pada gambar 4.7, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian pohon keputusan yang terbentuk pada gambar 4.7 merupakan pohon keputusan yang terakhir.

4.1.3 Pemodelan Menggunakan Algoritma K-Nearest Neighbor

Dalam tahap ini, akan dijelaskan tahapan dalam pemodelan dengan menggunakan algoritma K-Nearest Neighbor yang dibuat berdasarkan hasil perhitungan nilai obyek baru terhadap mayoritas dari nilai class k-tertangga terdekat, dengan menggunakan rumus Euclidean Distance. Berikut langkah – langkah dalam mengklasifikasi diagnosa penyakit liver menggunakan algoritma algoritma K-Nearest Neighbor secara manual dan analisa menggunakan aplikasi Rapidminer.

A. Pembobotan Nilai Dari Atribut

Sebelum dilakukan penghitungan terhadap data yang ada, terlebih dahulu dilalukan pembobotan terhadap nilai dari masing - masing atribut.

Dari 10 atribut yang ada masing – masing akan diberikan nilai dari 3 sampai 5 untuk nilai dari atribut, seperti yang terdapat pada tabel 4.12.

Tabel 4.12 Pembobotan Nilai Atribut

No. ATTRIBUTE VALUE BOBOT NILAI

1 Age <= 32 3

33 .... 61 4

=> 62 5

2 Gender Male 3

Female 4

No. ATTRIBUTE VALUE BOBOT NILAI

Sumber : (Penulis, 2018)

Sehingga didapatkan sebanyak 117 data training seperti yang ada pada tabel 4.13.

Tabel 4.13 Data Training

Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector

Sumber : (Penulis, 2018) B. Perhitungan Data

Dalam penghitungan data, disini penulis terlebih dulu menentukan jumlah tetangga (k=9) yang akan kita penghitungkan jaraknya dengan data testing untuk menentukan hasil diagnosa terhadap penyakit liver. Berikut data testing yang akan dihitung jaraknya dengan data training.

Tabel 4.14 Data Testing

Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi

Sumber : (Penulis, 2018)

Data 20 testing yang ada akan dihitung jaraknya masing – masing atribut terhadap data training yang diberikan dengan menggunakan rumus penghitungan jarak :

𝑑_𝑖 = √∑(𝑋_2𝑖− 𝑋_1𝑖)²… . . (1)

𝑝

𝑖=1

Tabel 4.15 Pehitungan Data 1

Rumus

Data 8 5 3 3 3 4 3 4 4 4 4 6

Data 9 4 4 4 4 4 3 4 4 4 4 4

Data 10 4 3 4 4 4 3 4 4 4 4 3

Data 11 5 3 4 4 4 3 3 4 4 4 5

Data 12 4 3 4 4 4 4 4 4 4 4 2

Data 13 4 3 4 4 4 3 3 4 4 4 4

Data 14 4 4 4 4 4 4 4 4 4 4 3

Data 15 5 3 4 4 4 4 4 3 4 4 2

Data 16 4 3 4 4 4 3 4 3 4 4 2

Data 17 4 3 4 4 4 3 4 4 4 4 3

Data 18 5 3 4 4 4 4 3 4 4 4 4

Data 19 3 3 4 4 4 4 4 4 4 4 3

Data 20 4 3 4 4 4 3 4 4 4 4 3

Data 21 4 4 3 3 4 3 3 3 4 4 6

Data 22 4 3 4 4 4 3 4 3 4 4 2

Data 23 5 3 4 3 4 3 4 3 3 4 5

Data 24 3 3 3 3 4 3 3 3 3 4 7

Data 25 5 3 3 3 4 4 4 3 4 4 4

Data 26 5 3 3 3 4 3 4 3 3 4 6

Data 27 5 4 3 3 4 4 4 4 4 4 6

.... .... ... .... .... .... .... .... ... ... .... ....

Sumber : (Penulis, 2018)

Pada tabel 4.14 memperlihatkan bahwa pada baris hasil telah didapatkan nilai penghitungan dari data yang akan diprediksi kelasnya dengan menggunakan persamaan sebagai berikut :

Euclidean Distance = √(𝐷𝑎𝑡𝑎 𝑇𝑒𝑠𝑡𝑖𝑛𝑔 1 − 𝐷𝑎𝑡𝑎 1 )²

Euclidean Distance =

√(4 − 5)²+ (3 − 4)²+ (4 − 4 )²+ (4 − 4)²+ (4 − 4)²+ (4 − 3)²+ (4 − 3)² +(3 − 4)²+ (4 − 4)²+ (3 − 4)²

Euclidean Distance = 6

Untuk perhitungan pada data – data berikutnya sama seperti penghitungan pada data 1, hingga diperoleh semua hasil penghitungan dari data 1 sampai data ke 117, seperti pada tabel 4.14. Setelah semua hasil penghitungan didapatkan, kemudian hasil diurutkan mulai dari terkecil sampai urutan ke 9 sesuai dengan nilai k yang telah ditentukan sebagai jarak terdekat dengan data yang sedang diuji, seperti pada tabel 4.15.

Tabel 4.16 Pengurutan Jarak Terdekat

Data Uji 1 Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Jarak

Sumber : (Penulis, 2018)

Pada tabel 4.15 dapat dilihat bahwa hasil prediksi dari algoritma K-Nearest Neighbor sudah mendapatkan class yang sama antara data uji dengan data training. Untuk penghitungan data 2 sampai 20 dapat dilihat pada tabel 4.16.

Tabel 4.17 Penghitungan Seluruh Data Uji

Data Uji Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi

Pasein Pasein

Data Uji 5 5 3 3 3 4 3 3 3 3 3 Non

Pasein

Non Pasein

Data Uji Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi

Data Uji 6 3 4 3 3 4 3 3 4 4 3 Pasein Pasein

Data Uji 7 4 4 3 3 4 3 3 3 3 3 Non

Pasein Pasein

Data Uji 8 4 4 3 3 4 3 3 3 3 3 Pasein Pasein

Sumber : (Penulis, 2018)

Dapat dilihat pada tabel 4.16 terdapat 4 data yang salah dalam hasil prediksinya, namun terdapat 16 data benar dalam hasil prediksinya, yang berarti akurasi benar dari hasil tes data uji sudah mencapai angka 80%.

4.1.4 Pengujian Hasil Menggunakan Aplikasi RapidMiner

Setelah analisis dan klasifikasi dalam diagnosa penyakit liver menggunakan algoritma Decision Tree C4.5 dan K-Nearest Neighbor menggunakan perhitungan manual, maka untuk tahap selanjutnya adalah pengujian menggunakan aplikasi RapidMiner.

4.1.4.1 Pengujian 1

Pengujian pertama dilakukan untuk melihat hasil dari perhitungan menggunakan aplikasi RapidMiner algoritma Decision Tree C4.5. Berikut adalah gambar model dari pengujian pertama :

Gambar 4.8 Model Pengujian 1 dengan Decision Tree C4.5 Sumber : (RapidMiner, 2018)

Pada model pengujian dibuat dengan fitur read excel yang digunakan untuk import data training. Berikut adalah hasil dari import data training kedalam aplikasi RapidMiner.

Gambar 4.9 Hasil Import Data Training Sumber : (RapidMiner, 2018)

Gambar 4.9 menunjukkan hasil import data training, terdapat 117 data.

Dataset terdiri dari 1 atribut spesial sebagai label, dan 10 atribut lainnya sebagai class.

Pada penelitian kali ini menggunakan algoritma klasifikasi Decision Tree C4.5, fitur apply model untuk mengaplikasikan model pada data training dan fitur performance untuk menampilkan confusion table, yang digunakan untuk menampilkan hasil dari accuracy, recall, precision. Berikut hasil pohon keputusan dari pemodelan menggunakan algoritma klasifikasi Decision Tree C4.5.

Gambar 4.10 Hasil Pohon Keputusan RapidMiner Sumber : (RapidMiner, 2018)

Berdasarkan pohon keputusan yang terbentuk pada gambar 4.10 diatas, dapat dijelaskan aturan-aturan/rule model dalam mendiagnosa penyakit liver.

Tabel 4.18 Rule Hasil Pohon Keputusan RapidMiner Rule

Number Rule Details

1 If ALB = Tidak Normal Then : Pasein

2 If ALB = Normal And SGPT = Tidak Normal Then : Pasein 3 If ALB = Normal And SGPT = Normal And TP = Tidak Normal

Then : Pasein

4 If ALB = Normal And SGPT = Normal And TP = Normal And Age = => 62 Then : Pasein

5 If ALB = Normal And SGPT = Normal And TP = Normal And Age = <= 32 And TB = Tidak Normal Then : Pasein 6 If ALB = Normal And SGPT = Normal And TP = Normal And

Age = <= 32 And TB = Normal Then : Non Pasein 7 If ALB = Normal And SGPT = Normal And TP = Normal And

Age = 33 .. 61 And DB = Tidak Normal Then : Pasein 8

If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Tidak Normal Then :

Pasein 9

If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Normal And SGOT =

Normal Then : Pasein 10

If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Normal And SGOT =

Tidak Normal Then : Non Pasein Sumber : (Penulis, 2018)

Hasil confusion table dari pengujian pertama menggunakan algoritma klasifikasi Decision Tree C4.5 menghasilkan nilai accuracy, recall, dan precision.

Berikut hasil dari confusion table :

Gambar 4.11 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix Sumber : (RapidMiner, 2018)

Hasil pengukuran data accurasy yang diperoleh dari data training mencapai 82,91%. Dari data tersebut 87 diklasifikasikan prediksi sesuai yaitu Pasein, 18 data prediksi Pasein tetapi ternyata Non Pasein, sedangkan 2 data diprediksi Non Pasein tetapi ternyata Pasein, dan 10 data diprediksi sesuai yaitu Non Pasein.

Untuk perhitungan manual nilai accuracy, recall, dan precision dapat menggunakan rumus sebagai berikut :

Rumus Accuracy : Rumus Recall : Rumus Precision :

Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative Accuracy = ⁸⁷⁺¹⁰

(87+18+10+2) Accuracy = 82,91%

Recall = ¹⁰

(18+10) Recall = 35,71%

Precision = ¹⁰

(10+2) Precision = 83,33%

Accuracy = ^{𝑇𝑃+𝑇𝑁}

(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁)

Recall = ^𝑇𝑃

(𝑇𝑃+𝐹𝑁)

Precision = ^𝑇𝑃

(𝑇𝑃+𝐹𝑃)

4.1.4.2 Pengujian 2

Pengujian kedua dilakukan untuk melihat hasil dari perhitungan menggunakan aplikasi RapidMiner algoritma K-Nearest Neighbor. Berikut adalah gambar model dari pengujian pertama :

Gambar 4.12 Model Pengujian 2 dengan K-Nearest Neighbor Sumber : (RapidMiner, 2018)

Pada model pengujian dibuat dengan fitur read excel yang digunakan untuk import data training. Berikut adalah hasil dari import data training kedalam aplikasi RapidMiner.

Gambar 4.13 Hasil Import Data Training Sumber : (Penulis, 2018)

Gambar 4.13 menunjukkan hasil import data training, terdapat 117 data.

Dataset terdiri dari 1 atribut spesial sebagai label, dan 10 atribut lainnya sebagai class.

Pada penelitian kali ini menggunakan algoritma klasifikasi K-Nearest Neighbor yang sudah diatur jarak k=9, fitur apply model untuk mengaplikasikan model pada data training dan fitur performance untuk menampilkan confusion table, yang digunakan untuk menampilkan hasil dari accuracy, recall, precision.

Hasil confusion table dari pengujian pertama menggunakan algoritma klasifikasi K-Nearest Neighbor menghasilkan nilai accuracy, recall, dan precision. Berikut hasil dari confusion table :

Gambar 4.14 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix Sumber : (Penulis, 2018)

Hasil pengukuran data accurasy yang diperoleh dari data training mencapai 82,91%. Dari data tersebut 85 diklasifikasikan prediksi sesuai yaitu Pasein, 16 data prediksi Pasein tetapi ternyata Non Pasein, sedangkan 4 data diprediksi Non Pasein tetapi ternyata Pasein, dan 12 data diprediksi sesuai yaitu Non Pasein.

Untuk perhitungan manual nilai accuracy, recall, dan precision dapat menggunakan rumus sebagai berikut :

Rumus Accuracy : Rumus Recall : Rumus Precision :

Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative

Accuracy = ⁸⁵⁺¹²

(82+16+12+4) Accuracy = 82,91%

Recall = ¹²

(16+12) Recall = 42,86%

Precision = ¹²

(12+4) Precision = 75,00%

4.2 Pembahasan

Penelitian yang dilakukan dengan 2 pengujian, pengujian pertama menggunakan algoritma klasifikasi Decision Tree C4.5 dan pengujian kedua menggunakan algoritma klasifiksi K-Nearest Neighbor menghasilkan nilai accuracy, recall, precision. Berikut tabel hasil dari 2 penelitian yang telah dilakukan dengan menggunakan dataset Indian Liver Patient Dataset.

Tabel 4.19 Hasil Pengujian Data Sekunder (Dataset) Pengujian pertama Pengujian Kedua Decision Tree C4.5 K-Nearest Neighbor

Accuracy 82,91% 82,91%

Recall 35,71% 42,86%

Precision 83,33% 75,00%

Sumber : (Penulis, 2018) Accuracy =

(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁)

Recall = ^𝑇𝑃

(𝑇𝑃+𝐹𝑁)

Precision = ^𝑇𝑃

(𝑇𝑃+𝐹𝑃)

Berdasarkan hasil yang diperoleh tidak ada perbedaan tingkat akurasi diantara kedua algoritma tersebut yaitu dengan tingkat akurasi 82,91%, namun ada perbedaan pada nilai recall dan precision dari kedua algoritma seperti yang ada pada tabel 4.19. Penelitian mengenai diagnosa penyakit liver yang sebelumnya telah dilakukan menggunakan algoritma Decision Tree C4.5 yang dilakukan oleh Eva Rahmawati pada tahun 2015, menghasilkan tingkat akurasi sebesar 72,845%.

Sedangkan dalam penelitian yang penulis lakukan dapat menghasilkan tingkat akurasi yang lebih tinggi yaitu sebesar 82,91% dengan menggunakan pengolahan data awal yang lebih lanjut untuk dapat memudahkan dalam melakukan mining data. Dengan tingkat akurasi yang baru mencapai nilai 82,91%, masih harus dilakukan penelitian lagi menggunakan algoritma - algoritma data mining yang lain atau pengolahan data lebih lanjut, supaya hasil akurasi dalam mendiagnosa penyakit liver bisa mendekati 100%. Sehingga kedepannya algoritma dalam data mining sudah dapat digunakan untuk mendiagnosa penyakit liver.

76 BAB V

KESIMPULAN

5.1 Kesimpulan

Dari hasil dan pembahasan dari penelitian ini, dapat diambil kesimpulan sebagai berikut :

1. Dari hasil pengujian yang dilakukan menggunakan algoritma Decision Tree C4.5 dan algoritma K-Nearest Neighbor dalam mendiagnosa penyakit Liver menggunakan dataset Indian Liver Patient Dataset, dapat disimpulkan bahwa hasil pengujian tingkat akurasi dari kedua algoritma sama – sama mendapatkan nilai akurasi 82,91%.

2. Dalam meningkatkan hasil akurasi sebuah algoritma dalam data mining dapat dilakukan dengan melakukan pengolahan data awal lebih lanjut, agar data lebih mudah untuk diolah, sehingga dapat meningkatkan nilai akurasi dari algoritma tersebut.

3. Dengan tingkat akurasi yang baru mencapai nilai 82,91%, masih harus dilakukan penelitian lagi menggunakan algoritma algoritma data mining yang lain atau pengolahan data lebih lanjut, supaya hasil akurasi dalam mendiagnosa penyakit liver bisa mendekati 100%. Sehingga kedepannya algoritma dalam data mining sudah dapat digunakan untuk mendiagnosa penyakit liver.

5.2 Saran

Berdasarkan hasil dari penelitian ini, agar penelitian bisa terus berkembang, berikut beberapa saran yang dapat dipertimbangkan untuk menyempurnakan penelitian selanjutnya :

1. Penelitian ini dapat dikembangkan dengan menggunakan algoritma data mining yang lainnya sehingga dapat dilihat perbandingan tingkat akurasi algoritma mana yang tertinggi.

2. Hasil model yang telah dilakukan dapat diimplementasikan menjadi sebuah sistem dalam mendiagnosa penyakit liver.

3. Pengujian menggunakan dataset lain perlu dilakukan untuk menguji seberapa akurat hasil yang diperoleh.

DAFTAR PUSTAKA

Abdul Rohman. (2016). Komporasi Metode Klasifikasi Data Mining Untuk Prediksi Penyakit Jantung. Neo Teknika, 2(2), 21–28.

Agustina, D. M., & Wijanarto. (2016). Analisis Perbandingan Algoritma ID3 Dan C4 . 5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum, 1(3), 234–

244.

Depkes RI. (2007). Pharmaceutical Care Untuk Penyakit Hati. Kementrian Kesehatan Republik Indonesia, 1–2.

Erawati, W. (2015). Prediksi Penyakit Hati Dengan Menggunakan Model Algoritma Neural Network. Techno Nusa Mandiri, XII(2), 21–26.

Group, P. I. H. (2017). Tes Fungsi Hati. Tes Fungsi Hati, 8–9.

Handoko Agustin, Y., Kusrini, & Taufiq Luthfi, E. (2017). Klasifikasi Penerimaan Mahasiswa Baru Menggunakan Algortima C4 . 5 Dan Adaboost ( Studi Kasus : STMIK XYZ ), 1–11.

Kusumo, D., Bijaksana, M., & Darmantoro, D. (2003). Data Mining Dengan Algoritma Apriori Pada RDBMS Oracle. Jurnal Penelitian Dan Pengembangan Telekomunikasi, 8(Juni 2003), 1–5. Retrieved from http://www.tektrika.org/index.php/tektrika/article/download/10/2

Dalam dokumen PERBANDINGAN ALGORITMA DECISION TREE C4.5 DAN K-NEAREST NEIGHBOR (K-NN) DALAM MENDIAGNOSA PENYAKIT LIVER SKRIPSI (Halaman 54-0)