3.2 Tahapan Penelitian
3.2.5 Evaluasi dan Validasi Hasil
Evaluasi dapar dilakukan dengan mengamati dan menganalisis hasil dari algoritma yang digunakan untuk memastikan bahwa pengujian benar β benar sesuai dengan pembahasan, sedangkan validasi digunakan untuk mengukur hasil prediksi untuk mengetahui tingkat akurasi, presisi dan recall.
Accuracy merupakan persentase antara nilai prediksi dengan nilai sebenarnya yang ada. Recall merupakan persentase nilai kinerja keberhasilan algoritma yang dipakai. Precision merupakan nilai akurasi dengan class yang telah diprediksi, (Thirumal & Nagarajan, 2015). Berikut adalah persamaan model confusion matrix:
Tabel 3.6 Confusion Table
Confusion matrix
Nilai Prediksi Positive Negative Nilai
Sebenarnya
Positive TP FP
Negative FN TN
Sumber : (Penulis, 2018)
Rumus Accuracy :
Rumus Recall :
Rumus Precision :
Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative 3.3 Komponen Pendukung
Dalam penelitian ini membutuhkan beberapa alat pendukung untuk menjalankan penelitian, kebutuhan yang diperlukan mencakup kebutuhan Hardware (perangkat keras), dan kebutuhan Software (perangkat lunak).
1. Kebutuhan Hardware (perangkat keras) a. Laptop Intel Core i5
b. Ram 8 GB
c. Harddisk 500 GB d. Printer
2. Kebutuhan Software (perangkat lunak) a. Sistem Operasi Windows 10 versi 64 bit b. RapidMiner versi 9.0.0
3.4 Waktu Penelitian
Penelitian ini terbagi menjadi 3 tahap yaitu tahap persiapan, tahap pelaksanaan dan tahap penyelesaian. Adapun waktu dimulainya penelitian sampai
Accuracy = ππ+ππ
(ππ+πΉπ+ππ+πΉπ)
Recall = ππ
(ππ+πΉπ)
Precision = ππ
(ππ+πΉπ)
tahap penyelesaian dimulai dari bulan September 2018 sampai November 2018.
Berikut adalah tabel perincian tahap-tahap penelitian : Tabel 3.7 Waktu Penelitian
No Kegiatan Penelitian
Bulan Pelaksanaan Tahun 2018
September Oktober November
1 Tahap persiapan
Penyusunan
proposal
Pengumpulan
data
Persiapan
peralatan
2 Tahap
pelaksanaan
Implementasi Pembahasan hasil
penelitian 3 Tahap
penyelesaian
Penulisan skripsi Penyelesian
kerangka skripsi Penyerahan
Skripsi
Sumber : (Penulis, 2018)
40 BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Penelitian
4.1.1 Perhitungan Jumlah Kasus Data Keseluruhan, Data Training, dan Data Testing
Jumlah data keseluruhan yang digunakan adalah 583 kasus dengan keputusan Pasein dan Non Pasein, kemudian jumlah keseluruhan data dibagi menjadi data training sebanyak 117 kasus dan data testing sebanyak 466 kasus. Berikut hasil perhitungan jumlah kasus pada data keseluruhan.
Tabel 4.1 Jumlah Kasus Nilai Atribut Keseluruhan No. ATTRIBUTE VALUE JUMLAH
Sumber : (Penulis, 2018)
Pada tabel diatas memperlihatkan jumlah kasus pada data keseluruhan berjumlah 583 data dengan keputusan Pasein sebanyak 416 kasus dan keputusan Non Pasein sebanyak 167 kasus. Data keseluruhan yang dibagi menjadi data
training dan data testing dihitung kembali jumlah kasusnya. Pada tabel 4.2 adalah jumlah kasus pada tabel data training dan data ini yang akan dijadikan sebagai data sekunder dalam pembuatan pohon keputusan dalam mendiagnosa penyakit Liver.
Tabel 4.2 Jumlah Kasus Nilai Atribut Data Training
No. ATTRIBUTE VALUE JUMLAH
No. ATTRIBUTE VALUE JUMLAH
Sumber : (Penulis, 2018)
Pada tabel data training dapat dilihat bahwa terdapat total 117 Kasus dengan keputusan Pasein sebanyak 89 Kasus dan keputusan Non Pasein sebanyak 28
Kasus. Sedangkan pada tabel 4.3 dibawah ini adalah jumlah kasus pada data testing yang akan digunakan sebagai data untuk menguji rule algoritma Decision Tree C4.5.
Tabel 4.3 Jumlah Kasus Nilai Atribut Data Testing
No. ATTRIBUTE VALUE JUMLAH
No. ATTRIBUTE VALUE JUMLAH KASUS (S)
PASEIN (S1)
NON PASEIN (S2)
9 ALB Normal 280 188 92
Tidak
Normal 186 139 47
10 A/G Normal 30 20 10
Tidak
Normal 436 307 129
Sumber : (Penulis, 2018)
4.1.2 Pemodelan Menggunakan Algoritma Decision Tree C4.5
Dalam tahap ini, akan dijelaskan tahapan dalam membuat pohon keputusan dengan algoritma decision tree C4.5 yang dibuat berdasarkan hasil perhitungan Entropy dan Gain. Setelah pohon keputusan tebentuk, maka akan menghasilkan sebuah rule berdasarkan cabang pohon keputusan. Berikut langkah β langkah dalam mengklasifikasi diagnosa penyakit Liver menggunakan algoritma algoritma decision tree C4.5 secara manual dan analisa menggunakan aplikasi Rapidminer.
A. Node 1 (Root) Atribut Total
Proses perhitungan klasifikasi diagnosa penyakit Liver menggunakan algoritma decision tree C4.5 adalah sebagai berikut :
Menghitung jumlah kasus, menghitung jumlah kasus untuk keputusan Pasein dan Non Pasein, dan menghitung entropy dari semua kasus. setelah itu lakukan perhitungan gain dari setiap atribut.
Tabel 4.4 Pehitungan Node 1
ENTROPY INFORMATION GAIN
No. ATTRIBUTE VALUE
ENTROPY INFORMATION GAIN
Sumber : (Penulis, 2018)
Dari perhitungan yang ada pada tabel 4.4 diketahui bahwa jumlah dari total kasus adalah 117 kasus, dengan jumlah keputusan Pasein (S1) adalah 89 kasus, dan jumlah keputusan Non Pasein (S2) adalah 28 kasus. Perhitungan entropy pada tabel diatas dapat dihitung dengan menggunakan persamaan sebagai berikut :
Entropy (Total) = (89
117β πΏππ2(89
117)) + (28
117β πΏππ2(28
117)) Entropy (Total) = 0,09647305819
Sementara itu, nilai Information Gain pada atribut age dapat dihitung dengan menggunakan persamaan sebagai berikut :
Information Gain (Total, Age) = πΈππ‘ππππ¦ (πππ‘ππ) β β |π΄ππ|
|πππ‘ππ|β
ππ=1
πΈππ‘ππππ¦(π΄ππ)
Information Gain (Total, Age) = 0,793901359 β ((20
117β 0,970950594) + ((70
117β 0,749595257) + ((27
117β 0,691289869) Information Gain (Total, Age) = 0,019922672
Kemudian hitung nilai Split Info dengan persamaan sebagai berikut :
Setelah nilai Split Info diketahui langkah terakhir adalah menghitung niali gain rasio dengan persamaan sebagai berikut :
Untuk perhitungan dari artibut-atribut lainnya dapat menggunakan pehitungan pada atribut Age. Sehingga dapat diketahui dari tabel 4.4 bahwa atribut dengan nilai gain ratio tertinggi ada pada atribut ALB yaitu sebesar : 0,096473058, sehingga dengan demikian atribut ALB bisa menjadi node akar.
Ada 2 nilai dari atribut ALB yaitu Normal dan Tidak Normal. Dari kedua nilai tersebut masih memerlukan pehitungan lebih lanjut. Dan hasil pehitungan tersebut dapat digambarkan pada pohon keputusan seperti pada gambar 4.1.
πππππ‘ πΌπππππππ‘πππ (π΄ππ)
= (β (20
117β πΏππ2 (20
117)) + (70
117β πΏππ2 (70
117)) + (27
117β πΏππ2 (27
117)) = 1,367199458
πΊπππ π ππ‘ππ (π΄ππ) = πΊπππ (π΄ππ)
πππππ‘ πΌπππππππ‘πππ (π΄ππ)= 0,019922672 1,367199458
= 0,014571884
Gambar 4.1 Pohon keputusan Node 1 Sumber : (Penulis, 2018)
B. Node 1.1 ALB nilai Normal
Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
Tabel 4.5 Pehitungan Node 1.1
No. ATTRIBUTE VALUE
ENTROPY INFORMATION GAIN
No. ATTRIBUTE VALUE
ENTROPY INFORMATION GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.5 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah SGPT dengan nilai 0,117473462, dengan demikian atribut SGPT bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.2.
Gambar 4.2 Pohon keputusan Node 1.1 Sumber : (Penulis, 2018)
C. Node 1.2 SGPT nilai Normal
Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
Tabel 4.6 Pehitungan Node 1.2
No. ATTRIBUTE VALUE
ENTROPY INFORMATION
GAIN SPLIT INFO GAIN
No. ATTRIBUTE VALUE
ENTROPY INFORMATION
GAIN SPLIT INFO GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.6 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TP dengan nilai 0,0404196 , dengan demikian atribut TP bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.3.
Gambar 4.3 Pohon keputusan Node 1.2 Sumber : (Penulis, 2018)
D. Node 1.3 TP nilai Normal
Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
Tabel 4.7 Pehitungan Node 1.3
No. ATTRIBUTE VALUE
ENTROPY INFORMATION
GAIN SPLIT INFO GAIN
No. ATTRIBUTE VALUE
ENTROPY INFORMATION
GAIN SPLIT INFO GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.7 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah Age dengan nilai 0,031107523, dengan demikian atribut Age bisa menjadi node cabang. Ada tiga nilai atribut yaitu <=32, 33...61, dan => 62, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.4.
Gambar 4.4 Pohon keputusan Node 1.3 Sumber : (Penulis, 2018)
1
E. Node 1.3.1 Age nilai <= 32 dan Node 1.3.2 Age nilai 33 ... 61 Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
Tabel 4.8 Pehitungan Node 1.3.1
No. ATTRIBUTE VALUE
ENTROPY INFORMATION GAIN
Sumber : (Penulis, 2018)
Tabel 4.9 Pehitungan Node 1.3.2
ENTROPY INFORMATION GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.8 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TB dengan nilai 0,412598, terdapat dua nilai atribut dari TB yaitu Normal dan Tidak Normal. Hasil dari perhitungan tersebut sudah didapatkan hasil akhir dari pohon keputusan sehingga tidak memerlukan perhitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.5. Sedangkan pada tabel 4.9 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah DB dengan nilai 0,153910095, dengan demikian atribut DB
bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.5.
Gambar 4.5 Pohon keputusan Node 1.3.1 dan 1.3.2 Sumber : (Penulis, 2018)
F. Node 1.3.2.1 DB nilai Normal
Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
1
Tabel 4.10 Pehitungan Node 1.3.2.1
ENTROPY INFORMATION GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.10 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah TB dengan nilai 6,5827261, dengan demikian atribut TB bisa menjadi node cabang. Ada dua nilai atribut yaitu Normal dan Tidak Normal, dari nilai atribut itu masih memerlukan pehitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.6.
Gambar 4.6 Pohon keputusan Node 1.3.2.1 Sumber : (Penulis, 2018)
G. Node 1.3.2.1.1 TB nilai Normal
Menghitung Jumlah kasus untuk keputusan Pasein dan Non Pasein, entropy dari semua kasus, dan perhitungan gain dari setiap atribut.
1
Tabel 4.11 Pehitungan Node 1.3.2.1.1
ENTROPY INFORMATION
GAIN
Sumber : (Penulis, 2018)
Dari tabel 4.11 dapat diketahui bahwa atribut dengan nilai gain tertinggi adalah SGOT dengan nilai 7,2605044, terdapat dua nilai atribut dari SGOT yaitu Normal dan Tidak Normal. Hasil dari perhitungan tersebut sudah didapatkan hasil akhir dari pohon keputusan sehingga tidak memerlukan perhitungan lebih lanjut. Dari hasil perhitungan tersebut dapat digambarkan pada gambar 4.7.
Gambar 4.7 Pohon keputusan Node 1.3.2.1.2 Sumber : (Penulis, 2018)
1
Pada pohon keputusan yang terbentuk pada gambar 4.7, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian pohon keputusan yang terbentuk pada gambar 4.7 merupakan pohon keputusan yang terakhir.
4.1.3 Pemodelan Menggunakan Algoritma K-Nearest Neighbor
Dalam tahap ini, akan dijelaskan tahapan dalam pemodelan dengan menggunakan algoritma K-Nearest Neighbor yang dibuat berdasarkan hasil perhitungan nilai obyek baru terhadap mayoritas dari nilai class k-tertangga terdekat, dengan menggunakan rumus Euclidean Distance. Berikut langkah β langkah dalam mengklasifikasi diagnosa penyakit liver menggunakan algoritma algoritma K-Nearest Neighbor secara manual dan analisa menggunakan aplikasi Rapidminer.
A. Pembobotan Nilai Dari Atribut
Sebelum dilakukan penghitungan terhadap data yang ada, terlebih dahulu dilalukan pembobotan terhadap nilai dari masing - masing atribut.
Dari 10 atribut yang ada masing β masing akan diberikan nilai dari 3 sampai 5 untuk nilai dari atribut, seperti yang terdapat pada tabel 4.12.
Tabel 4.12 Pembobotan Nilai Atribut
No. ATTRIBUTE VALUE BOBOT NILAI
1 Age <= 32 3
33 .... 61 4
=> 62 5
2 Gender Male 3
Female 4
No. ATTRIBUTE VALUE BOBOT NILAI
Sumber : (Penulis, 2018)
Sehingga didapatkan sebanyak 117 data training seperti yang ada pada tabel 4.13.
Tabel 4.13 Data Training
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Sumber : (Penulis, 2018) B. Perhitungan Data
Dalam penghitungan data, disini penulis terlebih dulu menentukan jumlah tetangga (k=9) yang akan kita penghitungkan jaraknya dengan data testing untuk menentukan hasil diagnosa terhadap penyakit liver. Berikut data testing yang akan dihitung jaraknya dengan data training.
Tabel 4.14 Data Testing
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi
Sumber : (Penulis, 2018)
Data 20 testing yang ada akan dihitung jaraknya masing β masing atribut terhadap data training yang diberikan dengan menggunakan rumus penghitungan jarak :
ππ = ββ(π2πβ π1π)2β¦ . . (1)
π
π=1
Tabel 4.15 Pehitungan Data 1
Rumus
Data 8 5 3 3 3 4 3 4 4 4 4 6
Data 9 4 4 4 4 4 3 4 4 4 4 4
Data 10 4 3 4 4 4 3 4 4 4 4 3
Data 11 5 3 4 4 4 3 3 4 4 4 5
Data 12 4 3 4 4 4 4 4 4 4 4 2
Data 13 4 3 4 4 4 3 3 4 4 4 4
Data 14 4 4 4 4 4 4 4 4 4 4 3
Data 15 5 3 4 4 4 4 4 3 4 4 2
Data 16 4 3 4 4 4 3 4 3 4 4 2
Data 17 4 3 4 4 4 3 4 4 4 4 3
Data 18 5 3 4 4 4 4 3 4 4 4 4
Data 19 3 3 4 4 4 4 4 4 4 4 3
Data 20 4 3 4 4 4 3 4 4 4 4 3
Data 21 4 4 3 3 4 3 3 3 4 4 6
Data 22 4 3 4 4 4 3 4 3 4 4 2
Data 23 5 3 4 3 4 3 4 3 3 4 5
Data 24 3 3 3 3 4 3 3 3 3 4 7
Data 25 5 3 3 3 4 4 4 3 4 4 4
Data 26 5 3 3 3 4 3 4 3 3 4 6
Data 27 5 4 3 3 4 4 4 4 4 4 6
.... .... ... .... .... .... .... .... ... ... .... ....
Sumber : (Penulis, 2018)
Pada tabel 4.14 memperlihatkan bahwa pada baris hasil telah didapatkan nilai penghitungan dari data yang akan diprediksi kelasnya dengan menggunakan persamaan sebagai berikut :
Euclidean Distance = β(π·ππ‘π πππ π‘πππ 1 β π·ππ‘π 1 )2
Euclidean Distance =
β(4 β 5)2+ (3 β 4)2+ (4 β 4 )2+ (4 β 4)2+ (4 β 4)2+ (4 β 3)2+ (4 β 3)2 +(3 β 4)2+ (4 β 4)2+ (3 β 4)2
Euclidean Distance = 6
Untuk perhitungan pada data β data berikutnya sama seperti penghitungan pada data 1, hingga diperoleh semua hasil penghitungan dari data 1 sampai data ke 117, seperti pada tabel 4.14. Setelah semua hasil penghitungan didapatkan, kemudian hasil diurutkan mulai dari terkecil sampai urutan ke 9 sesuai dengan nilai k yang telah ditentukan sebagai jarak terdekat dengan data yang sedang diuji, seperti pada tabel 4.15.
Tabel 4.16 Pengurutan Jarak Terdekat
Data Uji 1 Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Jarak
Sumber : (Penulis, 2018)
Pada tabel 4.15 dapat dilihat bahwa hasil prediksi dari algoritma K-Nearest Neighbor sudah mendapatkan class yang sama antara data uji dengan data training. Untuk penghitungan data 2 sampai 20 dapat dilihat pada tabel 4.16.
Tabel 4.17 Penghitungan Seluruh Data Uji
Data Uji Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi
Pasein Pasein
Data Uji 5 5 3 3 3 4 3 3 3 3 3 Non
Pasein
Non Pasein
Data Uji Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector Prediksi
Data Uji 6 3 4 3 3 4 3 3 4 4 3 Pasein Pasein
Data Uji 7 4 4 3 3 4 3 3 3 3 3 Non
Pasein Pasein
Data Uji 8 4 4 3 3 4 3 3 3 3 3 Pasein Pasein
Sumber : (Penulis, 2018)
Dapat dilihat pada tabel 4.16 terdapat 4 data yang salah dalam hasil prediksinya, namun terdapat 16 data benar dalam hasil prediksinya, yang berarti akurasi benar dari hasil tes data uji sudah mencapai angka 80%.
4.1.4 Pengujian Hasil Menggunakan Aplikasi RapidMiner
Setelah analisis dan klasifikasi dalam diagnosa penyakit liver menggunakan algoritma Decision Tree C4.5 dan K-Nearest Neighbor menggunakan perhitungan manual, maka untuk tahap selanjutnya adalah pengujian menggunakan aplikasi RapidMiner.
4.1.4.1 Pengujian 1
Pengujian pertama dilakukan untuk melihat hasil dari perhitungan menggunakan aplikasi RapidMiner algoritma Decision Tree C4.5. Berikut adalah gambar model dari pengujian pertama :
Gambar 4.8 Model Pengujian 1 dengan Decision Tree C4.5 Sumber : (RapidMiner, 2018)
Pada model pengujian dibuat dengan fitur read excel yang digunakan untuk import data training. Berikut adalah hasil dari import data training kedalam aplikasi RapidMiner.
Gambar 4.9 Hasil Import Data Training Sumber : (RapidMiner, 2018)
Gambar 4.9 menunjukkan hasil import data training, terdapat 117 data.
Dataset terdiri dari 1 atribut spesial sebagai label, dan 10 atribut lainnya sebagai class.
Pada penelitian kali ini menggunakan algoritma klasifikasi Decision Tree C4.5, fitur apply model untuk mengaplikasikan model pada data training dan fitur performance untuk menampilkan confusion table, yang digunakan untuk menampilkan hasil dari accuracy, recall, precision. Berikut hasil pohon keputusan dari pemodelan menggunakan algoritma klasifikasi Decision Tree C4.5.
Gambar 4.10 Hasil Pohon Keputusan RapidMiner Sumber : (RapidMiner, 2018)
Berdasarkan pohon keputusan yang terbentuk pada gambar 4.10 diatas, dapat dijelaskan aturan-aturan/rule model dalam mendiagnosa penyakit liver.
Tabel 4.18 Rule Hasil Pohon Keputusan RapidMiner Rule
Number Rule Details
1 If ALB = Tidak Normal Then : Pasein
2 If ALB = Normal And SGPT = Tidak Normal Then : Pasein 3 If ALB = Normal And SGPT = Normal And TP = Tidak Normal
Then : Pasein
4 If ALB = Normal And SGPT = Normal And TP = Normal And Age = => 62 Then : Pasein
5 If ALB = Normal And SGPT = Normal And TP = Normal And Age = <= 32 And TB = Tidak Normal Then : Pasein 6 If ALB = Normal And SGPT = Normal And TP = Normal And
Age = <= 32 And TB = Normal Then : Non Pasein 7 If ALB = Normal And SGPT = Normal And TP = Normal And
Age = 33 .. 61 And DB = Tidak Normal Then : Pasein 8
If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Tidak Normal Then :
Pasein 9
If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Normal And SGOT =
Normal Then : Pasein 10
If ALB = Normal And SGPT = Normal And TP = Normal And Age = 33 .. 61 And DB = Normal And TB = Normal And SGOT =
Tidak Normal Then : Non Pasein Sumber : (Penulis, 2018)
Hasil confusion table dari pengujian pertama menggunakan algoritma klasifikasi Decision Tree C4.5 menghasilkan nilai accuracy, recall, dan precision.
Berikut hasil dari confusion table :
Gambar 4.11 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix Sumber : (RapidMiner, 2018)
Hasil pengukuran data accurasy yang diperoleh dari data training mencapai 82,91%. Dari data tersebut 87 diklasifikasikan prediksi sesuai yaitu Pasein, 18 data prediksi Pasein tetapi ternyata Non Pasein, sedangkan 2 data diprediksi Non Pasein tetapi ternyata Pasein, dan 10 data diprediksi sesuai yaitu Non Pasein.
Untuk perhitungan manual nilai accuracy, recall, dan precision dapat menggunakan rumus sebagai berikut :
Rumus Accuracy : Rumus Recall : Rumus Precision :
Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative Accuracy = 87+10
(87+18+10+2) Accuracy = 82,91%
Recall = 10
(18+10) Recall = 35,71%
Precision = 10
(10+2) Precision = 83,33%
Accuracy = ππ+ππ
(ππ+πΉπ+ππ+πΉπ)
Recall = ππ
(ππ+πΉπ)
Precision = ππ
(ππ+πΉπ)
4.1.4.2 Pengujian 2
Pengujian kedua dilakukan untuk melihat hasil dari perhitungan menggunakan aplikasi RapidMiner algoritma K-Nearest Neighbor. Berikut adalah gambar model dari pengujian pertama :
Gambar 4.12 Model Pengujian 2 dengan K-Nearest Neighbor Sumber : (RapidMiner, 2018)
Pada model pengujian dibuat dengan fitur read excel yang digunakan untuk import data training. Berikut adalah hasil dari import data training kedalam aplikasi RapidMiner.
Gambar 4.13 Hasil Import Data Training Sumber : (Penulis, 2018)
Gambar 4.13 menunjukkan hasil import data training, terdapat 117 data.
Dataset terdiri dari 1 atribut spesial sebagai label, dan 10 atribut lainnya sebagai class.
Pada penelitian kali ini menggunakan algoritma klasifikasi K-Nearest Neighbor yang sudah diatur jarak k=9, fitur apply model untuk mengaplikasikan model pada data training dan fitur performance untuk menampilkan confusion table, yang digunakan untuk menampilkan hasil dari accuracy, recall, precision.
Hasil confusion table dari pengujian pertama menggunakan algoritma klasifikasi K-Nearest Neighbor menghasilkan nilai accuracy, recall, dan precision. Berikut hasil dari confusion table :
Gambar 4.14 Hasil Evaluasi Nilai Accurasy dengan Confusion Matrix Sumber : (Penulis, 2018)
Hasil pengukuran data accurasy yang diperoleh dari data training mencapai 82,91%. Dari data tersebut 85 diklasifikasikan prediksi sesuai yaitu Pasein, 16 data prediksi Pasein tetapi ternyata Non Pasein, sedangkan 4 data diprediksi Non Pasein tetapi ternyata Pasein, dan 12 data diprediksi sesuai yaitu Non Pasein.
Untuk perhitungan manual nilai accuracy, recall, dan precision dapat menggunakan rumus sebagai berikut :
Rumus Accuracy : Rumus Recall : Rumus Precision :
Keterangan : TP : True Positive FP : False Positive TN : True Negative FN : False Negative
Accuracy = 85+12
(82+16+12+4) Accuracy = 82,91%
Recall = 12
(16+12) Recall = 42,86%
Precision = 12
(12+4) Precision = 75,00%
4.2 Pembahasan
Penelitian yang dilakukan dengan 2 pengujian, pengujian pertama menggunakan algoritma klasifikasi Decision Tree C4.5 dan pengujian kedua menggunakan algoritma klasifiksi K-Nearest Neighbor menghasilkan nilai accuracy, recall, precision. Berikut tabel hasil dari 2 penelitian yang telah dilakukan dengan menggunakan dataset Indian Liver Patient Dataset.
Tabel 4.19 Hasil Pengujian Data Sekunder (Dataset) Pengujian pertama Pengujian Kedua Decision Tree C4.5 K-Nearest Neighbor
Accuracy 82,91% 82,91%
Recall 35,71% 42,86%
Precision 83,33% 75,00%
Sumber : (Penulis, 2018) Accuracy =
(ππ+πΉπ+ππ+πΉπ)
Recall = ππ
(ππ+πΉπ)
Precision = ππ
(ππ+πΉπ)
Berdasarkan hasil yang diperoleh tidak ada perbedaan tingkat akurasi diantara kedua algoritma tersebut yaitu dengan tingkat akurasi 82,91%, namun ada perbedaan pada nilai recall dan precision dari kedua algoritma seperti yang ada pada tabel 4.19. Penelitian mengenai diagnosa penyakit liver yang sebelumnya telah dilakukan menggunakan algoritma Decision Tree C4.5 yang dilakukan oleh Eva Rahmawati pada tahun 2015, menghasilkan tingkat akurasi sebesar 72,845%.
Sedangkan dalam penelitian yang penulis lakukan dapat menghasilkan tingkat akurasi yang lebih tinggi yaitu sebesar 82,91% dengan menggunakan pengolahan data awal yang lebih lanjut untuk dapat memudahkan dalam melakukan mining data. Dengan tingkat akurasi yang baru mencapai nilai 82,91%, masih harus dilakukan penelitian lagi menggunakan algoritma - algoritma data mining yang lain atau pengolahan data lebih lanjut, supaya hasil akurasi dalam mendiagnosa penyakit liver bisa mendekati 100%. Sehingga kedepannya algoritma dalam data mining sudah dapat digunakan untuk mendiagnosa penyakit liver.
76 BAB V
KESIMPULAN
5.1 Kesimpulan
Dari hasil dan pembahasan dari penelitian ini, dapat diambil kesimpulan sebagai berikut :
1. Dari hasil pengujian yang dilakukan menggunakan algoritma Decision Tree C4.5 dan algoritma K-Nearest Neighbor dalam mendiagnosa penyakit Liver menggunakan dataset Indian Liver Patient Dataset, dapat disimpulkan bahwa hasil pengujian tingkat akurasi dari kedua algoritma sama β sama mendapatkan nilai akurasi 82,91%.
2. Dalam meningkatkan hasil akurasi sebuah algoritma dalam data mining dapat dilakukan dengan melakukan pengolahan data awal lebih lanjut, agar data lebih mudah untuk diolah, sehingga dapat meningkatkan nilai akurasi dari algoritma tersebut.
3. Dengan tingkat akurasi yang baru mencapai nilai 82,91%, masih harus dilakukan penelitian lagi menggunakan algoritma algoritma data mining yang lain atau pengolahan data lebih lanjut, supaya hasil akurasi dalam mendiagnosa penyakit liver bisa mendekati 100%. Sehingga kedepannya algoritma dalam data mining sudah dapat digunakan untuk mendiagnosa penyakit liver.
5.2 Saran
Berdasarkan hasil dari penelitian ini, agar penelitian bisa terus berkembang, berikut beberapa saran yang dapat dipertimbangkan untuk menyempurnakan penelitian selanjutnya :
1. Penelitian ini dapat dikembangkan dengan menggunakan algoritma data mining yang lainnya sehingga dapat dilihat perbandingan tingkat akurasi algoritma mana yang tertinggi.
2. Hasil model yang telah dilakukan dapat diimplementasikan menjadi sebuah sistem dalam mendiagnosa penyakit liver.
3. Pengujian menggunakan dataset lain perlu dilakukan untuk menguji seberapa akurat hasil yang diperoleh.
DAFTAR PUSTAKA
Abdul Rohman. (2016). Komporasi Metode Klasifikasi Data Mining Untuk Prediksi Penyakit Jantung. Neo Teknika, 2(2), 21β28.
Agustina, D. M., & Wijanarto. (2016). Analisis Perbandingan Algoritma ID3 Dan C4 . 5 Untuk Klasifikasi Penerima Hibah Pemasangan Air Minum, 1(3), 234β
244.
Depkes RI. (2007). Pharmaceutical Care Untuk Penyakit Hati. Kementrian Kesehatan Republik Indonesia, 1β2.
Erawati, W. (2015). Prediksi Penyakit Hati Dengan Menggunakan Model Algoritma Neural Network. Techno Nusa Mandiri, XII(2), 21β26.
Group, P. I. H. (2017). Tes Fungsi Hati. Tes Fungsi Hati, 8β9.
Handoko Agustin, Y., Kusrini, & Taufiq Luthfi, E. (2017). Klasifikasi Penerimaan Mahasiswa Baru Menggunakan Algortima C4 . 5 Dan Adaboost ( Studi Kasusβ―: STMIK XYZ ), 1β11.
Kusumo, D., Bijaksana, M., & Darmantoro, D. (2003). Data Mining Dengan Algoritma Apriori Pada RDBMS Oracle. Jurnal Penelitian Dan Pengembangan Telekomunikasi, 8(Juni 2003), 1β5. Retrieved from http://www.tektrika.org/index.php/tektrika/article/download/10/2
Kusumo, D., Bijaksana, M., & Darmantoro, D. (2003). Data Mining Dengan Algoritma Apriori Pada RDBMS Oracle. Jurnal Penelitian Dan Pengembangan Telekomunikasi, 8(Juni 2003), 1β5. Retrieved from http://www.tektrika.org/index.php/tektrika/article/download/10/2