KOMPARASI MODEL NEURAL NETWORK DAN K-NN UNTUK MENGKLASIFIKASI KONDISI PENDERITA PENYAKIT HEPATITIS
COMPARISON OF NEURAL NETWORK AND K-NN MODEL FOR CLASSIFYING CONDITIONS OF PATIENTS OF HEALTH DISEASES
Achmad Behori 1)
1) Sistem Informasi, AMIK Ibrahimy, Situbondo email : [email protected]
ABSTRAK
Hati adalah organ utama yang dimiliki oleh manusia. hepatitis adalah penyakit yang menyerang hati manusia. Tidak jarang manusia tidak mengetahui bahwa dirinya sudah terjangkit penyakit ini.
Mengingat mendeteksi penyakit ini hanya bisa dilakukan dengan tes laboratorium pada darah. Dalam tulisan ini peneliti mencoba untuk mencari model yang tepat untuk studi analisa penyakit hepatitis ini.
Cukup banyak model yang bisa di gunakan seperti K Nearest Neighbor dan Neural Network. Semua model sangat bergantung pada data yang di inputkan sebagai pembelajaran yang kemudian memberikan prediksi dengan mengukur dan melakukan komparasi untuk mendapatkan tingkat error paling rendah.
Kata kunci: machine learning, neural network, k nearest neighbor, hepatitis.
ABSTRACT
The heart is the main organ that is owned by humans. hepatitis is a disease that attacks the human heart. Not infrequently people do not know that he has contracted this disease. Given the detection of this disease can only be done with laboratory tests on blood. In this paper the researchers tried to find the right model for the study of hepatitis disease analysis. Quite a lot of models that can be used such as K Nearest Neighbor and Neural Network. All models rely heavily on the data inputted as learning which then gives predictions by measuring and comparing to get the lowest error rate.
Keywords: machine learning, neural network, k nearest neighbor, hepatitis.
PENDAHULUAN
Hati adalah organ yang paling berperan besar dalam sistem tubuh manusia. Manusia tidak dapat bertahan hidup tanpa fungsi hati yang baik. Diantara fungsi hati adalah sebagai saringan dan gudang tubuh manusia, yang terhubung pada semua sel dan jaringan tubuh.
Bila organ ini mengalami masalah maka dapat mempengaruhi organ tubuh yang lain [1]. Hepatitis secara umum adalah istilah medis yang berarti radang hati [1]. Beberapa penyebab timbulnya penyakit ini adalah: 1. Zat kimia dan Racun seperti Minuman dengan kadar Alkohol berllebihan; 2. Penyakit yang menyerang kekebalan tubuh; 3. Mikroorganisme atau Virus HAV, HBV HCV yang menyerang sel hati.
Pada tahun 2014 Indonesia menjadi negara dengan penyebaran penyakit hepatitis terbesar kedua di wilayah asia tenggara setelah Myanmar. Dari studi dan uji darah PMI memperkirakan diantara 100 orang indonesia terdapat 10 orang terinfeksi hepatitis. Sehingga besaran masalah ini tentunya memiliki dampak besar pada kesehatan masyarakat, umur harapan hidup dan dampak sosial dan ekonomi lainnya [2].
Peneliti pada paper ini mencoba melakukan studi analisa prediksi tingkat hidup penderita hepatitis dengan menggunakan data publik yang di ambil dataset UCI dengan menggunakan dua model prediksi yakni Neural Network dan K-Nearest Neigbhbor.
MODEL PREDIKSI Neural Network
Neural network model atau model jaringan syaraf tiruan adalah model yang meniru cara kerja atau berpikir otak manusia dalam menyimpulkan sesuatu dari potongan informasi yang diterimanya [3]. Model ini memungkinkan untuk mengangani data non linier [4].
Gambar 1. Neural network dengan 3 layer Backpropagation algorithm
Gambar diatas menunjukkan arsitektur model ini. Dimana input layer adalah untuk masukan data dan hidden layer adalah ruang pemrosesan data dan output layer adalah data hasil keluaran atau dalam hal ini adalah hasil prediksinya.
𝑀(𝑥) = 𝛽0+ ∑ 𝛽𝑛𝛹 (𝛾𝑛0+ ∑ 𝛾𝑛𝑖
𝑛
𝑖=1
𝑥𝑖)
𝑂
𝑛=1
Dimana (β0, β1, β2, ..., βO, γ10, γ11, ..., γOn) adalah bobot atau parameter dari neural network. Data non linear di inputkan ke fungsi M(x) melalui fungsi yang disebut dengan fungsi 𝛹 Psi (polygamma). Informasi di proses disetiap neuron dan di akhiri dengan perjumlahan hasil perkalian dari bobot dengan input data. Hasilnya di teruskan ke neuron berikutnya melalui fungsi aktifasi. Ada beberapa jenis aktivasi fungsi 𝛹 Psi seperti sigmoid, bipolar sigmoid dan hyperbolic tangent.
K Nearest Neighbor
K Nearest Neighbor adalah algoritma klasifikasi yang digunakan untuk menentukan kelompok berdasarkan mayoritas pada k tetangga paling dekat. Jika d adalah sekumpulan data training, maka ketika data testing di sajikan, algoritma akan menghitung jarak antar bagian data dalam d dengan data testing. Kemudian k buah data dalam d yang memiliki jarak terdekat dengan data uji diambil.
Himpunan k merupakan k nearest neighbor. Selanjutnya kategori data uji di tentukan berdasarkan mayoritas kategori dalam tetangga terdekat
K Nearest Neighbor dengan pencarian jarak Euclidean. Seperti di bawah ini rumus k-nn dengan pencarian jarak euclidean.
𝑑𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛(𝑥, 𝑦) = √∑(𝑥𝑖− 𝑦𝑖)2
𝑖
Dimana :
x = xi, ..., ..., xn y = yi, ..., ..., yn Keterangan :
x,y = nilai data tes n = jumlah atribut data
Pengukuran Kinerja
Kinerja model diukur dari kemampuannya dalam memprediksi nilai yang akan datang. Model pengukuran paling umum adalah dengan Root Mean Square Error (RMSE) dan Mean Absolute Error (MAE) [4].
RMSE digunakan untuk membandingkan akurasi model yang digunakan. Nilai paling rendah adalah yang terbaik. Sementara MAE mengukur rata rata besaran error. Pengukuran error statistik dapat di gambarkan sebagai berikut.
1. Root Mean Square Error (RMSE)
𝑅𝑀𝑆𝐸 =
∑ (Y𝑡− Ŷ𝑡)2
𝑛 𝑡=1
2. Mean Absolute Error (MAE) 𝑛
𝑀𝐴𝐸 =
∑ |Y𝑡 − Ŷ𝑡|
𝑛 𝑡=1
𝑛
METODE PENELITIAN
Dalam penelitian ini, peneliti melakukan beberapa tahapan metode penelitian. Diawali dengan peneliti melakukan pengumpulan data, melakukan pengolahan data awal, eksperimen dan pengujian dengan model neural network dan K Nearest Neighbor, evaluasi hasil dengan RMSE dan MAE, dan terakhir peneliti menyimpulkan model terbaik dari komparasi.
Gambar 2. Flowchart Metode Penelitian
Pengumpulan Data
Data yang digunakan pada penelitian ini diambil dari data hepatitis publik yang diambil dari website UCI Machine Learning Repository archive.ics.uci.edu berjumlah 155 baris data dengan 19 attribut data pendukung. Dengan sebaran kelas DIE sebanyak 32 baris dan kelas LIVE 123 baris data.
Tabel 1. Data Hepatitis diambil dari archive.ics.uci.edu
AGE SEX STEROID ANTI VIRALS FATIGUE MALAISE ANOREXIA LIVER BIG LIVER FIRM SPLEEN PALPABLE SPIDERS ASCITES VARICES BILIRUBIN ALK PHOSPHATE SGOT ALBUMIN PROTIME HISTOLOGY CLASS
1 3
0 male no no no no no no no no no no no 1 85 18 4 0 no LIV E 2 5
0
femal
e no no ye
s no no no no no no no no 0, 9
13
5 42 3,
5 0 no LIV E 3 7
8
femal e
ye
s no ye
s no no ye
s no no no no no 0,
7 96 32 4 0 no LIV E 4 3
1
femal
e no ye
s no no no ye
s no no no no no 0,
7 46 52 4 80 no LIV E 5 3
4
femal e
ye
s no no no no ye
s no no no no no 1 0 20
0 4 0 no LIV E 6 3
4
femal e
ye
s no no no no ye
s no no no no no 0,
9 95 28 4 75 no LIV E 7 5
1
femal
e no no ye
s no ye s
ye
s no ye s
ye
s no no 0 0 0 0 0 no DIE 8 2
3
femal e
ye
s no no no no ye
s no no no no no 1 0 0 0 0 no LIV E 9 3
9
femal e
ye
s no ye
s no no ye s
ye
s no no no no 0,
7 0 48 4,
4 0 no LIV E 10 3
0
femal e
ye
s no no no no ye
s no no no no no 1 0 12 0
3,
9 0 no LIV E
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
15 5
3 8
femal
e no ye
s no no no no ye
s no no no no 0,
7 70 28 4,
2 62 no LIV E Attribut dari data diatas adalah sebagai berikut.
Tabel 2. Penjelasan Attribute Data Hepatitis
No Attribute Information
1 CLASS DIE,LIVE
2 AGE 10,20,30,40,50,60,70,80
3 SEX male,female
4 STEROID no,yes
5 ANTIVIRALS no,yes
6 FATIGUE no,yes
7 MALAISE no,yes
8 ANOREXIA no,yes
No Attribute Information
9 LIVER BIG no,yes
10 LIVER FIRM no,yes 11 SPLEEN PALPABLE no,yes
12 SPIDERS no,yes
13 ASCITES no,yes
14 VARICES no,yes
15 BILIRUBIN 0.39,0.80,1.20,2.00,3.00,4.00 16 ALK PHOSPHATE 33,80,120,160,200,250 17 SGOT 13,100,200,300,400,500, 18 ALBUMIN 2.1,3.0,3.8,4.5,5.0,6.0 19 PROTIME 10,20,30,40,50,60,70,80,90
20 HISTOLOGY no,yes
Pengolahan Data Awal
Peneliti melakukan proses mempersiapkan data awal sebelum dilakukan ekperimen dan pengujian dengan model. Data dilakukan proses pengubahan dari data yang bernilai text ke data numeric, kemudian data yang tidak sesuai (missing value) di kembalikan ke nilai 0.
Eksperimen dan Pengujian
Pada tahapan ini peneliti melakukan perhitungan prediksi dengan model Neural Network dan K Nearest Neighbor. Hasil dari perhitungan ditampilkan pada masing masing pengujian di bawah ini.
1. Neural Network
Pengujian Neural network dengan beberapa konfigurasi berbeda dari input neuron dan hidden layer untuk mendapatkan output nilai minimun dari evaluasi MAE dan RMSE. [4]
Tabel 3. Data pengujian dengan Neural Network.
RMSE MSE
NN(3,5) 0,43703 0,19675 NN(3,6) 0,44953 0,21045 NN(3,7) 0,42957 0,19769 NN(3,8) 0,44117 0,20121 NN(3,9) 0,45375 0,21678 NN(4,5) 0,46243 0,21645 NN(4,6) 0,46895 0,22245 NN(4,7) 0,48405 0,24800 NN(4,8) 0,42585 0,19503 NN(4,9) 0,44843 0,20873 NN(5,5) 0,45480 0,21768
Hasil dari prediksi data aktual paling optimal dengan neural network dan hasil dari beberapa konfigurasi neural network juga di tampilkan pada Tabel 3. Gambar berikut adalah gambaran dari performasi dan prediksi dari hasil neural network paling optimal.
Gambar 3. Grafik hasil performasi Neural nework dan konfigurasinya
2. K Nearest Neighbor
Hasil pengujian dengan Model K Nearest Neighbor dapat diketahui hasilnya pada tabel berikut. Dimana k adalah jarak yang digunakan untuk mengukur performasi KNN.
Tabel 4. Data pengujian dengan KNN.
RMSE MSE k1 0,5609 0,3338 k2 0,4817 0,2431 k3 0,4425 0,2115 k4 0,4212 0,1885 k5 0,4185 0,1896 k6 0,4135 0,1847 k7 0,4051 0,1764 k8 0,4026 0,1749 k9 0,3993 0,1728 k10 0,3943 0,1691
Grafik berikut menampilkan hasil performasi menggunakan model K Nearest Neighbor.
Gambar 4. Grafik hasil performasi KNN dan konfigurasinya
Komparasi Hasil
Dari hasil pengujian dapat diambil nilai pengukuran dari MAE dan RMSE kedua model tersebut. Tabel di bawah ini menunjukkan bahwa model KNN dengan konfigurasi k=10 adalah terbaik atau memiliki nilai error paling rendah dibandingkan dengan neural network.
0,00000 0,10000 0,20000 0,30000 0,40000 0,50000 0,60000
NN(3,5) NN(3,6) NN(3,7) NN(3,8) NN(3,9) NN(4,5) NN(4,6) NN(4,7) NN(4,8) NN(4,9) NN(5,5) RMSE MSE
0,0000 0,1000 0,2000 0,3000 0,4000 0,5000 0,6000
k1 k2 k3 k4 k5 k6 k7 k8 k9 k10
RMSE MSE
RMSE MSE KNN-10 0,39429 0,16913
NN 4,8 0,42585 0,19503 Secara grafik dapat dilihat dari gambar berikut ini
Gambar 5. Grafik komparasi pengukuran error dari model KNN dan NN
KESIMPULAN
Dari tahapan eksperimen dan pengujian model serta komparasi hasil didapatkan bahwa klasifikasi penderita hepatitis dapat dilakukan dengan model Neural Network dan K Nearest Neighbor. Dari performasi data dapat disimpulkan menggunakan K Nearest Neighbor adalah lebih baik dari pada model Neural Network.
DAFTAR PUSTAKA
[1] C. W. Green, 2005. Hepatitis Virus dan HIV. Jakarta: Yayasan Spiritia.
[2] K. K. RI, 2014. "Pusat Data Dan Informasi 2014". Jakarta Selatan: Kementrian Kesehatan RI.
[3] D. Pupitaningrum, 2004. "Pegantar Jaringan Saraf Tiruan". Jurnal Transformatika, vol. 1, no. 2, p. 114.
[4] Purwanto, C. Eswaran dan R. Logeswaran, 2010. "A Comparison of ARIMA, Neural Network and Linear Regression Models for the Prediction of Infant Mortality Rate". Dalam Fourth Asia International Conference on Mathematical/Analytical Modelling and Computer Simulation.
[5] H. Yasin, A. Prahutama dan T. W. Utami, 2014. "Prediksi Harga Saham Menggunakan Support Vector Regression Dengan Algoritma Grid Search". Media Statistika, vol. 7, no.
VOL 7, NO 1, pp. 29 - 35.
0,0000 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500
KNN-10 NN 4,8
RMSE MSE