• Tidak ada hasil yang ditemukan

Cronic Kidney Disease Prediction Using C4.5 Algorithm and K-Means Arif Budiman

N/A
N/A
Protected

Academic year: 2022

Membagikan "Cronic Kidney Disease Prediction Using C4.5 Algorithm and K-Means Arif Budiman"

Copied!
7
0
0

Teks penuh

(1)

Cronic Kidney Disease Prediction Using C4.5 Algorithm and K-Means

Arif Budiman

Politeknik Bisnis KALTARA, Tarakan

Jl. Gajah Mada Rt 05 No.17 Gedung A Lt. II, Tarakan, Kalimantan Utara [email protected]

I. Pendahuluan

Diperkirakan sekitar 10% dari populasi dunia terkena penyakit gagal ginjal kronis.

Berdasarkan Data Global Burden of Disease tahun 2010 menunjukkan, penyakit ginjal kronis merupakan penyebab kematian ke-27 di dunia tahun 1990 dan meningkat menjadi urutan ke 18 pada tahun 2010[1]. Gagal Ginjal Kronis (Chronic Kidney Disease) adalah keadaan terjadinya penurunan fungsi ginjal secara bertahap selama 3 bulan atau lebih hingga tidak mampu lagi bekerja sebagaimana mestinya[2]. ginjal berfungsi menyaring limbah dan cairan berlebih dari dalam darah yang kemudian dibuang melalui urin. apabila ginjal tidak dapat menyaring limbah dalam darah maka limbah tersebut dapat menumpuk dan menyebabkan komplikasi seperti diabetes, tekanan darah tinggi, anemia, melemahnya tulang, kesehatan gizi buruk, kerusakan saraf dan meningkatkan risiko penyakit jantung dan pembuluh darah[3][4]. Penyakit ini bersifat progresif dan umumnya tidak dapat pulih kembali. Efek penyakit ini biasanya diikuti dengan adanya rasa kelelahan dan tidak nafsu makan. Pada beberapa kasus penyakit ini biasanya tidak disadari oleh penderitanya[5].

ARTICLE INFO A B S T R A C T

Article history:

Received : March 12, 2020 Revised : March 28, 2020 Accepted : April 13, 2020

It is estimated that about 10% of the world's population is affected by chronic kidney failure. Chronic Kidney Failure is a state of gradual decline in kidney function for 3 months or more until it is no longer able to work as it should. back. The effect of this disease is usually followed by a feeling of fatigue and no appetite. In some cases this disease is usually not realized by the sufferer. This study aims to predict whether someone has kidney failure disease has entered a chronic stage or not by using the C4.5 algorithm and K-Means which are then evaluated using the confusion matrix. The results of research predicting chronic kidney failure using the C4.5 algorithm and K-Means produce an accuracy value of 97.50% of education to users (young people) in preserving the Gandrung dance culture in Banyuwangi Regency.

Keywords:

Cronic Kidney Disease C4.5

K-Means

INFO ARTIKEL A B S T R A K

Proses Artikel:

Artikel Diterima : 28 Maret 2020 Artikel Direvisi : 16 April 2020 Dinyatakan Diterima : 20 April 2020

Diperkirakan sekitar 10% dari populasi dunia terkena penyakit gagal ginjal kronis. Gagal Ginjal Kronis adalah keadaan terjadinya penurunan fungsi ginjal secara bertahap selama 3 bulan atau lebih hingga tidak mampu lagi bekerja sebagaimana mestinya. kembali.

Efek penyakit ini biasanya diikuti dengan adanya rasa kelelahan dan tidak nafsu makan. Pada beberapa kasus penyakit ini biasanya tidak disadari oleh penderitanya. Penelitian ini bertujuan untuk memprediksi seseorang apakah mempunyai penyakit gagal ginjal sudah memasuki tahap kronis atau tidak dengan menggunakan algoritma C4.5 dan K- Means yang kemudian dievaluasi menggunakan confussion matrix.

Hasil penelitian prediksi penyakit gagal ginjal kronis menggunakan algoritma C4.5 dan K-Means menghasilkan nilai akurasi sebesar 97,50% pendidikan kepada pengguna (generasi muda) dalam melestarikan kebudayaan tari gandrung yang berada di Kabupaten Banyuwangi.

Kata Kunci:

Penyakit Cronic Kidney Algoritma C4.5 K-Means

(2)

Data mining digunakan untuk mencari pola tersembunyi dalam basis data[6]. Saat ini teknik data mining telah diterapkan secara luas dalam berbagai bidang, dibidang kesehatan teknik data mining dapat digunakan untuk mendiagnosa suatu penyakit yang diderita berdasarkan catatan kesehatan yang dimilikinya dengan menggunakan klasifikasi[2][1].

Salah satu algorima klasifikasi dalam data mining adalah algoritma C4.5.

Beberapa penelitian sebelumnya mengenai prediksi penyakit gagal ginjal kronis antara lain Mubarik Ahmad et al [2] mendiagnosa penderita penyakit gagal ginjal kronis menggunakan Support Vector Machine (SVM). Tujuan penelitian ini adalah membangun sistem penunjang keputusan yang bisa digunakan membantu diagnosa dokter dalam menentukan pasien gagal ginjal memiliki gagal ginjal kronis atau tidak. Akurasi yang dihasilkan menggunakan algoritma Support Vector Machine (SVM) adalah 98,34%.

Yedilkhan Amirgaliyev et al [1] mendiagnosa penderita penyakit gagal ginjal kronis menggunakan Support Vector Machine (SVM). Tujuan penelitian ini adalah untuk mendeteksi apakah seseorang menderita gagal ginjal kronis menggunakan Support Vector Machine (SVM). Hasil pengujian menunjukan nilai performa pengujian menggunakan Support Vector Machine (SVM) diatas 93% berdasarkan nilai akurasi, sensitifity dan spesifity. Hanyu Zhang et al [7] memprediksi memprediksi kemungkinan bertahan hidup penderita gagal ginjal kronis menggunakan artificial neural network. Tujuan penelitian ini adalah membandingkan 2 artificial neural network antara lain yang menggunakan klasik MLPs, satunya terintergrasi dengan algoritma seleksi fitur LASSO namun memiliki stuktur sempat dan lebih dalam untuk memprediksi penderita penyakit gagal ginjal kronis(survival atau not). Hasil penelitian menunjukan bahwa tiap model menghasilkan akurasi yang tinggi namun menghasilkan nilai recall yang rendah karena dataset yang tidak seimbang. Anusorn Charleonnan et al [8] memprediksi penyakit gagal ginjal kronis menggunakan beberapa algoritma klasifikasi antara lain logistic regression, Support Vector Machines, Decision trees and K-nearest neighbors. Tujuan penelitian ini adalah menentukan algoritma terbaik dalam prediksi penyakit gagal ginjal kronis. Hasil penelitian menunjukan bahwa Support Vector Machines menghasilkan nilai akurasi tertinggi dibandingkan beberapa algoritma klasifikasi lainnya. Akash Maurya et al [3] memprediksi penyakit gagal ginjal kronis menggunakan algoritma machine learning. Penderita penyakit gagal ginjal kronis dikelompokan berdasarkan zona potassium (Safe Zone, Caution Zone, atau Danger Zone) kemudian diberikan rekomendasi rencana diet paling tepat untuk memperlambat perkembangan gagal ginjal kronis.

Penelitian ini bertujuan untuk memprediksi seseorang yang memiliki penyakit gagal ginjal apakah sudah memasuki tahap kronis atau tidak dengan menggunakan algoritma C4.5 dan K-Means. Hasil penelitian digunakan untuk membantu dokter mendiagnosa pasien penderita penyakit gagal kronis.

II. Metode Penelitian

Dalam penelitian ini menggunakan algoritma C4.5 dan K-Means, K-means digunakan untuk mengelompakan data atribut yang bersifat interval menjadi kategori agar dapat diolah menggunakan Algoritma C4.5 untuk melakukan klasifikasi penderita penyakit gagal ginjal kronis (ckd atau notckd). Berikut adalah alur penelitian ditunjukan pada gambar 1.

Gambar 1. Alur Penelitian

A. K-Means

K-means merupakan metode yang membagi data kedalam suatu klaster yang memiliki karakteristik yang sama. Dalam k-means pemisahan data dilakukan dengan melakukan

Pengumpulan

data Data

Cleaning K-Means Pengolahan data Awal

Data mining Algorima C4.5

Evaluation Confussion

Matrix

(3)

perhitungan secara terus-menerus sampai tidak ada perubahan data dalam setiap klaster.

Parameter yang digunakan dalam algoritma K-means adalah nilai K. Nilai k yang digunakan biasanya didasarkan pada informasi yang di ketahui sebelumnya tentang sebenarnya berapa banyak cluster data yang muncul dalam x, berapa banyak cluster yang dibutuhkan untuk penerapannya, atau jumlah k paling ideal. Berikut adalah proses pengelompokan data menggunakan k-means antara lain :

1) Tentukan nilai k sebagai jumlah cluster yang ingin dibentuk.

2) Bangkitkan k centroid (titik pusat cluster) awal.

3) Hitung jarak setiap data ke masing-masing centroid menggunakan rumus Euclidean Distance seperti pada persamaan 1.

𝐷(𝑋, 𝑌) = ∑(𝑋1− 𝑌1)2 (1) Keterangan :

D(X,Y) : Jarak objek antara Xi dan Yi Xi : Koordinat dari objek Xi pada dimensi i Yi : Koordinat dari objek Yi pada dimensi i

4) Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.

5) Tentukan centroid baru dengan cara menghitung nilai rata-rata dari setiap nilai yang ada pada masing-masing centroid menggunakan persamaan 2.

𝐶𝑖 = (∑𝑥

𝑛) (2)

6) Apabila centroid baru dengan centroid lama tidak sama, proses diulang kembali dari langkah 3 hingga menghasilkan centroid konvergen.

B. Algoritma 4.5

Algoritma C4.5 merupakan salah satu algortima klasifikasi yang dapat digunakan untuk membentuk pohon keputusan. Pohon keputusan terbentuk atas akar, cabang dan simpul daun [8]. Algoritma C4.5 merupakan pengembangan dari ID3, pada algoritma C4.5 menggunakan gain ratio sebagai kriteria untuk melakukan pemisahan[6]. Berikut adalah beberapa tahapan yang dilakukan dalam memprediksi penyakit gagal ginjal kronis menggunakan algoritma C4.5 [6][9]:

1) Hitung nilai entropy, entropy adalah parameter yang digunakan untuk mengukur keberagaman dalam suatu himpunan data. Apabila semakin besar tingkat keberagaman dalam suatu himpunan data maka akan semakin besar juga nilai entropynya. Nilai entropy dihitung menggunakan persamaan 3.

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ − 𝑃𝑛𝑖 𝑖𝐿𝑜𝑔2𝑃𝑖 (3) Keterangan :

S : himpuanan kasus n : Partisi S (jumlah kelas) pi : Proporsi Si ke S

2) Selanjutnya hitung nilai information gainnya, Information Gain digunakan untuk mengukur efektivitas suatu atribut dalam mengklasifikasian data. Untuk menghitung nilai information gain menggunakan persamaan 4.

(4)

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ |𝑆𝑖|

|𝑆|𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

𝑛𝑖=1 (4)

Keterangan :

S : Himpuanan kasus A : Atribut

n : Partisi dari atribut

|Sv| : Proporsi Si ke S

|S| : Jumlah kasus

3) Lakukan perhitungan nilai split information, split information digunakan untuk mencari nilai gain ratio. Untuk menghitung nilai split information menggunakan persamaan 5

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛(𝑆, 𝐴) = ∑ −|𝑆𝑖|

|𝑆|𝐿𝑜𝑔2|𝑆𝑖|

|𝑆|

𝑐𝑖=1 (5)

Keterangan :

S : Himpunan sampel data

S1 – Sc : sub himpunan sampel data yang terbagi berdasarkan jumlah variasi nilai pada atribut A

4) Melakukan perhitungan gain ratio. nilai gain ratio tertinggi yang pertama digunakan untuk menentukan atribut yang akan menjadi simpul akar. Untuk menghitung nilai gain ratio menggunakan persamaan 6.

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝑆, 𝐴) = 𝐺𝑎𝑖𝑛 (𝑆,𝐴)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 (𝑆,𝐴) (6)

5) Proses tersebut diulang pada tiap atribut yang memiliki nilai sehingga diperoleh nilai gain ratio tertinggi.

6) Proses selanjutnya dilakukan perhitungan kembali berdasarkan atribut akar yang terbentuk untuk menghasilkan cabang hingga menghasilkan sebuah pohon keputusan.

C. Confussion Matrix

Confusion matrix digunakan untuk mengevaluasi kualitas klasifikasi dari algoritma classifier. Confussion matrix dihitung dengan membandingkan jumlah prediksi yang tepat dan jumlah prediksi yang salah[9]. Evaluasi menggunakan confussion matrix ditunjukan pada tabel 1

Tabel 1. Confusion Matrix

Aktual

Prediksi

True False

True TP(True Positive) FP(False Negative) False FP(False Positive) TN(True Negative)

Setelah data diklasifikasikan maka akan didapatkan confusion matrix, berdasarkan tabel confussion matrix selanjutnya dapat dihitung nilai akurasinya, akurasi dihitung berdasarkan

(5)

jumlah kasus yang diklasifikasikan benar. untuk menghitung akurasi menggunakan persamaan 7 :

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁𝑥100% (7)

Keterangan :

TP (True Positive) : Jumlah kelas aktual positif yang diprediksi dengan benar TN (True Negative) : Jumlah kelas aktual negatif yang diprediksi dengan benar FP (False Positive) : Jumlah kelas aktual negatif yang diprediksi salah

FN (False Negative) : Jumlah tuple positif yang diprediksi salah

III. Hasil dan Pembahasan

Dalam penelitian ini menggunakan algoritma C4.5 dan K-Means untuk memprediksi penyakit gagal ginjal kronis pada penderita penyakit gagal ginjal, K-Means digunakan untuk mengelompokan data bertipe numerical menjadi beberapa klaster sebelum di modelkan menggunakan algoritma C4.5. untuk memudahkan pengujian digunakan software rapidminer dalam proses analisa data.

A. Pengumpulan Data

Dataset yang digunakan digunakan dalam penelitian ini diperoleh dari UCI machine learning dengan judul “Cronic Kidney Disease” oleh Dr. P. Soundarapandian. M.D. ,D.M [15]. Dataset yang dihasilkan terdiri dari 25 atribut dan 400 record yang dikelompokan menjadi 2 katergori yaitu pasien yang memiliki penyakit gagal ginjal kronis(ckd) dan pasien yang tidak memiliki penyakit gagal ginjal kronis(notckd).

B. Pengolahan Data Awal

Pengolahan data awal dilakukan untuk menjaga konsistensi data, salah satunya dengan melakukan pembersihan data (data cleaning). pembersihan data dilakukan dengan mengisi nilai atribut yang kosong dan menghapus data ganda dari dataset. Data yang bernilai kosong diisi dengan nilai yang paling sering muncul pada masing-masing atribut keputusan.

C. K-Means

K-Means digunakan untuk proses discretize data yaitu merubah data interval menjadi kategori, berikut adalah atribut yang diolah menggunakan K-Means untuk menghasilkan data yang diskrit ditunjukan pada tabel 2

Tabel 2. Discretize Atribut

No Atribut Keterangan Tipe Data

1 Age Age Numeric

2 Bgr Blood Glucoses Numeric

3 Bp Blood Pressure Numeric

4 Bu Blood Urea Numeric

5 Hemo Haemoglobin Numeric

6 Pcv Packed Cell Volume Numeric

7 Pot Potassium Numeric

8 Rbcc Red Blood Cell Count Numeric

9 Sc Serum Creatinine Numeric

(6)

No Atribut Keterangan Tipe Data

10 Sod Sodium Numeric

11 Wbcc White Blood Cell Numeric

Atribut harus dikelompokan menjadi beberapa klaster agar dapat digunakan untuk proses klasifikasi menggunakan algoritma C4.5. jumlah nilai k yang digunakan untuk cluster pada penelitian ini berjumlah 3. berikut adalah data yang telah dikelompokan menggunakan K- Means ditunjukan pada tabel 3.

Tabel 3. Hasil K-Means

age bp Bgr bu Sc sod pot hemo Pcv wbcc rbcc

1 2 1 1 1 1 2 2 1 2 3

3 1 1 1 1 1 2 1 1 2 1

2 2 2 1 1 1 2 1 2 2 1

1 1 1 1 1 1 2 1 2 2 1

1 2 1 1 1 1 2 1 1 2 3

D. Algoritma C4.5

Algoritma C4.5 digunakan untuk memprediksi penderita penyakit gagal ginjal kronis.

Klasifikasi yang dihasil membagi data penderita gagal ginjal kronis (ckd atau notckd). Untuk dapat menghasilkan sebuah keputusan langkah pertama yang harus dilakukan adalah menghitung entropy, information gain dan menghitung split information untuk menghasilkan nilai gain ratio. akar yang terbentuk berdasarkan perhitungan nilai gain ratio adalah atribut hemo(hemoglobin).

E. Confussion Matrix

Dari hasil permodelan data menggunakan algoritma C4.5 dan K-Means selanjutnya dievaluasi menggunakan Confussion Matrix. Berikut adalah perhitungan akurasi C4.5 dan K-Means ditampilkan pada tabel 4.

Tabel 4 Hasil Confusion Matrix Aktual Prediksi

True False

True 244 6

False 4 146

Dari tabel 2 diketahui bahwa nilai akurasi yang dihasilkan menggunakan algoritma C4.5 dan K-Means untuk memprediksi penyakit gagal ginjal kronis adalah 97,50%.

IV. Kesimpulan

Berdasarkan hasil pengujian menggunakan confusion matrix dalam memprediksi penderita penyakit gagal ginjal kronis menggunakan algoritma C4.5 dan K-Means diperoleh nilai akurasi sebesar 88,56%

DAFTAR PUSTAKA

(7)

[1] Y. Amirgaliyev, “Analysis of Chronic Kidney Disease Dataset by Applying Machine Learning Methods,” 2018 IEEE 12th Int. Conf. Appl. Inf. Commun. Technol., pp. 1–4, 2010.

[2] M. Ahmad, V. Tundjungsari, D. Widianti, P. Amalia, and U. A. Rachmawati, “Diagnostic decision support system of chronic kidney disease using support vector machine,” Proc.

2nd Int. Conf. Informatics Comput. ICIC 2017, vol. 2018-January, pp. 1–4, 2018.

[3] A. Maurya, R. Wable, R. Shinde, S. John, R. Jadhav, and R. Dakshayani, “Chronic Kidney Disease Prediction and Recommendation of Suitable Diet Plan by using Machine Learning,” 2019 Int. Conf. Nascent Technol. Eng. ICNTE 2019 - Proc., no.

Icnte, pp. 1–4, 2019.

[4] Y. Jiang, X. Y. Zhou, and D. Zhang, “A new approach based on a rough set and a decision tree to bank customer credit evaluation,” Proc. 2008 IEEE Int. Symp. IT Med.

Educ. ITME 2008, pp. 61–65, 2008.

[5] F. Hamedan, A. Orooji, H. Sanadgol, and A. Sheikhtaheri, “Clinical decision support system to predict chronic kidney disease: A fuzzy expert system approach,” Int. J. Med.

Inform., vol. 138, p. 104134, 2020.

[6] M. A. Muslim and S. H. Rukmana, “Application of the pessimistic pruning to increase the accuracy of C4 . 5 algorithm in diagnosing chronic kidney disease Application of the pessimistic pruning to increase the accuracy of C4 . 5 algorithm in diagnosing chronic kidney disease,” 2018.

[7] H. Zhang, C. L. Hung, W. C. C. Chu, P. F. Chiu, and C. Y. Tang, “Chronic Kidney Disease Survival Prediction with Artificial Neural Networks,” Proc. - 2018 IEEE Int. Conf.

Bioinforma. Biomed. BIBM 2018, pp. 1351–1356, 2019.

[8] A. Charleonnan, T. Fufaung, T. Niyomwong, W. Chokchueypattanakit, S.

Suwannawach, and N. Ninchawee, “Predictive analytics for chronic kidney disease using machine learning techniques,” 2016 Manag. Innov. Technol. Int. Conf. MITiCON 2016, pp. MIT80–MIT83, 2017.

[9] N. Cahyani and M. A. Muslim, “Increasing Accuracy of C4 . 5 Algorithm by Applying Discretization and Correlation-based Feature Selection for Chronic Kidney Disease Diagnosis,” Sci. J. Informatics, vol. 2018, no. March, pp. 1–10, 2020.

Gambar

Gambar 1. Alur Penelitian
Tabel 1. Confusion Matrix
Tabel 2. Discretize Atribut
Tabel 4 Hasil Confusion Matrix  Aktual  Prediksi

Referensi

Dokumen terkait