• Tidak ada hasil yang ditemukan

Algoritma K-Nearest Neighbor Berbasis Particle Swarm Optimization untuk Prediksi Penyakit Ginjal Kronik

N/A
N/A
Dokumentasi Unulampung

Academic year: 2024

Membagikan "Algoritma K-Nearest Neighbor Berbasis Particle Swarm Optimization untuk Prediksi Penyakit Ginjal Kronik"

Copied!
5
0
0

Teks penuh

(1)

ISSN (online) : 2597-9337

51

Algoritma K-Nearest Neighbor Berbasis Particle Swarm Optimization Untuk Prediksi Penyakit

Ginjal Kronik

Warid Yunus

Fakultas Ilmu Komputer Universitas Ichsan Gorontalo

Jln. Drs. Achmad Nadjamudin No.1, Kota Gorontalo, Kode Pos : 96115 e-mail : [email protected]

I. PENDAHULUAN

Kesehatan adalah suatu hal yang amat sangat penting bagi manusia,sebab tanpa kesehatan yang baik, maka setiap manusia akan sulit dalam menjalankan aktivitasnya sehari- hari. Kesehatan merupakansuatu kondisi sehat, baik secara fisik, mental spritual maupun sosial yang memungkinkan setiap orang untuk hidup produktif secara sosial dan ekonomis. Dalam masalah kesehatan juga terdapat hasil (dampak) dari berbagai macam masalah lingkungan yang bersifat alamia maupun buatan manusia. Datangnya penyakit pun merupakan hal yang tidak bisa dihindari, walaupun kadang dapat dicegah atau di hindari, salah satunya adalah penyakit ginjal kronik (PGK).

Di negara maju jumlah penderita yang mengalami masalah gagal ginjal kronik ini tergolong tinggi hingga tahun 2005. Adapun menurut WHO, penyakit gagal ginjal dan saluran kemih telah menyumbang sekitar 850.000

kematian setiap tahunnya.Hal ini menyatakan bahwa penyakit gagal ginjal kronik menduduki peringkat ke -12 tertinggi angka kematian atau angka ke-17 angka kecacatan, sampai pada tahun 2015 WHO memperkirakan sekitar 36 juta orang di dunia meninggal disebabkan oleh gagal ginjal kronik [1].

Di indonesia sendiri peningkatan penderita penyakit ini mencapai angka 20%. Pusat data dan informasi Perhimpunan Rumah Sakit Seluruh Indonesia (PDPERSI) yang menyatakan jumlah penderita gagal ginjal kronik diperkirakan sekitar 50 orang per satu juta penduduk.berdasarkan data dari Indonesia Renal Registry, suatu kegiatan registrasi dari perhimpunan nefrologi Indonesia, pada tahu 2008 jumlah pasien hemodialisa (cuci darah) mencapai 2260 orang dari 2146 orang pada tahun 2007 [2].

Adapun penelitian tentang prediksi penyakit ginjal kronik, khususnya menggunakan data set sekunder Abstrak— Di negara maju angka penderita gangguan gagal ginjal kronik tergolong cukup tinggi hingga tahun 2005 di perkirakan sebanyak 36 juta orang warga meninggal dunia. Menurut WHO penyakit gagal ginjal dan saluran kemih telah menyumbang 850.000 kematian setiap tahunnya. Klasifikasi data mining diperlukan untuk mempermudah identifikasi penyakit, salah satu algoritma yang sering digunakan yaitu K-NN. Metode klasifikasi dan prediksi data mining yang diuji dalam penelitian ini yaitu K-Nearest Neighbor (k-NN) yang dioptimasi menggunakan metode Particle Swarm Optimization (PSO) untuk memperoleh nilai akurasi, presisi, dan sensitifitas yang lebih tinggi. Dataset yang digunakan CHRONIC_KIDNEY_DISEASE yang diperoleh dari UCI. Setelah dilakukan pengujian diperoleh hasil bahwa dengan optimasi menggunakan PSO yang diterapkan pada metode k-NN, nilai akurasi, presisisi, dapat meningkat cukup signifikan sehingga metode ini dapat diimplementasikan dalam mengklasifikasi dan memprediksi penyakit ginjal kronik. Dari hasil penelitian ini, diperoleh model terbaik pada K-Nearest Neighbor pada parameter K = 1, dengan tingkat akurasi tertinggi yaitu 78.75 %, Sedangkan dengan menambahkan metode PSO didapatkan hasil dengan tingkat akurasi 97.25 %. Dari Tingkat akurasi yang diperoleh, metode K-NN+PSO terbukti lebih baik digunakan untuk memprediksi penyakit ginjal kronik

Kata kunci: Prediksi, KNN, PSO, Penyakit Ginjal Kronik

AbstractIn developed countries the numbers of patients with disorders of chronic renal failure is quite high-up to 2005 is estimated as many as 36 million people died. According to the WHO kidney disease and urinary tract have been accounted for by 850,000 deaths annually. Classification of data mining necessary to facilitate the identification of the disease, one algorithm that is often used is K-NN. The method of classification and prediction data mining is tested in this study, namely K-Nearest Neighbor (k-NN) is optimized using Particle Swarm Optimization method (PSO) to obtain the value of accuracy, precision, and sensitivity is high. The Dataset used CHRONIC_KIDNEY_DISEASE obtained from UCI. After testing the obtained results that with the optimization using PSO that is applied on the method of k-NN, the value of accuracy, presisisi, can be increased significantly so that this method can be implemented in classifying and predicting chronic kidney disease. From the results of this study, the best model obtained on the K-Nearest Neighbor on the parameters K = 1, with the highest level of accuracy that is 78.75 %, While by adding the PSO method obtained results with the accuracy rate of 97.25 %. From the Level of accuracy obtained, the method K- NN+PSO proved to be better used to predict chronic kidney disease

Keywords:Prediction, KNN, PSO, Chronic Kidney Disease

(2)

52 CHRONIC KIDNEY DISEASE (CKD) dengan metode KNN

pernah dilakukan, yaitu penelitian yang dilakukan oleh Parul Sinha dan Poonam Sinha pada tahun 2015 yang berjudul Comparative Study of Chronic Kidney Disease Prediction usin KNN and SVM [3] bertujuan untuk mempelajari pendekatan metode baru dan membuat analisis komparatif dari waktu komputasi dan akurasi dengan dua metode dan menggunakan dataset CKD yang diambil dari UCI dengan pengujian algoritma KNN dan SVM dengan hasil akurasi SVM 73,75% dan KNN 78,75 %.

K-Nearest neighbor dapat diterapkan pada kasus prediksi, karena algoritma ini memiliki beberapa kelebihan antaralain memiliki ketangguhan terhadap training data yang memiliki banyak noise dan efektif apabila datanya besar [6], membutuhkan waktu yang cepat dalam training dan mampu menghasilkan prediksi dengan rasio kesalahan yang kecil. Sedangkan kelemahan dari K-NN adalah penggunaan seluruh data training untuk proses klasifikasi (complete storage) yang mengakibatkan lamanya proses prediksi. Untuk mengatasi kelemahan algoritma K-Nearest Neighbor digunakan metode pemilihan fitur (feature selection).Particle swarm optimization merupakan salah satu metode yang banyak digunakan untuk memecahkan masalah optimasi serta masalah seleksi fitur [4]. Dalam penelitian ini, algoritmak-nearest neighbor berbasis particle swarm optimization digunakan untuk memprediksi penyakit ginjal kronik (PGK).

II. STUDI PUSTAKA A. Penelitian Terkait

Parul Sinha dan Poonam Sinha pada tahun 2015 yang berjudul Comparative Study of Chronic Kidney Disease Prediction usin KNN and SVM bertujuan untuk mempelajari pendekatan metode baru dan membuat analisis komparatif dari waktu komputasi dan akurasi dengan dua metode dan menggunakan dataset CKD yang diambil dari UCI dengan pengujian algoritma KNN dan SVM dengan hasil akurasi SVM 73,75% dan KNN 78,75

%.

Dr. S. Vijayarani dan Mr.S.Dhayanand pada maret 2015 dengan judul Kidney Disease Prediction Using SVM And ANN Algortihms menggunakakan data set dari Pusat Lab Kesehatan. Dari hasil perbandingan akurasi, Pendekatan dengan metode ANN memperoleh akurasi tertinggi sebesar 87.70 % [5].

Parida Purnana dan Catur Supriyanto, Deteksi Penyakit Diabetes Type II Dengan Naive Bayes Berbasis Particle Swarm Optimization. Metode yang digunakan dalam penelitian ini adalah naive bayes berbasis PSO untuk meningkatkan akurasi dalam deteksi penyakit diabetes.

Data set yang akan digunakan sejumlah 598 pasien dengan parameter sebagai berikut: usia, jenis kelamin, kolesterol total, HDL, LDL, trigliserid, hemoglobin, lekosit, trombosit, tekanan darah, riwayat diabetes, olahraga, merokok, hamil. Hasil penelitian ini, algoritma naive bayes berbasis PSO terbukti akurat dengan akurasi 98.16% dan memiliki nilai AUC 0.99 dikategorikan ke dalam excellent classification. Nilai ini membuktikan bahwa algoritma naive bayes berbasis particle swarm optimization dapat

meningkatkan akurasi pada deteksi penyakit diabetes type II [6].

Nur Aeni Widiastuti, Stefanus Santosa, Catur Supriyanto, Algoritma Klasifikasi Data Mining Naive Bayes Berbasis Particle Swarm Optimization Untuk Deteksi Penyakit Jantung. Dalam penelitian dibandingkan algoritma klasifikasi data mining Naive Bayes Berbasis PSO untuk deteksi penyakit jantung. Pengukuran dengan Naives Bayes menghasilkan akurasi 82.14%, sementara dengan Naives Bayes Berbasis Particle Swarm Optimization akurasi meningkat menjadi 92.86%.

B. Data Mining

Data mining merupakan proses untuk menemukan korelasi baru yang bermakna, pola dan tren dengan memilah-milah sejumlah besar data yang tersimpan dalam repositori, menggunakan teknologi penalaran pola serta teknik-teknik statistik dan matematika. Istilah data mining memiliki hakikat sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki.

C. K-Nearest Neighbor

K-nearest neighbor (K-NN) termasuk kelompok instance-based learning dan merupakan salah satu teknik lazy learning. Algoritma k-nearest neighbor adalah sebuah metode yang melakukan pengklasifikasian terhadapa objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Berikut langkah-langkah agoritma K-NN :

a. Menentukan parameter k (jumlah tetangga paling dekat)

b. Menghitung kuadrat jarak Euclid (query instance masing-masing objek terhadap data sampel yang diberikan).

c. Mengurutkan objek-objek tersebut kedalam kelompok yang mempunyai jarakeuclidterkecil.

d. Mengumpulkan kategori y (kelas tetangga terdekat) e. Dengan menggunakan kategori y yang paling

mayoritas, maka dapat diprediksi nilai query instance yang telah dihitung.

Untuk prediksi harga penyakit ginjal kronik(PGK) dengan menggunakan algoritma K-NN digunakan model sebagai berikut :

√ ...(1)

Keterangan : x = sampel data y = data uji D = Jarak

...(2)

= Perkiraan atau estimasi K = Jumlah tetangga terdekat

Tetangga Terdekat

= Output tetangga terdekat

(3)

53 D. Particle Swarm Optimization

Particle swarm optimization dirumuskan oleh Edward dan Kennedy pada tahun 1995. Proses pemikiran dibalik algoritma ini terinspirasi dari perilaku sosial hewan, seperti burung yang berkelompok atau sekolompok ikan.Algoritma ini tentang perubahan prilaku atau sifat sosial yang terdiri atas tindakan tiap individu dan besar pengaruh dari setiap individu lain kedalam satu kelompok.

Tiap-tiap partikel di dalam PSO juga berkaitan dengan suatu kecepatan (velocity). Partikel-partikel cenderung mempunyai sifat untuk bergerak ke area penelusuran yang lebih baik setelah melewati proses penelusuran [7].

Particle Swarm Optimization (PSO) adalah suatu teknik optimasi yang sangat sederhana untuk menerapkan dan memodifikasi beberapa parameter. PSO banyak digunakan untuk memecahkan masalah optimasi bobot dan seleksi fitur (feature selection). Secara singkat proses PSO dimulai dari inisialisasi populasi hingga penghentian komputasi, seperti algoritma berikut :

1. Inisialisasi populasi (posisi dan kecepatan acak) dalam hyperspace

2. Evaluasi fitness partikel individu

3. Modifikasi kecepatan berdasarkan terbaik sebelumnya (previous best:pbest) dan terbaik global atau local (global or neighborhood best; gbest or lbest)

4. Hentikan berdasarkan beberapa kondisi 5. Lakukan kembali langkah ke 2

Untuk menemukan solusi yang optimal, maka setiap partikel akan bergerak kearah posisi yang terbaik sebelumnya (pbest) dan posisi terbaik secara global (gbest).

Rumus untuk menghitung perpindahan posisi dan kecepatan partikel yaitu :

Vi(t)= Vi(t - 1) + [ + [ ...(3) ...(4)

(3) Dimana:

Vi (t) : kecepatan partikel i saat iterasi t Xi (t) : posisi partikel i saat iterasi t

c1 dan c2 : learning rates untuk kemampuan individu (cognitive) dan pengaruh sosial (group) r1 dan r2 : bilangan random yang berdistribusi

uniformal dalam interval 0 dan 1 XPbesti : posisi terbaik partikel i

XGbesti : posisi terbaik global E. Cross Validation

Cross-validation, atau sering juga disebut estimasi rotasi, yaitu model validasi untuk menilai bagaimana hasil dari analisis statistic dapat menggeneralisasi dataset independen. Hal ini sangat utama digunakan untuk tujuan dalam melakukan prediksi, dan seseorang ingin memperkirakan seberapa akurat model prediktif akan tampil dalam praktek. Dalam masalah prediksi, model biasanya diberi dataset yang diketahui sebagai dataset pelatihan untuk diproses (dataset training), dan dataset yang tidak diketahui (atau data yang lain) terhadap model yang diuji (dataset testing).

F. Confusion Matrix

Confusion matrix adalah salah satu alat ukur berbentuk matrik 2x2 yang digunakan untuk mendapatkan jumlah ketepatan klasifikasi dataset terhadap kelas aktif dan tidak aktif pada kedua algoritma yang dipakai. Evaluasi model klasifikasi didasarkan pada pengujian untuk memperkirakan obyek yang benar dan salah, urutan pengujian ditabulasikan dalam confusion matrix dimana kelas yang diprediksi ditampilkan dibagian atas matriks dan kelas yang diamati disisi kiri. Setiap sel berisi angka yang menunjukan berapa banyak kasus yang sebenarnya dari kelas yang di amati untuk di prediksi.

Tabel 1. Confusion Matrix Classification Predicted Class

Obevered Class

Class=Yes Class = No Class =

Yes

A B

True Positive

False Negative Class =

No

C D

False Positive

True Negative Untuk menghitung nilai accuracy, precision, dan recall dengan rumus perhitungan sebagai berikut :

Accuracy =( ) ...(5) Precision =

...(6) Recall =

...(7)

III. METODE A. Pengambilan Data

Dataset yang digunakan dalam eksperimen diperoleh dari pangkalan dataUniversity of California Irvine (UCI) Machine Learning Repository dengan judul Chronis Kidney Disease. Data tersebut memuat 400 record data yang terdiri dari 250 record yang terdeteksi menderita penyakit ginjal kronik dan 150 record tidak menderita penyakit ginjal kronik. Dengan 24 atribut dan 1 atribut class, Atribut Class di klasifikasi dan dijadikan sebagai penentu atau target yang akan dijadikan sebagai hasil B. Model Eksperimen

Eksperimen yang dilakukan dalam penelitian ini menggunakan tool Rapidminer. Langkah-langkahnya seperti pada gambar dibawah ini :

Gambar 1. Model Eksperimen

(4)

54 C. Evaluasi

Pengujian bertujuan untuk mempresentasikan hasil dari data yang diuji untuk memperoleh accuracy. Pada tahap ini dilakukan evaluasi model yang dipakai untuk pengukuran tingkat akurasi di tiap-tiap metode yang mengacu pada dataset yang diterapkan. Pengujian klasifikasi didasarkan pada pengujian obyek benar dan salah. Ini bisa dilihat dari tahapan yang menampilkan hasil pada pengujian KNN menggunakan Optimasi Particle Swarm Optimization dengan parameter Confusion Matrix.

IV. HASIL DAN PEMBAHASAN A. Dataset

Pada penelitian ini, Dataset CKD terdiri dari 25 atribut dan 400 record data dengan label atau target yaitu ckd atau notckd. Pada data set ini masih mengandung Missing value (data yang hilang), yaitu bentuk informasi yang tidak tersedia pada sebuah objek atau kasus, masalah yang terjadi disebabkan oleh kurangnya informasi untuk sesuatu tentang objek atau tidak diberikan, sulit dicari, atau memang informasi tersebut tidak ada.

Pada dasarnya Missing value tidak terlalu bermasalah bagi keseluruhan data, jika jumlahnya hanya sedikit, misal hanya 1 % dari keseluruhan data. Namun demikian apabila persentase data yang hilang tersebut sangat besar, maka tindakan berikutnya perlu dilakukan pengujian apakah data statistik yang mengandung banyak missing value tersebut masih layak diproses lebih lanjut atau tidak. Didalam penelitian, missing value sering terjadi disebabkan adanya responden yg tidak memberikan jawaban pada alternatif jawaban yang disediakan (tipe pertanyaan tertutup).

B. Evaluasi Hasil Menggunakan KNN

Pada Penelitian ini data yang di gunakan adalah pengujian model dengan 10 fold validation tanpa menggunakan optimasi bobot ParticleSwarm Optimization dengan hasil pengujian model berupa accuracy, precision, dan recall. Hasil akurasi yang di dapatkan dicantumkan pada tabel berikut.:

Tabel 2. Hasil 10 K-Fold Cross Validation K Accuracy Precision Recall AUC

1 78.75 % 67.96 % 82.00 % 0.500

3 75.75% 63.87% 81.33% 0.804

5 73.50% 60.38% 85.33% 0.810

7 72.25% 59.07% 84.67% 0.814

9 71.50% 58.74% 80.67% 0.798

C. Evaluasi Menggunakan KNN Berbasis PSO

Pada pengujian ini pun proses yang dilakukan sama dengan pengujian KNN sebelumnya, parameter nilai populasi yang dilakukan dilakukan dalam pengujian ini adalah population size yaitu nilai 5, 10, 15, 20, 25, dan 30.Ukuran populasi PSO ditetapkan agar dapat mempercepat waktu penghitungan. Hal ini dikarenakan selama inisialisasi, semua partikel harus berada pada ruang yang mungkin. Jadi inisialisasi memerlukan waktu proses yang lebih panjang jika ukuran populasi terlalu besar.

Bagaimanapun juga untuk kasus yang kompleks, ukuran populasi yang besar lebih direkomendasikan.

Tabel 3. Hasil Eksperimen KNN Berbasis PSO Population

Size

Max Num Of Generation

Akurasi Waktu Proses

Jumlah Atribut Yang Terpilih

5 30 95.25% 11 s 11

10 30 94.25% 21 s 11

15 30 96.25% 49 s 18

20 30 97.25% 51 s 15

25 30 97.00% 1 m 5 s 16

30 30 96.50% 1m12s 14

D. Perbandingan Hasil Evaluasi

Berdasarkan hasil analisis dan eksperimen, maka dibandingkan hasil metode algoritma k-NN berbasis Particle Swarm Optimization lebih baik daripada hanya menggunakan metode k-NN saja, tingkat akurasi yang didapatkan dengan menggunakan k-NN menghasilkan akurasi sebesar 78.75 % sedangkan k-NN berbasis Particle Swarm Optimization menghasilkan akurasi 97,25%. Maka Dapat disimpulkan bahwa metode atau algoritma yang paling akurat adalah metode k-NN berbasis Particle Swarm Optimization.

Gambar 2. Perbandingan Tingkat Akurasi V. KESIMPULAN

Optimasi Partilce Swarm Optimization dapat menghasilkan tingkat akurasi yang lebih baik. Hal ini dapat dilihat dari peningkatan akurasi yang telah dihasilkan, dan Dari hasil pengujian ini bahwa algoritma k-Nearest Neighbor dengan menggunakan berbasis Particle Swarm Optimization dapat digunakan untuk menentukan prediksi penyakit ginjal kronik. untuk penelitan selanjutnya dalam meningkatkan tingkat akurasi dapat dilakukan dengan menggabungkan beberapa algoritma dan dapat juga menambahkan beberapa algoritma optimasi lainnya.

REFERENSI

[1] Nuraini M Vika, and Mariyanti Sulis, “Gambaran Makna Hidup Pasien Gagal Ginjal Kronik Yang Menjalani Hemodialisa,” J.

Psikol., vol. 11, no. 1, pp. 1–13, 2002.

[2] Makmur Wahida Nur, Tasa Hamzah, and Sukriyadi “Pengaruh Hemodialiasis Terhadap Kadar Ureum Dan Kreatinin Darah Pada Pasien Gagal Ginjal Kronik Yang Menjalani Sudirohusodo Makassar,” IJCD., vol. 2, no.1, pp. 1–7, 2013.

[3] P. sinha; P. Sinha, “Comparative Study of Chronic Kidney Disease Prediction using KNN and SVM,” Int. J. Eng. Res. Technol., vol. 4, no. 12, pp. 608–612, 2015.

(5)

55 [4] B. Chopard and M. Tomassini, “Particle swarm optimization,” Nat.

Comput. Ser., pp. 97–102, 2018.

[5] V. S and D. S, “Data Mining Classification Algorithms for Kidney Disease Prediction,” Int. J. Cybern. Informatics, vol. 4, no. 4, pp.

13–25, 2015.

[6] P. Purnana and D. C. Supriyanto, “Deteksi Penyakit Diabetes Type Ii Dengan Naive Bayes Berbasis Particle Swarm Optimization,” J.

Teknol. Inf., vol. 9, no. 2, pp. 1414–9999, 2013.

[7] Z. Ji, Y. Wang, Y. Chu, and Q. Wu, “Bacterial particle swarm optimization,” Chinese J. Electron., vol. 18, no. 2, pp. 195–199, 2009.

Referensi

Dokumen terkait

Algoritma yang digunakan dalam penelitian ini adalah K-Nearest Neighbor (K-NN) berbasis Forward Selection untuk meningkatkan akurasi dalam diagnosis penyakit jantung

Bahan referensi yang digunakan mencakup Support Vector Machine sebagai algoritma klasifikasi, K-Means sebagai proses clustering pada data kontinu, dan Particle

Prediksi Gejala Autism Spectrum Disordes pada Remaja Menggunakan Optimasi Particle Swarm Optimization dan Algoritma Support Vector Machine.. Informatics for

Oleh karena itu dengan adanya sebuah prediksi kelulusan mahasiswa dengan teknik klasifikasi menggunakan algoritma k-nearest neighbor diharapkan agar mahasiswa dapat

2.1 Algoritma K-Nearest Neighbor (K-NN) Menurut Kusrini dan Emha Taufiq Luthfi dalam buku Algoritma Data Mining (2009; 93) menyatakan Nearest Neighbor adalah pendekatan

Sistem Prediksi Prestasi Akademik Mahasiswa menggunakan algoritma K-Nearest Neighbor ini dapat dikembangkan lagi dengan mengambil data yang seimbang

spesifik model algoritma K-Nearest Neighbor berbasis Forward Selection pada penyakit jantung yang akan diteliti dibanding teknik- teknik diagnosis lain yaitu Forward

Pada penelitian tersebut, penulis menggunakan metode Kalman Filter dan Particle Swarm Optimization sebagai algoritma pengolah data untuk sistem estimasi posisi objek di dalam ruangan