TEKNIK SELEKSI FITUR UNTUK MEMILIH
FITUR TERBAIK PADA PREDIKSI PENYAKIT
PARKINSON BERBASIS DECISION TREE
Alvano Yulian, M.Si
Teknik Informatika, Universitas Pamulang
Jl. Surya Kencana No. 1, Pamulang, Tanggerang Selatan-Indonesia E-mail : [email protected]
2019 ABSTRAK
Parkinson merupakan penyakit yang disebabkan adanya kerusakan sel saraf di otak dan tidak dapat disembuhkan. Mengetahui adanya penyakit Parkinson sangat penting agar dapat diambil tindakan medis untuk mencegah Parkinson semakin parah. Dataset yang digunakan untuk analisa penyakit Parkinson menggunakan algoritma machine learning memiliki banyak fitur. Fitur yang banyak dapat meningkatkan kompleksitas dan belum tentu semua fitur memiliki pengaruh positif terhadap hasil analisa. Fitur yang tidak relevan dapat menurunkan kinerja model. Pada penelitian ini diusulkan penerapan seleksi fitur untuk memilih fitur yang berpengaruh positif agar kinerja model tidak menurun. Hasil eksperimen menunjukkan bahwa penerapan seleksi fitur dapat menyebabkan kinerja model menjadi lebih baik.
Kata Kunci: Penyakit Parkinson, Decision Tree, Feature Selection
xii+69 halaman; 36 gambar; 9 tabel; 35 refrensi (2006-2019).
ABSTRACT
Parkinson is a disease that is caused by nerve cell damage in the brain and incurable. Knowing about Parkinson disease is very important so that medical action can be taken to prevent Parkinson's getting worse. The dataset that uses to analysis for Parkinson disease using machine learning algorithms has many features. The dataset with many features can increase complexity, but not all features have a positive influence on the results of the analysis. Irrelevant features can reduce model performance. This research proposes to apply feature selection to chooses features that have a positive effect so that the performance of the model does not decrease. The experiment results show that the application of feature selection can lead to better model performance.
Keyword: Parkinson Disease, Decision Tree, Feature Selection
BAB I PENDAHULUAN
Parkinson adalah salah satu gangguan neurologis yang ancamannya paling signifikan terhadap kesehatan masyarakat selain stroke, multiple sclerosis, gangguan sakit kepala, demensia, epilepsi dan penyakit lainnya [1]. Penyakit Parkinson adalah penyakit saraf yang berada pada urutan kedua setelah
Alzheimer dan pengobatannya lengkapnya belum ditemukan sampai sekarang [2]. Gejala dari penyakit Parkinson di antaranya otot kaku dan lambat, tremor, serta gerakan tidak tepat atau tidak sesuai dengan yang diinginkan penderita. Ini dikarenakan dengan degenerasi ganglia basal otak serta kurangnya kadar dopamine neurotransmitter [3].
Diagnosis tradisional tidak cocok untuk deteksi dini Parkinson karena diagnosis ini memerlukan banyak pengamatan terkait kegiatan sehari-hari, keterampilan dan parameter neurologis lainnya untuk menilai perkembangan penyakit Parkinson. Berdasarkan penelitian yang telah dilakukan sebelumnya telah ditemukan bahwa Artificial Intelegence (AI) dan Machine Learning memiliki potensi klasifikasi yang baik dan juga sistem klasifikasi dapat meningkatkan akurasi dan keandalan diagnosis dan juga meminimalkan kesalahan serta sistem yang lebih efisien [4]. Peluang untuk Machine Learning tampaknya sangat besar dalam klasifikasi Parkinson menggunakan bantuan komputer dan dapat mengurangi kesalahan diagnosis yang tak terhindarkan serta variabilitas dalam layanan kesehatan, memberikan panduan (pada kondisi di mana tidak adanya dokter ahli) dan pengambil keputusan yang cepat [5].
BAB II LANDASAN TEORI 2.1 Algoritma Decission Tree
Decision Tree merupakan salah satu jenis klasifikasi yang disajikan dalam diagram pohon. Penggambaran keputusan direpresentasikan secara skematis dalam bentuk pohon. Sedangkan aturan dibingkai melalui keputusan ini untuk mengklasifikasi data. Klasifikasi data berbentuk node root untuk memulai, diakhiri dengan simpul terminal atribut [6]. Decision Tree merupakan salah satu teknik utama yang ada Data Mining. Penggunaan Decision Tree yaitu untuk memprediksi kenggotaan dari objek ke berbagai kategori (kelas) dengan mempertimbangkan nilai yang sesuai dengan atributnya (variabel prediktor) [7].
2.2 Feature Selection
Feature Selection dalam proses pembelajaran yaitu menurunkan ukuran data, meningkatkan akurasi dari prediksi, mengeluarkan fitur terpenting, dapat dengan mudah memahami atribut atau variable dan waktu yang lebih efisien [8]. Terdapat beberapa metode dalam feature selection namun yang digunakan dalam metode ini adalah forward selection serta backward selection di mana masing-masing metode ini diintegrasikan menggunakan Algoritma decision tree. Cara kerja atau tahap forward dan backward selection berbeda-beda. Forward Selection diawali dengan set atribut kosong sebagai set tereduksi. Atribut terbaik ditentukan dan ditambahkan ke himpunan tereduksi. Pada setiap langkah berikutnya, atribut asli terbaik yang tersisa ditambahkan ke set. Sedangkan
Backward Selection dimulai dengan atribut set yang lengkap. Pada setiap langkah atau iterasi atribut terburuk yang tersisa di set akan dihapus [9].
3.1.Perancangan Sistem
Perancangan sistem adalah merancang atau mendesain suatu sistem yang isinya adalah langkah-langkah operasi dalam proses pengolahan data dan proses prosedur-prosedur untuk mendukung operasi sistem. Tujuan dari perancangan sistem adalah untuk memenuhi kebutuhan dan pemakai sistem serta memberikan gambaran yang jelas dan rancang bangun yang lengkap
3.2.Perancangan UML (Unified Modelling Languange) 3.2.1.Use case diagram
Use case digunakan untuk menggambarkan setiap kasus yang melibatkan aktor atau pelaku dengan software atau perangkat lunak untuk melakukan pekerjaan tertentu. Berikut adalah use case diagram dari aplikasi prediksi penyakit Parkinson.
uc Use Case Prediksi
Aplikasi Prediksi Penyakit Parkinson
Memilih Data Latih
Pengguna
Menghitung Kinerj a
Menampilkan Grafik Kinerj a
Memprediksi Memilih Model dan
Parameter
Gambar 3. 1 Use Case Aplikasi Prediksi Penyakit Parkinson 3.2.2.Sequence Diagram
Sequence diagram menggambarkan bagaimana objek berorientasi satu sama lain melalui pesan dalam pelaksanaan use case (Whitten & Bentley, 2007). Berikut adalah sequence diagram dari aplikasi prediksi penyakit Parkinson.
1. Sequence diagram memilih data latih
sd Sequence Data Latih
Pengguna
Tab Kinerj a Controller
Menampilkan Data Latih() Memilih Data Latih()
Menampilkan Kotak Dialog()
Batal Pilih Data Latih() Mengklik Tombol Data Latih()
Gambar 3. 2 Sequence Diagram Memilih Data Latih Keterangan :
Berdasarkan gambar di atas sequence diagram memilih data latih dimulai dengan pengguna yang mengklik tombol data latih selanjutnya sistem akan menampilkan kotak dialog lalu pengguna memilih data latih dan sistem akan menampilkan data latih.
3.2.3.Activity diagram
UML model activity diagram menjelaskan perilaku dinamis dari sistem atau bagian-bagian sistem melalui aliran proses yang dilakukan sistem. Hal ini sama dengan model flow chart tetapi sedikit berbeda dikarena kan activity diagram
dapat menampilkan aliran proses sistem secara bersamaan. Komponen utama dari
activity diagram adalah action node, diwakili oleh bulat persegi panjang, yang sesuai dengan tugas yang dilakukan oleh software panah dari satu node ke node lain menjelaskan aliran kontrol.
act Memilih Data Latih Sistem Pengguna Mengklik Tombol Data Latih Menampilkan Kotak Dialog Pilihan Data Latih
Memilih Data Latih
Menampilkan Data Latih Terpilih
Gambar 3. 3 Activity diagram memilih data latih
3.2.4.Perancangan Antarmuka a. Tampilan Form Kinerja
Pilih Data Latih
Kinerja Prediksi
Prediksi Penyakit Parkinson
Aktual Akurasi Benar Salah Akurasi AUC Benar Salah Model
Fold Cross Validation
Hitung Kinerja Decision Tree ˅ ˅ ˅ Jumlah Fitur Grafik Kinerja Akurasi AUC Tutup .. . .
Gambar 3. 4 Rancangan tampilan login BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM 4.1 Hasil
Pada subbab ini akan dikemukakan hasil dari perancangan aplikasi dan hasil eksperimen (kinerja) dalam penelitian ini. Hasil dari perancangan aplikasi untuk menunjukkan apakah aplikasi tersebut sudah berjalan sesuai dengan apa yang telah diharapkan. Sedangkan hasil dari eksperimen merupakan implementasi dari ketiga metode yang digunakan dalam penelitian ini.
4.1.1 Persiapan Data
Penelitian ini menggunakan dataset yang diunduh dari website http://archive.ics.uci.edu/ml/ atau UCI Machine Learning Repository. UCI Machine Learning merupakan sebuah web yang dikelola oleh University California of Irvine atau Universitas California Irvine yang berisi database, teori domain dan generator data yang digunakan untuk menganalisis empiris Algoritma dari Machine Learning oleh komunitas Machine Learning. Dataset ini berjudul Prediksi Penyakit Parkinson yang merupakan dataset umum agar mudah dibandingkan dengan penelitian lain yang sudah ada. Dataset ini merupakan pemeriksaan yang dilakukan kepada 240 pasien di mana jumlah pasien laki-laki sebanyak 149 pasien sedangkan pasien wanita berjumlah 91 orang di mana 120 pasien positif Parkinson dan 120 lainnya negatif Parkinson. Terdapat 48 atribut pada dataset ini namun 2 atribut dihapus karena tidak sesuai dengan penelitian, jadi jumlah atribut yang digunakan sebanyak 46 atribut sudah termasuk label. 4.2 Tampilan Awal Aplikasi
Pada saat membuka aplikasi ini yang pertama muncul adalah tab kinerja.
Tab kinerja terdiri dari pilih data latih (dataset) yaitu data latih yang ingin diprediksi hasil kinerja nya. Setelah pilih data latih terdapat pilihan model yaitu
Algoritma yang akan digunakan, lalu terdapat pilihan jumlah fold cross validation
serta pilihan jumlah fitur yang hendak digunakan.
Gambar 4. 1 Tampilan Awal Aplikasi Prediksi Penyakit Parkisnon BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan penelitian yang telah diuraikan, maka dapat dibuat beberapa kesimpulan yaitu:
1. Hasil kinerja dari Algoritma decision tree dapat ditingkatkan atau diperbaiki dengan menggunakan dataset yang digunakan dalam prediksi penyakit Parkinson.
2. Dengan menggunakan dataset yang dipilih dalam penelitian ini hasil Algoritma decision tree yang diintegrasikan dengan teknik forward selection pada prediksi penyakit Parkinson meningkatkan hasil akurasi sebesar 7.57% dan AUC sebesar 0.075473.
3. Dengan menggunakan dataset yang dipilih dalam penelitian ini di mana dataset ini diunduh di website UCI Machine Learning Repository
Algoritma decision tree yang diintegrasikan dengan teknik backward selection pada prediksi penyakit Parkinson meningkatkan hasil akurasi sebesar 5.25% dan AUC sebesar 0.0525.
4. Dari dua teknik feature selection yaitu forward selection dan backward selection yang digabungkan dengan decision tree teknik forward selection
merupakan teknik yang memiliki nilai kinerja lebih baik. Sehingga
forward selection adalah teknik paling baik pada penelitian ini.
5. Dari 45 fitur yang terdapat pada dataset prediksi penyakit Parkinson fitur ke 25-30 merupakan fitur terbaik dari prediksi penyakit ini.
5.2 Saran
1. Penelitian ini dapat dikembangkan dengan menggunakan metode pengklasifikasi lain seperti Naïve Bayes, K-NN ataupun Neural Network
yang digabungkan dengan Algoritma lain sehingga dihasilkan kinerja yang memiliki nilai lebih tinggi.
DAFTAR PUSTAKA
[1] Almeida, J. S., Rebouças Filho, P. P., Carneiro, T., Wei, W., Damaševičius, R., Maskeliūnas, R., & de Albuquerque, V. H. C. (2019). Detecting Parkinson’s disease with sustained phonation and speech signals using machine learning techniques. Pattern Recognition Letters, 125, 55–62. https://doi.org/10.1016/j.patrec.2019.04.005
[2] Haq, A. U., Li, J. P., Memon, M. H., Khan, J., Malik, A., Ahmad, T., … Shahid, M. (2019). Feature Selection Based on L1-Norm Support Vector Machine and Effective Recognition System for Parkinson’s Disease Using Voice Recordings. IEEE Access, 7(c), 37718–37734. https://doi.org/10.1109/ACCESS.2019.2906350
[3] Soliman, A. B., Fares, M., Elhefnawi, M. M., & Al-Hefnawy, M. (2016). Features selection for building an early diagnosis machine learning model for Parkinson’s disease. 2016 3rd International Conference on Artificial
Intelligence and Pattern Recognition, AIPR 2016, 133–136.
https://doi.org/10.1109/ICAIPR.2016.7585225
[4] Aich, S., Sain, M., Park, J., Choi, K. W., & Kim, H. C. (2018). A mixed classification approach for the prediction of Parkinson’s disease using nonlinear feature selection technique based on the voice recording.
Proceedings of the International Conference on Inventive Computing and
Informatics, ICICI 2017, (Icici), 959–962.
https://doi.org/10.1109/ICICI.2017.8365279
[5] Prashanth, R., & Dutta Roy, S. (2018). Early detection of Parkinson’s disease through patient questionnaire and predictive modelling. International
Journal of Medical Informatics, 119, 75–87.
https://doi.org/10.1016/j.ijmedinf.2018.09.008
[6] Priyanka, N., & Ravikumar, P. (2017). Usage of data mining techniques in predicting the heart diseases - Naïve Bayes & decision tree. Proceedings of IEEE International Conference on Circuit, Power and Computing Technologies, ICCPCT 2017. https://doi.org/10.1109/ICCPCT.2017.8074215 [7] Gorunescu, F. (2011). Data mining: concepts and techniques. In Chemistry
& https://doi.org/10.1007/978-3-642-19721-5
[8] Visalakshi, S., & Radha, V. (2015). A literature review of feature selection techniques and applications: Review of feature selection in data mining. 2014 IEEE International Conference on Computational Intelligence and
Computing Research, IEEE ICCIC 2014, (1997).
https://doi.org/10.1109/ICCIC.2014.7238499
[9] Jiawei, H., Kamber, M., Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In San Francisco, CA, itd: Morgan Kaufmann. https://doi.org/10.1016/B978-0-12-381479-1.00001-0