Diagnosa Penyakit Jantung Menggunakan Algoritma SVM dengan Optimasi Grid Search
Laporan Tugas Akhir
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Informatika Universitas Muhammadiyah Malang
Achmad Zurham Wattiheluw 201710370312121
Data Science
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG 2021
ii
LEMBAR PERSETUJUAN
Diagnosa Penyakit Jantung Menggunakan Algoritma SVM dengan Optimasi Grid Search
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Achmad Zurham Wattiheluw
201710370312121
Telah Direkomendasikan Untuk Diajukan Sebagai
Judul Tugas Akhir Informatika Universitas Muhammadiyah Malang
Menyetujui,
Malang, 16 September 2021
Dosen I Dosen II
YUFIS AZHAR, S.Kom., M.Kom Zamah Sari, M.T.
NIP. 108.1410.0544 NIP. 108.1410.0555
iii
LEMBAR PENGESAHAN
Diagnosa Penyakit Jantung Menggunakan Algoritma SVM dengan Optimasi Grid Search
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Achmad Zurham Wattiheluw
201710370312121
Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji Pada tanggal 23 Desember 2021
Menyutujui,
Penguji I, Penguji II,
Christian Sri Kusuma Aditya, S.Kom., M.Kom Wildan Suharso S.Kom., M.Kom
NIDN : 0727029101 NIDN : 0730038405
Mengetahui,
Ketua Jurusan Teknik Informatika
Galih Wasis Wicaksono, S.Kom., M.Cs.
NIDN : 0723028801
iv
LEMBAR PERNYATAAN
Yang bertanda tangan dibawah ini :
NAMA : ACHMAD ZURHAM WATTIHELUW NIM : 201710370312121
FAK./JUR. : TEKNIK/INFORMATIKA
Dengan ini menyatakan bahwa Tugas Akhir dengan judul “Diagnosa Penyakit Jantung Menggunakan Algoritma SVM dengan Optimasi Grid Search” beserta seluruh isinya adalah karya saya sendiri bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.
Demikian surat pernyataan ini saya buat dengan sebenar – benarnya.
Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini atau ada klaim dari pihak lain terhadap keaslian karya saya maka saya siap menanggung segala bentuk resiko yang berlaku.
Mengetahui, Malang, 23 Agustus 2021
Dosen Pembimbing Yang Membuat Pernyataan
YUFIS AZHAR, S.Kom., M.Kom (Achmad Zurham Wattiheluw) NIP. 108.1410.0544
v ABSTRAK
Di Indonesia, salah satu masalah yang sedang dihadapi sampai saat ini dalam pembangunana kesehatan adalah beban ganda penyakit, salah satunya merupakan penyakit tidak menular terutama penyakit jantung dan pembuluh darah.
Berdasarkan hasil Riskesdas 2017, diperlihatkan bahwa sebesar 7,2% prevalensi untuk kasus penyakit jantung itu sendiri. Pada penelitian ini mengusulkan metode support vector machine yang akan digunakan untuk melakukan klasifikasi diagnosa penyakit jantung. Proses pengujian dilakukan dengan 3 kombinasi yang dibedakan pada proses preprocessing, yaitu dengan data mentah, normalisasi, dan standarisasi.
Setelah itu, masing-masing dilakukan hyperparameter tunig dengan grid search dan tidak menggunakan optimasi grid search. Evaluasi akurasi menggunakan metode multiple cross-fold evaluation yang menggunakan 10%,20%,30%,.. ,80%, 90% dari semua kumpulan data UCI dengan total sembilan ukuran kumpulan klasifikasi yang berbeda. Berdasarkan hasil keseluruhan penelitian, metode SVM dengan melibatkan optimasi grid search memberikan performa yang cukup baik dengan hasil akurasi 0.90 dengan data normalisasi dan standarisasi.
Kata Kunci : SVM, Penyakit Jantung, Grid Search
vi ABSTRACT
In Indonesia, one of the problems currently being faced in health development is the double burden of disease, one of which is non-communicable diseases, especially heart and blood vessel disease. Based on the results of Riskesdas 2017, it was shown that the prevalence was 7.2% for cases of heart disease itself. This study proposes a support vector machine method that will be used to classify diagnoses of heart disease. The testing process is carried out with 3 different combinations in the preprocessing process, namely raw data, normalization, and standardization. After that, each performed a hyperparameter tunig with grid search and did not use grid search optimization. The evaluation of accuracy uses the multiple cross-fold evaluation method that uses 10%, 20%, 30%, .., 80%, 90% of all UCI data sets with a total of nine different classification set sizes. Based on the overall results of the study, the SVM method which involves grid search optimization gives a fairly good performance with an accuracy of 0.90 with normalization and standardization data.
Keywords : Support Vector Machine, Heart Disease, Grid Search
vii
LEMBAR PERSEMBAHAN
Alhamdulillahi rabbil ‘alamin, dengan memanjakatkan puji dan syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya, dan tak lupa shalawat serta salam kepada junjungan Nabi Muhammad SAW, sehingga dengan ridha-Nya skripsi berjudul “Klasifikasi Invasive Ductal Carcinoma menggunakan Convolutional Neural Network” dapat terselesaikan.
Penyelesaian skripsi ini tidak lepas dari dukungan dan bantuan dari berbagai pihak, baik secara langsung maupun tidak langsung. Oleh karena itu, pada kesempatan ini penulis dengan segala kerendahan hati mengucapkan terimakasih dan penghargaan yang sebesar-besarnya kepada:
1. Allah SWT yang selalu memberikan kemudahan dan kesabaran dalam mengerjakan tugas akhir ini.
2. Kedua Orang Tua saya, caca, dan kaka atas segala doa, dukungan, motivasi, dan nasehat yang diberikan selama mengerjakan tugas akhir ini.
3. Dosen Pembimbing saya, Bapak Yufis Azhar, S.Kom., M.Kom. dan Bapak Zamah Sari, M.T. yang telah bersedia dan meluangkan waktunya untuk membantu dan membimbing terkait tugas akhir ini.
4. Seluruh Bapak dan Ibu Dosen Pengajar yang telah memberikan ilmunya dan Staff TU jurusan Teknik Informatika.
5. Teman-teman kelas yang selalu mendukung saya, terutama dimas, mbakfina dan maszaky yang sangat baik dan sabar dalam mengajarkan ilmunya.
Malang, 23 Agustus 2021
Achmad Zurham Wattiheluw
viii
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas limpahan rahmat dan hidayah-NYA sehingga peneliti dapat menyelesaikan tugas akhir yang berjudul :
“Diagnosa Penyakit Jantung Menggunakan Algoritma SVM dengan Optimasi Grid Search”
Di dalam tulisan ini disajikan pokok – pokok bahasan yang meliputi latar belakang, metode penelitian, dan hasil dan pembahasan yang telah didapat dari penelitian ini dan telah disimpulkan berdasarkan hasil yang telah didapat oleh peneliti. Peneliti menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu peneliti mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan.
Malang, 23 Agustus 2021
Achmad Zurham Wattiheluw
ix DAFTAR ISI
LEMBAR PERSETUJUAN ... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN ... iv
ABSTRAK ... v
ABSTRACT ... vi
LEMBAR PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
BAB I ... 1
PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Tujuan Penelitian ... 3
1.4 Cakupan Masalah ... 3
BAB II ... 5
TINJAUAN PUSTAKA ... 5
2.1 Penelitian Terdahulu ... 5
2.2 Penyakit Jantung ... 5
2.3 Support Vector Machine (SVM) ... 6
2.4 Tuning Parameter ... 7
2.5 Grid Search ... 7
2.6 StandardScaler ... 8
2.7 Normalisasi Data (Normalization ... 8
2.8 Metrik Performa ... 9
BAB III ... 11
METODE PENELITIAN ... 11
3.1 Dataset ... 12
x
3.2 Pre-processing ... 13
3.3 Membangun Model Support Vector Machine ... 13
3.4 Perencanaan Pengujian ... 15
3.5 Evaluasi ... 16
BAB IV ... 17
HASIL DAN PEMBAHASAN ... 17
4.1 Spesifikasi ... 17
4.2 Dataset ... 17
4.3 Preprocessing ... 18
4.4 Pengujian Tanpa Hyperparameter Grid Search ... 19
4.4.1 Pengujian dengan Raw Data ... 19
4.4.2 Pengujian dengan Normalisasi Data ... 21
4.4.3 Pengujian dengan Standarisasi Data ... 22
4.4.4 Visualisasi Pengujian Raw, Normalisasi dan Standarisasi Data ... 24
4.5 Pengujian Dengan Parameter Grid Search ... 25
4.5.1 Pengujian dengan Raw Data Grid Search ... 25
4.5.2 Pengujian dengan Normalisasi Data Grid Search ... 27
4.5.3 Pengujian dengan Standarisasi Data Grid Search ... 28
4.5.4 Visualisasi pengujian Raw, Normalisasi dan Standarisasi Data dengan Grid Search ... 30
4.6 Analisa Performa Hasil ... 31
4.6.1 Performa Model Terbaik ... 31
4.6.2 Perbandingan Akurasi ... 33
BABV ... 35
PENUTUP ... 35
5.1 Kesimpulan ... 35
5.2 Saran ... 35
DAFTAR PUSTAKA ... 36
xi
DAFTAR GAMBAR
Gambar 1. Pembagian Linier untuk 2 Kelas dengan Klasifikasi SVM [19] ... 6
Gambar 2. Alur Penelitian... 11
Gambar 3. Source Code Input Dataset ... 18
Gambar 4. Source Code Implementasi Grid Search ... 19
Gambar 5. Source Code Pengujian Raw Data ... 20
Gambar 6. Source Code Pengujian Normalisasi Data ... 21
Gambar 7. Source Code Pengujian Standarisasi Data ... 23
Gambar 8. Source code visualisasi raw, normalisasi, dan standarisasi data ... 24
Gambar 9. Visualisasi Pengujian Raw, Normalisasi, dan Standarisasi Data ... 25
Gambar 10. Source Code Raw Data dengan Grid Search ... 26
Gambar 11. Source Code Normalisasi Data dengan Grid Search ... 27
Gambar 12. Source Code Standarisasi Data dengan Grid Search ... 29
Gambar 13. Source Code Visualisasi Raw, Normalisasi, dan Standarisasi Data dengan Grid Search ... 30
Gambar 14. Visualisasi Pengujian Raw, Normalisasi, dan Standarisasi Data dengan Grid Search ... 31
Gambar 15. Confusion Matrix ... 33
xii
DAFTAR TABEL
Tabel 1. Penelitian terdahulu... 5
Tabel 2. Deskripsi atribut ... 12
Tabel 3. Rata-rata akurasi menggunakan raw data ... 20
Tabel 4. Rata-rata akurasi menggunakan normalisasi data ... 22
Tabel 5. Rata-rata akurasi menggunakan standarisasi data ... 23
Tabel 6. Rata-rata akurasi menggunakan raw data dengan gridsearch. ... 26
Tabel 7. Rata-rata akurasi menggunakan normalisasi data dengan gridsearch .... 28
Tabel 8. Rata-rata akurasi menggunakan standarisasi data dengan gridsearch ... 29
Tabel 9. Pengaturan Parameter Terbaik ... 32
Tabel 10. Classification Report ... 32
Tabel 11. Perbandingan Akurasi ... 33
36
DAFTAR PUSTAKA
[1] S. S. Virani et al., Heart disease and stroke statistics—2020 update: A report from the American Heart Association. 2020.
[2] Who, “The top 10 causes of death,” 2018. [Online]. Available:
https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of- death.
[3] Kemenkes RI, “KepMenkes RI, Nomor 854/MENKES/SK/IX/2009 Tentang Pedoman Pengendalian Penyakit Jantung dan Pembuluh Darah,”
Kementerian Kesehatan Republik Indonesia. pp. 1–31, 2009.
[4] A. Jain, M. Ahirwar, and R. Pandey, “A Review on Intutive Prediction Of Heart Disease Using Data Mining Techniques,” Int. J. Comput. Sci. Eng., vol. 7, no. 7, pp. 109–113, 2019.
[5] R. C. Deo, “Machine learning in medicine,” Circulation, vol. 132, no. 20, pp. 1920–1930, 2015.
[6] Z. O. and E. J. Emanuel, “Predicting the Future — Big Data, Machine Learning, and Clinical Medicine,” N. Engl. J. Med., vol. 375, no. 13, pp.
1212–1216, 2016.
[7] F. Cabitza, R. Rasoini, and G. F. Gensini, “Unintended consequences of machine learning in medicine,” JAMA - J. Am. Med. Assoc., vol. 318, no. 6, pp. 517–518, 2017.
[8] A. P. Pawlovsky, “An ensemble based on distances for a kNN method for heart disease diagnosis,” Int. Conf. Electron. Inf. Commun. ICEIC 2018, vol. 2018-Janua, pp. 1–4, 2018.
[9] M. Bhagat, D. Kumar, I. Haque, H. S. Munda, and R. Bhagat, “Plant leaf disease classification using grid search based SVM,” 2nd Int. Conf. Data, Eng. Appl. IDEA 2020, 2020.
[10] A. Ben-Hur and J. Weston, “A user’s guide to support vector machines.,”
Methods Mol. Biol., vol. 609, pp. 223–239, 2010.
[11] and C.-J. L. Chih-Wei Hsu, Chih-Chung Chang, “A Practical Guide to Support Vector Classification,” Theory, Cult. Soc., vol. 17, no. 1, pp. 39–
61, 2016.
37
[12] I. Syarif, A. Prugel-Bennett, and G. Wills, “SVM parameter optimization using grid search and genetic algorithm to improve classification
performance,” Telkomnika (Telecommunication Comput. Electron.
Control., vol. 14, no. 4, pp. 1502–1509, 2016.
[13] P. Lameski, E. Zdravevski, R. Mingov, and A. Kulakov, “SVM parameter tuning with grid search and its impact on reduction of model over-fitting,”
Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect.
Notes Bioinformatics), vol. 9437, pp. 464–474, 2015.
[14] I. Pembangunan, M. Provinsi, and J. Tengah, “K-Nearset Neighbor (K-NN) dan Support Vector Machine (SVM) untuk Klasifikasi Indeks
Pembangunan Manusia Provinsi Jawa Tengah,” J. Mipa, vol. 40, no. 2, pp.
118–124, 2017.
[15] R. Halodoc, “Penyakit Jantung.” [Online]. Available:
https://www.halodoc.com/kesehatan/penyakit-jantung.
[16] A. Rojas-Dominguez, L. C. Padierna, J. M. Carpio Valadez, H. J. Puga- Soberanes, and H. J. Fraire, “Optimal Hyper-Parameter Tuning of SVM Classifiers with Application to Medical Diagnosis,” IEEE Access, vol. 6, no. October, pp. 7164–7176, 2017.
[17] N. H. Farhat, “Photonit neural networks and learning mathines the role of electron-trapping materials,” IEEE Expert. Syst. their Appl., vol. 7, no. 5, pp. 63–72, 1992.
[18] N. Deng, Y. Tian, and C. Zhang, Support vector machines: Optimization based theory, algorithms, and extensions. 2012.
[19] L. Demidova, I. Klyueva, Y. Sokolova, N. Stepanov, and N. Tyart,
“Intellectual Approaches to Improvement of the Classification Decisions Quality on the Base of the SVM Classifier,” Procedia Comput. Sci., vol.
103, no. October 2016, pp. 222–230, 2017.
[20] N. Guenther and M. Schonlau, “Support vector machines,” Stata J., vol. 16, no. 4, pp. 917–937, 2016.
[21] J. Bergstra and Y. Bengio, “Random search for hyper-parameter optimization,” J. Mach. Learn. Res., vol. 13, pp. 281–305, 2012.
[22] X. H. C. Yong Shuai, Chunxu Jiang, Xinyi Su, Can Yuan, “A Hybrid
38
Clustering Model for Analyzing COVID-19 National Prevention and Control Strategy,” pp. 2–5, 2020.
[23] A. Jamal, A. Handayani, A. A. Septiandri, E. Ripmiatin, and Y. Effendi,
“Dimensionality Reduction using PCA and K-Means Clustering for Breast Cancer Prediction,” Lontar Komput. J. Ilm. Teknol. Inf., vol. 9, no. 3, p.
192, 2018.
[24] V. K. Putri and F. I. Kurniadi, “Klasifikasi Diabetes Menggunakan Model Pembelajaran Ensemble Blending,” J. Ultim., vol. 10, no. 1, pp. 11–15, 2018.
[25] “UCI Machine Learning Repository.” [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/heart+disease.
[26] N. A. Almansour et al., “Neural network and support vector machine for the prediction of chronic kidney disease: A comparative study,” Comput.
Biol. Med., vol. 109, no. April, pp. 101–111, 2019.
[27] F. P. G. Varoquaux and A. G. V. M. B. Thirion, “Scikit-learn: Machine Learning in Python Fabian,” J. ofMachine Learn. Res., pp. 2825–2830, 2011.
39