Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 102
Prediksi Gelombang Corona Dengan Metode Neural Network
Andriana1, Dickya2, Meliy Jefikaa3, Hendrick Kosasia4, Gali Prayogia5, Williama6, Abdi Dharmaa7
aTeknik Informatika, Universitas Prima Indonesia, Medan, Indonesia email : *[email protected]
I. Pendahuluan
Virus telah lama menjadi cikal bakal pandemi penyakit. Virus dapat menyebabkan beberapa penyakit yang beresiko tinggi hingga mematikan. Kemudahan transportasi menjadi salah satu alasan virus dapat menyebar INFORMASI ARTIKEL A B S T R A K
Kata Kunci:
COVID-19, Regresi, Regresor MLP
Hingga saat ini penyebaran COVID-19 tak terbendung. COVID-19 disebabkan oleh Virus RNA yang menyebar luas antara manusia, mamalia, dan burung yang menyebabkan penyakit pernapasan, enterik, jantung, dan neurologis. Walaupun diketahui infeksi saluran pernafasan, virus melalui plasma atau serum juga sering terjadi. Oleh karena itu, secara teoritis masih ada risiko penyebaran virus melalui transfusi darah. Karena semakin banyak kasus yang tidak menunjukkan gejala, kekhawatiran tentang penyebaran COVID-19 semakin meningkat. Beberapa upaya telah dilakukan untuk menurunkan angka kematian seperti penggunaan masker dan karantina penguncian. Jaringan saraf menyesuaikan cara kerja otak manusia. Salah satu teknik neural network adalah Multilayer Perceptron (MLP). Dalam MLP, data masukan diterima melalui satu dimensi dan disebarkan melalui jaringan hingga diperoleh keluaran. Setiap koneksi neuron pada dua layer yang bertetangga memiliki satu nilai dimensi yang menentukan kualitas node tersebut. Pada setiap input data pada setiap layer dilakukan perhitungan bobot layer, kemudian hasilnya akan ditransformasikan dengan menggunakan rumus non linier yang disebut dengan fungsi aktivasi.
Hasil penelitian ini didapatkan dengan bantuan dua teknik validasi silang yaitu GridSearchCV dan KFold Cross Validation yang masing-masing memberikan skor 0,943887 dan 0,911341. Skor tersebut dicapai dengan menggunakan r2 dimana parameter terbaik dari model ditentukan sebagai: relu, 0.1, (10,10), invscaling dan lbfgs. Hasil penelitian menunjukkan bahwa model yang diusulkan dapat melakukan prediksi dengan baik terhadap angka kematian korona.
Keywords:
COVID-19, Regression, MLP Regessor
ABSTRACT
Until recently the spread of COVID-19 is unstoppable. COVID-19 is caused by RNA Virus that spread widely between humans, mammals, and birds which cause respiratory, enteric, heart and neurologic diseases.
Although it is known for respiratory infection, the virus through plasma or serum is also happen often. Therefore, there is still theoretical risk of the virus spreading through blood transfusion. Because there are more cases that shown no symptoms, worries about the spread of COVID-19 is increasing. Several attempts have been done for alleviate mortality rates like mask usage and lockdown quarantine. Neural network adapt on how a human brain works. One of neural network techniques is Multilayer Perceptron (MLP). In MLP, input data is received through one dimension and spread through network until an output is achieved.
Every neuron connection on two neighboring layers have one dimensional value that determine the quality of that node. On every input data at each layer calculation is done by the weight of the layer, and then the result will be transformed by using non-linear formula that called as activation function. The result of this research is found by the help of two cross validation technic: GridSearchCV and KFold Cross Validation which gave each 0.943887 and 0.911341 score. The score is achieved using r2 which the best parameter of the model is determined as: relu, 0.1, (10,10), invscaling and lbfgs. Result showns that the proposed model can do the prediction well against the mortality rate of corona.
Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 103 dengan cepat dan luas[1]. COVID-19 diawali pada bulan Desember tahun 2019, sekelompok penyakit pernapasan akut terjadi di Wuhan, Provinsi Hubei, Tiongkok. Penyakit ini dengan cepat menyebar terlepas upaya karantina yang langsung dilakukan terhadap Wuhan. Pada tanggal 31 Januari 2020 tercatat ada total 9692 kasus yang telah dikonfirmasi di Tiongkok[2].
COVID-19 disebabkan oleh virus RNA yang didistribusikan secara luas di antara manusia, mamalia, dan burung yang menyebabkan penyakit pernapasan, enterik, hati, dan neurologis. Ada enam spesies corona virus yang diketahui menyebabkan penyakit pada manusia. Empat virus diantaranya 229E, OC43, NL63, dan HKU1. Keempat virus tersebut biasanya hanya menyebabkan gejala flu biasa pada individu yang imunokompeten. Dua jenis lainnya yaitu coronavirus sindrom pernafasan akut akut (SARS-CoV) dan pernapasan Timur Tengah sindrom coronavirus (MERS-CoV) berasal dari zoonosis (penyakit yang secara alami menyebarkan virus dari hewan vebrata ke manusia atau sebaliknya) dan dikaitkan sebagai penyakit yang terkadang fatal [3].
Organisasi Kesehatan Dunia mendeklarasikan COVID-19 di China sebagai Emergency Health Public of Concern International. Dua coronavirus lainnya infeksi — SARS pada 2002-2003 dan Sindrom Pernafasan Timur Tengah (MERS) pada 2012 — keduanya menyebabkan pernapasan parah sindrom pada manusia.
Ketiga penyakit menular yang muncul ini menyebabkan penyebaran global oleh β-coronavirus. Meskipun coronavirus biasanya menginfeksi saluran pernapasan bagian atas atau bawah, virus tetap masuk plasma atau serum sering terjadi. Oleh karena itu, masih ada risiko teoritis penularan virus corona melalui transfusi produk darah labil. Karena semakin banyak infeksi tanpa gejala yang ditemukan di antara COVID-19 kasus, pertimbangan keamanan darah dan coronavirus telah muncul terutama pada area endemik[4].
Coronavirus hingga saat ini terus menular hingga ke banyak orang dan telah menyebabkan banyak kematian akibat coronavirus ini. Maka dilakukan salah satu metode yang paling efektif untuk mencegah dan mengobati infeksi virus yaitu dengan vaksin spesifik dan agen antivirus. Ini dikarenakan belum ada perawatan efektif yang menargetkan 2019-nCoV. Adapun Herbal yang digunakan yang lebih efektif untuk mengendalikan penyakit menular yang ditunjukkan selama wabah sindrom pernapasan akut (SARS) yaitu dengan pengobatan China tradisional[5].
Untuk mencegah dari berbagai virus yang sudah tersebar, adapun cara-caranya yang simpel yaitu dengan cara menggunakan sarung tangan saat melakukan kontak fisik dengan benda, hewan serta sesama manusia dan menggunakan masker saat berpergian kemanapun dan dimanapun untuk terhindar dari virus-virus yang meresahkan serta mematikan ini agar menjadi lebih rendah dan jangan lupa mencuci tangan dan menjaga kebugaran tubuh[6].
JST (neural network) mengadopsi dari kemampuan otak manusia yang mampu memberikan stimulasi/ransangan, melakukan proses, dan memberikan output. Output diperoleh dari variasi stimulasi dan proses yang terjadi di dalam otak manusia. Kemampuan manusia dalam memproses informasi merupakan hasil kompleksitas proses di dalam otak. Kemampuan komputasi yang luar biasa ari otak manusia ini merupakan sebuah keunggulan dalam kajian ilmu pengetahuan khususnya untuk hal memprediksikan sesuatu[7]. Salah satu metode JST adalah Multilayer Perceptron (MLP). Di dalam metode MLP menerima input data pada satu dimensi dan merambatkan data tersebut ke jaringan hingga menghasikan output. Setiap hubungan antar neuron pada dua layer yang bertetanggaan memiliki nilai bobot satu dimensi yang menentukan kualitas dari mode tersebut. Di setiap data input di layernya dilakukan perhitungan dengan nilai bobot yang ada, kemudian hasil perhitungan akan ditransformasikan dengan menggunakan perhitungan secara non-linear yang mana itu disebut fungsi aktivasi[8].
II. Tinjauan Teoritis
Algoritma Multilayer Perceptron (MLP) yang dijadikan acuan penelitian ini telah pernah dipakai untuk membangun model untuk memprediksi penyebaran COVID-19 pada 29 Mei 2020. Kesimpulan penelitian tersebut menunjukkan ketimpangan data yang dominan merupakan hasil observasi dari daerah tiongkok.
Model yang dibangun memakan training time dengan rata-rata 2357.67 menit untuk tiga target yang diuji satu persatu (Positif, Sembuh, Meninggal)[9]. Algoritma MLP telah banyak digunakan untuk memprediksi berbagai data mulai dari prediksi harga beras[10] hingga prediksi kecepatan angin[11].
Penelitian kedua tidak melakukan pencarian terhadap parameter terbaik dan langsung menentukan parameter awal terhadap model, peneliti membandingkan peforma MLP dengan algoritma Long Short Term Memory dengan parameter awal yang telah ditentukan secara manual. Penelitian yang dilakukan oleh Yousra Amellas, membandingkan peforma MLP dengan NARX dan memfokuskan pengembangan model dari input layer masing-masing algoritma. Peneliti dalam penelitian ini, menargetkan prediksi terhadap gelombang kematian yang disebabkan COVID-19 dengan membangun model yang dibangun dengan database yang stabil dan terbaru. Pencarian parameter terbaik yang dilakukan dengan metode cross validation (GridSearchCV dan KFold) sangat dipengaruhi oleh data observasi yang dipilih, penentuan pilihan parameter yang tersedia dalam model juga sangat menentukan hasil akhir yang didapatkan oleh model. Limitasi yang akurat terhadap pilihan parameter yang ditentukan juga menjadi kunci untuk memangkas waktu pelatihan yang dibutuhkan oleh model yang dibangun. Penelitian ini berfokuskan pada pengembangan model yang tidak dilakukan ataupun terlewatkan oleh penelitian yang sebelumnya dengan penambahan teknik cross validation dalam
Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 104 memaksimumkan output yang dihasilkan model dengan pencarian parameter dan pembagian dataset terbaik untuk model.
III.Metodologi
Dataset terdiri dari 14811 entri data yang merupakan representatif data observasi beberapa daerah yang terkena pandemi COVID-19. Dataset dibuat dapat diakses untuk penelitian oleh Johns Hopkins University.
Diagram alur penelitian dapat dilihat pada gambar dibawah. Diagram alur menggambarkan langkah proses penelitian yang dilakukan pada penelitian ini.
Gambar 1. Diagram Alur Penelitian
Perancangan model dimulai dengan menerapkan seleksi fitur terhadap database. Fitur yang terseleksi dari database terdiri dari dua data independen yaitu: Angka Positif dan Angka Pulih, diikuti dengan satu data target yaitu Angka Kematian. Data kemudian dibagi dengan presentase data training dengan data test 75:25. Hasil analisa dan perancangan dapat menunjukkan bahwa data target bersifat kontinu dan memiliki perbandingan linear dengan data independen. Hasil tersebut menunjukan algoritma regressor adalah algoritma yang tepat untuk diterapkan terhadap model. Coding dari perangkat lunak akan dibuat dengan menggunakan bahasa pemrograman Python. Algoritma MLP kemudian dibangun dengan menggunakan bantuan framework PyCharm dan library pada python yang telah tersedia.
IV. Hasil dan Pembahasan
Dalam penelitian ini, dataset dibagi menjadi data test dan data training. Pembagian dilakukan dengan rasio 67%:33% (data training:data test). Total data dari hasil pembagian dataset ada sebanyak 11107 data training dan 3702 data test. Target (y) bersifat kontinu sehingga algoritma yang tepat dipakai adalah algoritma regressor. MLP Regressor adalah algoritma neural network yang dipakai untuk diimplementasikan terhadap dataset yang bersifat regresi. Pada algoritma JST umumnya terdapat dua tipe yaitu klasifikasi dan regresi, perbedaan utama antara keduanya adalah data dependen klasifikasi (target) bersifat kategorik sedangkan dalam regresi bersifat numerik.
A. Hasil
Tabel 3.1 menunjukkan parameter yang ditentukan untuk model MPL Regressor yang dibangun. Tidak ada cara yang tersedia untuk menentukan dengan tepat apa saja parameter yang sesuai selain mencobanya satu persatu karena setiap parameter yang terbaik akan berubah tergantung dari dataset yang dipilih. Salah satu cara untuk mengatasi permasalahan tersebut adalah menggunakan GridSearchCV. GridSearchCV adalah fungsi library pada python yang mengulang melalui parameter yang ditentukan terlebih dahulu dan mengimplementasikannya kedalam model untuk menemukan parameter terbaik.
Tabel 1. List Parameter Model
Parameter Nilai
Alpha 0.001, 0.01, 0.1, 1, 10, 100 Hidden Layer Size (Matriks) (5), (10,10), (7,7,7)
Solver lbfgs
Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 105
Activation relu, tanh
Learning Rate constant, invscaling
Pembagian dataset menjadi data training dan data test terkadang dapat mengalami ketimpangan ketika data yang terbagi tidak seimbang(mis: data training terdiri dari data yang diatas 1000 dan data test terdiri dari data yang dibawah 1000). Pembagian umumnya dilakukan secara acak dan untuk mendapatkan hasil prediksi yang baik entri data yang dibagi dicoba satu per satu per kemungkinan. Untuk mengatasi hal tersebut digunakan KFold Cross Validation dengan n_splits=5, shuffle=True dan random_state=0. Hal ini memungkinan KFold Cross Validation untuk mengacak dataset, membaginya kedalam 5 kelompok, mengambil satu kelompok sebagai data test dan sisanya menjadi data training, lalu mencobanya untuk setiap kemungkinan yang ada dari 5 kelompok yang terbentuk dan menilai pembagian data test dan data training mana yang paling tepat untuk di input kedalam model.
Hasil analisa algoritma menunjukkan perbandingan data prediksi dengan data asli seperti yang ditunjukan pada Gambar 1. Grafik menunjukkan model dapat memprediksi data dengan baik semakin mirip kedua grafik maka semakin akurat model yang dibangun. Hasil diperoleh setelah mendapatkan parameter terbaik dari GridSearchCV.
Gambar 2. Perbandingan Data Prediksi (hijau) dengan Data Asli (biru)
GridSearchCV membagi data secara acak sehingga dapat dihasilkan beberapa hasil yang berbeda per eksekusi model. Peforma algoritma neural network terkadang juga ditentukan dengan kapasitas CPU dan Processor tempat dijalankannya program. Tabel 3.1. menunjukkan lima kali percobaan uji coba model. Secara keseluruhan waktu proses yang dibutuhkan untuk mengeksekusi model yang dibangun berkisar diantara dua hingga lima menit. Index terbaik diperoleh dari urutan ranking terbaik GridSearchCV yang diperoleh dari 3 folds untuk 72 kandidat dengan total fitting model 216 yang dapat dilihat pada Tabel 3.2.
Tabel 2. Hasil Pengujian GridSearchCV.
Uji coba ke- Index terbaik Skor terbaik Parameter terbaik 1 14 0.938699 relu, 0.1, (10,10), constant, lbfgs 2 15 0.943887 relu, 0.1, (10,10), invscaling, lbfgs 3 21 0.941849 relu, 1, (10,10), invscaling, lbfgs 4 4 0.943277 relu, 0.001, (7,7,7), constant, lbfgs 5 27 0.930079 relu, 10, (10,10), invscaling, lbfgs
Tabel 3. Contoh Pengukuran Uji Coba Pertama GridSearchCV.
mean_fit_time std_fit_time … std_test_score rank
14 1.692199 0.938699 … 0.025227 1
8 1.631520 0.943887 … 0.022765 2
17 1.851899 0.941849 … 0.010594 3
16 1.941810 0.943277 … 0.031742 4
Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 106
21 1.675188 0.930079 … 0.055110 5
… … … …
70 1.617863 0.192734 … 0.174332 68
46 1.697183 0.132109 … 0.055025 69
41 1.133523 1.133523 … 0.163502 70
65 1.144558 1.144558 … 0.188732 71
Dari kelima uji coba skor terbaik didapat pada uji coba kedua dengan nilai skor 0.943887. Nilai skor GridSearchCV ini didapat dengan menggunakan metode penilaian r2 (semakin mendekati nilai 1, semakin baik). Setelah proses GridSearchCV dilakukan Cross Validation dengan teknik KFold. Skor dilakukan dengan penilaian r2 juga yang mana dapat dilihat pada tabel 3.3.
Tabel 4. Hasil Penilaian KFold Cross Validation.
Uji coba ke- mean_score
1 0.844795
2 0.911341
3 0.849548
4 0.821632
5 0.855686
Terlihat bahwa uji coba kedua juga memiliki nilai peforma terbaik pada KFold Cross Validation. Gambar 2 menunjukan grafik persebaran angka kematian prediksi dengan yang sebenarnya. Semakin setiap titik mendekati garis diagonal lurus maka semakin akurat hasil prediksi model. Dapat dilihat bahwa uji coba model kedua dapat dengan baik memprediksi angka kematian.
Gambar 3. Grafik Persebaran Data Prediksi dengan Data Sebenarnya B. Pembahasan
Berdasarkan data grafik yang diperoleh, dapat disimpulkan bahwa model yang dipakai dapat dengan tepat mengikuti garis lurus pada diagram perbandingan data prediksi dengan data yang sebenarnya. Grafik dibuat sedemikian untuk memvisualisasi kestabilan maupun ketimpangan kemampuan model dalam melakukan prediksi. Beberapa data menunjukkan ketimpangan ekstreme namun kelompok data tersebut sangat minim jumlahnya. Model yang dibangun juga berhasil dibangun dengan rata-rata waktu latih sebesar 3.5 menit yang tergolong unggul dibandingkan model serupa lainnya.
Hasil latih juga berhasil dioptimisasi dengan penerapan KFold dan GridSearch cross validation.
Optimisasi secara penentuan kelompok data untuk memastikan keseimbangan antara data latih dan data uji dilakukan oleh 5-KFold dengan pengacakan data aktif, sehingga pengelompokan data dilakukan secara acak untuk mencegah kebiasan terhadap data yang dipilih. Parameter yang memungkinkan untuk algoritma MLP
Andrian, et. al. (Prediksi Gelombang Corona Dengan Metode Neural Network) 107 Regressor yang dipilih juga dioptimisasi oleh GridSearch yang melakukan sistemasi rangking terhadapnya.
Oleh karena kelompok data dipilih secara acak oleh KFold Cross Validation uji coba terhadap model dilakukan sebanyak lima kali pengulangan untuk mencari kasus terbaik dari hasil model yang didapatkan.
Pengacakan data menghilangkan kebiasan terhadap pemilihan data namun model yang dibangun dapat menghasilkan hasil yang beragam per proses pelatihan sehingga hasil yang dihasilkan model yang dibangun peneliti kurang konsisten dalam kemampuan pengulangannya.
V. Kesimpulan
Berdasarkan analisa yang dilakukan akan hasil penelitian ini, berikut adalah beberapa hal yang dapat disimpulkan:
1. Proses implementasi algoritma MPLRegressor terhadap model tergolong sukses dengan parameter terbaik activation = relu, alpha = 0.1, hidden_layer_sizes = (10,10), learning_rate= invscaling, solver= lbfgs.
2. Sistem prediksi untuk memprediksi skala kematian dari penyebaran virus COVID-19 untuk menjadi bahan pertimbangan dalam pengambilan keputusan baik secara politik maupun medis.
3. Uji coba model berlangsung selama dua hingga lima menit per uji coba. Parameter algoritma model dilakukan tuning dengan GridSearchCV dan KFold Cross Validation. Hasil menunjukan nilai r2 0.943887 untuk GridSearchCV dan 0.911341 untuk KFold Cross Validation.
Daftar Pustaka
[1] A. Al-Hazmi, “Challenges presented by MERS corona virus, and SARS corona virus to global health,”
Saudi J. Biol. Sci., vol. 23, no. 4, pp. 507–511, 2016, doi: 10.1016/j.sjbs.2016.02.019.
[2] D. Wang et al., “Clinical Characteristics of 138 Hospitalized Patients with 2019 Novel Coronavirus- Infected Pneumonia in Wuhan, China,” JAMA - J. Am. Med. Assoc., vol. 323, no. 11, pp. 1061–1069, 2020, doi: 10.1001/jama.2020.1585.
[3] N. Zhu et al., “A novel coronavirus from patients with pneumonia in China, 2019,” N. Engl. J. Med., vol.
382, no. 8, pp. 727–733, 2020, doi: 10.1056/NEJMoa2001017.
[4] L. Chang, L. Zhao, H. Gong, and L. Wang, “Detected in Blood Donations,” vol. 26, no. 7, pp. 1631–
1634, 2020.
[5] D. hai Zhang, K. lun Wu, X. Zhang, S. qiong Deng, and B. Peng, “In silico screening of Chinese herbal medicines with the potential to directly inhibit 2019 novel coronavirus,” J. Integr. Med., vol. 18, no. 2, pp. 152–158, 2020, doi: 10.1016/j.joim.2020.02.005.
[6] P. Daszak, K. J. Olival, and H. Li, “A strategy to prevent future epidemics similar to the 2019-nCoV outbreak,” Biosaf. Heal., vol. 2, no. 1, pp. 6–8, 2020, doi: 10.1016/j.bsheal.2020.01.003.
[7] A. Pujianto, K. Kusrini, and A. Sunyoto, “Perancangan Sistem Pendukung Keputusan Untuk Prediksi Penerima Beasiswa Menggunakan Metode Neural Network Backpropagation,” J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 2, p. 157, 2018, doi: 10.25126/jtiik.201852631.
[8] V. Maha, P. Salawazo, D. Putra, J. Gea, F. Teknologi, and U. P. Indonesia, “Implementasi Metode Convolutional Neural Network ( CNN ) Pada Peneganalan Objek Video Cctv,” J. Mantik Penusa, vol. 3, no. 1, pp. 74–79, 2019.
[9] Z. Car, S. Baressi Šegota, N. Anđelić, I. Lorencin, and V. Mrzljak, “Modeling the Spread of COVID-19 Infection Using a Multilayer Perceptron,” Comput. Math. Methods Med., vol. 2020, 2020, doi:
10.1155/2020/5714714.
[10] S. Sen, D. Sugiarto, and A. Rochman, “Komparasi Metode Multilayer Perceptron ( MLP ) dan Long Short Term Memory ( LSTM ) dalam Peramalan Harga Beras,” vol. XII, no. 1, pp. 35–41, 2020.
[11] Y. Amellas, O. El Bakkali, A. Djebil, and A. Echchelh, “Short-term wind speed prediction based on MLP and NARX network models,” Indones. J. Electr. Eng. Comput. Sci., vol. 18, no. 1, pp. 150–157, 2019, doi: 10.11591/ijeecs.v18.i1.pp150-157.
[12}Sianturi, F. A. (2019). Implementasi Metode Certainty Factor Untuk Diagnosa Kerusakan Komputer.
MEANS (Media Informasi Analisa Dan Sistem), 4(2), 176–184.
[13] Simarmata, J., Limbong, T., Tambunan, A. R. S., Simanjuntak, M. P., Limbong, R., Purnomo, A., Kumalasari, R. D., Anam, F., Khoifulloh, K., Nisa, K., Aryni, Y., Purba, O. N., Sianturi, F. A., Tarigan, P., & Napitupulu, E. (2018). Multimedia of number recognition for early childhood using image object. International Journal of Engineering and Technology(UAE), 7(3.2 Special Issue 2), 796–798. https://doi.org/10.14419/ijet.v7i3.2.18760