Prediksi Banjir Berdasarkan Indeks Curah Hujan Menggunakan Deep Neural Network (DNN)
Safira Alya Fafaza, Muhammad Syaifur Rohman*,Ricardus Anggi Pramunendar, Nurul Anisa Sri Winarsih, Galuh Wilujeng Saraswati, Filmada Ocky Saputra, Danny Oka Ratmana, Guruh Fajar Shidik
Fakultas Ilmu Komputer, Program Studi Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: 1[email protected], 2,*[email protected], 3[email protected],
4[email protected], 5[email protected], 6[email protected], 7[email protected],
Email Penulis Korespondensi: [email protected]
Abstrak−Banjir merupakan bencana alam yang sering terjadi dan merupakan salah satu bencana alam yang paling merusak karena mempunyai dampak ekonomi dan sosial yang besar. Prediksi banjir yang tepat sangat penting untuk mengelola risiko dan mengatur perencanaan tanggap darurat secara efektf. Penelitian ini menggunakan Deep Neural Network (DNN) untuk membangun model prakiraan banjir yang mengandalkan indikator indeks curah hujan, selain itu untuk menangkap pola rumit dan selalu berubah yang diperoleh dari data indeks curah hujan. Dengan menggunakan informasi historis dari kejadian bencana banjir di Kerala, India, analisis dilakukan untuk menilai dampak dari berbagai faktor, khususnya dalam learning rate dan jenis optimizer, terhadap performa model. Hasil percobaan menunjukkan bahwa jenis optimizer merupakan faktor penting dalam menentukan efektivitas model yang ditunjukkan dalam statistik ANOVA dengan nilai P-value sebesar 0.008493, yang jauh lebih rendah dari ambang batas umum yaitu 0,05. Hal ini dikarenakan jenis optimizer dapat sangat meningkatkan akurasi prediksi. Dengan jenis optimizer Adam pada kisaran learning rate antara 0,1 hingga 0,4 menunjukkan tingkat akurasi mencapai 100%. Namun, pemilihan learning rate tampaknya tidak memiliki dampak yang signifikan, yang menunjukkan bahwa penekanan utama pada penyesuaian parameter harus ditentukan secara akurat. Maka dari itu, dengan telah dilakukannya penyesuaian parameter yang tepat dan validasi yang menyeluruh, sampai menemukan konfigurasi optimal yang dapat meningkatkan akurasi dalam prediksi bencana banjir berdasarkan indeks curah hujan, dapat disimpulkan bahwa model DNN memiliki potensi untuk menjadi alat yang dapat membantu dalam perencanaan dan manajemen risiko banjir.
Kata Kunci: Klasifikasi; Deep Learning; Deep Neural Network; Indeks Curah Hujan; Prediksi Banjir
Abstract−Floods are natural disasters that often occur and are among the most destructive because they have significant economic and social impacts. Accurate flood predictions are essential to manage risk and organize emergency response planning effectively. This research uses Deep Neural Network (DNN) to build a flood forecasting model that relies on rainfall index indicators and captures complex and ever-changing patterns obtained from rainfall index data. Using historical information from flood disaster events in Kerala, India, an analysis was conducted to assess the impact of various factors, particularly in learning rate and optimizer type, on model performance. The experimental results show that the type of optimizer is a crucial factor in determining the model's effectiveness, as shown in the ANOVA statistics with a P-value of 0.008493, much lower than the general threshold of 0.05. This is because this type of optimizer can significantly improve prediction accuracy. With the Adam optimizer type, the learning rate range is between 0.1 and 0.4, showing an accuracy level of up to 100%. However, the choice of learning rate does not significantly impact, indicating that the main emphasis on parameter adjustment should be determined accurately. Therefore, by carrying out appropriate parameter adjustments and thorough validation to find the optimal configuration that can increase accuracy in predicting flood disasters based on rainfall indices, the DNN model has the potential to become a tool that can assist in flood risk planning and management.
Keywords: Classification; Deep Learning; Deep Neural Network; Rainfall Index; Flood Prediction
1. PENDAHULUAN
Banjir merupakan salah satu bencana alam yang paling merusak, dalam arti menimbulkan kerusakan yang meluas pada kehidupan manusia seperti pada infrastruktur, sektor pertanian, serta pada sistem sosial dan ekonomi [1].
Seperti yang terjadi di Indonesia dalam kurun waktu 01 Januari sampai 03 Oktober 2023, terdapat 839 kejadian banjir dari total 3.056 kejadian bencana alam yang terjadi. Berdasarkan laporan Badan Nasional Penanggulangan Bencana (BNPB) kejadian banjir di Indonesia telah menyebabkan 10 orang hilang, 204 orang meninggal dunia, 5.555 orang luka-luka, 5,35 juta orang menderita dan mengungsi serta kerusakan yang terjadi pada 25.116 rumah dan 714 fasilitas umum [2]. Akibat dari terjadinya banjir yang sering melanda Indonesia pada tahun 2023, ekonomi penduduk yang terkena dampaknya mengalami kemunduran selama periode tertentu dan diperlukan waktu yang cukup lama bagi mereka untuk dapat kembali menjalankan pekerjaan sehari-hari mereka.
Banjir yang terjadi pada suatu daerah disebabkan oleh berbagai faktor yang berkontribusi dominan, antara lain karena intensitas curah hujan, infiltrasi air sungai, dan bangunan pengendali banjir [3]. Aktivitas manusia seperti perubahan penggunaan lahan menjadi pemukiman dan pertanian juga berkontribusi dalam terjadinya banjir [4]. Selain itu ekstremnya kondisi iklim dan perubahan pola cuaca yang disebabkan karena pemanasan global, yang secara signifikan berkontribusi pada peningkatan frekuensi dan intensitas bencana banjir [5]. Memahami faktor-faktor penyebab banjir yang ada, diperlukan adanya kewaspadaan terhadap kejadian banjir yang akan terjadi pada masa yang akan datang. Karena bencana alam terbukti sangat berdampak pada keselamatan hidup masyarakat dan pembangunan pada suatu daerah [6].
Salah satu cara yang dapat dilakukan adalah dengan melakukan prediksi dan analisis dengan menggunakan data seperti indeks curah hujan yang berisi kumpulan data dari kejadian-kejadian banjir sebelumnya. Curah hujan merupakan suatu peristiwa yang acak dan penyebab terjadinya sangat kompleks [7]. Dengan melakukan prediksi banjir melalui data indeks curah hujan dari kejadian banjir sebelumnya, dapat membantu dalam melakukan penilaian bahaya dari suatu kejadian bencana yang akan terjadi, persiapan dan respons yang lebih baik dalam manajemen bencana. Prediksi yang akurat dapat menyelamatkan nyawa, mengurangi kerusakan infrastruktur, dan meningkatkan alokasi sumber daya, pengiriman, dan evakuasi korban yang terdampak serta meminimalkan kerugian dalam bidang sosial dan ekonomi [8].
Terdapat beberapa penelitian yang telah membahas mengenai klasifikasi atau prediksi hujan dengan menggunakan data indeks curah hujan, baik menggunakan metode Machine Learning (ML) [8]–[10] dan Deep Learning (DL) [5], [7]. Dalam proses klasifikasi atau prediksi dengan menggunakan metode Machine Learning (ML) terdapat beberapa metode yang sering digunakan, seperti Naïve Bayes, K-Nearest Neighbors (KNN), Logistic Regression, Decision Tree, Random Forest, dan Ensemble Learning. Penelitian [9] yang menggunakan Naïve Bayes untuk melakukan klasifikasi bencana banjir dengan RapidMiner dan library Gaussian Naïve Bayes dari Scikit-Learn. Dari pengujian pada penelitian tersebut yang menggunakan library dari Scikit-Learn, Naïve Bayes mampu memberikan akurasi sebesar 79,16%. Sedangkan pengujian menggunakan RapidMiner sebagai pembanding, ternyata hasil akurasi dari RapidMiner cukup jauh yaitu sebesar 98,31%. Dari perbedaan yang cukup signifikan itu, peneliti menjadi sulit menyimpulkan apakah Naïve Bayes efektif untuk digunakan pada klasifikasi atau prediksi untuk dataset banjir. Proses splitting dataset yang berbeda antara Python dan RapidMiner juga dapat mempengaruhi akurasi yang diperoleh. Selanjutnya, pada penelitian [10] yang juga melakukan klasifikasi atau prediksi banjir dengan menggunakan dataset yang sama seperti penelitian [9] yaitu dataset dari Kaggle dengan judul “Monthly Rainfall Index and Flood Probability”. Pada penelitian tersebut didapatkan akurasi sebesar 86,08%
dengan menggunakan Logistic Regression, namun disampaikan bahwa sistem prediksi dengan menggunakan Logistic Regression ini masih jauh dari sempurna dan memerlukan perbaikan sistem. Selain itu, juga ada penelitian tentang prediksi hujan yang dilakukan [8] dengan menggunakan dataset yang berisi beberapa atribut terkait hujan seperti, cuaca, suhu, tekanan atmosfer, kelembaban, dan lain-lain di kota Lahore, Pakistan. Penelitian tersebut juga membandingkan teknik data mining seperti Support Vector Machine (SVM), Naïve Bayes, KNN, Decision Tree, dan Multilayer Perceptron. Dihasilkan bahwa penggunaan teknik klasifikasi bekerja dengan baik pada kelas no- rain, sedangkan pada kelas rain tekniknya tidak bekerja dengan baik. Terdapat beberapa alasan dibalik rendahnya akurasi pada kelas rain seperti, terdapat nilai yang hilang, tidak adanya atribut penting mengenai iklim pada dataset, dan kebanyakan karena tingkat curah hujan yang lebih rendah serta disarankan agar penelitian lanjutan dilakukan dengan menggunakan atribut iklim yang berbeda dalam data cuaca untuk mendapatkan hasil prediksi yang lebih akurat.
Penelitian [7] juga melakukan prediksi hujan namun dengan menggunakan pendekatan yang berbeda yaitu menggunakan metode DL, dengan Intensified LSTM (ILSTM) berbasis Recurrent Neural Network dan dibandingkan dengan metode lain, seperti Holt-Winters, ARIMA, ELM, RNN, dan LSTM. Didapatkan hasil akurasi dari ILSTM sebesar 88%, walaupun jika dibandingkan dengan metode lain peningkatan akurasinya hanya sedikit seperti pada metode LSTM sebesar 87,01%, RNN dengan SILU sebesar 86,91%, RNN dengan RELU sebesar 86,44%, ELM sebesar 63,5%, ARIMA sebesar 81,15%, dan Holt-Winters sebesar 77,55%. Penelitian menggunakan DL untuk prediksi hujan yang berfokus pada suhu dan curah hujan dilakukan oleh [5] dengan metode Deep Neural Network (DNN) dan dibandingkan dengan metode ML seperti SVM, KNN dan Naïve Bayes.
Hasil dari beberapa algoritma berbeda memperlihatkan bahwa DNN memberikan kinerja akurasi tertinggi yaitu sebesar 91,18%. Sedangkan metode SVM, KNN, dan Naïve Bayes didapatkan akurasi masing-masing 85,57%, 85,73%, dan 87,01%. Namun, terdapat keterbatasan dalam penelitian tersebut yaitu karena menggunakan dataset dari tahun yang sudah cukup lama yaitu 1990 hingga 2002 yang tidak mencakup data terbaru serta tidak adanya pertimbangan terhadap ketidakseimbangan distribusi dalam penelitian. Selain itu, ada juga penelitian [11] yang melakukan perbandingan ML dengan menggunakan KNN, Naïve Bayes, Decision Tree, Random Forest, SVM dan DL dengan menggunakan DNN untuk memprediksi dampak dari arus lalu lintas dan cuaca secara real-time sebagai parameter terjadinya kecelakaan. Dihasilkan bahwa metode DL dengan algoritma DNN didapatkan akurasi sebesar 68.95%, sedangkan algoritma ML lainnya, seperti KNN, Naïve Bayes, Decision Tree, Random Forest, SVM, Logistic Regression Biner didapatkan akurasi dengan masing-masing sebesar 62,56%, 72,15%, 72,15%, 62,56%, 67,12%, 62,10%, 57,99%, dan 68,95%. Namun, disampaikan juga bahwa dalam penelitian tersebut terdapat masalah dalam penyetelan parameter untuk metode DL yang digunakan, sehingga mungkin dapat mempengaruhi transferabilitas dan efektivitas algoritma pada kumpulan data yang berbeda.
Berdasarkan beberapa penelitian sebelumnya yang telah dijelaskan diatas, ternyata masih terdapat kesulitan untuk menentukan algoritma mana yang lebih tepat khususnya untuk digunakan pada prediksi hujan terutama yang berfokus pada indeks curah hujan, seperti pada penelitian [9], [10]. Walaupun berbagai metode pada penelitian sebelumnya telah dieksplorasi dan diuji, terdapat ketidakpastian mengenai pendekatan atau metode mana yang terbaik. Sehingga terdapat tantangan dalam menentukan metode yang paling efektif. Penentuan metode yang tepat tidak hanya berguna untuk meningkatkan akurasi prediksi hujan tetapi juga dapat membantu dalam pengambilan keputusan yang berkaitan dengan manajemen bencana. Dengan demikian, penelitian ini diharapkan dapat berkontribusi dalam proses mengidentifikasi dan memvalidasi metode dan model yang paling efisien dan akurat
untuk prediksi hujan yang berfokus pada data indeks curah hujan setiap bulannya dengan menggunakan metode DL yaitu algoritma DNN. Hal ini dilakukan melalui penerapan dan penyesuaian parameter dari algoritma DNN.
Melalui penyesuaian ini, diharapkan juga dapat menemukan konfigurasi optimal yang meningkatkan efisiensi dan akurasi prediksi untuk bencana banjir dalam algoritma DNN berdasarkan data indeks curah hujan.
Penelitian ini terbagi menjadi 4 bagian utama yang mencakup berbagai aspek penting. Bagian 1 adalah pendahuluan, menetapkan latar belakang penelitian, merumuskan masalah, dan menyajikan tujuan penelitian.
Bagian 2 metodologi penelitian yang berisi penjelasan secara rinci mengenai kerangka kerja, detail metode yang akan digunakan dan proses persiapan sebelum melakukan eksperimen. Bagian 3 hasil dan pembahasan yang memaparkan temuan, interpretasi penelitian, dan memberikan bukti untuk mendukung teori penelitian serta memberikan pemahaman mendalam tentang topik yang sedang diteliti. Terakhir, bagian 4 kesimpulan, merangkum temuan penelitian dan merefleksikan dampak dan kontribusi terhadap penelitian serta menutup penelitian ini.
2. METODOLOGI PENELITIAN
2.1. Tahapan Penelitian
Berikut merupakan tahapan penelitian.
Gambar 1. Tahapan Penelitian
Pada bagian ini akan diuraikan tahapan penelitian dalam pembangunan prediksi menggunakan algoritma DNN, seperti pada gambar 1. Tahap pertama Pengumpulan Data dengan mengumpulkan dataset sekunder yang relevan. Selanjutnya, pada tahap Analisis Data Eksploratif, data dianalisis untuk memahami tren dan pola yang ada. Setelah analisis awal, dilakukan Data Pre-processing di mana data dibersihkan dan diubah untuk mempersiapkan pelatihan model. Langkah berikutnya adalah melakukan pemrosesan data yang digunakan untuk melatih algoritma dengan klasifikasi data DL menggunakan algoritma DNN. Terakhir, melakukan Evaluasi Performa Algoritma untuk menilai seberapa baik model DNN dapat memprediksi hasil yang diinginkan berdasarkan matrik yang telah ditentukan.
2.2. Pengumpulan Data
Penelitian ini memanfaatkan dataset “Monthly Rainfall Index and Flood Probability” yang tersedia di Kaggle melalui tautan https://www.kaggle.com/datasets/mukulthakur177/kerela-flood. Dataset ini berisikan catatan indeks curah hujan bulanan di Kerala, India, dari tahun 1900-2018. Tujuan penggunaan dataset ini adalah untuk melatih sebuah algoritma klasifikasi biner yang dapat memprediksi kemungkinan bencana banjir. Dengan memanfaatkan dataset ini dan melalui pendekatan analisis data yang mendalam, diharapkan dapat menggali pola- pola signifikan yang mungkin tidak tampak secara langsung sehingga dapat mengungkap korelasi antara intensitas curah hujan dan frekuensi banjir.
2.3. Analisis Data Eksploratif
Analisis Data Eksploratif atau Exploratory Data Analysis (EDA) adalah suatu proses investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis, dan meninjau asumsi yang akhirnya dapat mengungkap wawasan yang menarik dari data. Melakukan EDA sebelum membuat model pembelajaran memiliki beberapa manfaat, seperti mengidentifikasi pola dan tren yang mungkin tidak terlihat hanya berbentuk data biasa dan mengungkap hubungan dan struktur dari kumpulan data [12]. Selain itu, EDA juga membantu menghasilkan pengelompokan dan visualisasi data berkualitas tinggi untuk kumpulan data yang mengarah pada peningkatan efisiensi komputasi dan kualitas solusi [13]. Secara keseluruhan EDA merupakan langkah penting dalam ilmu data dan proses pembelajaran yang memberikan wawasan dan karakteristik utama.
2.3. Data Pre-processing
Data Pre-processing dalam ML dan DL adalah proses mengubah data menjadi format yang lebih mudah dan efektif diproses dalam penambangan data, pembelajaran mesin, dan tugas mengenai data science lainnya. Dalam pra-
pemrosesan data terdiri dari tiga fase utama yaitu Data Cleaning, Data Transformation, dan Data Reduction [14].
Pada tahap Data Pre-processing dalam penelitian ini, diterapkan metode Data Cleaning dan Data Transformation untuk meningkatkan kualitas data sebelum melakukan proses pembelajaran dengan menggunakan DL. Kedua langkah ini sangat penting untuk memastikan kualitas data, yang pada akhirnya akan mendukung keakuratan hasil dari algoritma klasifikasi yang akan digunakan. Proses ini juga bertujuan untuk mengoptimalkan dataset, sehingga memungkinkan ekstraksi wawasan yang lebih mendalam dan membuat basis data menjadi lebih tergambarkan untuk peristiwa atau kejadian yang sedang diteliti.
2.4. Klasifikasi dengan Deep Learning
Deep Learning (DL) adalah subbidang dari ML di mana algoritmanya terinspirasi dari struktur dan fungsi otak manusia, yang biasanya dikenal sebagai jaringan syaraf tiruan. Jaringan syaraf dalam DL mampu mempelajari fitur dan tugas secara langsung dari data mentah, dan menghilangkan kebutuhan untuk ekstraksi fitur manual, yang menjadi perbedaan dengan ML tradisional. DL menggunakan teknik yang memungkinkan komputer untuk memproses dan memahami tugas-tugas perseptual yang kompleks dengan menghasilkan tingkat akurasi yang tinggi. Istilah ”deep” dalam DL merujuk pada serangkaian banyak lapisan yang dilewati oleh data, di mana informasi diubah secara bertahap [15]. Metode ini menggunakan neuron yang merupakan unit dasar dari perhitungan untuk menerima dan memproses berbagai sinyal masukan. Singkatnya, DL secara inheren adalah metode pembelajaran dengan berbagai level representasi, di mana setiap level mewakili konsep yang lebih abstrak dari data. Metode ini kemudian memperoleh tingkatan representasi yang lebih mendalam dan signifikan secara bertahap, yang kemudian diaplikasikan dalam sistem deteksi, prediksi atau klasifikasi [16]. Dalam DL, lapisan representasi dikenal sebagai Neural Network (NN), yang dirancang dengan struktur berlapis-lapis di mana setiap lapisan diletakkan di atas lapisan lain [17]. DL telah banyak digunakan diberbagai bidang seperti kedokteran [18], otomotif [19], keuangan [20], dan lain-lain. Keberhasilan DL dalam menghasilkan representasi data yang abstrak menjadikannya sebuah alat yang vital, yang mampu memecahkan masalah-masalah yang memerlukan pemahaman mendalam tentang data yang kompleks. Terdapat jenis arsitektur atau model spesifik dalam metode DL yaitu Recurrent Neural Network (RNN) dan DNN.
2.5. Deep Neural Network (DNN)
Deep Neural Network (DNN) adalah bentuk spesifik dari metode DL yang terdiri dari jaringan syaraf tiruan dengan berbagai lapisan tersembunyi di antara input dan outputnya. Tujuan dari lapisan tersembunyi pada DNN adalah untuk menangkap dan mewakili hubungan input-output yang kompleks, sehingga memungkinkan jaringan untuk mempelajari dan membuat prediksi berdasarkan representasi ini [21]. Setiap lapisan terhubung melalui node di mana setiap lapisan tersembunyi memberikan hasil prediksi berdasarkan prediksi dari lapisan sebelumnya [22].
Strukturnya yang kompleks dan bersarang memungkinkan penggunaan neuron canggih, yang seringkali melibatkan operasi tingkat lanjut atau fungsi aktivasi yang lebih kompleks dibandingkan fungsi aktivasi standar [23]. DNN dirancang untuk otomatis mengekstrak fitur penting dari data yang mentah, kompleks, dan abstrak serta meminimalisir kebutuhan rekayasa fitur manual. Dengan kemampuannya mengidentifikasi pola kompleks dan abstrak melalui pemrosesan berlapis. DNN juga efektif untuk berbagai aplikasi termasuk klasifikasi atau prediksi dan regresi yang memungkinkan komputer untuk belajar dan menafsirkan data dengan cara yang lebih mendalam dan intuitif. Dapat dilihat pada gambar 2 yang merupakan representasi proses dari DNN. Ini menunjukkan tiga lapisan utama:
a. Input Layer: Lapisan ini menerima input dari data eksternal.
b. Hidden Layers: Satu atau lebih lapisan tersembunyi, masing-masing terdiri dari neuron yang terhubung dengan lapisan sebelum dan sesudahnya, karena DNN adalah jaringan syaraf dengan setidaknya satu lapisan tersembunyi [20]. Neuron-neuron ini memproses input dengan bobot dan bias melalui fungsi aktivasi.
c. Output Layer: Lapisan ini menghasilkan output akhir dari jaringan, yang bisa berupa prediksi kelas dalam klasifikasi, nilai dalam regresi, atau jenis data lain tergantung pada tugas yang dilakukan.
Gambar 2. Proses DNN 2.6. Evaluasi Model
Evaluasi model dalam ML dan DL merupakan tahap krusial yang menentukan seberapa efektif model dalam menangani data yang belum pernah dilihat sebelumnya. Proses evaluasi model pada penelitian ini menggunakan beberapa matrik evaluasi dan uji statistik, seperti ANOVA, untuk mendapatkan pemahaman yang mendalam tentang kinerja model. Matrik evaluasi yang digunakan dalam penelitian ini adalah accuracy dan losses. Matrik- matrik ini memberikan informasi tentang berbagai aspek mengenai kinerja model, seperti keakuratan dalam klasifikasi atau prediksi dan besarnya kesalahan dalam prediksi. Selain itu, uji statistik dengan menggunakan ANOVA digunakan untuk mengevaluasi signifikansi perbedaan dalam kinerja antara konfigurasi model. Dengan demikian, kombinasi antara matrik evaluasi dan uji statistik dengan ANOVA memberikan wawasan yang menyeluruh tentang efektivitas model dalam menjalankan tugas prediksi atau klasifikasi yang diberikan.
2.6.1. Matrik Evaluasi
Tabel 1. Confusion Matrix Prediksi
0 1
Aktual 0 True Negative False Positive 1 False Negative True Positive
Untuk mengukur kemampuan dan validasi model prediksi yang diusulkan, matrik evaluasi yang digunakan dalam penelitian ini adalah accuracy dan losses dengan menggunakan Cross-Entropy Loss. Perhitungan dilakukan dengan membuat Confusion Matrix yaitu teknik untuk mengulangi efisiensi algoritma yang direpresentasikan sebagai TN, TP, FN, dan FP seperti pada tabel 1 [5]. Di mana, pada TN (True Negative) model memprediksi data ada di kelas Negatif dan yang sebenarnya data memang ada di kelas Negatif, sebaliknya pada True Positive (TP) model memprediksi data ada di kelas Positif dan yang sebenarnya data memang ada di kelas Positif. Selanjutnya pada FN (False Negative) model memprediksi data ada di kelas Negatif namun yang sebenarnya data ada di kelas Positif, sedangkan pada FP (False Positive) model memprediksi data ada di kelas Positif namun yang sebenarnya data ada di kelas Negatif. Accuracy adalah matrik yang mengukur proporsi prediksi yang tepat yang dilakukan oleh model dibandingkan dengan label sebenarnya, di mana rumusnya adalah:
Accuracy = TP+FP+FN+TNTP+TN (1)
Losses adalah ukuran kesalahan yang dibuat oleh model dalam memprediksi hasil. Ada berbagai jenis loss function, namun yang digunakan dalam penelitian ini adalah Cross-Entropy Level yang sering digunakan untuk tugas-tugas klasifikasi dalam DL. Dengan rumusnya sebagai berikut:
Cross − Entropy Loss = −Σi=1n yilog( ŷi) + (1 − yi) log(1 − ŷi) (2) di mana:
yi = label sebenarnya (0 atau 1)
ŷi = probabilitas yang diprediksi oleh model bahwa sampel i berlabel 1 2.6.2. Uji Statistik
ANOVA (Analysis of Variance) adalah teknik uji statistik yang digunakan untuk membandingkan dua atau lebih kelompok untuk menentukan apakah ada perbedaan yang signifikan antara kelompok tersebut, yang biasanya digunakan dalam eksperimen dan penelitian untuk menilai pengaruh variabel independen pada variabel terikat.
Teknik ini telah diaplikasikan dalam berbagai konteks untuk mengeksplorasi bagaimana ML, termasuk jaringan syaraf dua lapis dan nonlinier berkinerja dalam hal generalisasi [24]. Dalam konteks pengujian model, ANOVA telah digunakan untuk menganalisis variabilitas dalam kesalahan prediksi, menyelidiki dampak dari faktor-faktor seperti inisialisasi model, gangguan pada label, dan kualitas data pelatihan [25]. Komponen utama dari ANOVA adalah sebagai berikut:
a. Sum of Squares (SS), mengukur total variasi dalam data, dengan rumus:
SST = ∑(Yij− Y̅ )2 (3)
SSB = ∑ nj( Y̅j − Y̅)2 (4)
SSW = ∑ ∑(Yij − Y̅j)2 (5)
Di mana SST adalah Sum of Squares Total, SSB adalah Sum of Squares Between, dan SSW adalah Sum of Squares Within. Dengan Yij merepresentasikan nilai individual dalam data, Y̅ adalah rata-rata keseluruhan dari semua nilai, sedangkan Y̅j = rata-rata setiap kelompok. Terakhir, nj menunjukkan jumlah sampel dalam kelompok ke-j.
b. Degrees of Freedom (df), jumlah nilai dalam perhitungan yang bebas untuk bervariasi, dengan rumus:
dftotal = N – 1 (6)
dfbetween = k – 1 (7)
dfbetween = N – k (8)
Di mana, variabel k merujuk pada jumlah kelompok yang terlibat dalam analisis, sedangkan N merepresentasikan jumlah total sampel dalam keseluruhan dataset.
c. Mean Square (MS), rata-rata dari SS, dihitung dengan membagi SS dengan df yang sesuai, dengan rumus:
MSbetween = SSB
dfbetween (9)
MSwithin = SSW
dfwithin (10)
d. P-value, menunjukkan signifikansi statistik dari hasil yang diperoleh. Nilai P yang rendah (biasanya di bawah 0,05) menunjukkan bahwa perbedaan antara kelompok adalah signifikan secara statistik.
e. F-statistik, rasio variabilitas antara kelompok terhadap variabilitas di dalam kelompok, dengan rumus:
F = MSbetween
MSwithin (11)
f. F-crit (nilai F kritis), nilai ambang batas yang digunakan untuk menentukan signifikansi statistik perbedaan antar kelompok. Jika nilai F lebih besar dari nilai F-crit dari distribusi F pada tingkat signifikansi tertentu (biasanya 0,05), maka perbedaan antara kelompok dianggap signifikan secara statistik.
3. HASIL DAN PEMBAHASAN
3.1. Dataset
Tabel 2. Penjelasan Atribut dalam Dataset Monthly Rainfall Index and Flood Probability
No Atribut Tipe
Data Deskripsi
1. SUBDIVISION object Lokasi yang diukur pada dataset ini, yaitu wilayah Kerala, India 2. YEAR int64 Tahun pengukuran, dalam dataset ini yaitu dari tahun 1900-2018 3. JAN float64 Curah hujan bulan Januari yang diukur dalam milimeter 4. FEB float64 Curah hujan bulan Februari yang diukur dalam milimeter 5. MAR float64 Curah hujan bulan Maret yang diukur dalam milimeter 6. APR float64 Curah hujan bulan April yang diukur dalam milimeter 7. MAY float64 Curah hujan bulan Mei yang diukur dalam milimeter 8. JUN float64 Curah hujan bulan Juni yang diukur dalam milimeter 9. JUL float64 Curah hujan bulan Juli yang diukur dalam milimeter 10. AUG float64 Curah hujan bulan Agustus yang diukur dalam milimeter 11. SEP float64 Curah hujan bulan September yang diukur dalam milimeter 12. OCT float64 Curah hujan bulan Oktober yang diukur dalam milimeter 13. NOV float64 Curah hujan bulan November yang diukur dalam milimeter 14. DEC float64 Curah hujan bulan Desember yang diukur dalam milimeter 15, ANNUAL
RAINFALL float64 Jumlah dari curah hujan bulanan dari Januari hingga Desember dalam milimeter
16. FLOODS object
Menandakan apakah akan terjadi banjir atau tidak dalam tahun yang bersangkutan, dengan nilai “YES” untuk tahun yang akan mengalami
banjir dan “NO” untuk tahun yang tidak mengalami banjir Dataset “Monthly Rainfall Index and Flood Probability” yang diteliti merupakan kumpulan data yang mencakup pengukuran curah hujan bulanan di wilayah Kerala, India, selama periode lebih dari satu abad. Data ini digunakan dengan tujuan untuk menilai dan menganalisis tren curah hujan serta hubungannya dengan kejadian banjir menggunakan metode DL dengan algoritma DNN. Variabel target dalam dataset ini adalah “FLOODS”
yang menentukan kemungkinan terjadinya banjir sebagai “Ya” atau “Tidak”. Dataset ini memiliki 16 atribut dan 118 record yang berisikan bagian dari suatu negara, bulan, dan lain-lain seperti yang dijelaskan pada tabel 2.
3.2. Data Analisis Eksploratif
Sebelum melakukan analisis yang mendalam, dilakukan Data Analisis Eksploratif untuk mendapatkan pemahaman awal yang lebih baik mengenai dataset indeks curah hujan. Dilakukan serangkaian Data Analisis Eksploratif untuk memahami distribusi, tren, dan pola dalam dataset serta memeriksa hubungan antar variabel dan menyiapkan data analisis lebih lanjut [12]. Proses ini penting dilakukan untuk memastikan bahwa data yang digunakan dalam
penelitian ini telah dipahami secara mendalam. Berikut beberapa EDA yang dilakukan pada kumpulan data indeks curah hujan:
(a)
(b)
(c)
Gambar 3. Data Analisis Eksploratif: (a) Distribusi curah hujan bulanan; (b) Analisis tren curah hujan tahunan;
(c) Analisis curah hujan pada 5 tahun terakhir
a. Distribusi curah hujan bulanan untuk menentukan bulan dengan curah hujan tertinggi dan terendah. Dapat diketahui dari gambar 2.a bahwa bulan dengan curah hujan tertinggi berada pada bulan Juli. Sedangkan bulan dengan curah hujan terendah berada pada bulan Januari.
b. Analisis tren curah hujan tahunan untuk melihat apakah ada peningkatan atau penurunan seiring waktu. Dapat diketahui dari gambar 2.b terdapat fluktuasi yang signifikan dalam total curah hujan tahunan dari tahun ke tahun, yang menunjukkan variabilitas tinggi dalam curah hujan pada kota Kerala, India. Selain itu grafik juga menunjukkan beberapa puncak yang sangat tinggi salah satunya pada tahun 2018, yang menandakan tahun dengan curah hujan yang sangat tinggi, yang mungkin berkaitan dengan peristiwa cuaca ekstrem seperti La Nina atau El Nino, atau kondisi meteorologi lain yang menghasilkan curah hujan tinggi.
c. Analisis curah hujan bulanan pada 5 tahun terakhir dari dataset yaitu pada tahun 2014 hingga 2018. Dapat diketahui dari gambar 2.c terdapat beberapa konsistensi dari tahun ke tahun dalam intensitas curah hujan, seperti pada bulan April hingga Juli yang umumnya memiliki curah hujan yang lebih tinggi dibandingkan bulan lainnya. Di sisi lain, pada bulan November hingga Februari cenderung memiliki curah hujan yang lebih rendah, ditunjukkan oleh warna yang lebih terang pada heatmap. Selain itu, pada tahun 2018 memiliki curah hujan tahunan yang lebih tinggi dibandingkan tahun-tahun sebelumnya yang ditunjukkan oleh warna yang paling gelap pada heatmap.
3.3. Data Pre-processing
Pada Data Pre-processing di penelitian ini digunakan metode Data Cleaning dan Data Transformation, karena data yang bersih dan terstruktur dengan baik menjadi sebuah pondasi penting untuk menentukan keakuratan dari model
DNN yang digunakan. Data Cleaning melibatkan perbaikan atau penghapusan yang tidak akurat, rusak, data yang diformat dengan tidak benar, duplikat, atau tidak lengkap dalam sebuah kumpulan data [14]. Proses pembersihan data yang dilakukan pada kumpulan data “Monthly Rainfall Index and Flood Probability” yang pertama adalah penghapusan data yang tidak digunakan untuk prediksi yaitu pada kolom ”SUBDIVISON” karena berisi data kategorikal yang merupakan label atau nama lokasi yang tidak memberikan informasi numerik yang bermanfaat untuk model pembelajaran. Tahap kedua, pengecekan kosong dan duplikat pada data. Selain itu, juga mengganti nilai dalam kolom ”FLOODS” pada setiap entri dengan teks “YES” diganti dengan angka 1 dan setiap entri teks
“NO” diganti dengan angka 0. Proses memgonversi data kategorikal menjadi numerik dilakukan agar dapat digunakan dalam model pembelajaran.
Setelah dilakukan proses pembersihan data, dilakukan proses pemisahan data 80%:10%:10% menjadi training (pelatihan), data validation (validasi) dan data testing (pengujian). Data Transformation adalah teknik yang melibatkan pengubahan data menjadi struktur yang memungkinkan proses penambangan data menjadi lebih mudah dan efektif dalam mengekstrak informasi yang penting [14]. Dengan menggunakan MinMaxScaler yang bertujuan untuk menyesuaikan skala nilai-nilai pada data sehingga rentangnya berada antara 0 dan 1. Ini dilakukan dengan mengurangkan nilai minimum dari setiap fitur dan membaginya dengan rentang (nilai maksimum – nilai minimum) untuk setiap kolom. Proses ini dilakukan untuk menghindari masalah yang disebabkan karena perbedaan pada skala fitur sehingga memungkinkan model untuk berlatih lebih efisien. Hal ini juga dilakukan pada penelitian [26] yang menggunakan normalisasi min-max sehingga dapat mencapai akurasi yang lebih tinggi.
3.4. Deep Neural Network (DNN)
Gambar 4. Parameter dan Arsitektur Model
Sebuah model jaringan syaraf tiruan (neural network) dikembangkan dalam penelitian ini dengan menggunakan framework Keras. Model ini terdiri dari tiga lapisan (layer) utama, dengan masing-masing lapisan memiliki sepuluh node tersembunyi (hidden layer nodes). Lapisan pertama menggunakan fungsi aktivasi ReLU (Rectified Linear Unit) untuk mengintegrasikan fitur-fitur input sejumlah 13 dimensi. Lapisan kedua juga memiliki sepuluh node dan menggunakan fungsi aktivasi ReLU. Fungsi aktivasi ReLU digunakan untuk mengaktifkan neuron secara selektif, yang membuat jaringan lebih jarang dan meningkatkan efisiensi serta kemudahan dalam komputasi [5]. Lapisan ketiga, yang merupakan lapisan output, hanya memiliki satu node dengan fungsi aktivasi sigmoid, sesuai dengan tugas klasifikasi biner yang sedang dijalankan. Sigmoid adalah fungsi yang sering digunakan dalam lapisan tersembunyi dari Artificial Neural Network (ANN), yang bertugas untuk mengkonversi rentang nilai input menjadi kisaran antara 0 dan 1 [7]. Fungsi aktivasi sigmoid yang digunakan untuk jaringan syaraf, mencapai hasil yang lebih baik dibandingkan dengan teknik yang lainnya. Struktur model ini dapat dijelaskan menggunakan fungsi “summary()” yang memberikan gambaran lengkap tentang jumlah parameter dan arsitektur model seperti pada gambar 4.
Selanjutnya, dilakukan pelatihan model dengan memilih algoritma optimasi, dalam percobaan ini dilakukan dengan beberapa optimasi seperti, ADAM (Adaptive Moment Estimation), SGD (Stochastic Gradient Descent), RMSprop (Root Mean Square Propagation), dan Adagrad (Adaptive Gradient Algorithm). Selain melakukan percobaan dengan berbagai optimasi, dilakukan juga percobaan dengan berbagai learning rate yaitu 0,001, 0,01, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, dan 0,9. Model ini di-compile dengan fungsi kerugian (loss function) binary_crossentropy, yang sesuai untuk tugas klasifikasi biner, serta diukur dengan matrik akurasi. Proses pelatihan model dilakukan sebanyak 50 epoch (siklus pelatihan) dengan data pelatihan dibagi menjadi batch-batch berukuran 32 observasi untuk efisiensi perhitungan. Selama pelatihan, juga dilakukan validasi menggunakan data holdout (data validasi) untuk memantau kinerja model dan meminimalkan overfitting.
3.5. Evaluasi Model
Evaluasi model merupakan langkah penting dalam mengukur sejauh mana model dapat melakukan prediksi yang akurat pada data yang belum pernah ditemui sebelumnya. Tahap percobaan pada penelitian ini setelah proses pelatihan selesai adalah evaluasi model menggunakan data uji (x_test dan y_test) dan hasil evaluasi termasuk nilai kerugian (loss) dan akurasi yang dicetak untuk mengevaluasi kinerja model pada data yang belum pernah dilihat
sebelumnya. Di mana x_test adalah input data uji, sedangkan y_test adalah label atau target yang sesuai. Dengan menggabungkan nilai kerugian dan akurasi, dapat memahami kinerja model secara komprehensif. Hasil evaluasi dapat membantu mengevaluasi sejauh mana model dapat digunakan dalam konteks seperti klasifikasi, prediksi, atau pengambilan keputusan.
3.5.1. Matrik Evaluasi
Gambar 5. Perbandingan Accuracy antara ADAM, SGD, RMSprop, dan Adagrad berdasarkan Jumlah dari Learning Rate
Gambar 6. Perbandingan Loss antara ADAM, SGD, RMSprop, dan Adagrad berdasarkan Jumlah dari Learning Rate
Dari data pada tabel 3 yang divisualisasikan pada gambar 5 dan gambar 6 yang menampilkan hasil evaluasi dari empat optimizer yang berbeda yaitu ADAM, SGD, RMSprop, dan Adagrad pada berbagai tingkat learning rate, ditinjau dari dua matrik evaluasi yaitu accuracy dan loss. Dapat dilihat pada learning rate rendah yaitu 0,001, optimizer ADAM memiliki loss yang cukup tinggi sebesar 63,68% dengan akurasi sebesar 79,16%. Sedangkan, pada learning rate 0,1 hingga 0,4, terjadi penurunan loss yang signifikan dan peningkatan akurasi mencapai sempurna yaitu 100%, menunjukkan kinerja optimal pada rentang ini. Namun, pada learning rate 0,5 dan seterusnya, terjadi peningkatan loss yang drastis dan penurunan akurasi, menunjukkan bahwa learning rate yang lebih tinggi tidak menguntungkan untuk optimizer ADAM. Selanjutnya pada optimizer RMSprop, dimulai dengan loss yang lebih tinggi sebesar 64,36% dan akurasi yang lebih rendah sebesar 66,66% pada learning rate 0,001.
Sedangkan, pada learning rate 0,01, RMSprop menunjukkan peningkatan akurasi yang luar biasa yaitu sebesar 87,50%, tetapi dengan loss yang masih relatif tinggi. Hal ini menunjukkan RMSprop memiliki kinerja yang stabil pada learning rate 0,1 dengan akurasi yang baik, tetapi kemudian kinerjanya menurun pada learning rate yang lebih tinggi.
Berikutnya pada optimizer SGD dengan akurasi terendah pada learning rate 0,001 dan loss yang relatif tinggi. Ditunjukkan juga dengan peningkatan akurasi yang konsisten seiring peningkatan learning rate, mencapai puncaknya pada learning rate 0,1 dan stabil di kisaran 87,50% hingga learning rate 0,9. Kemudian pada optimizer terakhir yaitu Adagrad menunjukkan akurasi yang lebih baik pada learning rate rendah 0,001 dibandingkan dengan RMSprop. Adagrad memiliki peningkatan akurasi yang konsisten hingga learning rate 0,2 dengan mencapai puncak akurasi pada learning rate 0,5 yaitu sebesar 91,66% dengan loss terendah yaitu sebesar 22,91% pada learning rate 0,2. Pada learning rate yang lebih tinggi, terjadi sedikit penurunan akurasi tetapi tetap berada di atas 83%. Dari tabel 3 yang divisualisasikan pada gambar 5 dan gambar 6, dapat disimpulkan bahwa ADAM tampaknya dapat dianggap sebagai optimizer yang paling efektif pada learning rate tertentu yaitu 0,1 hingga 0,4 dengan mencapai akurasi optimal yaitu 100%. Lalu pada SGD menunjukkan konsistensi yang baik pada learning rate yang lebih tinggi. Kemudian, RMSprop dan Adagrad memiliki performa yang baik pada learning rate rendah dan menengah, namun tidak pada learning rate yang lebih tinggi.
Tabel 3. Hasil Performa menggunakan Optimasi ADAM, SGD, RMSprop, dan Adagard (%)
3.5.2. Uji Statistik
Tabel 4. Analisis dengan ANOVA
Source of Variation SS df MS F P-value F crit Learning Rate 0.220533 10 0.022053 1.48263 0.194362 2.16458
Optimizer 0.208788 3 0.069596 4.678913 0.008493 2.922277 Error 0.446233 30 0.014874
Total 0.875553 43
Berdasarkan data uji statistik ANOVA pada tabel 4, dapat dilakukan analisis untuk menilai pengaruh learning rate dan jenis optimizer terhadap kinerja model. Ditunjukkan dengan SS untuk learning rate adalah 0,220533, menunjukkan total variasi yang diatributkan kepada learning rate dengan 10 df, MS dihitung menjadi 0,022053. Nilai F untuk learning rate adalah 1,48263, yang merupakan rasio MS terhadap MS Error. P-value untuk learning rate adalah 0,194362, yang lebih tinggi dari 0,05, menunjukkan bahwa perbedaan dalam learning rate tidak memiliki pengaruh yang signifikan terhadap kinerja model secara statistik, karena tidak melebihi F-crit yang sebesar 2,16458. Kemudian SS untuk optimizer adalah 0,208788, menunjukkan variasi yang diatributkan kepada perbedaan optimizer dengan 3 df, MS adalah 0,069596. Nilai F yang signifikan untuk optimizer adalah 4,678913, yang menunjukkan bahwa variasi kinerja model disebabkan oleh perbedaan optimizer lebih signifikan. P-value yang sangat rendah yaitu 0,008493 menunjukkan bahwa efek optimizer terhadap kinerja model sangat signifikan secara statistik, karena lebih rendah dari nilai ambang batas yaitu 0,05 dan melebihi F-crit sebesar 2.922277.
Analisis ini menunjukkan bahwa jenis optimizer memiliki efek yang signifikan pada kinerja model, sementara perbedaan dalam learning rate tidak menunjukkan dampak yang signifikan. Sehingga, dalam hal ini pemilihan optimizer dapat dianggap lebih penting daripada penyesuaian spesifik learning rate.
4. KESIMPULAN
Penelitian ini berhasil mengidentifikasi dan memvalidasi bahwa algoritma Deep Neural Network (DNN) merupakan metode Deep Learning (DL) yang efektif dan akurat untuk memprediksi banjir dengan memanfaatkan data indeks curah hujan. Hal ini dibuktikan melalui pencapaian tingkat akurasi yang mengesankan, yaitu mencapai puncak optimalnya sebesar 100%, khususnya ketika menggunakan jenis optimizer ADAM dengan rentang learning rate antara 0,1 hingga 0,4. Dari analisis statistik menggunakan ANOVA, juga dapat diketahui bahwa pemilihan jenis optimizer memiliki pengaruh yang signifikan terhadap performa model prediksi atau klasifikasi.
Hal ini berbanding terbalik dengan variasi learning rate yang ternyata tidak memperlihatkan efek yang berarti.
Sehingga, perlu di garis bawahi bahwa penting untuk melakukan pemilihan jenis optimizer yang tepat dalam memaksimalkan kinerja algoritma DNN, sedangkan penyesuaian learning rate, meskipun relevan, tidak
Optimizer Learning Rate Loss Accuracy Optimizer Learning Rate Loss Accuracy
ADAM
0,001 63,68 79,16
RMSprop
0,001 64,36 66,66
0,01 22,45 83,33 0,01 44,65 87,50
0,1 5,60 100 0,1 35,74 87,50
0,2 6,85 100 0,2 50,69 79,16
0,3 3,11 100 0,3 68,66 58,33
0,4 6,33 100 0,4 67,99 58,33
0,5 68,48 58,33 0,5 69,14 58,33
0,6 69,18 58,33 0,6 68,06 58,33
0,7 16,63 91,66 0,7 68,38 58,33
0,8 68,61 58,33 0,8 67,97 58,33
0.9 68,30 58,33 0.9 67,94 58,33
SGD
0,001 65,74 58,33
Adagard
0,001 63,69 66,66
0,01 67,45 70,83 0,01 64,13 70,83
0,1 46,02 87,50 0,1 39,09 79,16
0,2 37,41 87,50 0,2 22,91 91,66
0,3 30,13 87,50 0,3 23,08 87,50
0,4 30 87,50 0,4 25,52 87,50
0,5 43,52 83,33 0,5 27,07 91,66
0,6 25,35 83,33 0,6 30,52 87,50
0,7 28,34 87,50 0,7 31,64 83,33
0,8 32,93 87,50 0,8 32,79 83,33
0.9 41,31 87,50 0.9 33,57 83,33
memberikan dampak yang sama signifikannya terhadap akurasi model dalam konteks prediksi hujan berdasarkan indeks curah hujan.
UCAPAN TERIMAKASIH
Pusat kajian IDSS (Intelligent Distributed and Surveillance System) Universitas Dian Nuswantoro, Semarang, seluruh dosen IDSS, serta dosen pembimbing yang telah membuka wawasan dan memberikan kesempatan berharga bagi saya untuk belajar dan mengembangkan diri saya dalam penelitian ini.
REFERENCES
[1] A. Mosavi, P. Ozturk, and K. W. Chau, “Flood Prediction using Machine Learning Models: Literature Review,” Water (Switzerland), vol. 10, no. 11, pp. 1–40, 2018, doi: 10.3390/w10111536.
[2] C. M. Annur, “Ada 3 Ribu Bencana di Indonesia sampai Awal Oktober 2023, Banjir Terbanyak,” databoks, 2023.
https://databoks.katadata.co.id/datapublish/2023/10/03/ada-3-ribu-bencana-di-indonesia-sampai-awal-oktober-2023- banjir-terbanyak (accessed Nov. 28, 2023).
[3] R. Handika et al., “Identifying Environmental Variables in Potential Flood Hazard Areas using Machine Learning Approach at Musi Banyuasin Regency, South Sumatra,” IOP Conf. Ser. Earth Environ. Sci., vol. 1201, no. 1, 2023, doi:
10.1088/1755-1315/1201/1/012037.
[4] W. G. Bennett et al., “Modelling Compound Flooding: A Case Study from Jakarta, Indonesia,” Nat. Hazards, vol. 118, no. 1, pp. 277–305, 2023, doi: 10.1007/s11069-023-06001-1.
[5] S. Sankaranarayanan, M. Prabhakar, S. Satish, P. Jain, A. Ramprasad, and A. Krishnan, “Flood Prediction based on Weather Parameters using Deep Learning,” J. Water Clim. Chang., vol. 11, no. 4, pp. 1766–1783, 2020, doi:
10.2166/wcc.2019.321.
[6] Y. Zhang, “Urban Flood Disaster Prediction Based on K-means Clustering and GRU Network,” Proc. - 2022 6th Annu.
Int. Conf. Data Sci. Bus. Anal. ICDSBA 2022, pp. 83–88, 2022, doi: 10.1109/ICDSBA57203.2022.00045.
[7] S. Poornima and M. Pushpalatha, “Prediction of Rainfall using Intensified LSTM based Recurrent Neural Network with Weighted Linear Units,” Atmosphere (Basel)., vol. 10, no. 11, 2019, doi: 10.3390/atmos10110668.
[8] S. Aftab, M. Ahmad, N. Hameed, M. S. Bashir, I. Ali, and Z. Nawaz, “Rainfall Prediction in Lahore City using Data Mining Techniques,” Int. J. Adv. Comput. Sci. Appl., vol. 9, no. 4, pp. 254–260, 2018, doi:
10.14569/IJACSA.2018.090439.
[9] S. Triyanto, A. Sunyoto, and M. R. Arief, “Analisis Klasifikasi Bencana Banjir Berdasarkan Curah Hujan Menggunakan Algoritma Naïve Bayes,” JOISIE (Journal Inf. Syst. Informatics Eng., vol. 5, no. 2, pp. 109–117, 2021, doi:
10.35145/joisie.v5i2.1785.
[10] S. Naik, A. Verma, S. A. Patil, and A. Hingmire, “Flood Prediction using Logistic Regression for Kerala State,” Int. J.
Eng. Res. Technol., vol. 9, no. 3, pp. 2020–2022, 2021, [Online]. Available: www.ijert.org
[11] A. Theofilatos, C. Chen, and C. Antoniou, “Comparing Machine Learning and Deep Learning Methods for Real-Time Crash Prediction,” Transp. Res. Rec., vol. 2673, no. 8, pp. 169–178, 2019, doi: 10.1177/0361198119841571.
[12] V. Da Poian et al., “Exploratory Data Analysis (EDA) Machine Learning Approaches for Ocean World Analog Mass Spectrometry,” Front. Astron. Sp. Sci., vol. 10, no. May, pp. 1–17, 2023, doi: 10.3389/fspas.2023.1134141.
[13] R. Barriga, M. Romero, H. Hassan, and D. F. Nettleton, “Energy Consumption Optimization of a Fluid Bed Dryer in Pharmaceutical Manufacturing Using EDA (Exploratory Data Analysis),” Sensors, vol. 23, no. 8, 2023, doi:
10.3390/s23083994.
[14] D. Varma, A. Nehansh, and P. Swathy, “Data Preprocessing Toolkit : An Approach to Automate Data Preprocessing,”
Interantional J. Sci. Res. Eng. Manag., vol. 07, no. 03, pp. 1–5, 2023, doi: 10.55041/ijsrem18270.
[15] S. Dargan, M. Kumar, M. R. Ayyagari, and G. Kumar, “A Survey of Deep Learning and Its Applications: A New Paradigm to Machine Learning,” Arch. Comput. Methods Eng., vol. 27, no. 4, pp. 1071–1092, 2020, doi:
10.1007/s11831-019-09344-w.
[16] D. Sharma, “Deep Learning without Tears: A Simple Introduction,” Resonance, vol. 25, no. 1, pp. 15–32, 2020, doi:
10.1007/s12045-019-0919-9.
[17] T. Sulistyowati, P. PURWANTO, F. Alzami, and R. A. Pramunendar, “VGG16 Deep Learning Architecture Using Imbalance Data Methods For The Detection Of Apple Leaf Diseases,” Monet. J. Keuang. dan Perbank., vol. 11, no. 1, pp. 41–53, 2023, doi: 10.32832/moneter.v11i1.57.
[18] N. Coudray et al., “Classification and Mutation Prediction from Non-Small Cell Lung Cancer Histopathology Images Using Deep Learning,” Nat. Med., vol. 24, no. 10, pp. 1559–1567, 2018, doi: 10.1038/s41591-018-0177-5.
[19] S. Mozaffari, O. Y. Al-Jarrah, M. Dianati, P. Jennings, and A. Mouzakitis, “Deep Learning-Based Vehicle Behavior Prediction for Autonomous Driving Applications: A Review,” IEEE Trans. Intell. Transp. Syst., vol. 23, no. 1, pp. 33–
47, 2022, doi: 10.1109/TITS.2020.3012034.
[20] Z. Hu, Y. Zhao, and M. Khushi, “A Survey of Forex and Stock Price Prediction Using Deep Learning,” Appl. Syst.
Innov., vol. 4, no. 1, pp. 1–30, 2021, doi: 10.3390/ASI4010009.
[21] L. Das, A. Sivaram, and V. Venkatasubramanian, “Hidden Representations in Deep Neural Networks: Part 2. Regression Problems,” Comput. Chem. Eng., vol. 139, p. 106895, 2020, doi: 10.1016/j.compchemeng.2020.106895.
[22] R. Firmansyah and G. F. Shidik, “Peningkatan Deep Neural Network pada Kasus Prediksi Diabetes Menggunakan PSO,”
Techno.com, vol. 22, no. 4, pp. 882–892, 2023, doi: https://doi.org/10.33633/tc.v22i4.9209.
[23] D. Muchlinski, “Machine Learning and Deep Learning,” Elgar Encycl. Technol. Polit., pp. 114–118, 2022, doi:
10.4337/9781800374263.machine.learning.deep.
[24] M. Nasiri and H. Rahmani, “DENOVA: Predicting Five-Factor Model using Deep Learning based on ANOVA,” J. AI Data Min., vol. 9, no. 4, pp. 451–463, 2021, doi: 10.22044/JADM.2021.10471.2186.
[25] L. Lin and E. Dobriban, “What Causes The Test error? Going Beyond Bias-Variance via ANOVA,” J. Mach. Learn. Res., vol. 22, pp. 1–83, 2021.
[26] S. Sinsomboonthong, “Performance Comparison of New Adjusted Min-Max with Decimal Scaling and Statistical Column Normalization Methods for Artificial Neural Network Classification,” Int. J. Math. Math. Sci., vol. 2022, 2022, doi: 10.1155/2022/3584406.