534
JITE, 7 (2) January 2024 ISSN 2549-6247 (Print) ISSN 2549-6255 (Online)
JITE (Journal of Informatics and Telecommunication Engineering)
Available online http://ojs.uma.ac.id/index.php/jite DOI : 10.31289/jite.v7i2.10628
Received: 30 October 2023 Accepted: 25 November 2023 Published: 31 January 2024
Prediction Stunting Analysis Using Random Forest Algorithm and Random Search Optimization
Achmad Aria Reza1), Muhammad Syaifur Rohman2)
Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro, Indonesia
*Coresponding Email: [email protected] Abstrak
Stunting merupakan penyakit permasalahan gizi yang dialami oleh balita, stunting merupakan kondisi dimana balita memiliki tinggi dibawah rata-rata. Hal ini terjadi karena beberapa faktor, salah satunya masalah gizi pangan pada balita. Khasus stunting di Indonesia tergolong cukup tinggi hingga mencapai 21,6% pada tahun 2022, yang menunjukan tingkat stunting yang cukup tinggi. Identifikasi penyakit stunting ini dilakukan dengan menerapkan pendekatan data mining karena dinilai lebih efisien, akan tetapi algoritma klasifikasi dalam data mining sering terjadi ketidak seimbangan data, yang dapat mengakibatkan akurasi yang diperoleh rendah, hal itu akan berdampak pada hasil prediksi yang tidak akurat. Dan menerapkan algoritma random forest dengan optimasi menggunakan metode random search. Pada hasil pengujian menunjukan random forest mampu menghasilkan akurasi yang cukup tinggi yaitu sebesar 90.7%, dan setelah dilakukan optimasian menggunakan random search mampu meningkat menjadi 96.33%. Kombinasi algoritma dan optimasi ini sangat cocok hingga mampu menaikan akurasi sebesar 5.63%. Hasil ini memiliki implikasi penting dalam mendukung keputusan pencegahan stunting pada balita. Penelitian ini dapat menjadi sumber informasi untuk pihak Kesehatan dalam mengidentifikasi dan pencegahan stunting yang lebih efektif. Penggunaan algoritma random forest yang dioptimasikan menggunakan random search dapat menjadi solusi yang efisisen dalam mengatasi imbalance data.
Kata Kunci: Stunting, Data mining, Random Forest, Random Search.
Abstract
Stunting is a nutritional problem experienced by toddlers, characterized by a height below the average. This condition arises due to various factors, one of which is the nutritional issues faced by toddlers. Stunting cases in Indonesia are relatively high, reaching 21.6% in 2022, indicating a significant prevalence of stunting. The identification of stunting is carried out through a data mining approach, deemed more efficient. However, the classification algorithm in data mining often encounters data imbalance, leading to low accuracy and inaccurate prediction results. To address this, the study employs the Random Forest algorithm with optimization using the random search method. The test results demonstrate that Random Forest achieves a relatively high accuracy of 90.7%. After optimization using random search, accuracy further increases to 96.33%. The combination of the algorithm and optimization proves to be highly effective, resulting in a 5.63% increase in accuracy. These findings hold crucial implications in supporting decisions for preventing stunting in toddlers. This research serves as a valuable source of information for the Health sector in identifying and implementing more effective strategies for stunting prevention. The use of the Random Forest algorithm optimized with random search proves to be an efficient solution in addressing data imbalance.
Keywords: Stunting, Data mining, Random Forest, Randomized Search.
How to Cite: Reza, A. A., & Rohman, M. S. (2024). Prediction Stunting Analysis Using Random Forest Algorithm and Random Search Optimization. JITE (Journal of Informatics and Telecommunication Engineering), 7(2), 534-544.
I. PENDAHULUAN
Balita dalam masa pertumbuhan sangat membutuhkan asupan gizi yang baik. Pada masa ini di Indonesia masih banyak kejadian balita kerdil atau bisa disebut stunting. Stunting merupakan salah satu penyakit permasalahan kekurangan gizi yang sering dialami oleh balita dalam masa pertumbuhannya(Hasan dkk., t.t.). Menurut hasil survei status gizi indonesia (SSGI) menyebutkan angka stunting di Indonesia tahun 2021 sebesar 24,4% dan turun pada tahun 2022 menjadi 21,6%(Badan
535
Kebijakan Pembangunan Kesehatan & KEMENTERIAN KESEHATAN RI, 2022). Persentase stunting yang dialami Indonesia pernah lebih tinggi dibanding tahun 2022, yaitu menyentuh rata-rata 36,4% yang terjadi pada tahun 2005 sampai tahun 2017(Ramdhani dkk., 2020). Jumlah penyakit stunting di indonesia cukup tinggi, adapun negara asia tenggara lainya yang mengalami masalah penyakit stunting, seperti yang terjadi di negara Myanmar sebanyak 35%, Vietnam 23%, dan Thailand 16%(Arbian Sulistyo dkk., 2020). Adapun faktor yang dapat mempengaruhi terjadinya stunting pada balita, seperti masalah sosial ekonomi, gizi pangan, status gizi pada ibu saat hamil, bayi yang lahir dengan berat yang rendah, pola asuh yang diberikan orang tua, status gizi, sanitasi serta ketersediaan air(Wardita dkk., 2021). Kebanyakan orang tua tidak menyadari terjadinya stunting yang dialami oleh balita, namun setelah menginjak usia 2 tahun stunting itu baru terlihat dan akan memberikan dampak buruk pada balita(Haskas dkk., 2020). Dampak yang ditimbulkan penyakit stunting cukup serius terhadap perkembangan fisik dan kognitif balita, serta kualitas hidup balita saat masa dewasanya. Selain itu akan ada efek negatif yang akan timbul akibat stunting, seperti terganggunya perkembangan otak dan kecerdasan balita, gangguan pada metabolisme balita(Pratiwi dkk., 2021).Oleh karena itu, dengan upaya mendeteksi dan mencegah stunting ini sangat penting untuk mengatasi tingginya angka penyakit stunting yang dialami balita. Masalah stunting yang cukup tinggi di Indonesia tentunya dapat memberikan dampak yang cukup serius. Dengan begitu salah satu solusi yang dapat digunakan yaitu dengan melakukan prediksi stunting yang dapat membantu pihak terkait dalam menentukan kebijakan dalam langkah pencegahan stunting pada balita, terutama pada wilayah Krobokan, Semarang Barat.
Pada Penelitian ini menerapkan pendekatan data mining karena lebih efisien. Data mining merupakan sebuah proses yang berguna untuk mendapat informasi penting dari Kumpulan data dalam jumlah banyak(Handayani dkk., 2021). Prediksi stunting dilakukan dengan mengelola data dalam jumlah banyak, oleh karena itu digunakam pendekatan data mining dengan menerapkan algoritma klasifikasi. Ada banyak algoritma klasifikasi yang dapat digunakan untuk prediksi beberapa diantaranya, yaitu C4.5, random forest, SVM, serta naïve bayes(Azhari dkk., 2021)(Ardi Ramdania, 2022)(Eghi Ditendra, 2022). Tetapi pada Penelitian ini akan menerapkan teknik klasifikasi dengan menggunakan algoritma random forest karena algoritma ini merupakan salah satu metode klasifikasi terbaik(Annisa, 2019). Algoritma random forest efektif untuk mengatasi masalah Overfitting, karena hasil prediksi yang diambil banyak, serta dapat menghilangkan bias(Qadrini dkk., 2022). Algoritma random forest didefinisikan berupa kelompok klasifikasi dari pohon regresi yang dilatih menggunakan data pelatihan dan menggunakan pilihan fitur acak pada proses generate tree(Perdana dkk., 2021)(Zhang dkk., 2021). Selain itu pada penelitian ini akan menerapkan metode Random Search yang bertujuan untuk mencari parameter terbaik yang akan diterapkan pada model. Random search adalah Optimasi hyperparameter yang sering digunakan, Optimasi ini bekerja dengan menguji kombinasi nilai parameter secara acak(Sunarya & Haryanti, 2022)(Bergstra dkk., 2012).
Dengan menerapkan pendekatan data mining menggunakan algoritma random search untuk memprediksi stunting. Dan menghasilkan evaluasi model yang menunjukkan performa yang didapat cukup baik dengan akurasi meningkat dari 90.7% tanpa optimasi, menjadi 96.33% setelah menerapkan Random Search. Optimasi ini juga berdampak pada peningkatan presisi, recall, dan F1 Score, menandakan bahwa penggunaan Random Forest yang dioptimasi dengan Random Search sangat efektif. Kombinasi ini cukup cocok untuk menentukan akurasi prediksi penyakit stunting yang dialami oleh balita. Dalam pelaksanaan penelitian ini dataset diperoleh dari Puskesmas Krobokan Semarang Barat. Penelitian akan menggunakan beberapa data balita yang dapat memungkinkan memengaruhi terjadinya stunting pada balita.
Adapun penelitian sebelumnya yang membahas tentang prediksi stunting, penelitian yang dilakukan oleh Hindratmo Hady Sutarno, Roswan Latuconsina, dan Ashri Dinimaharawati(Sutarno dkk., 2021) dengan menerapkan algoritma K-NN dan melakukan 3 kali pengujian dengan menggunakan 50% : 50%, 70% : 30%, 90% : 10% antara data training dan data testing. Akurasi yang didapatkan dari perbandingan 50% data trining dan 50% data testing sebesar 96,84%. Akurasi dari perbandingan 70% data trining dan 30% data testing sebesar 97,09%. dan akurasi di pengujian ketiga dengan perbandingan 90% data trining dan 10%
data testing sebesar 97,34%. Selain itu, ada penelitian lain yang membahas prediksi stunting berdasarkan kondisi Orang tua menggunakan SVM yang dilakukan oleh I Ketut Adhi Wira Guna, Endang Setyati, Edwin Pramana(Wiraguna dkk., 2022) dengan menggunakan 300 data dan dijadikan 70% sebagai data trining dan 30% data testing, dan dilakukan 5 kali uji coba dan mendapatkan nilai akurasi tertinggi sebesar 98,89%. Ada juga Penelitian prediksi stunting lain yang dilakukan oleh Vega Herliansyah, Roswan Latuconsina, Ashri Dinimaharawati(Herliansyah dkk., 2021) dengan menggunakan algoritma naïve bayes, dimana dalam Penelitian tersebut dilakukan 3 kali pengujian dengan menerapkan perbandingan data training dan data
536
testing. Pada pengujian pertama dengan data training 90% dan data testing 10% mendapatkan akurasi sebesar 64.02%, pengujian kedua menggunakan data training 70% dan data testing 30% mendapatkan akurasi sebesar 60.67%, serta pengujian terakhir menggunakan data training 50% dan data testing 50%
mendapatkan akurasi sebesar 60.37%. dari pengujian tersebut dapat di lihat bahwa akurasi tertinggi yang bisa diperoleh algoritma naïve bayes sebesar 64.02%, dengan pengujian menggunakan data training 90%
dan data testing 10%.
Meskipun telah ada penelitian sebelumnya, terdapat kebutuhan untuk pengembangan metode prediksi yang lebih efektif. Penelitian ini dapat mengisi kesenjangan tersebut dengan menerapkan pendekatan data mining, khususnya menggunakan algoritma Random Forest yang dioptimalkan dengan metode Random Search.Dengan adanya peneltian ini diharapkan dapat memberikan dampak yang positif untuk membantu upaya pencegahan stunting yang dialami oleh balita, serta menurunkan tingkat penyakit stunting yang ada di Indonesia, terutama di Semarang. Khususnya dengan memanfaatkan potensi dari algoritma Random Forest yang di optimasi dengan metode random search. Hasil dari penelitian ini dapat digunakan sebagai dasar untuk mengembangkan sistem prediksi yang lebih akurat dan efektif dalam memprediksi stunting yang dialami oleh balita.
II. METODE PENELITIAN
Penelitian ini menerapkan 5 (lima) tahapan penting untuk menyelesaikan Penelitian ini, yaitu kajian pustaka, pengumpulan dataset, pre processing dataset, pemodelan dataset dengan random forest, kemudian akan di optimasi menggunakan metode random search dan evaluasi. Agar lebih jelas skema Penelitian ini ditunjukan pada Gambar 1.
Gambar 1. Skema Penelitian Dari skema Penelitian diatas, akan diuraikan sebagai Berikut ini:
A. Kajian Pustaka
Pada tahapan kajian pustaka akan dilakukan pencatatan informasi dari beberapa sumber yang dapat menunjang berjalannya penelitian ini. Artikel ilmiah yang digunakan sebagai dasar penelitian ini meliputi artikel ilmiah yang membahas tentang stunting yang terjadi pada balita, metode machine learning, prediksi stunting balita, penggunaan algoritma random forest, serta pengoptimasian menggunakan metode random search.
B. Pengumpulan Dataset
Dalam melakukan Penelitian ini dataset diperoleh dari Puskesmas Krobokan Semarang Barat yang berisikan data data stunting balita yang ada di Kelurahan Krobokan, Semarang Barat, adapun data data yang telah terkumpul dan digunakan dalam penelitian ini untuk melakukan prediksi stunting pada balita, meliputi jenis kelamin, berat badan lahir, tinggi badan lahir, usia, berat badan waktu pengukuran, tinggi badan waktu pengukuran, serta status stunting. Dengan data-data tersebut akan di olah menggunakan mechine learning dan menggunakan algoritma random forest, serta dioptimasikan menggunakan metode random search.
537
C. Pre Processing Dataset
Pada tahap Pre procesing Dataset, dilakukan pemrosesan data sebelum dimodelkan menggunakan random forest. Dimana data di proses dengan melakukan data cleaning atau melakukan pengecekan data, untuk memastikan dataset, apakah semua dataset terdapat nilai yang kosong. Selanjutnya, dataset akan di proses Standardscaler yang bertujuan untuk menstandarisasi dataset yang telah di dapat. Metode standardScaler ini berguna untuk menyesuaikan nilai data dari semua atribut yang ada untuk disesuaikan menggunakan skala tertentu(Jannah Alfirdausy dkk., 2023). Rumus dalam melakukan Standardscaler :
Z = 𝑋−µ
σ (1)
Z : nilai data baru yang telahdi scaling X : nilai asli data
µ : rata-rata dari data σ : deviasi dari data
Setelah itu, akan dilakukan class balancing yang berguna untuk menyeimbangkan data untuk menghindari terjadinya ketidak seimbangan yang dapat muncul dalam proses pengolahan data, yang berakibat performa yang dihasilkan algoritma menjadi buruk(Madaerdo Sotarjua dkk., t.t.). Teknik yang digunakan di Penelitian ini menerapkan teknik oversampling, yaitu dengan meningkatkan data yang lebih sedikit hingga sebanding dengan data yang banyak, dengan melakukan duplikasi secara random pada data yang lebih sedikit(Omer Heranova, 2019).
D. Pemodelan dengan Random Forest dan Optimasi Menggunakan Random Search
Dalam penelitian ini menerapkan algoritma random forest. Random forest adalah salah satu algoritma machine learning yang termasuk algoritma ensemble learning yang sering digunakan karena dapat mengatasi overfitting(Qadrini dkk., 2022), dan menghasilkan prediksi yang cukup stabil. Random Forest merupakan peningkatan dari decision tree karena random forest itu Kumpulan dari beberapa decision tree(Sanjaya dkk., 2020). Dan algoritma ini memiliki keunggulan, dimana algoritma ini bisa meningkatkan akurasi jika ditemukan data yang hilang dan untuk resisting outliers, serta efisien digunakan untuk menyimpan data(Devella & Novia Rahmawati, 2020). Selain itu random forest memiliki proses seleksi fitur yang berguna untuk mengambil fitur terbaik, sehingga performa klasifikasi dapat meningkat(Supriyadi dkk., 2020). Algoritma akan di optimasi menggunakan metode random search yang memiliki kegunaan untuk mencari parameter terbaik dalam algoritma random forest dengan cara mencoba kombinasi parameter secara acak. Pengoptimasian hyperparameter berbasis berbasis algoritma random search merupakan salah satu teknik yang efisien dalam meningkatkan performa (Azhar dkk., 2021). Meskipun optimasi random search merupakan algoritma yang memakai hyperparameter yang sederhana, tetapi algoritma ini tetap memiliki dasar yang cukup kuat, dan juga algoritma ini bebas model(Abdurrahman dkk., 2022)
E. Evaluasi Hasil
Tahap terakhir yaitu tahap evaluasi hasil, pada tahap ini akan dilakukan penilaian seberapa bagus performa algoritma random forest yang digunakan dalam penelitian ini. Pada penelitian ini yang dijadikan tolak ukur performa adalah tingkat akurasi yang dihasilkan dalam penelitian ini. Serta menggunakan confusion matrix untuk menganalisis dan mengevaluasi model. Confusion matrix merupakan suatu cara menentukan hasil akurasi dari sebah model yang telah dibuat(Yusril Aldean dkk, 2022). Pada confusion matrix sendiri terdiri dari 4 bagian utama, yaitu:
• True Positif (TP) : merupakan data positif dan sudah di prediksi sebagai positif.
• True Negatif (TN) : merupakan data negatif dan sudah di prediksi sebagai negatif.
• False Positif (FP) : merupakan data yang sebenarnya negatif dan sudah di prediksi sebagai positif.
• False Negatif (FN) : merupakan data yang sebenarnya positif dan sudah di prediksi sebagai negatif.
538
Untuk gambar tabel confusion matrix ditunjukan sebagai Berikut :
Gambar 2. Tabel confusion matrix
Dari tabel diatas, dapat membantu untuk menentukan performa model, yaitu sebagai Berikut
• Akurasi : untuk mengukur kinerja model klasifikasi memprediksi dengan benar secara menyeluruh.
Dan rumus perhitungannya sebagai berikut ini:
Akurasi = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (2)
• Presisi : untuk mengukur sejauh mana prediksi positif yang dapat dibuat oleh model dengan benar Dan rumus perhitungannya sebagai berikut ini:
Presisi =𝑇𝑃+𝐹𝑃𝑇𝑃 (3)
• Recall : untuk mengukur kinerja model dapat mengidentifikasi dengan benar semua instance yang sebenarnya positif. Dan rumus perhitungannya sebagai berikut ini:
Recall = 𝑇𝑃
𝑇𝑃+𝐹𝑁 (4)
• F1 – Score : ukuran yang menggabungkan presisi dan recall untuk memberi gambaran yang menunjukan kualitas keseluruhan model. Dan rumus perhitungannya sebagai berikut ini:
F1-Score=2 X 𝑃𝑟𝑒𝑠𝑖𝑠𝑖 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 + 𝑅𝑒𝑐𝑎𝑙𝑙 (5)
III. HASIL DAN PEMBAHASAN
Dalam pelaksanaan penelitian ini membahas penggunaan algoritma random forest yang dioptimasi menggunakan metode random search yang bertujuan untuk meningkatkan akurasi yang diperoleh untuk memprediksi penyakit stunting. Algoritma random forest terbukti sangat efektif digunakan untuk memprediksi. Berikut ini hasil serta pembahasan lengkap mengenai penelitian yang telah dilaksanakan:
A. Pengumpulan Data
Pada Penelitian ini menggunakan data yang diperoleh dari Puskesmas Krobokan Semarang Barat.
Dengan data yang berjumlah 10.000 data stunting, yang terdiri dari 2 Kelas, dan 7 atribut. Beberapa data yang diperoleh sebagai Berikut ini ditampilkan pada tabel 1
Tabel 1. Data stunting
JK Usia BB Lahir TB Lahir BB TB kategori
P 11 2,8 49 10 68,3 Stunting
L 13 2,9 50 10 69 Stunting
L 44 3 49 7,1 72,2 Stunting
L 18 2,8 50 7,2 65 Stunting
L 13 2,8 48 7,7 65 Stunting
539
P 13 2,8 49 10,5 72,2 Stunting
L 7 2,3 50 6,4 68,3 Tidak Stunting
L 16 2,7 50 2,9 69 Stunting
P 17 2 49 8 92,7 Stunting
P 13 3,1 49 7 65 Stunting
B. Pre processing dataset
Dari data yang sudah di dapat dari Puskesmas Krobokan Semarang akan dilakukan pre prosessing dataset meliputi standardscaler dan class balancing
StandardScaler
Pada pre processing data akan dilakukan standardscaler, dimana akan dilakukan penyesuaian skala nilai yang terdapat dalam dataset untuk di sesuaikan pada skala tertentu. tahapan ini bertujuan untuk mencegah variable yang memiliki skala besar mendominasi perhitungan yang bisa mempengaruhi proses perhitungan. Standardscaler menjadi sangat penting untuk memenuhi asumsi dan meningkatkan kinerja algoritma. Sebelum melakukan standardscaler, dikarenakan ada atribut binner, akan dilakukan mapping untuk merubah nilai yaitu pada jenis kelamin “JK” menjadi 'L': 1, 'P': 0. Berikut ini merupakan contoh data sebelum dan sesudah melalui proses standardscaler.
Tabel 2. Nilai Standardscaler
Atribut Nilai Asli Nilai
Standardscaler Jenis Kelamin
Usia BB Lahir TB Lahir
BB TB
0 11 2.9
49 2.9 65.0
-1.44648631 -0.29201705 0.63855563
-0.44477381 -2.80930422 -0.44855075
Dari nilai asli diatas menunjukan berbedaan jumlah nilai yang cukup besar, sehingga apabila tidak dilakukan standardscaler akan mengakibatkan nilai yang besar mendominasi perhitungan, dan akan menyebabkan ketidak akurasian hasil yang diperoleh. Langkah awal harus memahami dataset untuk memasitiak pemahaman terhadap variable-variabel yang digunakan. Kemudian dilakukan perhitungan rata- rata(mean) serta standar deviasi (Standard Deviation) dari setiap fitur di dataset. Inti dari proses ini adalah untuk melakukan scaling data, setiap fitur dalam dataset akan diubah dengan cara mengurangkan mean lalu membaginya dengan standar deviasi, dan akan menghasilkan data yang dinormalisasi, menggunakan mean 0 dan standar deviasi 1. Data yang telah melalui tahap ini siap untuk digunakan di berbagai pemodelan, dan membantu menghlangkan skala yang berbeda antar fitur. Berikut ini data yang telah melalui proses standardscaler:
Class Balancing
Apabila tidak dilakukan class balancing dapat mempengaruhi akurasi yang dihasilkan oleh algoritma ramndom forest. Dengan begitu dilakukan class balancing supaya akurasi yang dihasilkan optimal. Berikut ini pengujian tanpa dilakukan class balancing ditunjukan confusion matrix sebagai berikut ini:
Gambar 3. Confusion Matrix Random Forest tanpa class balancing
540
Dari confusion matrix diatas di peroleh TP sebesar 1472, TN sebesar 204, FP sebesar 203, dan FN sebesar 121. Dari hasil tersebut dapat dilakukan perhitungan Akurasi, Presisi, Recall, dan F1 Score. Yang ditunjukan pada tabel Berikut ini:
Tabel 3. Hasil Evaluasi Algoritma Random Forest tanpa class balancing
Parameter Nilai
Akurasi Presisi Recall F1 Score
83.8%
87.8%
92.4%
89.9%.
Dari pengujian tanpa dilakukan class balancing hanya memperoleh akurasi sebesar 83.8%. oleh karena itu dilakukan class balancing pada data puskesmas krobokan semarang, ada sebanyak 10000 data dengan kategori biner Stunting (nilai 1) atau Tidak Stunting (nilai 0). Dari 10000 data yang di uji, mendapatkan perbandingan kategori yang ditampilkan pada table Berikut.
Tabel 4. Kategori data sebelum Class Balancing
Data diatas tidak seimbang dan dapat menyebabkan imbalance data yang dapat mengurangi akurasi yang akan dihasilkan. Oleh karena itu dilakukan penyetaraan data, dimana kategori 1 dan 0 harus sama. Data yang bernilai 1 akan dilakukan pengurangan secara random sampai jumlahnya sama dengan data kategori 0. Berikut ini adalah hasil setelah dilakukan class balancing
Tabel 5. Output data sesudah Class Balancing
Stunting (nilai 1) Tidak Stunting(nilai 0).
Jumlah Data 7955 7955
Proses penyetaraan ini berdampak pada karakteristik dataset asli, sehingga memerlukan proses lanjutan untuk memastikan kualitas yang akan dihasilkan.
Pembagian data latih dan data uji
Pada Penelitian ini dilakukan pembagian dataset menjadi data latih dan data uji dengan persentase data latih sebesar 80%, dan data uji sebesar 20% untuk mendapatkan hasil akurasi prediksi stunting pada balita.
C. Evaluasi Confusion Matrix Pada Perhitungan Random Forest
Data yang telah melalui pre processing akan diuji menggunakan algoritma random forest, lalu akan di evaliuasi menggunakan confusion matrix. Perhitungan yang dilakukan menggunakan confusion matrix untuk algoritma random forest menghasilkjan hasil sebagai Berikut ini:
Gambar 4. Confusion Matrix Random Forest
gambar diatas menunjukan evaluasi dari pemrosesan data menerapkan algoritma Random Forest dengan metode confusion matrix. Terdiri dari 4 bagian, yaitu TP (true Positif), TN (True Negatif), FP (False Positif), dan FN (False Negatif. Dari gambar diatas menunjukan TP sebesar 1514, TN sebesar 1375, FP
Stunting (nilai 1) Tidak Stunting (nilai 0).
Jumlah Data 7955 2045
541
sebesar 66, dan FN sebesar 227. Dari confusion matrix tersebut, dapat dilakukan perhitungan akurasi, presisi, Recall, serta F1 Score. Ditunjukan pada tabel dibawah ini:
Tabel 6. Hasil Evaluasi Algoritma Random Forest
Parameter Nilai
Akurasi Presisi Recall F1 Score
90.7%
95.8%
87.0%
91.15%
Dari perhitungan diatas Algoritma random forest memiliki akurasi sebesar 90.7%, dan mendapat presisi yang cukup tinggi sebesar 95.8%, yang dapat diartikan model ini mampu meklasifikasikan positif dengan tepat. Selain itu Recall yang didapat sebesar 87.0% dan F1 Score sebesar 91.15%, menunjukan bahwa recall dan presisi seimbang, menandakan kinerja model bekerja dengan solid.
D. Evaluasi Confusion Matrix Pada Perhitungan Random Forest + Random Search
Perhitungan ini menunjukan hasil performa algoritma random forest di Optimasi menggunakan random search.
Gambar 5. Confusion Matrix Random Forest + Random search
Pengujian ini menunjukan performa algoritma random forest di Optimasi menggunakan random search sangat baik dari confusion matrix diatas medapat nilai TP (True Positif) sebesar 1554, TN (True Negatif) sebesar 1511, FP (False Positif) sebesar 26, dan FN (False Negatif) sebesar 91. Dari confusion matrix tersebut, dapat dilakukan perhitungan akurasi, presisi, Recall, serta F1 Score. Ditunjukan pada tabel dibawah ini:
Tabel 7. Hasil Evaluasi Algoritma Random Forest Optimasi Random Search
Parameter Nilai
Akurasi Presisi Recall F1 Score
96.33%
98.36%
94.39%
96.33%
Performa yang dihasilkan algoritma random forest dengan menerapkan Optimasi random search memberikan kenaikan akurasi yang cukup besar, yaitu sebesar 96.33%, menunjukan bahwa model ini dapat mengklasifikasikan data mempunyai indikasi yang sangat baik, dan menghasilkan presisi sebesar 98.36%
dan recall sebesar 94.39%, hasil yang didapat sangatlah tinggi. Serta F1 score sebesar 96.33%, menunjukan keseimbangan presisi dan Recall yang tinggi.
Dalam penelitian sebelumnya yang telah dilakukan Hindratmo Hady Sutarno, Roswan Latuconsina, dan Ashri Dinimaharawati menggunakan algoritma K-NN dan mencapai akurasi tertinggi sebesar 97.34%.
Sementara itu, penelitian yang dilakukan oleh I Ketut Adhi Wira Guna, Endang Setyati, dan Edwin Pramana menggunakan SVM dan mendapatkan akurasi tertinggi sebesar 98.89%. Dibandingkan dengan penelitian- penelitian tersebut, meskipun akurasi dari penelitian ini tidak sebesar penelitian terdahulu, namun penggunaan algoritma random forest yang dioptimasi menggunakan random search masih cukup baik digunakan dalam memprediksi stunting pada balita.
542
E. Analisis Hasil
Dari evaluasi model yang telah dilakukan. Pada Penelitian ini akan mengevaluasi performa dari algoritma random forest saja dengan algoritma random forest yang dioptimasi menggunakan random search, yang akan ditampilkan pada diagram dibawah ini
Gambar 6. Perbandingan Hasil Akurasi, Presisi, Recall, Dan F1-Score
Pada Penelitian yang telah dilakukan, akurasi random forest mampu mendapatkan akurasi sebesar 90.7%, akurasi ini sudah cukup tinggi, tetapi setelah dilakukan optimasian random search akurasinya meningkat sebesar 96.33%, tandanya optimasi random search cocok di padukan dengan algoritma random forest. Dari perbandingan ini random forest dengan optimasi random search lebih baik digunakan untuk memprediksi khasus stunting ini. Kemudian presisi, dimana hasil presisi ini berguna untuk mengukur sejauh mana klasifikasi positif yang dapat dibuat oleh model dengan benar. Pada Penelitian ini presisi yang dihasilkan oleh algoritma random forest sudah cukup tinggi, yaitu 95.8%, dan setelah dioptimasi menggunakan random search presisi meningkat menjadi 98.36%. nilai presisi yang dihasilkan random forest yang dioptimasi random search sangat tinggi, dengan begitu kombinasi algoritma dan optimasi ini sangat layak untuk klasifikasi positif. Lalu Recall, Recall ini berguna untuk mengukur kinerja model untuk mengidentifikasi semua instance yang sebenarnya positif dalam dataset dengan benar. Recall yang diperoleh algoritma random forest pada Penelitian ini sebesar 87.0%, dan untuk algoritma random forest yang dioptimasi menggunakan random search mendapat recall sebesar 94.39%. dengan begitu kombinasi ini menandakan mampu mengidentifikasi nilai yang positif dengan sangat baik. Dan yang terakhir F1-score yang berguna untuk mengetahui keseimbangan antara presisi dengan recall. Pada Penelitian ini f1-score yang didapat dari algoritma random search sebesar 91.15%, skor ini cukup tinggi dan menunjukan random forest memiliki keseimbangan presisi dan recall yang baik. Untuk algoritma random forest dengan dilakukan optimasi random search mendapat kenaikan skor menjadi 96.33%. Dengan begitu penerapan optimasi random search memiliki keseimbangan presisi dan recall yang lebih baik dibanding tanpa menerapkan optimasi. Dari semua hasil diatas menunjukan bahwa penerapan random forest yang dioptimasi dengan random search lebih unggul dari random forest tanpa optimasi.
Batasan penelitian ini melibatkan ukuran dataset, ketersediaan atribut, dan mungkin terdapat faktor lain yang dapat mempengaruhi hasil prediksi. Keterbatasan ini perlu diperhatikan dalam interpretasi hasil.
Dibandingkan dengan penelitian sebelumnya, meskipun akurasi dari penelitian ini lebih rendah, penggunaan algoritma random forest yang dioptimasi dengan random search tetap menunjukkan performa yang cukup baik dalam memprediksi stunting pada balita. Hasil penelitian ini memberikan kontribusi pada pengembangan model prediksi stunting pada balita. Implikasinya dapat digunakan dalam perencanaan kebijakan kesehatan dan langkah-langkah pencegahan stunting, khususnya di wilayah Krobokan, Semarang barat.
543
IV. SIMPULAN
Dari pengujian yang telah dilakukan, menunjukan bahwa algoritma random forest memiliki potensi yang sangat baik, dengan menghasilkan akurasi yang cukup besar, yaitu 90.7%. tetapi Penelitian ini juga melakukan pengoptimasian pada algoritma random forest dengan menerapkan optimasi random search.
Pengoptimasian ini cukup efektif untuk meningkatkan akurasi yang diperoleh. Akurasi yang diperoleh algoritma random forest dengan menerapkan optimasi random search sebesar 96.33%. Selain akurasi, penggunaan optimasi ini juga meningkatkan presisi, recall, dan F1-score. Presisi yang diperoleh tanpa optimasi sebesar 95.8%, dan setelah dilakukan optimasi meningkat menjadi 98.36%. Kemudian, untuk recall sebelum optimasi mendapatkan 87.0%, dan setelah dilakukan optimasi meningkat menjadi 94.39%. Serta F1-score yang diperoleh sebelum melakukan optimasi sebesar 91.15%, setelah melalui optimasi meningkat menjadi 96.33%. Dengan begitu dapat dipastikan bahwa pengoptimasian ini sangat bagus dikombinasikan dengan algoritma random forest untuk memprediksi khasus stunting ini. Dengan Penelitian ini diharapkan dapat membantu penelitian yang akan ada mengenai penggunaan algoritma ini dalam memprediksi khasus stunting. Dan dengan adanya Penelitian diharapkan ini dapat membantu mengatasi tingginya angka stunting di Indonesia, terutama di Krobokan Semarang Barat.
V. UCAPAN TERIMAKASIH
Terimakasih sebesar-besarnya kepada Allah SWT yeng memberikan kelancaran dalam menjalankan penelitian ini. dan juga terimakasih kepada keluarga yang telah mendukung dalam pelaksanaan penelitian, serta teman-teman yang telah memberikan bantuan untuk menyelesaikan Penelitian ini.
DAFTAR PUSTAKA
Abdurrahman, G., Oktavianto, H., & Sintawati, M. (2022). Optimasi Algoritma XGBoost Classifier Menggunakan Hyperparameter Gridesearch dan Random Search Pada Klasifikasi Penyakit Diabetes. Dalam Informatics Journal (Vol. 7, Nomor 3).
Annisa, R. (2019). ANALISIS KOMPARASI ALGORITMA KLASIFIKASI DATA MINING UNTUK PREDIKSI PENDERITA PENYAKIT JANTUNG. Jurnal Teknik Informatika Kaputama (JTIK), 3(1).
Arbian Sulistyo, D., Susdyastama Putra, Y., & Yulia Riska, S. (2020). METODE AGILE DALAM PERANCANGAN SISTEM PREDIKSI PREVALENSI STUNTING DI INDONESIA. Dalam Jurnal Ilmiah NERO (Vol. 5, Nomor 2).
Ardi Ramdania, C. D. S. F. R. M. F. A. T. M. A. R. (2022). ALGORITMA KLASIFIKASI DATA MINING UNTUK MEMPREDIKSI MASYARAKAT DALAM MENERIMA BANTUAN SOSIAL. JURNAL ILMIAH SISTEM INFORMASI (JUSI), 1, 39–47.
Azhar, Y., Mahesa, G. A., & Mustaqim, Moch. C. (2021). Prediction of hotel bookings cancellation using hyperparameter optimization on Random Forest algorithm. Jurnal Teknologi dan Sistem Komputer, 9(1), 15–21. https://doi.org/10.14710/jtsiskom.2020.13790
Azhari, M., Situmorang, Z., & Rosnelly, R. (2021). Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive Bayes. JURNAL MEDIA INFORMATIKA BUDIDARMA, 5(2), 640. https://doi.org/10.30865/mib.v5i2.2937
Badan Kebijakan Pembangunan Kesehatan, & KEMENTERIAN KESEHATAN RI. (2022). BUKU SAKU Hasil Survei Status Gizi Indonesia (SSGI) 2022.
Bergstra, J., Ca, J. B., & Ca, Y. B. (2012). Random Search for Hyper-Parameter Optimization Yoshua Bengio.
Dalam Journal of Machine Learning Research (Vol. 13). http://scikit-learn.sourceforge.net.
Devella, S., & Novia Rahmawati, F. (2020). Implementasi Random Forest Untuk Klasifikasi Motif Songket Palembang Berdasarkan SIFT. Jurnal Teknik Informatika dan Sistem Informasi, 7(2).
http://jurnal.mdp.ac.id
Eghi Ditendra, S. S. R. ,M H. A. T. , M. S. (2022). Comparison of Classification Algorithms for Sentiment Analysis of Islam Nusantara in Indonesia. 2, 71–77.
Handayani, N., Wahyono, H., Trianto, J., & Permana, D. S. (2021). Prediksi Tingkat Risiko Kredit dengan Data Mining Menggunakan Algoritma Decision Tree C.45. JURIKOM (Jurnal Riset Komputer), 8(6), 198.
https://doi.org/10.30865/jurikom.v8i6.3643
544
Hasan, M., Hardianti, E., Oktavia, R., Studi Keperawatan, P., & Keperawatan dan Kebidanan, F. (t.t.). Cegah Stunting Itu Penting! Dalam Jurnal Pengabdian kepada Masyarakat Sosiosaintifik. JurDikMas.
https://ojs.univprima.ac.id/index.php/JurDikMas
Haskas, Y., Nani, S., & Makassar, H. (2020). GAMBARAN STUNTING DI INDONESIA: LITERATUR REVIEW.
Dalam Jurnal Ilmiah Kesehatan Diagnosis (Vol. 15).
Herliansyah, V., Latuconsina, R., & Dinimaharawati, A. (2021). PREDIKSI STUNTING PADA BALITA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI NAÏVE BAYES STUNTING PREDICTION IN CHILDREN USING NAÏVE BAYES CLASSIFICATION ALGORITHM.
Jannah Alfirdausy, R., Bahri, S., Studi Matematika, P., Sunan Ampel, U., & Studi Biologi, P. (2023). Implementasi Algoritma K-Nearest Neighbor untuk Klasifikasi Diagnosis Penyakit Alzheimer Implementation of K- Nearest Neighbor Algorithm for Classification of Alzheimer’s Disease Diagnosis. Dalam Agustus (Vol.
22, Nomor 3).
Madaerdo Sotarjua, L., Budhi Santoso, D., Singaperbangsa Karawang Jl Ronggo Waluyo, U. H., Telukjambe Timur, K., Karawang, K., & Barat, J. (t.t.). PERBANDINGAN ALGORITMA KNN, DECISION TREE,*DAN RANDOM*FOREST PADA DATA IMBALANCED CLASS UNTUK KLASIFIKASI PROMOSI KARYAWAN. 7(2), 2022.
Muhammad Yusril Aldean, P. N. A. S. N. (2022). Analisis Sentimen Masyarakat Terhadap Vaksinasi Covid-19 di Twitter Menggunakan Metode Random Forest Classifier (Studi Kasus Vaksin Sinovac). VOL.4.
Omer Heranova. (2019). Synthetic Minority Oversampling Technique pada Averaged One Dependence Estimators untuk Klasifikasi Credit Scoring. masa berlaku mulai, 1(3), 443–450.
Perdana, A. Y., Latuconsina, R., & Dinimaharawati, A. (2021). PREDIKSI STUNTING PADA BALITA DENGAN ALGORITMA RANDOM FOREST.
Pratiwi, R., Sari, R. S., & Ratnasari, F. (2021). Article DAMPAK STATUS GIZI PENDEK (STUNTING) TERHADAP PRESTASI BELAJAR : A LITERATURE REVIEW. https://stikes-nhm.e-journal.id/NU/index
Qadrini, L., Hikmah, H., & Megasari, M. (2022). Oversampling, Undersampling, Smote SVM dan Random Forest pada Klasifikasi Penerima Bidikmisi Sejawa Timur Tahun 2017. Journal of Computer System and Informatics (JoSYC), 3(4), 386–391. https://doi.org/10.47065/josyc.v3i4.2154
Ramdhani, A., Handayani, H., Setiawan, A., Studi, P. S., Keperawatan, I., & Ilmu Kesehatan, F. (2020).
HUBUNGAN PENGETAHUAN IBU DENGAN KEJADIAN STUNTING MOTHER’S KNOWLEDGE RELATIONSHIP WITH STUNTING EVENTS.
Sanjaya, J., Renata, E., Budiman, V. E., Anderson, F., & Ayub, M. (2020). Prediksi Kelalaian Pinjaman Bank Menggunakan Random Forest dan Adaptive Boosting. Jurnal Teknik Informatika dan Sistem Informasi, 6(1). https://doi.org/10.28932/jutisi.v6i1.2313
Sunarya, U., & Haryanti, T. (2022). Perbandingan Kinerja Algoritma Optimasi pada Metode Random Forest untuk Deteksi Kegagalan Jantung. Jurnal Rekayasa Elektrika, 18(4).
https://doi.org/10.17529/jre.v18i4.26981
Supriyadi, R., Gata, W., Maulidah, N., Fauzi, A., Komputer, I., & Nusa Mandiri Jalan Margonda Raya No, S. (2020).
Penerapan Algoritma Random Forest Untuk Menentukan Kualitas Anggur Merah. 13(2), 67–75.
http://journal.stekom.ac.id/index.php/E-Bisnis page67
Sutarno, H. H., Latuconsina2, R., & Dinimaharawati3, A. (2021). PREDIKSI STUNTING PADA BALITA DENGAN MENGGUNAKAN ALGORITMA KLASIFIKASI K-NEAREST NEIGHBORS STUNTING PREDICTION IN CHILDREN USING K-NEAREST NEIGHBORS CLASSIFICATION ALGORITHM.
Wardita, Y., Suprayitno, E., & Kurniyati, E. M. (2021). Determinan Kejadian Stunting pada Balita. Dalam Journal Of Health Science (Jurnal Ilmu Kesehatan: Vol. VI. https://www.ejournalwiraraja.com/index.php/JIK Wiraguna, I. K. A., Setyati, E., & Pramana, E. (2022). Prediksi Anak Stunting Berdasarkan Kondisi Orang Tua
Dengan Metode Support Vector Machine Dengan Study Kasus Di Kabupaten Tabanan-Bali. SMATIKA JURNAL, 12(01), 47–54. https://doi.org/10.32664/smatika.v12i01.662
Zhang, W., Wu, C., Zhong, H., Li, Y., & Wang, L. (2021). Prediction of undrained shear strength using extreme gradient boosting and random forest based on Bayesian optimization. Geoscience Frontiers, 12(1), 469–
477. https://doi.org/10.1016/j.gsf.2020.03.007