Perbandingan Optimasi Metode Grid Search dan Random Search dalam Algoritma XGBoost untuk Klasifikasi Stunting

(1)

Perbandingan Optimasi Metode Grid Search dan Random Search dalam Algoritma XGBoost untuk Klasifikasi Stunting

Nirvan Adam Pramudhyta^*, Muhammad Syaifur Rohman

Fakultas Ilmu Komputer, Program Studi Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: ^1,*[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Stunting adalah kondisi terhambatnya pertumbuhan fisik anak akibat defisiensi gizi kronis dengan dampak serius pada kesehatan dan aspek psikologis. Dampaknya mencakup penurunan harga diri, kesulitan belajar, terganggunya konsentrasi, masalah pemikiran kritis, dan kontribusi ekonomi lebih rendah saat dewasa. Penelitian ini bertujuan mengoptimalkan model klasifikasi XGBoost menggunakan metode Grid Search serta Random Search, sehingga meningkatkan akurasi mendeteksi Stunting dan mendapatkan diagnosis akurat dan efisien. Melihat berbahayanya dan tingkat prevalensi Stunting yang mengkhawatirkan, menandakan urgensi penanganan masalah ini untuk kesejahteraan generasi masa depan, maka diperlukan model pengklasifikasian otomatis untuk menghindari subjektivitas dan potensi kesalahan dalam proses pengambilan keputusan secara manual. XGBoost perlu dilakukan optimasi karena memiliki parameter yang memerlukan penyesuaian untuk memaksimalkan akurasi. Perbandingan dua model optimasi penting dilakukan untuk memahami keunggulan dan kelemahan masing-masing karena memiliki pendekatan yang berbeda dalam mencari kombinasi terbaik. Penelitian menggunakan 10.000 data dari Puskesmas Krobokan dengan atribut jenis kelamin, usia, berat badan lahir, tinggi badan lahir, berat badan saat pengukuran, tinggi badan saat pengukuran, dan kategori. Peningkatan akurasi terbesar diperoleh model Grid Search dengan peningkatan akurasi XGBoost sebesar 5.81% dari 83.28% menjadi 89.09%. Model Random Search meningkatan akurasi sebesar 5.43%, sehingga mencapai akurasi 88.71%. Pilihan kedua model bergantung pada preferensi waktu dan sumber daya.

Random Search memberikan efisiensi waktu yang lebih tinggi dibandingkan Grid Search. Penelitian ini dapat memberikan kontribusi dalam mengidentifikasi anak-anak yang berisiko mengalami Stunting agar tindakan intervensi dapat dilakukan lebih efisien.

Kata Kunci: Stunting; Optimasi; XGBoost; Grid Search; Random Search.

Abstract−Stunting is a condition of stunted physical growth in children due to chronic nutritional deficiencies with serious impacts on health and psychological aspects. The impacts include decreased self-esteem, learning difficulties, impaired concentration, critical thinking problems, and lower economic contributions as adults. This study aims to optimize the XGBoost classification model using the Grid Search and Random Search methods, thereby improving the accuracy of detecting stunting and obtaining an accurate and efficient diagnosis. Seeing the danger and alarming prevalence rate of stunting, signaling the urgency of handling this problem for the welfare of future generations, an automatic classification model is needed to avoid subjectivity and potential errors in the manual decision-making process. XGBoost needs optimization because it has parameters that require adjustment to maximize accuracy. Comparison of two optimization models is important to understand the advantages and disadvantages of each because they have different approaches in finding the best combination. The study used 10,000 data from Krobokan Health Center with attributes of gender, age, birth weight, birth height, weight at measurement, height at measurement, and category. The largest increase in accuracy was obtained by the Grid Search model with an increase in XGBoost accuracy of 5.81% from 83.28% to 89.09%. The Random Search model increased the accuracy by 5.43%, reaching an accuracy of 88.71%. The choice of both models depends on time and resource preferences. Random Search provides higher time efficiency than Grid Search. This research can contribute to identifying children at risk of stunting so that intervention actions can be carried out more efficiently.

Keywords: Stunting; Optimization; XGBoost; Grid Search; Random Search

1. PENDAHULUAN

Stunting atau dikenal sebagai permasalahan penyakit anak pendek mendapatkan perhatian serius dari pemerintah Indonesia dan merupakan permasalahan global yang khususnya menghantui negara-negara miskin dan berkembang. Fenomena Stunting berkaitan erat dengan akumulasi ketidakcukupan nutrisi selama periode kritis dalam pertumbuhan anak yang dimulai dari masa kehamilan hingga mencapai usia dua tahun [1]. Penilain status gizi pada anak untuk mengidentifikasi Stunting dilakukan dengan menggunakan indeks PB/U atau TB/U, di mana anak dianggap stunted jika Z-Score berada dalam kisaran -2 SD hingga -3 SD, dan severely stunted jika lebih rendah dari -3 SD [2]. Masalah Stunting bukan hanya muncul pada saat anak sudah tumbuh besar, melainkan dapat dimulai sejak janin dalam kandungan [3]. Stunting terjadi akibat asupan gizi yang tidak mencukupi selama jangka waktu yang panjang, akibat dari pola makan yang tidak sesuai dengan kebutuhan nutrisi yang tepat.

Stunting menandakan terganggunya pertumbuhan pada fisik anak yang disebabkan oleh defisiensi gizi kronis yang memiliki dampak luas dan serius pada anak-anak di Indonesia. Stunting dapat memengaruhi kondisi psikologis mereka dengan menurunkan harga diri dan percaya diri yang pada saatnya akan dapat mengganggu hubungan sosial mereka [4]. Prestasi belajar anak-anak yang mengalami Stunting seringkali terpengaruh negatif.

Mereka cenderung mengalami kesulitan dalam berkonsentrasi dan memahami pelajaran [5]. Selain itu, perkembangan kognitif anak-anak yang terganggu dapat membatasi kemampuan pemikiran kritis dan pemecahan masalah [6]. Dampak jangka panjang dari Stunting adalah terhambatnya pertumbuhan sumber daya manusia dengan anak-anak yang mengalami Stunting akan memiliki peluang pekerjaan yang lebih terbatas dan kontribusi

(2)

ekonomi yang lebih rendah di masa dewasa [7]. Tidak hanya itu, Stunting juga dapat memengaruhi psikososial anak, seperti interaksi sosial yang mungkin terganggu, menciptakan isolasi sosial, dan menimbulkan perasaan keterbatasan yang dapat memengaruhi perkembangan emosional dan kesejahteraan psikologis mereka [8].

Mengacu pada hasil Survei Status Gizi Indonesia (SSGI) tahun 2021, angka prevalensi Stunting di Indonesia mencapai 24,4% dan pada tahun 2022 menurun hingga di angka 21,6% [9]. Meskipun dalam satu tahun terakhir angka balita Stunting mengalami penurunan, bagi negara berkembang seperti Indonesia angka tersebut masih berada di atas batas yang telah ditetapkan oleh World Health Organization (WHO) yaitu tidak lebih dari 20% [10]. Berdasarkan data SSGI tahun 2022 angka prevalensi Stunting di Provinsi Jawa Tengah berada di angka 20,8% dan di Kabupaten Semarang sendiri berada di angka 18,7% dengan total balita penderita Stunting sebanyak 27.860 anak [9]. Apabila dilihat dari angka prevalensi, memang sudah menunjukkan bahwa tingkat kerjadian Stunting di Kabupaten Semarang sudah dalam kondisi yang memuaskan, karena sudah berada di bawah batasan yang telah ditentukan oleh WHO, yaitu 20% [10]. Meskipun demikian, upaya pencegahan dan penanggulangan Stunting perlu terus ditingkatkan untuk terus mengurangi angka kerjadian Stunting di Kabupaten Semarang.

Melihat seberapa berbahayanya dan tingkat prevalensi Stunting yang mengkhawatirkan di Indonesia menandakan urgensi penanganan masalah ini untuk kesejahteraan generasi di masa depan. Untuk mengatasi masalah tersebut, maka diperlukan model pengklasifikasian otomatis yang dapat menghindari subjektivitas dan potensi kesalahan dalam proses pengambilan keputusan secara manual, sehingga memberikan kepastian dan efisiensi dalam identifikasi kasus stunting. Dalam konteks ini, penggunaan XGBoost dan optimasinya sangat cocok untuk melakukan klasifikasi penyakit Stunting karena algoritma ini memiliki kapabilitas yang kuat dalam menangani data yang kompleks dan beragam yang terkait dengan masalah kesehatan ini. XGBoost mampu mengatasi ketergantungan non-linear antara variabel, menghasilkan model yang sangat akurat, dan secara otomatis mengidentifikasi fitur-fitur yang paling relevan dalam data [11].

Meskipun termasuk algoritma yang kuat, XGBoost memiliki berbagai parameter yang memerlukan penyesuaian untuk memaksimalkan akurasi. Oleh karena itu, melakukan optimasi parameter merupakan langkah krusial dalam memastikan bahwa model yang dihasilkan mampu memberikan hasil klasifikasi yang optimal. Maka penggunaan metode optimasi Grid Search dan Random Search merupakan pilihan yang tepat. Grid Search memungkinkan penentuan parameter algoritma secara sistematis dengan menguji kombinasi nilai yang telah ditentukan sebelumnya, yang membantu dalam meningkatkan akurasi model dan mengurangi risiko overfitting [12]. Di sisi lain, Random Search memanfaatkan pendekatan acak yang efisien untuk mengeksplorasi ruang parameter yang lebih luas, yang dapat menjadi solusi cepat dan efektif dalam menemukan konfigurasi parameter yang optimal [13].

Perbandingan antara dua model optimasi Grid Search dan Random Search penting dilakukan untuk memahami keunggulan dan kelemahan masing-masing karena optimasi kedua metode tersebut memiliki pendekatan yang berbeda dalam mencari kombinasi terbaik. Perbandingan ini memberikan wawasan mendalam tentang performa keduanya dalam mengoptimalkan algoritma, termasuk faktor waktu dan sumber daya yang dibutuhkan, sehingga dapat membantu pemilihan metode yang sesuai dengan kebutuhan spesifik dalam konteks klasifiasi Stunting menggunakan algoritma XGBoost.

Keduanya memberikan fleksibilitas dan kemampuan untuk menyesuaikan model secara tepat sesuai dengan data Stunting di Indonesia. Kemampuan interpretasi model yang kuat dari XGBoost juga membantu dalam memahami faktor-faktor yang berkontribusi terhadap Stunting, menjadikannya alat yang ideal untuk memecahkan masalah klasifikasi penyakit Stunting yang kompleks. Dengan demikian, kombinasi XGBoost dengan optimasi Grid Search dan Random Search memberikan solusi yang kuat dan tepat untuk penanganan masalah Stunting di Indonesia.

Sejumlah penelitian terdahulu telah berfokus pada pengklasifikasian penyakit Stunting dengan pendekatan yang berbeda. Penelitian yang dilakukan Widya Cholid Wahyudin yang menggunakan algoritma Naive Bayes.

Hasil pengujian algoritma tersebut menghasilkan akurasi sebesar 85,33% dengan dataset yang berjumlah 300 data [14]. Selain itu terdapat penelitian yang menggunakan algoritma Random Forest yang dilakukan oleh Juwariyem dan Sriyanto yang menghasilkan akurasi sebesar 85,86% [15]. Penelitian lainnya yang dilakukan oleh Dyta Kresna Devi Damayanti mengimplementasikan algoritma Fuzzy C-Means untuk melakukan klasterisasi pada status Stunting pada balita dan didapatkan hasil akurasi yang kurang baik yaitu hanya sebesar 50% [16]. Penelitian yang dilakukan oleh Clara Dewanti juga menghasilkan hasil yang kurang memuaskan dengan menggunakan Regresi Probit Biner dengan tingkat keakuratan sebesar 67,81% [17]. Studi lain yang dilakukan oleh Halimatusakdiah Pohan telah menerapkan algoritma K-Medoids untuk mengkategorikan provinsi mana saja yang mengalami penyakit Stunting dengan cluster tertinggi ataupun terendah menggunakan [18].

Berbeda dengan penelitian-penelitian sebelumnya yang hanya menerapkan algoritma tanpa langkah- langkah optimasi. Penelitian ini menggunakan pendekatan yang lebih luas dengan mengoptimalkan algoritma XGBoost, dan membandingkan dua metode optimasi untuk meningkatkan kinerja dan akurasi model. Dengan fokus pada optimasi, penelitian ini memberikan pemahaman yang lebih baik tentang metode terbaik untuk mengatasi masalah kompleksitas dataset Stunting.

Dengan demikian, penelitian ini bertujuan untuk menghasilkan model klasifikasi penyakit Stunting yang memiliki akurasi tinggi, sehingga dapat memberikan diagnosis yang lebih akurat dan efisien. Selain itu, perbandingan antara Grid Search dan Random Search akan memberikan pandangan yang mendalam tentang

(3)

keunggulan dan kelemahan keduanya dalam konteks klasifikasi stunting. Hasil penelitian ini diharapkan dapat memberikan kontribusi dalam mengidentifikasi anak-anak yang berisiko mengalami Stunting agar tindakan intervensi dapat dilakukan lebih efisien.

2. METODOLOGI PENELITIAN

2.1 Kerangka Penelitian

Dalam kerangka penelitian ini dilakukan serangkaian tahapan yang terstruktur untuk mengatasi permasalahan klasifikasi penyakit Stunting. Tahapan-tahapan tersebut dimulai dengan melakukan pengumpulan data, diikuti dengan preprocessing data untuk mempersiapkan data tersebut untuk diolah. Selanjutnya dilakukan pembuatan model klasifikasi menggunakan algoritma XGBoost dan melakukan optimasi menggunakan metode Grid Search dan Random Search. Evaluasi hasil penelitian akan menggunakan confusion matrix yang akan memberikan wawasan lebih dalam mengenai akurasi, presisi, recall, dan F1-Score. Langkah-langkah tersebut juga dibuat ke dalam skema seperti pada Gambar 1 di bawah ini.

Gambar 1. Kerangka Penelitian 2.2 Pengumpulan Data

Dataset yang digunakan dalam penelitian ini adalah data pengukuran balita yang didapatkan dari Puskesmas Krobokan di Kelurahan, Krobokan Kecamatan Semarang Barat, Kabupaten Semarang. Data yang diambil merupakan data pengukuran dari bulan Januari hingga bulan September tahun 2023, sehingga didapatkan 10.000 jumlah data. Dilakukan pemilihan atribut atau parameter yang dibutuhkan untuk dapat diolah. Setelah dilakukan pemilihan, atribut akan yang digunakan di antaranya jenis kelamin, usia, berat badan lahir, tinggi badan lahir, berat badan saat pengukuran, tinggi badan saat pengukuran, dan kategori. Value dari atribut jenis kelamin dan kategori masih berupa teks yang di tahap selanjutnya akan dibahas lebih lanjut pada tahap preprocessing data. Berikut merupakan Tabel 1 yang berisi atribut dan tipe data yang digunakan.

Tabel 1. Atribut dan tipe data dataset Atribut Tipe Data Jenis Kelamin (JK)

Usia

Berat Badan Lahir(BB Lahir) Tinggi Badan Lahir (TB Lahir)

Berat Badan (BB) Tinggi Badan (TB)

Kategori

Teks Numerik Numerik Numerik Numerik Numerik Teks 2.3 Preprocessing Data

Pada preprocessing data dilakukan beberapa tahapan di antaranya mapping, class balancing, dan standard scaler.

Tahap mapping yaitu merubah value yang masih berupa teks menjadi bentuk angka. Lalu, dilanjutkan ke tahap class balancing yang bertujuan untuk mengatasi ketidakseimbangan antara jumlah sampel dalam kelas-kelas yang dalam dataset. Metode yang digunakan untuk class balancing adalah oversampling di mana jumlah data di kelas

(4)

minoritas akan disamakan dengan kelas mayoritas. Terakhir pada tahap standard scaler dilakukan untuk menghasilkan data yang memiliki nilai rata-rata nol dan deviasi standar satu (standard deviation) pada setiap fitur atau kolom dalam dataset.

2.4 Model XGBoost

XGBoost merupakan salah satu metode ensemble yang efektif dalam menyelesaikan beragam jenis masalah, terutama dalam hal regresi, klasifikasi, dan peringkat. Algoritma ini berfokus pada penyesuaian parameter pembelajaran secara berulang untuk mengurangi nilai fungsi kerugian (yang digunakan untuk mengevaluasi model). Menggunakan model yang lebih terstruktur, XGBoost membangun pohon regresi yang lebih baik, yang pada gilirannya meningkatkan kinerja dan mencegah overfitting dengan mengurangi kompleksitas model. [19].

Pembuatan model XGBoost memerlukan beberapa tahapan. Pertama, mempersiapkan data yang sudah melalui tahap preprocessing data. Selanjutnya, membagi dataset menjadi data pelatihan dan data validasi untuk evaluasi model. Parameter default yang digunakan pada model XGBoost adalah sebagai berikut.

Tabel 2. Parameter XGBoost Parameter Value max_depth

learning_rate n_estimators subsample

3 0.1 100 1.0

Berdasarkan Tabel 2 digunakan empat parameter default antara lain max_depth untuk menentukan kedalaman maksimum dari setiap pohon keputusan dalam model. Nilai 3 menunjukkan bahwa setiap pohon hanya dapat memiliki kedalaman maksimum 3 tingkat dari akar ke daun, learning_rate menentukan seberapa besar kontribusi dari setiap pohon dalam model, n_estimators menunjukkan jumlah total pohon keputusan yang akan dibangun dalam model yang berjumlah 100. Lalu, subsample menentukan fraksi dari data yang akan digunakan untuk melatih setiap pohon. Setelah itu, dilakukan pelatihan model menggunakan data pelatihan dan mengukur performanya dengan menggunakan data validasi.

2.5 Model Grid Search

Untuk meningkatkan akurasi model XGBoost digunakan metode Grid Search yang akan membantu menemukan kombinasi parameter yang berbeda untuk algoritma XGBoost. Grid Search akan secara sistematis mencoba semua kombinasi yang memungkinkan dari nilai-nilai parameter tersebut [20].

Dalam metode Grid Search, dilakukan pencarian secara sistematis pada sejumlah kombinasi parameter yang telah ditentukan sebelumnya. Parameternya adalah sebagai berikut.

Tabel 3. Parameter Grid Search Parameter Value max_depth

learning_rate n_estimators subsample

[3, 4, 5, 6, 7]

[0.01, 0.1, 0.2, 0.3]

[100, 200, 300, 400]

[0.6, 0.7, 0.8, 0.9]

Dari Tabel 3 dapa dilihat bahwa pada optimasi Grid Search masih menggunakan parameter yang sama dengan XGBoost, tetapi pada kali ini value yang diberikan lebih banyak untuk menemukan kombinasi yang memberikan kinerja model terbaik. Kemudian, Grid Search akan mencoba semua kombinasi yang memungkinkan dari value-value tersebut. Hasil dari Grid Search akan memberikan kombinasi parameter yang memiliki kinerja terbaik untuk model XGBoost.

2.6 Model Random Search

Selain menggunakan Grid Search, diterapkan juga metode Random Search yang merupakan salah satu metode optimasi hyperparameter yang biasa digunakan. Random Search akan menggabungkan elemen secara acak dalam pencarian parameter. Ini memungkinkan eksplorasi yang lebih luas dari ruang parameter dan membantu menemukan solusi yang efisien dalam penyetelan parameter algoritma XGBoost [21].

Random Search memanfaatkan elemen acak dalam eksplorasi parameter dengan memilih secara acak sejumlah kombinasi parameter untuk diuji. Berikut adalah parameter yang digunakan yang disajikan pada Tabel 4.

Tabel 4. Parameter Random Search Parameter Value max_depth

learning_rate

[3, 4, 5, 6, 7]

[0.01, 0.1, 0.2, 0.3]

(5)

Parameter Value n_estimators

subsample

[100, 200, 300, 400]

[0.6, 0.7, 0.8, 0.9]

Parameter yang digunakan untuk optimasi Random Search tetap sama dengan yang digunakan untuk XGBoost, seperti yang ditunjukkan dalam Tabel 4. Namun, nilai yang diberikan lebih banyak dan sama seperti optimasi Grid Search untuk menemukan kombinasi yang memberikan kinerja model terbaik.

Lalu, dilakukan pelatihan model menggunakan kombinasi parameter-parameter tersebut. Melalui, pendekatan ini dapat mencapai hasil yang baik tanpa harus mencoba seluruh kombinasi parameter yang mungkin, sehingga akan menghemat waktu dalam pencarian parameter yang tepat.

2.7 Pengukuran Akurasi Model

Dalam penelitian ini dilakukan pengukuran akurasi model pada data pengujian untuk menilai sejauh mana model mampu mengklasifikasikan status Stunting pada balita.

2.8 Confusion Matrix

Confusion Matrix merupakan metode yang digunakan untuk mengukur kinerja dari sebuah model klasifikasi dalam machine learning, sehingga memungkinkan untuk menghitung sejauh mana model mampu memprediksi dengan benar kelas-kelas target [22].

Gambar 2. Confusion Matrix

a. True Positive (TP) adalah ketika kasus yang dikerjakan memiliki data positif yang diprediksi dengan benar b. False Negative (FN) terjadi saat kelas data sebenarnya adalah positif, tetapi diprediksi sebagai negatif oleh

model

c. False Positive (FP) merupakan kondisi di mana kelas sebenarnya dari data adalah negatif, tetapi diprediksi sebagai positif oleh model.

d. True Negative (TN) terjadi ketika data sebenarnya adalah negatif dan diprediksi dengan benar sebagai negatif oleh model.

Melalui confusion matrix dapat dilakukan penghitungan berbagai metrik evaluasi kinerja model di antaranya accuracy, precision, dan recall [19]. Berikut merupakan penjelasan dan cara penghitungan dari metrik- metrik tersebut:

a. Accuracy (Akurasi) yaitu rasio dari total prediksi yang benar (True Positive dan True Negative) terhadap jumlah total data. Akurasi mengukur sejauh mana model mampu mengklasifikasikan dengan benar seluruh kelas [22].

Accuracy = ^TP+TN

TP+TN+FP+FN (1)

b. Precision (Presisi) yaitu engukur tingkat kebenaran prediksi positif model. Precision merupakan rasio True Positive (prediksi benar positif) terhadap total positif yang diprediksi oleh model [22].

Precision = ^TP

TP+FP (2)

c. Recall (Sensitivitas) yaitu mengukur sejauh mana model mampu mendeteksi seluruh instance yang seharusnya positif. Recall merupkan rasio True Positive terhadap total instance yang seharusnya positif [22].

Recall = ^TP

TP+FN (3)

d. F-Score (F1-Score) yaitu penggabungan antara presisi dan recall menjadi satu metrik. F-Score berguna ketika ingin mempertimbangkan False Positive (FP) dan False Negative (FN)

F − Score = 2∗Presisi∗Recall

Presisi+Recall (4)

(6)

3. HASIL DAN PEMBAHASAN

3.1 Preprocessing Data

Preprocessing data merupakan tahap awal dalam pembuatan model dengan tujuan untuk mempersiapkan dataset yang telah diperoleh untuk dapat digunakan dalam model. Proses preprocessing dalam penelitian ini mencakup beberapa tahapan di antaranya sebagai berikut:

3.1.1 Mapping

Pada tahap ini dilakukan transformasi value atribut-atribut yang masih dalam bentuk teks menjadi representasi biner (0 dan 1). Proses ini bertujuan untuk mengubah nilai-nilai teks menjadi angka biner untuk memungkinkan analisis lanjut dalam konteks pemodelan. Beberapa atribut dengan value-value yang masih berbentuk teks adalah Jenis Kelamin (JK) dan Kategori. Atribut Jenis Kelamin (JK) memiliki value L (Laki-laki) dan P (Perempuan).

Sedangkan atribut Kategori memiliki value Stunting dan Tidak Stunting. Untuk gambaran yang lebih jelas, dapat dilihat pada Tabel 5 di bawah ini.

Tabel 5. Data sebelum melalui proses mapping JK Usia BB Lahir TB Lahir BB TB Kategori

P 17 2 49 8 92,7 Stunting

L 7 2,3 50 6,4 63 Tidak Stunting

Setelah dilakukan proses mapping, maka value dari atribut JK (Jenis Kelamin) seperti L (Laki-laki) diubah menjadi angka 1 dan P (Perempuan) diubah menjadi angka 0 serta value dari atribut Kategori seperti Stunting diubah menjadi 1 dan Tidak Stunting diubah menjadi angka 0. Hasil dari proses mapping pada Tabel 6 dibawah

Tabel 6. Data setelah melalui proses mapping JK Usia BB Lahir TB Lahir BB TB Kategori

0 17 2 49 8 92,7 1

1 7 2,3 50 6,4 63 0

3.1.2 Class Balancing

Dalam dataset pengukuran balita di Puskesmas Krobokan, terdapat total 10.000 data balita yang tersedia untuk dianalisis. Dari jumlah tersebut, sebanyak 7.955 data menggambarkan balita yang mengalami Stunting, sementara jumlah balita yang tidak mengalami Stunting adalah sebanyak 2.045 data. Perbandingan dan distribusi jumlah data ini dapat ditemukan dalam Tabel 7 yang ditampilkan di bawah ini.

Tabel 7. Perbandingan jumlah data berdasarkan kategori Stunting Tidak Stunting

Jumlah data 7955 2045

Masalah ketidakseimbangan data dapat berdampak negatif pada hasil pembangunan model. Untuk mengatasi masalah ini diterapkan teknik pembobotan kelas dengan menggunakan metode oversampling.

Oversampling bertujuan untuk meningkatkan jumlah sampel dalam kelas minoritas dengan cara menggandakan data dari kelas minoritas hingga mencapai tingkat yang seimbang dengan kelas mayoritas. Hasil dari proses Class Balancing ini adalah dataset yang telah disesuaikan yang akan memastikan bahwa kedua kelas memiliki jumlah sampel yang serupa, mengoptimalkan performa model, dan mencegah bias yang tidak diinginkan dalam klasifikasi.

Pada Tabel 8 berikut merupakan hasil data setelah dilakukan Class Balancing.

Tabel 8. Data setelah dilakukan Class Balancing Stunting Tidak Stunting

Jumlah data 7955 7955

3.1.3 Standard Scaler

Tahap Standard Scaler perlu dilakukan apabila data memiliki rentang nilai yang berbeda-beda. Hal ini bertujuan untuk menghindari value dari sebuah atribut yang memiliki nilai besar menguasai proses pelatihan. Maka dari itu dilakukanlah perubahan pada value atribut, sehingga atribut memiliki nilai rata-rata nol dan deviasi standar satu yang dapat membantu algoritma dalam menemukan parameter yang optimal. Berikut merupakan Tabel 9 yang berisi perbandingan dari salah satu sampel data sebelum dan sesudah dilakukan proses Standard Scaler.

Tabel 9. Data sebelum dilakukan Standard Scaler Atribut Value

JK 1

(7)

Atribut Value

Usia 31

BB Lahir 2,8 TB Lahir 49

BB 6,4

TB 63,0

Dari tabel 9 dapat dilihat bahwa atribut TB memiliki value paling besar jika dibandingkan dengan value atribut lain, sehingga hal ini memungkinkan value tersebut akan menguasai proses pelatihan dan berdampak pada hasil akurasi pemodelan. Untuk mengatasi hal tersebut maka dilakukan perhitungan rata-rata dan deviasi standar dari setiap atribut numerik dalam dataset untuk menentukan bagaimana atribut harus diubah. Setelah rata-rata dan deviasi standar dihitung, setiap nilai dalam atribut diubah sedemikian rupa, sehingga rata-rata atribut menjadi nol dan deviasi standarnya menjadi 1. Langkah ini akan diterapkan ke semua atribut numerik dalam dataset, sehingga hasil data setelah melalui proses ini dapat dilihat pada Tabel 10 berikut ini.

Tabel 10. Data setelah dilakukan Standard Scaler Atribut Value

JK 0.69133043 Usia 2.5583718 BB Lahir 0.30756521 TB Lahir -0.44477381

BB -0.66689855 TB -0.6922272 3.2 Evaluasi Kinerja Model

3.2.1 Prediksi Model XGBoost Tanpa Optimasi

Hasil pengujian model XGBoost tanpa dilakukan optimasi dievaluasi menggunakan Confusion Matrix, sebuah alat penting untuk memahami performa model dalam klasifikasi. Confusion Matrix memberikan data yang relevan tentang akurasi, presisi, dan recall model. Detail dari Confusion Matrix untuk model XGBoost tersaji dalam gambar 1 di bawah ini, memberikan gambaran yang jelas tentang sejauh mana model dapat mengklasifikasikan data dengan benar.

Gambar 3. Confusion Matrix XGBoost tanpa optimasi

Dari Confusion Matrix model XGBoost, diperoleh beberapa nilai penting, yaitu True Positive (TP) sebanyak 1326, False Positive (FP) sebanyak 254, False Negative (FN) sebanyak 278, dan True Negative (TN) sebanyak 1324. Dengan menggabungkan nilai-nilai ini, dapat dilakukan penghitungan metrik evaluasi kinerja model seperti akurasi, presisi, dan recall. Hasil dari perhitungan ini dapat ditemukan dalam Tabel 11 yang disajikan di bawah ini yang memberikan gambaran yang jelas tentang performa model dalam klasifikasi penyakit Stunting.

Tabel 11. Hasil evaluasi kerja model XGBoost Parameter Value

Accuracy 83.28%

Precision 83.92%

Recall F1-Score

82.66%

83.28%

Model ini telah mencapai tingkat akurasi yang baik, yaitu sebesar 83,28%, menandakan bahwa sebagian besar dari prediksi yang dihasilkan oleh model adalah benar. Precision yang tinggi sebesar 83,92% juga mengindikasikan bahwa ketika model melakukan prediksi positif, sebagian besar dari prediksi tersebut adalah benar. Selanjutnya, recall yang mencapai 82,66% mengungkap kemampuan model dalam mendeteksi sebagian besar dari semua sampel positif yang sebenarnya. Selain itu, F1-Score sebesar 83,28% juga mencerminkan

(8)

keseimbangan antara presisi dan recall, menunjukkan kinerja yang seimbang pada kedua aspek tersebut. Hasil metrik evaluasi ini menggarisbawahi kemampuan model dalam mengidentifikasi penyakit Stunting dengan baik, dengan penekanan pada ketepatan prediksi positif dan kemampuan untuk mendeteksi sebagian besar kasus penyakit Stunting yang sebenarnya.

3.2.2 Prediksi Optimasi Model XGBoost Menggunakan Grid Search

Selanjutnya, dilakukan evaluasi terhadap hasil prediksi setelah melakukan optimasi parameter dengan menggunakan metode Grid Search. Hasil evaluasi kinerja model juga disajikan dalam bentuk Confusion Matrix, yang memberikan gambaran yang jelas tentang sejauh mana model dapat mengklasifikasikan data dengan benar.

Gambar 4. Confusion Matrix Grid Search

Hasil dari Confusion Matrix setelah pemodelan optimasi menggunakan metode Grid Search menunjukkan bahwa terdapat True Positif (TP) sebanyak 1494, False Positive (FP) sebanyak 86, False Negative sebanyak 261, dan True Negative sebanyak 1341. Dari keempat nilai ini, dilakukan perhitungan untuk mendapatkan tingkat akurasi, presisi, dan recall, dan hasilnya dapat dilihat pada Tabel 12 berikut.

Tabel 12. Hasil evaluasi kerja model Grid Search Parameter Value

Accuracy 89.09 % Precision 94.55%

Recall F1-Score

85.12%

89,58%

Berdasarkan hasil analisis dari Confusion Matrix, model yang dievaluasi dengan Grid Search menunjukkan kinerja yang sangat baik. Akurasi mencapai tingkat yang tinggi, yaitu sebesar 89,09%, menunjukkan bahwa model mampu mengklasifikasikan seluruh sampel dengan benar. Presisi yang mencapai 94,55% juga menandakan bahwa model jarang mengklasifikasikan negatif sebagai positif, menghindari kesalahan prediksi yang tidak diinginkan.

Selanjutnya, recall yang mencapai 85,12% mengindikasikan kemampuan model dalam mendeteksi sampel positif yang sebenarnya. Selain itu, F1-Score sebesar 89,58% mencerminkan keseimbangan antara presisi dan recall, menunjukkan kinerja yang seimbang pada kedua aspek tersebut. Dengan kata lain, model Grid Search mampu mengidentifikasi sebagian besar kasus penyakit Stunting yang sebenarnya dengan baik, menjadikannya alat yang efektif dalam klasifikasi penyakit Stunting.

3.2.3 Prediksi Optimasi Model XGBoost Menggunakan Random Search

Selanjutnya, hasil evaluasi kinerja model setelah melalui proses optimasi dengan menggunakan Random Search akan disajikan dalam bentuk Confusion Matrix. Dari Confusion Matrix ini, kita dapat menghitung metrik-metrik evaluasi, termasuk akurasi, presisi, dan recall, yang akan memberikan gambaran yang komprehensif tentang kemampuan model dalam mengklasifikasikan data

Gambar 5. Confusion Matrix Random Search

Dari hasil Confusion Matrix pada model Random Search, terdapat sejumlah nilai penting yang perlu diperhatikan, antara lain True Positive (TP) sebanyak 1471, False Positive (FP) sebanyak 109, False Negative (FN)

(9)

sebanyak 250, dan True Negative (TN) sebanyak 1352. Dengan informasi ini, kami melakukan perhitungan metrik evaluasi kinerja model, termasuk akurasi, presisi, dan recall. Hasil perhitungan ini ditampilkan dalam Tabel 13 di bawah, memberikan gambaran yang lengkap tentang sejauh mana model mampu mengklasifikasikan kasus penyakit Stunting.

Tabel 13. Hasil evaluasi kerja model Random Search Parameter Value

Accuracy 88.71 % Precision 93.10%

Recall F1-Score

85.47%

89,12%

Hasil evaluasi model Random Search menunjukkan kinerja yang sangat baik dalam klasifikasi penyakit Stunting. Tingkat akurasi sebesar 88.71% menandakan kemampuan model dalam mengklasifikasikan data secara tepat. Presisi yang tinggi sebesar 93.10% menunjukkan bahwa model jarang memberikan prediksi positif yang salah. Selanjutnya, recall sebesar 85.47% menandakan kemampuan model dalam mendeteksi sebagian besar kasus penyakit Stunting yang sebenarnya. Selain itu, F1-Score sebesar 89.12% mencerminkan keseimbangan antara presisi dan recall, menunjukkan kinerja yang seimbang pada kedua aspek tersebut. Hasil ini menandakan bahwa model Random Search efektif dalam mengidentifikasi kasus penyakit Stunting dengan tingkat akurasi dan ketepatan yang tinggi.

3.3 Analisis dan Perbandingan Performa Kerja Model

Dalam analisis dan perbandingan kinerja model XGBoost, Grid Search, dan Random Search untuk klasifikasi penyakit Stunting di Indonesia dilakukan evaluasi hasil model berdasarkan metrik akurasi, presisi, dan recall yang diukur dalam presentase.

Gambar 6. Chart performa kerja model 3.3.1 Analisis Performa Kerja Model XGBoost

Model XGBoost memberikan akurasi sebesar 83,28%, presisi sebesar 83,92%, recall sebesar 82,66%, dan F1- Score sebesar 83,28%. Hasil ini menunjukkan bahwa model XGBoost dalam konfigurasi awal mampu dengan baik dalam mengklasifikasi data penyakit Stunting. Akurasi yang relatif tinggi menunjukkan bahwa sebagian besar prediksi model benar sedangkan presisi yang baik menunjukkan seberapa tepat model dalam mengidentifikasi kasus positif. Recall yang tinggi meskipun sedikit lebih rendah dari presisi, menunjukkan kemampuan model untuk menemukan sebagian besar kasus penyakit Stunting yang sebenarnya. F1-Score yang termasuk tinggi menandakan keseimbangan antara presisi dan recall. Namun, perlu mempertimbangkan hasil ini sebagai titik awal dan mempertimbangkan apakah dapat meningkatkan performanya melalui optimasi model.

89,12%

85,47%

93,10%

88,71%

89,58%

85,12%

94,55%

89,09%

83,28%

82,66%

83,92%

83,28%

76,00% 78,00% 80,00% 82,00% 84,00% 86,00% 88,00% 90,00% 92,00% 94,00% 96,00%

F1-SCORE RECALL PRESISI AKURASI

F1-Score Recall Presisi Akurasi

XGBoost 83,28% 82,66% 83,92% 83,28%

Grid Search 89,58% 85,12% 94,55% 89,09%

Random Search 89,12% 85,47% 93,10% 88,71%

Performa Kerja Model

XGBoost Grid Search Random Search

(10)

3.3.2 Analisis Performa Kerja Model Grid Search

Model Grid Search memberikan peningkatan yang signifikan dalam akurasi dengan nilai sebesar 89,09%. Presisi juga meningkat menjadi 94,55% sementara recall mencapai 85,12%. Hasil ini menunjukkan bahwa dengan mengoptimalkan parameter model XGBoost menggunakan Grid Search, kinerja model meningkat secara signifikan. Akurasi yang lebih tinggi mengindikasikan bahwa model Grid Search mampu mengklasifikasikan data dengan lebih baik daripada model XGBoost awal. Presisi yang sangat tinggi menunjukkan kemampuan model untuk menghindari kesalahan klasifikasi False Positive yang sangat penting dalam konteks penyakit Stunting.

Recall yang tinggi juga mengindikasikan kemampuan model untuk menemukan sebagian besar kasus penyakit Stunting yang sebenarnya. F1-Score yang cukup tinggi mencerminkan tingkat keseluruhan performa model yang sangat baik. Melalui hasil yang lebih baik, model Grid Search lebih sesuai untuk digunakan dalam analisis penyakit Stunting.

3.3.3 Analisis Performa Kerja Model Random Search

Model Random Search juga memberikan hasil yang sangat baik dengan akurasi sebesar 88,71%. Presisi sebesar 93,10%, dan recall sebesar 85,47%. Hasil ini menunjukkan bahwa proses pencarian parameter yang menggunakan elemen acak dalam Random Search berhasil dalam meningkatkan akurasi dan presisi model. Akurasi yang tinggi mengindikasikan bahwa model Random Search dapat mengklasifikasikan data dengan sangat baik. Presisi yang tinggi menunjukkan bahwa model mampu memberikan prediksi yang lebih tepat, mengurangi jumlah False Positive. Recall yang tinggi juga menunjukkan kemampuan model untuk menemukan sebagian besar kasus penyakit Stunting yang sebenarnya. F1-Score tinggi menunjukkan keseluruhan performa yang sangat baik, serupa dengan model Grid Search. Model Random Search juga berhasil menemukan parameter yang optimal dan memberikan hasil yang sangat kompetitif dalam klasifikasi penyakit Stunting.

3.3.4 Perbandingan Performa Kerja Model

Dalam perbandingan antara ketiga model, terlihat bahwa baik Grid Search maupun Random Search mampu memberikan hasil yang lebih baik daripada model XGBoost awal. Keduanya menunjukkan peningkatan yang signifikan dalam akurasi yang sangat penting dalam konteks penyakit Stunting. Keduannya juga memiliki presisi yang sangat baik yang berarti kemampuan untuk menghindari kesalahan dalam klasifikasi False Positive.

Namun, terdapat perbedaan antara model Grid Search dan Random Search dalam recall. Model Grid Search memiliki recall sebesar 85,12% sedangkan model Random Search memiliki sebesar 85,47%. Ini menunjukkan bahwa Random Search sedikit lebih baik dalam menemukan sebagian besar kasus penyakit Stunting yang sebenarnya. Pilihan antara Grid Search dan Random Search dapat bergantung pada preferensi dan kebutuhan khusus penelitian. Grid Search merupakan metode yang lebih sistematis dan mungkin memerlukan waktu yang lebih lama untuk mengeksplorasi kombinasi parameter yang mungkin. Di sisi lain, Random Search lebih efisien dalam hal waktu karena menggunakan pendekatan acak. Keduanya memiliki keunggulan dalam meningkatkan kinerja model dibandingkan dengan model XGBoost tanpa optimasi.

Dalam konteks penyakit Stunting di Indonesia, hasil ini memiliki implikasi yang signifikan. Model yang dioptimalkan baik melalui Grid Search maupun Random Search dapat menjadi alat yang berharga dalam upaya melakukan identifikasi dan penanganan penyakit Stunting. Hasil yang lebih baik dalam klasifikasi penyakit Stunting dapat berkontribusi pada upaya pencegahan dan penanganan yang lebih efektif untuk masalah kesehatan ini.

4. KESIMPULAN

Dalam analisis dan perbandingan kinerja model XGBoost, Grid Search, dan Random Search untuk klasifikasi penyakit Stunting di Indonesia, hasil menunjukkan bahwa optimasi parameter melalui Grid Search dan Random Search dapat menghasilkan peningkatan yang signifikan dalam akurasi, presisi, dan recall dibandingkan dengan model XGBoost awal. Model XGBoost memiliki akurasi sebesar 83.28%, presisi 83.92%, recall 82.66%, dan F1- Score sebesar 83,28%. Model Grid Search memberikan akurasi tertinggi sebesar 89.09%, presisi tertinggi sebesar 94.55%, recall sebesar 85.12% dan F1-Score tertinggi sebesar 89.58%, sehingga menjadikannya pilihan yang sangat baik untuk identifikasi kasus penyakit Stunting. Model Random Search juga memberikan hasil yang sangat baik dengan akurasi 88.71%, presisi 93.10%, recall tertinggi sebesar 85.47%, dan F1-Score sebesar 89.12%.

Keduanya memiliki kemampuan yang baik dalam menghindari kesalahan False Positive. Namun, perbedaan antara kedua model dalam recall relatif kecil yang menunjukkan bahwa keduanya memiliki kemampuan serupa dalam menemukan kasus penyakit Stunting yang sebenarnya. Pilihan antara Grid Search dan Random Search dapat dipengaruhi oleh preferensi waktu dan sumber daya, dengan Random Search yang mampu memberikan efisiensi waktu yang lebih tinggi dibandingkan dengan Grid Search. Secara keseluruhan, hasil ini memiliki implikasi yang signifikan dalam upaya pencegahan dan penanganan penyakit Stunting di Indonesia. Model yang dioptimalkan, baik melalui Grid Search maupun Random Search, dapat memberikan solusi yang kuat dalam identifikasi kasus penyakit Stunting dengan akurasi tinggi untuk pengambilan keputusan yang lebih baik dalam konteks kesehatan

(11)

masyarakat. Melalui pemilihan yang tepat antara kedua metode ini dapat mengoptimalkan upaya pencegahan dan intervensi penyakit Stunting yang merupakan masalah kesehatan masyarakat yang mendesak di Indonesia.

REFERENCES

[1] M. R. Nugroho, R. N. Sasongko, and M. Kristiawan, “Faktor-faktor yang Mempengaruhi Kerjadian Stunting pada Anak Usia Dini di Indonesia,” J. Obs. J. Pendidik. Anak Usia Dini, vol. 5, no. 2, pp. 2269–2276, 2021, doi:

10.31004/obsesi.v5i2.1169.

[2] J. Riptek Widya et al., “Kajian Stunting di Kota Semarang,” J. Riptek, vol. 13, no. 2, pp. 101–106, 2019, [Online].

Available: http://riptek.semarangkota.go.id.

[3] K. Rahmadhita, “Permasalahan Stunting dan Pencegahannya,” J. Ilm. Kesehat. Sandi Husada, vol. 11, no. 1, pp. 225–

229, 2020, doi: 10.35816/jiskh.v11i1.253.

[4] M. Rafika, “Dampak Stunting Pada Kondisi Psikologis Anak,” Bul. Jagaddhita, vol. 1, no. 1, pp. 1–4, 2019, [Online].

Available: http://dx.doi.org/10.4236/ojmp.2016.54007.

[5] R. Pratiwi, R. S. Sari, and F. Ratnasari, “Dampak Status Gizi Pendek (Stunting) Terhadap Prestasi Belajar,” J. Ilm. Ilmu Keperawatan, vol. 12, no. 2, pp. 10–23, 2021, [Online]. Available: https://stikes-nhm.e- journal.id/NU/article/view/317/284.

[6] E. Sumartini, “Dampak Stunting Terhadap Kemampuan Kognitif Anak,” Pros. Semin. Nas. Kesehat. “Peran Tenaga Kesehat. Dalam Menurunkan Kerjadian Stunting” Tahun 2020 Impact, pp. 127–134, 2020.

[7] H. Dasman, “Empat Dampak Stunting Bagi Anak dan Negara Indonesia,” Conversat. (Disipln Ilmiah, gaya Jurnalistik), pp. 2–4, 2019, [Online]. Available: http://repo.unand.ac.id/21312/1/Empat dampak Stunting bagi anak dan negara Indonesia.pdf.

[8] Y. Primasari and budi anna Keliat, “Praktik Pengasuhan sebagai Upaya Pencegahan Dampak Stunting pada Perkembangan Psikososial Anak-Kanak,” J. Ilmu Keperawatan, vol. 3, no. 3, pp. 263–272, 2020.

[9] Kemenkes, Hasil Survei Status Gizi Indonesia (SSGI) 2022. 2022.

[10] W. H. Organisation, World Health Statistics 2022 (Monitoring Health of the SDGs). 2022.

[11] B. Jange, “Prediksi Harga Saham Bank BCA Menggunakan Prophet,” J. Trends Econ. Account. …, vol. 2, no. 1, pp. 1–

5, 2021, doi: 10.47065/arbitrase.v3i2.495.

[12] S. T. K. Theopilus Bayu Sasongko &, “Optimasi K-Nearest Neighbor dengan Grid Search CV pada Prediksi Kanker ParuParu,” STMIK Indones. Padang, vol. 8, no. 2, p. 121, 2019.

[13] G. Abdurrahman, H. Oktavianto, and M. Sintawati, “Optimasi Algoritma XGBoost Classifier Menggunakan Hyperparameter Gridesearch dan Random Search Pada Klasifikasi Penyakit Diabetes,” INFORMAL Informatics J., vol.

7, no. 3, p. 193, 2022, doi: 10.19184/isj.v7i3.35441.

[14] W. C. Wahyudin et al., “Prediksi Stunting Pada Balita Di Rumah Sakit Kota Semarang Menggunakan Naive Bayes,” vol.

2019, pp. 32–36, 2023.

[15] Juwariyem and Sriyanto, “Prediksi Stunting Pada Balita Menggunakan Algoritma Random Forest,” J. IndraTech, vol. 4, no. 1, pp. 29–37, 2023.

[16] D. K. D. Damayanti, “Klasifikasi Status Stunting Balita Menggunakan Algoritma Fuzzy C-Means,” J. Ilm. Mat., vol. 9, no. 2, pp. 437–446, 2021, [Online]. Available: https://media.neliti.com/media/publications/249234-model-infeksi-hiv- dengan-pengaruh-percob-b7e3cd43.pdf.

[17] C. Dewanti, V. Ratnasari, T. Rumiati, D. Statistika, F. Matematika, and S. Data, “Pemodelan Faktor-faktor yang Memengaruhi Status Balita Stunting di Provinsi Jawa Timur Menggunakan Regresi Probit Biner,” vol. 8, no. 2, 2019.

[18] H. Pohan, M. Zarlis, E. Irawan, H. Okprana, and Y. Pranayama, “Penerapan Algoritma K-Medoids dalam Pengelompokan Balita Stunting di Indonesia,” JUKI J. Komput. dan Inform., vol. 3, no. 2, pp. 97–104, 2021, doi:

10.53842/juki.v3i2.69.

[19] S. E. Herni Yulianti, Oni Soesanto, and Yuana Sukmawaty, “Penerapan Metode Extreme Gradient Boosting (XGBOOST) pada Klasifikasi Nasabah Kartu Kredit,” J. Math. Theory Appl., vol. 4, no. 1, pp. 21–26, 2022, doi:

10.31605/jomta.v4i1.1792.

[20] A. Toha, P. Purwono, and W. Gata, “Model Prediksi Kualitas Udara dengan Support Vector Machines dengan Optimasi Hyperparameter GridSearch CV,” Bul. Ilm. Sarj. Tek. Elektro, vol. 4, no. 1, pp. 12–21, 2022, doi:

10.12928/biste.v4i1.6079.

[21] U. Sunarya and T. Haryanti, “Perbandingan Kinerja Algoritma Optimasi pada Metode Random Forest untuk Deteksi Kegagalan Jantung,” J. Rekayasa Elektr., vol. 18, no. 4, pp. 241–247, 2022, doi: 10.17529/jre.v18i4.26981.

[22] R. G. Gunawan, Erik Suanda Handika, and Edi Ismanto, “Pendekatan Machine Learning Dengan Menggunakan Algoritma Xgboost (Extreme Gradient Boosting) Untuk Peningkatan Kinerja Klasifikasi Serangan Syn,” J. CoSciTech (Computer Sci. Inf. Technol., vol. 3, no. 3, pp. 453–463, 2022, doi: 10.37859/coscitech.v3i3.4356.