Klasifikasi Penyakit Diabetes Pada Imbalanced Class Dataset Menggunakan Algoritme Stacking

(1)

Klasifikasi Penyakit Diabetes Pada Imbalanced Class Dataset Menggunakan Algoritme Stacking

Yoga Pristyanto^*, Acihmah Sidauruk, Atik Nurmasani

Fakultas Ilmu Komputer, Program Studi S1Sistem Informasi, Universitas Amikom Yogyakarta, Yogyakarta, Indonesia Email: ^1,*[email protected], ²acihmah@ amikom.ac.id,³nurmasani@ amikom.ac.id

Email Penulis Korespondensi: [email protected]

Abstrak−Diabetes merupakan salah satu penyakit yang memiliki potensi dapat menyebabkan kematian. Berdasarkan laporan dari IDF (International Diabetes Federation) menyebutkan pada tahun 2019 terdapat 463 juta orang di dunia menderita penyakit ini. Menurut Kementrian Kesehatan Indonesia merupakan negara yang masuk kedalam 10 besar tertinggi di dunia dengan jumlah penderita diabetes. Model machine learning dapat menjadi solusi untuk mendeteksi secara dini penyakit diabetes berdasarkan riwayat maupun data yang telah tersedia. Mayoritas penelitian yang telah dilakukan mayoritas memggunakan single classifier. Model single classifier memiliki kelemahan ketika dihadapkan pada kondisi ketidakseimbangan kelas pada dataset. Oleh karena itupada penelitian ini menggunakan Stacking Model untuk proses klasifikasi dan prediksi pada dataset penyakit diabetes. Tujuannya ialah untuk meningkatkan kinerja single classifier. Selain itu Stacking Model diharapkan dapat menjadi salah satu solusi pada klasifikasi diabetes pada imbalanced class dataset. Berdasarkan dua eksperimen pengujian yang telah dilakukan dengan menggunakan dua dataset yang berbeda. Algoritme Stacking mampu menghasilkan menghasilkan nilai akurasi sebesar 89%, nilai TPR sebesar 89%, nilai TNR sebesar 85% dan G-Mean sebesar 86,98% pada dataset pertama serta mampu menghasilkan nilai akurasi sebesar 96%, nilai TPR sebesar 96%, nilai TNR sebesar 94% dan G-Mean sebesar 94,99%

pada dataset kedua. Hasil ini lebih baik dibandingkan single classifier seperti C4.5, K-NN dan SVM dari keempat indikator yang dievaluasi pada kedua dataset diabetes. Dengan demikian algoritme yang diusulkan yaitu Stacking (C4.5-SVM) dapat menjadi salah satu solusi untuk klasifikasi dataset diabetes dengan kondisi distribusi kelas yang tidak seimbang.

Kata Kunci: Diabetes; Klasifikasi; Ketidakseimbang Kelas; Meta Klasifikasi; Algortme Stacking

Abstract−Diabetes is a disease that has the potential to cause death. Based on a report from the IDF (International Diabetes Federation), it was stated that in 2019 there were 463 million people in the world suffering from this disease. According to the Ministry of Health, Indonesia is a country that is included in the top 10 highest in the world by the number of people with diabetes.Machine learning models can be a solution for the early detection of diabetes based on history and available data. The majority of the research that has been done chiefly uses a single classifier. The single classifier model has a weakness when faced with class imbalance conditions in the dataset. Therefore, this study uses the Stacking Model for the classification and prediction process on the diabetes dataset. The goal is to improve the performance of a single classifier. In addition, the Stacking Model is expected to be one of the solutions for the classification of diabetes in the imbalanced class dataset. Based on two test experiments that have been carried out using two different datasets. The Stacking algorithm can produce an accuracy value of 89%, TPR value of 89%, TNR value of 85%, and G-Mean of 86.98% in the first dataset and can produce an accuracy value of 96%, TPR value of 96%, TNR value of 94%, and G-Mean of 94.99% in the second dataset. These results are better than single classifiers such as C4.5, K-NN, and SVM of the four indicators evaluated in both diabetes datasets. Thus, the proposed algorithm, namely Stacking (C4.5-SVM), can be a solution for classifying diabetes datasets with unbalanced class distribution conditions.

Keywords: Diabetes; Classification; Imbalanced Class; Meta-Learning; Stacking Algorithm

1. PENDAHULUAN

Diabetes merupakan salah satu penyakit yang memiliki potensi dapat menyebabkan kematian. Berdasarkan laporan dari IDF (International Diabetes Federation) menyebutkan pada tahun 2019 terdapat 463 juta orang di dunia menderita penyakit ini. Jumlah tersebut diprediksi akan terus meningkat pada setiap tahunnya. Menurut Kementrian Kesehatan Indonesia merupakan negara yang masuk kedalam 10 besar tertinggi di dunia dengan jumlah penderita diabetes [1]. Salah satu penyebab penyakit diabetes ialah pola hidup masyarakat yang cenderung abai terhadap kesehatan. Penyakit diabetes melitus dapat menyerang semua lapisan umur. Selain itu diabetes dapat menjadi penyebab munculnya komplikasi seperti jantung, gagal ginjal dan stroke [2]. Penyakit diabetes ini merupakan kategori penyakit yang tidak dapat disembuhkan akan tetapi dapat dikendalikan dengan mengatur pola hidup sehat [3]. Oleh karena itu diperlukan adanya deteksi dini sebagai salah satu solusi untuk pencegahan dini penyakit diabetes. Salah satu solusi yang dapat digunakan ialah pendekatan menggunakan model machine learning untuk mendeteksi secara dini penyakit diabetes berdasarkan riwayat maupun data yang telah tersedia.

Pada kasus deteksi dini penyakit diabetes mayoritas model machine learning yang digunakan berbasis teknik klasifikasi. Model klasifikasi bekerja dengan mengenali pola dalam suatu dataset khususnya dataset penyakit diabetes yang telah banyak tersedia pada beberapa repository open access [4]. Model klasifikasi ini dibangun dengan tujuan untuk dapat digunakan mengklasifikasikan maupun memprediksi apakah seorang pasien menderita diabetes atau tidak. Model tersebut didasarkan pada analisis data latih. Model dari hasil klasifikasi dapat dimanfaatkan untuk mengklasifikasikan serta memprediksi tren pada masa yang akan datang [5]. Berbagai penelitian telah dilakukan terkait deteksi dini penyakit diabetes menggunakan model machine learning. Penelitian yang dilakukan oleh [6]–[8] menggunakan algoritme Random Forest untuk mengklasifikasikan penyakit diabetes.

Akurasi yang dihasilkan berkisar 80%. Studi lain terkait klasifikasi penyakit dilakukan oleh [9]–[11]

(2)

mengimplementasikan algoritme K-NN (K-Nearest Neighbors). Hasil implementasi algoritme tersebut berhasil mengklasifikasi dataset penyakit diabetes dengan akurasi sebesar 80%-83%. Penelitian serupa dilakukan oleh [12]–[14] menggunaka algoritma Decision Tree C4.5. Akurasi yang dihasilkan C4.5 pada kasus klasifikasi dataset penyakit diabetes sebesar 75%-80%. Selain algoritme C4.5, K-NN dan Random Forest, beberapa algoritme klasifikasi yang sering digunakan untuk klasifikasi dataset penyakit diabetes ialah SVM (Support Vector Machine). Pada penelitain yang dilakukan oleh [15], [16] menunjukkan akurasi yang dihasilkan pada klasifikasi dataset penyakit diabetes sebesar 75%-78%.

Berbagai penelitian diatas menunjukkan bahwa model machine learning dapat menjadi solusi untuk deteksi dini penyakit diabetes. Namun penelitian yang telah dilakukan mayoritas memggunakan single classifier. Model single classifier memiliki kelemahan ketika dihadapkan pada kondisi ketidakseimbangan kelas pada dataset.

Ketidakseimbangan kelas merupakan keadaan dimana jumlah kelas pada dataset memiliki kecenderungan tidak sama [17]. Mayoritas single classifier bekerja dengan mengenali kelas mayoritas pada dataset, sehingga hal ini akan menyebabkan kinerja model klasifikasi menjadi tidak optimal. Oleh karena itu diperlukan adanya sebuah model klasifikasi yang dapat bekerja secara optimal dalam kasus ketidakseimbangan kelas khususnya pada klasifikasi dataset penyakit diabetes dimana kondisi dataset-nya memiliki distribusi kelas yang tidak seimbang.

Ada dua pendekatan yang dapat digunakan untuk mengatasi ketidakseimbangan kelas. Pendekatan pertama ialah dari sisi data. Pada pendekatan ini umumnya akan dilakukan rekonstruksi jumlah kelas pada dataset. Teknik yang dapat digunakan ialah oversampling maupun undersampling. Oversampling digunakan untuk meningkatkan jumlah kelas minoritas pada dataset. Sedangkan undersampling digunakan untuk menurunkan kelas mayoritas pada dataset. Keunggulan dua teknik sampling ini ialah dapat menyeimbangkan distribusi kelas pada dataset.

Akan tetapi teknik sampling ini memiliki kekurangan yaitu dapat menyebabkan informasi maupun pola yang hilang ketika melakukan undersampling. Selain itu kekurangan lainnya apabila melakukan oversampling memungkinkan terjadinya duplikasi record pada dataset. Pendekatan kedua ialah dari sisi algoritme klasifikasi.

Pendekatan ini lebih populer disebut dengan ensemble model atau meta-learning. Ide dasarnya ensemble model ini ialah melakukan penggabungan dua atau lebih algoritme klasifikasi. Salah satu teknik yang populer digunakan ialah Stacking Model. Kekurangan pendekatan ini ialah kondisi distribusi kelas pada dataset akan tetap tidak seimbang. Akan tetapi teknik ini memiliki keunggulan yaitu komposisi data tidak akan mengalami perubahan, selain itu pola dan naturalisasi dataset juga akan tetap terjaga. Berdasarkan uraian tersebut, pada penelitian ini akan menggunakan Stacking Model untuk proses klasifikasi dan prediksi pada dataset penyakit diabetes. Tujuannya ialah untuk meningkatkan kinerja single classifier. Selain itu Stacking Model ini diharapkan dapat menjadi salah satu solusi pada klasifikasi diabetes pada imbalanced class dataset. Dengan adanya peningkatan kinerja klasifikasi diharapkan dapat digunakan sebagai referensi, terutama dalam rangka pengembangan berbagai sistem yang dapat meningkatkan keberhasilan deteksi dini penyakit diabetes menggunakan teknologi informasi.

2. METODOLOGI PENELITIAN

2.1 Alat dan Bahan

Pada bagian ini akan dijelaskan kebutuhan mengenai alat dan bahan yang akan digunakan dalam berlangsungnya proses penelitian. Kebutuhan alat meliputi kebutuhan perangkat keras dan perangkat lunak, sedangkan kebutuhan bahan akan dijelaskan tentang dataset yang digunakan selama proses penelitian. Kebutuhan alat dan bahan dijelaskan lebih rinci pada subbab berikut.

2.1.1 Alat

Kebutuhan alat terbagi atas kebutuhan hardware (Perangkat Keras) dan kebutuhan Software (Perangkat Lunak) yang mendukung jalannya proses penelitian. Berikut kebutuhan alat pada penelitian ini:

1. Personal Computer / Laptop 2. Web Browser

3. Jupyter Notebook 4. Python versi 3.9 2.1.2 Bahan

Dataset yang digunakan merupakan dataset yang bersifat public. Sumber dataset ialah dari halaman website UCI Machine Learning . Pada penelitian ini digunakan dua dataset diabetes. Kedua dataset tersebut memiliki kondisi jumlah kelas yang tidak seimbang. Berikut Tabel 1 merupakan informasi dari kedua dataset yang digunakan pada penelitian ini.

Tabel 1. Dataset yang dipergunakan

Dataset Jumlah Record Attribute Proporsi Kelas

Pima Diabetes Dataset [18] 768 9 500 : 268

Early Stage Diabetes Risk Prediction Dataset [4] 520 17 320 : 200

(3)

2.2 Tahapan Penelitian

Berikut ini Gambar 1 menunjukkan tahapan pada penelitian ini yang meliputi Akuisisi Data, Pra Pemrosesan Data, Klasifikasi, serta Evaluasi Model.

Gambar 1. Tahapan Penelitian 2.2.1 Akuisisi Data

Akuisisi data merupakan proses pengambilan bahan penelitian yang berupa dataset. Seperti yang telah dijelaskan pada subbab 2.1.1. Dataset yang digunakan merupakan dataset yang bersifat public. Sumber dataset ialah dari halaman website UCI Machine Learning. Pada penelitian ini digunakan dua dataset diabetes. Kedua dataset tersebut memiliki kondisi jumlah kelas yang tidak seimbang.

2.2.2 Pra Pemrosesan Data

Tahap pra pemrosesan pada umumnya meliputi beberapa hal antara lain pembersiahan data, pengisian data yang kosong, menghilangkan duplikasi data, dan memeriksa inkonsistensi data. Hasil yang dilakukan pada tahap pra pemrosesan ini merupakan data yang sudah siap untuk dilakukan proses pemodelan.

2.2.3 Model Klasifikasi

Pada penelitian ini model klasifikasi yang digunakan ialah Stacking Algorithm. Stacking merupakan salah satu algoritme ensemble, pada gambar 3 menunjukkan algoritma stacking. N himpunan bagian yang berbeda dari kumpulan data pelatihan dibuat dengan menggunakan pengambilan sampel bertingkat dengan penggantian di mana proporsi relatif dari kelas yang berbeda dipertahankan di semua himpunan bagian. Setiap subset dari set pelatihan digunakan untuk menentukan kinerja pengklasifikasi pada set pelatihan. Meta-classifier dalam bentuk bobot relatif untuk masing-masing classifier dibuat dengan menetapkan bobot ke classifier yang sebanding dengan kinerjanya.

Meta classifier dapat digambarkan dalam berbagai tahap dalam skenario meta-learning yang disederhanakan [19].

Berikut gambar 2 merupaka ilustrasi dari algorutme Stacking.

Gambar 2. Ilustrasi Proses Stacking Berikut tahapan pada algoritme stacking:

1 Pengklasifikasi dasar dilatih dari set pelatihan awal (tingkat dasar).

2 Prediksi dihasilkan oleh pengklasifikasi yang dipelajari pada set validasi terpisah.

(4)

3 Set pelatihan meta-level terdiri dari set validasi dan prediksi yang dihasilkan oleh pengklasifikasi pada set validasi.

4 Meta classifier atau classifier akhir dilatih dari set pelatihan level-meta.

Pada penelitian ini kami menggunakan algoritma stacking dengan base learner C4.5 dan Support Vector Machine, dengan asumsi bahwa masing-masing single classifier tersebut tidak cukup baik dalam kasus imbalanced class classification. Sedangkan untuk meta learner atau predictornya digunakan algoritme Logistic Regression.

2.2.4 Evaluasi Model

Tahapan terakhir pada penelitian ini ialah melakukan proses evaluasi terhadap model klasifikasi yang dihasilkan.

Indikator evaluasi yang digunakan pada penelitian ini meliputi akurasi, true positif rate (TPR), true negatif rate (TNR) dan geometric mean (G-Mean) [20]. Keempatnya tersebut merupakan indikator yang komprehensif untuk digunakan sebagai evaluasi model klasifikasi pada kasus ketidakseimbangan kelas dalam dataset [21]. Berikut merupakan persamaan untuk menghitung nilai akurasi, true positif rate (TPR), true negatif rate (TNR) dan geometric mean (G-Mean).

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (1)

𝑇𝑃𝑅 = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (2)

𝑇𝑁𝑅 = ^𝑇𝑁

𝑇𝑁+𝐹𝑃 (3)

𝐺𝑒𝑜𝑚𝑒𝑡𝑟𝑖𝑐 𝑀𝑒𝑎𝑛 = √TNR 𝑥 TPR (4)

3. HASIL DAN PEMBAHASAN

Pada penelitian ini dataset yang digunakan memiliki kondisi distribusi kelas yang tidak seimbang. Berikut Gambar 3 merupakan infografis mengenai distribusi kelas pada kedua dataset.

Gambar 3. Infografis distribusi kelas pada dataset

Keberadaan distribusi kelas yang tidak seimbang seperti yang ditunjukkan gambar 3 tentunya dapat mempengaruhi kinerja model yang dihasilkan khususnya single classifier. Pada penelitian ini digunakan ensemble learning atau meta classifier sebagai solusi untuk permasalahan tersebut. Meta classifier yang digunakan Stacking Algorithm antara Decision Tree C4.5 dan Support Vector Machine. Sebelum dilakukan pemodelan klasifikasi, dataset akan terlebih dahulu melalui tahap pra pemrosesan. Pada penelitian ini dilakukan pemerikasaan terhadap missing values dan duplikasi record. Hasil pemeriksaan menunjukkan bahwa pada kedua dataset tidak terdapat unsur missing values dan duplikasi record. Sehingga dataset siap diproses untuk pemodelan klasifikasi.

Pada penelitian ini masing-masing dataset dibagi menjadi dua bagian yaitu sebagai data latih dan data uji. Skenario pembagian dataset menggunakan scenario 80% digunakan untuk data latih model dan 20% digunakan sebagai data uji atau validasi model. Pada penelitian ini Stacking Algorithm dibandingkan dengan algoritme lainnya seperti C4.5, K-NN, SVM, dan Random Forest dengan indikator kinerja menggunakan nilai akurasi, true positif rate (TPR), true negatif rate (TNR) dan geometric mean (G-Mean).

Pada eksperimen pertama dilakukan menggunakan dataset pima diabetes. Berikut tabel 2 dan gambar 4 merupakan hasil perbandingan model klasifikasi berdasarkan evaluasi menggunakan empat indikator pada pima diabetes dataset.

Tabel 2. Perbandingan hasil kinerja pemodelan klasifikasi pima diabetes dataset Model Klasifikasi Akurasi TPR TNR G-Mean

C4.5 80% 81% 65% 72.56%

K-NN 83% 82% 78% 79.97%

500

258

0 200 400 600

Death Survive

Distribusi Kelas Pima Diabetes Dataset

200

320

0 100 200 300 400

Death Survive

Distribusi Kelas Early Stage Diabetes Risk Prediction Dataset

(5)

Model Klasifikasi Akurasi TPR TNR G-Mean

SVM 87% 87% 80% 83.43%

Random Forest 80% 80% 58% 68.12%

Stacking (C4.5-SVM) 89% 89% 85% 86.98%

Gambar 4. Infografis perbandingan hasil kinerja pemodelan klasifikasi pima diabetes dataset

Tabel 2 dan gambar 4 menunjukkan bahwa Algoritme Stacking dapat menghasilkan nilai akurasi sebesar 89%, nilai TPR sebesar 89%, nilai TNR sebesar 85% dan G-Mean sebesar 86,98%. Algoritme Stacking menunjukkan kinerja yang lebih baik dibandingkan single classifier seperti C4.5, K-NN dan SVM dari keempat indikator yang dievaluasi pada dataset pima diabetes dengan kondisi distribusi kelas yang tidak seimbang. Selain itu algoritme Stacking juga menghasilkan kinerja yang lebih baik dibandingkan algoritme Random Forest yang mana juga merupakan algoritme bertipe meta classifier. Dengan demikian Algoritme Stacking yang diusulkan mampu menghasilkan kinerja yang lebih baik pada dataset pima diabetes dengan kondisi distribusi kelas yang tidak seimbang.

Pada Eksperimen kedua proses pengujian menggunakan dataset early stage diabetes risk prediction. Berikut tabel 3 dan gambar 5 merupakan hasil perbandingan model klasifikasi berdasarkan evaluasi menggunakan empat indikator pada early stage diabetes risk prediction dataset.

Tabel 3. Perbandingan hasil kinerja pemodelan klasifikasi early stage diabetes risk prediction dataset Model Klasifikasi Akurasi TPR TNR G-Mean

C4.5 85% 86% 88% 86.99%

K-NN 83% 84% 86% 84.99%

SVM 80% 81% 65% 72.56%

Random Forest 93% 93% 92% 92.50%

Stacking (C4.5-SVM) 96% 96% 94% 94.99%

Gambar 5. Infografis perbandingan hasil kinerja pemodelan klasifikasi early stage diabetes risk prediction dataset 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

C4.5 K-NN SVM Random Forest Stacking

Evaluasi Model Pada Pima Diabetes Dataset

G-Mean TNR TPR Akurasi

0% 20% 40% 60% 80% 100% 120%

C4.5 K-NN SVM Random Forest Stacking

Evaluasi Model Pada Early Stage Diabetes Risk Prediction Dataset

G-Mean TNR TPR Akurasi

(6)

Pada Tabel 3 dan gambar 5 menunjukkan hasil yang sama seperti pada eksperimen pengujian pertama.

Algoritme Stacking dapat menghasilkan nilai akurasi sebesar 96%, nilai TPR sebesar 96%, nilai TNR sebesar 94%

dan G-Mean sebesar 94,99%. Algoritme Stacking menunjukkan kinerja yang lebih baik dibandingkan single classifier seperti C4.5, K-NN dan SVM dari keempat indikator yang dievaluasi pada dataset early stage diabetes risk prediction dengan kondisi distribusi kelas yang tidak seimbang. Selain itu algoritme Stacking juga menghasilkan kinerja yang lebih baik dibandingkan algoritme Random Forest yang juga merupakan algoritme bertipe meta classifier. Dengan demikian Algoritme Stacking yang diusulkan mampu menghasilkan kinerja yang lebih baik pada early stage diabetes risk prediction dataset dengan kondisi distribusi kelas yang tidak seimbang.

Berdasarkan dua eksperimen pengujian yang telah dilakukan dengan menggunakan dua dataset yang berbeda. Algoritme Stacking mampu menghasilkan kinerja yang lebih baik dibandingkan algoritme C4.5, K-NN, SVM, dan Random Forest. Dengan demikian algoritme yang diusulkan yaitu Stacking (C4.5-SVM) dapat menjadi salah satu solusi untuk klasifikasi dataset diabetes dengan kondisi distribusi kelas yang tidak seimbang.

4. KESIMPULAN

Berdasarkan eksperimen yang telah dilakukan menunjukkan bahwa model machine learning dapat digunakan sebagai salah satu pendekatan maupun solusi untuk mendeteksi dini penyakit diabetes. Keberadaan ketidakseimbangan kelas pada dataset diabetes baik pima dataset maupun early stage diabetes risk prediction dataset menyebabkan kinerja single classifier menjadi tidak maksimal baik secara akurasi dan indikator evaluasi lainnya. Algoritme Stacking antara Decision Tree C4.5 dan Support Vector Machine dapat menjadi solusi untuk mengatasi permasalahan distribusi kelas yang tidak seimbang pada dataset diabetes. Berdasarkan dua eksperimen pengujian yang telah dilakukan menunjukkan bahwa algoritme Stacking mampu menghasilkan kinerja yang lebih baik dibandingkan algoritme single classifier seperti C4.5, K-NN, dan SVM. Selain itu algoritme Stacking juga menghasilkan kinerja yang lebih baik dibandingkan algoritme Random Forest yang juga merupakan algoritme bertipe meta classifier. Dengan adanya peningkatan nilai akurasi, true positif rate (TPR), true negatif rate (TNR) dan geometric mean (G-Mean), penelitian ini diharapkan mampu menjadi referensi untuk pengambangan sistem atau teknologi yang dapat mendukung pada tingkat keberhasilan proses deteksi dini penyakit diabetes menggunakan model machine learning. Penelitian ini memiliki keterbatasan yaitu dataset yang digunakan jumlahnya masih terbatas. Oleh karena itu pada penelitian selanjutnya disarankan untuk melakukan uji model Stacking dengan menggunakan jumlah record data yang lebih banyak dan rasio ketidakseimbangan kelas yang berbeda. Selain itu disarankan untuk menggunakan dua pendekatan yaitu level data dan level algoritme.

UCAPAN TERIMAKASIH

Terima kasih kami ucapkan kepada programcstudi S1 Sistem Informasi serta Lembaga Penelitian dan Pengabdian Masyarakat Universitas Amikom Yogyakarta yang telah memberikan dukungan penuh dalam penelitian ini.

REFERENCES

[1] Kementrian kesehatan republik indonesia, “Tetap Produktif, Cegah Dan Atasi Diabetes Mellitus,” pusat data dan informasi kementrian kesehatan RI. 2020.

[2] A. Kantono, I. Y. Purbasari, and F. T. Anggraeny, “Penerapan pruning pada algoritma c5.0 untuk mendiagnosis penyakit diabetes melitus 1,” no. September, pp. 184–189, 2019.

[3] Rousiyati, A. Nur Rais, E. Rahmawati, and R. Faizal Amir, “Prediksi Pima Indians Diabetes Database Dengan Ensemble Adaboost Dan Bagging,” J. Sains dan Manaj., vol. 9, no. 2, pp. 36–42, 2021.

[4] M. M. F. Islam, R. Ferdousi, S. Rahman, and H. Y. Bushra, “Likelihood Prediction of Diabetes at Early Stage Using Data Mining Techniques,” in Computer Vision and Machine Intelligence in Medical Image Analysis, 2020, pp. 113–125.

[5] J. Han, M. Kamber, and J. Pei, Data Mining : Concept and Techniques, Third Edit. Massachusetts: Morgan Kauffman, 2011.

[6] N. Abdulhadi and A. Al-Mousa, “Diabetes Detection Using Machine Learning Classification Methods,” in 2021 International Conference on Information Technology (ICIT), Jul. 2021, pp. 350–354, doi:

10.1109/ICIT52682.2021.9491788.

[7] H. Ahmed, E. M. G. Younis, and A. A. Ali, “Predicting Diabetes using Distributed Machine Learning based on Apache Spark,” in 2020 International Conference on Innovative Trends in Communication and Computer Engineering (ITCE), Feb. 2020, pp. 44–49, doi: 10.1109/ITCE48509.2020.9047795.

[8] G. Tripathi and R. Kumar, “Early Prediction of Diabetes Mellitus Using Machine Learning,” ICRITO 2020 - IEEE 8th Int. Conf. Reliab. Infocom Technol. Optim. (Trends Futur. Dir., pp. 1009–1014, 2020, doi:

10.1109/ICRITO48877.2020.9197832.

[9] V. Lopatka, I. Meniailov, and K. Bazilevych, “Classification and Prediction of Diabetes Disease Using Modified k- neighbors Method,” in 2021 IEEE 12th International Conference on Electronics and Information Technologies (ELIT), May 2021, pp. 46–50, doi: 10.1109/ELIT53502.2021.9501151.

[10] K. Alpan and G. S. İlgi, “Classification of Diabetes Dataset with Data Mining Techniques by Using WEKA Approach,”

in 2020 4th International Symposium on Multidisciplinary Studies and Innovative Technologies (ISMSIT), Oct. 2020, pp.

1–7, doi: 10.1109/ISMSIT50672.2020.9254720.

(7)

[11] S. K. Reddy, T. Krishnaveni, G. Nikitha, and E. Vijaykanth, “Diabetes Prediction Using Different Machine Learning Algorithms,” in 2021 Third International Conference on Inventive Research in Computing Applications (ICIRCA), 2021, pp. 1261–1265, doi: 10.1109/ICIRCA51532.2021.9544593.

[12] M. Yusa, E. Utami, and E. Luthfi. Taufiq, “Evaluasi Performa Algoritma Klasifikasi Decision Tree ID3, C4.5, dan CART Pada Dataset Readmisi Pasien Diabetes,” Infosys (Information Syst. J., vol. 4, no. 1, pp. 23–34, 2016.

[13] D. Vigneswari, N. K. Kumar, V. Ganesh Raj, A. Gugan, and S. R. Vikash, “Machine Learning Tree Classifiers in Predicting Diabetes Mellitus,” 2019 5th Int. Conf. Adv. Comput. Commun. Syst. ICACCS 2019, pp. 84–87, 2019, doi:

10.1109/ICACCS.2019.8728388.

[14] Fatmawati, “Perbandingan Algoritma Klasifikasi Data Mining Model C4.5 Dan Naive Bayes Untuk Prediksi Penyakit Diabetes,” J. Techno Nusa Mandiri, vol. 1, no. 3, p. 137, 2016.

[15] D. Sisodia and D. S. Sisodia, “Prediction of Diabetes using Classification Algorithms,” Procedia Comput. Sci., vol. 132, no. Iccids, pp. 1578–1585, 2018, doi: 10.1016/j.procs.2018.05.122.

[16] R. S. Raj, D. S. Sanjay, M. Kusuma, and S. Sampath, “Comparison of Support Vector Machine and Naïve Bayes Classifiers for Predicting Diabetes,” in 2019 1st International Conference on Advanced Technologies in Intelligent Control, Environment, Computing Communication Engineering (ICATIECE), Mar. 2019, pp. 41–45, doi:

10.1109/ICATIECE45860.2019.9063792.

[17] A. Nurmasani and Y. Pristyanto, “ALGORITME STACKING UNTUK KLASIFIKASI PENYAKIT JANTUNG PADA DATASET IMBALANCED CLASS Atik,” J. Pseudocode, vol. VIII, no. Februari, pp. 21–26, 2021.

[18] Peter Turney, “Pima Diabetes Dataset,” National Institute of Diabetes and Digestive and Kidney Diseases, 1990.

https://www.kaggle.com/uciml/pima-indians-diabetes-database/.

[19] N. Chanamarn, K. Tamee, and P. Sittidech, “Stacking technique for academic achievement prediction,” Int. Work. Smart Info-Media Syst. Asia (SISA 2016), no. Sisa 2016, pp. 14–17, 2016.

[20] Q. Wang, “A hybrid sampling SVM approach to imbalanced data classification,” Abstr. Appl. Anal., vol. 2014, 2014, doi: 10.1155/2014/972786.

[21] H. R. Sanabila and W. Jatmiko, “Ensemble Learning on Large Scale Financial Imbalanced Data,” 2018 Int. Work. Big Data Inf. Secur. IWBIS 2018, pp. 93–98, 2018, doi: 10.1109/IWBIS.2018.8471702.