• Tidak ada hasil yang ditemukan

E IS388 Theory Agga Pagunnata Panuntun 00000025763

AGGA PAGUNNATA PANUNTUN (00000025763)

Academic year: 2023

Membagikan "E IS388 Theory Agga Pagunnata Panuntun 00000025763"

Copied!
6
0
0

Teks penuh

(1)

Perbandingan Performa Algoritma Machine Learning untuk Klasifikasi Diagnosis Penyakit

Diabetes

1st Agga Pagunnata Panuntun Sistem Informasi

Universitas Multimedia Nusantara Banten, Indonesia

[email protected] Abstrak Berdasarkan WHO (World Health

Organization ) ,tingkat pertumbuhan penyakit diabetes merupakan yang tertinggi saat ini . Salah satu masalah kesehatan utama di dunia yaitu diabetes . Diabetes sering terjadi karena gagalnya tubuh dalam memproduksi hormon insulin yang berfungsi membawa glukosa ke sel dalam tubuh untuk menjadi bahan bakar energi bagi tubuh kita. Pada tahun 2019 , Indonesia menduduki peringkat ke 7 di dunia dengan jumlah penderita diabetes tertinggi setelah China , India , dan Amerika Serikat. Pendeteksi dini penyakit diabetes dapat menurunkan tingkat pertumbuhan orang terkena penyakit diabetes. Salah satu cara untuk mendeteksi penyakit diabetes dapat menggunakan algoritma machine learning . Tujuan dari penelitian ini akan membandingkan 2 performa model algoritma Machine Learning yang mampu mendeteksi penyakit diabetes. 2 model Machine Learning yang digunakan yaitu Regresi Linier dan Regresi Logistik. Evaluasi model machine learning menggunakan confusion matrix dan skor rmse . Berdasarkan penelitian yang sudah dilakukan metode regresi logistik merupakan model dengan performa terbaik dibandingkan regresi linier dalam mendeteksi penyakit diabetes dengan 15 fitur terbaik dan akurasi sebesar 83,3 % .

Index Terms—Diabetes ; Regresi Logistik ; Confusion Matrix ; Classification ; Machine Learning

I. PENDAHULUAN

Salah satu masalah kesehatan utama di dunia yaitu diabetes . Diabetes sering terjadi karena gagalnya tubuh dalam memproduksi hormon insulin yang berfungsi membawa glukosa ke sel dalam tubuh untuk menjadi bahan bakar energi bagi tubuh kita [1].

Penyakit diabetes juga dianggap penyakit yang cukup berbahaya saat ini . Hal ini disebabkan karena penyakit diabetes yang sudah akut akan menyebabkan komplikasi yang berkelanjutan akibat dari gula darah yang tidak terkontrol. Komplikasi ini kemungkinan menyebabkan kematian [2].

Berdasarkan WHO (World Health Organization ) ,tingkat pertumbuhan penyakit diabetes merupakan yang tertinggi saat ini. Pada tahun 1980 – 2014 terjadi peningkatan dari 108 juta penduduk yang terjangkit menjadi 422 juta penduduk yang terjangkit penyakit ini. Negara atau daerah yang sering menyumbang

penderita diabetes adalah negara berkembang yang masih belum memiliki dana untuk berobat atau mengecek gula darah secara rutin [3].

Pada tahun 2019 , Indonesia menduduki peringkat ke 7 di dunia dengan jumlah penderita diabetes tertinggi setelah China , India , dan Amerika Serikat [4].

Mendeteksi keterdapat penyakit diabtes pada tubuh sangat berguna mengingat banyaknya risiko yang terjadi akibat penyakit diabetes ini . Pendeteksian ini berfungsi untuk mengurangi atau mencegah penyakit diabetes tidak akan berkembang menjadi akut . Dalam dunia medis , pengecekan orang terkena penyakit diabetes dengan mengecek kadar gula darah yang terdapat pada tubuh [5].

Machine Learning adalah suatu studi pada bidang kecerdasan buatan (Artificial Intelligence) yang memberikan kemampuan belajar secara otomatis dengan menghasilkan output berdasarkan model algoritma yang telah dibuat berdasarkan percobaan kepada data training. Terdapat 2 kategori dalam Machine Learning yaitu Unsupervised Learning dan Supervised Learning. Unsupervised Learning merupakan salah satu tipe algoritma dari Machine Learning yang memodelkan pola berdasarkan input yang diberikan . Algoritma ini hanya berisi sekumpulan data input tanpa terdapat data output yang membuat data input harus diolah dan didapatkan pola yang terbentuk pada data input untuk mendapatkan output. Biasanya Unsupervised Learning digunakan untuk memprediksi atau menarik kesimpulan dari input yang diberikan.Contoh algoritma dari Unsupervised Learning antara lain K-Means Clustering,Density Based Clustering, PCA, dll.

Sedangkan Supervised Learning adalah salah satu tipe algoritma Machine Learning yang mengklasifikasikan input untuk mendapatkan output yang diinginkan.

Contoh algoritma dari Supervised Learning antara lain SVM,Linear Regression, Logistic Regression,dll [6].

Regresi logistik adalah salah satu algoritma Machine Learning yang bertujuan untuk mengetahui hubungan antara variabel input dan variabel output . Biasanya variabel output bersifat kategorikal . Regresi logistik dan regresi linear secara konsep sama tetapi

(2)

hal yang membuat berbeda adalah ketika mencari nilai estimasi parameter. Pada regresi logistik menggunakan metode MLE (Maximum Likehood Estimator)[7] . Berikut adalah persamaan rumus MLE :

g ( x)=ln ( 1− π ( π x ( ) x ) )

Dimana

π ( x )= e

β0+j=1

p

βj xj

1+e

β0+j=1

p

βj xj

Setelah didapatkan suatu model machine learning , maka model tersebut harus dilakukan evaluasi untuk melihat kinerja atau performa model tersebut. Salah satu metode yang dapat digunakan yaitu Confusion Matrix . Metode ini merupakan sebuah matriks dengan ukuran N x N dengan N merupakan jumlah label unik yang terdapat pada dataset yang digunakan . Berikut adalah penjelasan Confusion Matrix [8].

True Class Predicted

Class Positive Negative

Positive TP FP

Negative FN TN

Keterangan dari tabel diatas adalah TP adalah jumlah positif dan benar , FP adalah jumlah positif dan salah , FN adalah jumlah negatif dan salah , dan TN adalah jumlah salah dan benar . Berdasarkan keterangan dapat dihitung nilai -nilai berikut :

Akurasi = TP+TN TP+ FP + FN + TN

Recall= TP TP + FN Precision= TP

TP+ FP

Identifikasi dan prediksi penyakit hati dengan membandingkan algoritma machine learning. Terdapat 5 algoritma yang dibandingkan yaitu KNN , SVM (Support Vector Machine ) , Decision Tree , Regresi Logistik , dan Random Forest dimana Regresi Logistik memiliki performa model paling bagus dibandingkan keempat algoritma lainnya [9].

Evaluasi kinerja model Regresi Logistik sangat baik jika dibandingkan dengan algoritma lainnya seperti KNN , ANN , dan SVM dalam memprediksi

penyakit ginjal , jantung , diabetes , dan hipertensi [10].

Berdasarkan perbandingan evaluasi kinerja model Regresi Logsitik memberikan nilai hal akurasi , presisi , dan recall yang cukup baik dibandingkan algoritma lainnya untuk mendeteksi diagnosis penyakit diabetes [11]

II. METODOLOGI

A. Langkah Pengerjaan

B. Dataset

Dataset yang digunakan merupakan data yang berasal(https://www.kaggle.com/datasets/alexteboul/di abetes-health-indicators-dataset). dengan jumlah data sebesar 253680 data dengan 22 features (21 feature input dan 1 feature output). Berikut keterangan dari feature yang terdapat pada dataset :

Feature Karakteristi k Feature

Keterangan Feature

Info Featur e Diabetes_012 Kategorikal 0 : tidak

diabetes 1 : prediabetes 2 : diabetes

Output

HighBP Kategorikal 0 : Tekanan Input

Mencari dan Mengumpulkan Data

Mengimport Library yang dibutuhkan

Mengimport dataset yang telah ditentukan

Data Preprocessing

EDA

Feature Selection

Membuat Model

Evaluasi Model

Analisis Hasil dan Membandingkan dengan Hasil Kelompok

(3)

Darah Normal 1: Tekanan darah tinggi HighChol Kategorikal 0 : Kolestrol

Normal 1 : Kolestrol tinggi

Input

CholCheck Kategorikal 0 : Tidak mengecek kadar kolestrol dalam 5 tahun terakhir 1: mengecek kadar kolestrol dalam 5 tahun terakhir

Input

BMI Numerik Body Mass

Index Input

Smoker Kategorikal 0 : Tidak Merokok 1: Merokok

Input

Stroke Kategorikal 0: Tidak pernah menderita penyakit stroke 1: pernah menderita penyakit stroke

Input

Heart Diseaseor Attack

Kategorikal 0 : tidak pernah CHD

1 : Pernah CHD

Input

PhysActivity Kategorikal 0: tidak melakukan aktivitas fisik dalam 30 hari terakhir 1: melakukan aktivitas fisik dalam 30 hari terakhir

Input

Fruits Kategorikal 0 : Tidak mengonsumsi buah minimal 1 kali dalam sehari 1:

Mengonsumsi buah minimal 1 kali dalam sehari

Input

Veggies Kategorikal 0 : Tidak mengonsumsi sayuran minimal 1 kali dalam sehari

Input

1:

Mengonsumsi sayuran minimal 1 kali dalam sehari Hvy

Alcohol Consump

Kategorikal 0 : Tidak sering mengonsumsi minuman alkohol 1: Sering mengonsumsi minuman alkohol

Input

AnyHealthcar e

Kategorikal 0 : Tidak mempunyai layanan kesehatan 1: Mempunyai layanan kesehatan

Input

NoDocbcCost Kategorikal 0 : Tidak mempunyai biaya dokter 1: Mempunyai biaya dokter

Input

GenHlth Kategorikal 1 : kondisi kesehatan sempurna 2 : kondisi kesehatan sangat bagus 3 : kondisi kesehatan bagus 4 : kondisi kesehatan tidak bagus

5 : kondisi kesehatan sangat tidak bagus

Input

MentHlth Numerik Seberapa besar tingkat stress , depresi, dan emosi

Input

PhysHlth Numerik Seberapa besar tingkat sakit fisik

Input

DiffWalk Kategorikal 0 : Tidak sulit dalam berjalan 1: Sulit berjalan

Input

Sex Kategorikal 0 : Perempuan

1: Laki-laki

Input

Age Kategorikal 13 level

kategori usia

Input

(4)

Education Kategorikal Tingkat pendidikan dengan skala 1- 6

Input

Income Kategorikal Pendapatan dengan Skala 1-8

Input

III. HASILDAN PEMBAHASAN

Disini karena banyaknya data yang sama maka data dipreprocessing dengan mengedrop atau menghapus semua data yang sama .

Gambar 1 Visualiasi Hubungan Semua Feature dengan Respon

Berikut adalah hasil dari bar plot dari semua feature dengan variabel output atau respon. Berdasarkan gambar 1 , didapatkan bahwa :

 Semakin tinggi nilai blood pressure atau tekanan darah , BMI , dan kadar kolestrol di tubuh maka semakin tinggi juga resiko untuk terjangkit penyakit diabetes.

 Semakin rendah orang melakukan kegiatan fisik atau olahraga maka semakin tinggi resiko untuk terjangkit penyakit diabetes.

 Semakin tinggi tingkat stress dan fisik yang sakit maka semakin tinggi juga resiko untuk terjangkit penyakit diabetes.

 Semakin sulit orang berjalan maka semakin tinggi resiko untuk terjangkit penyakit diabetes.

 Rata-rata orang yang sudah tua akan semakin tinggi resiko untuk terjangkit penyakit diabetes.

 Orang yang memiliki riwayat stroke dan jantung koroner memiliki resiko tinggi untuk terjangkit penyakit diabetes.

 Rata-rata orang yang terjangkit diabetes sering mengonsumsi buah dan sayur , mengecek kadar kolestrol tubuh , melakukan aktivitas fisik atau olahraga , mempunyai layanan kesehatan.

 Semua tingkat pendidikan bisa terjangkit penyakit diabetes

(5)

Gambar 2 Count Plot Variabel Respon

Berikut adalah hasil countplot atau jumlah label unik dari variabel respon . Berdasarkan gambar 2 , didapatkan lebih dari 175.000 orang tidak terkena diabetes , kurang dari 25.000 orang terkena prediabetes , dan antara 25.000 – 50.000 orang terkena diabetes .

Gambar 3 Box Plot Feature

Berikut adalah hasil dari box plot dari semua feature yang berfungsi untuk mengecek nilai outliers dari setiap kolom atau feature . Berdasarkan gambar 3 , tidak ditemukan nilai outliers dari semua feature .

Gambar 4 Korelasi Antar Feature

Berikut adalah korelasi antar feature . Berdasarkan gambar 4 , didapatkan bahwa :

 Nilai korelasi tinggi antara kondisi gen (GenHlth) dan kondisi mental (MentHlth) .

 Nilai korelasi tinggi antara kondisi gen (GenHlth) dan kesulitan berjalan (DiffWalk) .

 Nilai korelasi tinggi antara kondisi mental (MentHlth) dan kesulitan berjalan (DiffWalk).

 Nilai korelasi tinggi antara kondisi gen (GenHlth) dan pendapatan (Income) .

 Nilai korelasi tinggi antara kesulitan berjalan (DiffWalk) dan pendapatan (Income) .

Gambar 5 Feature Selection

Berikut adalah hasil dari pemilihan feature dengan menggunakan chi-square . Semua fitur akan di cek independasinya dengan variabel output . Berdasarkan gambar 5 didapatkan 15 feature yang berpengaruh dalam mengklasifikasikan diagnosis diabetes antara lain :

1. Nilai tekanan darah (HighBP) 2. Kadar kolestrol (HighChol) 3. Body Mass Index (BMI) 4. Riwayat merokok (Smoker) 5. Riwayat stroke (Stroke)

6. Riwayat jantung koroner

(HeartDiseaseorAttack)

7. Aktivitas fisik atau berolahraga (PhysActivity)

8. Riwayat minum alkohol

(HvyAlcoholConsump) 9. Kesehatan gen (GenHealth) 10. Kesehatan mental (MentHealth) 11. Kesehatan fisik (PhysActivity) 12. Kesulitan berjalan (DiffWalk) 13. Umur (Age)

14. Sekolah (Education) 15. Pendapatan (Income)

(6)

Gambar 6 Potongan Kode Split Data

Berikut adalah potongan kode untuk mengedrop atau menghapus kolom yang tidak terpilih pada saat Feature Selection dan target output untuk disimpan dalam data training dan data target output akan disimpan dalam data testing . Data split menjadi data training dan data testing dengan perbandingan 80%

data training dan 20% data testing dengan random state sebesar 42.

Gambar 7 Potongan Kode Standarisasi Data Berikut adalah potongan kode untuk melakukan standarisasi pada data training dan data testing .

Gambar 8 Potongan Kode Model Regresi Logistik Berikut adalah potongan kode untuk membuat model Regresi Logistik dengan iterasi maksimum sebanyak 1500 kali .

Gambar 9 Confusion Matrix Model Regresi Logistik Berikut adalah Confusion Matrix dari model Regresi Logistik yang telah dibuat. Berdasarkan gambar 9 didapatkan nilai akurasi :

Akurasi = 55685+ 0+1741

68935 =83,3 %

Jika dibandingkan dengan performa model dengan regresi linear (Linear Regression) , didapatkan peforma terbaik dengan menggunakan model Regresi Logistik karena pemilihan model yang salah pada kelompok karena dataset merupakan dataset unutk klasifikasi bukan regresi .

IV. CONCLUSION

Berdasarkan hasil dan pembahasan dapat disimpulkan bahwa :

 Dengan menggunakan 15 feature yang terbaik dan model regresi logistik , didapatkan model sebesar 83,3% .

 Jika dibandingkan dengan model kelompok didapatkan model terbaik adalah regresi logistik.

DAFTAR PUSTAKA

[1] Devi, R. D., Bai, A., & Nagarajan, N. (2019). A Novel Hybrid Approach for Diagnosing Diabetes Mellitus using Farthest First and Support Vector Machine Algorithms.

[2] Mayo Clinic. (2018). Diabetes. 2020 . https://www.mayoclinic.org/diseasesconditions/diabetes/symp tomscauses/syc-2037144

[3] L. M. Cendani, and A. Wibowo, "Perbandingan Metode Ensemble Learning pada Klasifikasi Penyakit Diabetes,"

JURNAL MASYARAKAT INFORMATIKA, vol. 13, no. 1,

pp. 33 - 44, May. 2022.

https://doi.org/10.14710/jmasif.13.1.42912

[4] J. Elflein (2019) “Number of people with diabetes, by country

2019,” [Online],

https://www.statista.com/statistics/281082/countries- withhighest-number-of-diabetics/, tanggal akses: 6-Des-2021 [5] Diabetes UK (2018) “Diabetes the Basics,” [Online],

https://www.diabetes.org.uk/diabetes-the-basics, tanggal akses: 8-Des2021.

[6] Sah, S. Machine Learning: A Review of Learning Types.

Preprints 2020, 2020070230 (doi:

10.20944/preprints202007.0230.v1).

[7] U.M. Butt, dkk., “Machine Learning Based Diabetes Classification and Prediction for Healthcare Applications,” J.

Healthc. Eng., Vol. 2021, hal. 1–17, 2021.

[8] Karimi , Zohreh. “Confusion Matrix” . 2021

[9] N. Varshney dan A. Sharma, “Identification and Prediction of Liver Disease Using Logistic Regression,” Eur. J. Mol. Clin.

Med., Vol. 7, No. 4, hal. 106–110, 2020.

[10] S. Nusinovici, dkk., “Logistic Regression was As Good As Machine Learning for Predicting Major Chronic Diseases,” J.

Clin. Epidemiol., Vol. 122, hal. 56–69, 2020

[11] S. Mezzatesta, dkk., “A Machine Learning-based Approach for Predicting the Outbreak of Cardiovascular Diseases in Patients on Dialysis,” Comput. Methods, Programs Biomed., Vol. 177, hal. 9–15, 2019.

Referensi

Dokumen terkait

Diabetes Melitus (DM) merupakan penyakit gangguan metabolisme yang menjadi masalah 

Salah satu faktor terjadinya penyakit pada diabetes mellitus di Wilayah Kerja Puskesmas Kutasari, Kecamatan Kutasari, Kabupaten Purbalingga adalah tingkat depresi, Sehingga

Kanker adalah salah satu penyakit paling berbahaya yang disebabkan oleh pertumbuhan atau pembelahan sel-sel jaringan tubuh yang tidak normal, yang berkembang

Prevalensi kasus diabetes melitus yang paling terendah terdapat di Nusa Tenggara Timur yaitu 0,9% sedangkan prevalensi penyakit diabetes mellitus yang tertinggi

Penyakit Diabetes mellitus merupakan salah satu masalah kesehatan yang masih dihadapi di Indonesia hingga saat ini, Diabetes Mellitus adalah suatu kelompok

Penyakit diabetes mellitus merupakan satu penyakit kronik yang berlaku bila pankreas tidak menghasilkan insulin yang cukup atau tubuh tidak dapat memanfaatkan

Diabetes mellitus merupakan penyakit menahun dan progresif yang ditandai dengan tubuh kekurangan insulin atau tubuh sedikit menghasilkan insulin atau insulin

Hubungan Pemenuhan Kebutuhan Spiritual dengan Tingkat Depresi pada Lansia penderita Diabetes Mellitus Diabetes mellitus adalah penyakit kronis akibat tubuh tidak dapat memproduksi