Ensemble Klasifikasi Penyakit Tuberculosis Pada Hasil Pengobatan Menggunakan Metode Hybrid K-Nearest Neighbor (K-NN), Decision
Tree dan Support Vector Machine (SVM)
Alya Nurfaiza Azzahra*, Junta Zeniarja, Ardytha Luthfiarta, Mufida Rahayu
Fakultas Ilmu Komputer, Program Studi Teknik Informatika, Universitas Dian Nuswantoro, Semarang, Indonesia Email: 1,*[email protected], 2[email protected], 3[email protected],
Email Penulis Korespondensi: [email protected]
Abstrak−Tuberculosis (TB) merupakan penyakit menular dengan hasil penyebab kematian tertinggi di dunia. Penyakit ini dapat ditularkan melalui udara dan menyerang sistem pernapasan paru. Meningkatnya kasus TB dari tahun ketahun dikarenakan sedikitnya mengetahui informasi pengobatan dari penyakit ini. Hal ini diperlukannya proses diagnosis dan pengobatan TBC membutuhkan analisis data yang akurat. Dari permasalahan tersebut maka diperlukan klasifikasi penyakit tuberculosis untuk meningkatkan hasil pengobatan yang lebih baik. Dalam penelitian ini menggunakan eksperimen dengan algoritma klasifikasi Hybrid model dengan metode yang menggabungkan tiga pendekatan, yaitu K-Nearest Neighbor (K-NN), Decision Tree, Support Vector Machine (SVM) untuk mengklasifikasi hasil pengobatan dengan menggunakan metode Ensemble klasifikasi dan bertujuan untuk menggabungkan masing - masing metode agar menciptakan sebuah model Ensemble yang lebih kuat dan meningkatkan hasil akurasi dalam hasil pengobatan, dengan menggunakan data Dinas Kesehatan Kota Semarang atau disebut dengan data Sistem Informasi Tuberculosis (SITB) pada Tahun 2020-2023 dengan data latih 80% dan data uji 20%.
Berdasarkan hasil pengujian dan analisis menggunakan confusion matrix diperoleh nilai akurasi tertinggi sebesar 78.55%
menggunakan K-Fold Cross validation yakni k sama dengan 7 dan Ensemble model mendapatkan hasil yang tinggi untuk hasil pengobatan.
Kata Kunci: Hasil Pengobatan; K-NN; Pohon Keputusan; SVM; Tuberkulosis; Ensemble
Abstract−Tuberculosis (TB) is an infectious disease with the highest cause of death in the world. This disease can be transmitted through the air and attacks the pulmonary respiratory system. The increase in TB cases from year to year is due to little information about the treatment of this disease. This requires the process of diagnosing and treating TB requiring accurate data analysis. From these problems, classification of tuberculosis disease is needed to improve better treatment results. In this study, experiments were used with the Hybrid model classification algorithm with a method that combines three approaches, namely K-Nearest Neighbor (K-NN), Decision Tree, Support Vector Machine (SVM) to classify treatment results using the Ensemble classification method and aims to combine each method in order to create a stronger Ensemble model and increase accuracy in treatment results, using data from the Semarang City Health Service or what is called Tuberculosis Information System (SITB) data in 2020-2023 with 80% training data and test data 20%. Based on the results of testing and analysis using the confusion matrix, the highest accuracy value was obtained at 78.55% using K-Fold Cross validation, namely k equals 7 and the Ensemble model obtained high results for treatment outcomes.
Keiywords: Treatment Results; K-Nearest Neighbor; Decision Tree; Support Vector Machine; Tuberculosis; Ensemble
1. PENDAHULUAN
Saat ini terdapat beberapa penyakit endeimic di Indonesia. Penyakit yang dinyatakan menjadi endeimic ketika terjadi peningkatan jumlah kasus pada suatu wilayah tertentu. Salah satu penyakit endeimic yang terdapat di Indonesia adalah Tuberculosis (TB)[1]. Tuberkulosis atau dikenal dengan TB merupakan penyakit yang mematikan setelah HIV/AIDS[2]. Indonesia merupakan negara dengan urutan kedua di dunia penderita TB setelah India. Penyakit tuberculosis adalah penyakit menular langsung yang disebabkan oleh bakteri Mycobacterium Tuberculosis yang bersifat aerob obligat yang umumnya menyerang organ paru pada manusia dengan bakteri yang terhirup melalui saluran pernapasan kemudian menyebar ke berbagai organ tubuh melalui sirkulasi darah. Selain pada manusia, hewan juga dapat terinfeksi dan menyebarkan penyakit tuberculosis kepada manusia melalui kotorannya[3].
Penyakit TB merupakan penyakit yang dapat memberi infeksi kepada semua kalangan mulai dari bayi, balita, remaja, hingga lansia dan menimbukan kesakitan pada organ di dalam tubuh. Kesehatan adalah hal yang sangat penting dalam kehidupan manusia. World Health Organization (WHO) (2015) menyatakan Indonesia sebagai negara penderita penyakit tuberkulosis paru terbanyak yaitu 10% dari total global kasus paru di dunia[4].
Ada beberapa gejala yang dapat menyebabkan timbulnya penyakit Tuberculosis (TB) diantaranya demam, batuk, nyeri dada, sesak nafas, batuk dahak disertai darah, nafsu makan menurun, dan susah tidur[5].
Meningkatnya kasus penularan infeksi penyakit Tuberkulosis pada paru, menjadikan pentingnya untuk melakukan penelitian pada penentuan variabel-variabel yang berpengaruh terhadap tingkat penyakit Tuberkulosis pada hasil pengobatan, hal ini bertujuan untuk mengurangi jumlah penderita penyakit Tuberkulosis, khususnya di Indonesia. Namun Tuberkulosis adalah penyakit yang mengganggu sumber daya manusia dan umumnya menyerang kelompok masyarakat dengan golongan sosial ekonomi rendah, Selain itu kasus tuberkulosis di Indonesia sangat meningkat dikarenakan banyak masyarakat yang tidak menyelesaikan pengobatan dengan sesuai.
Oleh karena itu, dibutuhkan klasifikasi penyakit tuberculosis untuk mengetahui dan meningkatkan hasil pada pengobatan penyakit TB[6].
Klasifikasi merupakan proses pengelompokkan data atau mengkategorikan data ke dalam kelas atau kategori yang berbeda berdasarkan atribut-atribut data. Dengan demikian sangat penting melakukan pergerakan pengobatan dengan cepat untuk mengurangi penularan tuberculosis kepada masyarakat luas. Pendekatan komputasi berbasis machine learning untuk klasifikasi penyakit TB telah dikembangkan, diantaranya dengan menggunakan algoritma K-Nearest Neighbor (K-NN), Decision Tree (DT) dan Support Vector Machine (SVM).
K-NN adalah sebuah algoritma yang bersifat supervised (memerlukan label kelas), non-parametrik. K-NN dapat menggunakan berbagai fitur untuk mengidentifikasi pola yang relevan terhadap hasil pengobatan, algoritma ini digunakan untuk mengatasi masalah klasifikasi dengan label kelas yang akan diuji dan dibandingkan dengan yang terdekat pada tahap pengambilan keputusan[7]. DT atau pohon keputusan adalah salah satu teknik yang sering digunakan dalam data mining yang membagi atribut menjadi node untuk diklasifikasikan sesuai label, DT juga dapat mengatasi masalah ketidakseimbangan kelas dengan cara menghasilkan pemisahan yang jelas antara kategori hasil pengobatan[8]. Dan SVM ditemukan oleh Vapnik pada tahun 1992 sebagai strategi Artificial Intelligence (AI) yang bekerja dengan standar minimal risiko terstruktur dan mencari fungsi pemisah yang optimal, metode SVM ini dapat mengklasifikasi hasil pengobatan penyakit tuberculosis membangun keputusan kategori hasil pengobatan yang berbeda. Penggunaan dari hybrid model tersebut dapat menghasilkan eksperimen serta hasil pengujian pada hasil pengobatan penyakit tuberculosis yang cukup tinggi dibanding dengan algoritma yang lain.
Pada algoritma K-Nearest Neighbor (K-NN), Decision Tree (DT) dan Support Vector Machine (SVM) Dapat dijelaskan dari masalah penelitian ini pada hasil pengobatan yang belum mendapatkan hasil yang baik, serta tujuan dilakukannya klasifikasi ini diantaranya dapat meningkatkan hasil akurasi, precission, recall, f1-score dan menggunakan beberapa metode yang dapat meningkatkan hasil Ensemble klasifikasi dibandingkan dengan menggunakan single model. Penelitian ini harus dilakukan karena bertujuan untuk meningkatkan keakuratan dalam mengklasifikasikan hasil pengobatan. Oleh karena itu, dibutuhkan klasifikasi penyakit tuberculosis untuk mengetahui hasil pada pengobatan penyakit TB[9].
Metode Ensemble Learning merupakan sebuah algoritma machine learning untuk menyelesaikan permasalahan dengan lebih dari satu model untuk mendapatkan hasil yang lebih baik dibandingkan dengan model single algorithm tanpa menggunakan metode Ensemble. Ensemble ini digunakan untuk mengkombinasikan beberapa metode-metode untuk menghasilkan prediksi akhir. Pada dasarnya, metode Ensemble learning dapat mengimplikasikan dari beberapa klasifikasi dan mendapatkan hasil prediksi atau akurasi yang lebih akurat, meskipun tidak dapat dijamin bahwa metode ensemble selalu menghasilkan yang lebih baik, namun penggabungan dari ketiga model-model klasifikasi ini meminimalkan resiko kesalahan yang dihasilkan oleh model yang dibangun hanya dengan single algorithm, karena kesalahan klasifikasi dalam salah satu model yang akan terkoreksi dengan model lain yang menghasilkan nilai voting mayoritas[10].
Berdasarkan hasil penelitian sebelumnya yang dilakukan oleh Ruswanto dkk yang mengembangkan salah satu senyawa ester yang dapat digunakan dalam hasil pengobatan tuberculosis dengan Decision Tree mendapat hasil sintesis 59.11%[11]. Selanjutnya berdasarkan beberapa hasil penelitian lain sebelumnya yang dilakukan oleh Soesanti dkk mendapatkan hasil pengujian deteksi dini hasil resiko tuberculosis dengan Support Vector Machine mendapat hasil pengujian terendah 52.00%[12]. Penelitian lain yang dilakukan oleh Vera Maya Santi dkk pada hasil penerapan Smote pada data pasien tuberculosis hasil relapse dan tidak relapse mendapatkan hasil pengujian 76.15%[13]. Yang terakhir hasil pada penelitian lain yang dilakukan oleh Yanti Apriyani dkk tentang perhitungan kasus positif tuberculosis menggunakan Naïve Baiyes mendapatkan hasil 59.61%[14]. Penelitian yang telah ada masih membutuhkan peningkatan metode untuk menghasilkan klasifikasi penyakit tuberculosis dengan hasil akurasi yang lebih baik. Pada beberapa penelitian Menunjukkan model klasifikasi yang divalidasi dengan menggunakan teknik cross validation menunjukkan perbaikan performa model dan menghasilkan akurasi secara umum yang lebih tinggi[15].
Pada penelitian ini akan menggunakan model klasifikasi dengan menerapkan validasi model berbasis Cross Validation untuk memberikan hasil yang lebih baik dibanding dengan metode sebelumnya yang menggunakan random split validation. Metode Hybrid model dengan Ensemble learning dan teknik Cross Validation diharapkan memberikan klasifikasi pengobatan penyakit tuberculosis dengan hasil yang lebih akurat.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Tahapan penelitian ini memiliki metode atau langkah-langkah penelitian. Berikut ini, tahapan penelitian sebagaimana pada Gambar 1. Penelitian ini membandingkan model K-NN, Decision Tree, dan SVM, dan model Ensemble yang mengambil nilai akhir klasifikasi berdasarkan hasil mayoritas dari hasil klasifikasi dari tiga model (K-NN, DT, SVM). Dimulai dari pengumpulan data (Raw data), tahap preprocessing data, validasi data dengan memisahkan data menjadi beberapa subset dan melakukan pengujian model untuk mengevaluasi kinerja model, proses pengujian menggunakan (K-NN, DT, SVM) secara terpisah untuk melihat hasil klasifikasi dari single model, hasil dari hybrid model digabungkan untuk meningkatkan akurasi, menilai kinerja ensemble model
menggunakan confusion matrix seperti akurasi, precision, recall, dan f1-score. Semua model dibangun dengan menggunakan teknik K-Fold Cross Validation dengan berbagai percobaan nilai k dengan menerapkan replace missing value sebelumnya.
Gambar 1. Tahapan Penelitian 2.2 Preprocessing Data
Pada tahap preprocessing data, Langkah pertama adalah memilih kolom yang akan digunakan dan dianalisis lebih lanjut dengan mengidentifikasi kolom – kolom yang sesuai atau relevan untuk digunakan. Dalam hal ini, beberapa kolom yang dipilih diantaranya adalah ‘Kode Unik’, ‘Jenis Kelamin’, ‘Umur’, ‘Tipe TBC’, dan lainnya[16].
Langkah selanjutnya yaitu meingganti nama kolom untuk memudahkan pengguna dan nama kolom diperbarui untuk mengganti spasi dengan garis bawah dan huruf diubah menjadi kecil agar dapat konsisten dalam penulisan.
Selanjutnya dilakukan pengecekan nilai yang hilang dalam dataset untuk menghitung jumlah nilai yang hilang di setiap kolom. Selanjutnya dalam langkah handling missing value melakukan penghapusan kolom dengan jumlah nilai yang hilang lebih dari 50% tujuannya adalah membersihkan dataset yang tidak lengkap[17]. Berikut beberapa sampel data pada tahap preprocessing pada Tabel 1.
Tabeli1. Sample Tahap Prepocessing
Preprocessing data Keterangan
Memilih Kolom ‘Kode Unik’, ‘Jenis Kelamin’, ‘umur’, ‘Tipe TBC’, dan lainnya dipilih sebagai kolom yang relevan
Mengganti Nama Kolom
Nama kolom diubah untuk memudahkan penggunaan dan konsistensi penulisan, spasi diganti dengan garis bawah dan huruf diubah menjadi huruf kecil.
Pengecekan Nilai Yang Hilang
Dilakukan pengecekan jumlah nilai yang hilang di setiap kolom untuk mengetahui keadaan data yang tidak lengkap.
Handling Missing Value
Kolom-kolom dengan lebih dari 50% nilai yang hilang dihapus dari dataset untuk membersihkan data yang tidak lengkap.
: ...
2.3 K- Nearest Neighbor (K-NN)
K-NN mengklasifikasikan data ke dalam dua atau lebih label kelas berdasarkan pengukuran sejauh mana data tersebut mirip satu sama lain. Pengukuran kesamaan ini sering disebut sebagai kedekatan atau jarak antara dua atau lebih titik data dalam dataset[18]. Pada penelitian ini K-NN melakukan klasifikasi, mengembangkan hasil akurasi dengan menggunakan metode K-NN karena metode K-NN dapat mudah diterapkan dalam menghasilkan pengobatan pada penyakit tuberculosis. Algoritma ini biasanya di terapkan dalam klasifikasi data berdasarkan nilai selisih yang kecil dari jarak yang lainnya. Berikut tahapan dari metode:
1. Metode Jarak Manhattan
d(x, y) = ∑ni=1|xi−yi| (1)
d(x, y) = jarak Manhattan
x = data 1
y = data 2
i = index fitur
n = index fitur
2.4 Decision Tree (Pohon Keputusan)
Algoritma Decision Tree atau pohon keputusan adalah salah satu teknik yang sering digunakan dalam data mining yang membangun pengklasifikasi[19]. Algoritma ini memiliki fungsi terkait dengan kategori kelas dan label kelas serta memproses pengklasifikasi data yang baru diperoleh. Selain itu, algoritma ini melakukan pemilahan data pelatihan dengan mengumpulkan informasi dari dataset. Saat menghitung nilai gain, dan nilai entropi meinggunakan rumus berikut:
EIntropy (S) = ∑ni=1pi ∗ log2 pi (2)
S = Himpunan Kasus A = Atribut
N = Jumlah dari patisi S Pi = Proporsi dari Si teirhadap S
Persamaan yang digunakan untuk menghitung Information Gain:
Gain (S, A) = EIntropy (S) − ∑ni=1|Si||S|∗ EIntropy (Si) (3)
S = Himpunan Kasus A = Atribut
n = Jumlah patisi S
Pi = Proporsi dari Si terhadap S A|Si | = Himpunan Kasus
|S| = Atribut
2.5 Support Vector Machinei (SVM)
Algoritma ini termasuk kedalam salah satu model terbaik dalam melakukan klasifikasi pada hasil pengobatan.
SVM dapat mengatasi masalah klasifikasi multiclass, klasifikasi multi class dapat diatasi dengan pendekatan lainnya. Diantaranya, dalam scikit-learn, kelas SVC secara otomatis mendukung klasifikasi multiclass dengan pendekatan One-vs-All. Pada penelitian klasifikasi hasil pengobatan penyakit tuberculosis menggunakan pendekatan ini dengan rumus:
fi(x) = sign ( wi . x + bi ) (4)
Dimana f_i (x) adalah fungsi keputusan untuk model Support Vector Machine (SVM) yang dikaitkan dengan kelas ke-i, w_i adalah vector bobot, x adalah vector fitur input, dan b(i)merupakan bias dari hasil pengobatan.
2.6 K-Fold Cross Validation K-Fold Cross Validation Akurasi = 1
k∑ki=1Akurasii (5)
K = Akurasi K = Jumlah Lipatan
Gambar 2. Ilustrasi K-Fold Cross Validation
Akurasi merupakan ukuran sejauh mana model berhasil dalam melakukan klasifikasi data k merujuk pada jumlah lipatan atau fold yang digunakan dalam validasi silang, dapat dilihat Gambar 2. Pada peneilitian ini menggunakan nilai K-Fold 3, 5, 7 untuk mendapatkan hasil akurasi yang baik pada hasil pengobatan.
2.7 Evaluasi Model
Untuk mengukur akurasi model dilakukan evaluasi menggunakan confusion matrix. Confusion Matrix adalah suatu tabel yang digunakan dalam analisis statistik untuk menilai performa model klasifikasi. Matrix ini membandingkan hasil prediksi model dengan data sebenarnya yang diamati. Dalam Confusion Matrix, terdapat
empat bagian pada Gambar 3. Dan Confusion Matrix digunakan untuk mengevaluasi akurasi, presisi, recall, dan f1-score dari model klasifikasi, serta untuk mengidentifikasi letak kesalahan klasifikasi data yang mungkin dilakukan oleh model tersebut. Confusion matrix terdiri dari empat entri utama:
Gambar 3. Confusion Matrix
1. TrueiPositive (TP): Jumlah contoh positif yang benar-benar diprediksi dengan benar oleh model.
2. True Negative (TN): Jumlah contoh negative yang benar-benart diprediksi dengan benar oleh model.
3. FalseiPositive (FP): Jumlah contoh negatif yang keliru diprediksi sebagai positif oleh model.
4. False Negativei(FN): Jumlah contoh positif yang keliru diprediksi sebagai negatif oleh model.
Accuracy = (TP+TN)
(TP+FP+FN+TN) (6)
Preicision = TP
TP+FP (7)
Reicall = TP
TP+FN (8)
F − Measurei= 2 x Preicision x Reicall
Preicision+Reicall (9)
3. HASIL DAN PEMBAHASAN
3.1 Analisa Data
Pada teknik pengumpulan data dengan melakukan wawancara dan mendapatkan data dari Dinas Kesehatan Kota Semarang untuk melakukan observasi dan melakukan eksperimen pada data. Data yang dipakai yaitu data privat yang langsung diolah dan diperoleh melalui DKK Kota Semarang, data tersebut adalah data penyakit yang bernama Sistem Informasi Tuberculosis atau SITB. Pada penelitian ini, dapat di deskripsikan data yang tersedia 6755 data bersih dan siap diolah kemudian dibagi menjadi data latih dan data uji perbandingannya yaitu 80%:20%, di mana data tersebut terdiri dari 17 atribut featured yaitu jenis kelamin, usia, kelurahan, kecamatan, status pekerjaan, jenis fasyankes, tipe diagnosis, tipe TBC, Riwayat TBC, Riwayat dm, Riwayat HIV, paduan oat, sumber obat. Adapun satu atribut lain yaitu hasil pengobatan yang menjadi atribut target dalam penelitian ini. Berikut ini, dari Tabel 2 beberapa atribut data yang digunakan dalam penelitian ini.
Tabeli2. Atribut Data
Tabeli3. Data Testing
No. Atribut Reprentasi Keterangan Data
Testing 1. Hasil
Pengobatan
treatment results
Pengobatan lengkap, Sembuh, Putus Berobat,
Meininggal, Gagal Target (Y)
No. Atribut Reprentasi Keterangan Data Training
1. jenis kelamin gender Laki-laki, Perempuan Featureid (X)
2. usia age 5, 15, 20, 45,…, tahun Featureid (X)
4. Kelurahan ward Gayamsari, candi,…,eitc Featureid (X)
3. Kecamatan subdistrict Tembalang, pedurungan,…,eitc Featureid (X) 4. status pekerjaan job status Pegawai swasta, Mahasiswa/i Featureid (X) 5. jenis fasyankes type of health facility Rumah Sakit, Puskesmas, bp4/bbkpm/bkpm Featureid (X) 6. tipe diagnosis type of diagnosis Terkonfirmasi bakteriologis, Terdiagnosis klinis Featureid (X)
7. tipe TBC TBC type Tbc paru, tbc ekstraparu Featureid (X)
8. riwayat TB history of TB Baru, kambuh,…, tidak dikeitahui Featureid (X) 9. riwayat dm dm history Ya, tidak,…, tidak diketahui Featureid (X) 10. riwayat HIV HIV history Negatif hiv, tidak diketahui Featureid (X)
11. paduan oat oat blend Kategori anak, 1, 2 Featureid (X)
12. sumber obat drug source Program tbc Featureid (X)
3.2 Pengujian Modeil
Penelitian klasifikasi penyakit tuberculosis pada hasil pengobatan yang telah diuji tingkat akurasinya dengan memasukkan target (Y) yakni berasal dari data uji. Data yang di dapat untuk penelitian ini sebanyak 6755 data dengan melakukan pengujian single model dari K-Nearest Neighbor (K-NN), Decision Tree, Support Vector Machine (SVM) untuk mengetahui hasil akurasi dan dapat dibandingkan dengan metode lainnya. Pada nilai akurasi model K-NN menghasilkan 74.61%, metode Decision Treiei meinghasilkan akurasi seibeisar 75.72%, dan metode Support Vector Machine (SVM) menghasilkan akurasi sebesar 76.76% Selanjutnya, hasil confusion matrix dari ketiga metode seperti hasil Tabel 4. Dibawah ini.
Tabeli4. Komparasi Nilai Accuracy, Preicision, Recall dan F1-Scorei Modeil Confusion Matrix Precission Recall F1-Score Accuracy
K-NN 66.36% 74.61% 68.56% 74.61%
Deicision Treei 69.49% 75.72% 71.55% 75.72%
SVM 68.42% 76.76% 71.16% 76.76%
3.2.1 Confusion Matrix
Berdasarkan Tabel 5 dibawah ini, dapat diklasifikasikan sesuai dengan prediksi yang dilakukan dengan metode K- Nearest Neighbor (K-NN) pada hasil pengobatan, TP untuk suatu kelas adalah jumlah prediksi yang benar untuk kelas tersebut (nilai diagonal matriks). FP untuk suatu kelas adalah jumlah semua nilai di kolom (kecuali TP). FN untuk suatu kelas jumlah semua nilai dibaris kelas (kecuali TP). TN untuk suatu kelas adalah jumlah semua nilai yang tidak termasuk dibaris dan kolom. Dapat dilihat hasil confusion matrix pada Gambar 4.
Tabel 5. Tabel Confusion Matrix Pada K-NN
‘pengobatan lengkap’ ‘sembuh’ ‘putus berobat’ ‘gagal’ ‘meninggal’
TP = 826
Jumlah prediksi benar sebagai ‘pengobatan lengkap’
TP = 180 Jumlah prediksi benar sebagai
‘sembuh’
TP = 107 Jumlah prediksi benar sebagai
‘putus berobat’
TP = 0 Tidak ada prediksi benar sebagai ‘gagal’
TP = 76 Jumlah prediksi benar sebagai
‘meninggal’
TN = 379
Semua prediksi benar
TN = 1013 Semua prediksi benar
TN = 1230 Semua prediksi benar
TN = 1275 Semua prediksi benar
TN =1253 Semua prediksi benar
FP = 84
1‘meninggal’, 1 ‘putus berobat’ dan 82
‘sembuh’
FP = 76 3 ‘gagal’ 5
‘meninggal’ 59
‘pengobatan lengkap dan 9
‘putus berobat’
FP = 1
1 dari ‘pengobatan lengkap’
FP = 0 Tidak ada prediksi salah
FP = 2 1 ‘pengobatan lengkap’ dan 1
‘putus berobat FN = 60
1 ‘pengobatan lengkap’
salah prediksi
‘meninggal’ 59 salah diprediksi sebagai
‘sembuh’
FN = 82 Dari kelas
‘sembuh’ yang salah diprediksi sebagai
‘pengobatan lengkap’
FN = 1 1 dari ‘putus berobat’ yang salah diprediksi sebagai
‘pengobatan lengkap’
FN = 3 Dari kelas
‘sembuh’ 3 yang seharusnya
‘gagal’
FN = 2 2 dari kelas
‘meninggal diprediksi sebagai
‘pengobatan lengkap
Gambar 4. Confusion Matrix Pada K-NN
Hasil confusion matrix dari metode Decision Tree atau Pohon Keputusan dapat diketahui berdasarkan Tabel 6. dan Gambar 5.
Tabel 6. Tabel Confusion Matrix Pada Decision Tree
‘pengobatan lengkap’
‘sembuh’ ‘putus berobat’ ‘gagal’ ‘meninggal’
TP = 809 Jumlah prediksi benar sebagai
‘pengobatan lengkap’
TP = 183 Jumlah prediksi benar sebagai
‘sembuh’
TP = 98 Jumlah prediksi benar sebagai
‘putus berobat’
TP = 0 Tidak ada prediksi benar sebagai ‘gagal’
TP = 61
Jumlah prediksi benar sebagai ‘meninggal
TN = 449 Semua prediksi benar
TN = 1019 Semua prediksi benar
TN = 1210 Semua prediksi benar
TN = 1275 Semua prediksi benar
TN = 1250
Semua prediksi benar
FP = 17
10 ‘meninggal’ 4
‘putus berobat’ dan 3 dari ‘sembuh’
FP = 70 3 ‘gagal’ 8
‘meninggal’ 50 ‘p.
lengkap’ 9 ‘putus berobat’
FP = 17 14 ‘pengobatan lengkap’ dan 3 dari ‘sembuh’
FP = 0 Tidak ada prediksi salah
FP = 21
14 ‘pengobatan lengkap’
4 ‘putus berobat’ 3
‘sembuh’
FN = 77 14 ‘pengobatan lengkap, 13 ‘putus berobat’ 50
‘sembuh’
FN = 76 74 dari kelas
‘sembuh’ 2 salah prediksi ‘putus berobat’
FN = 10
4 ‘putus berobat’
6 salah prediksi
‘sembuh’
FN = 3 3 dari kelas
‘sembuh’ yang seharusnya
‘gagal’
FN = 10
10 ‘meninggal’ salah diprediksi
sebagai‘pengobatan lengkap’
Gambar 5. Confusion Matrix Pada Decision Tree
Hasil confusion matrix dari metode Support Vector Machine dapat diketahui berdasarkan Tabel 7. dan Gambar 6.
Tabeli7. Tabel Confusion Matrix Pada SVM
‘pengobatan lengkap’
‘sembuh’ ‘putus berobat’ ‘gagal’ ‘meninggal’
TP = 825 Jumlah prediksi benar sebagai
‘pengobatan lengkap’
TP = 206 Jumlah prediksi benar sebagai
‘sembuh’
TP = 102 Jumlah prediksi benar sebagai
‘putus berobat’
TP = 0 Tidak ada prediksi benar sebagai ‘gagal’
TP = 72
Jumlah prediksi benar sebagai ‘meninggal’
TN = 418 Semua prediksi benar
TN = 1011 Semua prediksi benar
TN = 1228 Semua prediksi benar
TN = 1275 Semua prediksi benar
TN = 1262
Semua prediksi benar
FP = 62 3 ‘meninggal’ 3
‘putus berobat’ dan 56 ‘dari kelas
‘sembuh’
FP = 73
3 ‘meninggal’ 58
‘pengobatan lengkap’ dan 12
‘putus berobat’
FP = 3
3 dari ‘pengobatan lengkap’
FP = 0 Tidak ada prediksi salah
FP = 6
Untuk ‘meninggal’ 3 dari ‘pengobatan lengkap’ 3 dari ‘putus berobat’
‘pengobatan lengkap’
‘sembuh’ ‘putus berobat’ ‘gagal’ ‘meninggal’
FN = 64 6 yang salah diprediksi sebagai
‘meninggal’ 58
‘sembuh’
FN = 56 56 yang salah diprediksi sebagai
‘pengobatan lengkap’
FN = 15
3 salah diprediksi
‘pengobatan lengkap’ 12
‘sembuh’
FN = 3 Dari kelas
‘sembuh’ 3 yang seharusnya
‘gagal’
FN = 11 6 dari kelas
‘meninggal’ 5 prediksi salah sebagai
‘sembuh’
Gambar 6. Confusion Matrix Pada SVM
Dari ketiga hasil confusion matrix, selanjutnya dapat dilihat dari hasil perhitungan nilai akurasi, precision, recall dan f1-score. Perbandingan nilai-nilai ini telah dihitung untuk metode single K-NN, Decision Tree, dan SVM dapat dilihat pada Tabel 3. Hasil komparasi nilai diatas menggunakan klasifikasi K-Nearest Neighbor, Decision Tree dan Support Vector Machine memiliki hasil yang baik pada proses pengujian klasifikasi untuk menghasilkan nilai akurasi dan confusion matrix, dapat diketahui hasil akurasi terbaik dari tiga metode, yakni pada metode Support Vector Machine (SVM) dengan mendapatkan nilai akurasi sebesar 76.76%.
Selanjutnya menentukan hasil terbaik dengan menggunakan tiga model yakni hasil dari model ensemble dengan cross validation menggunakan k sama dengan 3, 5, dan 7 untuk mendapatkan hasil akurasi terbaik digabungkan dengan model ensemble. Berikut hasil dari klasifikasi model ensemble.
3.2 Klasifikasi Model Ensemble
Konsep utama dari metodologi ensemble adalah menggabungkan sejumlah model klasifikasi, masing-masing menyelesaikan tugas klasifikasi yang sama, dan dari hasil klasifikasi masing-masing model tersebut diambil hasil kelas mayoritasnya untuk mendapatkan model yang lebih akurat dibandingkan dengan menggunakan satu model[20]. Metode Ensemble bertujuan untuk memanfaatkan keunggulan dari berbagai model serta mengurangi kelemahan individu single model dan menghasilkan prediksi yang lebih dapat diandalkan dan akurat. Peneilitian sebelumnya oleh Mahajan dkk untuk klasifikasi pengobatan penyakit TB menggunakan metode ensemble menghasilkan akurasi model terbaik[21]. Berikut ini, meirupakan klasifikasi modeil einseimblei pada Gambar 7.
Dibawah ini:
Gambar 7. Model Ensemble
Hasil klasifikasi diatas diperoleh bahwa model yang terbaik adalah menggunakan model ensemble. Untuk mendapatkan hasil pengobatan yang baik karena data pasien pada hasil pengobatan ini tidak efektif untuk mendapatkan hasil akurasi yang baik. Selanjutnya, pada peneilitian ini dapat mengembangkan klasifikasi hasil pengobatan dengan melanjutkan percobaan menggunakan K-Fold Cross Validation dengan menggunakan percobaan k yakni 3, 5, 7. Dari hasil percobaan menggunakan model ensemble ini mendapatkan hasil yang lebih
baik dibandingkan dengan hasil single model. Berikut ini, dari Tabel 8. Dapat dilihat hasil menggunakan model ensemble dengan k-fold cross validation menghasilkan akurasi tertinggi pada k = 7.
Tabel 8. Hasil Klasifikasi Model Ensemble dengan cross validation Model K-Fold Cross
Validation Precission Recall F1-Score Accuracy
Hybrid modeil 3 71.49% 77.21% 71.48% 77.21%
5 83.08% 78.07% 71.21% 78.07%
7 77.44% 78.55% 73.08% 78.55%
4. KESIMPULAN
Berdasarkan penelitian yang dilakukan diatas diperoleh suatu kesimpulan pada ensemble untuk mengklasifikasikan hasil pengobatan penyakit tuberculosis dengan penggunaan metode Hybrid model melibatkan kombinasi masing-masing model diantaranya K-NN, Decision Tree, dan SVM mendapat nilai akurasi yang baik dibandingkan dengan single model pada masing-masing metode. Nilai akurasi terbaik menggunakan K-Fold Cross Validation dengan hasil precission sebesar 77.44%, hasil recall sebesar 78.55%, hasil f1 score sebesar 73.08% dan nilai akurasi sebesar 78.55%. Dalam penelitian ini dapat diketahui bahwa tingkat akurasi pada metode Ensemble lebih unggul untuk menghasilkan hasil pengobatan pada penyakit tuberculosis. Dengan demikian, hasil klasifikasi menggunakan model Ensemble pada penelitian ini terbukti menjadi solusi terbaik dibandingkan masing-masing algoritma single model tersebut.
UCAPAN TERIMAKASIH
Kami ucapkan terima kasih atas perhatian dan dukungan yang diberikan. Terutama kepada pihak Dinas Kesehatan Kota Semarang (DKK) yang telah membantu tersusunnya jurnal kami dan dukungan yang sangat berarti bagi kelancaran penelitian ini serta kepercayaan dan kontribusi yang telah di berikan.
REFERENCES
[1] Lina Yunita, Rasi Rahagia, Fauziah H. Tambuala, A. Suyatni Musrah, Andi Asliana Sainal, and Suprapto, “Efektif Pengetahuan dan Sikap Masyarakat Dalam Upaya Pencegahan Tuberkulosis: Effective Knowledge and Community Attitudes in Tuberculosis Prevention Efforts,” J. Health JoH, vol. 10, no. 2, pp. 186–193, Jul. 2023, doi:
10.30590/joh.v10n2.619.
[2] K. Tilwani, A. Patel, M. Patel, P. Sojitra, and G. Dave, “Asiaticoside A for the modulation of 1-TbAd- a potential target and ligand for extensive drug resistance Mycobacterium tuberculosis,” AMB Express, vol. 13, no. 1, p. 111, Oct. 2023, doi: 10.1186/s13568-023-01616-w.
[3] K. Mar’iyah and Z. Zulkarnain, “Patofisiologi penyakit infeksi tuberkulosis,” Pros. Semin. Nas. Biol., vol. 7, no. 1, Art.
no. 1, Nov. 2021, doi: 10.24252/psb.v7i1.23169.
[4] V. C. Osamor and A. F. Okezie, “Enhancing the weighted voting ensemble algorithm for tuberculosis predictive diagnosis,” Sci. Rep., vol. 11, no. 1, p. 14806, Jul. 2021, doi: 10.1038/s41598-021-94347-6.
[5] O. Hrizi et al., “Tuberculosis Disease Diagnosis Based on an Optimized Machine Learning Model,” J. Healthc. Eng., vol.
2022, pp. 1–13, Mar. 2022, doi: 10.1155/2022/8950243.
[6] C. Prasitpuriprecha et al., “Drug-Resistant Tuberculosis Treatment Recommendation, and Multi-Class Tuberculosis Detection and Classification Using Ensemble Deep Learning-Based System,” Pharmaceuticals, vol. 16, no. 1, p. 13, Dec.
2022, doi: 10.3390/ph16010013.
[7] W. Xing and Y. Bei, “Medical Health Big Data Classification Based on KNN Classification Algorithm,” IEEE Access, vol. 8, pp. 28808–28819, 2020, doi: 10.1109/ACCESS.2019.2955754.
[8] L. M. Ferreira, T. Sáfadi, and J. L. Ferreira, “K-mer applied in Mycobacterium tuberculosis genome cluster analysis,”
Braz. J. Biol., vol. 84, p. e258258, 2024, doi: 10.1590/1519-6984.258258.
[9] M. A. Elashmawy, I. Elamvazuthi, L. I. Izhar, S. Paramasivam, and S. Su, “Detection of Tuberculosis Based on Hybridized Pre-Processing Deep Learning Method,” Int. J. Adv. Comput. Sci. Appl., vol. 14, no. 8, 2023, doi:
10.14569/IJACSA.2023.0140808.
[10] R. Kadry and O. Ismael, “A New Hybrid KNN Classification Approach based on Particle Swarm Optimization,” Int. J.
Adv. Comput. Sci. Appl., vol. 11, no. 11, 2020, doi: 10.14569/IJACSA.2020.0111137.
[11] R. Ruswanto, M. Mardhiah, R. Mardianingrum, and K. Novitriani, “SINTESIS DAN STUDI IN SILICO SENYAWA 3-
NITRO-N’-[(PYRIDIN-4-YL) CARBONYL]BENZOHYDRAZIDE SEBAGAI KANDIDAT
ANTITUBERKULOSIS,” Chim. Nat. Acta, vol. 3, no. 2, Aug. 2015, doi: 10.24198/cna.v3.n2.9183.
[12] A. H. Husen, A. S. Nur Afiah, S. Soesanti, and F. Tempola, “Deteksi Dini Resiko Tuberkulosis di Kota Ternate:
Pelacakan dan Implementasi Algoritma Klasifikasi,” J. CoSciTech Comput. Sci. Inf. Technol., vol. 3, no. 2, pp. 217–
225, Aug. 2022, doi: 10.37859/coscitech.v3i2.3986.
[13] V. M. Santi, L. Nafisah, and Q. Meidianingsih, “Penerapan Metode SMOTE CHAID dalam Klasifikasi Tuberkulosis Relapse,” J. Stat. Dan Apl., vol. 6, no. 1, pp. 26–36, Jun. 2022, doi: 10.21009/JSA.06103.
[14] Yanti Apriyani, I. D. I. Iskandar, Mira Kusmira, Melisa Winda Pertiwi, Imam Amirulloh, and Taufik Wibisono,
“Implementasi Sistem Pakar dengan Algortima Naïve Bayes dengan Laplace Correction untuk Diagnosis Tuberkulosis Paru,” Inf. J. Inform. Dan Sist. Inf., vol. 13, no. 1, pp. 24–46, May 2021, doi: 10.37424/informasi.v13i1.72.
[15] Y.-D. Zhang, W. Wang, X. Zhang, and S.-H. Wang, “Secondary Pulmonary Tuberculosis Recognition by 4-Direction Varying-Distance GLCM and Fuzzy SVM,” Mob. Netw. Appl., Feb. 2022, doi: 10.1007/s11036-021-01901-7.
[16] A. Kumar, A. Verma, G. Shinde, Y. Sukhdeve, and N. Lal, “Crime Prediction Using K-Nearest Neighboring Algorithm,”
in 2020 International Conference on Emerging Trends in Information Technology and Engineering (ic-ETITE), Vellore, India: IEEE, Feb. 2020, pp. 1–4. doi: 10.1109/ic-ETITE47903.2020.155.
[17] M. Park et al., “Distinguishing nontuberculous mycobacterial lung disease and Mycobacterium tuberculosis lung disease on X-ray images using deep transfer learning,” BMC Infect. Dis., vol. 23, no. 1, p. 32, Jan. 2023, doi: 10.1186/s12879- 023-07996-5.
[18] S. C. Gupta and N. Goel, “Enhancement of Performance of K-Nearest Neighbors Classifiers for the Prediction of Diabetes Using Feature Selection Method,” in 2020 IEEE 5th International Conference on Computing Communication and Automation (ICCCA), Greater Noida, India: IEEE, Oct. 2020, pp. 681–686. doi: 10.1109/ICCCA49541.2020.9250887.
[19] B. Charbuty and A. Abdulazeez, “Classification Based on Decision Tree Algorithm for Machine Learning,” J. Appl. Sci.
Technol. Trends, vol. 2, no. 01, pp. 20–28, Mar. 2021, doi: 10.38094/jastt20165.
[20] S. Rajaraman, F. Yang, G. Zamzmi, Z. Xue, and S. K. Antani, “A Systematic Evaluation of Ensemble Learning Methods for Fine-Grained Semantic Segmentation of Tuberculosis-Consistent Lesions in Chest Radiographs,” Bioengineering, vol. 9, no. 9, p. 413, Aug. 2022, doi: 10.3390/bioengineering9090413.
[21] A. Mahajan et al., “A Novel Stacking-Based Deterministic Ensemble Model for Infectious Disease Prediction,”
Mathematics, vol. 10, no. 10, p. 1714, May 2022, doi: 10.3390/math10101714.