• Tidak ada hasil yang ditemukan

IMPLEMENTASI ALGORITMA DECISION TREE C.45 PADA KLASIFIKASI PENYAKIT TUBERKULOSIS

N/A
N/A
Protected

Academic year: 2022

Membagikan "IMPLEMENTASI ALGORITMA DECISION TREE C.45 PADA KLASIFIKASI PENYAKIT TUBERKULOSIS"

Copied!
8
0
0

Teks penuh

(1)

230

IMPLEMENTASI ALGORITMA DECISION TREE C.45 PADA KLASIFIKASI PENYAKIT TUBERKULOSIS

Siti Annisa Rahmadhani

Universitas Harapan Medan, Jl. HM. Joni No.70 C, [email protected] Munjiat Setiani Asih

Universitas Harapan Medan, Jl. HM. Joni No. 70 C, [email protected] Nur Wulan

Universitas Harapan Medan, Jl. HM. Joni No. 70 C, [email protected] Abstract

Tuberculosis is an airway disease caused by mycobacterium, which multiply in parts of the body where there is a lot of blood and oxygen flow. Early identification is the most important thing in the treatment and treatment process for tuberculosis. This algorithm implements C4.5, which is a classification technique in machine learning that is used in the data mining process by forming a decision tree which is represented in the form of a rule. The results of this study are in the form of a system which is expected to help medical personnel to obtain fast and accurate information in diagnosing tuberculosis.

Keywords:

Tuberculosis, Decision Tree, C4.5 Algorithm

Abstrak

Tuberkulosis adalah penyakit saluran nafas yang disebabkan oleh mycobacterium, yang berkembang biak di dalam bagian tubuh dimana terdapat banyak aliran darah dan oksigen. Identifikasi dini merupakan hal terpenting dalam proses pengobatan dan perawatan penyakit tuberkulosis. Algoritma ini mengimplementasikan C4.5 yang merupakan salah satu teknik klasifikasi pada machine learning yang digunakan pada proses data mining dengan membentuk sebuah pohon keputusan (decision tree) yang direpresentasikan dalam bentuk aturan (rule). Hasil dari penelitian ini berupa sebuah sistem yang diharapkan dapat membantu tenaga medis untuk mendapatkan informasi yang cepat dan tepat dalam mendiagnosa penyakit tuberkulosis.

Kata kunci :

Tuberkulosis, Decision Tree, Algoritma C4.5.

1. PENDAHULUAN

Tuberkulosis adalah penyakit saluran nafas yang disebabkan oleh mycobacterium, [1] yang berkembangbiak di dalam bagian tubuh dimana terdapat banyak aliran darah dan oksigen. Infeksi bakteri ini biasanya menyebar melewati pem- buluh darah dan kelenjar getah bening, tetapi secara utama menyerang paru-paru. Serta dapat digolongkan berdasarkan letak lokasi infeksi yaitu Tuberkulosis Paru dan Tuberkulosis Ekstra Paru.

Identifikasi dan pencegahan dini penyakit Tuberkulosis merupakan hal yang terpenting dalam mengurangi dan menghindari terjadinya penyakit ini.[2] Proses diagnosis penyakit tuberkulosis dilakukan oleh pihak medis dengan berdasarkan pemeriksaan dan mengumpulkan data yang berupa gejala-gejala yang mengindikasi pasien yang menderita penyakit tuberkulosis. Namun terkadang salah satu masalah di dalam dunia medis adalah adanya ketidak seimbangan antara pasien dan dokter. Selain itu sebagian besar masyarakat kurangnya pengetahuan, sehingga yang sebenarnya dapat ditangani lebih awal menjadi penyakit yang lebih serius akibat kurangnya pengetahuan.

Pohon keputusan (Decision Tree) adalah, sebuah struktur data yang terdiri dari simpul (node) dan rusuk (edge).

Simpul pada sebuah pohon dibedakan menjadi tiga, yaitu simpul akar (root node), simpul percabangan/internal (branch/internal node) dan simpul daun (leaf node). Metode decision tree dengan algoritma C4.5 dapat digunakan untuk mengumpulkan berbagai informasi dari data yang ada. [3]

Tuberkulosis sendiri dapat menyerang bagian tubuh manapun, tetapi yang tersering dan paling umum adalah infeksi tuberkulosis pada paru-paru. Penyebaran penyakit ini dapat terjadi melalui orang yang telah mengidap TBC.

Kemudian, batuk atau bersin menyemburkan air liur yang telah terkontaminasi dan terhirup oleh orang sehat yang kekebalan tubuhnya lemah terhadap penyakit tuberku-losis. Walaupun biasanya menyerang paru-paru, penyakit ini dapat memberi dampak juga pada tubuh lainnya, seperti sistem saraf pusat, jantung, kelenjar getah bening, dan lainnya.

(2)

232

Tabel 1. Jenis-jenis Penyakit Tuberkulosis[4]

No Penyakit Gejala

1 TB Pulmonary (Tuberculosis Paru)

a. Batuk >2 minggu

b. Keringat dingin dimalam hari c. Berat badan turun

d. Nafsu makan menurun e. Napas sesak

2 TB Lymphadenopathy (Tuberkulosis Kelenjar)

a. Keringat dingin dimalam hari b. Berat badan turun

c. Napas sesak

d. Muncul Benjolan dikelenjar getah bening (leher, ketiak atau lipatan paha) >2 cm

e. Benjolan bernanah dan membesa

Data mining adalah proses menemukan pengetahuan yang menarik, seperti asosiasi, pola, perubahan, struktur yang signifikan dan anomali, dari sejumlah besar data yang disimpan dalam database atau gudang data atau repositori informasi lainnya [5]. Algoritma C45 merupakan metode yang menjadi pilihan pertama dan sering digunakan dalam pengembangan Data Mining karena kecepatan dalam pengklasi kasian pohon keputusan disamping dapat mengkonstruksi pengklasi kasian dengan aturan-aturan yang lain. Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebe-narannya. Sedangkan samples merupakan eld- eld data yang nantinya akan digunakan sebagai parameter dalam melakukan klasi kasi data [6]. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

1. Pilih atribut sebagai akar, 2. Buat cabang untuk tiap-tiap nilai, 3. Bagi kasus dalam cabang,

4. Ulangi proses sampai semua kasus pada cabang memiliki kelas yang sama.

Entropy (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau - ) dari sejumlah data acak pada ruang sampel S. Entropy dapat dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Entropy digunakan untuk mengukur ketidakaslian S

Untuk perhitungan nilai Entropy:

Entropy(S) = ∑ −pi ∗ log₂pi

𝑛

𝑖=1

Keterangan:

S = himpunan kasus n = jumlah partisi S

pi = proposi Si terhadap S. [7]

Gain (S,A) merupakan perolehan informasi dari atribut A relative terhadap output data S. Perolehan informasi didapat dari output data atau variable dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan gain (S,A). Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada.

Untuk menghitung gain digunakan rumus :

Gain (S, A) = Entropy (S) − ∑|Sᵢ|

|S|∗ Entropy(Sᵢ)

𝑛

𝑖=1

Keterangan:

S = himpunan kasus A atribut

|Si| = jumlah kasus pada partis ke-i

|S| = jumlah kasus dalam S. [8]

Konsep Pohon Keputusan (Decision Tree) Pohon keputusan ini adalah struktur representasi pengetahuan yang terdiri dari simpul dan cabang yang diorganisasikan dalam bentuk pohon semacam itu bahwa setiap simpul non-daun internal diberi label dengan nilai atributnya. Cabang-cabangnya keluar dari internal node diberi label dengan nilai atribut pada node tersebut. Setiap simpul diberi label dengan kelas (nilai tujuan atribut). Maka dihasilkan pohon keputusan yang dapat diubah menjadi rules menggunakan kaidah IF-THEN-ELSE. [9]

Algoritma C4.5 merupakan salah satu algoritma yang biasa digunakan untuk melakukan klasi kasi data atau segmentasi data atau pengelompokan data dan bersifat prediktif sedangkan pohon keputusan (decision tree) merupakan metode klasi kasi yang mengubah fakta besar menjadi pohon keputusan yang merepresentasikan aturan.

(3)

233

Klasifikasi merupakan salah satu proses yang bertujuan untuk menemukan pola dari data yang berukuran relatif besar hingga sangat besar. [10]

Dengan memanfaatkan metode decision tree C4.5 maka penulis membuat aplikasi untuk klasi kasi penyakit tuberkulosis paru dengan berbagai gejala-gejala, dengan adanya media ini diharapkan para tenaga medis dapat mempermudah pemeriksaan atau mengi-denti kasi tuberkulosis. Aplikasi ini juga dibuat secara statis yang bertujuan untuk dapat dikembangkan kembali.

Proses admin masuk ke dalam halaman C4.5 (mining dan pohon keputusan) akan dilakukan proses perhitungan metode dan meghasilkan klasi kasi yang diinginkan peng-guna sistem. Alur prosesnya sebagai berikut:

Gambar 1. Flowchart Algoritma

Pada tahapan ini dilakukan analisis perhitungan terhadap kasus permasalahan, dalam penelitian ini menggunakan Algoritma C4.5, ini mempunyai input berupa data train-ing dan data testing. Data training berupa data contoh yang akan digunakan untuk membangun sebuah pohon yang telah diuji kebenarannya, contoh data training yang penulis gunakan berada di lampiran.

Sedangkan data testing merupakan data yang digunakan sebagai evaluasi terhadap performa algoritma dalam aplikasi ini. Subtipe data merupakan eld- eld data yang nanti akan kita gunakan sebagai parameter dalam melakukan klasi kasi data. Akan di-jelaskan secara rinci detail Algoritma C4.5 menjadi analisa perhitungan, rule-rule yang dihasilkan dan gambaran pohon keputusan (decision tree). Berikut perhitungannya:

Tabel 2. Data yang tertera pada RSU Tanjung Pura

Jumlah Kasus 118

Jumlah Laki-laki 82 Jumlah Perempuan 36 Jumlah Tb Paru 80 Jumlah Tb Kelenjar 38

Menghitung Entropy Data. Berikut adalah proses perhitungan entropy dengan decision tree C4.5, sebagai berikut:

Entropy(S) = ∑ −pi ∗ log₂pi

𝑛

𝑖=1

(4)

234

Diketahui : Jumlah data : 118 Tb Paru : 80 Tb Kelenjar : 38

Menghitung Entropy Total Data Entropy [Total] = (−38

118∗ log2( 38

118)) + (−80

118∗ log2(80

118)) = 0.904

Menghitung Gain Data. Berikut adalah proses perhitungan gain dengan decision tree C4.5, sebagai berikut : Gain (S, A) = Entropy (S) − ∑ |Sᵢ|

|S|∗ Entropy(Sᵢ)

𝑛

𝑖=1

Gain Batuk 2-3 Minggu = 0.904 − {(−109

118∗ 0.884) + ( 9

118∗ 0.991)} = −0.762

Penerapan Penghitungan Metode Decision Tree C4.5 Pada tabel dibawah ini implementasi perhitungan kasus algoritma C45 untuk menentukan klasifikasi tuberkulosis. Variabel/atribut awal ini dalam implementasi algoritma C45, dan atribut tujuannya adalah subtipe tuberkulosis yaitu, tuberkulosis paru, dan tuberkulosis kelenjar.

Dengan menggunakan metode klasi kasi data mining Algoritma C4.5 dan decision tree terhadap data pasien dengan gejala-gejala yang dialaminya. Data akan diolah dengan menggunakan algoritma C4.5 dan menghasilkan model, maka terhadap model yang dihasilkan tersebut dilakukan pengujian menggunakankan metode tersebut.

Tabel 3. Proses Klasifikasi Data Untuk Menentukan Node akar

Jumlah

Kasus Tb Paru

Tb

Kelenjar Entropy Gain

Total 118 80 38 0.906

Batuk 2-3 Ya 109 77 32 0.8733

-0.762

Minggu Tidak 9 3 6 0.9183

Keringat Ya 68 44 24 0.9367

-0,8107

Malam Tidak 50 36 14 0.8555

Berat Badan Ya 84 65 19 0.7713

0.4045

turun Tidak 34 15 19 0.99

Nafsu makan Ya 66 52 14 0.7455

-0.7221

berkurang Tidak 52 28 24 0.9957

Napas Ya 76 54 22 0.868

-0.8068

Sesak Tidak 42 26 16 0.9587

Muncul Ya 38 2 36 0.2975

0.5066

benjolan Tidak 80 78 2 0.1687

Tabel 4. Proses Klasifikasi Data Untuk Menentukan Muncul Benjolan Jumlah

Kasus Tb Paru

Tb

Kelenjar Entropy Gain Muncul

benjolan 80 78 2 0.5066

Batuk 2-3 Ya 70 69 1 0.108

-0.0289

Minggu Tidak 10 9 1 0.469

Keringat Ya 55 54 1 0.1311

-0.1501

Malam Tidak 25 24 1 0.2423

Berat Badan Ya 44 43 1 0.1831

-0.0487

turun Tidak 36 35 1 0.1565

Nafsu makan Ya 43 42 1 0.1594

-0.489

berkurang Tidak 37 36 1 0.1793

Napas Ya 27 11 16 0.975

-0.047

Sesak Tidak 49 39 10 0.730

(5)

235

Tabel 5. Proses Klasifikasi Data Untuk Menentukan Keringat Malam

Jumlah

Kasus Tb Paru

Tb

Kelenjar Entropy Gain Keringat

25 24 2 0.1501

Malam

Batuk 2-3 Ya 19 18 1 0.2975

0.2481

Minggu Tidak 6 5 1 0.65

Berat Badan Ya 17 16 1 0.3228

0.3838

turun Tidak 8 7 1 0.5436

Nafsu makan Ya 15 13 1 0.5665

0.2404

berkurang Tidak 11 10 1 0.4395

Napas Ya 18 16 2 0.5033

0.2561

Sesak Tidak 7 7 0 0

Tabel 6. Proses Klasifikasi Data Untuk Menentukan Berat Badan Turun

Jumlah

Kasus Tb Paru

Tb

Kelenjar Entropy Gain Berat Badan

8 7 1 0.5436

turun

Batuk 2-3 Ya 6 5 1 0.65

0.4807

Minggu Tidak 2 2 0 0

Nafsu makan Ya 4 4 0 0

0.4854

berkurang Tidak 4 3 1 0.8113

Napas Ya 6 5 1 0.65

0.4807

Sesak Tidak 2 2 0 0

Tabel 7. Proses Klasifikasi Data Untuk Menentukan Nafsu Makan Berkurang

Jumlah

Kasus Tb Paru

Tb

Kelenjar Entropy Gain Nafsu makan

4 3 1 0.4854

berkurang

Batuk 2-3 Ya 4 3 1 0.65

0.4807

Minggu Tidak 0 0 0 0

Napas Ya 2 2 0 0

0

Sesak Tidak 2 1 1 1

Berdasarkan hasil pengujian terhadap semua data, diperoleh hasil bahwa muncul benjolan memiliki nilai gain 0.7984 dengan subtipe tuberkulosis kelenjar, keringat malam memiliki nilai gain 0.1501 dengan subtipe tuberkulosis kelenjar, berat badan turun memiliki nilai gain 0.5436 dengan subtipe tuberkulosis paru , nafsu makan berkurang memiliki nilai gain 0 dengan subtype tubekculosis paru dan nafas sesak memiliki gain terkecil dengan 0. Dengan adanya perhitungan algoritma C4.5 ini, maka subtipe tu-berkulosis bisa diimplementasikan menggunakan algoritma C4.5, karena telah mem-berikan akurasi yang lebih baik dan dapat membangun pohon dengan jumlah cabang tiap simpul sesuai dengan nilai simpul tersebut. Model yang telah dibentuk diuji tingkat akurasinya dengan memasukan data uji yang berasal dari data testing untuk menguji tingkat akurasi.

Pembentukan Decision Tree. Setelah dilakukan hasil perhitungan nilai entropy dan nilai gain, maka akan terbentuk pohon keputusan seperti gambar 2.

(6)

236

Gambar 2. Pohon Keputusan Metode Decisosn Tree C4.5

2. HASIL DAN PEMBAHASAN

Hasil dan pembahasan dari penelitian yang sudah selesai dibuat yaitu sebagai berikut:

2.1. Hasil Tampilan Pembahasan

Aplikasi data mining ini memiliki beberapa tampilan. Adapun tampilan yang dapat digunakan pada aplikasi ini yaitu:

1. Halaman Utama dan Login Halam Utama menampilkan dua menu yaitu home dan login, seperti ditunjukan gambar 3.

Gambar 3. Tampilan Utama Aplikasi

2. Setelah pengguna masuk ke halaman utama pengguna dapat memilih menu login seperti pada gambar 4.

Gambar 4. Halaman Login Aplikasi 3. Halaman Home Administrator

Jika pengguna masuk sebagi administrator maka akan tampil menu utama home administrator yang memiliki beberapa menu yaitu: Home, Data Pasien, Data Gejala, C4.5, Hasil dan Logout.

(7)

237

Gambar 5. Halaman Home Administrator 4. Halaman Menu Klasi kasi Tuberkulosis

Berikut ini adalah tampilan menu klasi kasi, yaitu menu proses diagnosa gejala-gejala pasien. Pengguna memilih apa saja gejala-gejala yang dialami oleh pasien.

Gambar 6. Halaman Klasifikasi 5. Halaman C4.5 Proses Mining

Pada menu C4.5 berisi dua menu tampilan yaitu proses mining dan pohon keputusan. Halaman proses mining inilah yang akan menampilkan hasil proses dari metode decision tree C4.5 klasifikasi tuberculosis.

Gambar 7. Halaman Mining 6. Halaman Proses Pohon Keputusan

Halaman ini adalah lanjutan dari menu C4.5 yaitu menu pohon keputusan. Hasil dari proses mining akan menapilkan hasil keputusan yang di jadikan pohon kepu-tusan.

Gambar 8. Pohon Keputusan

(8)

238 3. KESIMPULAN

1. Dalam klasi kasi tuberkulosis dengan metode decision tree C4.5 dapat memper-mudah proses klasi kasi penyakit tuberkulosis berdasarkan subtipe yang ada, dan meminimalisir kesalahan terhadaap proses diagnosa.

2. Dengan metode algoritma decision tree C4.5 mampu mengklasi kasikan dan menganalisa data penyakit tuberkulosis pada RSU Tanjung Pura dengan hitungan yang akurat.

DAFTAR PUSTAKA

[1] Nall, R. Healthline.2018. Tuberculosis. NHS Choices UK. 2016. Health A-Z. Tu-berculosis (TBC).

[2] NHS Choices UK. 2016. Health A-Z. Tuberculosis (TBC).

[3] Febriyanto, D., & Kurniawan, Y. I. (2018). Prediksi Penyakit Tubercu-Losis (TBC) Menggunakan Algoritma C4. 5. Jurnal Ilmiah SINUS, 16(2).

[4] Setyo, J. S., & Sudradjat, A. (2017). Penerapan Metode C4. 5 Terhadap Penyakit Tuberkulosis Paru. Jurnal Kajian Ilmiah, 17(3)

[5] Cahya, dkk. 2017. Implementasi Data Mining dengan Algoritma C4.5 Menggunakan PHP dan Mysql Untuk Analisis Prediksi Masa Studi Mahasiswa".

[6] Febie Elfaladonna dan Ayu Rahmadani, 2019. Analisa Metode Classi cation-Decission Tree dan Algoritma C4.5 Untuk Memprediksi Penyakit Diabetes dengan Menggunakan Aplikasi Rapid Miner", Teknik Komputer, Politeknik META Industri Cikarang, Indonesia. Teknik Informatika, Universitas Putra Indonesia-YPTK Padang, Indonesia.

[7] DB-Engines. 2018. “System Properties Comparison MySQL vs. Oracle vs. PostgreSQL,”

[8] I. Santosa, H. Rosiyah, and E. Rahmanita, Implementasi Algoritma Decision Tree C4.5 untuk Diagnosa Penyakit Tubercolusis ( TB )," vol. 3, no. 3, pp. 169{176, 2018

[9] Perveen S, Shahbaz M, Guergachi A, Keshavjee K. 2016. Performance Analysis of Data Mining Classification Techniques to Predict Diabetes. Procedia Comput Sci [Internet].

2016;82(March):115–21.

[10] Santosa, I., Rosiyah, H., & Rahmanita, E. (2018). Implementasi algoritma decision tree C4.5

untuk diagnosa penyakit tubercolusis (TB). Jurnal Ilmiah NERO Vol, 3(3).

Gambar

Tabel 1. Jenis-jenis Penyakit Tuberkulosis[4]
Gambar 1. Flowchart Algoritma
Tabel 3. Proses Klasifikasi Data Untuk Menentukan Node akar
Tabel 5. Proses Klasifikasi Data Untuk Menentukan Keringat Malam
+3

Referensi

Dokumen terkait

Struktur kepemilikan manajemen tidak secara signifikan berpengaruh positif terhadap penerapan konservatisme akuntansi sebab banyak manajemen yang memiliki saham yang

Proses pendidikan merupakan proses yang berlangsung seumur hidup, yaitu sejak manusia lahir sampai meninggal dunia dan berlangsung di lingkungan keluarga,

ZIA JULIAN: Peran MOL Bonggol Pisang ( Musa sp ) dan Perlukaan Mekanis dalam Mempercepat Pengupasan Kulit Buah Lada dan Meningkatkan Kualitas Lada Putih (

Pada Tabel 3 dan 4 diperoleh korelasi genotip dan fenotip yang tidak berpengaruh terhadap hasil bobot biji per tanaman yaitu karakter tinggi tanaman, lebar tanaman, jumlah ruas,

Sebagai penerapan hasil penelitian ini penggunaan jeruk Siam sebagai penaung ataupun tanaman diversifikasi pada kopi tidak memiliki risiko sebagai inang lain yang

bahwa berdasarkan pertimbangan sebagaimana dimaksud dalam huruf a, perlu menunjuk Pejabat Pengelola Informasi dan Dokumentasi (PPID) dan Atasan PPID di lingkungan Pemerintah

Pada kotoran manusia yang merupakan campuran tinja dan air seni yang relative kaya akan senyawa nitrat, proses dekomposisi terjadi melalui siklus nitrogen.. relative kaya akan

UIN) Sayarif Hidayatullah Jakarta. Pemikirannya tentang pembaruan hukum Islam dimunculkan untuk menyambut gagasan Munawir. Dasar pemikiran beliau adalah bahwasanya