METODE NAIVE BAYES GAUSSIAN DALAM PEMILIHAN
PENGOBATAN KUTIL (IMMUNOTHERAPY DAN
CRYOTHERAPY)
Halimatus Sa’diah1, Fatma Indriani2, Dodon Turianto Nugrahadi3
1,2,3Prodi Ilmu Komputer FMIPA ULM
Jl. A. Yani Km 36 Banjarbaru, Kalimantan Selatan Email: halimah.ilkom@gmail.com
Abstract
This paper presents Naive Bayes Gaussian method to classify the results of Immunotherapy and Cryotherapy. The Naive Bayes Gaussian method is the Naive Bayes for dealing with numerical data or continuous data which are assumed to be continuous values associated with each class are distributed according to Gaussian distribution. To evaluate the Naive Bayes Gaussian method, 10-Fold Cross Validation is used. Based on the results of this study, Immunotherapy data obtained an accuracy rate of 76,33%, precision of 79,167%, and recall of 95,5%. Whereas the Cryotherapy data obtained an accuracy rate of 87,778%, precision of 92,167%, and recall of 87,5%.
Keywords: Naive Bayes Gaussian, Classification, immunotherapy, cryotherapy Abstrak
Pada penelitian ini metode Naive Bayes Gaussian diterapkan untuk mengklasifikasikan hasil pengobatan Immunotherapy dan Cryotherapy. Metode Naive Bayes Gaussian merupakan metode Naive Bayes untuk menangani masalah data numerik atau data kontinu yang diasumsikan sebagai nilai-nilai berkelanjutan yang terkait dengan masing-masing kelas sehingga didistribusikan menurut distribusi Gaussian. Untuk menentukan hasil kinerja metode Naive Bayes Gaussian digunakan teknik validasi 10-Fold Cross Validation. Berdasarkan hasil penelitian ini, pada data Immunotherapy didapatkan tingkat akurasi sebesar 76,33%, precision sebesar 79,167%, dan recall sebesar 95,5%. Sedangkan pada data Cryotherapy didapatkan tingkat akurasi sebesar 87,778%, precision sebesar 92,167%, dan recall sebesar 87,5%.
Kata kunci: Naive Bayes Gaussian, klasifikasi, immunotherapy, cryotherapy 1. PENDAHULUAN
Data mining adalah perpaduan dari ilmu statistik, kecerdasan buatan, dan penelitian bidang database. Keduanya memerlukan penyaringan melalui sejumlah besar material, atau menyelidiki dengan cerdas untuk mencari keberadaan sesuatu yang bernilai [1]. Klasifikasi pada data mining digunakan untuk menilai data dengan memasukkan data tersebut ke dalam
kelas tertentu dari sejumlah kelas yang tersedia [2].
Naive Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes [3]. Metode Naive Bayes juga memiliki komputasi yang efisien dan tingkat klasifikasi yang bagus, implementasi yang mudah dan memiliki hasil prediksi akurat untuk sebagian
besar masalah klasifikasi dan prediksi. Menurut Anuradha dan Velmurugan [4] menyatakan hasil klasifikasi seperti klasifikasi Naive Bayes dan BayesNet memiliki performa yang sangat baik dibandingkan pengklasifikasian yang lain dengan akurasi keseluruhan tertinggi dengan nilai akurasi lebih tinggi dari 70%. Metode Naive Bayes Gaussian merupakan metode Naive Bayes untuk menangani masalah data numerik atau data kontinu. Menurut Gayathri dan Sumathi [5] mengatakan bahwa ketika menangani data kontinu maka diasumsikan sebagai nilai-nilai berkelanjutan yang terkait dengan masing-masing kelas sehingga didistribusikan menurut distribusi gaussian. Data training dikelompokkan dari kelas, rata-rata dan variansi dari setiap kelas yang dihitung. Dalam penelitiannya menyatakan bahwa penerapan metode Naive Bayes Gaussian dapat memberikan nilai akurasi maksimum 96,6%.
Kutil merupakan tumor jinak yang terjadi melalui mediasi Human Papillomavirus (HPV) dan dapat tumbuh pada semua bagian tubuh, terutama tangan dan kaki. Ada beberapa metode pengobatan penyakit kutil terbaik yaitu
Immunotherapy dan Cryotherapy. Dalam
pengobatan kutil dengan Immunotherapy ataupun Cryotherapy belum tentu dapat menyembuhkan semua pasien sehingga perlu dibuat penelitian dengan metode tertentu yang dapat memberikan keputusan dalam pemilihan pengobatan kutil [6].
Berdasarkan uraian diatas maka metode Naive Bayes Gaussian digunakan karena metode ini memiliki komputasi yang efisien dan juga memilki akurasi yang tinggi sehingga dengan menggunakan metode ini dapat mengklasifikasikan hasil keberhasilan pengobatan kutil (Immunotherapy dan
Cryotherapy) dalam pemilihan pengobatan kutil.
2. METODOLOGI PENELITIAN
Adapun langkah – langkah yang dilakukan pada prosedur penelitian ini adalah:
a. Pengumpulan Data, Data diperoleh dari Uci Machine Learning. Data yang digunakan yaitu data Immunotherapy (90 data) dan Cryotherapy (90 data). b. Uji Distribusi Normal, Uji normalitas
digunakan untuk mengetahui apakah data yang diperoleh terdistribusi normal atau tidak [7]. Data yang telah dikumpulkan sebelumnya diuji distribusi normal pada masing-masing data Immunotherapy dan
Cryotherapy menggunakan aplikasi
SPSS. Kemudian data outlier diseleksi sehingga data menjadi normal. Data yang digunakan dalam proses selanjutnya adalah data yang normal yaitu data Immunotherapy (55 data) dan Cryotherapy (82 data).
c. 10-Fold Cross Validation, Data dibagi menjadi data training dan data testing menggunakan 10-fold Cross validation pada data Immunotherapy dan
Cryotherapy yang telah dinormalkan.
Metode evaluasi standard yaitu
stratified 10-fold cross-validation
adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat [8]. Menurut Kohavi [9] menyatakan bahwa 10-fold cross
validation dapat memberikan keuntungan dangan mengurangi variansi bias pada data dibandingkan
fold antara 2-20 fold. Menurut Singh
dan Panda [10] menyatakan 10-fold
cross validation dapat mengurangi
saraf over-fitting jaringan selama proses training. Keuntungan dari
10-fold cross validation ini adalah bahwa
ia dapat diandalkan dan tidak bias dalam menguji set data yang lebih
kecil karena proses ini membutuhkan jauh lebih banyak upaya komputasi daripada prosedur sederhana yang dilatih dan diuji (bertahan).
d. Metode Naive Bayes Gaussian, Metode yang digunakan adalah metode Naive Bayes Gaussian untuk mendapatkan hasil klasifikasi keberhasilan (ya atau tidak) pada pengklasifikasian hasil pengobatan kutil (Immunotherapy dan
Cryotherapy).
Menurut Sari dan Prabowo [3] mengatakan bahwa formulasi Naive
Bayes sebagai berikut:
P(c|x) = 𝑃(𝑥|𝑐)𝑃(𝑐)
𝑃(𝑥) ...(1)
P(c|x) = P(x1|c) x P(x2|c) x
...xP(xn|c)x P(c)...(2)
Keterangan :
x: data dengan class yang belum diketahui
c: hipotesis data x merupakan suatu clas spesifik
P(c|x): probabilitas hipotesis c berdasar kondisi x (posteriori
probability)
P(c): probabilitas hipotesis c (prior
probability)
P(x|c): probabilitas x berdasar kondisi pada hipotesis c
P(x): probabilitas dari x.
Menurut Gayathri dan Sumathi [5] mengatakan bahwa ketika menangani data kontinu maka diasumsikan sebagai nilai-nilai berkelanjutan yang terkait dengan masing-masing kelas sehingga didistribusikan menurut distribusi gaussian digunakan rumus sebagai berikut: 𝑃(𝑣𝑗|𝑐𝑖) = 1 √2𝜋 𝜎𝑗𝑖 𝑒 (−(𝑣𝑗−𝜇𝑖𝑗) 2 2𝜎2𝑗𝑖 )...(3)
Dimana v= variabel, c= Kelas.
Pada proses ini, yang pertama dilakukan menghitung P(c) probabilitas kelas pada masing-masing data training (Immunotherapy
dan Cryotherapy), menghitung nilai probabilitas setiap variabel berdasarkan kelas tertentu pada masing-masing data training (Immunotherapy dan Cryotherapy),
menghitung nilai setiap masing-masing data testing (Immunotherapy dan Cryotherapy), kemudian melakukan evaluasi dengan menggunakan metode Confusion
Matrix yang merupakan table untuk
mengukur kinerja algoritma klasifikasi atau model klasifikasi atau
classifier. Sehingga didapat akurasi
dari setiap data Immunotherapy dan
Cryotherapy.
Gambar 2. Model Confusion matrix
Accuracy = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁...(4) Precision = 𝑇𝑃 𝑇𝑃+𝐹𝑃 ...(5) Recall = 𝑇𝑃 𝑇𝑃+𝐹𝑁 ...(6) Keterangan:
1) TP (True positive) adalah jumlah
record positif yang diklasifikasikan
sebagai positif oleh classifier. 2) TN (True negative) adalah jumlah
record negatif yang diklasifikasikan sebagai negatif oleh clasifier.
3) FP (False positive) adalah jumlah
record negatif yang diklasifikasikan sebagai positif oleh clasifier.
4) FN (False negative) adalah jumlah
record positif yang diklasifikasikan
sebagai negatif oleh classifier [3]. e. Pemilihan Pengobatan Kutil dengan
Naive Bayes Gaussian, merupakan
manfaat dari menggunakan metode
Naive Bayes Gaussian sehingga pada
tahap ini dapat melakukan pemilihan pengobatan kutil antara
Immunotherapy dan Cryotherapy
probabilitas terbaik antara klasifikasi
Immunotherapy dan klasifikasi
Cryotherapy. Sehingga dapat memberikan solusi dalam memilih pengobatan kutil terbaik.
f. Implementasi Program, Menyajikan pengetahuan yang didapat dengan mempresentasikan dalam suatu program menggunakan bahasa pemrograman PHP.
Pengumpulan data Immunotherapy dan Cryotherapy
Menghitung nilai probabilitas masing-masing kriteria dan kelas berdasarkan
data training Immunotherapy
Menghitung nilai probabilitas masing-masing kriteria dan kelas berdasarkan
data training Cryotherapy
Menghitung Nilai probabilitas kriteria dan kelasnya pada data testing
Immunotherapy
Menghitung Nilai probabilitas kriteria dan kelasnya pada data testing
Cryotherapy
Hasil evaluasi klasifikasi keberhasilan
Immunotherapy
Hasil evaluasi klasifikasi keberhasilan
Cryotherapy
Hasil pemilihan pengobatan kutil berdasarkan perbandingan hasil klasifikasi antara Immunotherapy
dan Cryotherapy Naive Bayes Gaussian 10-fold Cross Validation Membagi kumpulan data
Immunotherapy menjadi data training
dan data testing
Membagi kumpulan data Cryotherapy menjadi data training dan data testing Uji Distribusi Normal
Menguji distribusi normal pada data
Immunotherapy
Menguji distribusi normal pada data
Cryotherapy
Data Immunotherapy diseleksi dengan membuang outlier sehingga data menjadi
normal
Data Cryotherapy diseleksi dengan membuang outlier sehingga data menjadi
normal
Gambar 1. Alur penelitian
3. HASIL DAN PEMBAHASAN 3.1. Pengumpulan Data
Data dalam penelitian ini menggunakan data Immunotherapy dan Cryotherapy yang didapat dari Uci Machine Learning. Data Immunotherapy dan Cryotherapy masing-masing terdiri dari 90 data. Pada
data Immunotherapy terdapat 8 variabel yaitu jenis kelamin, umur, waktu, jumlah kutil, tipe kutil, indurasi diameter dan hasil pengobatan. Sedangkan, data
jenis kelamin, umur, waktu, nomor kutil, tipe kutil, dan hasil pengobatan.
3.2. Uji Distribusi
Pada tahap ini proses pengujian data dilakukan pada setiap variabel menggunakan aplikasi SPSS untuk mengetahui variabel yang digunakan terdistribusi normal. Dari hasil tes SPSS
Kolmogorov-Smirnov pada data
Immunnoth erapy variabel luas dan
diameter indurasi belum normal, sedangkan pada data Cryotherapy data yang belum normal adalah variabel umur, jumlah kutil, dan luas. Untuk dapat menormalkan data maka data yang memiliki outlier pada data harus dibuang. Pada aplikasi SPSS, boxplot digunakan untuk mengetahui outlier pada data sehingga dapat diketahui outlier nya. Setelah outlier dibuang maka data
Immunotherapy yang awalnya ada 90
data setelah dinormalkan menjadi 55 data dan pada data Cryotherapy yang awalnya ada 90 data setelah dinormalkan menjadi 82 data. Sebaran data dapat dilihat pada tabel dibawah.
Tabel 1. Sebaran Kelas Kelas Jumlah
Immunotherapy Jumlah Cryotherapy
Ya 44 48
Tidak 11 34
Total 55 82
3.3. 10-Fold Cross Validation
Pada tahap ini, data Immunotherapy dan
Cryotherapy dibagi menjadi data training
dan data testing menggunakan teknik
Cross Validation sebanya 10 kali tes. Tiap
percobaan akan menggunakan satu data
testing dan k-1 bagian akan menjadi data training, kemudian data testing itu akan
ditukar dengan satu buah data training sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda.
Gambar 3. 10-fold cross validation
3.4. Metode Naive Bayes Gaussian
Pada tahap ini, setelah melakukan pembagian data training dan data testing sebanyak K=10 maka proses selanjutnya yaitu melakukan proses perhitungan klasfikasi menggunakan metode Naive
Bayes Gaussian. Menghitung dalam
menggunakan metode Naive Bayes
Gaussian pada penelitian ini menggunakan dua pengerjaan. Setiap variabel yang mengandung data kategori seperti variabel jenis kelamin dan tipe kutil menggunakan rumus Naive Bayes, sedangkan variabel yang mengandung data numerik atau data kontinu seperti variabel umur, waktu, jumlah kutil, luas, dan diameter indurasi menggunakan rumus Naive Bayes Gaussian. Rumus yang digunakan sebagai berikut:
Rumus Naive Bayes: P(c|x) = 𝑃(𝑥|𝑐)𝑃(𝑐)
𝑃(𝑥)
P(c|x) = P(x1|c) x P(x2|c) x ...x P(xn|c)
x P(c)
Rumus Naive Bayes Gaussian: 𝑃(𝑣𝑗|𝑐𝑖) = 1 √2𝜋 𝜎𝑗𝑖 𝑒(− (𝑣𝑗−𝜇𝑖𝑗)2 2𝜎2𝑗𝑖 )
Dimana v= variabel, c= Kelas, 𝜎2=variansi, 𝜇=rata-rata.
𝜇 =1
𝑁. ∑(𝑥𝑖)
𝑁
𝜎2= 1
𝑁 − 1. ∑(𝑥𝑖− 𝜇)
2 𝑁
𝑖=1
Dimana N= Banyaknya data, xi=data ke-i 3.4.1 Metode Naive Bayes Gaussian Data Immunotherapy
Adapun tahapan yang dilakukan pada proses ini adalah sebagai berikut : Langkah 1. Menghitung P(c) probabilitas kelas pada data training
N = jumlah seluruh P (hasil=Ya) =
(jumlah hasil pengobatan|Ya)/N P (hasil=Tidak) =
(jumlah hasil pengobatan|Tidak)/N
Training 1 pada Immunotherapy
N=50
P(Hasill=Ya) = 40/50 = 0.8 P(Hasill=Tidak) = 10/50 = 0.2
Langkah 2. Menghitung Menghitung nilai probabilitas setiap variabel berdasarkan kelas tertentu pada data training
Perhitungan setiap variabel pada contoh
training ke-1 data Immunotherapy:
a. Variabel Jenis Kelamin P(Laki-laki|Ya)= 20/40=0.5 P(Laki-laki|Tidak)=4/10=0.4 P(Perempuan |Ya)=20/40=0.5 P(Perempuan|Tidak)=6/10=0.6 b. Variabel Umur µ (Umur|Ya) = (1/40) * (1231) = 30.7813 𝜎2 (Umur|Ya) = (1/ (40-1)) * (6626.975) = 169.9224 µ (Umur|Tidak) = (1/10) * (365) = 36.5 𝜎2 (Umur|Tidak) = (1/ (10-1)) * (1042.5) = 115.8333 c. Variabel Waktu µ (Waktu |Ya) = (1/40) * (266) = 6.65 𝜎2 (Waktu |Ya) = (1/ (40-1)) * (301.6) = 7.7333 µ (Waktu |Tidak) = (1/10) * (86.5) = 8.65 𝜎2 (Waktu |Tidak) = (1/ (10-1)) * (12.7806) = 12.7806 d. Variabel Jumlah Kutil
µ (Jumlah Kutil |Ya) = (1/40) * (230) = 5.75
𝜎2 (Jumlah Kutil |Ya) = (1/ (40-1))
* (547.5) = 14.0385
µ (Jumlah Kutil |Tidak) = (1/10) * (64) = 6.4
𝜎2 (Jumlah Kutil |Tidak) = (1/ (10-
1)) * (150.4) = 16.7111 e. Variabel Tipe Kutil
P(Umum|Ya)= 21/40=0.525 P(Umum |Tidak)=5/10=0.5 P(Plantar |Ya)=10/40=0.25 P(Plantar|Tidak)=3/10=0.3 P(Keduanya |Ya)=9/40=0.225 P(Keduanya |Tidak)=2/10=0.2 f. Variabel Luas µ (Luas |Ya) = (1/40) * (1846) = 46.15 𝜎2 (Luas |Ya) = (1/ (40-1)) * (20985.1) =538.0795 µ (Luas |Tidak) = (1/10) * (597) = 59.7 𝜎2 (Luas |Tidak) = (1/ (10-1)) * (4498.1) =499.7889 g. Variabel Diameter Indurasi
µ (Diameter Indurasi |Ya) = (1/40) * (224) = 5.6
𝜎2 (Diameter Indurasi |Ya) =
(1/ (40-1)) * (159.6) = 4.0923 µ (Diameter Indurasi |Tidak) =
(1/10) * (67) = 6.7
𝜎2 (Diameter Indurasi |Tidak) =
(1/ (10-1)) * (18.1) = 2.0111
Langkah 3. Menghitung nilai data testing Pada perhitungan ini diambil contoh
training ke-1 pada data testing, sebagai
berikut:
Perhitungan data testing pada data
Immunotherapy
Contoh testing ke-1 data ke-1 Jenis Kelamin : Perempuan
Umur : 32
Waktu : 12
Tipe Kutil : Keduanya
Luas : 35
Diameter Indurasi : 5 Hasil Pengobatan : Tidak P (Jenis Kelamin|Ya) = 0.5 P (Jenis Kelamin|Tidak) = 0.6 P(Umur|Ya)= 1 √2𝜋∗169.9224*𝑒 (−(32−30.775)22∗169.9224 ) = 1 32.675 *0.9956 = 0.0305 P(Umur|Tidak) = 1 √2𝜋∗115.8333*𝑒 (−(32−36.5)22∗115.8333) = 1 26.9778 *0.9163 = 0.340 P(Waktu|Ya) = 1 √2𝜋∗7.7333*𝑒 (−(12−6.65)2 2∗7.7333 ) = 1 6.9707 *0.1571 = 0.0225 P(Waktu|Tidak) = 1 √2𝜋∗12.7806*𝑒 (−(12−8.65)22∗12.780 ) = 1 8.9612 *0.6447 = 0.0719 P(Jumlah Kutil|Ya) = 1 √2𝜋∗14.0385*𝑒 (−(6−5.75)22∗14.0385)= 1 9.3918 *0.9978 = 0.1062 P(Jumlah Kutil|Tidak)= 1 √2𝜋∗16.7111*𝑒 (−(6−6.4)2 2∗16.7111)= 1 10.2469 *0.9952 = 0.0971 P(Tipe Kutil|Ya)= 0.225 P(Tipe Kutil|Tidak)= 0.2 P(Luas|Ya)= 1 √2𝜋∗538.0795*𝑒 (−(35−46.15)22∗538.0795) = 1 58.1451 *0.8909 = 0.0153 P(Luas|Tidak)= 1 √2𝜋∗499.7889*𝑒 (−(35−59.7)22∗499.7889) = 1 56.0381 *0.5432 = 0.0097 P(Diameter Indurasi|Ya)= 1 √2𝜋∗4.0923*𝑒 (−(5−5.6)2 2∗4.0923) = 1 5.0708 *0.957 = 0.1887 P(Diameter Indurasi|Tidak)= 1 √2𝜋∗2.0111*𝑒 (−2∗2.0111(5−6.7)2) = 1 3.5546 *0.4875 = 0.1371
P(X|Ya) = P(Hasil Pengobatan|Ya) * P(Jenis Kelamin|Ya) *
P(Umur|Ya) * P(Waktu|Ya) * P(Jumlah Kutil|Ya) *
P(Tipe Kutil|Ya) *P(Luas|Ya) * P(Diameter Indurasi|Ya)
= 0.8 * 0.5 * 0.0305 * 0.0225 * 0.1062 * 0.225 * 0.0153 * 0.1887 = 1.899E-08
P(X|Tidak) = P(Hasil Pengobatan | Tidak) * P(Jenis Kelamin | Tidak) * P(Umur| Tidak) * P(Waktu| Tidak) * P(Jumlah Kutil| Tidak) * P(Tipe Kutil| Tidak) * P(Luas| Tidak) * P(Diameter Indurasi| Tidak) = 0.2 * 0.6 * 0.034 * 0.0719 * 0.0971 * 0.2 * 0.0097 * 0.1371 = 7.57E-09
Jadi, Klasifikasi pada data ke-1 untuk data
testing ke-1 adalah Ya, kemudian
berdasarkan perbandingan antara hasil pengobatan real dan hasil pengobatan perhitungan adalah False
Langka 4. Melakukan Evaluasi
Setelah melakukan perhitungan Naive
Bayes Gaussian pada data
Immunotherapy, kemudian proses selanjutnya adalah melakukan evaluasi dengan menggunakan metode Confusion
Matrix.
Tabel 2. Confusion Matrix pada contoh
testing ke-1 data Immunotherapy
evaluasi metode Naive Bayes Gaussian
n=5 KLasifikasi hasil
penogbatan=Ya Klasifikasi hasil pengobatan=Tidak Aktual hasil
pengobatan=Ya TP=4 FN=0
Aktual hasil
pengobatan=Tidak FP=1 TN=0
Dari nilai TP, TN, FP dan FN maka dapat dihitung beberapa nilai lain yang dapat dijadikan nilai kinerja classifier. Nilai-nilai tersebut adalah:
Persentase classifier benar melakukan klasifikasi. Accuracy= (TP+TN) (TP+FN+FP+TN) x 100% Accuracy= (4+0) (4+0+1+0) x 100%= 80% b. Precision
Persentase klasifikasi data sebagai positif yang benar.
Precision = TP
(FP+TP) x 100%
Precision = 4
(1+4) x 100% = 80%
c. Recall
Persentase klasifikasi data sebagai positif yang benar.
Recall = TP
(TP+FN) x 100%
Recall = 4
(4+0) x 100% = 100%.
Tabel 3. Nilai Confusion Matrix pada setiap testing data Immunotherapy
Testing TP FN FP TN Accuracy (%) Recall (%) Precision (%) 1 4 0 1 0 80 100 80 2 4 0 1 0 80 100 80 3 4 0 1 0 80 100 80 4 3 1 1 0 60 75 75 5 4 0 1 0 80 100 80 6 4 0 2 0 66.6667 100 66.6667 7 5 0 1 0 83.3333 100 83.3333 8 5 0 1 0 83.3333 100 83.3333 9 5 0 1 0 83.3333 100 83.3333 10 4 1 1 0 66.6667 80 80 Jumlah 42 2 11 0 Rata-Rata 76.3333 95.5 79.1667
3.4.2 Metode Naive Bayes Gaussian Data Cryotherapy
Adapun tahapan yang dilakukan pada proses ini adalah sebagai berikut: Langkah 1. Menghitung P(c) probabilitas kelas pada data training
N = jumlah seluruh P (hasil=Ya) =
(jumlah hasil pengobatan|Ya)/N P (hasil=Tidak) =
(jumlah hasil pengobatan |Tidak)/N
Training 1 pada Cryotherapy
N=74
P(Hasill=Ya) = 44/74 = 0.5946
P(Hasill=Tidak) = 30/74 = 0.4054
Langkah 2. Menghitung Menghitung nilai probabilitas setiap variabel berdasarkan kelas tertentu pada data training
Perhitungan setiap variabel pada contoh
training ke-1 data Cryotherapy:
a. Variabel Jenis Kelamin
P(Laki-laki|Ya)= 24/44=0.5455 P(Laki-laki|Tidak)=11/30=0.3667 P(Perempuan |Ya)=20/44=0.4545 P(Perempuan|Tidak)=19/30=0.6333 b. Variabel Umur µ (Umur|Ya) = (1/44) * (944) = 21.4545 𝜎2 (Umur|Ya) = (1/ (44-1)) * (2220.909) = 51.6490 µ (Umur|Tidak) = (1/30) * (918) = 30.6 𝜎2 (Umur|Tidak) = (1/ (30-1)) * (2293.2) = 79.0759 c. Variabel Waktu µ (Waktu |Ya) = (1/44) * (243) = 5.5227 𝜎2 (Waktu |Ya) = (1/ (44-1)) * (377.4773) = 8.7785 µ (Waktu |Tidak) = (1/30) * (313.5) = 10.45 𝜎2 (Waktu |Tidak) = (1/ (30-1)) * (39.55) = 1.3638 d. Variabel Jumlah Kutil
µ (Jumlah Kutil |Ya) = (1/44) * (256) = 5.8182
𝜎2 (Jumlah Kutil |Ya) = (1/ (44-1))
* (584.5455) = 13.5941
µ (Jumlah Kutil |Tidak) = (1/30) * (151) = 5.0333
𝜎2 (Jumlah Kutil |Tidak
=(1/ (30-1)) * (282.9667) = 9.7575
e. Variabel Tipe Kutil
P(Umum|Ya)= 35/44=0.7955 P(Umum |Tidak)=12/30=0.4 P(Plantar |Ya)=5/44=0.1136 P(Plantar|Tidak)=3/30=0.1 P(Keduanya |Ya)=4/44=0.0909 P(Keduanya |Tidak)=15/30=0.5 f. Variabel Luas
µ (Luas |Ya) = (1/44) * (2857) = 64.9318 𝜎2 (Luas |Ya) = (1/ (44-1)) * (81990.8) = 1906.7627 µ (Luas |Tidak) = (1/30) * (2040) = 68 𝜎2 (Luas |Tidak) = (1/ (30-1)) * (69282) = 2389.0345
Langkah 3. Menghitung nilai data testing Pada perhitungan ini diambil contoh
training ke-1 pada data testing, sebagai
berikut:
Perhitungan data testing pada data
Cryotherapy
Contoh testing ke-1 data ke-1 Jenis Kelamin : Laki-laki
Umur : 35
Waktu : 12
Jumlah Kutil : 5 Tipe Kutil : Umum
Luas : 100
Hasil Pengobatan : Tidak P (Jenis Kelamin|Ya) = 0.5455 P (Jenis Kelamin|Tidak) = 0.3667 P(Umur|Ya) = 1 √2𝜋∗51.649*𝑒 (−(35−21.4545)22∗51.649 )= 1 18.0145 *0.1693 = 0.0094 P(Umur|Tidak) = 1 √2𝜋∗79.0759*𝑒 (−(35−30.6)22∗79.0759)= 1 22.2901 *0.8848 = 0.0397 P(Waktu|Ya) = 1 √2𝜋∗8.7785*𝑒 (−(12−5.5227)22∗8.7785 )= 1 7.4268 *0.0917 = 0.0123 P(Waktu|Tidak) = 1 √2𝜋∗1.3638*𝑒 (−(12−10.45)22∗1.3638 )= 1 5.2.9273 *0.4144 = 0.1416 P(Jumlah Kutil|Ya) = 1 √2𝜋∗13.5941*𝑒 (−(5−5.8182)2 2∗13.5941 )= 1 9.242 *0.9757 = 0.1056 P(Jumlah Kutil|Tidak) = 1 √2𝜋∗9.7575*𝑒 (−(5−5.0333)22∗9.7575 )= 1 7.8299 *0.9999 = 0.1277 P(Tipe Kutil|Ya) = 0.7955 P(Tipe Kutil|Tidak) = 0.4 P(Luas|Ya)= 1 √2𝜋∗1906.7627*𝑒 (−(100−64.9318)2 2∗1906.7627 )= 1 109.4557 *0.7244 = 0.0066 P(Luas|Tidak)= 1 √2𝜋∗2389.0345*𝑒 (−2∗2389.0345(100−68)2)= 1 122.5184 *0.8071 = 0.0066
P(X|Ya) = P(Hasil Pengobatan|Ya) * P(Jenis Kelamin|Ya) *
P(Umur|Ya) * P(Waktu|Ya) * P(Jumlah Kutil|Ya) * P(Tipe Kutil|Ya) * P(Luas|Ya)
= 0.5946 * 0.5455 * 0.0094 * 0.0123 * 0.1056 * 0.7955 * 0.0066 = 2.09E-08
P(X|Tidak) = P(Hasil Pengobatan| Tidak) * P(Jenis Kelamin| Tidak) * P(Umur| Tidak) * P(Waktu| Tidak) * P(Jumlah Kutil| Tidak)*P(Tipe Kutil| Tidak) * P(Luas| Tidak)
= 0.4054 * 0.3667 * 0.0397 * 0.1466 * 0.1277 * 0.4 * 0.0066 = 2.81E-07
Jadi, Klasifikasi pada data ke-1 untuk data
testing ke-1 adalah Tidak, kemudian
berdasarkan perbandingan antara hasil pengobatan real dan hasil pengobatan perhitungan adalah True
Langka 4. Melakukan Evaluasi
Setelah melakukan perhitungan Naive
Bayes Gaussian pada data Cryotherapy,
kemudian proses selanjutnya adalah melakukan evaluasi dengan menggunakan metode Confusion Matrix.
Tabel 4. Confusion Matrix pada contoh
testing ke-1 data Cryotherapy evaluasi
metode Naive Bayes Gaussian
n=8 KLasifikasi
hasil penogbatan=Ya
Klasifikasi hasil pengobatan=Tidak
Aktual hasil
pengobatan=Ya TP=3 FN=1
Aktual hasil
pengobatan=Tidak FP=1 TN=3
Dari nilai TP, TN, FP dan FN maka dapat dihitung beberapa nilai lain yang dapat dijadikan nilai kinerja classifier. Nilai-nilai tersebut adalah:
a. Accuracy
Persentase classifier benar melakukan klasifikasi. Accuracy = (TP+TN) (TP+FN+FP+TN) x 100% Accuracy= (3+3) (3+1+1+3) x 100% = 75% b. Precision
Persentase klasifikasi data sebagai positif yang benar.
Precision = TP
(FP+TP) x 100%
Precision = 3
(1+3) x 100% = 75%
c. Recall
Persentase klasifikasi data sebagai positif yang benar.
Recall = TP
(TP+FN) x 100%
Recall = 3
(3+1) x 100% = 75 %.
Tabel 5. Nilai Confusion Matrix pada setiap testing data Cryotherapy Testin
g TP FN FP TN Accuracy (%) Recall (%) Precision (%)
1 3 1 1 3 75 75 75 2 4 0 0 4 100 100 100 3 5 0 1 2 87.5 100 83.3333 4 2 3 0 3 62.5 40 100 5 5 0 0 3 100 100 100 6 5 0 1 2 87.5 100 83.3333 7 5 0 0 3 100 100 100 8 4 1 0 3 87.5 80 100 9 4 1 1 3 77.77778 80 80 10 5 0 0 4 100 100 100 Jumla h 42 6 4 30 Rata-Rata 87.77778 87.5 92.16667
3.5. Pemilihan Pengobatan Kutil dengan Naive Bayes Gaussian
Pemilihan pengobatan kutil antara
Immunotherapy dan Cryotherapy dengan
metode Naive Bayes Gaussian dalam mengklasifikasikan suatu keberhasilan pemilihan pengobatan kutil didapat berdasarkan perbandingan hasil terbaik antara klasifikasi Immunotherapy dan klasifikasi Cryotherapy. Dalam tahap
testing ini untuk mengetahui hasil
pemilihan terbaik berdasarkan perbandingan hasil terbaik antara klasifikasi Immunotherapy dan klasifikasi
Cryotherapy menggunakan metode Naive Bayes Gaussian. Contoh sampel data tes
yang dimasukkan untuk melihat hasil pemilihan pengobatan kutil tersebut adalah menggunakan data
Immunotherapy dan Cryotherapy
sebanyak sepuluh data masing–masing yang diambil dari data yang memiliki data
outlier yang di pilih secara acak, dari data
nomor 1-10 merupakan data
Immunotherapy sedangkan data dari
nomor 11-20 merupakan data
Cryotherapy. Tabel 6 merupakan hasil
Tabel 6. Hasil perhitungan pemilihan pengobatan kutil berdasarkan perbandingan hasil terbaik Data No Jenis Kela min Umur Wakt u Jumla h Kutil Tipe Kutil Lua s Diamet er Indura si
Immunotherapy Cryotherapy Hasil
Pengo batan data real Hasil Klasif ikasi Immu nothe rapy Hasil Klasifi kasi Cryoth erapy Hasil Pemilihan Pengobatan P(Ya|X) P(Tidak |X) P(Ya |X) P(Tidak |X) Immuno therapy 1 P 47 9.25 13 Plantar 367 8 1.27E-47 4.01E-50 1.69E-21 1.61E-17 Ya Ya Tidak Immunotherapy 2 L 25 5.75 2 Umum 300 7 1.42E-31 7.16E-34 3.84E-13 1.74E-13 Ya Ya Ya Cryotherapy
3 L 43 11 7 Umum 507 7 5.37E-87 6.52E-95 1.80E-31 1.73E-24 Ya Ya Tidak Immunotherapy
4 L 38 7.5 8 Plantar 56 45 5.14E-88 4.34E-163 2.02E-08 2.03E-08 Ya Ya Tidak Immunotherapy
5 P 19 6 2 Umum 225 8 7.30E-20 6.26E-21 7.91E-10 7.19E-11 Ya Ya Ya Cryotherapy
6 L 15 11 6 Umum 30 25 1.46E-27 7.50E-45 1.59E-07 1.08E-07 Tidak Ya Ya Cryotherapy
7 P 34 11.5 12 Umum 25 50 1.08E-110 1.77E-206 8.22E-09 2.93E-08 Tidak Ya Tidak Immunotherapy
8 P 34 8.5 1 Plantar 163 7 3.20E-13 4.44E-13 1.19E-09 8.41E-09 Tidak Tidak Tidak Tidak Ada 9 L 33 1.75 7 Plantar 379 7 1.31E-49 1.82E-53 1.47E-19 9.90E-22 Tidak Ya Ya Cryotherapy
10 L 27 11.75 8 Umum 208 6 7.64E-18 5.61E-18 4.83E-10 4.28E-09 Tidak Ya Tidak Immunotherapy
Cryothe rapy
1 L 29 7 5 Umum 96 - 1.98E-07 3.86E-08 7.77E-07 9.50E-08 Ya Ya Ya Cryotherapy
2 L 19 8 8 Umum 160 - 1.19E-11 1.77E-12 8.51E-08 1.30E-08 Ya Ya Ya Cryotherapy
3 P 15 6 2 Umum 30 - 3.98E-07 1.01E-08 4.33E-07 4.83E-09 Ya Ya Ya Cryotherapy
4 P 15 2 3 Umum 4 - 3.24E-08 3.34E-10 1.35E-07 6.18E-13 Ya Ya Ya Cryotherapy
5 P 15 3.75 2 Keduanya 70 - 7.11E-08 5.24E-09 4.89E-08 1.19E-10 Ya Ya Ya Immunotherapy
6 L 32 11.75 7 Keduanya 750 - 1.77E-191 7.96E-214 9.28E-63 1.29E-48 Tidak Ya Tidak Immunotherapy
7 L 67 9.25 1 Umum 42 - 8.33E-09 8.83E-10 6.29E-15
7.68E-10 Tidak Ya Tidak Immunotherapy 8 P 32 12 4 Keduanya 750 - 1.33E-191 1.11E-213 5.63E-63 1.79E-48 Tidak Ya Tidak Immunotherapy
9 P 67 12 12 Keduanya 42 - 3.57E-10 5.82E-10 5.38E-17 1.07E-10 Tidak Tidak Tidak Tidak Ada 10 L 63 2.75 3 Keduanya 20 - 4.47E-09 1.92E-10 2.21E-14 2.98E-13 Tidak Ya Tidak Immunotherapy
3.6. Implementasi Program
Menyajikan pengetahuan yang didapat dengan mempresentasikan dalam suatu program menggunakan bahasa pemrograman PHP.
Gambar 4. Hasil implementasi dalam bentuk program
3.7. Evaluasi
Berdasarkan hasil dari pengujian testing data menggunakan
teknik validasi data Cross Validation K=10 pada data Immunotherapy dan
Cryotherapy menggunakan metode Naive Bayes Gaussian. Berdasarkan
hasil klasifikasi terssebut, untuk evaluasi menggunakan metode
confusion matrix sehingga dalam confusion matix gabungan dari data testing ke 1-10 pada data
Immunotherapy didapat sebanyak 0 instance merupakan data true negatives. Sebanyak 11 instance
merupakan data false positives. Sebanyak 2 instance merupakan data
false negatives. Serta sebanyak 42 instance merupakan data true positives. Sehingga didapat nilai accuracy rata-rata klasifikasi tersebut
sebesar 76,33%, nilai precision sebesar 79,167%, dan nilai recall sebesar 95,5%.
Sedangkan pada data
Cryotherapy confusion matix
gabungan dari data testing ke 1-10 didapat sebanyak 30 instance
merupakan data true negatives. Sebanyak 4 instance merupakan data
false positives. Sebanyak 6 instance
merupakan data false negatives. Serta sebanyak 42 instance merupakan data
true positives. Sehingga didapat nilai accuracy rata-rata klasifikasi tersebut
sebesar 87,778%, nilai precision sebesar 92,167%, dan nilai recall sebesar 87,5%.
4. SIMPULAN
Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan, dapat disimpulkan bahwa akurasi klasifikasi hasil pengobatan pada data Immunotherapy
menggunakan metode Naive Bayes
Gaussian tingkat akurasi yang diperoleh sebanyak 76,33%. Sedangkan, akurasi klasifikasi hasil pengobatan pada data Cryotherapy
menggunakan metode Naive Bayes
Gaussian tingkat akurasi yang diperoleh sebanyak 87,778%.
DAFTAR PUSTAKA
[1] Handayani, Sutri. “Komparasi
Metode Klasifikasi Data
Mining untuk Prediksi
Penyakit Ginjal”. Vol.6 No.1
STIMIK Nusa Mandiri Jakarta, Indonesia. 2017.
[2] Prasetyo, Eko. ” Data Mining
Konsep dan Aplikasi
Menggunakan Matlab”.
Yogyakarta: Penerbit Andi. 2012.
[3] Sari, Bety & Donni Prabowo.
“Penentuan Kelayakan
Penerima Bantuan Renovasi
Rumah Warga Miskin
Menggunakan Naive Bayes”.
Vol.18 No.4. Universitas AMIKOM, Yogyakarta. 2017. [4] Anuradha, C & T. Velmurugan. “A
Comparative Analysis on the Evaluation of Classification Algorithms in the Prediction of Students Performance”.
Vol.8. Bharathiar University, India. 2015.
[5] Gayathri, B.M & C.P. Sumathi.
“An Automated Technique using Gaussian Naïve Bayes Classifier to Classify Breast Cancer”. IJCA. Vol.148 No.6.
M.S.University S.D.N.B Vasihnav College for Women, Chromepet. 2016.
[6] Khozeimeh, dkk. “An Expert
System For Selecting Wart Treatment Method”. Mashhad
University of Medical Sciences, Mashhad, Iran. 2017.
[7] Hanief, Yulngga Nanda & Wasis Himawanto. “Statistik
Pendidikan”. Yogyakarta: Deepublish. 2017.
[8] Gorunescu, F. ”Data Mining:
Concepts, Models and
Techniques”. Berlin:
Springer-Verlag. 2011.
[9] Kohavi, Ron. “A Study of
Cross-Validation and Boostrap for
Accuracy Estimation and
Model Selection”. Standfor
University. 1995. [10] Singh, Gurjeet & Rabindra K
Panda. “Daily Sediment Yield
Modeling with Artificial
Neural Network using 10-fold Cross Validation Method: A small agricultural watershed, Kapgari, India”. Vol.4 No.6.
University, Vaddeswaram, India. 2011.