No Nama Batik jumlah konsume n
pelatihan karyawan pertahun
terdapat brandin g produk
kenaika n harga bahan baku
pelatihan pemilik pertahun
memilik i surat ijin usaha
biaya tenaga kerja pertahun
keuntunga n pertahun
Label
1 Belva Batik Tulis Madura
50-149 1 sampai 2
terdafta r
11-15% 2 sampai 4 SIUP <200 <100 C3
2 UD. Batik Tulis Satuna
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
3 Batik Tulis Subaidah
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
4 Batik Tulis Ruha
<=50 1 sampai 2
terdafta r
11-15% 2 sampai 4 SIUP <200 <100 C3
5 Batik Tulis Abdul Aziz
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
6 UD. Batik Tulis Bunda
<=50 3 sampai 6
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
7 Batik Tulis Bahar
<=50 0 terdafta
r
10% 2 sampai 4 SIUP <200 <100 C3
8 Batik Tulis Situn
<=50 1 sampai 2
terdafta r
11-15% 2 sampai 4 SIUP <200 <100 C3
9 Batik Tulis Safion
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
10 Batik Tulis Patma
<=50 1 sampai 2
terdafta r
11-15% 2 sampai 4 SIUP <200 <100 C3
11 UD. Batik Tulis Sidur
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
12 Batik Tulis Kencana
50-149 3 sampai 6
terdapat merk
10% 2 sampai 4 SIUP <200 <100 C3
13 Batik Tulis Sidin
<=50 0 terdafta
r
10% 2 sampai 4 SIUP <200 <100 C3
14 UD. Sulfah Batik
<=50 0 terdafta
r
10% 2 sampai 4 SIUP <200 <100 C3
15 Batik Tulis Atik
<=50 1 sampai 2
terdafta r
10% 0 SIUP <200 <100 C3
16 UD. Tia Batik
<=50 1 sampai 2
terdafta r
11-15% 2 sampai 4 SIUP <200 <100 C3
17 UD. Farah Batik
<=50 0 terdafta
r
10% 2 sampai 4 SIUP <200 <100 C3
18 Batik Tulis Mina
<=50 1 sampai 2
terdafta r
10% 2 sampai 4 SIUP <200 <100 C3
19 Batik Tulis Piyah
<=50 1 sampai 2
terdafta r
10% 1 SIUP <200 <100 C3
20 Batik Tulis Mariya
<=50 0 terdafta
r
10% 2 sampai 4 SIUP <200 <100 C3
17 9
Sakera Batik
<=50 0 tidak
bermerk
10% 2 sampai 4 tidak memilik i
<200 <100 C2
18 0
Pemerinta h Desa Peseseh
<=50 1 sampai 2
tidak bermerk
16-25% 0 SIUP <200 <100 C1
18 1
Batik Madura Ny.
Mustamim
<=50 1 sampai 2
tidak bermerk
16-25% 2 sampai 4 tidak memilik i
<200 <100 C2
18 2
Butik Batik Madura
<=50 1 sampai 2
tidak bermerk
10% 1 tidak
memilik i
<200 <100 C2
18 4
Giat Mandiri Batik
<=50 1 sampai 2
tidak bermerk
10% 1 tidak
memilik i
<200 100-250 C2
Mencari gain terbesar pada seleksi fitur diawali dengan menghitung entropy terlebih dahulu Entropy (s) =
∑
i c
−
p
ilog p
iEntropy (s) =
( (−57182 log 182 57 )
+(
−96182 log 182 96 )
+(
−29182 log 182 29 ) )
= 1.43355
Menghitung information gain masing-masing indikator Gain (S, A) =
Entropy
(s)−Σ | s
v|
| s |
∗entropy(sv)Gain (S, Jumlah konsumen) = (
143355)− ( ( 168 182 )
∗1443158)
−( ( 182 1 4 )∗1 263809)
= 1443355 - 0.097216 - 1.332146 = 0.004188
Mengurutkan gain terbesar ke terkecil
Indikator Gain
memiliki izin 1.43355
branding produk 1.152609
pelatihan pemilik 0.387828
kenaikan harga bahan 0.378947
pelatihan karyawan 0.149713
keuntungan 0.00509
jumlah konsumen 0.004188
biaya tenaga kerja 0
Setelah mengurutkan hasil gain langkah selanjutnya yaitu menyeleksi fitur atau indikator apa saja yang akan digunakan dalam menghitung algoritma naïve bayes. Pada tabel … fitur yang digunakan meliputi :
Indikator Gain
memiliki izin 1.43355
branding produk 1.152609
pelatihan pemilik 0.387828
kenaikan harga bahan 0.378947
pelatihan karyawan 0.149713
keuntungan 0.00509
jumlah konsumen 0.004188
Menghitung algoritma naïve bayes
Langkah pertama dari proses perhitungan naïve bayes adalah menghitung prior dari setiap label yaitu dengan menghitung jumlah dari label C3, C2 dan C1 kemudian membagi masing-masing label dengan jumlah keseluruhan data training, dibawah ini terdapat contoh perhitungan prior data training :
P
(i)=Total i Total Data P ( c
3)
=182 57
=0,313 1P ( c
2)
=182 96
=0,5274
P ( c
1)
=182 29
=0,159 3
Menghitung likelihood
Setelah mendapatkan hasil dari perhitungan prior maka langkah selanjutnya yaitu menghitung likelihood atau probabilitas masing-masing fitur atau indikator. Berikut ini adalah contoh perhitungan probabilitas fitur :
Hitung P(X|Ci)
P(jml_konsumen = <=50|label = C3) = 52/57 = 0,912 P(jml_konsumen = <=50|label = C2) = 88/96 = 0,916 P(jml_konsumen = <=50|label = C1) = 28/29 = 0,965
P(jml_konsumen = 50-149|label = C3) = 5/57 = 0,087 P(jml_konsumen = 50-149|label = C2) = 8/96 = 0,083 P(jml_konsumen = 50-149|label = C1) = 1/29 = 0,034 Menghitung posteriornya
Setelah mendapatkan hasil dari probabilitas masing-masing fitur Langkah yang dilakukan selanjutnya yaitu menghitung posterior,
asil dari posterior kemudian dibandingkan. Label kelas yang memiliki nilai posterior tertinggi maka akan menjadi label dari data testing.
Berikut ini contoh perhitungan posteriornya :p ( H | X )
=P ( X | H ) P
(H
)P
(X
)Menghitung data testing berdasarkan hasil dari data training Klasifikasi data training