BAB II LANDASAN TEORI
2.2 Teorema Bayesian
2.2.1. Pengertian Teorema Bayesian
Teori keputusan Bayes atau sering disebut teorema Bayes adalah pendekatan statistic yang fundamental dalam pengenalan pola atau pattern recognition (Santosa, 2007). Pendekatan teorema Bayes ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam keputusan-keputusan tersebut.
Jika X adalah bukti atau kumpulan data pelatihan, 𝑌� adalah hipotesi, dan jika class variable memiliki hubungan tidak deterministic dengan atribut, maka dapat diperlukan X dan 𝑌� sebagai atribut acak dan menangkap hubungan peluang menggunakan 𝑃� 𝑌� 𝑋�. Peluang bersyarat ini juga dikenal dengan probabilitas posterior untuk 𝑌�, dan P(𝑌�) adalah probabilitas prior.
Untuk mengestimasi peluang posterior secara akurat untuk setiap kombinasi label kelas yang mungkin dan nilai atribut adalah masalah sulit karena membutuhkan training set sangat besar, meski untuk jumlah moderate atribut. Penggunaan teorema Bayes untuk melakukan klasifikasi sangat bermanfaat karena menyediakan pernyataan istilah peluang posterior dari peluang prior (𝑌�), peluang
kelas bersyarat 𝑋� 𝑌� dan bukti (𝑋�) seperti pada rumus 2.1 berikut: (Han & Kamber, 2006)
... (2.1)
dalam hal ini:
X = Himpunan data training. Y = Hipotesis.
(𝑌�|𝑋�) = Probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis Y berdasarkan kondisi X.
(𝑌�) = Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa hipotesis Y bernilai benar sebelum data X muncul.
(𝑋�) = Probabilitas dari data X.
(𝑋�|𝑌�) = Probabilitas bersyarat dari X berdasarkan kondisi pada hipotesis Y, dan biasa disebut dengan likelihood. Likelihood ini mudah untuk dihitung ketika memberikan nilai 1 saat X dan Y konsisten, dan memberikan nilai 0 saat X dan Y tidak konsisten.
2.2.2. Klasifikasi Naïve Bayesian
Klasifikasi Naïve Bayesian merupakan salah satu metod pengklasifikasian yang berdasarkan pada penerapan teorema Bayes dengan asumsi antara atribut penjelas saling bebas (independen). Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman dimasa sebelumnya. Klasifikasi naïve bayesian diasumsikan dimana nilai atribut dari sebuah kelas dianggap terpisah dan independen dengan nilai atribut lainnya, kondisi seperti ini dinyatakan dengan rumus 2.2 seperti berikut ini: (Han & Kamber, 2006)
... (2.2) Keterangan:
Y = Hipotesis.
(𝑌�|𝑋�) = Probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis Y berdasarkan kondisi X
(𝑌�) = Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa hipotesis Y bernilai benar sebelum data X muncul.
(𝑋�) = Probabilitas dari data X.
(𝑋�1|𝑌�), (𝑋�2|𝑌�), (𝑋�𝑛�|𝑌�) = Probabilitas dari X1, X2, Xn untuk hipotesis Y, biasa disebut dengan likelihood. Karena P(X) irrelevant, maka untuk mencari peluang hanya menggunakan rumus berikut ini: (Han & Kamber, 2006)
... (2.3) Jika ada P(Xn|Y) yang memiliki nilai 0, maka P(Y\X) = 0. Maka klasifikasi naïve bayesian tidak bisa memprediksi record yang salah satu atributnya memiliki probabilitas bersyarat (likelihood) = 0. Untuk mengatasi hal itu, dilakukan penambahan nilai 1 ke setiap evidence dalam perhitungan sehingga probabilitas tidak akan bernilai 0. Langkah ini sering disebut laplace estimator dengan rumus sebagai berikut: (Santosa, 2007)
... (2.4) dimana:
n = total jumlah instances dari kelas Yj.
nc = jumlah contoh training dari Yj yang menerima nilai Xi.
m = parameter yang dikenal sebagai ukuran sampel ekuivalen.
Cara kerja klasifikasi naïve bayesian: (Santosa, 2007)
1. Misalkan 𝑋� adalah kumpulan data pelatihan dari tuple dan 𝑋� berhubungan dengan label kelas.
2. Andaikan ada 𝑛� kelas, 𝑦�1, 𝑦�2, … , 𝑦�𝑛�. Jika disediakan tuple x, klasifikasi naïve bayesian memprediksi x ke dalam kelas yang mempunyai probabilitas posterior tertinggi. Maka penggolong naïve bayesian memprediksi tuple x termasuk ke dalam kelas 𝑦�𝑖�
... (2.5) Dengan demikian (y𝑖�|x) akan dimaksimalkan. Kelas 𝑦�𝑖� untuk setiap (y𝑖�|x) yang dimaksimalkan dinamakan maximum posteriori hypothesis. Berdasarkan teorema bayes adalah:
... (2.6) 3. Selama P(x) konstan untuk semua kelas maka hanya P(x|yi)P(y)
yang dimaksimalkan. Jika kelas probabilitas prior tidak diketahui, maka kelas-kelas tersebut diasumsikan sama, yaitu P(y1) = P(y2) = … = P(yn). Oleh karena itu, P(x|yi) akan dimaksimalkan. Jika tidak, P(x|yi)P(y) yang akan dimaksimalkan.
2.2.3. Contoh Kasus Klasifikasi Naïve Bayesian
Pada tabel 2.1 adalah contoh kasus yang akan diselesaikan dengan algoritma naïve bayesian.
Tabel 2.1 Data Status Membeli Motor
Id-Pelanggan Pendapatan Peringkat Kredit Status Membeli Motor
Honda-001 Tinggi Bagus Ya
Honda-002 Rendah Cukup Tidak
Honda-003 Rendah Bagus Ya
Honda-004 Sedang Cukup Ya
Honda-005 Tinggi Bagus Tidak
Honda-006 Tinggi Cukup Tidak
Honda-007 Sedang Bagus Tidak
Honda-008 Sedang Bagus Ya
Honda-009 Tinggi Cukup Ya
Tabel 2.1 memperlihatkan data training dengan atribut: pendapatan dan peringkat kredit. Sedangkan atribut label kelas adalah status membeli motor. Berikut ini adalah penyelesaian contoh kasus mengguakan algoritma naïve bayesian:
Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu: C1 = Membeli Motor = Ya
C2 = Membeli Motor = Tidak
Data yang akan diklasifikasikan adalah X = (Pendapatan = “Tinggi”, Peringkat Kredit = “Cukup”).
Langkah-langkah Perhitungan, sebagai berikut: 1. Mencari P(Ci), sebagai berikut:
P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu:
P(Ci) = jumlah�kejadian�Ci jumlah�total�kejadian P(C1) = 5/9 = 0.556 P(C2) = 4/9 = 0.444
2. Untuk menghitung 𝑃� 𝑥� 𝑦�𝑖� , untuk i=1,2 akan dihitung probabilitas bersyarat (likelihood), sebagai berikut:
P(Xj|Ci) = 𝑃(𝑋𝑗∩𝐶𝑖)𝑥𝑃(𝑋𝑗) 𝑃(𝐶𝑖)
Likelihood Untuk atribut Pendapatan (X1) = “Tinggi”.
P(X1|C1) = 2 4𝑥49 5 9 = 2 5 = 0.400 P(X1|C2) = 2 4𝑥49 4 9 = 2 4 = 0.500
Likelihood Untuk atribut Peringkat Kredit (X2) = “Cukup”.
P(X2|C1) = 2 4𝑥49 5 9 = 2 5 = 0.400 P(X2|C2) = 2 4𝑥49 4 9 = 2 4 = 0.500 Laplace Estimator
Bila ditemukan salah satu atribut yang memiliki probabilitas bersyarat (likelihood)=0, maka dilakukan penambahan nilai satu ke setiap evidence sehingga tidak ada probabilitas yang akan bernilai 0. Pada kasus di atas tidak mengimplementasikan laplace estimator, karena tidak ada atribut nilai likelihood=0.
3. Menghitung P(X|Ci), sebagai berikut:
P(X| Membeli Motor = “Ya”) = 0.400 x 0.400 = 0.160 P(X| Membeli Motor = “Tidak”) = 0.500 x 0.500 = 0.250
4. Dari probabilitas-probabilitas tersebut, maka dilanjutkan dengan menghitung P(X|Ci) x P(Ci), sebagai berikut:
P(X|Membeli Motor = “Ya”) x P(Membeli Motor = “Ya”) = 0.160 x 0.556 = 0.089
P(X|Membeli Motor = “Tidak”) x P(Membeli Motor = “Tidak”) = 0.250 x 0.444 = 0.111
5. Hasil persentasi kedua prediksi diatas, sebagai berikut:
Untuk membeli motor =”Ya” adalah: 0.089/(0.089+0.111) x 100% = 44.5%
Untuk membeli Motor =”Tidak” adalah: 0.111/(0.111+0.089+) x 100% = 55.5%
6. Kesimpulan, sebagai berikut:
Dari hasil P(X|Ci) x P(Ci) di atas dapat disimpulkan bahwa data X termasuk ke dalam kelas membeli motor = “Tidak”, karena data yang digunakan adalah data yang memiliki nilai peluang terbesar atau maksimal yaitu = 0.111.
2.2.4. Karakteristik Klasifikasi Naïve Bayesian
Naïve bayesian Classifier umumnya memiliki karakteristik sebagai berikut: (Santosa, 2007)
1. Kokoh untuk atribut irrelevant, jika Xi adalah atribut yang irrelevant, maka (𝑋�i|𝑌�) menjadi hampir didistribusikan seragam. Peluang kelas bersyarat untuk 𝑋�i tidak berdampak pada keseluruhan perhitungan peluang posterior.
2. Atribut yang dihubungkan dapat menurunkan kemampuan klasifikasi naïve bayesian karena asumsi independen bersyarat tidak lagi menangani atribut tersebut.
2.2.5. Kelebihan dan Kekurangan Klasifikasi Naïve bayesian
Algoritma naïve bayesian memiliki beberapa kelebihan dan kekurangan yaitu sebagai berikut: (Santosa, 2007)
Kelebihan naïve bayesian, antara lain: 1. Menangani kuantitatif dan data diskrit.
2. Hanya memerlukan sejumlah kecil data pelatihan (training) untuk mengestimasi parameter yang dibutuhkan untuk klasifikasi. 3. Kokoh terhadap atribut yang tidak relevan.
Kekurangan naïve bayesian, antara lain: (Santosa, 2007)
1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga.
2. Mengasumsikan variabel bebas.