Nama : Eka Nurhayati NIM : 22305141016 Kelas : Matematika B
Tugas 2 Data Mining
Soal Latihan Klasifikasi Naïve Bayes
Misalnya ingin diketahui apakah suatu objek masuk dalam ketegori dipilih untuk perumahan atau tidak dengan algoritma Naive Bayes Classifier. Untuk menetapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan.
Ada 4 atribut yang digunakan, yaitu :
• harga tanah per meter persegi (C1)
• jarak daerah tersebut dari pusat kota (C2)
• ada atau tidaknya angkutan umum di daerah tersebut (C3), dan
• keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4) Data Set (Training)
Aturan ke- Harga tanah (C1)
Jarak dari pusat kota
(C2)
Ada angkutan umum
(C3)
Dipilih untuk perumahan
(C4)
1 Murah Dekat Tidak Ya
2 Sedang Dekat Tidak Ya
3 Mahal Dekat Tidak Ya
4 Mahal Jauh Tidak Tidak
5 Mahal Sedang Tidak Tidak
6 Sedang Jauh Ada Tidak
7 Murah Jauh Ada Tidak
8 Murah Sedang Tidak Ya
9 Mahal Jauh Ada Tidak
10 Sedang Sedang Ada Ya
Data Test :
apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum
Tentukan Klasifikasi pemilihan perumahan untuk data test di atas.
Jawaban hitungan manual penyelesaian soal Keterangan
Terdapat dua class dari klasifikasi yang dibentuk yaitu : C1 => dipilih untuk perumahan = ya
C2 => dipilih untuk perumahan = tidak
Misal terdapat data X (belum diketahui class-nya)
X = (harga tanah=”mahal”, jarak dari pusat kota=”sedang”, ada angkutan umum=”ada”) Penyelesaian (1)
Dibutuhkan untuk memaksimalkan 𝑃(𝑋|𝐶𝑖) 𝑃(𝐶𝑖) 𝑢𝑛𝑡𝑢𝑘 𝑖 = 1, 2
𝑃(𝐶𝑖) merupakan prior probability untuk setiap class berdasar data contoh :
𝑃(𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = "ya") = 5
10= 0.5 𝑃(𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = "tidak") = 5
10= 0.5
Hitung 𝑃(𝑋|𝐶𝑖), 𝑢𝑛𝑡𝑢𝑘 𝑖 = 1, 2
𝑃(ℎ𝑎𝑟𝑔𝑎 𝑡𝑎𝑛𝑎ℎ = mahal |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) =1
5= 0.2 𝑃(ℎ𝑎𝑟𝑔𝑎 𝑡𝑎𝑛𝑎ℎ = mahal |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) =3
5= 0.6 𝑃(𝑗𝑎𝑟𝑎𝑘 𝑑𝑎𝑟𝑖 𝑝𝑢𝑠𝑎𝑡 𝑘𝑜𝑡𝑎 = sedang |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) =2
5 = 0.4 𝑃(𝑗𝑎𝑟𝑎𝑘 𝑑𝑎𝑟𝑖 𝑝𝑢𝑠𝑎𝑡 𝑘𝑜𝑡𝑎 = sedang |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) =1
5= 0.2 𝑃(𝑎𝑑𝑎 𝑎𝑛𝑔𝑘𝑢𝑡𝑎𝑛 𝑢𝑚𝑢𝑚 = ada |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) =1
5= 0.2 𝑃(𝑎𝑑𝑎 𝑎𝑛𝑔𝑘𝑢𝑡𝑎𝑛 𝑢𝑚𝑢𝑚 = ada |𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) = 3
5= 0.6
Penyelesaian (2)
𝑃(𝑋|𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) = 0.2 × 0.4 × 0.2 = 0.016
𝑃(𝑋|𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) = 0.6 × 0.2 × 0.6 = 0.072
𝑃(𝑋|𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) 𝑃(𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = ya) = 0.016 × 0.5 = 0.008 𝑃(𝑋|𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) 𝑃(𝑑𝑖𝑝𝑖𝑙𝑖ℎ 𝑢𝑛𝑡𝑢𝑘 𝑝𝑒𝑟𝑢𝑚𝑎ℎ𝑎𝑛 = tidak) = 0.072 × 0.5 = 0.036
Kesimpulan : dipilih untuk perumahan = tidak
Nilai TIDAK didapatkan 0.036. Dengan demikian kesimpulan dipilih untuk perumahan berstatus TIDAK.
Screenshoot Script Coding Python :
Screenshoot Output Coding Python