KLASIFIKASI PADA
TEXT MINING
Tujuan
Memahami konsep dasar sistem klasifikasi
Memahami beberapa algoritma klasifikasi:
◦
KNN
◦
Naïve Bayes
◦
Decision Tree
Menjelaskan implementasi algoritma
klasifikasi pada text corpus.
Pendahuluan
Masalah klasifikasi adalah bagaimana
menentukan suatu objek masuk ke suatu
class yang sebenarnya.
◦
Dalam text mining, suatu class lebih bersifat
area subjek umum. (disebut juga
Topik
).
◦
Pekerjaan klasifikasi disebut sebagai
text
classification
,
text categorization
,
topic
classification
, atau
topic spotting
.
Contoh Implementasi
Identifikasi bahasa suatu dokumen
Mendeteksi encoding dokumen
Mendeteksi otomatis halaman/email spam
Sentiment detection
Personal email sorting
Topic-specific (vertical search)
Machine Learning
Klasifikasi dilakukan berdasar pembelajaran
dari kumpulan dokumen untuk mendapatkan
suatu pola tiap class.
◦
Pola dapat berupa suatu rule
Pembelajaran untuk mendapatkan pola atau
kriteria keputusan suatu class oleh komputer
dilakukan dengan cara “mempelajari” secara
otomatis dari data pelatihan (
training data
).
◦
Jika menggunakan metode statisik, disebut
Machine Learning
Diperlukan sejumlah dokumen (training
document) yang sangat baik untuk tiap class.
◦
Harus dilakukan dengan cara manual terkait
pemberian label class tiap training document.
Aktifitas ini disebut
labeling
Semua algoritma klasifikasi dalam text mining
mewakili dokumen dalam suatu ruang
dimensi yang tinggi.
◦
Untuk mengifisiensikan, diperlukan pengurangan
dimensi
Disebut dengan
feature selection
.
Konsep Dasar
Supervised learning
Setelah mempelajari , kita dapat
menerapkannya untuk himpunan
dokumen test.
γ
:
Χ →
C
Proses Klasifikasi
Naïve Bayes Text Classification
Menurut metode multinomial Naïve Bayes,
probabilitas suatu dokumen,
d
, sebagai bagian dari
anggota class
c
dihitung sebagai:
◦
P(t
k
|c) adalah probabilitas kondisi kemunculan term t
k
dalam sebuah dokumen class c.
Seberapa yakin t
kberkontribusi bahwa c adalah kelas yang benar
◦
P(c) adalah probabilitas kemunculan sebuah dokumen
dalam kelas c.
Naïve Bayes Text Classification
Sebuah dokumen test terpilih masuk sebagai
anggota suatu class terbaik jika memiliki
maximum a posteriori (MAP) kelas c
map
:
Contoh
Feature Selection
Feature Selection adalah proses pemilihan
sebuah subset term yang muncul dalam
himpunan training.
◦
Klasifikasi teks hanya akan menggunakan hasil
feature selection.
◦
Alasan:
Agar metode pengklasifikasian lebih efisien dengan
mengurangi ukuran
vocabulary
.
Meningkatkan akurasi klasifikasi dengan membuang
Feature Selection
Algoritma dasar:
Feature Selection: Mutual
Information
A(t,c) nilai mutual information dari term t dan
class c.
MI mengukur seberapa besar kontribusi ada/
tidaknya suatu term, t, dalam pembuatan
keputusan klasifikasi yang benar, c.
Contoh MI
Class
poultry
dan term
export
:
Feature Selection:
Pada statistik, test digunakan untuk
menguji independensi antar dua kejadian.
◦
Dua kejadian, A dan B, dikatakan independen
jika P(AB)=P(A)P(B).
A adalah kemunculan term
B adalah kemunculan class
χ
2
Contoh
Berdasar contoh data slide 16
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18