KLASIFIKASI PADA TEXT MINING

(1)

KLASIFIKASI PADA

TEXT MINING

(2)

Tujuan



Memahami konsep dasar sistem klasifikasi



Memahami beberapa algoritma klasifikasi:

◦

KNN

◦

Naïve Bayes

◦

Decision Tree



Menjelaskan implementasi algoritma

klasifikasi pada text corpus.

(3)

Pendahuluan



Masalah klasifikasi adalah bagaimana

menentukan suatu objek masuk ke suatu

class yang sebenarnya.

◦

Dalam text mining, suatu class lebih bersifat

area subjek umum. (disebut juga

Topik

).

◦

Pekerjaan klasifikasi disebut sebagai

text

classification

,

text categorization

,

topic

classification

, atau

topic spotting

.

(4)

Contoh Implementasi



Identifikasi bahasa suatu dokumen



Mendeteksi encoding dokumen



Mendeteksi otomatis halaman/email spam



Sentiment detection



Personal email sorting



Topic-specific (vertical search)

(5)

Machine Learning



Klasifikasi dilakukan berdasar pembelajaran

dari kumpulan dokumen untuk mendapatkan

suatu pola tiap class.

◦

Pola dapat berupa suatu rule



Pembelajaran untuk mendapatkan pola atau

kriteria keputusan suatu class oleh komputer

dilakukan dengan cara “mempelajari” secara

otomatis dari data pelatihan (

training data

).

◦

Jika menggunakan metode statisik, disebut

(6)

Machine Learning



Diperlukan sejumlah dokumen (training

document) yang sangat baik untuk tiap class.

◦

Harus dilakukan dengan cara manual terkait

pemberian label class tiap training document.



Aktifitas ini disebut

labeling



Semua algoritma klasifikasi dalam text mining

mewakili dokumen dalam suatu ruang

dimensi yang tinggi.

◦

Untuk mengifisiensikan, diperlukan pengurangan

dimensi



Disebut dengan

feature selection

.

(7)

Konsep Dasar



Supervised learning



Setelah mempelajari , kita dapat

menerapkannya untuk himpunan

dokumen test.

γ

:

_{Χ →}

C

(8)

Proses Klasifikasi

(9)

Naïve Bayes Text Classification



Menurut metode multinomial Naïve Bayes,

probabilitas suatu dokumen,

d

, sebagai bagian dari

anggota class

c

dihitung sebagai:

◦

P(t

_k

|c) adalah probabilitas kondisi kemunculan term t

_k

dalam sebuah dokumen class c.



Seberapa yakin t

_k

berkontribusi bahwa c adalah kelas yang benar

◦

P(c) adalah probabilitas kemunculan sebuah dokumen

dalam kelas c.

(10)

Naïve Bayes Text Classification



Sebuah dokumen test terpilih masuk sebagai

anggota suatu class terbaik jika memiliki

maximum a posteriori (MAP) kelas c

_map

:

(11)

(12)

Contoh

(13)

Feature Selection



Feature Selection adalah proses pemilihan

sebuah subset term yang muncul dalam

himpunan training.

◦

Klasifikasi teks hanya akan menggunakan hasil

feature selection.

◦

Alasan:



Agar metode pengklasifikasian lebih efisien dengan

mengurangi ukuran

vocabulary

.



Meningkatkan akurasi klasifikasi dengan membuang

(14)

Feature Selection



Algoritma dasar:

(15)

Feature Selection: Mutual

Information



A(t,c) nilai mutual information dari term t dan

class c.



MI mengukur seberapa besar kontribusi ada/

tidaknya suatu term, t, dalam pembuatan

keputusan klasifikasi yang benar, c.

(16)

Contoh MI



Class

poultry

dan term

export

:

(17)

Feature Selection:



Pada statistik, test digunakan untuk

menguji independensi antar dua kejadian.

◦

Dua kejadian, A dan B, dikatakan independen

jika P(AB)=P(A)P(B).



A adalah kemunculan term



B adalah kemunculan class

χ

2

(18)

Contoh



Berdasar contoh data slide 16

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

(19)

Feature Selection: Frequency-based



Memilih term-term yang paling umum dalam

kelas.



Frekuensi dapat didefinisikan sebagai

frekuensi dokumen

◦

Jumlah dokumen dalam kelas, c, yang mengandung

term, t.



Frekuensi dapat didefinisikan sebagai

frekuensi koleksi

◦

Jumlah token-token, t, yang muncul di

dokumen-dokumen dalam kelas, c.

(20)

Decision Tree



Decision Tree dibangun dengan cara

membagi data pelatihan sehingga hasil

subset adalah

pure

.

◦

pure subset

adalah salah satu yang berisi

contoh pelatihan dari suatu kelas tunggal.



Sebuah decision tree dapat diubah

menjadi himpunan aturan

if-then

.

◦

Setiap aturan yang dihasilkan bersifat

mutually

exclusive

dan lengkap.



Setiap instan data dicakup oleh sebuah aturan

tunggal.

(21)

(22)

Decision Tree



Salah satu hal terpenting dalam

pembentukan decission tree adalah

pemilihan

impurity function

.

◦

Fungsi yang meminimalkan impurity setelah

pembagian.



Impurity function yang terkenal:

◦

Information gain dan information gain ratio.

(23)

Information Gain (IG)



Diberikan himpunan data,

D

, hidtung impurity D dengan

entropy(D)

:



Evaluasi tiap atribut untuk menemukan atribut mana yang terpilih

mengurangi impurity.

(24)

Contoh

(25)

Contoh



Entropy(D) = entropy([9,5]) = 0.940 bit



Entropy(A

_outlook

, D) = (5/14)

×

0.971 + (4/14)

×

0 + (5/14)

×

0.971 = 0.693 bit



Gain(outlook) = Entropy(D) - Entropy(A

_outlook

, D) = 0.247 bit



Hitunglah IG untuk atribut yang lain:

◦

Gain(temperature) = ?

◦

Gain(humidity) = ?

(26)

k-NN



Pada kNN, setiap dokumen dimasukkan dalam satu kelas

yang muncul terbanyak di antara

k

tetangga terdekatnya.



Sebuah dokumen uji,

d

, diharapkan memiliki label kelas

yang sama dengan dokumen latih yang berada pada satu

area lokal disekitar

d

.

(27)

k-NN



Terdapat alternatif probabilistik untuk memperkirakan

keanggotaan kelas sebuah dokumen uji.

◦

P(lingkaran|bintang) = 1/3

◦

P(X|bintang) = 2/3

◦

P(diamond|bintang) = 0



Pemilihan nilai k disarakan bernilai ganjil, k=3 dan k=5

umum digunakan.

◦

Namun nilai k besar juga digunakan, antara 50-100.



Penghitungan dokumen latih yang dekat dengan

dokumen uji dapat digunakan Euclidean, Minkowski

Distance.



Untuk mengukur bobot “vote” untuk k-NN, dapat

(28)

Algoritma k-NN

(29)

Contoh

!nggi

berat

label

160

80 O

150

45 N

145

44 N

148

75 O

158

56 N

175

80 O

165

70 ???

(30)

Evaluasi



Accuracy

◦

(Jumlah terklasifikasi benar/total

dokumen)*100



Metode evaluasi:

◦

Holdout set (test set)



D=D

_train

_∪

D

_test

, dan D

_tran

_∩

D

_test

=

_∅

.



Biasanya 50-50, atau 2/3 train dan 1/3 test.

◦

n-fold Cross-validation

(31)

Evaluasi



Jika pengklasifikasian dilakukan terhadap

topik tertentu, misalnya positif jika benar

masuk ke topik, dan negatif jika tidak.

◦

Pengukuran akurasi dipandang tidak optimal, jika

ternyata terdapat dokumen uji yang

“mengganggu”



Pengukuran Recall dan Precision lebih

optimal.

◦

Menghitung seberapa tepat dan lengkap klasifikasi

terhadap kelas positif.

◦

Menggunakan confusion matrix



Berisi informasi hasil aktual dan prediksi yang dihasilkan

(32)

Evaluasi



Confusion Matrix

(33)

TERIMA KASIH.

KLASIFIKASI PADA TEXT MINING