KOM 3 4 1
Te m u Ke m ba li I n for m a si
KULI AH # 7 • Text Classificat ion
Ad H oc Re t r ie va l
User m encari inform asi dengan m em berikan sat u at au lebih query t erhadap koleksi t erkini.
Cont oh: m encari m ult icore com put er chips
t erbaru.
Query : m ult icore AND com put er AND chip
Akan dieksekusi set iap ada penam bahan dokum en
baru Æst anding query
Mungkin t idak m enem ukan art ikel baru lain yang
relevan, m isalnya m ult icore processors. Gunakan Boolean: ( m ult icore OR m ult i- core) AND
( chip OR processor OR m icroprocessor)
JAS - DEPT. I LMU KOMPUTER I PB 2
Cla ssifica t ion
Lebih m udah kalau dokum en
dikelom pokkan m enj adi m isalnya dua kelas, yait u dokum en t ent ang m ult icore com put er chips dan dokum en BUKAN
t t lt i t hi
t ent ang m ult icore com put er chips.
Kelas biasanya m eruj uk ke t opik dokum en.
Prosesnya sering disebut sebagai t ext classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.
JAS - DEPT. I LMU KOMPUTER I PB 3
Ca t e gor iz a t ion / Cla ssifica t ion
Given:
Deskripsi dokum end∈X, dim ana X adalah kum pulan
dokum en.
Him punan kelas at au kat egori:
C = {c1, c2,…, cn}
C {c1, c2,…, cn}
Tuj uan:
Menent ukan kat egori darid: c(d)∈C, dim ana c(d) adalah fungsi kat egorisasi (classifier) .
JAS - DEPT. I LMU KOMPUTER I PB 4
D ocu m e n t Cla ssifica t ion
“planning language proof intelligence”
Test Data:
(AI) (Programming) (HCI)
Multimedia GUI Garb.Coll.
Semantics ML Planning
planning temporal reasoning plan language...
programming semantics language proof... learning
intelligence algorithm reinforcement network...
garbage collection memory optimization region...
Training Data: Classes:
... ...
Le a r n in g M e t h od
Kit a m em pelaj ari fungsi klasifikasi yang m em et akan dokum en ke kat egori t ert ent u:
γ: Χ →C
M e t ode
Manual
Digunakan oleh Yahoo! , Looksm art , about .com , ODP,
Medline
Sangat akurat karena dilakukan oleh ahli.
Konsist en pada saat ukurannya kecil/ sedikit
Konsist en pada saat ukurannya kecil/ sedikit .
Sulit dan m ahal
JAS - DEPT. I LMU KOMPUTER I PB 7
M e t ode
Aut om at ic docum ent classificat ion
Hand- coded rule- based syst em s
Digunakan oleh CS dept ’s spam filt er , Reut ers, CI A, Verit y, …
Masukkan ke kat egori j ika dokum en m engandung g j g g kom binasi kat a t ert ent u.
Akurasi t inggi j ika rule dibuat dengan sangat baik oleh ahli dan kom pleks.
JAS - DEPT. I LMU KOMPUTER I PB 8
M e t ode
Aut om at ic docum ent classificat ion
Supervised learning
Beberapa m enggunakan m achine learning ( Aut onom y, MSN, Verit y, Enkat a, Yahoo! , …)
k - Nearest Neighbors ( sim ple, powerful) Naiv e Bayes ( sim ple, com m on m et hod) Support - v ect or m achines ( new , m ore pow erful) dsb
Mem but uhkan hand- classified t raining dat a Dat a dapat dibangun oleh am at ir
Banyak sist em kom ersial m enggunakan m et ode cam puran
JAS - DEPT. I LMU KOMPUTER I PB 9
M e t ode Ba ye s
Berbasis t eori peluang
Ut am anya t eorem a Bayes
Supervised learning m et hod
Mult inom ial Naïve Bayes Model
Peluang dokum enddalam kelasc: pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.
∏
Pendugaan param et er
,
dim ana Ncadalah banyaknya dokum en dalam kelas c, N adalah t ot al dokum en, Tctadalah banyaknya t dalam dokum en t raining dari kelas c.
La pla ce sm oot h in g
At au Add- One Sm oot hing.
Unt uk m enghilangkan dugaan param et er yang bernilai nol.
1
TRAI NI NG SET 1 Chinese Beij ing Chinese yes
2 Chinese Chinese Shanghai yes
3 Chinese Macao yes
4 Tok yo Japan Chinese no
4 Tok yo Japan Chinese no
TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?
JAS - DEPT. I LMU KOMPUTER I PB 14
Kej adian Bernoulli
Mult ivariat e Bernoulli Model
: rasio dokum en dari kelas c yang
didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .
JAS - DEPT. I LMU KOMPUTER I PB 15
Con t oh
docI D w or ds in docu m e n t in c = Ch in a ?
TRAI NI NG SET 1 Chinese Beij ing Chinese yes
2 Chinese Chinese Shanghai yes
3 Chinese Macao yes
4 Tok yo Japan Chinese no
4 Tok yo Japan Chinese no
TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?
JAS - DEPT. I LMU KOMPUTER I PB 16 ( bukan China)
022
Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en.
M a x im u m a Post e r ior i
) ( ) | ( max arg
) (
) ( ) | ( max arg ) | ( max arg
c P c d P
d P
c P c d P d
c P c
C c
C c C
c map
∈
∈ ∈
=
= =
JAS - DEPT. I LMU KOMPUTER I PB 19
• Mult inom ial P( d| c) = P( < t1, …, tk, …, tnd> | c)
• Bernoulli P( d| c) = P( < e1, …, ek, …, eM> | c)
Asu m si Sa lin g Be ba s
• Kej adian A dan B saling bebas P( A∩B) = P( A,B) = P( A) .P( B)
• Maka:
JAS - DEPT. I LMU KOMPUTER I PB 20
∏
∏
≤ ≤
≤ ≤
= =
=
= =
=
M i
i i M
n k
k k n
c e U P c e e P c d P Bernoulli
c t X P c t t P c d P l Multinomia
d d
1 1
1 1
) | ( ) | ,..., ( ) | (
) | ( ) | ,..., ( ) | ( • Maka:
M u lt in om ia l vs Be r n ou lli
JAS - DEPT. I LMU KOMPUTER I PB 21
V e ct or Spa ce Cla ssifica t ion
Kla sifik a si M e n ggu n a k a n
Ru a n g V e k t or
Set iap dokum en t raining direpresent asikan sebagai vekt or. Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai
dengan kelasnya.
Government Science Arts
Te st D ocu m e n t = Gove r n m e n t ?
Sim ilar it y hypot hesis t rue in general?
Rocch io Cla ssifica t ion
Cent roid dari kelas c:
∑
=
D d
d
v
D
c
)
1
(
)
(
r
r
µ
JAS - DEPT. I LMU KOMPUTER I PB 25
∈Dc d c
D
Rocch io Cla ssifica t ion
Bat as ant ara dua kelas adalah t it ik yang m em ilik i j arak sam a ke kedua
t id Æ
cent roid- nyaÆ
| a1| = | a2| , | b1| = | b2| , | c1| = | c2|
JAS - DEPT. I LMU KOMPUTER I PB 26
Rocch io Cla ssifica t ion
Dokum en d dikelom pokkan ke dalam kelas c
Menggunakan j arak
)
(
min
arg
µ
r
−
v
r
d
Menggunakan ukuran kesam aan Cosine
JAS - DEPT. I LMU KOMPUTER I PB 27
)
(
min
arg
cv
d
c
µ
))
(
),
(
cos(
max
arg
c
v
d
c
r
r
µ
Con t oh
Dari cont oh sebelum nya, diperoleh:
Jarak d5t erhadap cent roid: |µc- d5|≈1.15 dan |µ¬c- d5|≈0.00
m aka Rocchio m engklasifikasikan d5ke kelas¬c ( bukan
China) .
JAS - DEPT. I LMU KOMPUTER I PB 28
k N e a r e st N e igh bor Cla ssifica t ion
Mengklasifikasikan dokum endke dalam kelas c
Tent ukan k- neighborhood Nat au kNN sebagai k t erdekat darid
Hit ung banyaknya dokum enidalam N pada
kelasc
Duga nilai P( c| d) = i/ k
Pilih
)
|
(
max
arg
P
c
d
c
C c map
∈
=
Con t oh : k = 6 ( 6 N N )
P( science| ) ?
Uk u r a n Ke m ir ipa n
Met ode kNN t ergant ung pada ukuran kem iripan ( bisa j uga j arak) yang digunakan.
Paling sederhana adalah j arak Euclidean.
Unt uk t eks, yang paling efekt if adalah ukuran kem iripan cosine dengan bobot vekt or t f idf kem iripan cosine dengan bobot vekt or t f.idf.
Skor dokum en di suat u kelas:
dim ana Ic( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0.
JAS - DEPT. I LMU KOMPUTER I PB 31
Con t oh : 1 N N
JAS - DEPT. I LMU KOMPUTER I PB 32
Dengan m enggunakan j arak Euclidean, m aka: | d1- d5| = | d2- d5| = | d3- d5| = 1.4171 | d4- d5| = 0.0000
Maka d5lebih dekat ke kelas d4.
Kom bin a si M e t ode Kla sifik a si
Beberapa penelit i m enunj ukkan bahw a kom binasi beberapa classifier yang berbeda dapat
m eningkat kan akurasi.
Classifier 1:
JAS - DEPT. I LMU KOMPUTER I PB 33
X Æclass1
Classifier 2:
X Æclass2
Jadi, X dim asukkan kem ana?
Kom bin a si M e t ode Kla sifik a si
Sim ple vot ing
Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas ci j ika m ayor it as classifier m em asukkan dokum en t est ke kelas ci.
Dynam ic classifier select ion ( DCS)
Dynam ic classifier select ion ( DCS)
Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.
Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN