KOM 3 4 1
User m encari inform asi dengan m em berikan
sat u at au lebih query t erhadap koleksi t erkini.
Cont oh: m encarim ult icore com put er chips t erbaru.
Query : m ult icore AND com put er AND chip
Akan dieksekusi set iap ada penam bahan dokum en
barust anding query
Mungkin t idak m enem ukan art ikel baru lain yang
relevan, m isalnya m ult icore processors.
Gunakan Boolean: ( m ult icore OR m ult icore) AND
( chip OR processor OR m icroprocessor)
JAS - DEPT. ILMU KOMPUTER IPB 2
Cla ssifica t ion
Lebih m udah kalau dokum en
dikelom pokkan m enj adi m isalnya dua kelas, yait u dokum en t ent ang m ult icore com put er chips dan dokum en BUKAN t ent ang m ult icore com put er chips.
Kelas biasanya m eruj uk ke t opik
dokum en.
Prosesnya sering disebut sebagai t ext
classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.
JAS - DEPT. ILMU KOMPUTER IPB 3
Deskripsi dokum endX, dim ana X adalah kum pulan
dokum en.
Him punan kelas at au kat egori:
C = {c1, c2,…, cn}
Tuj uan:
Menent ukan kat egori darid: c(d)C, dim ana c(d) adalah fungsi kat egorisasi (classifier) .
Le a r n in g M e t h od
Kit a m em pelaj ari fungsi klasifikasi yang m em et akan dokum en ke kat egori t ert ent u:
: C
Disebut j uga supervised learning, karena supervisor ( orang yang m enent ukan kat egori dokum en) berperan langsung di dalam proses pem belaj aran.
Sangat akurat karena dilakukan oleh ahli.
Konsist en pada saat ukurannya kecil/ sedikit .
Sulit dan m ahal
JAS - DEPT. ILMU KOMPUTER IPB 8
M e t ode
Aut om at ic docum ent classificat ion
Hand- coded rule- based syst em s
Digu n ak an oleh CS dept ’s spam filt er , Reu t er s, CI A,
Aut om at ic docum ent classificat ion
Supervised learning
Beber apa m en ggu n ak an m ach in e lear n in g ( Au t on om y , MSN, Ver it y , En k at a, Yah oo! , …)
k- Nearest Neighbors ( sim ple, powerful)
Naive Bayes ( sim ple, com m on m et hod)
Support - vect or m achines ( new, m ore powerful)
dsb
Mem but uhkan hand- classified t raining dat a
Dat a dapat dibangun oleh am at ir
Banyak sist em kom ersial m enggunakan
m et ode cam puran
JAS - DEPT. ILMU KOMPUTER IPB 1 0
M e t ode Ba y e s
Berbasis t eori peluang
Ut am anya t eorem a Bayes
Supervised learning m et hod
Mult inom ial Naïve Bayes Model
Peluang dokum enddalam kelasc:
dim ana P( tk| c) adalah peluang t erm tkm uncul pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.
Pe nd uga a n Pa r a m e t e r
Pendugaan param et er
dim ana Ncadalah banyaknya dokum en dalam
kelas c, N adalah t ot al dokum en, Tctadalah banyaknya t dalam dokum en t raining dari kelas c.
JAS - DEPT. ILMU KOMPUTER IPB 1 3
La pla ce sm oot h in g
At au Add- One Sm oot hing.
Unt uk m enghilangkan dugaan param et er yang
bernilai nol.
TRAI NI NG SET 1 Chinese Beij ing Chinese y es
2 Chinese Chinese Shanghai y es
3 Chinese Macao y es
4 Tok y o Japan Chinese no
TEST SET 5 Chinese Chinese Chinese Tok y o Japan ?
JAS - DEPT. ILMU KOMPUTER IPB 1 5
Mult ivariat e Bernoulli Model
: rasio dokum en dari kelas c yang
m engandung t erm t . Dalam m ult inom ial didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .
JAS - DEPT. ILMU KOMPUTER IPB 1 6
Con t oh
d ocI D w or d s in d ocu m e n t in c = Ch in a ?
TRAI NI NG SET 1 Chinese Beij ing Chinese y es
2 Chinese Chinese Shanghai y es
3 Chinese Macao y es
4 Tok y o Japan Chinese no
TEST SET 5 Chinese Chinese Chinese Tok y o Japan ?
M a x im um a Post e r ior i
Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en.
Kelas t erbaik : sangat m irip at au m axim um a post eriori ( MAP) kelas cm ap:
JAS - DEPT. ILMU KOMPUTER IPB 1 9
diduga dari t raining set
M a x im u m a Post e r ior i
JAS - DEPT. ILMU KOMPUTER IPB 2 0 • Mult inom ial P( d| c) = P( < t1, …, tk, …, tnd> | c) • Bernoulli P( d| c) = P( < e1, …, ek, …, eM> | c)
Asum si Sa ling Be ba s
JAS - DEPT. ILMU KOMPUTER IPB 2 1 • Kej adian A dan B saling bebas
P( AB) = P( A,B) = P( A) .P( B)
• Maka:
M u lt in om ia l v s Be r n ou lli
JAS - DEPT. ILMU KOMPUTER IPB 2 2
Ve ct or Spa ce Cla ssifica t ion
Kla sifik a si M e n ggu n a k a n
Ru a n g Ve k t or
Set iap dokum en t raining direpresent asikan sebagai vekt or. Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai
dengan kelasnya.
JAS - DEPT. ILMU KOMPUTER IPB 2 4
Gover nment
Science
Te st D ocu m e n t = Gov e r n m e n t ?
JAS - DEPT. ILMU KOMPUTER IPB 2 5
Gover nment
Science
Ar ts Sim ilar it y h y pot h esis t r u e in gen er al?
Rocch io Cla ssifica t ion
JAS - DEPT. ILMU KOMPUTER IPB 2 6 Cent roid dari kelas c:
Rocchio Cla ssifica t ion
Bat as ant ara dua kelas adalah t it ik yang m em iliki j ar ak sam a ke kedua cent roid- nya
| a1| = | a2| , | b1| = | b2| , | c1| = | c2|
JAS - DEPT. ILMU KOMPUTER IPB 2 7
Rocch io Cla ssifica t ion
Dokum en d dikelom pokkan ke dalam kelas c
Menggunakan j arak
Menggunakan ukuran kesam aan Cosine
JAS - DEPT. ILMU KOMPUTER IPB 2 8
Cont oh
Dari cont oh sebelum nya, diperoleh:
Jarak d5t erhadap cent roid:
|c- d5|1 .1 5 dan |c- d5|0 .0 0
m aka Rocchio m engklasifikasikan d5ke kelasc ( bukan
China) .
JAS - DEPT. ILMU KOMPUTER IPB 2 9
k N e a r e st N e igh bor Cla ssifica t ion
Mengklasifikasikan dokum endke dalam kelas
c
Tent ukan k- neighborhood Nat au kNN sebagai
kt erdekat darid
Hit ung banyaknya dokum enidalamNpada
kelasc
Duga nilai P( c| d) = i/ k
Pilih
Con t oh : k = 6 ( 6 N N )
JAS - DEPT. ILMU KOMPUTER IPB 3 1
Gover nment
Science
Ar ts P( scien ce| ) ?
Uk u r a n Ke m ir ipa n
Met ode kNN t ergant ung pada ukuran kem iripan
( bisa j uga j arak) yang digunakan.
Paling sederhana adalah j arak Euclidean.
Unt uk t eks, yang paling efekt if adalah ukuran
kem iripan cosine dengan bobot vekt or t f.idf.
Skor dokum en di suat u kelas:
dim ana Ic( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0 .
JAS - DEPT. ILMU KOMPUTER IPB 3 2
Cont oh : 1 N N
JAS - DEPT. ILMU KOMPUTER IPB 3 3 Dengan m enggunaka n j arak Euclidean, m aka:
| d1- d5| = | d2- d5| = | d3-d5| = 1 .4 1 7 1 | d4- d5| = 0 .0 0 0 0
Maka d5lebih dekat ke kelas d4.
Kom bin a si M e t ode Kla sifik a si
Beberapa penelit i m enunj ukkan bahwa kom binasi beberapa classifier yang berbeda dapat
m eningkat kan akurasi.
JAS - DEPT. ILMU KOMPUTER IPB 3 4 Classifier 1 :
X class1
Classifier 2 :
X class2
Jadi, X dim asukkan kem ana?
Kom bin a si M e t ode Kla sifik a si
Sim ple vot ing
Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas ci j ika m ayorit as classifier m em asukkan dokum en t est ke kelas ci.
Dynam ic classifier select ion ( DCS)
Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.
Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN