• Tidak ada hasil yang ditemukan

JULIO ADISANTOSO - ILKOM IPB

N/A
N/A
Protected

Academic year: 2018

Membagikan "JULIO ADISANTOSO - ILKOM IPB"

Copied!
6
0
0

Teks penuh

(1)

KOM 3 4 1

Te m u Ke m ba li I n for m a si

KULI AH # 7 • Text Classificat ion

Ad H oc Re t r ie va l

† User m encari inform asi dengan m em berikan sat u at au lebih query t erhadap koleksi t erkini.

† Cont oh: m encari m ult icore com put er chips

t erbaru.

„ Query : m ult icore AND com put er AND chip

„ Akan dieksekusi set iap ada penam bahan dokum en

baru Æst anding query

„ Mungkin t idak m enem ukan art ikel baru lain yang

relevan, m isalnya m ult icore processors. „ Gunakan Boolean: ( m ult icore OR m ult i- core) AND

( chip OR processor OR m icroprocessor)

JAS - DEPT. I LMU KOMPUTER I PB 2

Cla ssifica t ion

†Lebih m udah kalau dokum en

dikelom pokkan m enj adi m isalnya dua kelas, yait u dokum en t ent ang m ult icore com put er chips dan dokum en BUKAN

t t lt i t hi

t ent ang m ult icore com put er chips.

†Kelas biasanya m eruj uk ke t opik dokum en.

†Prosesnya sering disebut sebagai t ext classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.

JAS - DEPT. I LMU KOMPUTER I PB 3

Ca t e gor iz a t ion / Cla ssifica t ion

† Given:

„ Deskripsi dokum endX, dim ana X adalah kum pulan

dokum en.

„ Him punan kelas at au kat egori:

C = {c1, c2,…, cn}

C {c1, c2,…, cn}

† Tuj uan:

„ Menent ukan kat egori darid: c(d)∈C, dim ana c(d) adalah fungsi kat egorisasi (classifier) .

JAS - DEPT. I LMU KOMPUTER I PB 4

D ocu m e n t Cla ssifica t ion

“planning language proof intelligence”

Test Data:

(AI) (Programming) (HCI)

Multimedia GUI Garb.Coll.

Semantics ML Planning

planning temporal reasoning plan language...

programming semantics language proof... learning

intelligence algorithm reinforcement network...

garbage collection memory optimization region...

Training Data: Classes:

... ...

Le a r n in g M e t h od

† Kit a m em pelaj ari fungsi klasifikasi yang m em et akan dokum en ke kat egori t ert ent u:

γ: Χ →C

(2)

M e t ode

† Manual

„ Digunakan oleh Yahoo! , Looksm art , about .com , ODP,

Medline

„ Sangat akurat karena dilakukan oleh ahli.

„ Konsist en pada saat ukurannya kecil/ sedikit

„ Konsist en pada saat ukurannya kecil/ sedikit .

„ Sulit dan m ahal

JAS - DEPT. I LMU KOMPUTER I PB 7

M e t ode

† Aut om at ic docum ent classificat ion

„ Hand- coded rule- based syst em s

† Digunakan oleh CS dept ’s spam filt er , Reut ers, CI A, Verit y, …

† Masukkan ke kat egori j ika dokum en m engandung g j g g kom binasi kat a t ert ent u.

† Akurasi t inggi j ika rule dibuat dengan sangat baik oleh ahli dan kom pleks.

JAS - DEPT. I LMU KOMPUTER I PB 8

M e t ode

† Aut om at ic docum ent classificat ion

„ Supervised learning

† Beberapa m enggunakan m achine learning ( Aut onom y, MSN, Verit y, Enkat a, Yahoo! , …)

„ k - Nearest Neighbors ( sim ple, powerful) „ Naiv e Bayes ( sim ple, com m on m et hod) „ Support - v ect or m achines ( new , m ore pow erful) „ dsb

„ Mem but uhkan hand- classified t raining dat a „ Dat a dapat dibangun oleh am at ir

† Banyak sist em kom ersial m enggunakan m et ode cam puran

JAS - DEPT. I LMU KOMPUTER I PB 9

M e t ode Ba ye s

† Berbasis t eori peluang

† Ut am anya t eorem a Bayes

† Supervised learning m et hod

† Mult inom ial Naïve Bayes Model

† Peluang dokum enddalam kelasc: pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.

Pendugaan param et er

,

dim ana Ncadalah banyaknya dokum en dalam kelas c, N adalah t ot al dokum en, Tctadalah banyaknya t dalam dokum en t raining dari kelas c.

(3)

La pla ce sm oot h in g

† At au Add- One Sm oot hing.

† Unt uk m enghilangkan dugaan param et er yang bernilai nol.

1

TRAI NI NG SET 1 Chinese Beij ing Chinese yes

2 Chinese Chinese Shanghai yes

3 Chinese Macao yes

4 Tok yo Japan Chinese no

4 Tok yo Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?

JAS - DEPT. I LMU KOMPUTER I PB 14

† Kej adian Bernoulli

† Mult ivariat e Bernoulli Model

† : rasio dokum en dari kelas c yang

didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .

JAS - DEPT. I LMU KOMPUTER I PB 15

Con t oh

docI D w or ds in docu m e n t in c = Ch in a ?

TRAI NI NG SET 1 Chinese Beij ing Chinese yes

2 Chinese Chinese Shanghai yes

3 Chinese Macao yes

4 Tok yo Japan Chinese no

4 Tok yo Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?

JAS - DEPT. I LMU KOMPUTER I PB 16 ( bukan China)

022

† Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en.

(4)

M a x im u m a Post e r ior i

) ( ) | ( max arg

) (

) ( ) | ( max arg ) | ( max arg

c P c d P

d P

c P c d P d

c P c

C c

C c C

c map

∈ ∈

=

= =

JAS - DEPT. I LMU KOMPUTER I PB 19

• Mult inom ial P( d| c) = P( < t1, …, tk, …, tnd> | c)

• Bernoulli P( d| c) = P( < e1, …, ek, …, eM> | c)

Asu m si Sa lin g Be ba s

• Kej adian A dan B saling bebas P( A∩B) = P( A,B) = P( A) .P( B)

• Maka:

JAS - DEPT. I LMU KOMPUTER I PB 20

≤ ≤

≤ ≤

= =

=

= =

=

M i

i i M

n k

k k n

c e U P c e e P c d P Bernoulli

c t X P c t t P c d P l Multinomia

d d

1 1

1 1

) | ( ) | ,..., ( ) | (

) | ( ) | ,..., ( ) | ( • Maka:

M u lt in om ia l vs Be r n ou lli

JAS - DEPT. I LMU KOMPUTER I PB 21

V e ct or Spa ce Cla ssifica t ion

Kla sifik a si M e n ggu n a k a n

Ru a n g V e k t or

† Set iap dokum en t raining direpresent asikan sebagai vekt or. † Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai

dengan kelasnya.

Government Science Arts

Te st D ocu m e n t = Gove r n m e n t ?

Sim ilar it y hypot hesis t rue in general?

(5)

Rocch io Cla ssifica t ion

Cent roid dari kelas c:

=

D d

d

v

D

c

)

1

(

)

(

r

r

µ

JAS - DEPT. I LMU KOMPUTER I PB 25

Dc d c

D

Rocch io Cla ssifica t ion

Bat as ant ara dua kelas adalah t it ik yang m em ilik i j arak sam a ke kedua

t id Æ

cent roid- nyaÆ

| a1| = | a2| , | b1| = | b2| , | c1| = | c2|

JAS - DEPT. I LMU KOMPUTER I PB 26

Rocch io Cla ssifica t ion

Dokum en d dikelom pokkan ke dalam kelas c

†Menggunakan j arak

)

(

min

arg

µ

r

v

r

d

†Menggunakan ukuran kesam aan Cosine

JAS - DEPT. I LMU KOMPUTER I PB 27

)

(

min

arg

c

v

d

c

µ

))

(

),

(

cos(

max

arg

c

v

d

c

r

r

µ

Con t oh

Dari cont oh sebelum nya, diperoleh:

Jarak d5t erhadap cent roid: † |µc- d5|≈1.15 dan |µ¬c- d5|≈0.00

† m aka Rocchio m engklasifikasikan d5ke kelas¬c ( bukan

China) .

JAS - DEPT. I LMU KOMPUTER I PB 28

k N e a r e st N e igh bor Cla ssifica t ion

† Mengklasifikasikan dokum endke dalam kelas c

† Tent ukan k- neighborhood Nat au kNN sebagai k t erdekat darid

† Hit ung banyaknya dokum enidalam N pada

kelasc

† Duga nilai P( c| d) = i/ k

† Pilih

)

|

(

max

arg

P

c

d

c

C c map

=

Con t oh : k = 6 ( 6 N N )

P( science| ) ?

(6)

Uk u r a n Ke m ir ipa n

† Met ode kNN t ergant ung pada ukuran kem iripan ( bisa j uga j arak) yang digunakan.

† Paling sederhana adalah j arak Euclidean.

† Unt uk t eks, yang paling efekt if adalah ukuran kem iripan cosine dengan bobot vekt or t f idf kem iripan cosine dengan bobot vekt or t f.idf.

† Skor dokum en di suat u kelas:

dim ana Ic( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0.

JAS - DEPT. I LMU KOMPUTER I PB 31

Con t oh : 1 N N

JAS - DEPT. I LMU KOMPUTER I PB 32

Dengan m enggunakan j arak Euclidean, m aka: | d1- d5| = | d2- d5| = | d3- d5| = 1.4171 | d4- d5| = 0.0000

Maka d5lebih dekat ke kelas d4.

Kom bin a si M e t ode Kla sifik a si

Beberapa penelit i m enunj ukkan bahw a kom binasi beberapa classifier yang berbeda dapat

m eningkat kan akurasi.

Classifier 1:

JAS - DEPT. I LMU KOMPUTER I PB 33

X Æclass1

Classifier 2:

X Æclass2

Jadi, X dim asukkan kem ana?

Kom bin a si M e t ode Kla sifik a si

† Sim ple vot ing

Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas ci j ika m ayor it as classifier m em asukkan dokum en t est ke kelas ci.

† Dynam ic classifier select ion ( DCS)

† Dynam ic classifier select ion ( DCS)

Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.

† Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN

Referensi

Dokumen terkait

Fenom ena t er sebut m enunj ukkan bahw a m et ode gr id seder hana dapat digunakan unt uk analisa dat a geo- spasial t er kait dengan aplikasi SI G unt uk deliniasi zona er

Pada penelitian ini analisis kualit as soal berdasarkan t eori respon but ir m enggunakan m odel dua param et er logist ik (2-PL) yakni param et er daya beda (a) dan param et er

Fungsi array _slice( ) digunak an unt uk m engam bil pot ongan elem en dari suat u array y ang dit unj ukk an oleh param at er offset dan param et er lengt h.. Cara dek

 Untuk setiap kata t pada suatu query, ekspansi query dengan sinonim dan kata lain t dari thesaurus.  Bobot kata-kata tambahan dapat lebih kecil daripada kata-kata pada

o   Artinya jika kata memiliki prefiks P1 dan sufiks S1, dan bagian kata setelah P1 dan sebelum S1 memenuhi kondisi atau aturan yang diberikan, maka P1 dan S1 akan diganti

† Artinya jika kata memiliki prefiks P1 dan sufiks S1, dan bagian kata setelah P1 dan sebelum S1 memenuhi kondisi atau aturan yang. dib ik k P1 d S1 k

dikelompokkan menjadi misalnya dua kelas, yaitu dokumen tentang multicore computer chips dan dokumen BUKAN.. t t lti t

Param et er-paramet er dalam koefisien jalur: 1 Koefisien korelasi r: koefisien korelasi ant ar variabel eksogen digunakan jika ada lebih dari sat u buah variabel eksogen, unt uk