• Tidak ada hasil yang ditemukan

JULIO ADISANTOSO - ILKOM IPB

N/A
N/A
Protected

Academic year: 2018

Membagikan "JULIO ADISANTOSO - ILKOM IPB"

Copied!
6
0
0

Teks penuh

(1)

KOM 3 4 1

Te m u Ke m ba li I n for m a si

KULI AH # 7 • Text Classificat ion

Ad H oc Re t r ie va l

† User m encari inform asi dengan m em berikan sat u at au lebih query t erhadap koleksi t erkini.

† Cont oh: m encari m ult icore com put er chips

t erbaru.

„ Query : m ult icore AND com put er AND chip

„ Akan dieksekusi set iap ada penam bahan dokum en

baru Æst anding query

„ Mungkin t idak m enem ukan art ikel baru lain yang

relevan, m isalnya m ult icore processors. „ Gunakan Boolean: ( m ult icore OR m ult i- core) AND

( chip OR processor OR m icroprocessor)

JAS - DEPT. I LMU KOMPUTER I PB 2

Cla ssifica t ion

†Lebih m udah kalau dokum en

dikelom pokkan m enj adi m isalnya dua kelas, yait u dokum en t ent ang m ult icore com put er chips dan dokum en BUKAN

t t lt i t hi

t ent ang m ult icore com put er chips.

†Kelas biasanya m eruj uk ke t opik dokum en.

†Prosesnya sering disebut sebagai t ext classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.

JAS - DEPT. I LMU KOMPUTER I PB 3

Ca t e gor iz a t ion / Cla ssifica t ion

† Given:

„ Deskripsi dokum endX, dim ana X adalah kum pulan

dokum en.

„ Him punan kelas at au kat egori:

C = {c1, c2,…, cn}

C {c1, c2,…, cn}

† Tuj uan:

„ Menent ukan kat egori darid: c(d)∈C, dim ana c(d) adalah fungsi kat egorisasi (classifier) .

JAS - DEPT. I LMU KOMPUTER I PB 4

D ocu m e n t Cla ssifica t ion

“planning language proof intelligence”

Test Data:

(AI) (Programming) (HCI)

Multimedia GUI Garb.Coll.

Semantics ML Planning

planning temporal reasoning plan language...

programming semantics language proof... learning

intelligence algorithm reinforcement network...

garbage collection memory optimization region...

Training Data: Classes:

... ...

Le a r n in g M e t h od

† Kit a m em pelaj ari fungsi klasifikasi yang m em et akan dokum en ke kat egori t ert ent u:

γ: Χ →C

(2)

M e t ode

† Manual

„ Digunakan oleh Yahoo! , Looksm art , about .com , ODP,

Medline

„ Sangat akurat karena dilakukan oleh ahli.

„ Konsist en pada saat ukurannya kecil/ sedikit

„ Konsist en pada saat ukurannya kecil/ sedikit .

„ Sulit dan m ahal

JAS - DEPT. I LMU KOMPUTER I PB 7

M e t ode

† Aut om at ic docum ent classificat ion

„ Hand- coded rule- based syst em s

† Digunakan oleh CS dept ’s spam filt er , Reut ers, CI A, Verit y, …

† Masukkan ke kat egori j ika dokum en m engandung g j g g kom binasi kat a t ert ent u.

† Akurasi t inggi j ika rule dibuat dengan sangat baik oleh ahli dan kom pleks.

JAS - DEPT. I LMU KOMPUTER I PB 8

M e t ode

† Aut om at ic docum ent classificat ion

„ Supervised learning

† Beberapa m enggunakan m achine learning ( Aut onom y, MSN, Verit y, Enkat a, Yahoo! , …)

„ k - Nearest Neighbors ( sim ple, powerful) „ Naiv e Bayes ( sim ple, com m on m et hod) „ Support - v ect or m achines ( new , m ore pow erful) „ dsb

„ Mem but uhkan hand- classified t raining dat a „ Dat a dapat dibangun oleh am at ir

† Banyak sist em kom ersial m enggunakan m et ode cam puran

JAS - DEPT. I LMU KOMPUTER I PB 9

M e t ode Ba ye s

† Berbasis t eori peluang

† Ut am anya t eorem a Bayes

† Supervised learning m et hod

† Mult inom ial Naïve Bayes Model

† Peluang dokum enddalam kelasc: pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.

Pendugaan param et er

,

dim ana Ncadalah banyaknya dokum en dalam kelas c, N adalah t ot al dokum en, Tctadalah banyaknya t dalam dokum en t raining dari kelas c.

(3)

La pla ce sm oot h in g

† At au Add- One Sm oot hing.

† Unt uk m enghilangkan dugaan param et er yang bernilai nol.

1

TRAI NI NG SET 1 Chinese Beij ing Chinese yes

2 Chinese Chinese Shanghai yes

3 Chinese Macao yes

4 Tok yo Japan Chinese no

4 Tok yo Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?

JAS - DEPT. I LMU KOMPUTER I PB 14

† Kej adian Bernoulli

† Mult ivariat e Bernoulli Model

† : rasio dokum en dari kelas c yang

didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .

JAS - DEPT. I LMU KOMPUTER I PB 15

Con t oh

docI D w or ds in docu m e n t in c = Ch in a ?

TRAI NI NG SET 1 Chinese Beij ing Chinese yes

2 Chinese Chinese Shanghai yes

3 Chinese Macao yes

4 Tok yo Japan Chinese no

4 Tok yo Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tokyo Japan ?

JAS - DEPT. I LMU KOMPUTER I PB 16 ( bukan China)

022

† Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en.

(4)

M a x im u m a Post e r ior i

) ( ) | ( max arg

) (

) ( ) | ( max arg ) | ( max arg

c P c d P

d P

c P c d P d

c P c

C c

C c C

c map

∈ ∈

=

= =

JAS - DEPT. I LMU KOMPUTER I PB 19

• Mult inom ial P( d| c) = P( < t1, …, tk, …, tnd> | c)

• Bernoulli P( d| c) = P( < e1, …, ek, …, eM> | c)

Asu m si Sa lin g Be ba s

• Kej adian A dan B saling bebas P( A∩B) = P( A,B) = P( A) .P( B)

• Maka:

JAS - DEPT. I LMU KOMPUTER I PB 20

≤ ≤

≤ ≤

= =

=

= =

=

M i

i i M

n k

k k n

c e U P c e e P c d P Bernoulli

c t X P c t t P c d P l Multinomia

d d

1 1

1 1

) | ( ) | ,..., ( ) | (

) | ( ) | ,..., ( ) | ( • Maka:

M u lt in om ia l vs Be r n ou lli

JAS - DEPT. I LMU KOMPUTER I PB 21

V e ct or Spa ce Cla ssifica t ion

Kla sifik a si M e n ggu n a k a n

Ru a n g V e k t or

† Set iap dokum en t raining direpresent asikan sebagai vekt or. † Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai

dengan kelasnya.

Government Science Arts

Te st D ocu m e n t = Gove r n m e n t ?

Sim ilar it y hypot hesis t rue in general?

(5)

Rocch io Cla ssifica t ion

Cent roid dari kelas c:

=

D d

d

v

D

c

)

1

(

)

(

r

r

µ

JAS - DEPT. I LMU KOMPUTER I PB 25

Dc d c

D

Rocch io Cla ssifica t ion

Bat as ant ara dua kelas adalah t it ik yang m em ilik i j arak sam a ke kedua

t id Æ

cent roid- nyaÆ

| a1| = | a2| , | b1| = | b2| , | c1| = | c2|

JAS - DEPT. I LMU KOMPUTER I PB 26

Rocch io Cla ssifica t ion

Dokum en d dikelom pokkan ke dalam kelas c

†Menggunakan j arak

)

(

min

arg

µ

r

v

r

d

†Menggunakan ukuran kesam aan Cosine

JAS - DEPT. I LMU KOMPUTER I PB 27

)

(

min

arg

c

v

d

c

µ

))

(

),

(

cos(

max

arg

c

v

d

c

r

r

µ

Con t oh

Dari cont oh sebelum nya, diperoleh:

Jarak d5t erhadap cent roid: † |µc- d5|≈1.15 dan |µ¬c- d5|≈0.00

† m aka Rocchio m engklasifikasikan d5ke kelas¬c ( bukan

China) .

JAS - DEPT. I LMU KOMPUTER I PB 28

k N e a r e st N e igh bor Cla ssifica t ion

† Mengklasifikasikan dokum endke dalam kelas c

† Tent ukan k- neighborhood Nat au kNN sebagai k t erdekat darid

† Hit ung banyaknya dokum enidalam N pada

kelasc

† Duga nilai P( c| d) = i/ k

† Pilih

)

|

(

max

arg

P

c

d

c

C c map

=

Con t oh : k = 6 ( 6 N N )

P( science| ) ?

(6)

Uk u r a n Ke m ir ipa n

† Met ode kNN t ergant ung pada ukuran kem iripan ( bisa j uga j arak) yang digunakan.

† Paling sederhana adalah j arak Euclidean.

† Unt uk t eks, yang paling efekt if adalah ukuran kem iripan cosine dengan bobot vekt or t f idf kem iripan cosine dengan bobot vekt or t f.idf.

† Skor dokum en di suat u kelas:

dim ana Ic( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0.

JAS - DEPT. I LMU KOMPUTER I PB 31

Con t oh : 1 N N

JAS - DEPT. I LMU KOMPUTER I PB 32

Dengan m enggunakan j arak Euclidean, m aka: | d1- d5| = | d2- d5| = | d3- d5| = 1.4171 | d4- d5| = 0.0000

Maka d5lebih dekat ke kelas d4.

Kom bin a si M e t ode Kla sifik a si

Beberapa penelit i m enunj ukkan bahw a kom binasi beberapa classifier yang berbeda dapat

m eningkat kan akurasi.

Classifier 1:

JAS - DEPT. I LMU KOMPUTER I PB 33

X Æclass1

Classifier 2:

X Æclass2

Jadi, X dim asukkan kem ana?

Kom bin a si M e t ode Kla sifik a si

† Sim ple vot ing

Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas ci j ika m ayor it as classifier m em asukkan dokum en t est ke kelas ci.

† Dynam ic classifier select ion ( DCS)

† Dynam ic classifier select ion ( DCS)

Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.

† Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN

Referensi

Dokumen terkait

Korelasi antara citra tubuh dengan perilaku makan external DEBQ dengan nilai r = - 0.274 yang berarti kekuatan hubungan antar dua variabel tersebut adalah lemah dengan

Memilih kriteria yang akan dipakai untuk menilai objek evaluasi merupakan tugas yang paling sulit dalam evaluasi pendidikan. Apabila yang diacu hanya pencapaian tujuan, maka ini memang

Hubungan antara NDVI dan data hasil pengukuran lapangan mampu memberikan informasi tentang biomassa vegetasi dan merupakan salah satu metode pendekatan untuk menduga

Bahwa hukum kebiasaan mempunyai kelemahan yatu bersifat tidak tertulis oleh karenanya tidak dapat dirumuskan secara dan pada umumnya sukar menggantinya. Tidak menjamin

Rumus-rumus allometrik untuk menduga biomassa beberapa jenis tanaman yang umum ditanam pada lahan

Sekali lagi ditegaskan bahwa kaidah-kaidah tafsir adalah patokan umum bagi para pengkaji al- Qur’an untuk memahami pesan-pesan kitab suci Alquran dan dapat

Berdasarkan penelitian sebelumnya yang telah dilakukan oleh Mitasari (2010) tentang uji aktivitas antioksidan ekstrak kloroform kulit buah naga merah, didapatkan nilai

Berkas ujian masing masing di masukan ke map bening (Lembar persetujuan harus sudah ditandatangani)3. Surat permohonan Seminar Proposal