• Tidak ada hasil yang ditemukan

JULIO ADISANTOSO - ILKOM IPB

N/A
N/A
Protected

Academic year: 2018

Membagikan "JULIO ADISANTOSO - ILKOM IPB"

Copied!
6
0
0

Teks penuh

(1)

KOM 3 4 1

 User m encari inform asi dengan m em berikan

sat u at au lebih query t erhadap koleksi t erkini.

 Cont oh: m encarim ult icore com put er chips t erbaru.

 Query : m ult icore AND com put er AND chip

 Akan dieksekusi set iap ada penam bahan dokum en

barust anding query

 Mungkin t idak m enem ukan art ikel baru lain yang

relevan, m isalnya m ult icore processors.

 Gunakan Boolean: ( m ult icore OR m ult icore) AND

( chip OR processor OR m icroprocessor)

JAS - DEPT. ILMU KOMPUTER IPB 2

Cla ssifica t ion

Lebih m udah kalau dokum en

dikelom pokkan m enj adi m isalnya dua kelas, yait u dokum en t ent ang m ult icore com put er chips dan dokum en BUKAN t ent ang m ult icore com put er chips.

Kelas biasanya m eruj uk ke t opik

dokum en.

Prosesnya sering disebut sebagai t ext

classificat ion, t ext cat egorizat ion, t opic classificat ion, t opic spot t ing.

JAS - DEPT. ILMU KOMPUTER IPB 3

 Deskripsi dokum endX, dim ana X adalah kum pulan

dokum en.

 Him punan kelas at au kat egori:

C = {c1, c2,…, cn}

 Tuj uan:

 Menent ukan kat egori darid: c(d)C, dim ana c(d) adalah fungsi kat egorisasi (classifier) .

(2)

Le a r n in g M e t h od

 Kit a m em pelaj ari fungsi klasifikasi yang m em et akan dokum en ke kat egori t ert ent u:

:  C

 Disebut j uga supervised learning, karena supervisor ( orang yang m enent ukan kat egori dokum en) berperan langsung di dalam proses pem belaj aran.

 Sangat akurat karena dilakukan oleh ahli.

 Konsist en pada saat ukurannya kecil/ sedikit .

 Sulit dan m ahal

JAS - DEPT. ILMU KOMPUTER IPB 8

M e t ode

 Aut om at ic docum ent classificat ion

 Hand- coded rule- based syst em s

 Digu n ak an oleh CS dept ’s spam filt er , Reu t er s, CI A,

 Aut om at ic docum ent classificat ion

 Supervised learning

 Beber apa m en ggu n ak an m ach in e lear n in g ( Au t on om y , MSN, Ver it y , En k at a, Yah oo! , …)

 k- Nearest Neighbors ( sim ple, powerful)

 Naive Bayes ( sim ple, com m on m et hod)

 Support - vect or m achines ( new, m ore powerful)

 dsb

 Mem but uhkan hand- classified t raining dat a

 Dat a dapat dibangun oleh am at ir

 Banyak sist em kom ersial m enggunakan

m et ode cam puran

JAS - DEPT. ILMU KOMPUTER IPB 1 0

M e t ode Ba y e s

 Berbasis t eori peluang

 Ut am anya t eorem a Bayes

 Supervised learning m et hod

 Mult inom ial Naïve Bayes Model

 Peluang dokum enddalam kelasc:

dim ana P( tk| c) adalah peluang t erm tkm uncul pada dokum en kelas c, P( c) peluang dokum en ada pada kelas c.

(3)

Pe nd uga a n Pa r a m e t e r

Pendugaan param et er

dim ana Ncadalah banyaknya dokum en dalam

kelas c, N adalah t ot al dokum en, Tctadalah banyaknya t dalam dokum en t raining dari kelas c.

JAS - DEPT. ILMU KOMPUTER IPB 1 3

La pla ce sm oot h in g

 At au Add- One Sm oot hing.

 Unt uk m enghilangkan dugaan param et er yang

bernilai nol.

TRAI NI NG SET 1 Chinese Beij ing Chinese y es

2 Chinese Chinese Shanghai y es

3 Chinese Macao y es

4 Tok y o Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tok y o Japan ?

JAS - DEPT. ILMU KOMPUTER IPB 1 5

 Mult ivariat e Bernoulli Model

 : rasio dokum en dari kelas c yang

m engandung t erm t . Dalam m ult inom ial didefinisikan sebagai rasio t oken dalam dokum en kelas c yang m engandung t erm t .

JAS - DEPT. ILMU KOMPUTER IPB 1 6

Con t oh

d ocI D w or d s in d ocu m e n t in c = Ch in a ?

TRAI NI NG SET 1 Chinese Beij ing Chinese y es

2 Chinese Chinese Shanghai y es

3 Chinese Macao y es

4 Tok y o Japan Chinese no

TEST SET 5 Chinese Chinese Chinese Tok y o Japan ?

(4)

M a x im um a Post e r ior i

 Tuj uan klasifikasi: m endapat kan kelas t erbaik unt uk suat u dokum en.

 Kelas t erbaik : sangat m irip at au m axim um a post eriori ( MAP) kelas cm ap:

JAS - DEPT. ILMU KOMPUTER IPB 1 9

diduga dari t raining set

M a x im u m a Post e r ior i

JAS - DEPT. ILMU KOMPUTER IPB 2 0 • Mult inom ial P( d| c) = P( < t1, …, tk, …, tnd> | c) • Bernoulli P( d| c) = P( < e1, …, ek, …, eM> | c)

Asum si Sa ling Be ba s

JAS - DEPT. ILMU KOMPUTER IPB 2 1 • Kej adian A dan B saling bebas

P( AB) = P( A,B) = P( A) .P( B)

• Maka:

M u lt in om ia l v s Be r n ou lli

JAS - DEPT. ILMU KOMPUTER IPB 2 2

Ve ct or Spa ce Cla ssifica t ion

Kla sifik a si M e n ggu n a k a n

Ru a n g Ve k t or

 Set iap dokum en t raining direpresent asikan sebagai vekt or.  Set iap t it ik ( vekt or) dokum en t raining diberi label sesuai

dengan kelasnya.

JAS - DEPT. ILMU KOMPUTER IPB 2 4

Gover nment

Science

(5)

Te st D ocu m e n t = Gov e r n m e n t ?

JAS - DEPT. ILMU KOMPUTER IPB 2 5

Gover nment

Science

Ar ts Sim ilar it y h y pot h esis t r u e in gen er al?

Rocch io Cla ssifica t ion

JAS - DEPT. ILMU KOMPUTER IPB 2 6 Cent roid dari kelas c:

Rocchio Cla ssifica t ion

Bat as ant ara dua kelas adalah t it ik yang m em iliki j ar ak sam a ke kedua cent roid- nya

| a1| = | a2| , | b1| = | b2| , | c1| = | c2|

JAS - DEPT. ILMU KOMPUTER IPB 2 7

Rocch io Cla ssifica t ion

Dokum en d dikelom pokkan ke dalam kelas c

Menggunakan j arak

Menggunakan ukuran kesam aan Cosine

JAS - DEPT. ILMU KOMPUTER IPB 2 8

Cont oh

Dari cont oh sebelum nya, diperoleh:

Jarak d5t erhadap cent roid:

 |c- d5|1 .1 5 dan |c- d5|0 .0 0

 m aka Rocchio m engklasifikasikan d5ke kelasc ( bukan

China) .

JAS - DEPT. ILMU KOMPUTER IPB 2 9

k N e a r e st N e igh bor Cla ssifica t ion

 Mengklasifikasikan dokum endke dalam kelas

c

 Tent ukan k- neighborhood Nat au kNN sebagai

kt erdekat darid

 Hit ung banyaknya dokum enidalamNpada

kelasc

 Duga nilai P( c| d) = i/ k

 Pilih

(6)

Con t oh : k = 6 ( 6 N N )

JAS - DEPT. ILMU KOMPUTER IPB 3 1

Gover nment

Science

Ar ts P( scien ce| ) ?

Uk u r a n Ke m ir ipa n

 Met ode kNN t ergant ung pada ukuran kem iripan

( bisa j uga j arak) yang digunakan.

 Paling sederhana adalah j arak Euclidean.

 Unt uk t eks, yang paling efekt if adalah ukuran

kem iripan cosine dengan bobot vekt or t f.idf.

 Skor dokum en di suat u kelas:

dim ana Ic( d’) = 1 j j k d’ ada dalam kelas c, dan sebaliknya = 0 .

JAS - DEPT. ILMU KOMPUTER IPB 3 2

Cont oh : 1 N N

JAS - DEPT. ILMU KOMPUTER IPB 3 3 Dengan m enggunaka n j arak Euclidean, m aka:

| d1- d5| = | d2- d5| = | d3-d5| = 1 .4 1 7 1 | d4- d5| = 0 .0 0 0 0

Maka d5lebih dekat ke kelas d4.

Kom bin a si M e t ode Kla sifik a si

Beberapa penelit i m enunj ukkan bahwa kom binasi beberapa classifier yang berbeda dapat

m eningkat kan akurasi.

JAS - DEPT. ILMU KOMPUTER IPB 3 4 Classifier 1 :

X class1

Classifier 2 :

X class2

Jadi, X dim asukkan kem ana?

Kom bin a si M e t ode Kla sifik a si

 Sim ple vot ing

Unt uk t iap dokum en t est , kit a klasifikasikan ke kelas ci j ika m ayorit as classifier m em asukkan dokum en t est ke kelas ci.

 Dynam ic classifier select ion ( DCS)

Pendekat an kNN dengan ukuran kesam aan Cosine, dilakukan it erasi.

 Adapt ive classifier com binat ion ( ACC) Kom binasi NB dan kNN

Referensi

Dokumen terkait

Dapat disimpulkan penyuluhan kesehatan dengan metode ceramah dan demonstrasi yang telah dilakukan pada lansia terbukti dapat meningkatkan pengetahuan kader tentang tentang

Mullite dan quarsa merupakan bagian terbesar pada abu layang sehingga memiliki intensitas yang dominan (Cao, et al 2020). Gambar 5.11 merupakan difraktogram membran

Sekali lagi ditegaskan bahwa kaidah-kaidah tafsir adalah patokan umum bagi para pengkaji al- Qur’an untuk memahami pesan-pesan kitab suci Alquran dan dapat

Berdasarkan penelitian sebelumnya yang telah dilakukan oleh Mitasari (2010) tentang uji aktivitas antioksidan ekstrak kloroform kulit buah naga merah, didapatkan nilai

Sebagai salah satu kecamatan dari 10 kecamatan yang ada di Jakarta Timur, Kecamatan Pasar Rebo memiliki luas wilayah sebesar 12,98 km 2 atau 6,90 persen dari

Sesuai dengan fungsinya tersebut, sanksi dapat dibedakan menjadi: sanksi positif sebagai reaksi terhadap perbuatan-perbuatan yang baik dan diwujudkan dalam bentuk pemberian

dengan judul “A nalisis Pengaruh Realisasi Anggaran Pendapatan Asli Daerah, Pengeluaran Anggaran Belanja Modal, dan Pengeluaran Anggaran Belanja Rutin Terhadap Pertumbuhan Ekonomi

Setiap provinsi di Pulau Jawa memiliki tingat pertumbuhan PDRB yang berbeda-beda, Propinsi D.K.I Jakrta adalah propinsi yg memeliki PDRB paling tinggi di pulau