• Tidak ada hasil yang ditemukan

Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto

N/A
N/A
Protected

Academic year: 2021

Membagikan "Text & Web Mining - Budi Susanto - TI UKDW 1 RETRIEVAL STRATEGIES. Budi Susanto"

Copied!
38
0
0

Teks penuh

(1)

RETRIEVAL

STRATEGIES

(2)

Tujuan

•  Memahami model probabilitistic retrieval dengan metode

Simple Term Weights.

•  Memahami model Extended Boolean untuk IR.

•  Memahami language model dengan metode query

(3)

•  Terdapat 3 dokumen

•  D1 = Manajemen Sistem Informasi

•  D2 = Penggajian untuk meningkatkan Sumber Daya Manusia

•  D3 = Sistem Informasi Penggajian

•  Q = informasi daya manusia

•  Hitunglah rangking dari semua dokumen terhadap query

(4)

1. Probabilistic Retrieval

•  Model probabilitas menghitung koefisien kemiripan antara

sebuah query dan dokumen sebagai sebuah probabilitas bahwa dokumen tersebut akan relevan dengan query.

•  Semua penelitian terhadap probabilitic retrieval berakar

pada konsep perkiraan bobot term berdasar seberapa sering term muncul atau tidak dalam dokumen relevan dan non-relevan.

(5)

•  Term dalam query dapat dilihat sebagai indikator bahwa

dokumen relevan.

•  Sehingga ada atau tidaknya term query dapat digunakan untuk

memprediksi apakah dokumen relevan atau tidak.

•  Operasi dot product semua bobot dapat digunakan untuk

menghitung probabilitas relevansi.

•  Sebagian besar model probabilitic mengasumsikan

independensi tiap term.

•  Karena untuk memperhatikan dependensi tiap term membutuhkan

komputasi lebih mahal dan membutuhkan adanya pelatihan ke sistem.

(6)

Simple Term Weights

q = { t1, t2 } t1 t1 t2 t2 t1 t2 Dokumen Terambil P(t1 | Di relevan) = ½ P(t1 | Di non relevan) = 2/3 P(t2 | Di relevan) = 1 P(t2 | Di non relevan ) = 1/3

(7)

•  Metode Robertson dan Sparck Jones (1976)

menyediakan mekanisme perhitungan probabilitas relevan dan tidak relevan untuk sebuah term.

•  Definisi asumsi mutually exclusive independence:

•  I1 = distribusi term dalam dokumen relevan adalah independen dan

distribusi term dalam sluruh dokumen juga independen

•  I2 = distribusi term dalam dokumen relevan adalah independen dan

distribusi term dalam dokumen non-relevan juga independen.

•  Definisi dua metode untuk presentasi hasil:

•  O1 = kemungkinan relevan didasarkan hanya pada kemunculan

term yang dicari dalam dokumen

•  O2 = kemungkinan relevan didasarkan baik pada kemunculan atau

(8)

Simple Term Weights

•  Empat bobot diturunkan dari kombinasi prinsip rankings

(9)

•  N = jumlah dokumen dalam koleksi

•  R = jumlah dokumen relevan untuk query q

•  n = jumlah dokumen yang mengandung term t

(10)

Simple Term Weights

O1

O2

I1

w

1

w

3

I2

w

2

w

4

W

4

merupakan hasil terbaik

W

3

dan w

4

adalah hasil lebih baik dari

(11)

•  Jika dalam suatu perhitungan bobot diketahui adanya

inifiniti, maka perhitungan keempat bobot dapat diubah menjadi: w1 = log (r + 0.5) (R +1) (n +1) (N + 2) ! " # # # # $ % & & & & w2 = log (r + 0.5) (R +1) (n − r + 0.5) (N − R +1) ! " # # # # $ % & & & & w3 = log (r + 0.5) (R − r + 0.5) (n +1) (N − n +1) " # $ $ $ $ % & ' ' ' ' w4 = log (r + 0.5) (R − r + 0.5) (n − r + 0.5) (N − n − (R − r) + 0.5) " # $ $ $ $ % & ' ' ' '

(12)

Contoh

•  Q: “gold silver truck”

•  D1 = “Shipment of gold damaged in a fire”

•  D2 = “Delivery of silver arrived in a silver truck”

•  D3 = “Shipment of gold arrived in a truck”

•  Oleh karena dalam model probabilistik diperlukan

dokumen pelatihan, maka ketiga dokumen diasumsikan adalah dokumen pelatihan.

(13)

gold

silver

truck

N

3

3

3

n

2

1

2

R

2

2

2

(14)

Simple Term Weights

•  Hitunglah bobot tiap term dalam query untuk w1, w2, w3,

dan w4.

•  Secara ringkas dapat ditunjukkan pada tabel berikut:

w

1

w

2

w

3

w

4

gold

-0.079 -0.176 -0.176 -0.477

silver

0.097

0.301

0.176

0.477

(15)

•  Selanjutnya, hitung koefisien kemiripan dengan cara

menjumlahkan bobot term query yang dimiliki masing-masing dokumen. •  Rangking dokumen: D2, D3, D1. w1 w2 w3 w4 D1 -0.079 -0.176 -0.176 -0.477 D2 0.240 0.824 0.699 1.653 D3 0.064 0.347 0.347 0.699

(16)

Latihan Simple Term Weight

•  Terdapat 3 dokumen

•  D1 = Manajemen Sistem Informasi

•  D2 = Penggajian untuk meningkatkan Sumber Daya Manusia

•  D3 = Sistem Informasi Penggajian

•  Q = informasi daya manusia

•  Tampilkan urutan dokumen yang ditampilkan dengan

(17)

•  Ide dasar adalah memberikan bobot term untuk setiap

term dalam query dan untuk tiap term dalam dokumen.

•  Bobot-bobot term dikaitkan dengan perangkingan

dokumen.

•  Misal diberikan query (t1 OR t2) yang akan

mengembalikan dokumen yang berisi t1 dengan bobot w1 dan t2 dengan bobot w2.

•  Jika baik w1 dan w2 adalah 1, sebuah dokumen yang

berisi kedua term tersebut diberikan kemungkinan ranking paling tinggi.

•  Dengan menggunakan Eucledian distance, dari titik (w1,

w2) dari titik asal, kita dapat mendapatkan koefisien kemiripan.

(18)

Extended Boolean – 2 dimensi

• 

Untuk sebuah

dokumen berisi term t

1

dan t

2

dengan bobot

w

1

dan w

2

, maka

koefisien kemiripan

dapat dihitung sebagai:

• 

Nilai SC tertinggi

adalah 1.414

(19)

•  Jika t1 ∨ t2 dinormalisasikan: •  Jika t1 ∧ t2 dinormalisasikan :

sc(Q

t 1∨t2

, d

i

) =

(w

1

)

2

+ (w

2

)

2

2

sc(Q

t 1∧t2

, d

i

) = 1−

(1− w

1

)

2

+ (1− w

2

)

2

2

(20)

Extended Boolean – p-Norm

•  Untuk sembarang term, m, kita mendapatkan ekspresi

(21)

•  Oleh karena nilai bobot term harus bernilai [0, 1], maka

nilai bobot TF-IDF tiap term dalam dokumen harus dinormalisasikan.

•  Dimana:

•  tfmax i,j = maksimum frekuensi term I dalam dokumen j

(22)

Latihan #2

•  D1 = “Shipment of gold damaged in a fire”

•  D2 = “Delivery of silver arrived in a silver truck”

•  D3 = “Shipment of gold arrived in a truck”

•  Q1: “gold OR silver OR truck”

•  Q2: “gold AND silver AND truck”

(23)

•  Statistical language model adalah sebuah mekanisme

probabilistik untuk menghasilkan sebuah deretan teks.

•  Language model untuk IR dimulai tahun 1998 oleh Ponte

dan Croft.

•  Idenya adalah dokumen dapat dirangking terhadap

kemungkinan (likelihood) dari generating query.

•  Koefisien kemiripan Q dan Di adalah:

•  Dimana MDi adalah language model dalam dokumen Di.

SC(Q, D

i

) = P(Q | M

D

(24)

Language Model

•  Generating sebuah query memerlukan sebuah model

probabilistik untuk query.

•  Ponte dan Croft menghitung probabilitas query sebagai

product probabilitas baik terhadap adanya term dalam query atau tidak.

SC(Q, D

i

) =

P(t

j

| M

D i

)

(1− P(t

j

| M

Di

))

t∉Q

tj∈Q

(25)

•  Model p(tj|MDi) dapat diperkirakan dengan model:

•  Dimana adalah perkiraan maximum likelihood

dari distribusi term, yang diberikan dengan:

•  Dimana dlDi adalah panjang dokumen Di.

p(t

j

| M

D j

) = p

ml

(t

j

| M

Di

)

pml(tj | MD i )

p

ml

(t

j

| M

D i

) =

tf (t

j

, D

i

)

dl

Di

(26)

Language Model

D1 D2 D3 MD1 MD2 MD3 Query (Q) P(Q|MD2) Model Dokumen Koleksi Dokumen

(27)

•  D1 = “Shipment of gold damaged in a fire”

•  D2 = “Delivery of silver arrived in a silver truck”

•  D3 = “Shipment of gold arrived in a truck”

•  Q1: “gold silver truck”

Pml(silver | MD i) = tf (silver, Di) dlD i = 0

(28)

Smoothing untuk ML

•  Untuk menghindari masalah karena term query tidak ada

dalam dokumen, perlu diterapkan smoothing.

•  dimana

p(t | M

D i

) =

p

ml

(t, d)

(1−R(t,d ))

× p

avg

(t)

R(t,d )

cft

cs

#

$

%

&

%

Jika tf(t,d)>0 Selain itu

p

avg

(t) =

d (t∈d )

p

ml

(t | M

D

)

df

t

R

(t,d )

=

1.0

1.0 + f

t

!

"

#

$

%

f

t

1.0 + f

t

!

"

#

$

%

&

tft,d

f

t

= p

avg

(t) × dl

d

(29)

•  cs = 22 token

•  Total jumlah token dalam tiap dokumen (dld)

•  D1 = 7, D2 = 8, D3 = 7

•  Jumlah dokumen dari tiap term t, dft, adalah

•  Jumlah kemunculan token dalam koleksi, cft :

a arrived damaged delivery fire gold in of shipment silver truck

dft 3 2 1 1 1 2 3 3 2 1 2

a arrived damaged delivery fire gold in of shipment silver truck

(30)

Contoh

•  Jumlah kemunculan tiap term di tiap dokumen, tft,d :

a arrived damaged delivery fire gold in of shipment silver truck

D1 1 0 1 0 1 1 1 1 1 0 0

D2 1 1 0 1 0 0 1 1 0 2 1

(31)

•  Pertama, kita hitung perkiraan maximum likelihood dari

kemungkinan term t untuk dokumen d.

Pml(t|Md) D1 D2 D3 a 0.143 0.125 0.143 arrived 0 0.125 0.143 damaged 0.143 0 0 delivery 0 0.125 0 fire 0.143 0 0 gold 0.143 0 0.143 in 0.143 0.125 0.143 of 0.143 0.125 0.143 shipment 0.143 0 0.143 silver 0 0.250 0 truck 0 0.125 0.143

(32)

Contoh

•  Kedua, kita hitung rata-rata kemungkinan term t dalam

dokumen yang berisi term tersebut.

a arrived damaged delivery fire gold

Pavg(t) 0.137 0.134 0.143 0.125 0.143 0.143

in of shipment silver truck

(33)

•  Ketiga, kita hitung resiko sebuah term t dalam sebuah

dokumen d. Sebelumnya kita hitung rata-rata kemunculan term dalam dokumen.

ft a arrived Damaged delivery fire gold

D1 0.958 0.938 1 0.875 1 1

D2 1.096 1.071 1.143 1 1.143 1.143

D3 0.958 0.938 1 0.875 1 1

ft In Of Shipment Silver truck

D1 0.958 0.958 1 1.750 0.938

D2 1.096 1.096 1.143 2 1.071

(34)

Contoh

•  Nilai resiko tiap term di tiap dokumen

Rt,d D1 D2 D3 a 0.250 0.249 0.250 arrived 0.516 0.250 0.250 damaged 0.250 0.467 0.500 delivery 0.533 0.250 0.533 fire 0.250 0.467 0.500 gold 0.250 0.467 0.250 in 0.250 0.249 0.250 of 0.250 0.249 0.250 shipment 0.250 0.467 0.250 silver 0.364 0.148 0.364 truck 0.516 0.249 0.250

(35)

•  Keempat, kita hitung probabilitas bentuk query untuk

sebuah model dokumen.

p(t|Md) D1 D2 D3 A 0.141 0.128 0.141 arrived 0.091 0.127 0.141 damaged 0.143 0.045 0.045 delivery 0.045 0.125 0.045 fire 0.143 0.045 0.045 gold 0.143 0.091 0.143 in 0.141 0.128 0.141 of 0.141 0.128 0.141 shipment 0.143 0.091 0.143 silver 0.091 0.250 0.091 truck 0.091 0.127 0.141

(36)

Contoh

•  Kelima, kita hitung kemiripan Query dengan model

dokumen.

D1 D2 D3

(37)

•  Terdapat 3 dokumen

•  D1 = Manajemen Sistem Informasi

•  D2 = Penggajian untuk meningkatkan Sumber Daya Manusia

•  D3 = Sistem Informasi Penggajian

•  Q = informasi daya manusia

•  Tampilkan urutan dokumen yang ditampilkan dengan

(38)

TERIMA KASIH

Budi Susanto

Referensi

Dokumen terkait

Pengujian aktivitas antioksidan ekstrak kloroform buah lakum pada penelitian ini menggunakan metode DPPH yang telah digunakan oleh Molyneux dengan sedikit

Ilustrasi cover ini terdiri dari pesan visual dan pesan verbal, dimana pesan visual ini berupa lima orang laki – laki yang dilihat dari kontur mereka adalah sebagai tokoh

Sistem pengendalian internal adalah suatu sistem yang terdiri dari kebijakan dan prosedur yang diterapkan untuk memastikan bahwa tujuan tertentu suatu satuan usaha dapat

Di dalam penyusunan proposal digitalisasi Laboratorium Fisika Dasar berbasis IoT ini mempunyai tujuan untuk meningkatkan pengelolaan layanan laboratorium bagi peserta didik di

Pada kasus ini pasien dipulangkan dari RS setelah perawatan selama 5 hari dengan alasan secara klinis membaik yaitu tanda perdarahan tidak ditemukan lagi,

Kewajiban melaksanakan EDD sebagaimana dimaksud dalam Pasal 32 juga berlaku dalam hal Penyelenggara melakukan transaksi dengan Pengguna Jasa yang patut diduga merupakan

Melihat Kota Pontianak sebagai Kota Khatulistiwa yang berpotensi untuk menjadi area pengembangan edukasi astronomi, kegiatan edukasi astronomi seperti data bumi &

Iriany, M.Si yang telah banyak memberikan filosofi ilmu teknik kimia dan selalu sabar dalam membimbing penulis sehingga dapat memberikan jalan keluar kepada penulis ketika