RETRIEVAL
STRATEGIES
Tujuan
• Memahami model probabilitistic retrieval dengan metode
Simple Term Weights.
• Memahami model Extended Boolean untuk IR.
• Memahami language model dengan metode query
• Terdapat 3 dokumen
• D1 = Manajemen Sistem Informasi
• D2 = Penggajian untuk meningkatkan Sumber Daya Manusia
• D3 = Sistem Informasi Penggajian
• Q = informasi daya manusia
• Hitunglah rangking dari semua dokumen terhadap query
1. Probabilistic Retrieval
• Model probabilitas menghitung koefisien kemiripan antara
sebuah query dan dokumen sebagai sebuah probabilitas bahwa dokumen tersebut akan relevan dengan query.
• Semua penelitian terhadap probabilitic retrieval berakar
pada konsep perkiraan bobot term berdasar seberapa sering term muncul atau tidak dalam dokumen relevan dan non-relevan.
• Term dalam query dapat dilihat sebagai indikator bahwa
dokumen relevan.
• Sehingga ada atau tidaknya term query dapat digunakan untuk
memprediksi apakah dokumen relevan atau tidak.
• Operasi dot product semua bobot dapat digunakan untuk
menghitung probabilitas relevansi.
• Sebagian besar model probabilitic mengasumsikan
independensi tiap term.
• Karena untuk memperhatikan dependensi tiap term membutuhkan
komputasi lebih mahal dan membutuhkan adanya pelatihan ke sistem.
Simple Term Weights
q = { t1, t2 } t1 t1 t2 t2 t1 t2 Dokumen Terambil P(t1 | Di relevan) = ½ P(t1 | Di non relevan) = 2/3 P(t2 | Di relevan) = 1 P(t2 | Di non relevan ) = 1/3• Metode Robertson dan Sparck Jones (1976)
menyediakan mekanisme perhitungan probabilitas relevan dan tidak relevan untuk sebuah term.
• Definisi asumsi mutually exclusive independence:
• I1 = distribusi term dalam dokumen relevan adalah independen dan
distribusi term dalam sluruh dokumen juga independen
• I2 = distribusi term dalam dokumen relevan adalah independen dan
distribusi term dalam dokumen non-relevan juga independen.
• Definisi dua metode untuk presentasi hasil:
• O1 = kemungkinan relevan didasarkan hanya pada kemunculan
term yang dicari dalam dokumen
• O2 = kemungkinan relevan didasarkan baik pada kemunculan atau
Simple Term Weights
• Empat bobot diturunkan dari kombinasi prinsip rankings
• N = jumlah dokumen dalam koleksi
• R = jumlah dokumen relevan untuk query q
• n = jumlah dokumen yang mengandung term t
Simple Term Weights
O1
O2
I1
w
1w
3I2
w
2w
4•
W
4merupakan hasil terbaik
•
W
3dan w
4adalah hasil lebih baik dari
• Jika dalam suatu perhitungan bobot diketahui adanya
inifiniti, maka perhitungan keempat bobot dapat diubah menjadi: w1 = log (r + 0.5) (R +1) (n +1) (N + 2) ! " # # # # $ % & & & & w2 = log (r + 0.5) (R +1) (n − r + 0.5) (N − R +1) ! " # # # # $ % & & & & w3 = log (r + 0.5) (R − r + 0.5) (n +1) (N − n +1) " # $ $ $ $ % & ' ' ' ' w4 = log (r + 0.5) (R − r + 0.5) (n − r + 0.5) (N − n − (R − r) + 0.5) " # $ $ $ $ % & ' ' ' '
Contoh
• Q: “gold silver truck”
• D1 = “Shipment of gold damaged in a fire”
• D2 = “Delivery of silver arrived in a silver truck”
• D3 = “Shipment of gold arrived in a truck”
• Oleh karena dalam model probabilistik diperlukan
dokumen pelatihan, maka ketiga dokumen diasumsikan adalah dokumen pelatihan.
gold
silver
truck
N
3
3
3
n
2
1
2
R
2
2
2
Simple Term Weights
• Hitunglah bobot tiap term dalam query untuk w1, w2, w3,
dan w4.
• Secara ringkas dapat ditunjukkan pada tabel berikut:
w
1w
2w
3w
4gold
-0.079 -0.176 -0.176 -0.477
silver
0.097
0.301
0.176
0.477
• Selanjutnya, hitung koefisien kemiripan dengan cara
menjumlahkan bobot term query yang dimiliki masing-masing dokumen. • Rangking dokumen: D2, D3, D1. w1 w2 w3 w4 D1 -0.079 -0.176 -0.176 -0.477 D2 0.240 0.824 0.699 1.653 D3 0.064 0.347 0.347 0.699
Latihan Simple Term Weight
• Terdapat 3 dokumen
• D1 = Manajemen Sistem Informasi
• D2 = Penggajian untuk meningkatkan Sumber Daya Manusia
• D3 = Sistem Informasi Penggajian
• Q = informasi daya manusia
• Tampilkan urutan dokumen yang ditampilkan dengan
• Ide dasar adalah memberikan bobot term untuk setiap
term dalam query dan untuk tiap term dalam dokumen.
• Bobot-bobot term dikaitkan dengan perangkingan
dokumen.
• Misal diberikan query (t1 OR t2) yang akan
mengembalikan dokumen yang berisi t1 dengan bobot w1 dan t2 dengan bobot w2.
• Jika baik w1 dan w2 adalah 1, sebuah dokumen yang
berisi kedua term tersebut diberikan kemungkinan ranking paling tinggi.
• Dengan menggunakan Eucledian distance, dari titik (w1,
w2) dari titik asal, kita dapat mendapatkan koefisien kemiripan.
Extended Boolean – 2 dimensi
•
Untuk sebuah
dokumen berisi term t
1dan t
2dengan bobot
w
1dan w
2, maka
koefisien kemiripan
dapat dihitung sebagai:
•
Nilai SC tertinggi
adalah 1.414
• Jika t1 ∨ t2 dinormalisasikan: • Jika t1 ∧ t2 dinormalisasikan :
sc(Q
t 1∨t2, d
i) =
(w
1)
2+ (w
2)
22
sc(Q
t 1∧t2, d
i) = 1−
(1− w
1)
2+ (1− w
2)
22
Extended Boolean – p-Norm
• Untuk sembarang term, m, kita mendapatkan ekspresi
• Oleh karena nilai bobot term harus bernilai [0, 1], maka
nilai bobot TF-IDF tiap term dalam dokumen harus dinormalisasikan.
• Dimana:
• tfmax i,j = maksimum frekuensi term I dalam dokumen j
Latihan #2
• D1 = “Shipment of gold damaged in a fire”
• D2 = “Delivery of silver arrived in a silver truck”
• D3 = “Shipment of gold arrived in a truck”
• Q1: “gold OR silver OR truck”
• Q2: “gold AND silver AND truck”
• Statistical language model adalah sebuah mekanisme
probabilistik untuk menghasilkan sebuah deretan teks.
• Language model untuk IR dimulai tahun 1998 oleh Ponte
dan Croft.
• Idenya adalah dokumen dapat dirangking terhadap
kemungkinan (likelihood) dari generating query.
• Koefisien kemiripan Q dan Di adalah:
• Dimana MDi adalah language model dalam dokumen Di.
SC(Q, D
i) = P(Q | M
DLanguage Model
• Generating sebuah query memerlukan sebuah model
probabilistik untuk query.
• Ponte dan Croft menghitung probabilitas query sebagai
product probabilitas baik terhadap adanya term dalam query atau tidak.
SC(Q, D
i) =
P(t
j| M
D i)
(1− P(t
j| M
Di))
t∉Q∏
tj∈Q∏
• Model p(tj|MDi) dapat diperkirakan dengan model:
• Dimana adalah perkiraan maximum likelihood
dari distribusi term, yang diberikan dengan:
• Dimana dlDi adalah panjang dokumen Di.
p(t
j| M
D j) = p
ml(t
j| M
Di)
pml(tj | MD i )p
ml(t
j| M
D i) =
tf (t
j, D
i)
dl
DiLanguage Model
D1 D2 D3 MD1 MD2 MD3 Query (Q) P(Q|MD2) Model Dokumen Koleksi Dokumen• D1 = “Shipment of gold damaged in a fire”
• D2 = “Delivery of silver arrived in a silver truck”
• D3 = “Shipment of gold arrived in a truck”
• Q1: “gold silver truck”
Pml(silver | MD i) = tf (silver, Di) dlD i = 0
Smoothing untuk ML
• Untuk menghindari masalah karena term query tidak ada
dalam dokumen, perlu diterapkan smoothing.
• dimana
p(t | M
D i) =
p
ml(t, d)
(1−R(t,d ))× p
avg(t)
R(t,d )cft
cs
#
$
%
&
%
Jika tf(t,d)>0 Selain itup
avg(t) =
∑
d (t∈d )p
ml(t | M
D)
df
tR
(t,d )=
1.0
1.0 + f
t!
"
#
$
%
&×
f
t1.0 + f
t!
"
#
$
%
&
tft,df
t= p
avg(t) × dl
d• cs = 22 token
• Total jumlah token dalam tiap dokumen (dld)
• D1 = 7, D2 = 8, D3 = 7
• Jumlah dokumen dari tiap term t, dft, adalah
• Jumlah kemunculan token dalam koleksi, cft :
a arrived damaged delivery fire gold in of shipment silver truck
dft 3 2 1 1 1 2 3 3 2 1 2
a arrived damaged delivery fire gold in of shipment silver truck
Contoh
• Jumlah kemunculan tiap term di tiap dokumen, tft,d :
a arrived damaged delivery fire gold in of shipment silver truck
D1 1 0 1 0 1 1 1 1 1 0 0
D2 1 1 0 1 0 0 1 1 0 2 1
• Pertama, kita hitung perkiraan maximum likelihood dari
kemungkinan term t untuk dokumen d.
Pml(t|Md) D1 D2 D3 a 0.143 0.125 0.143 arrived 0 0.125 0.143 damaged 0.143 0 0 delivery 0 0.125 0 fire 0.143 0 0 gold 0.143 0 0.143 in 0.143 0.125 0.143 of 0.143 0.125 0.143 shipment 0.143 0 0.143 silver 0 0.250 0 truck 0 0.125 0.143
Contoh
• Kedua, kita hitung rata-rata kemungkinan term t dalam
dokumen yang berisi term tersebut.
a arrived damaged delivery fire gold
Pavg(t) 0.137 0.134 0.143 0.125 0.143 0.143
in of shipment silver truck
• Ketiga, kita hitung resiko sebuah term t dalam sebuah
dokumen d. Sebelumnya kita hitung rata-rata kemunculan term dalam dokumen.
ft a arrived Damaged delivery fire gold
D1 0.958 0.938 1 0.875 1 1
D2 1.096 1.071 1.143 1 1.143 1.143
D3 0.958 0.938 1 0.875 1 1
ft In Of Shipment Silver truck
D1 0.958 0.958 1 1.750 0.938
D2 1.096 1.096 1.143 2 1.071
Contoh
• Nilai resiko tiap term di tiap dokumen
Rt,d D1 D2 D3 a 0.250 0.249 0.250 arrived 0.516 0.250 0.250 damaged 0.250 0.467 0.500 delivery 0.533 0.250 0.533 fire 0.250 0.467 0.500 gold 0.250 0.467 0.250 in 0.250 0.249 0.250 of 0.250 0.249 0.250 shipment 0.250 0.467 0.250 silver 0.364 0.148 0.364 truck 0.516 0.249 0.250
• Keempat, kita hitung probabilitas bentuk query untuk
sebuah model dokumen.
p(t|Md) D1 D2 D3 A 0.141 0.128 0.141 arrived 0.091 0.127 0.141 damaged 0.143 0.045 0.045 delivery 0.045 0.125 0.045 fire 0.143 0.045 0.045 gold 0.143 0.091 0.143 in 0.141 0.128 0.141 of 0.141 0.128 0.141 shipment 0.143 0.091 0.143 silver 0.091 0.250 0.091 truck 0.091 0.127 0.141
Contoh
• Kelima, kita hitung kemiripan Query dengan model
dokumen.
D1 D2 D3
• Terdapat 3 dokumen
• D1 = Manajemen Sistem Informasi
• D2 = Penggajian untuk meningkatkan Sumber Daya Manusia
• D3 = Sistem Informasi Penggajian
• Q = informasi daya manusia
• Tampilkan urutan dokumen yang ditampilkan dengan