Metode
Metode
Latent Semantic Analysis dan
Algoritma Weighted Tree
Algoritma Weighted Tree
Similarity untuk Pencarian
b
b
i S
tik
berbasis Semantik
oleh : Umi Sa’adah 5109201030 Pembimbing :Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.Dy , , Umi Laili Yuhana, S.Kom, M.Sc
Latar Belakang
Latar Belakang
Butuh sistem pencarian denganhasil yang cepat
Perpustakaan digital tumbuh pesat
y g
dan relevan
Perpustakaan digital tumbuh pesat
baik dari sisi jumlah maupun
kekayaan kontennya
kekayaan kontennya
Kebanyakan sistem pencarian yang ada
kurang memadai
dari sisi relevansi hasil pencarian
dari sisi relevansi hasil pencarian
Full Text Search
Full Text Search
• Cara: mencari kata kunci pengguna (query) di
keseluruhan isi dokumen
keseluruhan isi dokumen
+ Umum digunakan + Umum digunakan
+ Antarmuka sederhana
- Hasil pencarian sangat banyak - Seringkali tidak relevan dengan yang diinginkan pengguna
y g g p gg
- Kelemahan linguistik: tidak bisa membedakan relasi antar kata
(misalnya sinonim, hipernim, hiponim) (misalnya sinonim, hipernim, hiponim)
Metadata Enabled Search
Metadata-Enabled Search
Cara: Menelusuri query pada metadata
dokumen
+ dapat berfungsi + dapat berfungsi
sebagai katalog dokumen
- Semua metadata diberi tingkat
prioritas/bobot yang sama
p y g
- Kelemahan linguistik - Antarmuka kompleks
Solusi
Solusi
LSA Weighted Tree Similarity Metadata LSA (Latent Semantic Analysis) Similarity MetadataMetadata CosineCosine
Measure Similarity
Metadata
R
e
Setyawan, S. H. (2004) Algoritma Weighted-Treee
l
g gSimilarity ditambah algoritma
Fuzzy Logic untuk meningkatkan relevansi
pencarian
Weighted tree similarity + Fuzzy Logic Menggabungkan weighted tree similarity dengan LSA t k
a
t
pencarian Yuniar E (2010) LSA untuk pencarian berbasis semantik yang independene
d
landscape reading, interpreting, Yuniar E. (2010) Menggabungkan LSA dan Wordnet untuk mendapatkantopik yang dibahas pada LSA + Wordnet yang independen
terhadap bahasa
W
and representing
p y g p
suatu artikel dalam e-learning yang dipakai sebagai
rekomendasi anotasi
W
o
r
Rakhmawati V. (2009) Menggabungkan algoritmar
k
weighted tree similarity
dengan Wordnet.
Dibatasi pada koleksi yang berbahasa Inggris
Weighted tree similarity + Wordnet
Permasalahan
Permasalahan
1
Bagaimana mengolah daftar isi dalam database
1. Bagaimana mengolah daftar isi dalam database
buku melalui pra pemrosesan teks dan proses LSA
agar menghasilkan nilai
g
g
document scores
yang
y
g
menjadi nilai kemiripan lokal dari cabang keyword
dalam
weighted tree
?
2. Bagaimana menerapkan
cosine measure similarity
sebagai dasar penentuan kemiripan lokal pada
cabang judul, penerbit dan pengarang dalam
weighted tree
?
3. Bagaimana menghitung nilai kemiripan antara
weighted tree
yang dibangun dari
query user
terhadap
weighted tree
buku dalam database?
terhadap
weighted tree
buku dalam database?
Batasan Masalah
Batasan Masalah
1. Dataset yang digunakan untuk ujicoba adalah
y
g
g
j
data buku di perpustakaan PENS
2. Data buku yang digunakan adalah data buku yang
berbahasa Indonesia
3. Hubungan semantik yang dijadikan dasar
penentuan kesamaan konteks adalah sinonim
4. Fase persiapan dilakukan sebelum fase matching,
d
di l
ti
k li d
d t d t b
dan diulang setiap kali ada update database.
5. Tidak membahas data query yang bersifat
numerik
numerik
6. Tidak memperhatikan pengetahuan yang
terkandung dalam struktur daftar isi
terkandung dalam struktur daftar isi
Hipotesa
Hipotesa
W-Tree + LSA
b ik
k l
memberikan keluaran yang
lebih relevan dibandingkan
Manfaat dan Kontribusi
Manfaat dan Kontribusi
• Membuat sistem pencarian buku yang
memiliki relevansi secara semantik dan
independen terhadap bahasa.
• Berkontribusi dalam pembentukan model
i
k
l
it
pencarian menggunakan algoritma
weighted tree similarity
yang
dikombinasikan dengan metode LSA.
D
T i
Dasar Teori
What is LSA
Latent Semantic Analysis
?
What is LSA –
Latent Semantic Analysis
?
LSA adalah teknik matematika/teknik statistik
LSA adalah teknik matematika/teknik statistik
untuk mengekstraksi dan menyimpulkan
hubungan penggunaan kontekstual yang
dih
k
d i k t k t
j di b
i
diharapkan dari kata-kata yang menjadi bagian
dari wacana (Landauer, Foltz & Laham, 1998).
Digunakan dalam
author recognition search
Digunakan dalam
author recognition, search
engines, detecting plagiarism
, dan
membandingkan kemiripan teks
g
p
(Sudarsun,2008)
Sebuah konteks di mana suatu kata eksis atau
tid k k
t k
k
i i
d k
tidak akan menentukan kemiripan dokumen
Weighted Tree
(Solihin, 2006)
•
Tree
merupakan struktur data yang
umum digunakan sebagai representasi informasi.
• Struktur
Weighted Tree
memperkenalkan konsep
node
berlabel,
arc
berlabel, dan
arc
berbobot
t
ik
l
i
t hild
d i
yang merepresentasikan relasi
parent-child
dari
suatu atribut produk/jasa.
I f
i
tik dik
d
tid k h
d
• Informasi semantik dikandung tidak hanya pada
label
node
tetapi juga pada label
arc.
Sedangkan bobot
arc
merepresentasikan tingkat
• Sedangkan bobot
arc
merepresentasikan tingkat
kepentingan
(importance)
dari suatu
arc
(atribut
produk/jasa)
produk/jasa).
Evaluasi Performa
Evaluasi Performa
• Recall dan Precision
– Precision = tp/(tp+fp) --> rasio dari
p ( p p)
pattern
p
yang di-klasifikasikan sebagai positive
dengan benar dari semua
g
pattern
p
yang
y
g
diklasifikasikan sebagai
positive
.
– Recall = tp/(tp+fn) --> rasio dari
Recall tp/(tp+fn) > rasio dari
pattern
pattern
yang
yang
diklasifikasikan sebagai positive
dengan
benar dari semua
pattern
yang seharusnya
benar dari semua
pattern
yang seharusnya
Evaluasi Performa
Evaluasi Performa
R
i
O
ti
Ch
t
i ti (ROC)
• Receiver Operating Characteristic (ROC)
merupakan kurva yang memetakan laju
True
Positive (tp)
/ diterima relevan terhadap laju
False
Positive (tp)
/ diterima relevan terhadap laju
False
Positive (fp)
/ diterima tidak relevan.
Kurva ROC mem plot
true positive rate vs false
• Kurva ROC mem-plot
true positive rate vs false
positive rate
.
true positive rate = recall – true positive rate = recall
– false positive rate = fp/(fp+tn) --> rasio dari pattern yang diklasifikasikan sebagai g positivep dengan salah dari g semua pattern yang seharusnya diklasifikasikan secara
M d l i
Metodologi
Gambaran Umum Sistem
Gambaran Umum Sistem
Metadata SISTEM Metadata k d Urutan judul buku beserta nilai similarity keyword Daftar Isi 2/3/2012
Metodologi
Metodologi
Terdapat 2 fase:
• Fase Persiapan
• Fase Persiapan
• Fase Matching
Gambar Diagram Konteks Sistem 2/3/2012 18Fase Persiapan
Fase Persiapan
Gambar Fase Persiapan
Gambar Diagram alir fase Persiapan
2/3/2012 19
Fase Matching
Keluaran Sistem
Keluaran Sistem
• Keluaran berupa
p
– nilai similarity – judul buku
• Nilai/
score
tertinggi Æ memiliki relevansi
terbesar terhadap query user.
Dataset
Dataset
Sumber Digilib EEPIS : www.mis.eepis‐its.edu K i B k T k D4 Kategori Buku Teks D4 Subyek Komputer Bahasa Bahasa Indonesia Jumlah 164 judulTree buku vs Tree Query
y
Tabel Nilai bobot Cabang Tree
Tree Buku Cabang Nilai Bobot Judul 0.35 Pengarang 0.02 g Tree Buku 0.01 0.01 g g Penerbit 0.01 Tahun 0.01 Edisi 0.01 1 2002 Richardus Eko Indrajit
Buku Pintar Linux Database Server
0.35
0.6 0.01 0.02
Keyword 0.6
daftar isi Elex Media Komputindo Database Server
PostgreSQL
vs
Tree Query User0 1 0 1 0.5 0.1 0.1 0.1 0.1 0.1 2/3/2012 PostgreSQL 27
Kemiripan Lokal :
Kemiripan Lokal :
cosine measure similarity
string matching
JUDUL TAHUN PENGARANG PENGARANG EDISI PENERBIT
Kemiripan lokal : LSA
Kemiripan lokal : LSA
W-Tree vs W-Tree+LSA
W-Tree +LSA
Analisis
Analisis
• Dengan W-Tree +LSA:
– Keluaran yang direkomendasikan adalah buku-buku iliki k i i / l i d k d
yang memiliki kemiripan/relevansi dengan keyword yang dijadikan query, yaitu :
“PostgreSQL”
Metadata yang lain seperti judul pengarang dll juga – Metadata yang lain, seperti judul, pengarang, dll juga
memberikan kontribusi pada judul-judul buku yang direkomendasikan
• Dengan W-Tree tanpa LSA:
– Keluaran yang direkomendasikan adalah buku-bukuKeluaran yang direkomendasikan adalah buku buku sesuai dengan query pada seluruh metadata : judul, penerbit, pengarang, dll.
– Sebagian besar hasil pencarian, tidak relevan dengan
Pembuktian
Pembuktian
Hi t
Pembuktian
Hipotesa
1 Penentuan Keyword
1. Penentuan Keyword
2. Proses Training
Tabel Score similarity
W-Tree
W T W-Tree + LSA
Kurva ROC
Æ threshold/cut off
Kurva ROC Æ threshold/cut off
3 Proses Testing
3. Proses Testing
• Didasarkan pada nilai
threshold
dari
masing-masing
g
g
query
q
y
• Dilakukan pada kedua sistem yang
dibandingkan
dibandingkan.
• Keluaran dari proses ini sama dengan
proses
training
, namun keluaran hanya
koleksi yang memiliki
score > = threshold
4 Performa
4. Performa
Koleksi l
Hasil Pencarian Performa W-Tree
R l k P i i R ll F Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 49 3 46 0.061224 0.4286 0.10714286 W-Tree Q2 7 49 3 46 0.061224 0.4286 0.10714286 Q3 8 14 1 13 0.071429 0.125 0.09090909 Q4 3 50 2 48 0.04 0.6667 0.0754717 Q 3 50 8 0.0 0.6667 0.075 7 7 Q5 7 50 2 48 0.04 0.2857 0.07017544 Rata-rata 0.054776 0.3869 0.09016839
Koleksi Hasil Pencarian Performa
W-Tree Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 61 6 55 0.098361 0.8571 0.17647 W Tree + LSA Q2 7 57 7 50 0.122807 1 0.21875 Q3 8 40 2 38 0.05 0.25 0.08333 Q4 3 27 2 25 0 074074 0 6667 0 13333 Q4 3 27 2 25 0.074074 0.6667 0.13333 Q5 7 78 3 75 0.038462 0.4286 0.07059 Rata-rata 0.076741 0.6405 0.1365
Rangkumannya
Rangkumannya…
Pencarian Precision Recall F-score
W-Tree 0.05477551 0.38690476 0.09016839
W Tree + LSA 0 076740657 0 64047619 0 1364951
Nilai tertinggi
Kesimpulan dan
Kesimpulan dan
Kesimpulan
Kesimpulan
• Nilai
doc scores
hasil proses LSA, tidak hanya dipengaruhi oleh nilaiquery vectors
, namun juga olehterm vector
yang nilainya tertinggi Hal ini mengakibatkan tingkat relevansi nilainya tertinggi. Hal ini mengakibatkan tingkat relevansi denganquery
menurun.• Sistem pencarian dengan penggabungan W-Tree + LSASistem pencarian dengan penggabungan W Tree + LSA memberikan hasil dengan relevansi terhadap query LEBIH TINGGI dibandingkan sistem pencarian dengan algoritma W-Tree+Wordnet dalam menangani dokumen bahasa
Indonesia
• W-Tree + LSA mengakomodasi kelebihan LSA dalam
memproses
keyword
ditambah dengan kelebihan algoritma W Tree dalam mengakomodasi metadata beserta bobotW-Tree dalam mengakomodasi metadata beserta bobot yang dijadikan sebagai