Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

(1)

Metode

Latent Semantic Analysis dan

Algoritma Weighted Tree

Similarity untuk Pencarian

b

i S

tik

berbasis Semantik

oleh : Umi Sa’adah 5109201030 Pembimbing :

Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.Dy , , Umi Laili Yuhana, S.Kom, M.Sc

(2)

Latar Belakang

Butuh sistem pencarian dengan

hasil yang cepat

Perpustakaan digital tumbuh pesat

y g

dan relevan

Perpustakaan digital tumbuh pesat

baik dari sisi jumlah maupun

kekayaan kontennya

Kebanyakan sistem pencarian yang ada

kurang memadai

dari sisi relevansi hasil pencarian

(3)

Full Text Search

• Cara: mencari kata kunci pengguna (query) di

keseluruhan isi dokumen

+ Umum digunakan + Umum digunakan

+ Antarmuka sederhana

- Hasil pencarian sangat banyak - Seringkali tidak relevan dengan yang diinginkan pengguna

y g g p gg

- Kelemahan linguistik: tidak bisa membedakan relasi antar kata

(misalnya sinonim, hipernim, hiponim) (misalnya sinonim, hipernim, hiponim)

(4)

Metadata Enabled Search

Metadata-Enabled Search

Cara: Menelusuri query pada metadata

dokumen

+ dapat berfungsi + dapat berfungsi

sebagai katalog dokumen

- Semua metadata diberi tingkat

prioritas/bobot yang sama

p y g

- Kelemahan linguistik - Antarmuka kompleks

(5)

Solusi

LSA Weighted Tree Similarity Metadata LSA (Latent Semantic Analysis) Similarity Metadata

Metadata _Cosine_Cosine

Measure Similarity

Metadata

(6)

R

e

Setyawan, S. H. (2004) Algoritma Weighted-Tree

e

l

g g

Similarity ditambah algoritma

Fuzzy Logic untuk meningkatkan relevansi

pencarian

Weighted tree similarity + Fuzzy Logic Menggabungkan weighted tree similarity dengan LSA t k

a

t

pencarian Yuniar E (2010) LSA untuk pencarian berbasis semantik yang independen

e

d

landscape reading, interpreting, Yuniar E. (2010) Menggabungkan LSA dan Wordnet untuk mendapatkan

topik yang dibahas pada LSA + Wordnet yang independen

terhadap bahasa

W

and representing

p y g p

suatu artikel dalam e-learning yang dipakai sebagai

rekomendasi anotasi

W

o

r

Rakhmawati V. (2009) Menggabungkan algoritma

r

k

weighted tree similarity

dengan Wordnet.

Dibatasi pada koleksi yang berbahasa Inggris

Weighted tree similarity + Wordnet

(7)

Permasalahan

1 Bagaimana mengolah daftar isi dalam database

1. Bagaimana mengolah daftar isi dalam database

buku melalui pra pemrosesan teks dan proses LSA

agar menghasilkan nilai

g

document scores

yang

y

g

menjadi nilai kemiripan lokal dari cabang keyword

dalam

weighted tree

?

2. Bagaimana menerapkan

cosine measure similarity

sebagai dasar penentuan kemiripan lokal pada

cabang judul, penerbit dan pengarang dalam

weighted tree

?

3. Bagaimana menghitung nilai kemiripan antara

weighted tree

yang dibangun dari

query user

terhadap

weighted tree

buku dalam database?

terhadap

weighted tree

buku dalam database?

(8)

Batasan Masalah

1. Dataset yang digunakan untuk ujicoba adalah

y

g

j

data buku di perpustakaan PENS

2. Data buku yang digunakan adalah data buku yang

berbahasa Indonesia

3. Hubungan semantik yang dijadikan dasar

penentuan kesamaan konteks adalah sinonim

4. Fase persiapan dilakukan sebelum fase matching,

d

di l

ti

k li d

d t d t b

dan diulang setiap kali ada update database.

5. Tidak membahas data query yang bersifat

numerik

6. Tidak memperhatikan pengetahuan yang

terkandung dalam struktur daftar isi

(9)

Hipotesa

W-Tree + LSA

b ik

k l

memberikan keluaran yang

lebih relevan dibandingkan

(10)

Manfaat dan Kontribusi

• Membuat sistem pencarian buku yang

memiliki relevansi secara semantik dan

independen terhadap bahasa.

• Berkontribusi dalam pembentukan model

i

k

l

it

pencarian menggunakan algoritma

weighted tree similarity

yang

dikombinasikan dengan metode LSA.

(11)

D

T i

Dasar Teori

(12)

What is LSA

Latent Semantic Analysis

?

What is LSA –

Latent Semantic Analysis

?

LSA adalah teknik matematika/teknik statistik

untuk mengekstraksi dan menyimpulkan

hubungan penggunaan kontekstual yang

dih

k

d i k t k t

j di b

i

diharapkan dari kata-kata yang menjadi bagian

dari wacana (Landauer, Foltz & Laham, 1998).

Digunakan dalam

author recognition search

Digunakan dalam

author recognition, search

engines, detecting plagiarism

, dan

membandingkan kemiripan teks

g

p

(Sudarsun,2008)

Sebuah konteks di mana suatu kata eksis atau

tid k k

t k

k

i i

d k

tidak akan menentukan kemiripan dokumen

(13)

Weighted Tree

(Solihin, 2006)

• Tree

merupakan struktur data yang

umum digunakan sebagai representasi informasi.

• Struktur

Weighted Tree

memperkenalkan konsep

node

berlabel,

arc

berlabel, dan

arc

berbobot

t

ik

l

i

t hild

d i

yang merepresentasikan relasi

parent-child

dari

suatu atribut produk/jasa.

I f

i

tik dik

d

tid k h

d

• Informasi semantik dikandung tidak hanya pada

label

node

tetapi juga pada label

arc.

Sedangkan bobot

arc

merepresentasikan tingkat

• Sedangkan bobot

arc

merepresentasikan tingkat

kepentingan

(importance)

dari suatu

arc

(atribut

produk/jasa)

produk/jasa).

(14)

Evaluasi Performa

• Recall dan Precision

– Precision = tp/(tp+fp) --> rasio dari

p ( p p)

pattern

p

yang di-klasifikasikan sebagai positive

dengan benar dari semua

g

pattern

p

yang

y

g

diklasifikasikan sebagai

positive

.

– Recall = tp/(tp+fn) --> rasio dari

Recall tp/(tp+fn) > rasio dari

pattern

yang

diklasifikasikan sebagai positive

dengan

benar dari semua

pattern

yang seharusnya

benar dari semua

pattern

yang seharusnya

(15)

Evaluasi Performa

R

i

O

ti

Ch

t

i ti (ROC)

• Receiver Operating Characteristic (ROC)

merupakan kurva yang memetakan laju

True

Positive (tp)

/ diterima relevan terhadap laju

False

Positive (tp)

/ diterima relevan terhadap laju

False

Positive (fp)

/ diterima tidak relevan.

Kurva ROC mem plot

true positive rate vs false

• Kurva ROC mem-plot

true positive rate vs false

positive rate

.

true positive rate = recall – true positive rate = recall

– false positive rate = fp/(fp+tn) --> rasio dari pattern yang diklasifikasikan sebagai g positivep dengan salah dari g semua pattern yang seharusnya diklasifikasikan secara

(16)

M d l i

Metodologi

(17)

Gambaran Umum Sistem

Metadata SISTEM Metadata k d Urutan judul buku beserta nilai similarity keyword Daftar Isi 2/3/2012

(18)

Metodologi

Terdapat 2 fase:

• Fase Persiapan

• Fase Matching

Gambar Diagram Konteks Sistem 2/3/2012 18

(19)

Fase Persiapan

Gambar Fase Persiapan

Gambar Diagram alir fase Persiapan

2/3/2012 19

(20)

Fase Matching

(21)

Keluaran Sistem

• Keluaran berupa

p

– nilai similarity – judul buku

• Nilai/

score

tertinggi Æ memiliki relevansi

terbesar terhadap query user.

(22)

(23)

Dataset

Sumber Digilib EEPIS : www.mis.eepis‐its.edu K i B k T k D4 Kategori Buku Teks D4 Subyek Komputer Bahasa Bahasa Indonesia Jumlah 164 judul

(24)

(25)

(26)

(27)

Tree buku vs Tree Query

y

Tabel Nilai bobot Cabang Tree

Tree Buku Cabang Nilai Bobot Judul 0.35 Pengarang 0.02 g Tree Buku 0.01 0.01 g g Penerbit 0.01 Tahun 0.01 Edisi 0.01 1 2002 Richardus Eko Indrajit

Buku Pintar Linux Database Server

0.35

0.6 0.01 0.02

Keyword 0.6

daftar isi Elex Media Komputindo Database Server

PostgreSQL

vs

Tree Query User

0 1 0 1 0.5 0.1 0.1 0.1 0.1 0.1 2/3/2012 PostgreSQL 27

(28)

Kemiripan Lokal :

cosine measure similarity

string matching

JUDUL TAHUN PENGARANG PENGARANG EDISI PENERBIT

(29)

Kemiripan lokal : LSA

(30)

W-Tree vs W-Tree+LSA

W-Tree +LSA

(31)

Analisis

• Dengan W-Tree +LSA:

– Keluaran yang direkomendasikan adalah buku-buku iliki k i i / l i d k d

yang memiliki kemiripan/relevansi dengan keyword yang dijadikan query, yaitu :

“PostgreSQL”

Metadata yang lain seperti judul pengarang dll juga – Metadata yang lain, seperti judul, pengarang, dll juga

memberikan kontribusi pada judul-judul buku yang direkomendasikan

• Dengan W-Tree tanpa LSA:

– Keluaran yang direkomendasikan adalah buku-bukuKeluaran yang direkomendasikan adalah buku buku sesuai dengan query pada seluruh metadata : judul, penerbit, pengarang, dll.

– Sebagian besar hasil pencarian, tidak relevan dengan

(32)

Pembuktian

Hi t

(33)

Pembuktian

Hipotesa

(34)

1 Penentuan Keyword

1. Penentuan Keyword

(35)

2. Proses Training

Tabel Score similarity

W-Tree

W T W-Tree + LSA

(36)

Kurva ROC

Æ threshold/cut off

Kurva ROC Æ threshold/cut off

(37)

3 Proses Testing

3. Proses Testing

• Didasarkan pada nilai

threshold

dari

masing-masing

g

query

q

y

• Dilakukan pada kedua sistem yang

dibandingkan

dibandingkan.

• Keluaran dari proses ini sama dengan

proses

training

, namun keluaran hanya

koleksi yang memiliki

score > = threshold

(38)

4 Performa

4. Performa

Koleksi l

Hasil Pencarian Performa W-Tree

R l k P i i R ll F Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 49 3 46 0.061224 0.4286 0.10714286 W-Tree Q2 7 49 3 46 0.061224 0.4286 0.10714286 Q3 8 14 1 13 0.071429 0.125 0.09090909 Q4 3 50 2 48 0.04 0.6667 0.0754717 Q 3 50 8 0.0 0.6667 0.075 7 7 Q5 7 50 2 48 0.04 0.2857 0.07017544 Rata-rata 0.054776 0.3869 0.09016839

Koleksi Hasil Pencarian Performa

W-Tree Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 61 6 55 0.098361 0.8571 0.17647 W Tree + LSA Q2 7 57 7 50 0.122807 1 0.21875 Q3 8 40 2 38 0.05 0.25 0.08333 Q4 3 27 2 25 0 074074 0 6667 0 13333 Q4 3 27 2 25 0.074074 0.6667 0.13333 Q5 7 78 3 75 0.038462 0.4286 0.07059 Rata-rata 0.076741 0.6405 0.1365

(39)

Rangkumannya

Rangkumannya…

Pencarian Precision Recall F-score

W-Tree 0.05477551 0.38690476 0.09016839

W Tree + LSA 0 076740657 0 64047619 0 1364951

Nilai tertinggi

(40)

Kesimpulan dan

(41)

Kesimpulan

• Nilai

doc scores

hasil proses LSA, tidak hanya dipengaruhi oleh nilai

query vectors

, namun juga oleh

term vector

yang nilainya tertinggi Hal ini mengakibatkan tingkat relevansi nilainya tertinggi. Hal ini mengakibatkan tingkat relevansi dengan

query

menurun.

• Sistem pencarian dengan penggabungan W-Tree + LSASistem pencarian dengan penggabungan W Tree + LSA memberikan hasil dengan relevansi terhadap query LEBIH TINGGI dibandingkan sistem pencarian dengan algoritma W-Tree+Wordnet dalam menangani dokumen bahasa

Indonesia

• W-Tree + LSA mengakomodasi kelebihan LSA dalam

memproses

keyword

ditambah dengan kelebihan algoritma W Tree dalam mengakomodasi metadata beserta bobot