• Tidak ada hasil yang ditemukan

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

N/A
N/A
Protected

Academic year: 2021

Membagikan "Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah"

Copied!
43
0
0

Teks penuh

(1)

Metode

Metode

Latent Semantic Analysis dan

Algoritma Weighted Tree

Algoritma Weighted Tree

Similarity untuk Pencarian

b

b

i S

tik

berbasis Semantik

oleh : Umi Sa’adah 5109201030 Pembimbing :

Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.Dy , , Umi Laili Yuhana, S.Kom, M.Sc

(2)

Latar Belakang

Latar Belakang

Butuh sistem pencarian dengan

hasil yang cepat

Perpustakaan digital tumbuh pesat

y g

dan relevan

Perpustakaan digital tumbuh pesat

baik dari sisi jumlah maupun

kekayaan kontennya

kekayaan kontennya

Kebanyakan sistem pencarian yang ada

kurang memadai

dari sisi relevansi hasil pencarian

dari sisi relevansi hasil pencarian

(3)

Full Text Search

Full Text Search

• Cara: mencari kata kunci pengguna (query) di

keseluruhan isi dokumen

keseluruhan isi dokumen

+ Umum digunakan + Umum digunakan

+ Antarmuka sederhana

- Hasil pencarian sangat banyak - Seringkali tidak relevan dengan yang diinginkan pengguna

y g g p gg

- Kelemahan linguistik: tidak bisa membedakan relasi antar kata

(misalnya sinonim, hipernim, hiponim) (misalnya sinonim, hipernim, hiponim)

(4)

Metadata Enabled Search

Metadata-Enabled Search

Cara: Menelusuri query pada metadata

dokumen

+ dapat berfungsi + dapat berfungsi

sebagai katalog dokumen

- Semua metadata diberi tingkat

prioritas/bobot yang sama

p y g

- Kelemahan linguistik - Antarmuka kompleks

(5)

Solusi

Solusi

LSA Weighted Tree Similarity Metadata LSA (Latent Semantic Analysis) Similarity Metadata

Metadata CosineCosine

Measure Similarity

Metadata

(6)

R

e

Setyawan, S. H. (2004) Algoritma Weighted-Tree

e

l

g g

Similarity ditambah algoritma

Fuzzy Logic untuk meningkatkan relevansi

pencarian

Weighted tree similarity + Fuzzy Logic Menggabungkan weighted tree similarity dengan LSA t k

a

t

pencarian Yuniar E (2010) LSA untuk pencarian berbasis semantik yang independen

e

d

landscape reading, interpreting, Yuniar E. (2010) Menggabungkan LSA dan Wordnet untuk mendapatkan

topik yang dibahas pada LSA + Wordnet yang independen

terhadap bahasa

W

and representing

p y g p

suatu artikel dalam e-learning yang dipakai sebagai

rekomendasi anotasi

W

o

r

Rakhmawati V. (2009) Menggabungkan algoritma

r

k

weighted tree similarity

dengan Wordnet.

Dibatasi pada koleksi yang berbahasa Inggris

Weighted tree similarity + Wordnet

(7)

Permasalahan

Permasalahan

1

Bagaimana mengolah daftar isi dalam database

1. Bagaimana mengolah daftar isi dalam database

buku melalui pra pemrosesan teks dan proses LSA

agar menghasilkan nilai

g

g

document scores

yang

y

g

menjadi nilai kemiripan lokal dari cabang keyword

dalam

weighted tree

?

2. Bagaimana menerapkan

cosine measure similarity

sebagai dasar penentuan kemiripan lokal pada

cabang judul, penerbit dan pengarang dalam

weighted tree

?

3. Bagaimana menghitung nilai kemiripan antara

weighted tree

yang dibangun dari

query user

terhadap

weighted tree

buku dalam database?

terhadap

weighted tree

buku dalam database?

(8)

Batasan Masalah

Batasan Masalah

1. Dataset yang digunakan untuk ujicoba adalah

y

g

g

j

data buku di perpustakaan PENS

2. Data buku yang digunakan adalah data buku yang

berbahasa Indonesia

3. Hubungan semantik yang dijadikan dasar

penentuan kesamaan konteks adalah sinonim

4. Fase persiapan dilakukan sebelum fase matching,

d

di l

ti

k li d

d t d t b

dan diulang setiap kali ada update database.

5. Tidak membahas data query yang bersifat

numerik

numerik

6. Tidak memperhatikan pengetahuan yang

terkandung dalam struktur daftar isi

terkandung dalam struktur daftar isi

(9)

Hipotesa

Hipotesa

W-Tree + LSA

b ik

k l

memberikan keluaran yang

lebih relevan dibandingkan

(10)

Manfaat dan Kontribusi

Manfaat dan Kontribusi

• Membuat sistem pencarian buku yang

memiliki relevansi secara semantik dan

independen terhadap bahasa.

• Berkontribusi dalam pembentukan model

i

k

l

it

pencarian menggunakan algoritma

weighted tree similarity

yang

dikombinasikan dengan metode LSA.

(11)

D

T i

Dasar Teori

(12)

What is LSA

Latent Semantic Analysis

?

What is LSA –

Latent Semantic Analysis

?

ƒ LSA adalah teknik matematika/teknik statistik

LSA adalah teknik matematika/teknik statistik

untuk mengekstraksi dan menyimpulkan

hubungan penggunaan kontekstual yang

dih

k

d i k t k t

j di b

i

diharapkan dari kata-kata yang menjadi bagian

dari wacana (Landauer, Foltz & Laham, 1998).

ƒ Digunakan dalam

author recognition search

ƒ Digunakan dalam

author recognition, search

engines, detecting plagiarism

, dan

membandingkan kemiripan teks

g

p

(Sudarsun,2008)

ƒ Sebuah konteks di mana suatu kata eksis atau

tid k k

t k

k

i i

d k

tidak akan menentukan kemiripan dokumen

(13)

Weighted Tree

(Solihin, 2006)

Tree

merupakan struktur data yang

umum digunakan sebagai representasi informasi.

• Struktur

Weighted Tree

memperkenalkan konsep

node

berlabel,

arc

berlabel, dan

arc

berbobot

t

ik

l

i

t hild

d i

yang merepresentasikan relasi

parent-child

dari

suatu atribut produk/jasa.

I f

i

tik dik

d

tid k h

d

• Informasi semantik dikandung tidak hanya pada

label

node

tetapi juga pada label

arc.

Sedangkan bobot

arc

merepresentasikan tingkat

• Sedangkan bobot

arc

merepresentasikan tingkat

kepentingan

(importance)

dari suatu

arc

(atribut

produk/jasa)

produk/jasa).

(14)

Evaluasi Performa

Evaluasi Performa

• Recall dan Precision

– Precision = tp/(tp+fp) --> rasio dari

p ( p p)

pattern

p

yang di-klasifikasikan sebagai positive

dengan benar dari semua

g

pattern

p

yang

y

g

diklasifikasikan sebagai

positive

.

– Recall = tp/(tp+fn) --> rasio dari

Recall tp/(tp+fn) > rasio dari

pattern

pattern

yang

yang

diklasifikasikan sebagai positive

dengan

benar dari semua

pattern

yang seharusnya

benar dari semua

pattern

yang seharusnya

(15)

Evaluasi Performa

Evaluasi Performa

R

i

O

ti

Ch

t

i ti (ROC)

• Receiver Operating Characteristic (ROC)

merupakan kurva yang memetakan laju

True

Positive (tp)

/ diterima relevan terhadap laju

False

Positive (tp)

/ diterima relevan terhadap laju

False

Positive (fp)

/ diterima tidak relevan.

Kurva ROC mem plot

true positive rate vs false

• Kurva ROC mem-plot

true positive rate vs false

positive rate

.

true positive rate = recall – true positive rate = recall

– false positive rate = fp/(fp+tn) --> rasio dari pattern yang diklasifikasikan sebagai g positivep dengan salah dari g semua pattern yang seharusnya diklasifikasikan secara

(16)

M d l i

Metodologi

(17)

Gambaran Umum Sistem

Gambaran Umum Sistem

Metadata SISTEM Metadata k d Urutan judul buku beserta nilai similarity keyword Daftar Isi 2/3/2012

(18)

Metodologi

Metodologi

Terdapat 2 fase:

• Fase Persiapan

• Fase Persiapan

• Fase Matching

Gambar Diagram Konteks Sistem 2/3/2012 18

(19)

Fase Persiapan

Fase Persiapan

Gambar Fase Persiapan

Gambar Diagram alir fase Persiapan

2/3/2012 19

(20)

Fase Matching

(21)

Keluaran Sistem

Keluaran Sistem

• Keluaran berupa

p

– nilai similarity – judul buku

• Nilai/

score

tertinggi Æ memiliki relevansi

terbesar terhadap query user.

(22)
(23)

Dataset

Dataset

Sumber Digilib EEPIS : www.mis.eepis‐its.edu K i B k T k D4 Kategori Buku Teks D4 Subyek Komputer Bahasa Bahasa Indonesia  Jumlah 164 judul

(24)
(25)
(26)
(27)

Tree buku vs Tree Query

y

Tabel Nilai bobot Cabang Tree

Tree Buku Cabang Nilai Bobot Judul 0.35 Pengarang 0.02 g Tree Buku 0.01 0.01 g g Penerbit 0.01 Tahun 0.01 Edisi 0.01 1 2002 Richardus Eko Indrajit

Buku Pintar Linux Database Server

0.35

0.6 0.01 0.02

Keyword 0.6

daftar isi Elex Media Komputindo Database Server

PostgreSQL

vs

Tree Query User

0 1 0 1 0.5 0.1 0.1 0.1 0.1 0.1 2/3/2012 PostgreSQL 27

(28)

Kemiripan Lokal :

Kemiripan Lokal :

cosine measure similarity

string matching

JUDUL TAHUN PENGARANG PENGARANG EDISI PENERBIT

(29)

Kemiripan lokal : LSA

Kemiripan lokal : LSA

(30)

W-Tree vs W-Tree+LSA

W-Tree +LSA

(31)

Analisis

Analisis

• Dengan W-Tree +LSA:

– Keluaran yang direkomendasikan adalah buku-buku iliki k i i / l i d k d

yang memiliki kemiripan/relevansi dengan keyword yang dijadikan query, yaitu :

“PostgreSQL”

Metadata yang lain seperti judul pengarang dll juga – Metadata yang lain, seperti judul, pengarang, dll juga

memberikan kontribusi pada judul-judul buku yang direkomendasikan

• Dengan W-Tree tanpa LSA:

– Keluaran yang direkomendasikan adalah buku-bukuKeluaran yang direkomendasikan adalah buku buku sesuai dengan query pada seluruh metadata : judul, penerbit, pengarang, dll.

– Sebagian besar hasil pencarian, tidak relevan dengan

(32)

Pembuktian

Pembuktian

Hi t

(33)

Pembuktian

Hipotesa

(34)

1 Penentuan Keyword

1. Penentuan Keyword

(35)

2. Proses Training

Tabel Score similarity

W-Tree

W T W-Tree + LSA

(36)

Kurva ROC

Æ threshold/cut off

Kurva ROC Æ threshold/cut off

(37)

3 Proses Testing

3. Proses Testing

• Didasarkan pada nilai

threshold

dari

masing-masing

g

g

query

q

y

• Dilakukan pada kedua sistem yang

dibandingkan

dibandingkan.

• Keluaran dari proses ini sama dengan

proses

training

, namun keluaran hanya

koleksi yang memiliki

score > = threshold

(38)

4 Performa

4. Performa

Koleksi l

Hasil Pencarian Performa W-Tree

R l k P i i R ll F Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 49 3 46 0.061224 0.4286 0.10714286 W-Tree Q2 7 49 3 46 0.061224 0.4286 0.10714286 Q3 8 14 1 13 0.071429 0.125 0.09090909 Q4 3 50 2 48 0.04 0.6667 0.0754717 Q 3 50 8 0.0 0.6667 0.075 7 7 Q5 7 50 2 48 0.04 0.2857 0.07017544 Rata-rata 0.054776 0.3869 0.09016839

Koleksi Hasil Pencarian Performa

W-Tree Query relevan |R| Total |A| Relevan |Ra| tak relevan Precision |Ra|/|A| Recall |Ra|/|R| F-score 2/(1/R + 1/P) Q1 7 61 6 55 0.098361 0.8571 0.17647 W Tree + LSA Q2 7 57 7 50 0.122807 1 0.21875 Q3 8 40 2 38 0.05 0.25 0.08333 Q4 3 27 2 25 0 074074 0 6667 0 13333 Q4 3 27 2 25 0.074074 0.6667 0.13333 Q5 7 78 3 75 0.038462 0.4286 0.07059 Rata-rata 0.076741 0.6405 0.1365

(39)

Rangkumannya

Rangkumannya…

Pencarian Precision Recall F-score

W-Tree 0.05477551 0.38690476 0.09016839

W Tree + LSA 0 076740657 0 64047619 0 1364951

Nilai tertinggi

(40)

Kesimpulan dan

Kesimpulan dan

(41)

Kesimpulan

Kesimpulan

• Nilai

doc scores

hasil proses LSA, tidak hanya dipengaruhi oleh nilai

query vectors

, namun juga oleh

term vector

yang nilainya tertinggi Hal ini mengakibatkan tingkat relevansi nilainya tertinggi. Hal ini mengakibatkan tingkat relevansi dengan

query

menurun.

• Sistem pencarian dengan penggabungan W-Tree + LSASistem pencarian dengan penggabungan W Tree + LSA memberikan hasil dengan relevansi terhadap query LEBIH TINGGI dibandingkan sistem pencarian dengan algoritma W-Tree+Wordnet dalam menangani dokumen bahasa

Indonesia

• W-Tree + LSA mengakomodasi kelebihan LSA dalam

memproses

keyword

ditambah dengan kelebihan algoritma W Tree dalam mengakomodasi metadata beserta bobot

W-Tree dalam mengakomodasi metadata beserta bobot yang dijadikan sebagai

query user

.

(42)

Saran

Saran

• Untuk mendapatkan keluaran yang lebih

valid dan akurasi lebih tinggi :

gg

1. Perlu dibuat standarisasi dalam penulisan daftar

isi buku.

2. Model yang direkomendasikan bisa

menggunakan LSA dengan masukan berupa

menggunakan LSA dengan masukan berupa

daftar indeks buku atau berupa buku secara

keseluruhan

(e-books).

(

)

Dengan demikian nilai

g

term document matrix

benar-benar mewakili

term yang muncul dalam buku tersebut.

(43)

Alhamdulillahi robbil ‘alamin

Alhamdulillahi robbil alamin

Gambar

Gambar Fase PersiapanGambar  Diagram alir fase Persiapan
Tabel Nilai bobot Cabang Tree
Gambar Diagram alir pembuktian hipotesa
Tabel  Score similarity

Referensi

Dokumen terkait

1) Telah berhasil dibuat sistem untuk mentransformasikan kalimat pencarian lokasi dalam Bahasa Indonesia menjadi query spasial Postrgee SQL dengan implementasi NLP, dari hasil

Hasil pada Tabel 5 dan Tabel 4 menunjukkan secara empirik dengan lima kali pengujian, pencarian semantik dengan weighted tree similarity menghasilkan nilai rata-rata precision

1) Isian data pencarian (data leaf node ) mempunyai pengaruh menentukan urutan pada hasil perhitungan dengan algoritma Weighted Tree Similarity meskipun tidak dilakukan

1) Isian data pencarian (data leaf node ) mempunyai pengaruh menentukan urutan pada hasil perhitungan dengan algoritma Weighted Tree Similarity meskipun tidak dilakukan

Precision digunakan untuk mengukur ketepatan sistem dalam menentukan dokumen relevan pada pencarian dari dokumen yang diterima, dengan kata lain hasil precision merupakan

Berdasarkan penelitian-penelitian yang sudah ada, penulis mencoba untuk mengembangkan sebuah sistem pencarian dokumen lintas Bahasa atau Cross Language Information Retrieval

Bagaimana hasil implementasi metode Term Relatedness to Query (TRQ) dalam sistem pencarian informasi untuk menghasilkan suggestion informasi buah dan sayuran lokal Jember

Sistem yang dibangun memberikan suggestion setiap kali user mengetikkan kata kunci dan hasil pencarian akan tampil secara akurat dengan waktu proses 7 mili detik dengan nilai