TINJAUAN PUSTAKA - Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode

Information Retrieval System (Sistem Temu

Kembali Informasi)

Tujuan utama sebuah information retrieval system (IRS) adalah menemukembalikan informasi yang mungkin berguna atau relevan bagi pengguna sesuai dengan kueri yang telah dimasukkannya. Penekanannya adalah pada penemukembalian informasi, bukan data (Baeza-Yates & Ribeiro-Neto 1999). Kerangka proses penemukembalian informasi dapat dilihat pada Lampiran 1.

IRS memberikan pengguna kemampuan untuk bisa mengakses informasi elektronik dalam jumlah yang sangat besar dalam waktu yang relatif singkat. Informasi tersebut bisa berupa dokumen teks, halaman web, gambar, audio atau video.

Sejumlah fitur membedakan IRS dengan sistem pencarian informasi yang lain, antara lain IRS tidak menyaring dan tidak pula memproses informasi yang terkandung dari objek informasi yang diaksesnya. Data yang diakses IRS juga biasanya tidak berstruktur, begitu pula informasi yang diterimanya (Ruthven & Lalmas 2003). Berbeda dengan sistem basisdata yang kuerinya terikat dalam aturan tertentu, IRS bisa menangani kueri seperti “Bagaimana keadaan perekonomian Irak setelah jatuhnya rezim Saddam Husein?” atau “Apa saja penelitian di bidang temu kembali informasi yang telah dilakukan mahasiswa Indonesia?”. IRS pada dasarnya memang ditujukan untuk menangani permintaan informasi yang jawabannya tidak harus unik atau objektif.

PENDAHULUAN

Latar Belakang

Sejalan dengan semakin populernya penggunaan Internet dan Perpustakaan Digital, informasi dalam jumlah yang luar biasa besar kini bisa diakses secara luas oleh masyarakat, suatu hal yang tidak tersedia di masa lalu. Akan tetapi bersamaan dengan itu, muncul masalah baru. Pengguna kini harus menyaring seluruh kumpulan informasi tersebut untuk menemukan kebutuhan informasinya. Bahkan setelah melalui bantuan search engine pun, yang rata-rata kini telah mengindeks milyaran halaman Web dari beragam kategori, setelah disaring melalui penggunaan kata kunci, pengguna seringkali belum bisa menemukan dokumen yang relevan dengan informasi yang dicarinya.

Dalam temu kembali informasi, jumlah dokumen relevan yang ditemukembalikan akan dipengaruhi oleh jumlah kata kunci yang digunakan untuk pencarian. Dalam Web, pencarian pada umumnya dilakukan menggunakan kueri pendek, hanya kurang dari tiga kata (Spink et al. 2000). Hal ini cukup menyulitkan karena kueri pendek hanya menyediakan sedikit informasi bagi sistem temu kembali mengenai kebutuhan pencarian pengguna. Sebagai hasilnya adalah meskipun jumlah dokumen yang ditemukembalikan banyak akan tetapi hanya sedikit yang dianggap relevan oleh pengguna.

Masalah lain yang sering terjadi dalam Web dan Perpustakaan Digital adalah pilihan kata yang digunakan pengguna dalam kueri seringkali berbeda dengan pilihan kata yang yang digunakan penulis dalam dokumen. Bahkan ketika beberapa pengguna memiliki kebutuhan informasi yang sama, jarang mereka menggunakan pilihan kata yang sama untuk menggambarkannya dalam kueri (Xu & Croft 2005). Beberapa pendekatan dalam temu kembali informasi telah dilakukan untuk menangani perbedaan ini.

Salah satu pendekatannya adalah penggunaan relevance feedback. Dalam pendekatan ini sistem menemukembalikan dokumen-dokumen yang mungkin relevan bagi kueri pengguna, selanjutnya pengguna memeriksa beberapa dokumen tersebut dan menandai dokumen yang dianggap relevan. Informasi ini digunakan oleh sistem untuk memodifikasi atau menambahkan kata dalam kueri dan diharapkan meningkatkan hasil pencarian. Siklus ini bisa terus diulang sampai

pengguna merasa kebutuhan informasinya telah terpenuhi.

Tujuan

Penelitian ini bertujuan mengimplementasikan dan menganalisis kinerja perluasan kueri dengan relevance feedback pada sistem temu kembali informasi untuk dokumen berbahasa Indonesia.

Ruang Lingkup

Penelitian ini dibatasi pada analisis kinerja relevance feedback pada sistem temu kembali informasi berbahasa Indonesia menggunakan formula Ide-Dec-Hi dan Ide-Regular. Model sistem temu kembali yang digunakan adalah vector space model.

TINJAUAN PUSTAKA

Information Retrieval System (Sistem Temu

Kembali Informasi)

Query (Kueri)

Menurut Baeza-Yates & Ribeiro-Neto (1999), kueri adalah pernyataan kebutuhan informasi pengguna dalam bentuk masukan berupa bahasa yang dikenali oleh sistem informasi. Jenis bahasa masukan sederhana yang paling banyak digunakan adalah kata kunci dan beberapa penghubung berupa ekspresi Boolean.

Daftar Kata Buang

Salah satu langkah dalam pengindeksan adalah menghilangkan istilah-istilah yang sangat sering muncul dalam koleksi dan yang tidak membantu penemukembalian dokumen relevan. Daftar istilah-istilah yang dihilangkan ini disebut daftar kata buang (stoplist). Daftar kata buang dapat berupa daftar yang dibuat secara umum yang bisa digunakan pada kebanyakan jenis koleksi atau daftar yang khusus dibuat untuk satu koleksi tertentu. (Ruthven & Lalmas 2003). Daftar kata buang biasanya kebanyakan terdiri dari kata sandang dan kata penghubung (Selberg 1997). Semisal “sang”, ”si”, ”namun”, dan “tetapi”.

Stemming

Istilah bisa muncul dalam berbagai variasi linguistik dari kata yang sama. Sebagai contoh, kata “petani” dan “bertani” sebenarnya berasal dari satu bentuk dasar yaitu “tani”. Dalam sistem temu kembali hal ini akan cukup menyulitkan pengguna karena ketika pengguna memasukkan kueri ”bertani”, sistem akan menemukembalikan semua dokumen yang mengadung kata “bertani” tapi tidak yang mengandung kata “petani”.

Untuk menghindari kesulitan tersebut sehingga pengguna tidak perlu mencoba semua kemungkinan variasi untuk setiap kata dalam kueri, banyak sistem temu kembali yang mengubah istilah-istilahnya ke bentuk dasarnya. Proses ini disebut stemming (Ruthven & Lalmas 2003).

Vector Space Model (VSM)

Vector space model merupakan model temu kembali yang paling populer sekaligus sederhana (Baeza-Yates & Ribeiro-Neto 1999). Berikut adalah beberapa definisi matematika yang digunakan dalam VSM (Selberg 1997):

1. D={d0, d1, ..., dN} adalah himpunan N dokumen dalam koleksi. d mengacu pada sembarang dokumen di

∈

2. T={t0, t1, ..., tm } adalah himpunan m istilah yang terindeks dalam D. tmengacu pada sembarang istilah ti

∈

3. wi adalah bobot dari istilah ti. Bobot bisa diartikan sebagai suatu nilai numerik yang menyatakan tingkat kepentingan sebuah istilah.

4. di adalah sebuah dokumen tunggal, direpresentasikan sebagai vektor berdimensi m, di=[wi1, wi2, ..., wim] dengan wij adalah bobot istilah tj dalam dokumen di. Dalam kasus paling sederhana, wij

bernilai 1 jika istilah tj muncul dalam dokumen di, dan wij bernilai 0 jika sebaliknya.

5. Q adalah kueri yang direpresentasikan sebagai sebuah vektor berdimensi m, mirip dengan dokumen, Q=[w1, w2, ...,wm] dengan wi adalah bobot istilah ti dalam Q. Hasil penemukembalian ditampilkan berupa daftar dokumen yang telah teranking berdasar tingkat kesamaan dokumen dengan kueri. Ukuran kesamaan sim(dj,q) antara dokumen di dan kueri Q dihitung menggunakan kosinus sudut antara di dan Q sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

( )

||

,

Q

d

Q

d

Q

d

sim

i i i

×

• =

. Pembobotan Istilah

Pembobotan dilakukan terhadap istilah-istilah yang berada dalam dokumen koleksi. Sistem temu kembali yang paling sederhana memboboti dengan bobot biner, 1 jika istilah itu muncul di dokumen dan 0 jika sebaliknya. Semakin canggih suatu sistem temu kembali, semakin kompleks skema pembobotannya. Berbagai macam penelitian dalam temu kembali informasi selama bertahun-tahun telah menunjukkan bahwa pembobotan yang optimal didapatkan melalui penggunaan fungsi tf*idf (Liddy 2001). Pada fungsi tf*idf bobot istilah ke-i pada dokumen ke-j dihitung dari perkalian term frequency dan inverse document frequency yang dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

idf

tf

w

_i_,_j

= *

, selanjutnya

(

l,j

)

l j i

freq

max

freq

tf =

^, ,

dengan freqi,j merupakan frekuensi kemunculan istilah ke-i dalam dokumen ke-j, maxl(freql,j) sebagai frekuensi maksimum istilah-istilah yang berada dalam dokumen ke-jdan i

n

N

log

idf =

dengan N adalah jumlah total dokumen dalam koleksi serta ni merupakan jumlah dokumen yang mengandung istilah ke-i.

Query Expansion (Perluasan Kueri) dan

Relevance Feedback

Menurut Selberg (1997), perluasan kueri adalah sekumpulan teknik untuk memodifikasi kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Seringnya modifikasi dilakukan dengan penambahan istilah ke dalam kueri, meskipun sebenarnya perluasan kueri juga meliputi penyesuaian bobot dan penghapusan istilah kueri.

Perluasan kueri bisa dilakukan dengan salah satu dari dari tiga metode berikut: 1. Manual Query Expansion (MQE)

Menggunakan metode ini pengguna memodifikasi kueri secara manual. Sistem tidak memberikan bantuan sama sekali kepada pengguna.

2. Automatic Query Expansion (AQE)

Dalam metode ini sistem akan memodifikasi kueri secara otomatis tanpa perlu bantuan kendali dari pengguna. Beberapa teknik yang biasa digunakan antara lain:

a. Global Analysis (GA)

GA beroperasi dengan cara memeriksa seluruh dokumen yang ada dalam koleksi untuk membangun suatu struktur yang mirip dengan tesaurus. Menggunakan tesaurus ini, kueri akan diperluas dengan istilah-istilah yang dianggap berhubungan erat dengan istilah kueri dalam ruang lingkup koleksi (Baeza-Yates & Ribeiro-Neto 1999).

b. Local Analysis (LA)

Dalam LA, sistem menemu-kembalikan dokumen dengan sebuah kueri awal, memilih dan memeriksa sejumlah dokumen dengan ranking teratas, mengasumsikan bahwa dokumen-dokumen teratas tersebut relevan, untuk kemudian

membangkitkan sebuah kueri baru (Baeza-Yates & Ribeiro-Neto 1999). c. Local Context Analysis (LCA)

LCA merupakan sebuah teknik baru yang mengkombinasikan GA dan LA. Berdasar penelitian Xu dan Croft (1996), LCA mampu mengalahkan efektifitas dan konsistensi dari GA dan LA.

3. Interactive Query Expansion (IQE) IQE mencakup metode-metode yang di dalamnya pengguna melakukan interaksi dengan sistem dalam proses perluasan kueri. Teknik yang tercakup di dalamnya adalah relevance feedback dan teknik inilah yang menjadi topik dalam penelitian ini.

Relevance feedback (RF) adalah metode yang sudah diterima secara luas untuk meningkatkan keefektifan penemu-kembalian secara interaktif. Sebuah pencarian awal dilakukan oleh sistem menggunakan kueri yang diberikan oleh pengguna dan sebagai hasilnya menemu-kembalikan sejumlah dokumen. Pengguna memeriksa dokumen-dokumen tersebut dan menandai dokumen yang dianggap relevan. Sistem kemudian secara otomatis memodifikasi kueri berdasar penilaian relevansi pengguna tadi. Kueri baru dijalankan untuk menemukembalikan kumpulan dokumen yang lebih relevan. Proses ini dapat berulang hingga pengguna merasa kebutuhan informasinya terpenuhi (Buckley et al. 1994 ).

Penelitian yang dilakukan Ruthven dan Lalmas (2003) melalui simulasi yang dilakukan pada pengguna berpengalaman, menyimpulkan bahwa IQE memberikan peningkatan kinerja yang lebih stabil daripada AQE. Sementara Belkin et al. (1997) menunjukkan bahwa kinerja RF tidak lebih buruk dibandingkan LCA.

Pembobotan dan Pemilihan Istilah

Teknik RF biasanya berfokus pada salah satu dari dua pendekatan berikut:

1. Pembobotan Istilah, adalah sebuah proses yang di dalamnya istilah-istilah kueri diboboti atau disesuaikan bobotnya. Bobot masing-masing istilah akan berbeda, bergantung pada tingkat kepentingan istilah tersebut untuk menemukembalikan tambahan dokumen relevan.

2. Pemilihan Istilah, adalah sebuah proses penambahan, atau dalam beberapa kasus, penghapusan istilah-istilah kueri. Biasanya

pemilihan istilah diimplementasikan dengan menggunakan sebuah formula perankingan untuk mengurutkan seluruh istilah yang menjadi kandidat, dan kemudian memilih x kandidat teratas (Selberg 1997).

Corpus

Istilah corpus terutama dikenal dalam bidang linguistik yang pada prinsipnya bermakna koleksi yang memiliki lebih dari satu teks. Suatu corpus modern memiliki beberapa karakteristik yakni (McEnery & Wilson 2001):

1. Sampling & representativeness 2. Finite size

3. Machine-readable form 4. A standard reference

Menurut Hiemstra & Leeuwen (2001), suatu corpus pengujian sistem temu kembali informasi terdiri dari koleksi dokumen, topik-topik, yang dapat digunakan sebagai kueri, dan penilaian relevansi sebagai daftar dokumen yang relevan dengan topik-topik yang tersedia.

Corpus dapat menyediakan pendekatan yang seragam dalam evaluasi kinerja sistem temu kembali informasi. Teknik evaluasi ini juga digunakan dalam Text Retrieval Conference (TREC).

Dalam TREC, daftar dokumen relevan untuk setiap topik/kueri didapat melalui sebuah kumpulan dokumen yang dimungkinkan relevan yang disebut pool. Pool ini dibentuk dari K dokumen teratas (biasanya K=100) dari hasil perankingan oleh beberapa sistem temu kembali informasi yang telah teruji kinerjanya. Dokumen-dokumen dalam pool kemudian diperlihatkan pada penguji untuk memberikan penilaian relevansi untuk tiap dokumen.

Teknik mendapatkan daftar dokumen relevan ini disebut metode pooling dan berdasar pada dua asumsi. Pertama, nyaris seluruh dokumen relevan berhasil dikumpulkan ke dalam pool. Kedua, dokumen-dokumen yang tidak termasuk dalam pool dianggap tidak relevan. Kedua asumsi ini telah terbukti akurat dalam pengujian yang dilakukan pada konferensi TREC (Baeza-Yates & Ribeiro-Neto 1999). Recall –Precision

Recall dan precision dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999):

||

R

Ra

call

Re =

||

A

Ra

n

Precisio =

dengan Ra adalah jumlah dokumen relevan yang ditemukembalikan, R adalah jumlah dokumen relevan dalam koleksi dan A adalah jumlah dokumen yang ditemukembalikan.

Average Precision (AVP)

Average Precision adalah suatu ukuran evaluasi IRS yang diperoleh dengan menghitung rata-rata tingkat precision pada berbagai tingkat recall, yang. biasanya digunakan adalah sebelas tingkat recall standar yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.

Adakalanya tingkat recall yang bisa didapat untuk tiap kueri kurang dari sebelas tingkat recall standar yang ada. Untuk kasus seperti ini digunakan prosedur interpolasi. Misalkan rj, j

∈

{0, 1, 2,. . . ,10} adalah tingkat recall standar ke-j maka

( )

max

r r r

P

( )r

P

j j

=

≤≤ +1 ,

sehingga precision terinterpolasi pada tingkat recall standar ke-j adalah precison tertinggi pada setiap tingkat recall antara j hingga (j+1) (Baeza-Yates & Ribeiro-Neto 1999).

Algoritme RF

Teknik RF ditemukan pertama kali oleh Rocchio dan diterapkan dalam vector space model. Rocchio memandang temu kembali sebagai permasalahan mencari sebuah kueri optimal, yaitu kueri yang memaksimalkan selisih antara vektor rataan dokumen relevan dengan vektor rataan dokumen tak-relevan.

RF berguna untuk mendekatkan vektor kueri ke vektor rataan dokumen relevan dan menjauhkan dari vektor rataan dokumen tak-relevan. Ini bisa dilakukan melalui penambahan istilah kueri dan penyesuaian bobot istilah kueri sehingga sesuai dengan kegunaan istilah tersebut dalam fungsinya membedakan dokumen relevan dan tak-relevan (Ruthven & Lalmas 2003).

Formula awal Rocchio adalah sebagai berikut:

∑

= =

−

+

=

¹ ² 1 2 1 1 0 1

1

ⁿ i i n i i

S

n

R

n

Q

dengan Q0=vektor kueri awal, Q1=vektor kueri baru, n1=jumlah dokumen relevan,

n2=jumlah dokumen tak-relevan, Ri=vektor dokumen relevan ke-i, Si=vektor dokumen tak-relevan ke-i. Kueri yang telah termodifikasi akan memiliki istilah-istilah baru (dari dokumen-dokumen relevan). Selain itu penyesuaian bobot diterapkan terhadap istilah-istilah kueri. Jika bobot istilah kueri turun hingga nol atau di bawah nol, istilah tersebut dihilangkan dari kueri.

Ide (1971), diacu dalam Ruthven & Lalmas (2003), kemudian melakukan modifikasi terhadap formula Rocchio, dinamakan Ide-Dec-Hi, dengan menggunakan hanya dokumen tak-relevan pertama yang ditemukembalikan. Formula tersebut adalah sebagai berikut: i n i i

s

r

Q

−

+

=

∑

1 ,

dengan nr=jumlah dokumen relevan , ri=vektor dokumen relevan ke-i, si=vektor dokumen tak-relevan pertama.

Modifikasi lain yang lazim dilakukan adalah dengan memboboti kontribusi relatif kueri awal, dokumen relevan dan dokumen tak-relevan terhadap proses RF. Dalam persamaan di bawah ini, nilai α, β dan γ

merupakan derajat pengaruh tiap komponen dalam RF.

∑

= =

−

+

=

¹ ² 1 2 1 1 0 1

.

n i i n i i

S

n

R

n

Q

Q _α β γ

, Versi yang lebih baru lagi dari skema Ide adalah Ide-regular, yang menggunakan semua dokumen non-relevan yang ditemu-kembalikan. Ide-regular juga berdasar formula Rocchio namun tidak melakukan normalisasi terhadap vektor-vektor dokumen. Berikut adalah formula Ide-regular:

∑

= =

−

+

=

² 1 1 0 1 1 n i i n i i

S

R

Q

METODOLOGI

Algoritme RF

Penelitian ini akan menginvestigasi kinerja relatif dua algoritme RF yaitu Ide-Dec-Hi dan Ide-Regular. Keduanya dipilih karena meskipun formula Ide-Dec-Hi dan Ide-Regular tidak memberikan peningkatan kinerja yang signifikan namun lebih konsisten

dibanding formula Rocchio (Ruthven & Lalmas 2003).

Sistem Temu Kembali dan Evaluasinya

Sistem dasar yang digunakan untuk pengujian RF adalah sistem temu kembali hasil penelitian Ridha (2002). Sistem yang dihasilkan menggunakan vector space model dengan pembobotan tf*idf. Dalam penelitian ini diterapkan rule-based stemming dan penggunaan daftar kata buang dalam Bahasa Indonesia.

Cara yang paling umum untuk mengevaluasi sistem temu kembali adalah dengan menentukan kinerjanya dalam recall dan precision. Hal ini dilakukan dengan menggunakan koleksi pengujian yang terdiri dari kumpulan dokumen yang disertai gugus kueri dan penilaian relevansinya (gugus jawaban).

Dari hasil penemukembalian yang dilakukan sistem, dihitung precision pada berbagai tingkat recall. Tingkat recall yang digunakan adalah sebelas tingkat recall standar terinterpolasi. Hasilnya kemudian dirata-rata untuk mendapatkan average precision (AVP).

Evaluasi RF

Chang et al. (1971),diacu dalam Ruthven & Lalmas (2003) menunjukkan bahwa evaluasi algoritme RF memiliki beberapa masalah berkaitan dengan recall dan precision. RF bertujuan untuk meningkatkan recall dan precision berdasar informasi dari dokumen-dokumen relevan yang diidentifikasi pengguna, hal ini biasanya akan membuat dokumen-dokumen relevan yang telah diidentifikasi (yaitu dokumen relevan yang digunakan oleh RF) terdorong menempati ranking teratas. Ranking effect ini seolah-olah membuat kurva recall-precision meningkat tajam karena sistem meranking ulang dokumen relevan yang telah diidentifikasi. Seberapa banyak RF meningkatkan penemukembalian dokumen relevan yang belum teridentifikasi, feedback effect-nya, justru tidak terdeteksi.

Untuk mengatasi masalah pengukuran feedback effect, digunakan teknik test and control groups. Dalam teknik ini, koleksi dokumen dibagi menjadi dua bagian, test group dan control group. Modifikasi kueri dilakukan oleh RF pada test group dan kueri baru dijalankan pada control group. Penilaian recall dan precision hanya dilakukan pada

dengan Q0=vektor kueri awal, Q1=vektor kueri baru, n1=jumlah dokumen relevan,

s

r

Q

−

+

=

∑

1 ,

dengan nr=jumlah dokumen relevan , ri=vektor dokumen relevan ke-i, si=vektor dokumen tak-relevan pertama.

merupakan derajat pengaruh tiap komponen dalam RF.

∑

= =

−

+

=

¹ ² 1 2 1 1 0 1

.

n i i n i i

S

n

R

n

Q

Q _α β γ

∑

= =

−

+

=

² 1 1 0 1 1 n i i n i i

S

R

Q

METODOLOGI

Algoritme RF

dibanding formula Rocchio (Ruthven & Lalmas 2003).

Sistem Temu Kembali dan Evaluasinya

Evaluasi RF

control group sehingga tidak terjadi ranking effect. Test and control pada dasarnya mengukur kinerja relatif kueri baru pada tiap iterasi (Ruthven & Lalmas 2003).

Dalam penelitian ini pembagian koleksi untuk test dan control group dilakukan

Dalam dokumen Relevance Feedback pada Temu Kembali Teks Berbahasa Indonesia dengan Metode Ide-Dec-Hi dan Ide-Regular (Halaman 35-43)