• Tidak ada hasil yang ditemukan

Sistem Temu Kembali Informasi

Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System

(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan

dokumen yang berhubungan dengan

permintaan pengguna.

Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas

inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang

akan ditemu kembalikan diurutkan

berdasarkan jarak keterhubungan antara koleksi dokumen dengan kueri (Baeza-Yates & Ribeiro-Neto 1999). Ilustrasi rangkaian proses di dalam mesin temu kembali informasi dapat dilihat pada Gambar 1.

PENDAHULUAN

Latar Belakang

Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.

Jumlah dokumen relevan yang

ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.

Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan. Paiki (2006) telah menggunakan metode

similarity thesaurus pada model temu kembali

vektor space model (VSM) dan dapat

meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau

P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.

Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.

Tujuan

Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.

Ruang Lingkup

Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System

(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan

dokumen yang berhubungan dengan

permintaan pengguna.

Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas

inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang

akan ditemu kembalikan diurutkan

berdasarkan jarak keterhubungan antara koleksi dokumen dengan kueri (Baeza-Yates & Ribeiro-Neto 1999). Ilustrasi rangkaian proses di dalam mesin temu kembali informasi dapat dilihat pada Gambar 1.

Ekspansi Kueri

Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Sedangkan dalam ekspansi kueri pengguna memberikan input tambahan pada kueri awal berupa kata ataupun frase (Manning et al. 2008).

Gambar 1 Ilustrasi proses temu kembali informasi

Terdapat tiga jenis ekspansi kueri yaitu

Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara diantaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) (Aly . 2008).

Metode pembobotan yang digunakan untuk memilih istilah ekspansi hasil terjemahan adalah dengan menggunakan idf

yang diperoleh dengan persamaan (1),

idft = ………. (1)

dan selanjutnya dikoreksi dengan banyaknya dokumen dalam koleksi, menjadi :

idft= log ………. (2)

Sedangkan idft adalah inverse document frequency untuk istilah t, N adalah jumlah dokumen di koleksi, dan dft adalah banyaknya dokumen yang mengandung istilah t.

Penerjemahan Kueri

Terdapat empat metode untuk

menerjemahkan kueri yaitu menggunakan mesin penerjemah, kamus dwibahasa, korpus pararel, dan penerjemahan transitif. Penerjemahan kueri dengan menggunakan mesin penerjemah atau juga dikenal dengan

Statistical Machine Translation (SMT)

dilakukan dengan dua cara, yaitu:

1 Dengan menggunakan kalimat lengkap yang berisi sejumlah kata yang merupakan sinonim dari konteks kueri yang diinginkan

2 Dengan mengartikan term pada kueri ke dalam bahasa tertentu dan mencari padanan kata dalam bahasa tersebut, dan selanjutnya dilakukan penerjemahan kembali ke bahasa awal kueri (Riezler et al. 2007).

Ide utama dari teknik SMT adalah mencari sinonim dari istilah tertentu dengan terlebih dahulu mencari padanan kata dari bahasa asing. Sehingga sinonim istilah dalam bahasa asli kueri diperoleh dari penerjemahan terhadap istilah bahasa asing yang memiliki makna yang serupa dengan istilah pada kueri.

Bentuk dasar dari model SMT terdiri dari model translasi (translation model) dan model bahasa (language model). Persamaan dasar dari mesin penerjemah (machine translation) mendefinisikan bahwa sistem penerjemah ini bekerja dengan cara menemukan string e

yang merupakan terjemahan dari string f, persamaannya adalah :

ê arg max |

arg max P f| P ………… (3)

Persamaan (3) memisahkan antara model bahasa P(e) dan model penerjemah P(f|e). Keuntungan dari penggunaan model penerjemahan yaitu adanya keterhubungan antara istilah pada dokumen dan istilah pada kueri dari pengguna. Model penerjemahan disini mengikutsertakan variabel dari bagian yang tidak terlihat (hidden alignment) yang sebenarnya memiliki peluang untuk diterjemahkan dan menjadi sumber untuk dijadikan kandidat istilah untuk ekspansi (Riezler et al. 2008).

Penerjemahan kueri dengan menggunakan kamus dwibahasa dilakukan dengan menerjemahkan kata per kata dari kueri. Teknik pemilihan kata hasil terjemahan adalah berdasarkan pada analisa statistik. Jadi kata

dengan nilai bobot yang lebih tinggi akan terpilih sebagai istilah hasil terjemahan.

Evaluasi Temu Kembali Informasi

Recall dan precision mengukur

kemampuan sistem dalam menemu

kembalikan dokumen-dokumen yang relevan dan menahan dokumen-dokumen yang tidak relevan. Recall merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen relevan di dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen yang ditemu kembalikan. Ilustrasi perhitungan nilai recall-precision dapat dilihat pada Tabel 1 (Manning et al. 2008).

Tabel 1 Ilustrasi perhitungan recall precision

Relevant Nonrelevant Retrieved tp fp Not retrieved fn tn Sehingga: P ……… (4) R ……… (5)

Pengukuran kinerja dengan

mempertimbangkan aspek keterurutan atau

ranking dapat dilakukan dengan melakukan interpolasi antara precision dan recall.

Keuntungan penggunaan nilai rata-rata

interpolated precision maupun non

interpolated precision dalam evaluasi

performansi adalah nilai dapat langsung mencerminkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated precision dapat mencerminkan urutan dari

dokumen-dokumen relevan pada

perangkingan. Standar yang biasa digunakan adalah 11 standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Misalkan rj, j = {0,1,2,….,10} adalah tingkat standar recall ke-j maka:

P rj max rj ≤ r ≤ rj+1 P r ……(6)

Prinsip interpolasi ini adalah pada tiap standar tingkat recall diambil nilai precision

maksimum di antara standar tingkat recall

ke-j dan j+1 (Baeza-Yates & Ribeiro-Neto 1999).

Dokumen terkait