• Tidak ada hasil yang ditemukan

Query Expansion on Indonesian Information Retrieval System using Bilingualism Dictionary.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Query Expansion on Indonesian Information Retrieval System using Bilingualism Dictionary."

Copied!
50
0
0

Teks penuh

(1)

The most frequent problem on information retrieval is the users inability in representing information they need, in a query form. Thus, one of the solutions to overcome such situation is by applying query expansion technique. By applying the method, query will be expanded, and the new query produced will be used to do the search task. One of the approaches in determining the term of the expansion is Translation with Bilingualism Dictionary, which works through query translation process using dictionary, and the calculation of weight from each expanded candidate terms. In order to increase the relevance of the search result, this research uses Translation with Bilingualism Dictionary as the method to apply. Acknowledging the influence of the method, the research trial and error through the observation of the eleven recall precision number is applied to the produced retrieval result by using different expansion terms. Based on the observation of the produced precision number, it is identified that the use of Translation method in this research has not been successfull in increasing the relevance of the search results. The more expansion terms used, the smaller the precision number produced.

(2)

NET

DEPAR

FAKULTAS MATEMA

INSTI

DWIBAHASA

ETTY LAORA SITOHANG

RTEMEN ILMU KOMPUTER

ATIKA DAN ILMU PENGETAHUAN

STITUT PERTANIAN BOGOR

BOGOR

2009

(3)

NET

DEPAR

FAKULTAS MATEMA

INSTI

DWIBAHASA

ETTY LAORA SITOHANG

RTEMEN ILMU KOMPUTER

ATIKA DAN ILMU PENGETAHUAN

STITUT PERTANIAN BOGOR

BOGOR

2009

(4)

KAMUS DWIBAHASA

NETTY LAORA SITOHANG

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(5)

The most frequent problem on information retrieval is the users inability in representing information they need, in a query form. Thus, one of the solutions to overcome such situation is by applying query expansion technique. By applying the method, query will be expanded, and the new query produced will be used to do the search task. One of the approaches in determining the term of the expansion is Translation with Bilingualism Dictionary, which works through query translation process using dictionary, and the calculation of weight from each expanded candidate terms. In order to increase the relevance of the search result, this research uses Translation with Bilingualism Dictionary as the method to apply. Acknowledging the influence of the method, the research trial and error through the observation of the eleven recall precision number is applied to the produced retrieval result by using different expansion terms. Based on the observation of the produced precision number, it is identified that the use of Translation method in this research has not been successfull in increasing the relevance of the search results. The more expansion terms used, the smaller the precision number produced.

(6)

Judul : Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia menggunakan Kamus Dwibahasa

Nama : Netty Laora Sitohang NRP : G64052490

Menyetujui:

Pembimbing

Ir. Julio Adisantoso, M. Komp. NIP 19620714 198601 1 002

Mengetahui:

Ketua Departemen

Dr. Ir. Sri Nurdiyati, M. Sc NIP 19601126 198601 2 001

(7)

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah memberikan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Ekspansi Kueri Pada Sistem Temu Kembali Informasi menggunakan Kamus Dwibahasa dapat diselesaikan dengan baik. Selama menyelesaikan penelitian ini penulis mendapatkan banyak bantuan, dukungan dan semangat dari berbagai pihak. Untuk itu ucapan terima kasih penulis sampaikan kepada:

1 Ayah, Ibu, abang Nico, kakak Butet, dan adik Inri, atas segala doa, dukungan, dan semangat yang diberikan kepada penulis.

2 Bapak Ir. Julio Adisantoso, M. Komp. atas bimbingannya kepada penulis selama melakukan penelitian.

3 Bapak Ahmad Ridha, S. Kom, MS dan Bapak Sony Hartono Wijaya, M. Kom. selaku penguji, atas segala kritik dan saran yang telah diberikan.

4 Teman-teman satu bimbingan, Tara, Elen, Utis, Muthia, ka Edo, atas bantuan dan kebersamaannya selama melakukan penelitian.

5 Sutanto, Elenur, Annisa, dan Idaliana, atas dukungan dan bantuannya kepada penulis dalam menyelesaikan penelitian

6 Teman-teman Departemen Ilmu Komputer IPB angkatan 42 atas kebersamaan dan keceriaan yang boleh penulis rasakan.

7 Ka Christ, Andhica, dan Muthia atas kesediaanya menjadi pembahas pada pelaksanaan seminar hasil penelitian penulis.

8 Saudara-saudara kelompok kecilku, ka Juventy, Nita, Vera, Agustiani, Lenny, Nova, atas segala doa dan semangat yang diberikan kepada penulis.

9 Sahabat-sahabat terbaikku, Maria, Marie, Mery, Doris, dan Serasi untuk setiap doa dan dukungan yang telah diberikan kepada penulis.

10 Teman-teman Kompers PMK IPB dan FM BUD KUKAR atas kebersamaan dan dukungan yang diberikan selama penulis berada di IPB.

11 Teman-teman Wisma Melati, Dean, Irma, Isni, Leng-leng, Maul, Ncha, Noe, Reni, Rias, Rizka, Tina, Titis, Unee, untuk setiap keceriaan dan kebersamaan yang dapat penulis rasakan.

Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini yang namanya tidak dapat disebutkan satu per satu. Semoga penelitian ini dapat bermanfaat, amin.

Bogor, Desember 2009

(8)

RIWAYAT HIDUP

Penulis lahir di Tenggarong pada tanggal 21 Maret 1988 yang merupakan anak ketiga dari empat bersaudara dengan ayah bernama Bluster Sitohang dan Ibu bernama Lamsina Manurung.

(9)

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... v

DAFTAR TABEL ... v

DAFTAR LAMPIRAN ... v

PENDAHULUAN Latar Belakang ... 1

Tujuan ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA Sistem Temu Kembali Informasi ... 1

Ekspansi Kueri... 2

Penerjemahan Kueri ... 2

Evaluasi Temu Kembali Informasi ... 3

METODE PENELITIAN Koleksi dokumen pengujian ... 3

Praproses ... 3

Penerjemahan istilah ... 3

Pemilihan istilah ekspansi ... 4

Pengukuran kemiripan ... 4

Evaluasi ... 4

Perangkat keras dan perangkat lunak ... 4

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ... 4

Pengolahan Dokumen ... 5

Ekspansi Kueri ... 5

Evaluasi Sistem Temu Kembali Informasi ... 5

Perbandingan Metode Ekspansi ... 8

KESIMPULAN DAN SARAN Kesimpulan ... 9

Saran ... 10

DAFTAR PUSTAKA ... 10

(10)

DAFTAR GAMBAR

Halaman

1 Ilustrasi proses temu kembali informasi ... 2

2 Gambaran umum proses temu kembali dengan ekspansi kueri ... 4

3 Grafik recall precision temu kembali ... 6

4 Grafik QE1 ... 6

5 Grafik QE2 ... 6

6 Grafik QE3 ... 6

7 Grafik perbandingan recall precision pada temu kembali dengan ekspansi kueri ... 7

8 Grafik perbandingan recallprecision antara proses temu kembali dengan dan tanpa ekspansi kueri ... 8

9 Perbandingan sistem temu kembali model peluang, model similarity thesaurus dan penerjemahan kueri ... 8

10 Ekspansi kueri dengan penambahan 5 istilah pada model peluang, model similarity thesaurus dan 1 istilah hasil penerjemahan kueri ... 8

11 Ekspansi kueri dengan penambahan10 istilah pada model peluang, model similarity thesaurus dan 2 istilah hasil penerjemahan kueri ... 9

DAFTAR TABEL

Halaman 1 Ilustrasi perhitungan recall precision ... 3

2 Contoh istilah kueri dan hasil terjemahan yang berhasil meningkatkan precision ... 7

3 Contoh istilah kueri dan hasil terjemahan yang tidak berhasil meningkatkan precision ... 7

4 Perbandingan nilai AVP ... 7

DAFTAR LAMPIRAN

Halaman 1 Contoh koleksi dokumen ... 12

2 Daftar kueri dan jumlah dokumen relevan ... 13

3 Daftar istilah kueri dan istilah hasil terjemahan ... 14

4 Daftar kata buangan ... 16

(11)

PENDAHULUAN

Latar Belakang

Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.

Jumlah dokumen relevan yang

ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.

Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.

Paiki (2006) telah menggunakan metode

similarity thesaurus pada model temu kembali

vektor space model (VSM) dan dapat

meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau

P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.

Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.

Tujuan

Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.

Ruang Lingkup

Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System

(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan

dokumen yang berhubungan dengan

permintaan pengguna.

Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas

inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang

akan ditemu kembalikan diurutkan

(12)

Ekspansi Kueri

Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Sedangkan dalam ekspansi kueri pengguna memberikan input tambahan pada kueri awal berupa kata ataupun frase (Manning et al. 2008).

Gambar 1 Ilustrasi proses temu kembali informasi

Terdapat tiga jenis ekspansi kueri yaitu

Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara diantaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) (Aly . 2008).

Metode pembobotan yang digunakan untuk memilih istilah ekspansi hasil terjemahan adalah dengan menggunakan idf

yang diperoleh dengan persamaan (1),

idft = ………. (1)

dan selanjutnya dikoreksi dengan banyaknya dokumen dalam koleksi, menjadi :

idft= log ………. (2)

Sedangkan idft adalah inverse document

frequency untuk istilah t, N adalah jumlah dokumen di koleksi, dan dft adalah banyaknya dokumen yang mengandung istilah t.

Penerjemahan Kueri

Terdapat empat metode untuk

menerjemahkan kueri yaitu menggunakan mesin penerjemah, kamus dwibahasa, korpus pararel, dan penerjemahan transitif. Penerjemahan kueri dengan menggunakan mesin penerjemah atau juga dikenal dengan

Statistical Machine Translation (SMT)

dilakukan dengan dua cara, yaitu:

1 Dengan menggunakan kalimat lengkap yang berisi sejumlah kata yang merupakan sinonim dari konteks kueri yang diinginkan

2 Dengan mengartikan term pada kueri ke dalam bahasa tertentu dan mencari padanan kata dalam bahasa tersebut, dan selanjutnya dilakukan penerjemahan kembali ke bahasa awal kueri (Riezler et al. 2007).

Ide utama dari teknik SMT adalah mencari sinonim dari istilah tertentu dengan terlebih dahulu mencari padanan kata dari bahasa asing. Sehingga sinonim istilah dalam bahasa asli kueri diperoleh dari penerjemahan terhadap istilah bahasa asing yang memiliki makna yang serupa dengan istilah pada kueri.

Bentuk dasar dari model SMT terdiri dari model translasi (translation model) dan model bahasa (language model). Persamaan dasar dari mesin penerjemah (machine translation) mendefinisikan bahwa sistem penerjemah ini bekerja dengan cara menemukan string e

yang merupakan terjemahan dari string f, persamaannya adalah :

ê arg max |

arg max P f| P ………… (3)

Persamaan (3) memisahkan antara model bahasa P(e) dan model penerjemah P(f|e).

Keuntungan dari penggunaan model penerjemahan yaitu adanya keterhubungan antara istilah pada dokumen dan istilah pada kueri dari pengguna. Model penerjemahan disini mengikutsertakan variabel dari bagian yang tidak terlihat (hidden alignment) yang sebenarnya memiliki peluang untuk diterjemahkan dan menjadi sumber untuk dijadikan kandidat istilah untuk ekspansi (Riezler et al. 2008).

(13)

dengan nilai bobot yang lebih tinggi akan terpilih sebagai istilah hasil terjemahan.

Evaluasi Temu Kembali Informasi

Recall dan precision mengukur

kemampuan sistem dalam menemu

kembalikan dokumen-dokumen yang relevan dan menahan dokumen-dokumen yang tidak relevan. Recall merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen relevan di dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen yang ditemu kembalikan. Ilustrasi perhitungan nilai recall-precision dapat dilihat pada Tabel 1 (Manning et al. 2008).

Tabel 1 Ilustrasi perhitungan recall precision

Relevant Nonrelevant

Retrieved tp fp

Not retrieved fn tn

Sehingga:

P ……… (4)

R ……… (5)

Pengukuran kinerja dengan

mempertimbangkan aspek keterurutan atau

ranking dapat dilakukan dengan melakukan interpolasi antara precision dan recall.

Keuntungan penggunaan nilai rata-rata

interpolated precision maupun non

interpolated precision dalam evaluasi

performansi adalah nilai dapat langsung mencerminkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated precision dapat mencerminkan urutan dari

dokumen-dokumen relevan pada

perangkingan. Standar yang biasa digunakan adalah 11 standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Misalkan rj, j = {0,1,2,….,10} adalah tingkat standar recall ke-j maka:

P rj max rj ≤ r ≤ rj+1 P r ……(6)

Prinsip interpolasi ini adalah pada tiap standar tingkat recall diambil nilai precision

maksimum di antara standar tingkat recall

ke-j dan j+1 (Baeza-Yates & Ribeiro-Neto 1999).

METODE PENELITIAN

Penelitian dilakukan dalam lima tahap, yaitu: (1) Praproses, (2) Penerjemahan kueri, (3) Memilih istilah ekspansi, (4) Pengukuran kemiripan dan (5) Evaluasi. Gambaran umum proses temu kembali informasi dengan menggunakan ekspansi kueri dapat dilihat pada Gambar 2.

Koleksi dokumen pengujian

Dokumen yang digunakan untuk pengujian adalah sejumlah dokumen dalam bidang pertanian berbahasa Indonesia sebanyak 1000 dokumen. Dalam penelitian ini juga digunakan pasangan kueri-dokumen relevan. Dokumen pengujian dan pasangan kueri-dokumen relevan diambil dari koleksi yang ada di laboratorium temu kembali informasi Departemen Ilmu Komputer IPB.

Praproses

Tahap ini diawali dengan tahap tokenisasi

(tokenizing), pembuangan kata buangan

(stopwords), dan diakhiri dengan tahap pembobotan (weighting). Teknik yang akan digunakan sebagai pendekatan dalam menentukan bobot dalam penelitian ini adalah pendekatan tf-idf. Nilai dari tf-idf diperoleh

dengan menggunakan persamaan (7)

(Manning et al. 2008).

Wi,j tfi x idfi ……….. (7)

Sedangkan wi,j adalah bobot istilah ti pada dokumen dj dan tfi adalah frekuensi kemunculan istilah ti pada dokumen dj.

Penerjemahan istilah

Penerjemahan istilah bertujuan untuk menemukan istilah lain yang memiliki makna yang serupa dengan istilah pada kueri. Kueri berupa istilah dalam Bahasa Indonesia terlebih dulu diterjemahkan ke dalam Bahasa Inggris, selanjutnya istilah dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia. Hasil dari proses ini adalah beberapa istilah baru dalam Bahasa Indonesia yang memiliki makna yang serupa dengan kueri istilah pada kueri awal. Proses

penerjemahan dilakukan dengan

(14)

Pemilihan istilah ekspansi

Pemilihan istilah ekspansi dilakukan untuk menentukkan istilah hasil terjemahan yang akan digunakan untuk ekspansi. Pemilihan dilakukan berdasarkan nilai idf yang dimiliki oleh masing-masing istilah. Nilai idf yang telah diperoleh melalui tahap praproses, digunakan sebagai dasar untuk menentukan bobot istilah dari istilah hasil terjemahan.

Nilai idf yang diperoleh oleh setiap istilah menunjukkan tingkat kepentingan dari sitilah tersebut, yaitu dengan menghitung banyaknya dokumen yang mengandung istilah tertentu. Nilai idf untuk setiap istilah dapat dihitung dengan menggunakan Persamaan 2.

Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri

Pengukuran kemiripan

Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,

seperti pada persamaan (8).

sim(dj,dk) = ) . *

+ )+, *, ………... (8)

Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk

menentukan dokumen yang akan

ditemukembalikan.

Evaluasi

Metode evaluasi yang digunakan recall

dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai

precision untuk masing-masing kueri

kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:

• QE0, yaitu proses temu kembali tanpa ekspansi kueri

• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi

• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi

• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.

Perangkat keras dan perangkat lunak

Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:

• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.

• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

(15)

dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat di Lampiran 1. Tag

yang digunakan dalam koleksi dokumen yang digunakan, yaitu:

<doc></doc>, mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.

<docno></docno>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita, dan urutan berita pada tanggal yang sama.

<title></title>, mewakili judul dokumen.

<author></author>, mewakili penulis dokumen.

<date></date>, mewakili tanggal penulisan.

<text></text>, mewakili isi dokumen. Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan pasangan kueri-dokumen relevan yang diambil dari Laboratorium Temu Kembali Informasi. Daftar kueri dan jumlah dokumen relevan dapat dilihat di Lampiran 2. Untuk memperoleh istilah sebagai perluasan dari kueri digunakan kamus Indonesia-Inggris dan Inggris-Indonesia yang sudah tersedia. Daftar istilah kueri dan istiah hasil terjemahan dapat dilihat di Lampiran 3.

Pengolahan Dokumen

Tahap awal dari pemrosesan dokumen adalah tokenisasi. Pada tahapan ini diambil setiap kata unik dari masing-masing dokumen. Selanjutnya dalam tahapan ini juga dilakukan pembuangan sejumlah kata umum yang dianggap tidak berpotensi untuk digunakan sebagai penciri dokumen. Daftar kata buangan menggunakan hasil penelitian (Ridha 2002) seperti pada Lampiran 4. Hasil dari tahap tokenisasi berupa daftar kata unik beserta frekuensi kemunculan kata (tf) tersebut pada masing-masing dokumen. Selain itu juga diperoleh banyaknya dokumen yang mengandung kata unik penciri dokumen (df).

Teknik pembobotan (weighting) yang digunakan adalah pembobotan tf.idf. Dengan menggunkan nilai (tf) dan (df) pada tahapan sebelumnya diperoleh bobot setiap kata unik. Hasil dari tahap pengindeksan disampan dalam file teks tersendiri, hal ini bertujuan

untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.

Ekspansi Kueri

Proses ekspansi kueri dengan metode penerjemahan dilakukan tanpa sepengetahuan pengguna (Automatic Query Expansion). Pada tampilan pengguna (user interface) diberikan dua pilihan untuk menjalankan sistem. Pencarian dengan menggunakan temu kembali klasik atau dengan menggunakan ekspansi kueri. Jika yang dipilih adalah dengan menggunakan ekspansi kueri maka dilakukan proses penerjemahan untuk memodifikasi kueri.

Ekspansi kueri dilakukan dengan menerjemahkan setiap kueri dengan menggunakan kamus dwibahasa. Untuk setiap kueri yang masuk diproses sehingga dihasilkan token kueri, selanjutnya untuk setiap token kueri yang ada akan dicari

padanannya dalam Bahasa Inggris.

Selanjutnya kata dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia, sehingga diperoleh beberapa istilah baru yang digunakan sebagai istilah untuk ekspansi kueri.

Proses penerjemahan menghasilkan sejumlah istilah baru dalam Bahasa Indonesia. Untuk menentukan istilah yang digunakan pada ekspansi kueri dilakukan pemilihan berdasarkan nilai idf dari masing-masing istilah hasil penerjemahan.

Evaluasi Sistem Temu Kembali Informasi

Proses evaluasi dilakukan setelah hasil temu kembali infomasi diperoleh. Perbandingan dilakukan antara hasil temu kembali tanpa menggunakan ekspansi kueri dan hasil temu kembali dengan menggunkan ekspansi kueri. Untuk evaluasi digunakan nilai recall dan precision dari hasil pengujian terhadap 30 pasangan kueri dan dokumen relevan.

Awal dari tahap pengujian adalah melakukan kegiatan temu kembali dengan menggunakan metode klasik. Kegiatan temu kembali dilakukan terhadap 30 kueri yang sudah disediakan. Selanjutnya untuk masing-masing hasil temu kembali dari setiap kueri dihitung nilai recall dan precision. Gambar 3 menunjukkan hasil dari interpolasi dengan menggunakan nilai rata-rata terhadap nilai

(16)

Proses selanjutnya ad dengan menggunakan ekspa yang digunakan untuk m diperoleh dengan metode pe untuk setiap kueri Bahasa padanan katanya dalam Bah selanjutnya istilah dalam ditrjemahkan kembali ke Indonesia. Sehingga akh beberapa istilah baru yang untuk ekspansi kueri. Penen akan ditambahkan pada dengan menggunakan nilai masing istilah. Setiap istilah berdasarkan nilai idf

Selanjutnya istilah dengan ni tinggi dipilih menjadi istilah

Dalam tahapan pengujian kueri dilakukan percobaan se yaitu dengan mengambil sa dua istilah (QE2), dan tiga is posisi urutan teratas.

Selanjutnya untuk baha

dilakukan kegiatan t

menggunakan ekspansi kuer istilah baru yang sudah diten nilai recall dan precision

masing-masing pengujian pengaruh dari penggunaan digunakan.

Gambar 3 Grafik recall

kembali

Kurva recall dan p

pengujian QE1 yaitu ekspan menggunkan jumlah istilah dapat dilihat pada Gamba menggunakan satu istilah maka istilah yang diambil ad memiliki nilai idf tertinggi. tinggi menunjukkan bahwa memiliki peluang kemuncu pada koleksi dokumen.

adalah pengujian pansi kueri. Istilah memperluas kueri penerjemahan. Jadi a Indonesia dicari ahasa Inggris, dan Bahasa Inggris e dalam Bahasa khirnya diperoleh g akan digunakan entuan istilah yang kueri dilakukan i idf dari masing-lah baru diurutkan

yang dimiliki. nilai idf yang lebih h untuk ekspansi.

an dengan ekspansi sebanyak tiga kali, satu istilah (QE1), istilah (QE3) pada

han perbandingan

temu kembali

eri dengan jumlah entukan. Penentuan

n dilakukan pada n untuk melihat an metode yang

all precision temu

precision untuk

pansi kueri dengan lah sebanyak satu bar 4. Pada saat h untuk ekspansi adalah istilah yang gi. Nilai idf yang a istilah tersebut culan yang tinggi

Pengujian QE2 dengan mengg istilah untuk ekspansi menghas

recall precision seperti pada Gam pengujian ini digunakan dua i ekspansi kueri. Istilah yang dipili istilah yang memiliki nilai idf terti

Pengujian QE3 dengan mengg istilah untuk ekspansi menghas

recall precision seperti pada Gam pengujian ini digunakan tiga i ekspansi kueri. Istilah yang dipilih istilah yang memiliki nilai idf terti

Gambar 4 Grafik QE1

Gambar 5 Grafik QE2

Gambar 6 Grafik QE3

nggunakan dua asilkan grafik ambar 5. Pada istilah untuk ilih adalah dua rtinggi.

ggunakan tiga asilkan grafik ambar 6. Pada istilah untuk ilih adalah tiga

(17)

Penggunaan metode pen dengan kamus dwibahasa da istilah ekspansi kueri pada dilakukan hanya mampu me

precision untuk dua kueri m kueri yang diujikan, dan pe pada saat penambahan satu Tabel 2 dan Tabel 3 men istilah ekspansi yang m terjemahan.

Perbandingan untuk tiga p ekspansi kueri dapat dilihat Dari grafik terlihat ba kembali yang lebih baik QE1. Pada penggunaan sa ekspansi kueri, ini berarti memiliki nilai idf yang menunjukkan bahwa istila memiliki peluang kemuncu pada koleksi dokumen.

Tabel 2 Contoh istilah terjemahan y meningkatkan ni

Istilah Hasil terj

impor

mendatangkan, d mengimpor, bara kepentingan, per impor, luar, nege

beras nasi, gabah, bera

penyakit Sakit, keadaan, p

hewan binatang, piaraan

ternak ternak, peternaka

Tabel 3 Contoh istilah terjemahan yang meningkatkan ni

Istilah Hasil t

flu pingsan, pilek, b angin, tertarik, m

gula manisan, sayang, bersifat, gula

harga hadiah, mengharg ongkos, dihargai,

Pada Tabel 4 dapat dilih nilai AVP dari proses temu k dengan dan tanpa menggu kueri. Nilai yang dihasi dikatakan cukup kecil, hal

enerjemahan kueri dalam menentukan da pengujian yang meningkatkan nilai i masukan dari 30 peningkatan terjadi tu istilah ekspansi. enunjukkan contoh merupakan hasil

a pengujian dengan at pada Gambar 7. bahwa hasil temu ditunjukkan oleh satu istilah untuk rti istilah tersebut ng tertinggi. Ini ilah yang terpilih culan yang tinggi

kueri dan hasil yang berhasil nilai precision

l terjemahan

berdarah, dingin, mata, masuk

g, enak, manis, hati,

argai, berharga, ganti, ai, menilai, nilai, harga

ilihat perbandingan kembali informasi gunakan ekspansi silkan ini dapat al ini dikarenakan

kondisi dokumen pada korp terdapat kesalahan penulisan isi dokumen. Selain itu penyebab d nilai AVP dikarenakan untuk se kueri dengan dokumen releva banyak kueri yang memiliki se dokumen relevan. Sehingga jika d

dengan jumlah dokumen y

menghasilkan nilai recall dan pre

kecil.

Gambar 7 Grafik perbandin

precision pada te dengan ekspansi k

Tabel 4 Perbandingan nilai AVP

Metode Nilai AVP

Tanpa QE 0.524

QE1 0.461

QE2 0.429

QE3 0.407

Pada Gambar 8 dapat dilihat p hasil nilai recall dan precision

kembali informasi dengan menggunakan ekspansi kueri. D bahwa hasil temu kembali deng kueri tidak lebih baik jika d dengan proses temu kembali tan kueri. Pada grafik precision untu kembali yang menggunakan ek (QE1, QE2, QE3) malah mengh yang lebih kecil dibanding menggunkan ekspansi kueri (QE dikarenakan istilah yang meru terjemahan kueri cukup banyak d diantaranya tidak sesuai deng pencarian. Masalah tersebut me hasil temu kembali yang dipe tidak sesuai dengan yang dihara

rpus, dimana i pada koleksi dari kecilnya setiap pasang van, terdapat sedikit jumlah a dibandingkan yang besar

t perbandingan

(18)

tetapi untuk beberapa kuer cakupan khusus di bidang menghasilkan hasil pencarian

Gambar 8 Grafik perba

precision ant kembali den ekspansi kuer

Perbandingan Metode Eksp

Pada penelitan seb berhubungan dengan ekspa dibahas penggunaan simil

(Paiki 2006) dan peluang b 2008). Untuk dua pene pengujian untuk melihat dilakukan dengan melakuk terhadap tiga kegiatan temu temu kembali tanpa ekspans kembali dengan 5 istilahdan dari penelitian sebelumnya ak dengan penggunaan metod kueri dengan kamus dwibah kembali tanpa ekspansi k kembali dengan 1 istilah dan

Dari Gambar 9 dapat dili hasil temu kembali tanp ekspansi (QE0, IRX0, NoT

idf). Dari Gambar 9 terlih

precision yang dihasilkan QE grafik similiarity thesaurus, recall 0 sampai dengan 0.4 g di atas grafik peluang bers pada nilai recall 0 nilai dihasilkan QE0 berada dib

thesaurus, tapi untuk nilai r

QE0 selalu berada di atas

thesaurus. Dari grafik yan perbandingan hasil temu

eri yang memiliki ng pertanian bisa an yang lebih baik.

rbandingan recall

antara proses temu engan dan tanpa eri

spansi

ebelumnya yang spansi kueri telah

ilarity thesaurus

bersyarat (Rusidi nelitian terdahulu t kinerja sistem ukan perbandingan mu kembali, yaitu nsi kueri, dan temu an 10 istilah. Hasil akan dibandingkan ode penerjemahan ahasa dengan temu kueri dan temu n 2 istilah.

ilihat perbandingan npa menggunakan TH-1, dan NoTH-lihat bahwa grafik

QE0 berada di atas

us, dan pada nilai grafik QE0 berada ersyarat. Walaupun ai precision yang ibawah similiarity recall selanjutnya s grafik similiarity

ang menunjukkan u kembali dapat

dikatakan bahwa temu kem memberikan hasil yang l dibandingkan similarity thesaurus

tidak selalu lebih baik jika d dengan hasil temu kembali m peluang bersyarat. Peningkatan ni yang dihasilkan pada temu kemb terjadi karena penggunaan kolek yang lebih besar yaitu 1000, seda proses temu kembali pada du sebelumnya hanya menggun dokumen.

Gambar 9 Ekspansi kueri dengan istilah 0 model pelu

similarity thesaur

penerjemahan kueri.

Gambar 10 Ekspansi ku penambahan 5 model pelua

similarity thes

istilah hasil p dibandingkan menggunakan nilai precision

bali QE0 bisa leksi dokumen dangkan untuk dua penelitian unakan 700

(19)

Perbandingan hasil temu menggunakan ekspansi k terhadap pengujian dengan istilah ekspansi pada model p dan similarity thesaurus

penerjemahan kueri mengg ekspansi. Proses perbanding karena pada metode ekspan hasil terjemahan 1 is memberikan hasil yang lebi dua pengujian lainnya, yaitu tiga istilah ekspansi. Pada G bahwa grafik QE1 berada di TH5-1 dan TH5-idf pada nil untuk nilai recall selanjut selalu berada di atas g

thesaurus (TH5-1 dan TH5-id

Gambar 11 Ekspansi penambaha

model p

similarity t

istilah has kueri.

Hasil perbandingan men proses temu kembali denga dengan menggunakan pen memberikan hasil yang dibandingkan similiarity

Perbandingan antara ekspan penerjemahan kueri dan bersyarat menunjukkan ba

recall 0 model pelu

menghasilkan nilai precision

dibandingkan dengan metod kueri. Tetapi untuk nilai re

nilai precision yang dihas berbeda.

Perbandingan selanjut terhadap ekspansi kueri bersyarat dan similarity thes

0.0 kueri dilakukan n menggunakan 5 l peluang bersyarat dengan teknik ggunakan 1 istilah ngan ini dilakukan ansi kueri dengan istilah ekspansi bih baik dibanding itu dengan dua dan Gambar 10 terlihat di bawah dua grafik nilai recall 0, tetapi utnya grafik QE1 grafik similiarity idf).

kueri dengan han 10 istilah pada peluang, model

thesaurus dan 2 asil penerjemahan

enunjukkan bahwa gan ekspansi kueri enerjemahan kueri ng lebih baik

rity thesaurus.

ansi kueri dengan model peluang bahwa pada nilai eluang bersyarat

n yang lebih tinggi tode penerjemahan

recall selanjutnya asilkan tidak jauh

jutnya dilakukan dengan peluang

esaurus dengan 10

istilah ekspansi dan penerjem dengan dua istilah ekspansi (G Pada nilai recall 0 nilai pre

dihasilkan metode penerjemahan kecil dibandingkan dengan hasi

thesaurus, tetapi untuk nilai recal

(sampai dengan 0.9) nilai prec

lebih tinggi. Untuk perbanding model peluang bersyarat pada n nilai precision yang dihasil penerjemahan kueri lebih kecil, nilai recall selanjutnya nilai pre

dihasilkan teknik penerjemahan lebih tinggi daripada yang dihas peluang bersyarat.

Dari hasil perbandingan ekspansi kueri terlihat bahwa ki ekspansi dengan menggunka penerjemahan kueri memiliki has baik jika dibandingkan dengan model peluang bersyarat dan

thesaurus. Hal ini ditunjukkan

precision yang dihasilkan o

penerjemahan yang lebih tinggi semua tingkat nilai recall. Penin

precision yang terjadi diakibat koleksi dokumen pengujian yang sehingga jumlah dokumen re ditemukembalikan juga menjadi le

KESIMPULAN DAN SA

Kesimpulan

Penelitian ini telah mengimpl teknik ekspansi kueri pada p kembali. Metode yang diguna

melakukan ekspansi kuer

penerjemahan kueri mengguna dwibahasa. Berdasarkan nilai reca

yang dihasilkan untuk setiap diketahui bahwa ekspansi ku penambahan istilah baru dalam lebih banyak akan semakin meng

precision.

Dapat disimpulkan bahwa ekspansi kueri dengan metode p untuk memperoleh istilah perlu dapat meningkatkan relevansi kembali untuk beberapa kue Metode penerjemahan yang digu berhasil meningkatkan nilai prec

beberapa kueri tetapi secara kese

precision yang diperoleh adal kecil. Jika dilakukan perband

0.6 0.7 0.8 0.9 1 asil similiarity all selanjutnya

ecision selalu ngan terhadap nilai recall 0 silkan teknik l, tetapi untuk

recision yang n kueri selalu asilkan model

tiga teknik kinerja sistem kan metode asil yang lebih n penggunaan an similarity

dengan nilai oleh teknik i hampir pada ningkatan nilai batkan jumlah ng lebih besar, relevan yang i lebih banyak.

ARAN

ecall precision

ap pengujian, kueri dengan jumlah yang engurangi nilai

a penggunaan penerjemahan rluasan hanya i hasil temu ueri tertentu. gunakan hanya

(20)

penggunaan teknik ekspansi dengan model peluang bersyarat dan similarity thesaurus, diketahui bahwa terdapat peningkatan nilai

precision pada penggunaan metode

penerjemahan. Hal ini dikarenakan penggunaan koleksi dokumen yang lebih besar.

Saran

Untuk penelitian selanjutnya yang berhubungan dengan ekspansi kueri, disarankan untuk melakukan :

1 Perbaikan terhadap kesalahan penulisan yang ada pada isi koleksi dokumen 2 Penggunaan wordnet untuk menghindari

ambiguitas

3 Penggunaan koleksi dokumen dalam jumlah yang lebih besar.

DAFTAR PUSTAKA

Adisantoso J. 1997. Temu Kembali Informasi Menggunakan Peluang Bersyarat. [Tesis]. Jakarta: Program Pascasarjana, Universitas Indonesia.

Aly AA. 2008. Using a Query Technique to Improve Document Retrieval, El-Minia University, Egypt.

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. Addison-Wesley, New York.

Manning CD, Raghavan P, Schutze H. 2008.

Introduction to Information Retrieval. America, New York.

Paiki FF. 2006. Evaluasi Penggunaan

Similarity Thesaurus terhadap Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Riezler S, Vasserman A, Tsochantaridis I, Mittal V, Liu Y. 2007. Statistical

Machine Translation for Query

Expansion in Answer Retrieval.

Proceedings of the 45th annual Meeting of the Association for Computational

Linguistics (ACL ’07). Prague. Czech Republic.

Riezler S, Liu Y, Vasserman A. 2008.

Translating Queries into Snippets for Improved Query Expansion. Google Inc. 1600 Amphitheatre Parkway.

Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa

Indonesia Menggunakan Peluang

(21)
(22)

Lampiran 1 Contoh koleksi dokumen.

<DOC>

<DOCNO>gatra230103-002</DOCNO>

<TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE>

<AUTHOR>Tma, Ant</AUTHOR>

<DATE> 23 Januari 2003 </DATE>

<TEXT>

<P>Dinas Pertanian kota Semarang selama dua tahun berturut-turut sampai dengan tahun 2002 lalu, mengembangkan program penggemukan sapi potong yang disalurkan melalui proyek pengembangan tani terpadu kawasan desa kota.</P>

<P>Menurut Kasi Humas Kantor Informasi dan Komunikasi Semarang, Achyani di Semarang, Kamis, selama dua tahun itu, petani desa kota di Semarang yang dilibatkan dalam program tersebut sebanyak 80 petani.</P>

<P>Ke-80 petani yang sudah mendapatkan faslitas bantuan pengembangan penggemukan ternak sapi potong itu, rata-rata memiliki sapi berumur 2,5 tahun. Saat diserahkan, sapi masih berumur 1,5 tahun.</P>

<P>Sapi berumur 2,5 tahun itu, sudah layak dilelang. Hasilnya, sesuai kesepakatan, dibagi dua; 60 persen keuntungan untuk petani, dan 40 persen untuk Dinas Pertanian.</P>

<P>Menurutnya, dengan berat sapi yang dikembangkan hingga rata-rata 250 kg, petani bisa menjualnya seharga Rp 3 juta-Rp 4 juta.</P>

<P>"Sementara harga standar yang ditetapkan Dinas Pertanian, untuk pengembalian bantuan dana, ditetapkan sebesar Rp 2,3 juta. Sehingga keuntungan yang diperoleh petani -jika terjual seharga Rp3 juta- adalah 60 persen dari Rp 700.000," kata Achyani.</P>

</TEXT>

(23)

Lampiran 2 Daftar kueri dan jumlah dokumen relevan.

Kueri

Jumlah dokumen

relevan

bencana kekeringan 39

dukungan pemerintah pada pertanian 29

flu burung 21

gabah kering giling 24

industri gula 19

institut pertanian bogor 40

kelangkaan pupuk 20

kelompok masyarakat tani/kelompok tani 32

laboratorium pertanian 21

musim panen 40

pembangunan untuk sektor pertanian 46

penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 42

penerapan teknologi pertanian 39

penyakit hewan ternak/penyakit ternak 13

penyuluhan pertanian 27

perdagangan hasil pertanian 30

pertanian organik/sistem pertanian organik 24

petani tebu 20

peternak unggas/peternak ayam/peternak burung 20

produk usaha peternakan rakyat/produk peternakan 19

pupuk organik 20

riset pertanian 69

swasembada pangan 30

tadah hujan 18

tanaman pangan 43

(24)

Lampiran 3 Daftar istilah kueri dan istilah hasil terjemahan.

Kueri Istilah terjemahan

ayam ditakuti, jago, keran, jantan, melirik, ayam, mudah

bencana mala, petaka, merusakkan, malapetaka, kegagalan, bencana, kerusakan, besar

beras nasi, gabah, beras, padi

dukungan penyokong, sokongan, sandaran, menyangga, tiang, dinding, penyangga, persetujuan, dukungan, bantuan, membantu

flu pingsan, pilek, nada, berdarah, huruf, dingin, angin, tertarik, kelas, angka, mata, sekali, pertama, masuk, satu

gabah tangkai, mengejar, padang, mengikuti, batang, sawah, padi

gagal lalai, menjatuhkan, lupa, gangguan, kelemahan, kegagalan, meninggalkan, jatuh, gagal, kerusakan, kekurangan, rusak

giling menggiling, pemintalan, menggulung, gulungan, menggelinding, gulung, penggilingan, rol

gula manisan, sayang, apel, enak, manis, uang, hati, bersifat, gula, membuat

harga hadiah, menghargai, berharga, ganti, ongkos, dihargai, korban, menetapkan, menilai, harganya, meminta, nilai, harga

hasil mengalah, menyerah, panenan, gandum, pemilihan, sukses, keberhasilan, karya, mengakibatkan, menghasilkan, kali, panen, produksi, hasil, pertanian hewan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan

hujan awan, hujan, turun, musim

impor

Membawakan, menyadarkan, pengimpor, mendatangkan, diimpor, mengajukan, importir, mengadakan, mengimpor, membawa, menimbulkan, barang, kepentingan, menyebabkan, menghasikan, perdagangan, impor, luar, negeri

indonesia bahasa

industri baja, kerajinan, perindustrian, proyek, kota, industri institut mengadakan, institut, lembaga

kekeringan mengeringkan, dikeringkan, pengeringan, sifat, kemarau, kekeringan, sekali, kering, musim, masa

kelangkaan bakar, kayu, kekurangan

kelompok pengelompokkan, grup, berkumpul, tandan, sekelompok, anggur, kategori, golongan, buah, kelompok, kecil

kering mengeringkan, gersang, dikeringkan, pengeringan, menarik, menguntungkan, kering, tanah

komoditas dagangan, keperluan, pokok, barang, utama, bahan laboratorium mantri, pembantu, asisten

musim musim,masa

obat serbuk, racun, kedokteran, belajar, ilmu, kimia, obat, bahan

organik karbon, mengandung, dasar

panen pemungutan, memungut, memotong, memanen, panen, padi, hasil

pangan masakan, makanan, bahan, pangan

pembangunan susunan, pendirian, penegakan, pembentukan, bangunan, pembukaan, pembuatan, perkembangan, pertumbuhan, bentuk, perusahaan, pembangunan pemerintah pemerintahan, polotik, ilmu, pemerintah

pendapatan bayaran, gaji, upah, penghasilan, memperoleh, pendapatan

penerapan penggunaan, ketekunan, pemasangan, majelis, kumpulan, penerapan, pertemuan, permintaan

peningkatan

(25)

Lanjutan

Kueri Istilah terjemahan

penyakit jahat, menyusahkan, penyebar, kesusahan, kekacauan, jelek, susah, busuk, sakit, buruk, mengganggu, keadaan, meminta, persoalan, penyakit

penyuluhan hiasan, uraian, penerangan, cahaya, penjelasan, keterangan, memperoleh, bagian, pusat

perdagangan kejuruan, ketrampilan, langganan, menukar, berdagang, pembeli, tukar, tambah, perdagangan

petani tani, petani

peternak keturunannya, peternak

peternakan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan, pertanian produk kali, hasil, pertanian

pupuk memupuk, pupuk

rakyat khalayak, ramai, massa, rakyat, penduduk

riset menyelidiki, penyelidikan, meneliti, ilmiah, riset, penelitian

sektor kawasan, bidang, sektor

sistem sistim, susunan, jaringan, cara, sistem

swasembada secukupnya, dirinya, mengatur, diri, sendiri, cukup

tadah lubuk, tangki, bak, kolam, dibawah, wadah, menempatkan, penyimpanan, waduk, gudang, tempat, tanah, air

tanaman bangunan, gedung, tumbuhan, penanaman, pabrik, tumbuh, tanam, panen, tanaman, hasil

tani tani, petani

tebu rotan, buluh, tongkat, alang, kursi, memukul, sayang, bermacam, sejenis, manis, tebu, semacam, uang, alat, kebun, gula

teknologi keahlian, mesin, pabrik, teknologi

ternak gerobak, lembu, menaikkan, menambah, sapi, daging, ternak, peternakan unggas tangkis, bola, bulu, unggas, burung

upaya harta, kekayaan, karya, alat, cara, upaya, usaha

usaha

(26)
(27)
(28)
(29)
(30)

Lampiran 1 Contoh koleksi dokumen.

<DOC>

<DOCNO>gatra230103-002</DOCNO>

<TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE>

<AUTHOR>Tma, Ant</AUTHOR>

<DATE> 23 Januari 2003 </DATE>

<TEXT>

<P>Dinas Pertanian kota Semarang selama dua tahun berturut-turut sampai dengan tahun 2002 lalu, mengembangkan program penggemukan sapi potong yang disalurkan melalui proyek pengembangan tani terpadu kawasan desa kota.</P>

<P>Menurut Kasi Humas Kantor Informasi dan Komunikasi Semarang, Achyani di Semarang, Kamis, selama dua tahun itu, petani desa kota di Semarang yang dilibatkan dalam program tersebut sebanyak 80 petani.</P>

<P>Ke-80 petani yang sudah mendapatkan faslitas bantuan pengembangan penggemukan ternak sapi potong itu, rata-rata memiliki sapi berumur 2,5 tahun. Saat diserahkan, sapi masih berumur 1,5 tahun.</P>

<P>Sapi berumur 2,5 tahun itu, sudah layak dilelang. Hasilnya, sesuai kesepakatan, dibagi dua; 60 persen keuntungan untuk petani, dan 40 persen untuk Dinas Pertanian.</P>

<P>Menurutnya, dengan berat sapi yang dikembangkan hingga rata-rata 250 kg, petani bisa menjualnya seharga Rp 3 juta-Rp 4 juta.</P>

<P>"Sementara harga standar yang ditetapkan Dinas Pertanian, untuk pengembalian bantuan dana, ditetapkan sebesar Rp 2,3 juta. Sehingga keuntungan yang diperoleh petani -jika terjual seharga Rp3 juta- adalah 60 persen dari Rp 700.000," kata Achyani.</P>

</TEXT>

(31)

Lampiran 2 Daftar kueri dan jumlah dokumen relevan.

Kueri

Jumlah dokumen

relevan

bencana kekeringan 39

dukungan pemerintah pada pertanian 29

flu burung 21

gabah kering giling 24

industri gula 19

institut pertanian bogor 40

kelangkaan pupuk 20

kelompok masyarakat tani/kelompok tani 32

laboratorium pertanian 21

musim panen 40

pembangunan untuk sektor pertanian 46

penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 42

penerapan teknologi pertanian 39

penyakit hewan ternak/penyakit ternak 13

penyuluhan pertanian 27

perdagangan hasil pertanian 30

pertanian organik/sistem pertanian organik 24

petani tebu 20

peternak unggas/peternak ayam/peternak burung 20

produk usaha peternakan rakyat/produk peternakan 19

pupuk organik 20

riset pertanian 69

swasembada pangan 30

tadah hujan 18

tanaman pangan 43

(32)

Lampiran 3 Daftar istilah kueri dan istilah hasil terjemahan.

Kueri Istilah terjemahan

ayam ditakuti, jago, keran, jantan, melirik, ayam, mudah

bencana mala, petaka, merusakkan, malapetaka, kegagalan, bencana, kerusakan, besar

beras nasi, gabah, beras, padi

dukungan penyokong, sokongan, sandaran, menyangga, tiang, dinding, penyangga, persetujuan, dukungan, bantuan, membantu

flu pingsan, pilek, nada, berdarah, huruf, dingin, angin, tertarik, kelas, angka, mata, sekali, pertama, masuk, satu

gabah tangkai, mengejar, padang, mengikuti, batang, sawah, padi

gagal lalai, menjatuhkan, lupa, gangguan, kelemahan, kegagalan, meninggalkan, jatuh, gagal, kerusakan, kekurangan, rusak

giling menggiling, pemintalan, menggulung, gulungan, menggelinding, gulung, penggilingan, rol

gula manisan, sayang, apel, enak, manis, uang, hati, bersifat, gula, membuat

harga hadiah, menghargai, berharga, ganti, ongkos, dihargai, korban, menetapkan, menilai, harganya, meminta, nilai, harga

hasil mengalah, menyerah, panenan, gandum, pemilihan, sukses, keberhasilan, karya, mengakibatkan, menghasilkan, kali, panen, produksi, hasil, pertanian hewan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan

hujan awan, hujan, turun, musim

impor

Membawakan, menyadarkan, pengimpor, mendatangkan, diimpor, mengajukan, importir, mengadakan, mengimpor, membawa, menimbulkan, barang, kepentingan, menyebabkan, menghasikan, perdagangan, impor, luar, negeri

indonesia bahasa

industri baja, kerajinan, perindustrian, proyek, kota, industri institut mengadakan, institut, lembaga

kekeringan mengeringkan, dikeringkan, pengeringan, sifat, kemarau, kekeringan, sekali, kering, musim, masa

kelangkaan bakar, kayu, kekurangan

kelompok pengelompokkan, grup, berkumpul, tandan, sekelompok, anggur, kategori, golongan, buah, kelompok, kecil

kering mengeringkan, gersang, dikeringkan, pengeringan, menarik, menguntungkan, kering, tanah

komoditas dagangan, keperluan, pokok, barang, utama, bahan laboratorium mantri, pembantu, asisten

musim musim,masa

obat serbuk, racun, kedokteran, belajar, ilmu, kimia, obat, bahan

organik karbon, mengandung, dasar

panen pemungutan, memungut, memotong, memanen, panen, padi, hasil

pangan masakan, makanan, bahan, pangan

pembangunan susunan, pendirian, penegakan, pembentukan, bangunan, pembukaan, pembuatan, perkembangan, pertumbuhan, bentuk, perusahaan, pembangunan pemerintah pemerintahan, polotik, ilmu, pemerintah

pendapatan bayaran, gaji, upah, penghasilan, memperoleh, pendapatan

penerapan penggunaan, ketekunan, pemasangan, majelis, kumpulan, penerapan, pertemuan, permintaan

peningkatan

(33)

Lanjutan

Kueri Istilah terjemahan

penyakit jahat, menyusahkan, penyebar, kesusahan, kekacauan, jelek, susah, busuk, sakit, buruk, mengganggu, keadaan, meminta, persoalan, penyakit

penyuluhan hiasan, uraian, penerangan, cahaya, penjelasan, keterangan, memperoleh, bagian, pusat

perdagangan kejuruan, ketrampilan, langganan, menukar, berdagang, pembeli, tukar, tambah, perdagangan

petani tani, petani

peternak keturunannya, peternak

peternakan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan, pertanian produk kali, hasil, pertanian

pupuk memupuk, pupuk

rakyat khalayak, ramai, massa, rakyat, penduduk

riset menyelidiki, penyelidikan, meneliti, ilmiah, riset, penelitian

sektor kawasan, bidang, sektor

sistem sistim, susunan, jaringan, cara, sistem

swasembada secukupnya, dirinya, mengatur, diri, sendiri, cukup

tadah lubuk, tangki, bak, kolam, dibawah, wadah, menempatkan, penyimpanan, waduk, gudang, tempat, tanah, air

tanaman bangunan, gedung, tumbuhan, penanaman, pabrik, tumbuh, tanam, panen, tanaman, hasil

tani tani, petani

tebu rotan, buluh, tongkat, alang, kursi, memukul, sayang, bermacam, sejenis, manis, tebu, semacam, uang, alat, kebun, gula

teknologi keahlian, mesin, pabrik, teknologi

ternak gerobak, lembu, menaikkan, menambah, sapi, daging, ternak, peternakan unggas tangkis, bola, bulu, unggas, burung

upaya harta, kekayaan, karya, alat, cara, upaya, usaha

usaha

(34)
(35)
(36)
(37)

PENDAHULUAN

Latar Belakang

Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.

Jumlah dokumen relevan yang

ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.

Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.

Paiki (2006) telah menggunakan metode

similarity thesaurus pada model temu kembali

vektor space model (VSM) dan dapat

meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau

P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.

Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.

Tujuan

Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.

Ruang Lingkup

Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System

(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan

dokumen yang berhubungan dengan

permintaan pengguna.

Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas

inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang

akan ditemu kembalikan diurutkan

(38)

PENDAHULUAN

Latar Belakang

Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.

Jumlah dokumen relevan yang

ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.

Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.

Paiki (2006) telah menggunakan metode

similarity thesaurus pada model temu kembali

vektor space model (VSM) dan dapat

meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau

P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.

Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.

Tujuan

Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.

Ruang Lingkup

Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.

TINJAUAN PUSTAKA

Sistem Temu Kembali Informasi

Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System

(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan

dokumen yang berhubungan dengan

permintaan pengguna.

Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas

inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang

akan ditemu kembalikan diurutkan

(39)

Ekspansi Kueri

Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Sedangkan dalam ekspansi kueri pengguna memberikan input tambahan pada kueri awal berupa kata ataupun frase (Manning et al. 2008).

Gambar 1 Ilustrasi proses temu kembali informasi

Terdapat tiga jenis ekspansi kueri yaitu

Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara diantaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) (Aly . 2008).

Metode pembobotan yang digunakan untuk memilih istilah ekspansi hasil terjemahan adalah dengan menggunakan idf

yang diperoleh dengan persamaan (1),

idft = ………. (1)

dan selanjutnya dikoreksi dengan banyaknya dokumen dalam koleksi, menjadi :

idft= log ………. (2)

Sedangkan idft adalah inverse document

frequency untuk istilah t, N adalah jumlah dokumen di koleksi, dan dft adalah banyaknya dokumen yang mengandung istilah t.

Penerjemahan Kueri

Terdapat empat metode untuk

menerjemahkan kueri yaitu menggunakan mesin penerjemah, kamus dwibahasa, korpus pararel, dan penerjemahan transitif. Penerjemahan kueri dengan menggunakan mesin penerjemah atau juga dikenal dengan

Statistical Machine Translation (SMT)

dilakukan dengan dua cara, yaitu:

1 Dengan menggunakan kalimat lengkap yang berisi sejumlah kata yang merupakan sinonim dari konteks kueri yang diinginkan

2 Dengan mengartikan term pada kueri ke dalam bahasa tertentu dan mencari padanan kata dalam bahasa tersebut, dan selanjutnya dilakukan penerjemahan kembali ke bahasa awal kueri (Riezler et al. 2007).

Ide utama dari teknik SMT adalah mencari sinonim dari istilah tertentu dengan terlebih dahulu mencari padanan kata dari bahasa asing. Sehingga sinonim istilah dalam bahasa asli kueri diperoleh dari penerjemahan terhadap istilah bahasa asing yang memiliki makna yang serupa dengan istilah pada kueri.

Bentuk dasar dari model SMT terdiri dari model translasi (translation model) dan model bahasa (language model). Persamaan dasar dari mesin penerjemah (machine translation) mendefinisikan bahwa sistem penerjemah ini bekerja dengan cara menemukan string e

yang merupakan terjemahan dari string f, persamaannya adalah :

ê arg max |

arg max P f| P ………… (3)

Persamaan (3) memisahkan antara model bahasa P(e) dan model penerjemah P(f|e).

Keuntungan dari penggunaan model penerjemahan yaitu adanya keterhubungan antara istilah pada dokumen dan istilah pada kueri dari pengguna. Model penerjemahan disini mengikutsertakan variabel dari bagian yang tidak terlihat (hidden alignment) yang sebenarnya memiliki peluang untuk diterjemahkan dan menjadi sumber untuk dijadikan kandidat istilah untuk ekspansi (Riezler et al. 2008).

Gambar

Gambar 1 Ilustrasi proses temu kembali informasi
Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri
Gambar 7
Gambar 11
+7

Referensi

Dokumen terkait

Lie (dalam Rusman, 2011: 218) bahwa “ pembelajaran kooperatif model jigsaw ini merupakan model belajar kooperatif dengan cara siswa belajar dalam kelompok kecil

longissima seperti lama hidup dari larva dan imago sebagai tahap perkembangan hama yang merusak tanaman telah mengalami perubahan, yakni peningkatan sebesar 1,7 kali dari

dan Tata Kerja Departemen Keuangan; dan.. 2) Peraturan Menteri Keuangan Nomor 184/PMK.01/2010 tentang Organisasi dan Tata Kerja Kementerian Keuangan. Tahun 2012, Direktorat

Walaupun wilayah di seluruh empayar dalam tempoh pertengahan Ming telah melaporkan sama ada penurunan atau saiz penduduk bertakung, gazetteers tempatan melaporkan sejumlah besar

Evaluasi berasal dari kata Bahasa Inggris yaitu “evaluation” yang berarti proses penilaian. Evaluasi yang dilakukan dalam penelitian ini adalah evaluasi sistem

Berdasarkan hasil analisis kebutuhan yang telah dilakukan, maka solusinya adalah dengan membuat sebuah aplikasi permainan yang bertema cita-cita melalui pengenalan

Hasil analisis sensitivitas ini selaras dengan Ariningsih (2012) yang menyatakan bahwa usahatani salak pondoh di Desa Sukodono Kecamatan Dampit, Kabupaten Malang,

Hasil penelitian yang dilakukan kepada 26 pasien dengan diagnosa gastritis di IGD RSUD Dr.Soegiri Lamongan menunjukkan bahwa sebagian besar pasien berpola makan buruk