The most frequent problem on information retrieval is the users inability in representing information they need, in a query form. Thus, one of the solutions to overcome such situation is by applying query expansion technique. By applying the method, query will be expanded, and the new query produced will be used to do the search task. One of the approaches in determining the term of the expansion is Translation with Bilingualism Dictionary, which works through query translation process using dictionary, and the calculation of weight from each expanded candidate terms. In order to increase the relevance of the search result, this research uses Translation with Bilingualism Dictionary as the method to apply. Acknowledging the influence of the method, the research trial and error through the observation of the eleven recall precision number is applied to the produced retrieval result by using different expansion terms. Based on the observation of the produced precision number, it is identified that the use of Translation method in this research has not been successfull in increasing the relevance of the search results. The more expansion terms used, the smaller the precision number produced.
NET
DEPAR
FAKULTAS MATEMA
INSTI
DWIBAHASA
ETTY LAORA SITOHANG
RTEMEN ILMU KOMPUTER
ATIKA DAN ILMU PENGETAHUAN
STITUT PERTANIAN BOGOR
BOGOR
2009
NET
DEPAR
FAKULTAS MATEMA
INSTI
DWIBAHASA
ETTY LAORA SITOHANG
RTEMEN ILMU KOMPUTER
ATIKA DAN ILMU PENGETAHUAN
STITUT PERTANIAN BOGOR
BOGOR
2009
KAMUS DWIBAHASA
NETTY LAORA SITOHANG
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
The most frequent problem on information retrieval is the users inability in representing information they need, in a query form. Thus, one of the solutions to overcome such situation is by applying query expansion technique. By applying the method, query will be expanded, and the new query produced will be used to do the search task. One of the approaches in determining the term of the expansion is Translation with Bilingualism Dictionary, which works through query translation process using dictionary, and the calculation of weight from each expanded candidate terms. In order to increase the relevance of the search result, this research uses Translation with Bilingualism Dictionary as the method to apply. Acknowledging the influence of the method, the research trial and error through the observation of the eleven recall precision number is applied to the produced retrieval result by using different expansion terms. Based on the observation of the produced precision number, it is identified that the use of Translation method in this research has not been successfull in increasing the relevance of the search results. The more expansion terms used, the smaller the precision number produced.
Judul : Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia menggunakan Kamus Dwibahasa
Nama : Netty Laora Sitohang NRP : G64052490
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M. Komp. NIP 19620714 198601 1 002
Mengetahui:
Ketua Departemen
Dr. Ir. Sri Nurdiyati, M. Sc NIP 19601126 198601 2 001
PRAKATA
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah memberikan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Ekspansi Kueri Pada Sistem Temu Kembali Informasi menggunakan Kamus Dwibahasa dapat diselesaikan dengan baik. Selama menyelesaikan penelitian ini penulis mendapatkan banyak bantuan, dukungan dan semangat dari berbagai pihak. Untuk itu ucapan terima kasih penulis sampaikan kepada:
1 Ayah, Ibu, abang Nico, kakak Butet, dan adik Inri, atas segala doa, dukungan, dan semangat yang diberikan kepada penulis.
2 Bapak Ir. Julio Adisantoso, M. Komp. atas bimbingannya kepada penulis selama melakukan penelitian.
3 Bapak Ahmad Ridha, S. Kom, MS dan Bapak Sony Hartono Wijaya, M. Kom. selaku penguji, atas segala kritik dan saran yang telah diberikan.
4 Teman-teman satu bimbingan, Tara, Elen, Utis, Muthia, ka Edo, atas bantuan dan kebersamaannya selama melakukan penelitian.
5 Sutanto, Elenur, Annisa, dan Idaliana, atas dukungan dan bantuannya kepada penulis dalam menyelesaikan penelitian
6 Teman-teman Departemen Ilmu Komputer IPB angkatan 42 atas kebersamaan dan keceriaan yang boleh penulis rasakan.
7 Ka Christ, Andhica, dan Muthia atas kesediaanya menjadi pembahas pada pelaksanaan seminar hasil penelitian penulis.
8 Saudara-saudara kelompok kecilku, ka Juventy, Nita, Vera, Agustiani, Lenny, Nova, atas segala doa dan semangat yang diberikan kepada penulis.
9 Sahabat-sahabat terbaikku, Maria, Marie, Mery, Doris, dan Serasi untuk setiap doa dan dukungan yang telah diberikan kepada penulis.
10 Teman-teman Kompers PMK IPB dan FM BUD KUKAR atas kebersamaan dan dukungan yang diberikan selama penulis berada di IPB.
11 Teman-teman Wisma Melati, Dean, Irma, Isni, Leng-leng, Maul, Ncha, Noe, Reni, Rias, Rizka, Tina, Titis, Unee, untuk setiap keceriaan dan kebersamaan yang dapat penulis rasakan.
Penulis juga mengucapkan terima kasih kepada semua pihak yang telah membantu penulis dalam menyelesaikan tugas akhir ini yang namanya tidak dapat disebutkan satu per satu. Semoga penelitian ini dapat bermanfaat, amin.
Bogor, Desember 2009
RIWAYAT HIDUP
Penulis lahir di Tenggarong pada tanggal 21 Maret 1988 yang merupakan anak ketiga dari empat bersaudara dengan ayah bernama Bluster Sitohang dan Ibu bernama Lamsina Manurung.
DAFTAR ISI
Halaman
DAFTAR GAMBAR ... v
DAFTAR TABEL ... v
DAFTAR LAMPIRAN ... v
PENDAHULUAN Latar Belakang ... 1
Tujuan ... 1
Ruang Lingkup ... 1
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi ... 1
Ekspansi Kueri... 2
Penerjemahan Kueri ... 2
Evaluasi Temu Kembali Informasi ... 3
METODE PENELITIAN Koleksi dokumen pengujian ... 3
Praproses ... 3
Penerjemahan istilah ... 3
Pemilihan istilah ekspansi ... 4
Pengukuran kemiripan ... 4
Evaluasi ... 4
Perangkat keras dan perangkat lunak ... 4
HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ... 4
Pengolahan Dokumen ... 5
Ekspansi Kueri ... 5
Evaluasi Sistem Temu Kembali Informasi ... 5
Perbandingan Metode Ekspansi ... 8
KESIMPULAN DAN SARAN Kesimpulan ... 9
Saran ... 10
DAFTAR PUSTAKA ... 10
DAFTAR GAMBAR
Halaman
1 Ilustrasi proses temu kembali informasi ... 2
2 Gambaran umum proses temu kembali dengan ekspansi kueri ... 4
3 Grafik recall precision temu kembali ... 6
4 Grafik QE1 ... 6
5 Grafik QE2 ... 6
6 Grafik QE3 ... 6
7 Grafik perbandingan recall precision pada temu kembali dengan ekspansi kueri ... 7
8 Grafik perbandingan recallprecision antara proses temu kembali dengan dan tanpa ekspansi kueri ... 8
9 Perbandingan sistem temu kembali model peluang, model similarity thesaurus dan penerjemahan kueri ... 8
10 Ekspansi kueri dengan penambahan 5 istilah pada model peluang, model similarity thesaurus dan 1 istilah hasil penerjemahan kueri ... 8
11 Ekspansi kueri dengan penambahan10 istilah pada model peluang, model similarity thesaurus dan 2 istilah hasil penerjemahan kueri ... 9
DAFTAR TABEL
Halaman 1 Ilustrasi perhitungan recall precision ... 32 Contoh istilah kueri dan hasil terjemahan yang berhasil meningkatkan precision ... 7
3 Contoh istilah kueri dan hasil terjemahan yang tidak berhasil meningkatkan precision ... 7
4 Perbandingan nilai AVP ... 7
DAFTAR LAMPIRAN
Halaman 1 Contoh koleksi dokumen ... 122 Daftar kueri dan jumlah dokumen relevan ... 13
3 Daftar istilah kueri dan istilah hasil terjemahan ... 14
4 Daftar kata buangan ... 16
PENDAHULUAN
Latar Belakang
Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.
Jumlah dokumen relevan yang
ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.
Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.
Paiki (2006) telah menggunakan metode
similarity thesaurus pada model temu kembali
vektor space model (VSM) dan dapat
meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau
P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.
Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.
Tujuan
Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.
Ruang Lingkup
Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.
TINJAUAN PUSTAKA
Sistem Temu Kembali Informasi
Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System
(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan
dokumen yang berhubungan dengan
permintaan pengguna.
Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas
inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang
akan ditemu kembalikan diurutkan
Ekspansi Kueri
Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Sedangkan dalam ekspansi kueri pengguna memberikan input tambahan pada kueri awal berupa kata ataupun frase (Manning et al. 2008).
Gambar 1 Ilustrasi proses temu kembali informasi
Terdapat tiga jenis ekspansi kueri yaitu
Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara diantaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) (Aly . 2008).
Metode pembobotan yang digunakan untuk memilih istilah ekspansi hasil terjemahan adalah dengan menggunakan idf
yang diperoleh dengan persamaan (1),
idft = ………. (1)
dan selanjutnya dikoreksi dengan banyaknya dokumen dalam koleksi, menjadi :
idft= log ………. (2)
Sedangkan idft adalah inverse document
frequency untuk istilah t, N adalah jumlah dokumen di koleksi, dan dft adalah banyaknya dokumen yang mengandung istilah t.
Penerjemahan Kueri
Terdapat empat metode untuk
menerjemahkan kueri yaitu menggunakan mesin penerjemah, kamus dwibahasa, korpus pararel, dan penerjemahan transitif. Penerjemahan kueri dengan menggunakan mesin penerjemah atau juga dikenal dengan
Statistical Machine Translation (SMT)
dilakukan dengan dua cara, yaitu:
1 Dengan menggunakan kalimat lengkap yang berisi sejumlah kata yang merupakan sinonim dari konteks kueri yang diinginkan
2 Dengan mengartikan term pada kueri ke dalam bahasa tertentu dan mencari padanan kata dalam bahasa tersebut, dan selanjutnya dilakukan penerjemahan kembali ke bahasa awal kueri (Riezler et al. 2007).
Ide utama dari teknik SMT adalah mencari sinonim dari istilah tertentu dengan terlebih dahulu mencari padanan kata dari bahasa asing. Sehingga sinonim istilah dalam bahasa asli kueri diperoleh dari penerjemahan terhadap istilah bahasa asing yang memiliki makna yang serupa dengan istilah pada kueri.
Bentuk dasar dari model SMT terdiri dari model translasi (translation model) dan model bahasa (language model). Persamaan dasar dari mesin penerjemah (machine translation) mendefinisikan bahwa sistem penerjemah ini bekerja dengan cara menemukan string e
yang merupakan terjemahan dari string f, persamaannya adalah :
ê arg max |
arg max P f| P ………… (3)
Persamaan (3) memisahkan antara model bahasa P(e) dan model penerjemah P(f|e).
Keuntungan dari penggunaan model penerjemahan yaitu adanya keterhubungan antara istilah pada dokumen dan istilah pada kueri dari pengguna. Model penerjemahan disini mengikutsertakan variabel dari bagian yang tidak terlihat (hidden alignment) yang sebenarnya memiliki peluang untuk diterjemahkan dan menjadi sumber untuk dijadikan kandidat istilah untuk ekspansi (Riezler et al. 2008).
dengan nilai bobot yang lebih tinggi akan terpilih sebagai istilah hasil terjemahan.
Evaluasi Temu Kembali Informasi
Recall dan precision mengukur
kemampuan sistem dalam menemu
kembalikan dokumen-dokumen yang relevan dan menahan dokumen-dokumen yang tidak relevan. Recall merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen relevan di dalam koleksi. Precision merupakan rasio jumlah dokumen relevan yang ditemu kembalikan terhadap jumlah seluruh dokumen yang ditemu kembalikan. Ilustrasi perhitungan nilai recall-precision dapat dilihat pada Tabel 1 (Manning et al. 2008).
Tabel 1 Ilustrasi perhitungan recall precision
Relevant Nonrelevant
Retrieved tp fp
Not retrieved fn tn
Sehingga:
P ……… (4)
R ……… (5)
Pengukuran kinerja dengan
mempertimbangkan aspek keterurutan atau
ranking dapat dilakukan dengan melakukan interpolasi antara precision dan recall.
Keuntungan penggunaan nilai rata-rata
interpolated precision maupun non
interpolated precision dalam evaluasi
performansi adalah nilai dapat langsung mencerminkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated precision dapat mencerminkan urutan dari
dokumen-dokumen relevan pada
perangkingan. Standar yang biasa digunakan adalah 11 standar tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Misalkan rj, j = {0,1,2,….,10} adalah tingkat standar recall ke-j maka:
P rj max rj ≤ r ≤ rj+1 P r ……(6)
Prinsip interpolasi ini adalah pada tiap standar tingkat recall diambil nilai precision
maksimum di antara standar tingkat recall
ke-j dan j+1 (Baeza-Yates & Ribeiro-Neto 1999).
METODE PENELITIAN
Penelitian dilakukan dalam lima tahap, yaitu: (1) Praproses, (2) Penerjemahan kueri, (3) Memilih istilah ekspansi, (4) Pengukuran kemiripan dan (5) Evaluasi. Gambaran umum proses temu kembali informasi dengan menggunakan ekspansi kueri dapat dilihat pada Gambar 2.
Koleksi dokumen pengujian
Dokumen yang digunakan untuk pengujian adalah sejumlah dokumen dalam bidang pertanian berbahasa Indonesia sebanyak 1000 dokumen. Dalam penelitian ini juga digunakan pasangan kueri-dokumen relevan. Dokumen pengujian dan pasangan kueri-dokumen relevan diambil dari koleksi yang ada di laboratorium temu kembali informasi Departemen Ilmu Komputer IPB.
Praproses
Tahap ini diawali dengan tahap tokenisasi
(tokenizing), pembuangan kata buangan
(stopwords), dan diakhiri dengan tahap pembobotan (weighting). Teknik yang akan digunakan sebagai pendekatan dalam menentukan bobot dalam penelitian ini adalah pendekatan tf-idf. Nilai dari tf-idf diperoleh
dengan menggunakan persamaan (7)
(Manning et al. 2008).
Wi,j tfi x idfi ……….. (7)
Sedangkan wi,j adalah bobot istilah ti pada dokumen dj dan tfi adalah frekuensi kemunculan istilah ti pada dokumen dj.
Penerjemahan istilah
Penerjemahan istilah bertujuan untuk menemukan istilah lain yang memiliki makna yang serupa dengan istilah pada kueri. Kueri berupa istilah dalam Bahasa Indonesia terlebih dulu diterjemahkan ke dalam Bahasa Inggris, selanjutnya istilah dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia. Hasil dari proses ini adalah beberapa istilah baru dalam Bahasa Indonesia yang memiliki makna yang serupa dengan kueri istilah pada kueri awal. Proses
penerjemahan dilakukan dengan
Pemilihan istilah ekspansi
Pemilihan istilah ekspansi dilakukan untuk menentukkan istilah hasil terjemahan yang akan digunakan untuk ekspansi. Pemilihan dilakukan berdasarkan nilai idf yang dimiliki oleh masing-masing istilah. Nilai idf yang telah diperoleh melalui tahap praproses, digunakan sebagai dasar untuk menentukan bobot istilah dari istilah hasil terjemahan.
Nilai idf yang diperoleh oleh setiap istilah menunjukkan tingkat kepentingan dari sitilah tersebut, yaitu dengan menghitung banyaknya dokumen yang mengandung istilah tertentu. Nilai idf untuk setiap istilah dapat dihitung dengan menggunakan Persamaan 2.
Gambar 2 Gambaran umum proses temu kembali dengan ekspansi kueri
Pengukuran kemiripan
Pengukuran kemiripan dilakukan untuk menentukan nilai kesamaan antara dokumen yang dihasilkan pada praproses dan kueri. Pengukuran kemiripan dilakukan dengan menggunakan kueri awal dan juga kueri perluasan. Pengukuran kemiripan dilakukan dengan menggunakan cosine similarity,
seperti pada persamaan (8).
sim(dj,dk) = ) . *
+ )+, *, ………... (8)
Dengan dj adalah vektor dokumen dan dk sebagai vektor kueri. Hasil dari pengukuran kemiripan digunakan sebagai dasar untuk
menentukan dokumen yang akan
ditemukembalikan.
Evaluasi
Metode evaluasi yang digunakan recall
dan precision. Untuk setiap setiap kueri yang digunakan telah ditentukan dokumen apa saja yang relevan. Dari setiap hasil temu kembali dilakukan penghitungan nilai precision untuk sebelas tingkat nilai recall. Hasil nilai
precision untuk masing-masing kueri
kemudian dirata-ratakan untuk mendapatkan nilai average precision (AVP). Untuk melihat pengaruh dari penggunaan teknik ekspansi kueri dilakukan dengan penentuan nilai recall precision terhadap empat jenis proses temu-kembali, yaitu:
• QE0, yaitu proses temu kembali tanpa ekspansi kueri
• QE1, yaitu proses temu kembali dengan mengambil satu istilah teratas sebagai istilah ekspansi
• QE2, yaitu proses temu kembali dengan mengambil dua istilah teratas sebagai istilah ekspansi
• QE3, yaitu proses temu kembali dengan mengambil tiga istilah teratas sebagai istilah ekspansi.
Perangkat keras dan perangkat lunak
Penelitian ini dilakukan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut:
• Perangkat keras: Processor Intel Pentium Dual-Core, memori DDR RAM 384 MB dan harddisk 70 GB.
• Perangkat lunak: Microsoft Windows XP Service Pack 2, PHP 5.1.6, Apache 2.2.3, MySQL 5.0.24.
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
dokumen dengan format teks (.txt) dengan struktur tag XML pada masing-masing dokumen. Contoh dokumen pengujian yang digunakan dapat dilihat di Lampiran 1. Tag
yang digunakan dalam koleksi dokumen yang digunakan, yaitu:
• <doc></doc>, mewakili keseluruhan dokumen. Di dalamnya terdapat tag lain yang mendeskripsikan isi dokumen secara lebih jelas.
• <docno></docno>, mewakili ID dokumen. ID yang dipakai merupakan kombinasi nama sumber berita, tanggal berita, dan urutan berita pada tanggal yang sama.
• <title></title>, mewakili judul dokumen.
• <author></author>, mewakili penulis dokumen.
• <date></date>, mewakili tanggal penulisan.
• <text></text>, mewakili isi dokumen. Selain itu untuk mengevaluasi sistem yang dihasilkan dari penelitian ini digunakan pasangan kueri-dokumen relevan yang diambil dari Laboratorium Temu Kembali Informasi. Daftar kueri dan jumlah dokumen relevan dapat dilihat di Lampiran 2. Untuk memperoleh istilah sebagai perluasan dari kueri digunakan kamus Indonesia-Inggris dan Inggris-Indonesia yang sudah tersedia. Daftar istilah kueri dan istiah hasil terjemahan dapat dilihat di Lampiran 3.
Pengolahan Dokumen
Tahap awal dari pemrosesan dokumen adalah tokenisasi. Pada tahapan ini diambil setiap kata unik dari masing-masing dokumen. Selanjutnya dalam tahapan ini juga dilakukan pembuangan sejumlah kata umum yang dianggap tidak berpotensi untuk digunakan sebagai penciri dokumen. Daftar kata buangan menggunakan hasil penelitian (Ridha 2002) seperti pada Lampiran 4. Hasil dari tahap tokenisasi berupa daftar kata unik beserta frekuensi kemunculan kata (tf) tersebut pada masing-masing dokumen. Selain itu juga diperoleh banyaknya dokumen yang mengandung kata unik penciri dokumen (df).
Teknik pembobotan (weighting) yang digunakan adalah pembobotan tf.idf. Dengan menggunkan nilai (tf) dan (df) pada tahapan sebelumnya diperoleh bobot setiap kata unik. Hasil dari tahap pengindeksan disampan dalam file teks tersendiri, hal ini bertujuan
untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.
Ekspansi Kueri
Proses ekspansi kueri dengan metode penerjemahan dilakukan tanpa sepengetahuan pengguna (Automatic Query Expansion). Pada tampilan pengguna (user interface) diberikan dua pilihan untuk menjalankan sistem. Pencarian dengan menggunakan temu kembali klasik atau dengan menggunakan ekspansi kueri. Jika yang dipilih adalah dengan menggunakan ekspansi kueri maka dilakukan proses penerjemahan untuk memodifikasi kueri.
Ekspansi kueri dilakukan dengan menerjemahkan setiap kueri dengan menggunakan kamus dwibahasa. Untuk setiap kueri yang masuk diproses sehingga dihasilkan token kueri, selanjutnya untuk setiap token kueri yang ada akan dicari
padanannya dalam Bahasa Inggris.
Selanjutnya kata dalam Bahasa Inggris diterjemahkan kembali ke dalam Bahasa Indonesia, sehingga diperoleh beberapa istilah baru yang digunakan sebagai istilah untuk ekspansi kueri.
Proses penerjemahan menghasilkan sejumlah istilah baru dalam Bahasa Indonesia. Untuk menentukan istilah yang digunakan pada ekspansi kueri dilakukan pemilihan berdasarkan nilai idf dari masing-masing istilah hasil penerjemahan.
Evaluasi Sistem Temu Kembali Informasi
Proses evaluasi dilakukan setelah hasil temu kembali infomasi diperoleh. Perbandingan dilakukan antara hasil temu kembali tanpa menggunakan ekspansi kueri dan hasil temu kembali dengan menggunkan ekspansi kueri. Untuk evaluasi digunakan nilai recall dan precision dari hasil pengujian terhadap 30 pasangan kueri dan dokumen relevan.
Awal dari tahap pengujian adalah melakukan kegiatan temu kembali dengan menggunakan metode klasik. Kegiatan temu kembali dilakukan terhadap 30 kueri yang sudah disediakan. Selanjutnya untuk masing-masing hasil temu kembali dari setiap kueri dihitung nilai recall dan precision. Gambar 3 menunjukkan hasil dari interpolasi dengan menggunakan nilai rata-rata terhadap nilai
Proses selanjutnya ad dengan menggunakan ekspa yang digunakan untuk m diperoleh dengan metode pe untuk setiap kueri Bahasa padanan katanya dalam Bah selanjutnya istilah dalam ditrjemahkan kembali ke Indonesia. Sehingga akh beberapa istilah baru yang untuk ekspansi kueri. Penen akan ditambahkan pada dengan menggunakan nilai masing istilah. Setiap istilah berdasarkan nilai idf
Selanjutnya istilah dengan ni tinggi dipilih menjadi istilah
Dalam tahapan pengujian kueri dilakukan percobaan se yaitu dengan mengambil sa dua istilah (QE2), dan tiga is posisi urutan teratas.
Selanjutnya untuk baha
dilakukan kegiatan t
menggunakan ekspansi kuer istilah baru yang sudah diten nilai recall dan precision
masing-masing pengujian pengaruh dari penggunaan digunakan.
Gambar 3 Grafik recall
kembali
Kurva recall dan p
pengujian QE1 yaitu ekspan menggunkan jumlah istilah dapat dilihat pada Gamba menggunakan satu istilah maka istilah yang diambil ad memiliki nilai idf tertinggi. tinggi menunjukkan bahwa memiliki peluang kemuncu pada koleksi dokumen.
adalah pengujian pansi kueri. Istilah memperluas kueri penerjemahan. Jadi a Indonesia dicari ahasa Inggris, dan Bahasa Inggris e dalam Bahasa khirnya diperoleh g akan digunakan entuan istilah yang kueri dilakukan i idf dari masing-lah baru diurutkan
yang dimiliki. nilai idf yang lebih h untuk ekspansi.
an dengan ekspansi sebanyak tiga kali, satu istilah (QE1), istilah (QE3) pada
han perbandingan
temu kembali
eri dengan jumlah entukan. Penentuan
n dilakukan pada n untuk melihat an metode yang
all precision temu
precision untuk
pansi kueri dengan lah sebanyak satu bar 4. Pada saat h untuk ekspansi adalah istilah yang gi. Nilai idf yang a istilah tersebut culan yang tinggi
Pengujian QE2 dengan mengg istilah untuk ekspansi menghas
recall precision seperti pada Gam pengujian ini digunakan dua i ekspansi kueri. Istilah yang dipili istilah yang memiliki nilai idf terti
Pengujian QE3 dengan mengg istilah untuk ekspansi menghas
recall precision seperti pada Gam pengujian ini digunakan tiga i ekspansi kueri. Istilah yang dipilih istilah yang memiliki nilai idf terti
Gambar 4 Grafik QE1
Gambar 5 Grafik QE2
Gambar 6 Grafik QE3
nggunakan dua asilkan grafik ambar 5. Pada istilah untuk ilih adalah dua rtinggi.
ggunakan tiga asilkan grafik ambar 6. Pada istilah untuk ilih adalah tiga
Penggunaan metode pen dengan kamus dwibahasa da istilah ekspansi kueri pada dilakukan hanya mampu me
precision untuk dua kueri m kueri yang diujikan, dan pe pada saat penambahan satu Tabel 2 dan Tabel 3 men istilah ekspansi yang m terjemahan.
Perbandingan untuk tiga p ekspansi kueri dapat dilihat Dari grafik terlihat ba kembali yang lebih baik QE1. Pada penggunaan sa ekspansi kueri, ini berarti memiliki nilai idf yang menunjukkan bahwa istila memiliki peluang kemuncu pada koleksi dokumen.
Tabel 2 Contoh istilah terjemahan y meningkatkan ni
Istilah Hasil terj
impor
mendatangkan, d mengimpor, bara kepentingan, per impor, luar, nege
beras nasi, gabah, bera
penyakit Sakit, keadaan, p
hewan binatang, piaraan
ternak ternak, peternaka
Tabel 3 Contoh istilah terjemahan yang meningkatkan ni
Istilah Hasil t
flu pingsan, pilek, b angin, tertarik, m
gula manisan, sayang, bersifat, gula
harga hadiah, mengharg ongkos, dihargai,
Pada Tabel 4 dapat dilih nilai AVP dari proses temu k dengan dan tanpa menggu kueri. Nilai yang dihasi dikatakan cukup kecil, hal
enerjemahan kueri dalam menentukan da pengujian yang meningkatkan nilai i masukan dari 30 peningkatan terjadi tu istilah ekspansi. enunjukkan contoh merupakan hasil
a pengujian dengan at pada Gambar 7. bahwa hasil temu ditunjukkan oleh satu istilah untuk rti istilah tersebut ng tertinggi. Ini ilah yang terpilih culan yang tinggi
kueri dan hasil yang berhasil nilai precision
l terjemahan
berdarah, dingin, mata, masuk
g, enak, manis, hati,
argai, berharga, ganti, ai, menilai, nilai, harga
ilihat perbandingan kembali informasi gunakan ekspansi silkan ini dapat al ini dikarenakan
kondisi dokumen pada korp terdapat kesalahan penulisan isi dokumen. Selain itu penyebab d nilai AVP dikarenakan untuk se kueri dengan dokumen releva banyak kueri yang memiliki se dokumen relevan. Sehingga jika d
dengan jumlah dokumen y
menghasilkan nilai recall dan pre
kecil.
Gambar 7 Grafik perbandin
precision pada te dengan ekspansi k
Tabel 4 Perbandingan nilai AVP
Metode Nilai AVP
Tanpa QE 0.524
QE1 0.461
QE2 0.429
QE3 0.407
Pada Gambar 8 dapat dilihat p hasil nilai recall dan precision
kembali informasi dengan menggunakan ekspansi kueri. D bahwa hasil temu kembali deng kueri tidak lebih baik jika d dengan proses temu kembali tan kueri. Pada grafik precision untu kembali yang menggunakan ek (QE1, QE2, QE3) malah mengh yang lebih kecil dibanding menggunkan ekspansi kueri (QE dikarenakan istilah yang meru terjemahan kueri cukup banyak d diantaranya tidak sesuai deng pencarian. Masalah tersebut me hasil temu kembali yang dipe tidak sesuai dengan yang dihara
rpus, dimana i pada koleksi dari kecilnya setiap pasang van, terdapat sedikit jumlah a dibandingkan yang besar
t perbandingan
tetapi untuk beberapa kuer cakupan khusus di bidang menghasilkan hasil pencarian
Gambar 8 Grafik perba
precision ant kembali den ekspansi kuer
Perbandingan Metode Eksp
Pada penelitan seb berhubungan dengan ekspa dibahas penggunaan simil
(Paiki 2006) dan peluang b 2008). Untuk dua pene pengujian untuk melihat dilakukan dengan melakuk terhadap tiga kegiatan temu temu kembali tanpa ekspans kembali dengan 5 istilahdan dari penelitian sebelumnya ak dengan penggunaan metod kueri dengan kamus dwibah kembali tanpa ekspansi k kembali dengan 1 istilah dan
Dari Gambar 9 dapat dili hasil temu kembali tanp ekspansi (QE0, IRX0, NoT
idf). Dari Gambar 9 terlih
precision yang dihasilkan QE grafik similiarity thesaurus, recall 0 sampai dengan 0.4 g di atas grafik peluang bers pada nilai recall 0 nilai dihasilkan QE0 berada dib
thesaurus, tapi untuk nilai r
QE0 selalu berada di atas
thesaurus. Dari grafik yan perbandingan hasil temu
eri yang memiliki ng pertanian bisa an yang lebih baik.
rbandingan recall
antara proses temu engan dan tanpa eri
spansi
ebelumnya yang spansi kueri telah
ilarity thesaurus
bersyarat (Rusidi nelitian terdahulu t kinerja sistem ukan perbandingan mu kembali, yaitu nsi kueri, dan temu an 10 istilah. Hasil akan dibandingkan ode penerjemahan ahasa dengan temu kueri dan temu n 2 istilah.
ilihat perbandingan npa menggunakan TH-1, dan NoTH-lihat bahwa grafik
QE0 berada di atas
us, dan pada nilai grafik QE0 berada ersyarat. Walaupun ai precision yang ibawah similiarity recall selanjutnya s grafik similiarity
ang menunjukkan u kembali dapat
dikatakan bahwa temu kem memberikan hasil yang l dibandingkan similarity thesaurus
tidak selalu lebih baik jika d dengan hasil temu kembali m peluang bersyarat. Peningkatan ni yang dihasilkan pada temu kemb terjadi karena penggunaan kolek yang lebih besar yaitu 1000, seda proses temu kembali pada du sebelumnya hanya menggun dokumen.
Gambar 9 Ekspansi kueri dengan istilah 0 model pelu
similarity thesaur
penerjemahan kueri.
Gambar 10 Ekspansi ku penambahan 5 model pelua
similarity thes
istilah hasil p dibandingkan menggunakan nilai precision
bali QE0 bisa leksi dokumen dangkan untuk dua penelitian unakan 700
Perbandingan hasil temu menggunakan ekspansi k terhadap pengujian dengan istilah ekspansi pada model p dan similarity thesaurus
penerjemahan kueri mengg ekspansi. Proses perbanding karena pada metode ekspan hasil terjemahan 1 is memberikan hasil yang lebi dua pengujian lainnya, yaitu tiga istilah ekspansi. Pada G bahwa grafik QE1 berada di TH5-1 dan TH5-idf pada nil untuk nilai recall selanjut selalu berada di atas g
thesaurus (TH5-1 dan TH5-id
Gambar 11 Ekspansi penambaha
model p
similarity t
istilah has kueri.
Hasil perbandingan men proses temu kembali denga dengan menggunakan pen memberikan hasil yang dibandingkan similiarity
Perbandingan antara ekspan penerjemahan kueri dan bersyarat menunjukkan ba
recall 0 model pelu
menghasilkan nilai precision
dibandingkan dengan metod kueri. Tetapi untuk nilai re
nilai precision yang dihas berbeda.
Perbandingan selanjut terhadap ekspansi kueri bersyarat dan similarity thes
0.0 kueri dilakukan n menggunakan 5 l peluang bersyarat dengan teknik ggunakan 1 istilah ngan ini dilakukan ansi kueri dengan istilah ekspansi bih baik dibanding itu dengan dua dan Gambar 10 terlihat di bawah dua grafik nilai recall 0, tetapi utnya grafik QE1 grafik similiarity idf).
kueri dengan han 10 istilah pada peluang, model
thesaurus dan 2 asil penerjemahan
enunjukkan bahwa gan ekspansi kueri enerjemahan kueri ng lebih baik
rity thesaurus.
ansi kueri dengan model peluang bahwa pada nilai eluang bersyarat
n yang lebih tinggi tode penerjemahan
recall selanjutnya asilkan tidak jauh
jutnya dilakukan dengan peluang
esaurus dengan 10
istilah ekspansi dan penerjem dengan dua istilah ekspansi (G Pada nilai recall 0 nilai pre
dihasilkan metode penerjemahan kecil dibandingkan dengan hasi
thesaurus, tetapi untuk nilai recal
(sampai dengan 0.9) nilai prec
lebih tinggi. Untuk perbanding model peluang bersyarat pada n nilai precision yang dihasil penerjemahan kueri lebih kecil, nilai recall selanjutnya nilai pre
dihasilkan teknik penerjemahan lebih tinggi daripada yang dihas peluang bersyarat.
Dari hasil perbandingan ekspansi kueri terlihat bahwa ki ekspansi dengan menggunka penerjemahan kueri memiliki has baik jika dibandingkan dengan model peluang bersyarat dan
thesaurus. Hal ini ditunjukkan
precision yang dihasilkan o
penerjemahan yang lebih tinggi semua tingkat nilai recall. Penin
precision yang terjadi diakibat koleksi dokumen pengujian yang sehingga jumlah dokumen re ditemukembalikan juga menjadi le
KESIMPULAN DAN SA
Kesimpulan
Penelitian ini telah mengimpl teknik ekspansi kueri pada p kembali. Metode yang diguna
melakukan ekspansi kuer
penerjemahan kueri mengguna dwibahasa. Berdasarkan nilai reca
yang dihasilkan untuk setiap diketahui bahwa ekspansi ku penambahan istilah baru dalam lebih banyak akan semakin meng
precision.
Dapat disimpulkan bahwa ekspansi kueri dengan metode p untuk memperoleh istilah perlu dapat meningkatkan relevansi kembali untuk beberapa kue Metode penerjemahan yang digu berhasil meningkatkan nilai prec
beberapa kueri tetapi secara kese
precision yang diperoleh adal kecil. Jika dilakukan perband
0.6 0.7 0.8 0.9 1 asil similiarity all selanjutnya
ecision selalu ngan terhadap nilai recall 0 silkan teknik l, tetapi untuk
recision yang n kueri selalu asilkan model
tiga teknik kinerja sistem kan metode asil yang lebih n penggunaan an similarity
dengan nilai oleh teknik i hampir pada ningkatan nilai batkan jumlah ng lebih besar, relevan yang i lebih banyak.
ARAN
ecall precision
ap pengujian, kueri dengan jumlah yang engurangi nilai
a penggunaan penerjemahan rluasan hanya i hasil temu ueri tertentu. gunakan hanya
penggunaan teknik ekspansi dengan model peluang bersyarat dan similarity thesaurus, diketahui bahwa terdapat peningkatan nilai
precision pada penggunaan metode
penerjemahan. Hal ini dikarenakan penggunaan koleksi dokumen yang lebih besar.
Saran
Untuk penelitian selanjutnya yang berhubungan dengan ekspansi kueri, disarankan untuk melakukan :
1 Perbaikan terhadap kesalahan penulisan yang ada pada isi koleksi dokumen 2 Penggunaan wordnet untuk menghindari
ambiguitas
3 Penggunaan koleksi dokumen dalam jumlah yang lebih besar.
DAFTAR PUSTAKA
Adisantoso J. 1997. Temu Kembali Informasi Menggunakan Peluang Bersyarat. [Tesis]. Jakarta: Program Pascasarjana, Universitas Indonesia.
Aly AA. 2008. Using a Query Technique to Improve Document Retrieval, El-Minia University, Egypt.
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. Addison-Wesley, New York.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval. America, New York.
Paiki FF. 2006. Evaluasi Penggunaan
Similarity Thesaurus terhadap Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Ridha A. 2002. Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Riezler S, Vasserman A, Tsochantaridis I, Mittal V, Liu Y. 2007. Statistical
Machine Translation for Query
Expansion in Answer Retrieval.
Proceedings of the 45th annual Meeting of the Association for Computational
Linguistics (ACL ’07). Prague. Czech Republic.
Riezler S, Liu Y, Vasserman A. 2008.
Translating Queries into Snippets for Improved Query Expansion. Google Inc. 1600 Amphitheatre Parkway.
Rusidi. 2008. Ekspansi Kueri dalam Sistem Temu Kembali Informasi Berbahasa
Indonesia Menggunakan Peluang
Lampiran 1 Contoh koleksi dokumen.
<DOC>
<DOCNO>gatra230103-002</DOCNO>
<TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE>
<AUTHOR>Tma, Ant</AUTHOR>
<DATE> 23 Januari 2003 </DATE>
<TEXT>
<P>Dinas Pertanian kota Semarang selama dua tahun berturut-turut sampai dengan tahun 2002 lalu, mengembangkan program penggemukan sapi potong yang disalurkan melalui proyek pengembangan tani terpadu kawasan desa kota.</P>
<P>Menurut Kasi Humas Kantor Informasi dan Komunikasi Semarang, Achyani di Semarang, Kamis, selama dua tahun itu, petani desa kota di Semarang yang dilibatkan dalam program tersebut sebanyak 80 petani.</P>
<P>Ke-80 petani yang sudah mendapatkan faslitas bantuan pengembangan penggemukan ternak sapi potong itu, rata-rata memiliki sapi berumur 2,5 tahun. Saat diserahkan, sapi masih berumur 1,5 tahun.</P>
<P>Sapi berumur 2,5 tahun itu, sudah layak dilelang. Hasilnya, sesuai kesepakatan, dibagi dua; 60 persen keuntungan untuk petani, dan 40 persen untuk Dinas Pertanian.</P>
<P>Menurutnya, dengan berat sapi yang dikembangkan hingga rata-rata 250 kg, petani bisa menjualnya seharga Rp 3 juta-Rp 4 juta.</P>
<P>"Sementara harga standar yang ditetapkan Dinas Pertanian, untuk pengembalian bantuan dana, ditetapkan sebesar Rp 2,3 juta. Sehingga keuntungan yang diperoleh petani -jika terjual seharga Rp3 juta- adalah 60 persen dari Rp 700.000," kata Achyani.</P>
</TEXT>
Lampiran 2 Daftar kueri dan jumlah dokumen relevan.
Kueri
Jumlah dokumen
relevan
bencana kekeringan 39
dukungan pemerintah pada pertanian 29
flu burung 21
gabah kering giling 24
industri gula 19
institut pertanian bogor 40
kelangkaan pupuk 20
kelompok masyarakat tani/kelompok tani 32
laboratorium pertanian 21
musim panen 40
pembangunan untuk sektor pertanian 46
penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 42
penerapan teknologi pertanian 39
penyakit hewan ternak/penyakit ternak 13
penyuluhan pertanian 27
perdagangan hasil pertanian 30
pertanian organik/sistem pertanian organik 24
petani tebu 20
peternak unggas/peternak ayam/peternak burung 20
produk usaha peternakan rakyat/produk peternakan 19
pupuk organik 20
riset pertanian 69
swasembada pangan 30
tadah hujan 18
tanaman pangan 43
Lampiran 3 Daftar istilah kueri dan istilah hasil terjemahan.
Kueri Istilah terjemahan
ayam ditakuti, jago, keran, jantan, melirik, ayam, mudah
bencana mala, petaka, merusakkan, malapetaka, kegagalan, bencana, kerusakan, besar
beras nasi, gabah, beras, padi
dukungan penyokong, sokongan, sandaran, menyangga, tiang, dinding, penyangga, persetujuan, dukungan, bantuan, membantu
flu pingsan, pilek, nada, berdarah, huruf, dingin, angin, tertarik, kelas, angka, mata, sekali, pertama, masuk, satu
gabah tangkai, mengejar, padang, mengikuti, batang, sawah, padi
gagal lalai, menjatuhkan, lupa, gangguan, kelemahan, kegagalan, meninggalkan, jatuh, gagal, kerusakan, kekurangan, rusak
giling menggiling, pemintalan, menggulung, gulungan, menggelinding, gulung, penggilingan, rol
gula manisan, sayang, apel, enak, manis, uang, hati, bersifat, gula, membuat
harga hadiah, menghargai, berharga, ganti, ongkos, dihargai, korban, menetapkan, menilai, harganya, meminta, nilai, harga
hasil mengalah, menyerah, panenan, gandum, pemilihan, sukses, keberhasilan, karya, mengakibatkan, menghasilkan, kali, panen, produksi, hasil, pertanian hewan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan
hujan awan, hujan, turun, musim
impor
Membawakan, menyadarkan, pengimpor, mendatangkan, diimpor, mengajukan, importir, mengadakan, mengimpor, membawa, menimbulkan, barang, kepentingan, menyebabkan, menghasikan, perdagangan, impor, luar, negeri
indonesia bahasa
industri baja, kerajinan, perindustrian, proyek, kota, industri institut mengadakan, institut, lembaga
kekeringan mengeringkan, dikeringkan, pengeringan, sifat, kemarau, kekeringan, sekali, kering, musim, masa
kelangkaan bakar, kayu, kekurangan
kelompok pengelompokkan, grup, berkumpul, tandan, sekelompok, anggur, kategori, golongan, buah, kelompok, kecil
kering mengeringkan, gersang, dikeringkan, pengeringan, menarik, menguntungkan, kering, tanah
komoditas dagangan, keperluan, pokok, barang, utama, bahan laboratorium mantri, pembantu, asisten
musim musim,masa
obat serbuk, racun, kedokteran, belajar, ilmu, kimia, obat, bahan
organik karbon, mengandung, dasar
panen pemungutan, memungut, memotong, memanen, panen, padi, hasil
pangan masakan, makanan, bahan, pangan
pembangunan susunan, pendirian, penegakan, pembentukan, bangunan, pembukaan, pembuatan, perkembangan, pertumbuhan, bentuk, perusahaan, pembangunan pemerintah pemerintahan, polotik, ilmu, pemerintah
pendapatan bayaran, gaji, upah, penghasilan, memperoleh, pendapatan
penerapan penggunaan, ketekunan, pemasangan, majelis, kumpulan, penerapan, pertemuan, permintaan
peningkatan
Lanjutan
Kueri Istilah terjemahan
penyakit jahat, menyusahkan, penyebar, kesusahan, kekacauan, jelek, susah, busuk, sakit, buruk, mengganggu, keadaan, meminta, persoalan, penyakit
penyuluhan hiasan, uraian, penerangan, cahaya, penjelasan, keterangan, memperoleh, bagian, pusat
perdagangan kejuruan, ketrampilan, langganan, menukar, berdagang, pembeli, tukar, tambah, perdagangan
petani tani, petani
peternak keturunannya, peternak
peternakan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan, pertanian produk kali, hasil, pertanian
pupuk memupuk, pupuk
rakyat khalayak, ramai, massa, rakyat, penduduk
riset menyelidiki, penyelidikan, meneliti, ilmiah, riset, penelitian
sektor kawasan, bidang, sektor
sistem sistim, susunan, jaringan, cara, sistem
swasembada secukupnya, dirinya, mengatur, diri, sendiri, cukup
tadah lubuk, tangki, bak, kolam, dibawah, wadah, menempatkan, penyimpanan, waduk, gudang, tempat, tanah, air
tanaman bangunan, gedung, tumbuhan, penanaman, pabrik, tumbuh, tanam, panen, tanaman, hasil
tani tani, petani
tebu rotan, buluh, tongkat, alang, kursi, memukul, sayang, bermacam, sejenis, manis, tebu, semacam, uang, alat, kebun, gula
teknologi keahlian, mesin, pabrik, teknologi
ternak gerobak, lembu, menaikkan, menambah, sapi, daging, ternak, peternakan unggas tangkis, bola, bulu, unggas, burung
upaya harta, kekayaan, karya, alat, cara, upaya, usaha
usaha
Lampiran 1 Contoh koleksi dokumen.
<DOC>
<DOCNO>gatra230103-002</DOCNO>
<TITLE>Semarang Kembangkan Sapi Potong Gemuk</TITLE>
<AUTHOR>Tma, Ant</AUTHOR>
<DATE> 23 Januari 2003 </DATE>
<TEXT>
<P>Dinas Pertanian kota Semarang selama dua tahun berturut-turut sampai dengan tahun 2002 lalu, mengembangkan program penggemukan sapi potong yang disalurkan melalui proyek pengembangan tani terpadu kawasan desa kota.</P>
<P>Menurut Kasi Humas Kantor Informasi dan Komunikasi Semarang, Achyani di Semarang, Kamis, selama dua tahun itu, petani desa kota di Semarang yang dilibatkan dalam program tersebut sebanyak 80 petani.</P>
<P>Ke-80 petani yang sudah mendapatkan faslitas bantuan pengembangan penggemukan ternak sapi potong itu, rata-rata memiliki sapi berumur 2,5 tahun. Saat diserahkan, sapi masih berumur 1,5 tahun.</P>
<P>Sapi berumur 2,5 tahun itu, sudah layak dilelang. Hasilnya, sesuai kesepakatan, dibagi dua; 60 persen keuntungan untuk petani, dan 40 persen untuk Dinas Pertanian.</P>
<P>Menurutnya, dengan berat sapi yang dikembangkan hingga rata-rata 250 kg, petani bisa menjualnya seharga Rp 3 juta-Rp 4 juta.</P>
<P>"Sementara harga standar yang ditetapkan Dinas Pertanian, untuk pengembalian bantuan dana, ditetapkan sebesar Rp 2,3 juta. Sehingga keuntungan yang diperoleh petani -jika terjual seharga Rp3 juta- adalah 60 persen dari Rp 700.000," kata Achyani.</P>
</TEXT>
Lampiran 2 Daftar kueri dan jumlah dokumen relevan.
Kueri
Jumlah dokumen
relevan
bencana kekeringan 39
dukungan pemerintah pada pertanian 29
flu burung 21
gabah kering giling 24
industri gula 19
institut pertanian bogor 40
kelangkaan pupuk 20
kelompok masyarakat tani/kelompok tani 32
laboratorium pertanian 21
musim panen 40
pembangunan untuk sektor pertanian 46
penerapan bioteknologi di indonesia/penerapan bioteknologi/bioteknologi di indonesia 42
penerapan teknologi pertanian 39
penyakit hewan ternak/penyakit ternak 13
penyuluhan pertanian 27
perdagangan hasil pertanian 30
pertanian organik/sistem pertanian organik 24
petani tebu 20
peternak unggas/peternak ayam/peternak burung 20
produk usaha peternakan rakyat/produk peternakan 19
pupuk organik 20
riset pertanian 69
swasembada pangan 30
tadah hujan 18
tanaman pangan 43
Lampiran 3 Daftar istilah kueri dan istilah hasil terjemahan.
Kueri Istilah terjemahan
ayam ditakuti, jago, keran, jantan, melirik, ayam, mudah
bencana mala, petaka, merusakkan, malapetaka, kegagalan, bencana, kerusakan, besar
beras nasi, gabah, beras, padi
dukungan penyokong, sokongan, sandaran, menyangga, tiang, dinding, penyangga, persetujuan, dukungan, bantuan, membantu
flu pingsan, pilek, nada, berdarah, huruf, dingin, angin, tertarik, kelas, angka, mata, sekali, pertama, masuk, satu
gabah tangkai, mengejar, padang, mengikuti, batang, sawah, padi
gagal lalai, menjatuhkan, lupa, gangguan, kelemahan, kegagalan, meninggalkan, jatuh, gagal, kerusakan, kekurangan, rusak
giling menggiling, pemintalan, menggulung, gulungan, menggelinding, gulung, penggilingan, rol
gula manisan, sayang, apel, enak, manis, uang, hati, bersifat, gula, membuat
harga hadiah, menghargai, berharga, ganti, ongkos, dihargai, korban, menetapkan, menilai, harganya, meminta, nilai, harga
hasil mengalah, menyerah, panenan, gandum, pemilihan, sukses, keberhasilan, karya, mengakibatkan, menghasilkan, kali, panen, produksi, hasil, pertanian hewan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan
hujan awan, hujan, turun, musim
impor
Membawakan, menyadarkan, pengimpor, mendatangkan, diimpor, mengajukan, importir, mengadakan, mengimpor, membawa, menimbulkan, barang, kepentingan, menyebabkan, menghasikan, perdagangan, impor, luar, negeri
indonesia bahasa
industri baja, kerajinan, perindustrian, proyek, kota, industri institut mengadakan, institut, lembaga
kekeringan mengeringkan, dikeringkan, pengeringan, sifat, kemarau, kekeringan, sekali, kering, musim, masa
kelangkaan bakar, kayu, kekurangan
kelompok pengelompokkan, grup, berkumpul, tandan, sekelompok, anggur, kategori, golongan, buah, kelompok, kecil
kering mengeringkan, gersang, dikeringkan, pengeringan, menarik, menguntungkan, kering, tanah
komoditas dagangan, keperluan, pokok, barang, utama, bahan laboratorium mantri, pembantu, asisten
musim musim,masa
obat serbuk, racun, kedokteran, belajar, ilmu, kimia, obat, bahan
organik karbon, mengandung, dasar
panen pemungutan, memungut, memotong, memanen, panen, padi, hasil
pangan masakan, makanan, bahan, pangan
pembangunan susunan, pendirian, penegakan, pembentukan, bangunan, pembukaan, pembuatan, perkembangan, pertumbuhan, bentuk, perusahaan, pembangunan pemerintah pemerintahan, polotik, ilmu, pemerintah
pendapatan bayaran, gaji, upah, penghasilan, memperoleh, pendapatan
penerapan penggunaan, ketekunan, pemasangan, majelis, kumpulan, penerapan, pertemuan, permintaan
peningkatan
Lanjutan
Kueri Istilah terjemahan
penyakit jahat, menyusahkan, penyebar, kesusahan, kekacauan, jelek, susah, busuk, sakit, buruk, mengganggu, keadaan, meminta, persoalan, penyakit
penyuluhan hiasan, uraian, penerangan, cahaya, penjelasan, keterangan, memperoleh, bagian, pusat
perdagangan kejuruan, ketrampilan, langganan, menukar, berdagang, pembeli, tukar, tambah, perdagangan
petani tani, petani
peternak keturunannya, peternak
peternakan hewani, binatang, protein, pemeliharaan, ilmu, hewan, peternakan, pertanian produk kali, hasil, pertanian
pupuk memupuk, pupuk
rakyat khalayak, ramai, massa, rakyat, penduduk
riset menyelidiki, penyelidikan, meneliti, ilmiah, riset, penelitian
sektor kawasan, bidang, sektor
sistem sistim, susunan, jaringan, cara, sistem
swasembada secukupnya, dirinya, mengatur, diri, sendiri, cukup
tadah lubuk, tangki, bak, kolam, dibawah, wadah, menempatkan, penyimpanan, waduk, gudang, tempat, tanah, air
tanaman bangunan, gedung, tumbuhan, penanaman, pabrik, tumbuh, tanam, panen, tanaman, hasil
tani tani, petani
tebu rotan, buluh, tongkat, alang, kursi, memukul, sayang, bermacam, sejenis, manis, tebu, semacam, uang, alat, kebun, gula
teknologi keahlian, mesin, pabrik, teknologi
ternak gerobak, lembu, menaikkan, menambah, sapi, daging, ternak, peternakan unggas tangkis, bola, bulu, unggas, burung
upaya harta, kekayaan, karya, alat, cara, upaya, usaha
usaha
PENDAHULUAN
Latar Belakang
Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.
Jumlah dokumen relevan yang
ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.
Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.
Paiki (2006) telah menggunakan metode
similarity thesaurus pada model temu kembali
vektor space model (VSM) dan dapat
meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau
P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.
Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.
Tujuan
Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.
Ruang Lingkup
Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.
TINJAUAN PUSTAKA
Sistem Temu Kembali Informasi
Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System
(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan
dokumen yang berhubungan dengan
permintaan pengguna.
Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas
inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang
akan ditemu kembalikan diurutkan
PENDAHULUAN
Latar Belakang
Tujuan dari sistem temu kembali informasi adalah menemukan keberadaan dokumen yang dianggap relevan, yaitu dokumen yang memiliki topik yang berhubungan dengan kebutuhan informasi pengguna. Pengguna merepresentasikan kebutuhan akan informasi dalam bentuk kueri.
Jumlah dokumen relevan yang
ditemukembalikan dipengaruhi oleh jumlah kata kunci dalam kueri (Xu & Croft 2005, Paiki 2006). Salah satu masalah yang dihadapi adalah seringkali pengguna tidak mampu merepresentasikan kebutuhan informasi yang diinginkan ke dalam bentuk kueri. Masalah lain yang sering muncul adalah pilihan kata yang digunakan seringkali berbeda dengan pilihan kata yang digunakan penulis.
Salah satu cara untuk mengatasi masalah tersebut adalah dengan menggunakan teknik ekspansi kueri. Dengan menggunakan teknik ini pengguna akan dibantu untuk menentukan istilah apa saja yang akan ditambahkan pada kueri awal yang diberikan. Kueri yang telah mengalami perluasan akan digunakan untuk melakukan pencarian selanjutnya. Dengan menggunakan teknik ini diharapkan dokumen yang diperoleh akan lebih banyak dan relevan.
Paiki (2006) telah menggunakan metode
similarity thesaurus pada model temu kembali
vektor space model (VSM) dan dapat
meningkatkan kinerja sistem temu kembali. Akan tetapi dalam penelitian tersebut tidak diperhatikan jumlah istilah yang akan digunakan untuk ekspansi kueri. Selanjutnya Adisantoso (1997) dan Rusidi (2008) melakukan ekspansi kueri dengan memilih istilah berdasarkan keeratan hubungan antara istilah pada kueri dan istilah lain. Keeratan hubungan berdasarkan kemunculan dua objek dapat diukur menggunakan konsep peluang. Peluang munculnya istilah ti akibat adanya istilah tj dalam suatu dokumen dinyatakan sebagai peluang bersyarat ti setelah tj atau
P(ti|tj). Dalam penelitian tersebut berhasil diperoleh jumlah istilah yang lebih sedikit yang dianggap lebih baik dibandingkan dengan jumlah istilah kueri yang banyak. Padahal jumlah kueri yang terlalu sedikit juga kurang baik untuk menemukembalikan dokumen yang relevan.
Metode lain yang diharapkan bisa lebih meningkatkan kinerja sistem dalam mengekspansi kueri adalah dengan melakukan penerjemahan kueri menggunakan kamus dwibahasa. Dengan metode ini ekspansi dilakukan dengan menggunakan sejumlah sinonim dari istilah pada kueri. Sinonim diperoleh dari bahasa asing dengan mencari padanan istilah yang memiliki makna sama.
Tujuan
Penelitian ini bertujuan untuk menerapkan teknik ekspansi kueri untuk meningkatkan relevansi hasil pencarian pada sistem temu kembali informasi dengan menggunakan kamus.
Ruang Lingkup
Penerjemahan kueri ke dalam bahasa asing menggunakan kamus dwibahasa Indonesia-Inggris dan Indonesia-Inggris-Indonesia.
TINJAUAN PUSTAKA
Sistem Temu Kembali Informasi
Menurut Rijsbergen (1979) dalam Rusidi (2008), Information Retrieval System
(IRS) tidak memberitahu pengguna masalah yang ditanyakan. Sistem tersebut hanya memberitahukan keberadaan dan keterangan
dokumen yang berhubungan dengan
permintaan pengguna.
Kegiatan temu kembali informasi diawali dengan penyediaan koleksi dokumen yang akan digunakan. Dengan mengunakan operasi teks, dokumen diolah menjadi suatu berkas
inverted index. Proses temu kembali dimulai dengan menggunakan database dokumen berupa inverted index. Untuk mengawali proses temu kembali, pengguna diminta merepresentasikan kebutuhan dalam bentuk kueri. Selanjutnya kueri akan diproses dengan menggunakan operasi yang serupa seperti pada koleksi dokumen. Kueri yang telah diproses digunakan untuk memperoleh dokumen hasil temu kembali. Sebelum diberikan kepada pengguna, dokumen yang
akan ditemu kembalikan diurutkan
Ekspansi Kueri
Dalam relevance feedback pengguna memberikan input tambahan pada koleksi dokumen yang diberikan dengan memberi tanda pada dokumen yang dianggap relevan. Selanjutnya input ini digunakan untuk memperbaiki kueri yang telah diberikan pengguna. Sedangkan dalam ekspansi kueri pengguna memberikan input tambahan pada kueri awal berupa kata ataupun frase (Manning et al. 2008).
Gambar 1 Ilustrasi proses temu kembali informasi
Terdapat tiga jenis ekspansi kueri yaitu
Manual Query Expansion (MQE), Automatic Query Expansion (AQE), dan Interactive Query Expansion (IQE). Pertanyaan yang sering muncul adalah bagaimana pemilihan istilah dan berapa jumlah istilah yang digunakan untuk ekspansi kueri. Beberapa cara diantaranya memilih istilah dengan mengambil beberapa yang terbaik atau memasukkan seluruh istilah dokumen relevan (relevance feedback) (Aly . 2008).
Metode pembobotan yang digunakan untuk memilih istilah ekspansi hasil terjemahan adalah dengan menggunakan idf
yang diperoleh dengan persamaan (1),
idft = ………. (1)
dan selanjutnya dikoreksi dengan banyaknya dokumen dalam koleksi, menjadi :
idft= log ………. (2)
Sedangkan idft adalah inverse document
frequency untuk istilah t, N adalah jumlah dokumen di koleksi, dan dft adalah banyaknya dokumen yang mengandung istilah t.
Penerjemahan Kueri
Terdapat empat metode untuk
menerjemahkan kueri yaitu menggunakan mesin penerjemah, kamus dwibahasa, korpus pararel, dan penerjemahan transitif. Penerjemahan kueri dengan menggunakan mesin penerjemah atau juga dikenal dengan
Statistical Machine Translation (SMT)
dilakukan dengan dua cara, yaitu:
1 Dengan menggunakan kalimat lengkap yang berisi sejumlah kata yang merupakan sinonim dari konteks kueri yang diinginkan
2 Dengan mengartikan term pada kueri ke dalam bahasa tertentu dan mencari padanan kata dalam bahasa tersebut, dan selanjutnya dilakukan penerjemahan kembali ke bahasa awal kueri (Riezler et al. 2007).
Ide utama dari teknik SMT adalah mencari sinonim dari istilah tertentu dengan terlebih dahulu mencari padanan kata dari bahasa asing. Sehingga sinonim istilah dalam bahasa asli kueri diperoleh dari penerjemahan terhadap istilah bahasa asing yang memiliki makna yang serupa dengan istilah pada kueri.
Bentuk dasar dari model SMT terdiri dari model translasi (translation model) dan model bahasa (language model). Persamaan dasar dari mesin penerjemah (machine translation) mendefinisikan bahwa sistem penerjemah ini bekerja dengan cara menemukan string e
yang merupakan terjemahan dari string f, persamaannya adalah :
ê arg max |
arg max P f| P ………… (3)
Persamaan (3) memisahkan antara model bahasa P(e) dan model penerjemah P(f|e).
Keuntungan dari penggunaan model penerjemahan yaitu adanya keterhubungan antara istilah pada dokumen dan istilah pada kueri dari pengguna. Model penerjemahan disini mengikutsertakan variabel dari bagian yang tidak terlihat (hidden alignment) yang sebenarnya memiliki peluang untuk diterjemahkan dan menjadi sumber untuk dijadikan kandidat istilah untuk ekspansi (Riezler et al. 2008).