IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM
IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL SYSTEM
Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Pada Tugas Akhir ini dibuat sistem yang dapat mengembalikan informasi dalam lintas bahasa.
Sistem ini diharapkan dapat menerjemahkan query dalam bahasa lain, selain itu diharapkan dapat melakukan pengindeksan dan pencarian dokumen dalam bahasa yang berbeda.
Sistem ini mengimplementasikan model ruang vektor yaitu salah satu model pada information retrieval yang menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query dalam bentuk vektor. Sistem ini diharapkan dapat mengakomodasikan kebutuhan user untuk mendapatkan dokumen yang relevan dari bahasa yang berbeda dengan bahasa query. Koleksi dokumen yang digunakan yaitu dokumen berbahasa Indonesia dan dokumen berbahasa Inggris.
Pada penerjemahan query, penerjemahan dengan menggunakan teknik nilai kemiripan statistik lebih baik dibandingkan pengambilan terjemahan pertama dan pengambilan semua terjemahan.
Sedangkan untuk sistem Monolingual Information Retrieval mempunyai performansi lebih baik dibandingkan dengan Cross-Language Information Retrieval.
Kata Kunci : nilai kemiripan statistik, cross language information retrieval
Abstract
The final project creates a system that can retrieval information in cross language. This system wished can translating query to the other language, and than wished can indexing and to find out the document in the different language.
This system implemented vector space model namely a type of model in information retrieval whose decide similarity betwen document with query that representating document and query into a vector. Cross-language information rertrieval system wished can accomodate the user need to get a relevant document from different language with the query language. The document collection that used in this work are indonesian language document and english language document.
In query translation, translation used a similarity value statistic technique better than first translation and all translation. Performance of Monolingual Information Retrieval system better than Cross-Language Information Retrieval.
Keywords : similarity value statistic, cross-language information retrieval
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
1. Pendahuluan
1.1 Latar belakang
Penyimpanan informasi dan penemuan kembali informasi kadang kala dipandang sebagai suatu hal yang sederhana. Misalkan saja terdapat sebuah tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (request atau query) yang jawabannya merupakan himpunan dokumen yang mengandung informasi yang diperlukan, yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan kemudian menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya yang tidak relevan. Namun pada saat ini hal tersebut tidak menjadi suatu hal yang sederhana lagi. Penyebaran teknologi jaringan terutama teknologi web di berbagai negara, menyebabkan peningkatan jumlah dokumen-dokumen online dengan berbagai macam bahasa. Monolingual information retrieval system(MLIR) hanya mampu menerima query dan mengambil dokumen yang relevan dalam satu bahasa dan tidak dapat mengambil dokumen dalam bahasa lain. Hal ini menyebabkan user tidak memiliki waktu atau tidak ingin menghabiskan waktunya untuk membaca seluruh koleksi dokumen baik dalam bahasa indonesia ataupun dalam bahasa lain misalnya saja koleksi dokumen dalam bahasa inggris.
Oleh karena itu, Cross-language information retrieval system(CLIR) diperlukan dalam mengakomodasikan kebutuhan user untuk mendapatkan dokumen yang relevan dari bahasa yang berbeda dengan bahasa query. Query yang dimaksudkan disini merupakan kata atau rangkaian kata yang berkaitan dengan topik tertentu atau berfungsi sebagai kata kunci dalam pencarian dokumen. Dalam tugas akhir ini akan menggunakan model ruang vektor yaitu salah satu model pada information retrieval yang menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor.
Selain itu dengan model ruang vektor ini akan di implementasikan dengan CLIR.
Sehingga apabila user mengajukan query dalam bahasa indonesia maka diharapkan sistem temu balik informasi lintas bahasa tersebut dapat mengambil atau menampilkan dokumen yang relevan kepada user dalam bentuk bahasa lain yaitu bahasa inggris.
1.2 Perumusan masalah
Rumusan masalah yang akan dikaji dalam tugas akhir ini adalah :
1. Penerjemahan query dari bahasa Indonesia ke dalam bahasa Inggris dan sebaliknya.
2. Penerapan model ruang vektor yang akan digunakan untuk menghitung nilai similarity antara query dan dokumen sehingga dapat menghasilkan informasi dokumen yang relevan.
1
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
3. Permasalahan tentang ambiguitas yang ditimbulkan dari adanya suatu kata yang terkadang mempunyai lebih dari satu terjemahan dalam bahasa lain. Hal ini mengakibatkan informasi yang didapatkan tidak relevan dengan kebutuhan user.
Adapun beberapa batasan-batasan dalam tugas akhir ini yaitu :
1. Sistem temu balik informasi ini hanya menyediakan koleksi dokumen dalam bahasa Indonesia dan Inggris.
2. Query yang dipakai hanya dalam 2 (dua) bahasa yaitu bahasa Indonesia dan Inggris.
3. Sistem temu balik informasi ini tidak mengakomodasikan multi- language information retrieval system yaitu sistem dapat mengembalikan dokumen yang relevan dari berbagai macam bahasa 4. Permasalahan ambiguitas akan ditangani hanya dalam level semantik
saja dan tidak menangani sampai level sintatik yaitu hanya menangani sampai pada penerjemahan makna saja dan tidak menangani sampai level struktur dari kata.
5. Pada sistem temu balik informasi ini tidak menangani kesalahan dalam pengetikan query.
6. Dokumen yang digunakan pada sistem temu balik informasi ini dalam bentuk teks.
7. Tidak menangani masalah Thesaurus
1.3 Tujuan
Tujuan yang ingin dicapai dalam pelaksanaan Tugas Akhir ini adalah :
1. Implementasi aplikasi Cross-language information retrieval system.
2. Melakukan penerjemahan query dan pengurangan ambiguitas dalam penerjemahan query.
3. Menganalisa pemilihan pengambilan terjemahan query misalnya pada sebuah query terjemahan yang diambil hanya terjemahan pertama pada setiap kata atau mungkin yang diambil semua terjemahan dari setiap kata atau mengambil terjemahan yang paling sesuai (misalnya terjemahan setelah melakukan term weighting dan lain-lain).
1.4 Metodologi penyelesaian masalah
Metodologi yang digunakan dalam pelaksanaan tugas akhir ini, yaitu:
a. Studi Literatur mengenai information retrieval dengan menggunakan model ruang vektor serta melakukan studi dari berbagai pustaka seperti text book, jurnal ilmiah, dan artikel web yang dapat menunjang tugas akhir ini.
b. Melakukan analisis yaitu analisis mengenai permasalahan yang ada pada penerjemahan query, Monolingual information retrieval system serta Cross-language information retrieval system. Dibawah ini
2
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
merupakan gambaran dari Monolingual information retrieval system dan Cross-language information retrieval system.
Gambar 1- 1: Monolingual information retrieval system
Gambar 1- 2: Cross-language information retrieval system
c. Melakukan perancangan solusi berdasarkan analisis permasalahan yang sudah didapatkan seperti perancangan kelas-kelas yang terlibat dalam sistem temu balik informasi, perancangan basis data, perancangan antarmuka
d. Mengimplementasikan hasil rancangan ke dalam kode program.
e. Melakukan pengujian sistem CLIR yang menerapkan model ruang vektor
f. Penarikan kesimpulan atas pengujian yang telah dilakukan dan melakukan pembuatan laporan
3
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
39
5. Kesimpulan dan Saran
5.1 Kesimpulan
Beberapa kesimpulan yang dapat diambil dari Tugas Akhir ini yaitu :
1. Model ruang vektor dapat diimplementasikan pada sistem Cross-language information retrieval.
2. Performansi dari sistem Monolingual Information Retrieval lebih baik dibandingkan dengan sistem Cross Language Information Retrieval karena selain kelengkapan kamus sangat mempengaruhi dalam proses penerjemahan query faktor penerjemahan query terkadang diterjemahkan secara tidak tepat.
3. Penerjemahan query dengan menggunakan teknik nilai kemiripan statistik menghasilkan terjemahan yang lebih baik dibandingkan dengan terjemahan dengan mengambil terjemahan pertama dan semua terjemahan
5.2 Saran
Saran-saran yang dapat penulis uraikan untuk keperluan analisis selanjutnya adalah:
1. Sebaiknya sistem dapat dilengkapi dengan query expantion dengan harapan dapat memperbaiki kinerja sistem. Dengan query expantion ini membuat query terjemahan tidak hanya bergantung pada hasil proses penerjemahan saja sehingga ketergantungan sistem kepada kelengkapan kamus berkurang.
2. Melengkapi data kamus dan mampu menangani masalah tentang Thesaurus.
3. Menjadikan sistem tidak hanya dua bahasa saja tetapi mungkin bisa dikembangkan menjadi tiga bahasa atau lebih
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
40
Daftar pustaka
[1] Adriani, M. Using Statistical Term Similarity for Sense Disambiguation in Cross-Language Information Retrieval.2000.
[http://www.springerlink.com/content/t5177834422m67nx/fulltext.pdf]
Diakses tanggal 17 Februari 2008
[2] Ballesteros, L; Croft, W.B. Resolving Ambiguity for Cross-Language Retrieval.
1998.[http://ciir.cs.umass.edu/pubfiles/ir-129.pdf]
Diakses tanggal 17 Februari 2008
[3] Echols, J.M; Shadily H. 2002. Kamus Indonesia Inggris. Jakarta. PT Gramedia Pustaka Utama.
[4] Echols, J.M; Shadily H. 2000. Kamus Inggris Indonesia. Jakarta. PT Gramedia Pustaka Utama.
[5] Gao, J., Nie, J., Xun, E., Zhang, J., Zhou, M., Huang, C. Improving Query Translation for Cross-Language Information Retrieval using Statistical Model.
2001.[http://research.microsoft.com/~jfgao/paper/sigir01.pdf]
Diakses tanggal 17 Februari 2008
[6] Garcia.E.Dr.Cosine Similarity and Term Weight Tutorial.2006.
[http://www.miislita.com/information-retrieval-tutorial/cosine-similarity- tutorial.html]. Diakses tanggal 12 Maret 2008
[7] Manning, Christopher., Raghavan,Prabhakar.,Schütze,Hinrich.Introduction to Information Retrieval. Cambridge University Press. 2008.
[ http://nlp.stanford.edu/IR-book/pdf/chapter06-tfidf.pdf ] Diakses tanggal 12 Maret 2008
[8] Martynov,M.,Novikov B. An Indexing Algorithm for Text Retrieval.Russia.
[ http://meta.math.spbu.ru/publication/adbis96-P171.pdf ] Diakses tanggal 17 Februari 2008
[9] Owen, Art B. Information Retrieval and The Vector Space Model.Standford University.[http://www-stat.stanford.edu/~owen/courses/399/ir4up.pdf]
Diakses tanggal 24 Februari 2008
[10] Tala, F.Z. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. 2003.[http://www.illc.uva.nl/Publications/ResearchReports/ MoL- 2003-02.text.pdf]. Diakses tanggal 17 Februari 2008
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika