• Tidak ada hasil yang ditemukan

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom"

Copied!
6
0
0

Teks penuh

(1)

IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM

IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL SYSTEM

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Pada Tugas Akhir ini dibuat sistem yang dapat mengembalikan informasi dalam lintas bahasa.

Sistem ini diharapkan dapat menerjemahkan query dalam bahasa lain, selain itu diharapkan dapat melakukan pengindeksan dan pencarian dokumen dalam bahasa yang berbeda.

Sistem ini mengimplementasikan model ruang vektor yaitu salah satu model pada information retrieval yang menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query dalam bentuk vektor. Sistem ini diharapkan dapat mengakomodasikan kebutuhan user untuk mendapatkan dokumen yang relevan dari bahasa yang berbeda dengan bahasa query. Koleksi dokumen yang digunakan yaitu dokumen berbahasa Indonesia dan dokumen berbahasa Inggris.

Pada penerjemahan query, penerjemahan dengan menggunakan teknik nilai kemiripan statistik lebih baik dibandingkan pengambilan terjemahan pertama dan pengambilan semua terjemahan.

Sedangkan untuk sistem Monolingual Information Retrieval mempunyai performansi lebih baik dibandingkan dengan Cross-Language Information Retrieval.

Kata Kunci : nilai kemiripan statistik, cross language information retrieval

Abstract

The final project creates a system that can retrieval information in cross language. This system wished can translating query to the other language, and than wished can indexing and to find out the document in the different language.

This system implemented vector space model namely a type of model in information retrieval whose decide similarity betwen document with query that representating document and query into a vector. Cross-language information rertrieval system wished can accomodate the user need to get a relevant document from different language with the query language. The document collection that used in this work are indonesian language document and english language document.

In query translation, translation used a similarity value statistic technique better than first translation and all translation. Performance of Monolingual Information Retrieval system better than Cross-Language Information Retrieval.

Keywords : similarity value statistic, cross-language information retrieval

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(2)

1. Pendahuluan

1.1 Latar belakang

Penyimpanan informasi dan penemuan kembali informasi kadang kala dipandang sebagai suatu hal yang sederhana. Misalkan saja terdapat sebuah tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (request atau query) yang jawabannya merupakan himpunan dokumen yang mengandung informasi yang diperlukan, yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan kemudian menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya yang tidak relevan. Namun pada saat ini hal tersebut tidak menjadi suatu hal yang sederhana lagi. Penyebaran teknologi jaringan terutama teknologi web di berbagai negara, menyebabkan peningkatan jumlah dokumen-dokumen online dengan berbagai macam bahasa. Monolingual information retrieval system(MLIR) hanya mampu menerima query dan mengambil dokumen yang relevan dalam satu bahasa dan tidak dapat mengambil dokumen dalam bahasa lain. Hal ini menyebabkan user tidak memiliki waktu atau tidak ingin menghabiskan waktunya untuk membaca seluruh koleksi dokumen baik dalam bahasa indonesia ataupun dalam bahasa lain misalnya saja koleksi dokumen dalam bahasa inggris.

Oleh karena itu, Cross-language information retrieval system(CLIR) diperlukan dalam mengakomodasikan kebutuhan user untuk mendapatkan dokumen yang relevan dari bahasa yang berbeda dengan bahasa query. Query yang dimaksudkan disini merupakan kata atau rangkaian kata yang berkaitan dengan topik tertentu atau berfungsi sebagai kata kunci dalam pencarian dokumen. Dalam tugas akhir ini akan menggunakan model ruang vektor yaitu salah satu model pada information retrieval yang menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor.

Selain itu dengan model ruang vektor ini akan di implementasikan dengan CLIR.

Sehingga apabila user mengajukan query dalam bahasa indonesia maka diharapkan sistem temu balik informasi lintas bahasa tersebut dapat mengambil atau menampilkan dokumen yang relevan kepada user dalam bentuk bahasa lain yaitu bahasa inggris.

1.2 Perumusan masalah

Rumusan masalah yang akan dikaji dalam tugas akhir ini adalah :

1. Penerjemahan query dari bahasa Indonesia ke dalam bahasa Inggris dan sebaliknya.

2. Penerapan model ruang vektor yang akan digunakan untuk menghitung nilai similarity antara query dan dokumen sehingga dapat menghasilkan informasi dokumen yang relevan.

1

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(3)

3. Permasalahan tentang ambiguitas yang ditimbulkan dari adanya suatu kata yang terkadang mempunyai lebih dari satu terjemahan dalam bahasa lain. Hal ini mengakibatkan informasi yang didapatkan tidak relevan dengan kebutuhan user.

Adapun beberapa batasan-batasan dalam tugas akhir ini yaitu :

1. Sistem temu balik informasi ini hanya menyediakan koleksi dokumen dalam bahasa Indonesia dan Inggris.

2. Query yang dipakai hanya dalam 2 (dua) bahasa yaitu bahasa Indonesia dan Inggris.

3. Sistem temu balik informasi ini tidak mengakomodasikan multi- language information retrieval system yaitu sistem dapat mengembalikan dokumen yang relevan dari berbagai macam bahasa 4. Permasalahan ambiguitas akan ditangani hanya dalam level semantik

saja dan tidak menangani sampai level sintatik yaitu hanya menangani sampai pada penerjemahan makna saja dan tidak menangani sampai level struktur dari kata.

5. Pada sistem temu balik informasi ini tidak menangani kesalahan dalam pengetikan query.

6. Dokumen yang digunakan pada sistem temu balik informasi ini dalam bentuk teks.

7. Tidak menangani masalah Thesaurus

1.3 Tujuan

Tujuan yang ingin dicapai dalam pelaksanaan Tugas Akhir ini adalah :

1. Implementasi aplikasi Cross-language information retrieval system.

2. Melakukan penerjemahan query dan pengurangan ambiguitas dalam penerjemahan query.

3. Menganalisa pemilihan pengambilan terjemahan query misalnya pada sebuah query terjemahan yang diambil hanya terjemahan pertama pada setiap kata atau mungkin yang diambil semua terjemahan dari setiap kata atau mengambil terjemahan yang paling sesuai (misalnya terjemahan setelah melakukan term weighting dan lain-lain).

1.4 Metodologi penyelesaian masalah

Metodologi yang digunakan dalam pelaksanaan tugas akhir ini, yaitu:

a. Studi Literatur mengenai information retrieval dengan menggunakan model ruang vektor serta melakukan studi dari berbagai pustaka seperti text book, jurnal ilmiah, dan artikel web yang dapat menunjang tugas akhir ini.

b. Melakukan analisis yaitu analisis mengenai permasalahan yang ada pada penerjemahan query, Monolingual information retrieval system serta Cross-language information retrieval system. Dibawah ini

2

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(4)

merupakan gambaran dari Monolingual information retrieval system dan Cross-language information retrieval system.

Gambar 1- 1: Monolingual information retrieval system

Gambar 1- 2: Cross-language information retrieval system

c. Melakukan perancangan solusi berdasarkan analisis permasalahan yang sudah didapatkan seperti perancangan kelas-kelas yang terlibat dalam sistem temu balik informasi, perancangan basis data, perancangan antarmuka

d. Mengimplementasikan hasil rancangan ke dalam kode program.

e. Melakukan pengujian sistem CLIR yang menerapkan model ruang vektor

f. Penarikan kesimpulan atas pengujian yang telah dilakukan dan melakukan pembuatan laporan

3

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(5)

39

5. Kesimpulan dan Saran

5.1 Kesimpulan

Beberapa kesimpulan yang dapat diambil dari Tugas Akhir ini yaitu :

1. Model ruang vektor dapat diimplementasikan pada sistem Cross-language information retrieval.

2. Performansi dari sistem Monolingual Information Retrieval lebih baik dibandingkan dengan sistem Cross Language Information Retrieval karena selain kelengkapan kamus sangat mempengaruhi dalam proses penerjemahan query faktor penerjemahan query terkadang diterjemahkan secara tidak tepat.

3. Penerjemahan query dengan menggunakan teknik nilai kemiripan statistik menghasilkan terjemahan yang lebih baik dibandingkan dengan terjemahan dengan mengambil terjemahan pertama dan semua terjemahan

5.2 Saran

Saran-saran yang dapat penulis uraikan untuk keperluan analisis selanjutnya adalah:

1. Sebaiknya sistem dapat dilengkapi dengan query expantion dengan harapan dapat memperbaiki kinerja sistem. Dengan query expantion ini membuat query terjemahan tidak hanya bergantung pada hasil proses penerjemahan saja sehingga ketergantungan sistem kepada kelengkapan kamus berkurang.

2. Melengkapi data kamus dan mampu menangani masalah tentang Thesaurus.

3. Menjadikan sistem tidak hanya dua bahasa saja tetapi mungkin bisa dikembangkan menjadi tiga bahasa atau lebih

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(6)

40

Daftar pustaka

[1] Adriani, M. Using Statistical Term Similarity for Sense Disambiguation in Cross-Language Information Retrieval.2000.

[http://www.springerlink.com/content/t5177834422m67nx/fulltext.pdf]

Diakses tanggal 17 Februari 2008

[2] Ballesteros, L; Croft, W.B. Resolving Ambiguity for Cross-Language Retrieval.

1998.[http://ciir.cs.umass.edu/pubfiles/ir-129.pdf]

Diakses tanggal 17 Februari 2008

[3] Echols, J.M; Shadily H. 2002. Kamus Indonesia Inggris. Jakarta. PT Gramedia Pustaka Utama.

[4] Echols, J.M; Shadily H. 2000. Kamus Inggris Indonesia. Jakarta. PT Gramedia Pustaka Utama.

[5] Gao, J., Nie, J., Xun, E., Zhang, J., Zhou, M., Huang, C. Improving Query Translation for Cross-Language Information Retrieval using Statistical Model.

2001.[http://research.microsoft.com/~jfgao/paper/sigir01.pdf]

Diakses tanggal 17 Februari 2008

[6] Garcia.E.Dr.Cosine Similarity and Term Weight Tutorial.2006.

[http://www.miislita.com/information-retrieval-tutorial/cosine-similarity- tutorial.html]. Diakses tanggal 12 Maret 2008

[7] Manning, Christopher., Raghavan,Prabhakar.,Schütze,Hinrich.Introduction to Information Retrieval. Cambridge University Press. 2008.

[ http://nlp.stanford.edu/IR-book/pdf/chapter06-tfidf.pdf ] Diakses tanggal 12 Maret 2008

[8] Martynov,M.,Novikov B. An Indexing Algorithm for Text Retrieval.Russia.

[ http://meta.math.spbu.ru/publication/adbis96-P171.pdf ] Diakses tanggal 17 Februari 2008

[9] Owen, Art B. Information Retrieval and The Vector Space Model.Standford University.[http://www-stat.stanford.edu/~owen/courses/399/ir4up.pdf]

Diakses tanggal 24 Februari 2008

[10] Tala, F.Z. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. 2003.[http://www.illc.uva.nl/Publications/ResearchReports/ MoL- 2003-02.text.pdf]. Diakses tanggal 17 Februari 2008

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Gambar

Gambar 1- 1: Monolingual information retrieval system

Referensi

Dokumen terkait

Adapun permasalahan yang akan diteliti dalam tugas akhir ini adalah bagaimana mengimplementasikan berbagai tingkatan QoS dengan menggunakan arsitektur Diffserv pada jaringan

Skripsi yang berjudul: “Fungsi Badan Permusyawaratan Desa dalam Mewujudkan Aparatur Desa yang Bersih dari KKN di Desa Cukan Lipai Kecamatan Batang Alai Selatan

komputer tidak berbeda antara pria dan wanita. Implikasinya adalah seorang pengajar yang hendak memberikan materi tentang teknologi komputer maupun materi kuliah

Hasil Wawancara dengan Ibu dan Bapak Arifin Selaku Orang Tua Desa Grogolan Kecamatan Dukuhseti Kabupaten Pati, wawancara dilakukan tgl.. Peneliti dapat mengambil

detik ke-25 temperatur yang diinginkan tidak mencapai set point yang diinginkan hal ini terjadi karena Proporsional Band yang tinggi, sehingga menyebabkan bukaan valve pada air

Besarnya displacement horisontal bored pile walls untuk kedua tipe tanah yang ditinjau dengan penambahan sirtu di atas lapisan soft clay dapat dilihat pada Tabel 4.3 dan

Hubungan Tingkat Kemandirian dalam Melakukan Aktivitas Kehidupan Sehari-Hari dan Status Gizi pada Usia Lanjut di Panti Sosial Tresna Werdha Sabai Nan Aluih

Pembalakan ilegal terjadi secara luas dan sistematis dibanyak wilayah Indonesia, dan pada tahun 2000, memasuki sekitar 50 sampai 70 persen kebutuhan kayu