ANALISIS DAN IMPLEMENTASI METODA BLEU (BILINGUAL EVALUATION UNDERSTUDY) DALAM MENGEVALUASI HASIL TERJEMAHAN MACHINE TRANSLATION STUDI KASUS : TERJEMAHAN DARI BAHASA INGGRIS KE
BAHASA INDONESIA
Marissa Nur Eskanaluwa¹, M. Ramdhani², M. Arif Bijaksana Ech³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Mengevaluasi terjemahan merupakan permasalahan yang penting dalam perkembangan sistem mesin penterjemah atau Machine Translation. Evaluasi ini merupakan suatu proses yang bertujuan untuk menilai suatu sistem mesin penterjemah yang dilihat dari hasil atau keluaran suatu sistem mesin penterjemah teks tersebut.
Pada Tugas Akhir ini diimplementasikan metoda BLEU (BiLingual Evaluation Understudy) yang merupakan metoda untuk mengevaluasi sistem mesin penterjemah (MT) yang berbasis presisi yang dimodifikasi (modified n-gram(s) precision). Ide dari metoda BLEU ini adalah untuk membandingkan n-gram(s) terjemahan keluaran dari suatu MT (kandidat) dengan n-gram(s) terjemahan lain yang dibuat oleh manusia dan menghitung jumlah n-gram(s) yang cocok. Makin banyak yang cocok, maka terjemahan kandidat semakin bagus dan score yang dihasilkan dari evaluasi dengan metoda BLEU ini semakin tinggi. Selain itu, diterapkan juga pengembangan metoda BLEU ini dengan konsep Information Extraction yaitu dengan dengan teknik pembobotan. Pengujian dilakukan dengan melihat korelasi atau keterhubungan score yang dihasilkan dengan penilaian manusia (human judgement). Hasil pengujian menunjukkan bahwa perhitungan score BLEU dengan pembobotan memiliki korelasi yang lebih besar dengan penilaian manusia daripada metoda BLEU dasar.
Kata Kunci : evaluasi, metoda BLEU, kecocokan n-gram(s), modified n-gram precision, pembobotan, korelasi
Abstract
Evaluation of machine translation is an important problem in machine translation development. Evaluation is a process that purpose to assess a machine translation based on its output.
This final assignment implements BLEU (BiLingual Evaluation Understudy) method for evaluating machine translation (MT) system that based on modified n-gram precision computation. The basic idea in calculation of this metric is to compare gram(s) of the candidate with the n-gram(s) of the reference translation and count the number of matches. The more matches, the better candidate translation is. Moreover, this final assignmet also implements the modification of BLEU method with Information Extraction concept that used weighting model.
Evaluating is done by looking up the correlation or the association of score that produce by human (human judgement). The result of this experiment shows that the computation of BLEU weighting method has more correlation with human judgement rather than the baseline of BLEU. Keywords : evaluation, BLEU method, N-gram(s) Co-occurance, modified n-gram(s) precision, weighting, correlation
Powered by TCPDF (www.tcpdf.org)
1
1. PENDAHULUAN
1.1
Latar Belakang
Perbaikan di setiap pengembangan sebuah sistem mesin penterjemah harus diperhatikan dengan menginteraksikan usaha pengembangan sebelumnya untuk mengubah aturan yang digunakan. Dahulu, evaluasi yang dilakukan oleh manusia (human evaluation) telah menjadi satu-satunya teknik yang menyediakan timbal balik kebutuhan agar pengembang tetap melangkah ke depan [9].
Menurut Hovy, 1999; White dan O’Connell, 1994, evaluasi oleh manusia pada mesin penterjemah teks (Machine Translation) menimbang banyak aspek pada terjemahannya, yaitu mencakup kecukupan, keakuratan, dan kelancaran (adequacy, fidelity, fluency)[10]. Sebagian besar, evaluasi ini sangat mahal (Hovy, 1999) dan memakan waktu berminggu-minggu atau berbulan-bulan untuk menyelesaikannya. Hal inilah yang menjadi masalah utama karena para pengembang sistem mesin penterjemah teks membutuhkan pemantauan dari perubahan sehari-hari untuk sistem mereka dengan tujuan agar sistem menjadi lebih baik [10]. Selain itu, evaluasi oleh manusia mempunyai kelemahan, yaitu penilaian (evaluasi) yang dihasilkan bersifat subjektif, sehingga memakan waktu dan biaya banyak dan menyulitkan dalam menggambarkan kesimpulan yang kuat terhadap kualitas sistem [9].
BLEU (Bilingual Evaluation Understudy) merupakan metrik evaluasi otomatis di mana cara kerja metoda ini adalah untuk membandingkan hasil keluaran sebuah sistem mesin penterjemah teks (kandidat) dengan terjemahan yang diperoleh dari manusia (referensi). BLEU mencoba untuk menangkap perbedaan yang diperbolehkan dalam pemilihan kata melalui penggunaan terhadap multiple terjemahan referensi (Thompson, 1991). Dengan tujuan untuk mengatasi masalah terhadap perbedaan dalam urutan frase, BLEU menggunakan
modified n-gram(s) precision. N-gram(s) precision BLEU dimodifikasi untuk
mengeliminasi pengulangan-pengulangan yang terjadi pada kalimat [3]. Ide utama dari BLEU adalah untuk membandingkan n-gram(s) pada terjemahan kandidat dengan n-gram(s) pada terjemahan referensi dan menghitung jumlah yang sama. Makin banyak yang sama, maka terjemahan kandidat semakin bagus dan score yang dihasilkan dari evaluasi dengan metoda BLEU ini semakin tinggi [2].
Studi kasus yang diambil pada Tugas Akhir ini adalah terjemahan dari bahasa Inggris (sebagai bahasa asal) ke bahasa Indonesia (sebagai bahasa target) dengan genre dokumen yang diteliti adalah dokumen novel. Alasan mengambil studi kasus tersebut adalah karena sudah banyak dokumen novel yang tersedia dan dipasarkan baik dalam bahasa Inggris maupun bahasa Indonesia, sehingga dokumen novel mudah dicari. Selain itu, bahasa yang digunakan novel adalah bahasa sehari-hari, menggunakan tata bahasa dan kosakata yang umum, sehingga mudah dicerna oleh setiap manusia yang membacanya.
2
1.2
Perumusan Masalah
Perumusan masalah dari Tugas Akhir ini berdasarkan latar belakang masalah yang dipaparkan diatas adalah :
1. Bagaimana mengevaluasi hasil terjemahan dari sistem mesin penterjemah teks menggunakan metoda BLEU
2. Apakah modifikasi atau penambahan pada metoda BLEU akan menghasilkan metoda yang lebih baik dalam mengevaluasi hasil terjemahan mesin penterjemah, dilihat dari korelasinya terhadap penilaian manusia Batasan masalah untuk penelitian Tugas Akhir ini adalah :
1. Sistem penterjemah (MT) yang digunakan maksimal dua macam
2. Dataset yang akan digunakan adalah dokumen teks bergenre novel. Sumber dataset adalah buku Da Vinci Code
3. Reference translate yang digunakan sebanyak empat references
4. Keluaran MT (kandidat) dan terjemahan buatan manusia (referensi) merupakan masukan untuk evaluasi menggunakan metoda BLEU ini
5. Keluaran yang dihasilkan dengan metoda BLEU berupa score
6. Perhitungan korelasi menggunakan metrik Pearson’s Correlation
Coefficient
7. Human judgement yang digunakan sebanyak tiga orang
1.3
Tujuan
Tujuan dari dilakukannya penelitian ini adalah :
1. Mengimplementasikan metoda BLEU untuk mengevaluasi keluaran terjemahan MT
2. Mengimplementasikan modifikasi atau penambahan pada metoda BLEU untuk mengevaluasi keluaran terjemahan MT
3. Manganalisis pengaruh modifikasi atau penambahan pada metoda BLEU dalam mengevaluasi hasil terjemahan MT
4. Menganalisis apakah modifikasi atau penambahan metoda BLEU ini lebih baik bila dibandingkan dengan metoda BLEU asli dilihat dari tingkat korelasinya dengan human judgement
1.4
Metodologi Penyelesaian Masalah
Metodologi yang dilakukan untuk menyelesaikan permasalahan adalah sebagai berikut:
1. Studi literatur
Melakukan pencarian informasi dan pembelajaran khususnya mengenai konsep dan cara kerja BLEU dalam mengevaluasi keluaran MT.
2. Pengumpulan data-data
Melakukan pencarian data yang akan digunakan untuk penelitian Tugas Akhir ini. Data yang dicari adalah data novel yang digunakan dalam
3
terjemahan bahasa Inggris dan bahasa Indonesia. Terjemahan novel bahasa Inggris ini kemudian digunakan untuk mencari data terjemahan kandidat dan referensi, sedangkan novel terjemahan bahasa Indonesia akan digunakan sebagai salah satu referensi. Selain itu, dilakukan pengumpulan data human judgement.
3. Analisis modifikasi BLEU
Melakukan analisis kemungkinan modifikasi atau penambahan terhadap metoda BLEU yang akan diimplementasikan.
4. Analisis dan perancangan sistem
Melakukan analisa dan perancangan perangkat lunak dari metoda BLEU dan penambahan yang mungkin dilakukan.
5. Implementasi sistem
Melakukan implementasi sistem sesuai dengan hasil analisa dan perancangan dari metoda BLEU dan penambahannya.
6. Pengujian sistem
Melakukan pengujian sistem dan menganalisa hasil keluaran sistem yang berupa score, sejauh mana score dapat menggambarkan kualitas hasil terjemahan MT dengan mengevaluasinya dengan melihat korelasinya dengan human judgement.
7. Pembuatan laporan tugas akhir
Melakukan penyusunan laporan hasil penelitian yang telah dilakukan serta memberikan kesimpulan dari hasil penelitian tersebut.
Powered by TCPDF (www.tcpdf.org)
38
5. Kesimpulan dan Saran
5.1
Kesimpulan
Berdasarkan pengujian dan analisis yang telah dibahas dan dilaksanakan pada bab 4, maka dapat disimpulkan beberapa hal sebagai berikut:
1. Perhitungan score BLEU menggunakan pembobotan dapat memberikan kontribusi untuk meningkatkan score metrik, karena dengan menggunakan pembobotan, semua informasi penting (n-gram(s)) akan memiliki nilai bobot yang tinggi (lebih dari 1).
2. Hasil dari modifikasi S-score menunjukkan bahwa pembobotan dengan nilai bobot terbesar (max) dapat meningkatkan score. Hal ini dikarenakan
S-max mempertimbangkan semua n-gram(s) dengan bobot yang memiliki
bobot tinggi di semua referensi.
3. Dari perhitungan korelasi denga Pearson’s, S-max memiliki korelasi yang lebih tinggi dengan penilaian manusia dibandingkan dengan S-score dan BLEU.
5.2
Saran
Berikut ini saran-saran yang perlu dipertimbangkan untuk pengembangan lebih lanjut:
1. Data uji (baik kandidat maupun referensi) agar diperbanyak jumlahnya. 2. Metode ini dicoba pada data uji dari genre yang berbeda, misalnya yang
ber-genre bahasa bidang keilmuan (teknik).
3. Penambahan lain untuk perhitungan score dengan metoda BLEU sebagai pengembangan
Powered by TCPDF (www.tcpdf.org)
39
Daftar Pustaka
[1] ___. Bleu score. http://en.wikipedia.org/wiki/bleu-score.htm, didownload pada tanggal 19 Juni 2009.
[2] ___. Evaluation of Machine Translation. http://en.wikipedia.org/wiki/evaluation-of-machine-translation.htm, didownload
pada tanggal 19 Juni 2009.
[3] Bogdan, Babych dan Anthony Hartley. 2004. Extending BLEU MT Evaluation
Method with Frequency Weighting. Centre for Translation Studies University of
Leeds.
[4] Bogdan, Babych. Weighted N-gram model for evaluating Machine Translation output. Centre for Translation Studies University of Leeds, UK Department of
Computer Science University of Sheffield, UK.
[5] Callison, Chris, dkk. Re-evaluating the Role of BLEU in Machine Translation Research. School on Informatics University of Edinburgh.
[6] Coughlin, Deborah. Correlating Automated and Human Assessments of
Machine Translation Quality. Microsoft Research Redmond Washington, USA.
[7] Denoual, Etienne dan Yves Lepage. BLEU in characters: towards automatic
MT evaluation in languages without word delimiter. ATR – Spoken language
communication research labs
[8] Lavie, Alon dkk. The Significance of Recall in Automatic Metrics for MT
Evaluation. Language Technologies Institute.
[9] Lin, Chin-Yew dan Franz Josef Och. Automatic Evaluation of Machine
Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. University of Southern California.
[10] Papineni, Kishore, dkk. 2002. BLEU: a Method for Automatic Evaluation of
Machine Translation. IBM T. J. Watson Research Center.
[11] Prihatini, Ekawati. 2008. Analisis Fenomena Ambiguitas pada Mesin Translasi Berbasis Statistik (Sudi Kasus Bahasa Inggris ke Bahasa Indonesia. Bandung:
Institut Teknologi Bandung.
Dalam Tugas Akhir ini, Penulis bekerja sama dengan beberapa pihak, yaitu : ¾ Terjemahan referensi dikerjakan oleh:
1. Della Arundina, Fakultas Informatika Institut Teknologi Telkom sebagai Reff1
2. HIKARI LANGUAGE CENTER, Jl. Bojongsoang No. Telp. 138 022-76451905 sebagai Reff2
3. Melanie Fransiska, Fakultas Informatika Institut Teknologi Telkom sebagai Reff3
4. Novel Da Vinci Code terjemahan bahasa Indonesia sebagai Reff4 ¾ Human judgement dikerjakan oleh :
1. Eri Subekti, Jurusan Sastra Inggris Universitas Padjadjaran sebagai HJ1 2. Tika Meiriska, Jurusan Sastra Inggris Universitas Padjadjaran sebagai HJ2 3. Farhana Azizah Anhariyah, Jurusan Sastra Inggris Universitas Padjadjaran
sebagai HJ3
Powered by TCPDF (www.tcpdf.org)