• Tidak ada hasil yang ditemukan

Ade Jihan Adawiyah¹, Moch. Arif Bijaksana², Yanuar Firdaus A.w.³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "Ade Jihan Adawiyah¹, Moch. Arif Bijaksana², Yanuar Firdaus A.w.³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom"

Copied!
8
0
0

Teks penuh

(1)

METEOR METRIC DENGAN STEMMING UNTUK TEKS BERBAHASA INDONESIA DALAM MENGEVALUASI HASIL TERJEMAHAN PADA MESIN TRANSLASI (STUDI KASUS: PENERJEMAHAN TEKS BAHASA INGGRIS KE

BAHASA INDONESIA)

Ade Jihan Adawiyah¹, Moch. Arif Bijaksana², Yanuar Firdaus A.w.³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Evaluasi secara otomatis untuk mengukur kualitas dari terjemahan mesin translasi dilakukan dengan menggunakan automatic metric. Metric didefinisikan sebagai measurement (ukuran).

Metric untuk evaluasi keluaran terjemahan mesin merupakan ukuran kualitas keluaran

terjemahan mesin tersebut. Oleh karena kualitas terjemahan bersifat subjektif maka tugas dari berbagai metric adalah untuk menetapkan score terhadap kualitas dalam berbagai cara sehingga score memiliki hubungan dengan human judgement. Ukuran untuk evaluasi metric adalah nilai korelasi antara score metric dan human judgement.

Pengevaluasian sistem mesin translasi menggunakan automatic metric menjadi lebih cepat, mudah dan murah dibandingkan human evaluation. Pada tugas akhir ini, pengimplementasian dilakukan dengan membuat modul stemming untuk teks berbahasa Indonesia yang

diintegrasikan pada tool METEOR metric yang akan digunakan untuk mengevaluasi hasil terjemahan mesin translasi. Kemudian melakukan analisis terhadap pengaruh jumlah referensi yang digunakan serta pengaruh stemming yang diimplementasikan terhadap score dan nilai korelasi yang dihasilkan dari pengujian. Selain itu dilakukan analisis terhadap performa METEOR metric dengan stemming Indonesia dalam mengevaluasi beberapa mesin translasi serta

membandingkan nilai korelasi antara METEOR dan BLEU metric.

Hasil pengujian menunjukan jumlah referensi yang digunakan dalam pengevaluasian dapat meningkatkan score metric dan nilai korelasi yang dihasilkan. Modul stemming Indonesia yang diimplementasikan dapat memberikan kontribusi untuk meningkatkan score metric tetapi pengaruhnya terhadap nilai korelasi tidak signifikan. Hasil komparasi dengan BLEU metric menunjukan bahwa METEOR metric mampu menghasilkan nilai korelasi yang lebih tinggi daripada BLEU metric. Sedangkan untuk evaluasi mesin translasi, Google Translator

menghasilkan nilai korelasi paling tinggi sebesar 0.736, sedangkan Transtool menghasilkan nilai korelasi dengan urutan tertinggi kedua yaitu sebesar 0.478 lebih tinggi daripada Rekso

Translator yang menghasilkan nilai korelasi sebesar 0.469.

Kata Kunci : METEOR metric, stemming, score, correlation value.

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(2)

Abstract

Automatic evaluation for measuring the quality of machine translation output is used automatic metric. A metric will be understood as a measurement. Because of the quality of translation is subjective, therefore, the task for any metric is to assign score in such a way that they correlate with human judgement. The measure of evaluation for metric score is correlation with human judgement.

Machine Translation system evaluation using automatic metric can be faster, easier and cheaper compared with human evaluation. In this final project, implementation can be conducted by making a stemming module for Indonesian text integrated in METEOR metric tool that will be used for evaluating translation result from the machine. The next part of this final project is analyzing the influence of reference number used; the influence of implemented stemming towards score and correlation value resulted from the test. In addition, analysis on METEOR metric performance is also conducted with Indonesian stemming in evaluating several translation machines and comparing the correlation value with BLEU metric.

Testing result shows that reference total number used in evaluation can increase the score metric and the resulted correlation value. Stemming module gives the contribution to increase score metric but the influence towards correlation value is not significant. Compared with BLEU metric, METEOR metric is also able to show a higher correlation value rather than BLEU metric. While for the translation machine evaluation, Google Translator has the highest correlation value with 0.736, while Transtool has the second highest correlation value with 0.478 higher than Rekso Translator with 0.469 for its correlation value.

Keywords : Keywords: METEOR metric, stemming, score, correlation value.

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(3)

1

1. Pendahuluan

1.1 Latar belakang

Evaluasi secara manual (human evaluations) pada mesin translasi (machine translation) menimbang banyak aspek pada terjemahannya, yaitu mencakup kecukupan, keakuratan, dan kelancaran (adequacy, fidelity, fluency) (Hovy, 1999; White dan O’Connell, 1994). Sebagian besar, evaluasi manual ini sangat mahal (Hovy, 1999). Di samping itu, teknik evaluasi ini memakan waktu berminggu-minggu atau berbulan-bulan untuk menyelesaikannya. Hal inilah yang menjadi masalah utama karena para pengembang sistem mesin translasi membutuhkan pemantauan dampak dari perubahan sehari-hari untuk sistem mereka dengan tujuan agar sistem menjadi lebih baik [10]. Kelemahan evaluasi manual selain memakan waktu dan biaya banyak, yaitu penilaian yang dihasilkan bersifat subjektif sehingga sulit dalam menggambarkan kesimpulan yang kuat terhadap kualitas sistem mesin translasi.

Evaluasi secara otomatis untuk mengukur kualitas dari mesin penerjemah dapat dilakukan dengan menggunakan automatic metric. Pengevaluasian sistem mesin translasi menggunakan automatic metric menjadi lebih cepat, mudah dan murah dibandingkan human evaluation. Pada penelitian tugas akhir ini, penulis akan menggunakan automatic metric yang dinamakan METEOR metric.

METEOR berdasarkan pada eksplisit word-to-word matching (matching antara kata-kata yang identik dalam dua string yang dibandingkan) antara keluaran mesin translasi yang dievaluasi dengan satu atau lebih referensi terjemahan yang dihasilkan oleh pakar bahasa. Oleh karena METEOR metric berdasarkan kecocokan antara kata-kata yang identik, maka penulis mengimplementasikan stemming untuk teks berbahasa Indonesia pada METEOR metric untuk mendapatkan kata dasar yang sesuai dengan struktur morfologi bahasa Indonesia yang baik dan benar dari kata berimbuhan yang terdapat pada kalimat-kalimat hasil terjemahan mesin translasi serta referensi, dengan menghilangkan semua imbuhan (awalan (prefixes), akhiran (suffixes) dan kombinasi awalan dan akhiran (confixes) ) yang melekat pada kata. Stemming pada tugas akhir ini menggunakan modifikasi pendekatan Nazief&Andriani algorithm.

Dengan mengimplementasikan METEOR metric dengan stemming untuk teks berbahasa Indonesia maka diharapkan akan semakin banyak kata-kata dalam hasil terjemahan mesin translasi yang cocok dengan referensi terjemahan pakar bahasa sehingga berkontribusi terhadap peningkatan nilai korelasi antara score METEOR metric dan human judgement untuk terjemahan mesin tersebut. Penulis berharap hasil penelitian tugas akhir ini dapat berkontribusi dalam penelitian, pembangunan serta pengembangan mesin translasi baik untuk para peneliti, pengembang mesin translasi maupun pelajar.

1.2 Perumusan masalah

Berdasarkan latar belakang masalah yang dikemukakan, penulis merumuskan masalah-masalah yang akan diselesaikan dalam penelitian tugas akhir ini adalah sebagai berikut:

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(4)

2 1. Bagaimana mengimplementasikan METEOR metric dengan stemming untuk

teks berbahasa Indonesia dalam mengevaluasi kualitas terjemahan dari mesin translasi.

2. Bagaimana mengukur dan menganalisa performa dari METEOR metric dengan stemming untuk teks berbahasa Indonesia yang telah diimplementasikan tersebut.

3. Bagaimana menganalisis pengaruh jumlah referensi terjemahan pakar yang digunakan dalam pengevaluasian terjemahan mesin translasi.

4. Bagaimana signifikansi proses stemming yang telah diimplementasikan terhadap proses evaluasi hasil terjemahan pada mesin translasi.

5. Bagaimana membandingkan kualitas evaluasi terjemahan antara METEOR dan BLEU metric.

Batasan masalah pada tugas akhir ini yaitu:

1. Dataset yang akan digunakan berupa corpus dengan format bahasa Inggris bergenre novel. Sumber dataset adalah buku Da Vinci Code versi Bahasa Inggris.

2. Format dataset yang digunakan untuk proses implementasi tugas akhir ini adalah .txt yang kemudian dikonversi menjadi format .sgm

3. Sistem mesin translasi yang digunakan maksimal tiga macam.

4. Untuk membandingkan METEOR dengan BLEU metric menggunakan tool BLEU metric yang sudah ada.

5. Program stemming tidak menangani pemangkasan imbuhan berupa sisipan dan perulangan kata dengan pertimbangan jarang ditemukan.

1.3 Tujuan

Berdasarkan rumusan masalah diatas, maka tujuan dari tugas akhir ini adalah :

1. Mengimplementasikan stemming untuk teks berbahasa Indonesia sebagai fungsionalitas tambahan yang diintegrasikan pada tool METEOR metric yang sudah ada untuk mengevaluasi kualitas hasil terjemahan pada mesin translasi.

2. Menganalisa dan mengevaluasi performa dari METEOR metric dengan stemming untuk teks berbahasa Indonesia tersebut.

3. Melakukan analisis terhadap pengaruh jumlah referensi terjemahan pakar yang digunakan dalam penelitian.

4. Melakukan analisis signifikansi proses stemming pada METEOR metric yang akan dibandingkan dengan METEOR metric tanpa modul stemming.

5. Mengevaluasi perbandingan antara METEOR dan BLEU metric.

1.4 Metodologi penyelesaian masalah

Metodologi yang digunakan untuk menyelesaikan masalah dalam Tugas Akhir ini adalah :

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(5)

3 1. Studi literatur.

Mencari, mengumpulkan informasi, memahami dan mempelajari konsep metode METEOR dan BLEU metric serta metodologi evaluasinya melalui literatur berupa makalah, buku, atau jurnal yang berhubungan.

2. Pencarian dan pengumpulan data.

Melakukan pencarian dan pengumpulan data-data yang diperlukan untuk mendukung penyelesaian masalah, diantaranya berupa corpus dengan format bahasa Inggris bergenre novel. Sumber dataset adalah buku Da Vinci Code versi Bahasa Inggris yang akan diterjemahkan oleh mesin translasi dan pakar bahasa.

3. Analisis kebutuhan dan perancangan aplikasi yang akan dibangun.

Tahapan ini dilakukan dengan menganalisa kebutuhan perangkat lunak dan merancang perangkat lunak untuk evaluasi kualitas terjemahan dengan METEOR metric.

4. Implementasi dan Pengujian

Mengimplementasikan perangkat lunak sesuai dengan perancangan yang telah dilakukan serta melakukan pengujian dan pengukuran performansi berupa score dan mengevaluasinya dengan nilai korelasi.

5. Analisa hasil pengujian dan penarikan kesimpulan.

Perangkat lunak yang dihasilkan dievaluasi berdasarkan data yang diperoleh dari hasil pengujian.

6. Penyusunan laporan tugas akhir.

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(6)

39

5. Kesimpulan Dan Saran

5.1 Kesimpulan

Kesimpulan yang dapat diambil dari penelitian tugas akhir ini yaitu:

1. Proses stemming pada teks Indonesia dapat memberikan kontribusi untuk meningkatkan score metric tetapi pengaruhnya terhadap nilai korelasi tidak signifikan.

2. Dengan menggunakan multi referensi dalam pengevaluasian terjemahan dapat meningkatkan score serta nilai korelasi kecocokan. Konsekuensi dari penggunaan banyak referensi adalah memerlukan waktu proses yang lama.

3. Nilai korelasi dari METEOR metric lebih besar daripada BLEU metric hal ini menunjukan kelemahan dari BLEU metric yang fokus pada penggunaan precison serta perhitungan N-gram pada BLEU tidak mensyaratkan pencocokan explicit word-to-word matching seperti konsep pada METEOR.

4. METEOR yang terdiri dari kombinasi metric yang sederhana ternyata mampu menunjukan kehandalannya untuk dapat mengevaluasi kualitas terjemahan mesin translasi. Serta hasil perhitungan yang diperoleh sesuai dengan konsep formula METEOR metric dan komponen-komponennya.

5.2 Saran

Saran terhadap pengembangan yang dapat dilakukan terhadap TA ini adalah : 1. Mencoba dengan menggunakan synthetic reference

2. Mencoba penelitian dengan membuat sebuah modul matching untuk kata-kata yang sinonim.

3. Mencoba percobaan dengan bahasa sumber dan terjemahan yang berbeda.

4. Pegujian dengan datasets berkategori teknik

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(7)

40

Daftar Pustaka

[1] Alexander, Hendry ,2008, Analisis dan Implementasi Aturan Koreksi Level Frasa pada Mesin Translasi Berbasis Statistik (Studi Kasus:

Penerjemahan Text Bahasa Inggris ke Text Bahasa Indonesia), Bandung:

IT Telkom.

[2] Alon Lavie, Kenji Sagae and Shyamsundar Jayaraman. 2004. The Significance of Recall in Automatic Metrics for MT Evaluation. In Proceedings of AMTA-2004, Washington DC.September 2004.

[3] Alon Lavie and Abhaya Agarwal. 2007. METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments. In Proceedings of the Second ACL Workshop on Statistical Machine Translation, pages 228–231, Prague, Czech Republic, June.

[4] Alon Lavie and Abhaya Agarwal. 2008. Meteor, m-bleu and m-ter:

Evaluation Metrics for High-Correlation with Human Rankings of Machine Translation Output. Language Technologies Institute Carnegie Mellon University Pittsburgh, PA, 15213, USA.

[5] Amelia, Yosi ,2009, Stemming Untuk Teks Berbahasa Indonesia dan Pengaruhnya Dalam Kategorisasi, Bandung: IT Telkom.

[6] Asian, Jelita. (2005). Stemming Indonesian. (Online).

Available: http://crpit.com/confpapers/CRPITV38Asian.pdf

[21 April 2008]

[7] C. van Rijsbergen. 1979. Information Retrieval. Butterworths.London, England. 2nd Edition.

[8] George Doddington. 2002. Automatic Evaluation of Machine Translation Quality using N-gram Cooccurrence Statistics. In Proceedings of 2nd Human Language Technologies Conference (HLT-02). San Diego, CA.

pp. 128-132.

[9] Joseph P. Turian, Luke Shen and I. Dan Melamed.2003. Evaluation of Machine Translation and its Evaluation. In Proceedings of MT Summit IX, New Orleans, LA. Sept. 2003. pp. 386-393.

[10] Kishore Papineni, Salim Roukos, Todd Ward and Wei-Jing Zhu. 2002.

BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL-02). Philadelphia, PA. July 2002. pp.

311-318.

[11] Nazief, B. A. A. and Adriani, M. (1996) Confix-stripping: Approach to stemming algorithm For Bahasa Indonesia. Internal publication, Faculty of Computer Science, University of Indonesia,Depok, Jakarta.

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(8)

41 [12] Satanjeev Banerjee and Alon Lavie.2005. METEOR: An Automatic

Metric for MT Evaluation with Improved Correlation with Human Judgments.In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pages 65–72, Ann Arbor, June 2005.

[13] Wikipedia: Pedoman Ejaan dan Penulisan Kata.

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Referensi

Dokumen terkait

Karakteristik tujuan anggaran (partisipasi, kejelasan, evaluasi, umpan balik dan kesulitan) secara bersama-sama berpengaruh lemah terhadap sikap aparat dalam menilai kinerja pemda

Adapun permasalahan yang akan diteliti dalam tugas akhir ini adalah bagaimana mengimplementasikan berbagai tingkatan QoS dengan menggunakan arsitektur Diffserv pada jaringan

Apabila sistem yang digunakan untuk memprediksikan nilai tenaga listrik yang perlu dibangkitkan oleh P.T PLN belum disediakan maka applikasi yang akan dibangun oleh penulis

Sehingga apabila user mengajukan query dalam bahasa indonesia maka diharapkan sistem temu balik informasi lintas bahasa tersebut dapat mengambil atau menampilkan dokumen yang

PREDIKSI PRODUK E-AUCTION YANG AKAN MENGUNTUNGKAN MELALUI KLASIFIKASI MENGGUNAKAN DECISION TREE (STUDI KASUS : DATA MINING.. CUP 2006) PREDICTION OF PROFITABLE E-AUCTION’S PRODUCT

Pembalakan ilegal terjadi secara luas dan sistematis dibanyak wilayah Indonesia, dan pada tahun 2000, memasuki sekitar 50 sampai 70 persen kebutuhan kayu

Dalam rangka meningkatkan kualitas hidup dan kehidupan masyarakat, pemerintah daerah berupaya untuk meningkatkan kualitas penduduk, perlindungan dan kesejahteraan

Hasil uji parsial (Uji t) penelitian ini menunjukan bahwa semua variabel bebas (job embeddedness dan kepuasan kerja) secara parsial berpengaruh negatif dan