• Tidak ada hasil yang ditemukan

Ibnu Hadi. Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura

N/A
N/A
Protected

Academic year: 2021

Membagikan "Ibnu Hadi. Program Studi Teknik Informatika Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura"

Copied!
6
0
0

Teks penuh

(1)

UJI AKURASI MESIN PENERJEMAH STATISTIK (MPS) BAHASA INDONESIA KE BAHASA MELAYU SAMBAS DAN MESIN PENERJEMAH STATISTIK (MPS)

BAHASA MELAYU SAMBAS KE BAHASA INDONESIA

Ibnu Hadi

Program Studi Teknik Informatika

Jurusan Teknik Elektro Fakultas Teknik Universitas Tanjungpura

D03108037@students.ftuntan.ac.id

Abstract - Language is an important means of

communication for humans, because language make we can find out the information that we need, at other side we can convey our ideas. With the rapidly development of technology in all sectors, nowdays the machine translation has been developed to overcome language translation problems. Statistical machine translation is an approach to machine translation with translation results generated on the basis of statistical models where parameters are taken from the results of the analysis of bilingual text corpus (parallel corpus). Parallel corpus is a pair of corpus that contain sentences in a language and the translation. The goal of this research is to develop and implement of statistical machine translation for translation from Indonesian into Sambas Malay and translation from Sambas Malay into Indonesian, and conduct testing to obtain the value of accuracy and quality of statistical machine translation, and also to conduct testing to obtain the value of accuracy and quality of statistical machine translation. In this study are conducted two tests, the first conducted tests on statistical machine translation of Indonesian into Sambas Malay translation and second test on statistical machine translation of Sambas Malay into Indonesian translation. On test 1 (Statistical Machine Translation of Indonesian to Sambas Malay) generate the value of BLEU score of 0.5555 or 55% while on Test 2 (Statistical Machine Translation of Sambas Malay to Indonesian) produces BLEU score of 0.4950 or 49%.

Keywords : machine translation, statistical machine

translation, corpus, parallel corpus, BLEU score. 1. Pendahuluan

Bahasa merupakan alat komunikasi yang penting bagi manusia, karena dengan bahasa kita dapat mengetahui informasi yang kita butuhkan, selain itu kita dapat menyampaikan ide dan gagasan kita melalui bahasa. Fungsi bahasa bagi manusia selain sebagai media untuk mengekspresikan diri, perasaan, pikiran, keinginan serta kebutuhannya, baik sebagai makhluk pribadi maupun sosial, serta sebagai alat integrasi dan adaptasi sosial antar manusia dalam mengembangkan peradabannya.

Indonesia memiliki keragaman bahasa dan budaya yang luar biasa. Badan Pengembangan dan Pembinaan Bahasa serta Kementerian Pendidikan dan Kebudayaan (Kemendikbud) mencatat sedikitnya ada 442 bahasa yang dimiliki Indonesia yang terungkap dalam Kongres Bahasa ke-9 yang digelar 2008 silam. Pada 2012, penelitian berlanjut dengan mengambil sampel di 70 lokasi di wilayah Maluku dan Papua. Hasil dari penelitian itu, jumlah bahasa dan sub bahasa di seluruh Indonesia mencapai 546 bahasa dan kemungkinan jumlahnya akan terus bertambah karena penelitian yang dilakukan belum selesai (Akunto, 2012) [1].

Dengan pesatnya perkembangan teknologi disegala bidang, saat ini sedang dikembangkan mesin penerjemah untuk mengatasi masalah penerjemahan bahasa. Mesin penerjemah merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Akan tetapi, kualitas dari hasil terjemahan tersebut masih mengandung keterbatasan, belum memberikan hasil terjemahan yang akurat dan terkadang menyebabkan hilangnya arti dan maksud yang terkandung dalam suatu kalimat.

Mesin penerjemah statistik merupakan sebuah pendekatan mesin penerjemah dengan hasil terjemahan dihasilkan atas dasar model statistik yang parameter-parameternya diambil dari hasil analisis korpus teks bilingual (korpus paralel). Korpus paralel adalah pasangan korpus yang berisi kalimat-kalimat dalam suatu bahasa dan terjemahannya. Korpus berisi teks paralel yang merupakan hasil text mining yang memperoleh pola berupa pasangan teks dari suatu bahasa ke bahasa lain. Penerjemahan dengan metode mesin penerjemah statistik

(2)

menghasilkan terjemahan yang lebih baik dibandingkan dengan hanya terjemahan kata demi kata, dengan syarat kualitas korpus paralel yang dimasukkan ke dalam sistem mempunyai kualitas baik dan cukup banyak jumlahnya (Ginting dan AZ, 2011) [2].

Berdasarkan masalah di atas, penulis melakukan penelitian untuk membangun dan mengimplementasikan mesin penerjemah statistik Bahasa Indonesia – Bahasa Melayu Sambas. Selanjutnya penulis melakukan pengujian untuk mengetahui nilai akurasi dan kualitas terjemahan pada mesin penerjemah statistik Bahasa Indonesia – Bahasa Melayu Sambas. Pada penelitian ini penulis menggunakan korpus teks paralel Bahasa Indonesia dan Bahasa Melayu Sambas.

2. Landasan Teori

2.1 Definisi Penerjemahan

Dalam Kamus Besar Bahasa Indonesia (KBBI) kata “terjemah/ menerjemahakan” merupakan menyalin (memindahakan) suatu bahasa ke bahasa lain atau mengalihbahasakan. Selain itu, Hoed dalam Amalia (2007:1) [3] mengemukakan bahwa “penerjemahan adalah kegiatan mengalihkan secara tertulis pesan dari teks suatu bahasa (misalnya bahasa Inggris) ke dalam teks bahasa lain (misalnya bahasa Indonesia)”. Catford menyatakan (1965:20) [4] bahwa “the replacement of textual material in

one language (SL) by equivalent textual material in another language (TL).” yang

diartikan sebagai pergantian materi tekstual dari suatu bahasa sumber (BSu) secara sepadan ke dalam bahasa target (BT). Yang dimaksud dengan source language (bahasa sumber) dan

receptor language (bahasa target) adalah; source language adalah bahasa yang akan

diterjemahkan, sedangkan yang dimaksud dengan receptor language adalah bahasa hasil terjemahan. Berdasarkan pengertian tersebut, penulis akan memfokuskan pada analisis teks bahasa Melayu Sambas sebagai bahasa sumber dan bahasa Indonesia sebagai bahasa target dan sebaliknya.

2.2 Mesin Penerjemah (Machine Translation)

Mesin penerjemah (machine translation) merupakan alat penerjemah otomatis pada sebuah teks dari satu bahasa ke bahasa lainnya. Ada beberapa pendekatan untuk machine

translation seperti pendekatan dengan

menggunakan aturan rule-based machine translation), pendekatan dengan menggunakan

contoh (example-based machine translation), dan pendekatan dengan menggunakan model statistik (statistical machine translation). Dalam mesin penerjemah statistik, terdapat 3 komponen yang terlibat dalam proses penerjemahan dari satu bahasa ke bahasa lain yaitu : language model, translation model, dan

decoder (Manning dan Schutze, 2000:486) [5].

Gambar 1. Komponen Mesin Penerjemah Statistik

2.3 Automatic Evaluation

Sitem evaluasi otomatis yang populer saat ini adalah BLEU (Bilingual Evaluation Understudy). BLEU adalah sebuah algoritma

yang berfungsi untuk mengevaluasi kualitas dari sebuah hasil terjemahan yang telah diterjemahkan oleh mesin dari satu bahasa alami ke bahasa lain. BLEU mengukur modified

n-gram precission score antara hasil terjemahan

otomatis dengan tejemahan rujukan dan menggunakan konstanta yang dinamakan

brevity penalty. Rumus BLEU sebagai berikut

(Tanuwijaya, 2009) [6] : 𝐵𝑃𝐵𝐿𝐸𝑈= 𝑒(1−𝑟/𝑐)1 𝑖𝑓 𝑐 ≤ 𝑟𝑖𝑓 𝑐 > 𝑟 𝑃𝑛 = 𝐶𝜖 𝑐𝑜𝑟𝑝𝑢𝑠 𝑛 −𝑔𝑟𝑎𝑚𝜖𝐶 𝑐𝑜𝑢𝑛𝑡𝑐𝑙𝑖𝑝 (𝑛 −𝑔𝑟𝑎𝑚 ) 𝐶𝜖 𝑐𝑜𝑟𝑝𝑢𝑠 𝑛 −𝑔𝑟𝑎𝑚𝜖𝐶 𝑐𝑜𝑢𝑛𝑡 (𝑛 −𝑔𝑟𝑎𝑚 ) BLEU = 𝐵𝑃𝐵𝐿𝐸𝑈. 𝑒 𝑤𝑛 𝑁 𝑛 −1 log 𝑝𝑛 Keterangan : BP = brevity penalty

c = jumlah kata dari hasil terjemahan otomatis

r = jumlah kata rujukan

Language model P(T) 𝑃 𝑆 𝑇 Translation model Decoder T=argmax , P(T|S) T S T’

(3)

𝑃𝑛= modified precission score

𝑤𝑛 = 1/N (standar nilai N untuk BLEU adalah 4)

𝑝𝑛 = jumlah n-gram hasil terjemahan yang sesuai dengan rujukan dibagi jumlah n-gram hasil terjemahan.

3. Arsitektur Sistem

Korpus Paralel

Korpus Bahasa Melayu Sambas

Korpus Bahasa Indonesia dan

Melayu Sambas

Pemodelan

Masukan : Kalimat

Sumber Bahasa Indonesia Decoding Oleh Moses

Keluaran : Kalimat

terjemahan Bahasa Melayu Sambas

Evaluasi Hasil Terjemahan Skor BLEU

Skor Manual Pemodelan Bahasa Oleh

SRLIM

Pemodelan Translasi Oleh Giza++ Tabel Model

Bahasa

Vocabulary, tabel model

translasi, dan word

alignment

Gambar 2. Arsitektur Sistem mesin penerjemah statistik dari Bahasa Indonesia ke Bahasa

Melayu Sambas.

Korpus Paralel

Korpus Bahasa Indonesia

Korpus Bahasa Indonesia dan

Melayu Sambas

Pemodelan

Masukan : Kalimat

Sumber Bahasa Melayu Sambas

Decoding Oleh Moses

Keluaran : Kalimat

terjemahan Bahasa Indonesia

Evaluasi Hasil Terjemahan Skor BLEU

Skor Manual Pemodelan Bahasa Oleh

SRLIM

Pemodelan Translasi Oleh Giza++ Tabel Model

Bahasa

Vocabulary, tabel model

translasi, dan word

alignment

Gambar 3. Arsitektur Sistem mesin penerjemah statistik dari Bahasa Melayu Sambas ke Bahasa

Indonesia.

3.1 Korpus Teks Paralel

Pada penelitian ini, terdapat dua buah korpus paralel yang digunakan yaitu korpus paralel Bahasa Melayu Sambas dan korpus paralel Bahasa Indonesia yang berupa cerita rakyat daerah Kabupaten Sambas.

Gambar 4. Contoh Korpus Paralel Korpus paralel 1 Korpus paralel 2

ini sebuah cerita orang kita di Hulu Tempapan

sejarah orang Hulu Tempapan dulu , ada dua buah rumah

tetapi kakek raksasa itu tidak mengabulkan permintaan sannong tetapi sannong hendak atau ingin memiliki ketiga permata itu suatu hari sannong mencurinya

ito' kesah urang kitte di Ulu Tempapan

sejarah urang ulu tempapan dolo' , ade dua' buah rumah

tapi nek gargasi daan ngabolkan permintaan sannong

tapi sannong tatap nak memilikinye ketige batu permate iye

suatu hari sannong nyurinye

(4)

4. Hasil Pengujian 4.1 Pengujian 1

Pengujian 1 adalah pengujian terhadap terjemahan dari bahasa Indonesia ke bahasa Melayu Sambas.

Tabel 1. Kalimat Bahasa Sumber pada Pengujian 1

No Kalimat Sumber Bahasa Indonesia

1 banyak benar lada si bujang ya tadi pagi dia jual lada dua karung lagi ke pasar

2 iya banyak benar ladanya naik daun dia tahun ini pasti banyak uangnya

3 beruntunglah siapa yang mendapatkannya

4 kamu saja jannah pacaran sama dia tetapi dia tidak suka sama mulut ember

5 karena dia itu tulang besi kerja pun cepat lihat saja banyak kebunnya

6 iya dia tidak seperti kamu tulang semut baru kerja sedikit sudah sakit-sakitan

7 abang memang tebal muka bu tidak dia liat kawannya semua banyak kebun

8 terserah dia saja jannah biar nanti lama baru kawin dia itu sudah kamu simpankah ikan takut nanti dimakan kucing

9 sudah bu mungkin hanya kucing kepala hitam yang akan menghabiskannya

10 begitulah akhir hidup tan unggal mati lemas di dalam peti pada tahun 1345

Tabel 2 Kalimat Hasil Pengujian 1

No Kalimat Bahasa Target Hasil Terjemahan

(Bahasa Melayu Sambas)

1 banyak inyan lada si bujang i tade' pagi die jual lada dua' karung age' ke pasar

2 ao' banyak inyan ladanya naik dawon die taon to' pasti banyak uangnya

3 beruntunglah sape nang mendapatkannya 4 kau aja' jannah pacaran same die pokoknye die

nda'an suke same mulut ember

5 barang die tulang basi kerajje pun cappat liat aja' banyak kebunnya

6 ao' die daan macam kau tulang semut baru kerajje tinggali dah sakit-sakitan

7 abang ja' tebal muka ma' nda' die liat kawannya semua banyak kabon

8 terserah die aja' jannah biar kala' lama' baru tibe-tibe die dah kau simpankah ikan takut kala' dimakan kucing

9 udahan ma' mungkin ja' kucing kepala hitam yang na' menghabiskannya

10 maklumlah akhir idup tan unggal mati lemas di dalam peti pade taon 1345

Tabel 3. Kalimat Referensi pada Pengujian 1

No Kalimat Referensi Bahasa Melayu Sambas

1 banyak inyan lade si bujang i tade' pagi die jual lade dua' karung age' ke pasar

2 ao' banyak inyan ladenye naik dawon die taon to' pasti banyak duitnye

3 beruntonglah sape yang dapatkannye

4 kau aja' jannah becinte dangan die tapi die nda'an suke dangan mulut ember

5 barang die tulang basi kerajje pun cappat liat aja' banyak kabonnye

6 ao' die daan macam kau tulang sammut baro' kerajje sikit dah sakit-sakitan

7 abang ja' tabal muke ma' nda' die liat kawannye semue banyak kabon

8 suka'ati die aja' jannah biar kala' lama' baro' kawen die dah kau simpanke ikan takut kala' dimakan kucing

9 udahan ma' mungkin ja' kucing kepala hitam yang na' ngabiskannye

10 gayyelah akhir idup tan unggal mati lamas di dalam patti pade taon 1345

4.2 Pengujian 2

Pengujian 2 adalah pengujian terhadap terjemahan dari bahasa Melayu Sambas ke bahasa Indonesia.

Tabel 4. Kalimat Bahasa Sumber pada Pengujian 2

No Kalimat Sumber Bahasa Melayu Sambas

1 paloh ye name daerah yang lattaknye ade di ujong sambas

2 raden sandi ye dari keluarge urang baik-baik berasal dari keturunan raje sambas

3 perangainye ye bede lalu dangan ade' berade'nye yang laing

4 kebiasaan yang karrap dikrajekannye ye beburu 5 mun dah beburu ye biasenye dua' tigge ari baro'

balik ke rumah

6 urang tuenye pun sekali-sekalilah naggorkan die 7 sandi kau to' tang laing inyan dangan ade' berade'

mu

8 ari to' aku na' paggi beburu age' 9 jadi bagus kau tinggal di rumah aja'

10 aku minta' mun aku paggi usah kau ceritekan dangan ayah ape age' dangan umma'

(5)

Tabel 5. Kalimat Hasil Pengujian 2

No Kalimat Bahasa Target Hasil Terjemahan

(Bahasa Indonesia)

1 paloh itu nama daerah yang lattaknye ada di ujong sambas

2 raden sandi itu dari keluarge orang baik-baik berasal dari keturunan raja sambas

3 perangainye itu bede lalu dengan adik berade'nye yang laing

4 kebiasaan yang karrap dikrajekannye itu berburu 5 bila sudah berburu itu biasanya dua tiga hari ketika

pulang ke rumah

6 orang tuenye pun sekali-sekalilah naggorkan dia 7 sandi kau ini mengapa laing benar dengan adik

beradik mu

8 hari ini aku akan pergi berburu lagi 9 jadi bagus kau tinggal di rumah saja

10 aku minta bila aku pergi jangan kau ceritekan dengan bapaknya apa lagi dengan ibu

Tabel 6. Kalimat Referensi pada Pengujian 2

No Kalimat Referensi Bahasa Indonesia

1 paloh itu nama daerah yang letaknya ada di ujung sambas

2 raden sandi itu dari keluarga orang baik-baik berasal dari keturunan raja sambas

3 perilakunya itu sangat berbeda dengan saudara-saudaranya yang lain

4 kebiasaan yang sering dikerjakannya adalah berburu

5 kalau sudah berburu itu biasanya dua atau tiga hari baru pulang ke rumah

6 orang tuanya pun sekali-sekali menegur dia 7 sandi kau ini mengapa lain benar dengan

saudara-saudaramu

8 hari ini aku akan pergi berburu lagi 9 jadi lebih baik kau tinggal di rumah saja 10 aku minta bila aku pergi jangan kau ceritakan

dengan ayah apa lagi dengan ibu 4.3 Hasil Penilaian

4.3.1 Hasil Penilaian Otomatis

Tabel 7. Akurasi Penilaian Mesin Penerjemah Statistik

Pengujian BLEU score Persentase Akurasi

Pengujian 1` 0.5555 55% Pengujian 2 0.4950 49%

4.3.2 Hasil Penilaian Manual Tabel 8. Hasil Penilaian Manual

Kalimat Hasil Terjemahan Ahli Bahasa C,R P = 𝑪 𝑹 100% Pengujian 1 Tursina S.T., M.Cs C = 97, R = 121 80.16% Harianto S.Pd C =64 , R = 121 52.89% Sudiarti SE C = 94, R = 121 77.68% Rata-Rata 70.24% Pengujian 2 Harianto S.Pd C = 57, R=92 61.95% Emi Setya C = 56, R=92 60.86% Sudiarti SE C = 63, R= 92 68.47% Rata-Rata 63.76%

Tabel 9. Hasil Perhitungan BLEU score

Kalimat Hasil Terjemah

an

Ahli Bahasa BLEU score

Rata-Rata/Pers entase Pengujian 1 Tursina S.T., M.Cs 0.5783 0.4130 ±41% Sudiarti, SE 0.5142 Harianto, S.Pd 0.1466 Pengujian 2 Harianto, S.Pd 0.2604 0.3457 ±34% Sudiarti, SE 0.4311 Emy Setya 0.3456 5. Kesimpulan

Berdasarkan uraian yang telah dipaparkan sebelumnya, maka kesimpulan yang dapat diambil sebagai berikut :

1. Mesin penerjemah statistik dapat diimplementasikan untuk menterjemahkan Bahasa Indonesia ke bahasa Melayu Sambas dan menerjemahkan Bahasa Melayu Sambas ke Bahasa Indonesia

2. Kalimat referensi sangat mempengaruhi penilaian, semakin dekat jumlah kata hasil terjemahan dengan kalimat referensinya maka akan semakin baik.

3. Nilai persentase akurasi yang dihasilkan pada Pengujian 1 (Mesin Penerjemah

(6)

Statistik Bahasa Indonesia ke Bahasa Melayu Sambas) sebesar 55% dan pada Pengujian 2 (Mesin Penerjemah Statistik Bahasa Melayu Sambas ke Bahasa Indonesia) dengan persentase sebesar 49%. 4. Penilaian yang dilakukan oleh ahli bahasa

menghasilkan nilai BLEU yang berbeda-beda tergantug pemahaman oleh ahli bahasa.

Referensi

[1] Akuntono, Indra. 2012. Mau Tahu

Jumlah Ragam Bahasa di Indonesia?.

Kompas.com. 9 Juni 2013.

[2] Ginting, Adres, dan Nazori AZ. 2012.

Penerjemah Dua Arah Bahasa Indonesia Ke

Bahasa Daerah (Karo) Menggunakan

Teknik Statistical Machine Translation (SMT) Sebagai Fitur Pada Situs Web Untuk

Meningkatkan Web Traffic. Jurnal

Telematika MKOM. Vol. 4 No. 1. Hlm. 61-64. 3 Maret 2013.

[3] Amalia, Farida. 2007. Ideologi Dalam

Penerjemahan. Universitas Pendidikan

Indonesia. 21 Oktober 2013.

[4] J.C. ,Catford. 1965. A Linguistic Theory

Of Translation: An Essay In Applied Linguistics. Walton Street : Oxford

University Press. 19 Juli 2013.

[5] Manning, Christopher D. dan Schutze, Hinrich. 2000. Foundations Of

Statistical Natural Language

Processing. London : The MIT Press

Cambridge Massachusetts. 10 Juli 2013. [6] Tanuwijaya, Hansel. 2009.

Penerjemahan Inggris-Indonesia

Menggunakan Mesin Penerjemah

Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta : Universitas

Indonesia. 12 Juni 2013.

Biografi

Ibnu Hadi, lahir di Sambas, Kalimantan Barat, Indonesia, 10 Juli 1988. Memperoleh gelar Sarjana dari Program Studi Teknik Informatika Universitas Tanjungpura, Pontianak, Indonesia, 2014.

Gambar

Gambar 2. Arsitektur Sistem mesin penerjemah  statistik dari Bahasa Indonesia ke Bahasa
Tabel 1. Kalimat Bahasa Sumber pada  Pengujian 1
Tabel 6. Kalimat Referensi pada Pengujian 2

Referensi

Dokumen terkait

(3) Setiap Orang yang dengan tanpa hak dan/atau tanpa izin Pencipta atau pemegang Hak Cipta melakukan pelanggaran hak ekonomi Pencipta sebagaimana dimaksud dalam Pasal 9

Dari percobaan dan pembahasan hasil pelarutan dolomit dengan asam sulfat dapat disimpulkan bahwa ekstraksi magnesium dan kalsium dari mineral dolomit dapat

Sabun merupakan bahan pembersih yang dibuat dengan mereaksikan secara kimia basa natrium atau basa kalium dengan asam lemak yang berasal dari minyak nabati atau lemak

1) Lemahnya penerapan hukum yang terka-it dengan kenavigasian, khususnya pene- gakan hukum terhadap Undang-undang Nomor 17 Tahun 2008 tentang Pelaya-ran, Peraturan

Dengan kata lain, bagaimanapun bahwa usia merupakan faktor utama dalam kemampuan pembelajaran bahasa seseorang, sebagai buktinya melalui sejumlah literature yang

Bentuk perangkat lunak pada awalnya adalah sambungan-sambungan kabel ke antar bagian dalam komputer, gambar berikut memperlihatkan orang yang sedang menggunakan

Adapun yang menjadi ciri khas model adalah: (a) landasan model adalah ABCCM Empowerment Concept , (b) pemberdayaan tersebut dilakukan melalui kelompok yang

Program travelling atau outing ini merupakan program berkala yang dilaksanakan oleh PT Surya Madistrindo dengan cara mengajak masyarakat sekitar perusahan untuk