• Tidak ada hasil yang ditemukan

PENGENALAN BAHASA SUKU BANGSA INDONESIA BERBASIS TEKS MENGGUNAKAN METODE N-GRAM

N/A
N/A
Protected

Academic year: 2022

Membagikan "PENGENALAN BAHASA SUKU BANGSA INDONESIA BERBASIS TEKS MENGGUNAKAN METODE N-GRAM"

Copied!
8
0
0

Teks penuh

(1)

PENGENALAN BAHASA SUKU BANGSA INDONESIA BERBASIS TEKS MENGGUNAKAN METODE N-GRAM

Ahmad Hanafi¹, Rimba Whidiana², Retno Novi Dayawati³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Tugas akhir ini menganalisis metode n-gram dalam mengenali bahasa suku bangsa Indonesia berbasis teks. Untuk menganalisis akurasi dari metode n-gram dilakukan pengujian dengan menggunakan panjang n yang berbeda dari n-gram, panjang rangking berbeda dari model n-gram bahasa, dan pengujian untuk menganalisis pengaruh banyaknya kata di dalam dokumen yang ingin dikenali bahasa daerahnya. Proses pelatihan dilakukan guna membentuk model n-gram bahasa dari masing-masing bahasa daerah. Sistem yang dibuat menggunakan metode n-gram untuk pemodelan bahasa daerah dan teknik rank-order-statistic untuk pengklasifikasian bahasa daerahnya. Dari seluruh pengujian yang dilakukan didapatkan bahwa untuk akurasi pengenalan bahasa daerah Sunda dan Jawa dapat digunakan panjang minimum rank=100 dan panjang n dari n-gram yaitu n=3, n=4, n=5, dengan akurasi pengenalan pada penggunaan panjang rank=100 sebesar 100% untuk n=3, 98,75% untuk n=4, 97,50% untuk n=5. Sedangkan rasio antara panjang rank dengan banyaknya kata di dalam dokumen yang ingin dikenali bahasanya yaitu pjg_rank : jml_kata = 100 : 40, dengan penggunaan panjang minimum rank=100 dan banyak kata minimum di dalam dokumen yang ingin dikenali = 40 kata.

Kata Kunci : n-gram, performansi, akurasi, rank-order-statistic.

Abstract

This final project explains about analysis of n-gram method to recognize text based tribe languages from Indonesia. To see the accurateness from n-gram method, we can test with using different length of n from n-gram and different length of rank from n-gram language model to recognize tribe languages. The test also has been done to see how many words in document which we want to recognize that influence the accuracy of recognition. The system was built with ngram method for modeling the tribe languages, and rank-order-statistic for classification. From the testing was had done, for accurateness tribe languages recognition we can use the minimum length of rank=100 and the length n from ngram which can be n=3, n=4, n=5 with using rank=100 the accuration is about 100% for n=3, 98,75% for n=4, 97,50% for n=5, and for ratio between the length of rank from n-gram language model and how many words in document which we want to recognize is length of rank : number of words = 100 : 40, with using minimum length of rank=100 and minimum number of words=40.

Keywords : n-gram, performance, accuracy, rank-order-statistic.

(2)

1

1. Pendahuluan

1.1 Latar belakang

Indonesia merupakan suatu negara besar yang terdiri dari berbagai macam kepulauan besar dan kecil, di dalam kepulauan tersebut dihuni dan ditempati oleh berbagai macam suku-suku bangsa yang merupakan satu kesatuan atau dalam bahasa sansekerta kita mengenal istilah yaitu : Bhineka Tunggal Ika yang mempunyai arti bahwa walaupun berbeda-beda tetapi tetap satu jua. Tiap-tiap suku bangsa Indonesia memiliki bahasa daerahnya masing-masing yang digunakan sebagai bahasa percakapan sehari-hari di dalam daerahnya, baik digunakan secara lisan maupun melalui media cetak (tertulis) antara perorangan, kelompok maupun dalam acara adat, setelah bahasa utama yang digunakan yaitu bahasa Indonesia. Di dalam lingkungan yang terdiri atas banyak bahasa seperti ini, kebutuhan akan sistem untuk identifikasi atau pengenalan bahasa sangat dibutuhkan, mengingat pengenalan bahasa atau identifikasi bahasa dari media berbasis teks merupakan prasyarat untuk pemrosesan selanjutnya seperti : penerjemahan bahasa, pengkategorisasian kata, indeks daftar kata, ekstraksi bahasa dan lain sebagainya. Dan hal ini juga dapat digunakan sebagai media untuk melestarikan bahasa daerah dari masing-masing suku bangsa Indonesia.

Melihat dari permasalahan di atas, untuk mengatasi masalah tersebut maka digunakan pendekatan metode n-gram. Ide awalnya adalah menggunakan n-gram yang frekuensi kemunculannya dapat menunjukan apakah teks tersebut menggunakan bahasa tertentu [2]. Pendekatan berbasis n-gram adalah metode sederhana (linguistic model) untuk menggolongkan bahasa dan merupakan metode dasar dalam pengenalan atau pengkategorian berbasis teks [4]. Salah-satu keunggulan menggunakan n-gram dan bukan suatu kata utuh secara keseluruhan dalam melakukan identifikasi bahasa adalah bahwa n-gram tidak akan terlalu sensitif terhadap kesalahan penulisan yang terdapat pada suatu dokumen.

Suatu bahasa termasuk bahasa daerah dari suku bangsa Indonesia memiliki keunikannya masing-masing yaitu pasti akan menggunakan suatu kata lebih banyak dibanding kata lainnya. Hal ini sesuai dengan Zipf’s Law yang dapat dinyatakan sebagai berikut:

The n-th common word in a human language text occurs with a freuquency inversely proportional to n [2]

Implikasi dari hukum ini adalah bahwa selalu ada kata yang lebih sering digunakan dibanding kata lainnya dalam suatu bahasa. Selain itu terdapat sifat kontinuitas dalam perbedaan frekuensi penggunaan kata tersebut. Hal ini juga berlaku untuk potongan dari kata tersebut atau dalam kata lain n-gram kata tersebut.

Dengan menggunakan Zipf’s Law sebagai ide dasar maka dapat dibuat suatu metode identifikasi bahasa dengan membandingkan rank sebuah n-gram dalam dokumen dengan rank n-gram yang sama pada dokumen yang telah diketahui bahasanya [2] teknik ini dikenal dengan nama rank-order-statistic.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(3)

1.2 Perumusan masalah

Berdasarkan latar belakang yang dikemukakan di atas, maka dapat dirumuskan permasalahan pokok diantaranya adalah:

1. Bagaimana penerapan metode n-gram untuk pembangunan model n-gram bahasa (bahasanya telah diketahui) dan model n-gram dokumen (bahasanya belum diketahui).

2. Bagaimana penerapan teknik rank-order-statistic untuk proses pengklasifikasian bahasa.

3. Berapa tingkat keberhasilan sistem dalam mengenali suatu bahasa daerah terhadap dokumen masukan berbasis teks dengan menggunakan metode n- gram. Parameternya adalah keakuratan dari sistem mengenali bahasa daerah.

Batasan masalah yang digunakan dalam menyelesaikan permasalahan pengenalan bahasa dari suku bangsa indonesia berbasis teks dengan menggunakan metode n-gram, yaitu sebagai berikut:

a). Bahasa yang digunakan sebagai sampel acuan dalam proses identifikasi bahasa, yaitu bahasa yang berada di sekitar ruang lingkup mahasiswa IT- Telkom seperti sebagai berikut:

1. Bahasa Sunda (Jawa barat) 2. Bahasa Jawa (Jawa tengah)

b). Penelitian dilakukan dengan menggunakan data training ataupun data testing yang berasal dari situs bahasa daerah yang diambil melalui media Internet.

Untuk bahasa Sunda (Jawa barat) diambil dari situs:

http://www.cupumanik.com http://www.daluang.com http://www.hegarmanah.page.tl http://www.salaka.net

http://www.galuh-purba.com

Untuk bahasa Jawa (Jawa tengah) diambil dari situs:

http://jaya-baya.blogspot.com

c). Data yang digunakan dalam pelatihan maupun pengujian sistem berupa file dokumen bahasa daerah berbasis teks (*.txt).

d). Dalam melakukan validasi kebenaran pengenalan bahasa daerah oleh perangkat lunak yang telah dibuat, digunakan sistem terpisah yang disebut sebagai ”sistem validasi bahasa daerah berbasis kamus”, sistem validasi bahasa daerah berbasis kamus ini menggunakan kamus bahasa daerah sebagai panduan dalam mengecek tiap kata daerah dan menegaskan bahwa kata-kata yang digunakan atau yang terdapat di dalam dokumen pengujian atau data uji merupakan dokumen yang menggunakan bahasa daerah tertentu. Apabila didapatkan kesamaan hasil antara sistem pengenalan bahasa daerah dengan sistem validasi bahasa daerah berbasis kamus, maka dapat dikatakan bahwa hasil dari sistem pengenalan bahasa daerah ini adalah valid atau benar. Berikut merupakan deskripsi dari sistem dan

(4)

3 Gambar 1-1: Ruang lingkup pembahasan tugas akhir

1.3 Tujuan

Tujuan dari pembuatan Tugas Akhir ini adalah:

a) Menganalisis pengaruh panjang n dari metode n-gram terhadap akurasi pengenalan bahasa daerah.

b) Menganalisis pengaruh panjang rank (rangking) dari model n-gram bahasa terhadap akurasi pengenalan bahasa daerah.

c) Menganalisis pengaruh banyak kata di dalam dokumen pada pembangunan model n-gram terhadap akurasi pengenalan bahasa daerah.

File Teks Bahasa

Dokumen Input (data uji)

Database n-gram bahasa Database

n-gram dokumen

Hasil Pengenalan

Pembangunan Model n-gram Bahasa Dengan N-gram Pembangunan Model

n-gram Dokumen Dengan N-gram

Hitung Jarak Model Dengan Rank Order

Statistic

Cari Jarak Terkecil Skenario Pengujian

dengan panjang n-gram dan rank

berbeda

Jarak Model

Pengecekan per-kata

Hasil Validasi Kamus

bahasa daerah

Stemming kata Kata tanpa imbuhan

Kata berimbuhan

Penghitungan total kata benar Sistem validasi bahasa daerah berbasis kamus

(Hasil pengenalan = Hasil validasi ) hasil valid atau benar

(Hasil pengenalanHasil validasi) hasil tidak valid atau salah

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(5)

1.4 Metodologi penyelesaian masalah

Metodologi penelitian yang digunakan dalam pembuatan tugas akhir ini adalah sebagai berikut :

1. Studi Literatur

Tahap menambah wawasan dari buku-buku, artikel, jurnal dan sumber-sumber lain yang layak, seperti informasi-informasi yang tersedia melalui media Internet. Hal ini meliputi diantaranya:

• Mempelajari tentang tata bahasa daerah

• Mempelajari tentang metode n-gram untuk pemodelan dari bahasa daerah tersebut

• Mempelajari tentang teknik rank-order-statistic untuk teknik klasifikasi

2. Melakukan analisa masalah dan perancangan perangkat lunak dengan menggunakan analisa dan desain prosedural.

3. Melakukan implementasi coding dengan bahasa pemrograman Borland Delphi 7 berdasarkan perancangan yang sudah dibuat.

4. Melakukan pengujian terhadap sistem yang telah dibuat.

5. Penarikan kesimpulan dari analisa yang telah dilakukan.

(6)

33

5. Kesimpulan dan Saran

5.1 Kesimpulan

Dari berbagai macam pengujian dan analisis yang telah dilakukan maka dapat diambil kesimpulan bahwa:

1. Untuk akurasi pengenalan bahasa daerah Sunda dan Jawa dapat digunakan panjang minimum rank=100 dan panjang n dari n-gram yaitu n=3, n=4, n=5, dengan akurasi pengenalan pada penggunaan panjang rank=100 sebesar 100%

untuk n=3, 98,75% untuk n=4, 97,50% untuk n=5, karena panjang n tersebut memiliki tingkat kesamaan karakter n-gram diantara model n-gram bahasa Sunda dan model n-gram bahasa Jawa relatif lebih kecil.

2. Semakin panjang rank maka hasil akurasi yang didapatkan semakin bagus, tetapi akurasi pengenalannya tersebut dipengaruhi oleh banyaknya kata yang terdapat di dalam dokumen yang ingin dikenali bahasanya. Rasio antara panjang rank dengan banyaknya kata di dalam dokumen yang ingin dikenali bahasanya yaitu pjg_rank : jml_kata = 100 : 40, dengan penggunaan panjang minimum rank=100 dan banyak kata minimum di dalam dokumen = 40.

3. Akurasi pengenalan bahasa daerah yang didapatkan semakin bagus seiring dengan semakin banyaknya kata yang ada di dalam dokumen yang ingin dikenali bahasanya (> # ), hal ini dikarenakan semakin banyak pula karakter n-gram yang dapat dibangkitkan dari dokumen untuk dicocokan dengan karakter n-gram dari model n-gram bahasa.

5.2 Saran

Setelah menyelesaikan tugas akhir ini, penulis memiliki beberapa saran diantaranya:

1. Sebelum melakukan pelatihan, dilakukan pengecekan per kata berdasarkan kamus bahasa daerah pada data latih yang digunakan, hal ini untuk menegaskan bahwa kata-kata di dalam dokumen yang digunakan dalam pelatihan untuk membangun model n-gram bahasa merupakan kata-kata yang berasal dari bahasa daerah suku tersebut, dan untuk meminimalkan kata atau karakter n-gram yang berasal dari bahasa daerah suku tidak dikenali pada proses pengujian.

2. Pada pengujian tugas akhir ini data yang digunakan baik untuk pelatihan (data latih) maupun untuk pengujian (data uji) hanya menggunakan dua buah bahasa daerah yaitu bahasa Sunda (Jawa barat) dan bahasa Jawa (Jawa tengah). Untuk pengujian selanjutnya, disarankan menggunakan data bahasa daerah yang lebih banyak (mencakup seluruh bahasa dari suku bangsa Indonesia) dan untuk menguji performansi akurasi dari metode n-gram ini gunakan bahasa daerah yang memiliki tingkat kemiripan bahasa (morfologi, fonologi, sintaksis dan semantik) yang relatif sama seperti misalnya bahasa Bali dengan bahasa suku Sasak NTB.

3. Untuk pengembangan sistem pengenalan bahasa daerah suku bangsa Indonesia selanjutnya disarankan menggunakan perpaduan metode yaitu

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(7)

antara metode speech-to-text dengan metode n-gram untuk mengenali bahasa daerah yang masukan dari sistemnya tidak lagi berbasis teks, namun berupa suara yang dirubah menjadi teks dan dari teks tersebut baru akan diproses pengenalan bahasa daerahnya dengan menggunakan metode n-gram.

(8)

35

Referensi

[1] Gergely Windisch, László Csink, Language Identification Using Global Statistics of Natural Languages, 2005,

http://bmf.hu/conferences/saci2005/Windisch.pdf, didownload pada tanggal 28 Desember 2007.

[2] W. B. Cavnar, J. M. Trenkle, “N-gram based Text Categorization”.

Environmental Research Institute of Michigan,

http://www.let.rug.nl/~vannoord/TextCat/textcat.pdf, didownload pada tanggal 01 Januari 2008.

[3] Bashir Ahmed, Sung-Hyuk Cha, Charles Tappert, “Language Identification from Text using N-gram based Cumulative Frequency Addition”, Proceedings of Student/Faculty Research Day, CSIS, Pace University, 2004,

http://www.csis.pace.edu/~ctappert/srd2004/paper12.pdf, didownload pada tanggal 03 Januari 2008.

[4] Tomáš ÖLVECKÝ, N-Gram Based Statistics Aimed at Language Identification, 2005, http://www2.fiit.stuba.sk/iit-src/2005/01- olvecky.pdf , didownload pada tanggal 04 Februari 2008.

[5] Johannes F¨urnkranz, “A Study Using N-gram Features for Text Categorization”, Journal of Austrian Research Institute for Artificial Intelligence Research.

[6] Daniel Tauritz, Applications of N-grams, 2002.

[7] Bruno Martins, Mário J. Silva, Language Identification in Web Pages, http://xldb.fc.ul.pt/xldb/publications/ngram-article.pdf, didownload pada tanggal 05 Maret 2008.

[8] Arjen Poutsma, Applying Monte Carlo Techniques to Language Identification, 2002, http://www.xs4all.nl/~ajwp/langident.pdf, didownload pada tanggal 06 Januari 2008.

[9] Laila Khreisat, Arabic Text Classification Using N-gram Frequency Statistics A Comparative Study, 2006,

http://ww1.ucmss.com/books/LFS/CSREA2006/DMI5552.pdf, didownload pada tanggal 16 Oktober 2008.

[10] Budi Rahayu Tamsyah, 2001, “Galurung Basa Sunda”, Penerbit CV Pustaka Setia.

[11] Budi Rahayu Tamsyah, 1996, ”Kamus Sunda-Indonesia Indonesia-Sunda Sunda-Sunda”, Penerbit CV Pustaka Setia.

[12] Endang Nurhayati, Siti Mulyani, ”Linguistik Bahasa Jawa (Kajian Fonologi, Morfologi, Sintaksis dan Semantik)”, 2006,

http://www.budayajawa.com/, didownload pada tanggal 10 November 2008.

[13] Purwadi, M. Hum, ”Kamus Indonesia-Jawa Jawa-Indonesia”, 2006, http://www.budayajawa.com/, didownload pada tanggal 10 November 2008.

[14] Mangunsuwito, S. A, ”Kamus Lengkap Bahasa Jawa”, 2002, Penerbit CV YRAMA WIDYA.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Referensi

Dokumen terkait

Tujuan labelling ini menurut Hudaya (2008), perlu dilakukan untuk memudahkan pemeriksaan jika ada suatu kerusakan atau kelainan yang terjadi pada produk akhir yang

Tujuan yang ingin dicapai adalah dapat menentukan biaya minimum penggunaan alat berat pada pekerjaan pengangkutan dan penimbunan material pada Proyek Perumahan

Selain itu anggaran juga merupakan salah satu kendala dimana masih banyaknya sekolah-sekolah yang belum dilayani Trans Serasi mengingat pelayanan yang diberikan kepada siswa

Dari analisis yang dilakukan Hyman dan Sheatsley dalam Venus (2009:130) terhadap kegagalan kampanye tersebut disimpulkan bahwa:.. 1) Pada kenyataanya memang selalu ada

Puji syukur penulis panjatkan kepada Allah SWT yang telah melimpahkan rahmat dan hidayahnya sehingga dapat menyelesaikan Tesis dengan judul “Pengaruh Dosis dan Durasi

Terkonsentrasinya plankton pada daerah tersebut akan menyebabkan makanan melimpah dan mengundang ikan-ikan yang berukuran lebih besar untuk datang mencari makanan dan bisa

Klon kentang mempunyai karakteristik berbeda pada berat jenis, bahan kering, kadar gula reduksi, kadar air, kadar pati, kadar minyak, warna, rasa, kerenyahan dan