DECISION TREE) PADA BAHASA INDONESIA GRAPHEME TO PHONEME CONVERSION USING GATREE (EVOLVING DECISION TREE) FOR INDONESIAN
LANGUAGE
M Rizki¹, Suyanto², Mahmud Dwi Suliiyo³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Konversi simbol eja (grafem) ke dalam simbol pelafalan (fonem) sangat bergantung kepada karakteristik bahasa yang akan ditinjau. Suatu bahasa secara umum memiliki sistem konversi grafem ke fonem yang berbeda dengan bahasa lainnya. Suatu implementasi sistem konversi grafem ke fonem yang banyak dipakai adalah sistem konversi berbasiskan aturan. Basis aturan dapat dibentuk melalui berbagai teknik dan metode. Salah satu metoda yang dapat digunakan adalah algoritma genetika. Algoritma genetika secara berulang membentuk aturan terbaik melalui proses rekombinasi dan mutasi pada aturan yang ada dalam populasi untuk satu generasi dalam rentang banyaknya penggantian generasi. Hasil pengujian dalam berbagai nilai parameter algoritma genetika dan dataset pasangan grafem-fonem kata-kata dalam bahasa Indonesia menunjukkan bahwa algoritma genetika mampu membentuk aturan untuk sistem konversi grafem ke fonem pada bahasa Indonesia dengan akurasi yang baik. Parameter algoritma genetika yang sangat berpengaruh dalam menemukan aturan yang baik adalah ukuran populasi, semakin besar jumlah calon solusi (aturan) yang dibangkitkan pada populasi maka akurasi yang diperoleh untuk aturan pada sistem konversi grafem ke fonem cenderung lebih baik. Parameter
rekombinasi, mutasi, dan penggantian generasi sendiri terlihat berpengaruh pada ukuran aturan yang dihasilkan. Pengujian pada dataset yang beragam dengan hasil yang baik menegaskan aturan yang dibentuk melalui algoritma genetika mampu bekerja pada karakteristik bahasa Indonesia.
Kata Kunci : konversi, grafem, fonem, aturan, bahasa Indonesia, algoritma genetika, populasi, rekombinasi, mutasi, penggantian generasi, parameter, dataset.
Abstract
Converting symbols of spelling into symbols of pronunciation is strongly dependent on the characteristic of the language to be considered, in this thesis Bahasa Indonesia. A particular language in general has a different grapheme to phoneme conversion system. Implementation of grapheme to phoneme conversion system itself has been carried out based on the rules. The rules themselves can be formed through a variety of techniques and methods. One method that can be used is the genetic algorithm. Genetic algorithm repeatedly forming the best rules through the process of recombination and mutation to the existing rules in the population for a generation in the range of the number of replacement generation. The test results in various parameter values of genetic algorithms and data sets grapheme-phoneme pair of words in the Indonesian language suggests that the genetic algorithm is able to form rules for grapheme to phoneme conversion system in Indonesian with good accuracy. Genetic algorithm parameter highly influential in finding a good rule of thumb is the size of the population. The greater the number of potential solutions (rules) generated in a population, the better the accuracy obtained for the rules of the grapheme to phoneme conversion systems tend to be. The recombination, mutation, and
replacement of generation itself are visible effect on the size of the resulting rules. Good test result in diverse data sets also shows that the rules established by the genetic algorithm is able to work on the characteristics of the Indonesian language.
Keywords : conversion, graphemes, phonemes, rule, Bahasa Indonesia, genetic algorithm, population, recombination, mutation, generation replacement, parameter, dataset
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
1
1. Pendahuluan
1.1 Latar Belakang Masalah
Text-to-Speech Synthesis adalah sebuah sistem berbasis komputer yang mampu membaca teks secara keras[6]. Dalam sistem ini terdapat sebuah modul bernama Phonetization yang berperan untuk menemukan simbol pelafalan (fonem) yang tepat dari simbol eja/tulisan (grafem) pada kata, frase, atau kalimat yang terkait. Menemukan fonem yang tepat dari grafem yang bersangkutan ini sendiri sangat bergantung pada karakteristik bahasa yang menjadi konteks, dalam Tugas Akhir ini berupa bahasa Indonesia.
Bahasa Indonesia, saat kita bicara tentang konversi grafem ke fonemnya maka tidak akan lepas dari aspek homograf, diftong, imbuhan. Homograf memiliki pengertian sebagai kata dengan penulisan sama namun pelafalan berbeda sehingga memiliki arti yang berbeda. Sementara diftong adalah gabungan bunyi (vokal) pada satu suku kata, sehingga terjadi perubahan kualitas vokal pada saat pengucapan. Dan imbuhan sendiri adalah satuan terikat yang jika ditambahkan pada kata dasar akan mengubah makna atau membentuk kata baru. Membangun sistem konversi grafem ke fonem pada bahasa Indonesia (dalam Tugas Akhir ini disebut juga sebagai sistem Indonesian G2P) berarti membangun sistem yang dapat bekerja secara benar pada aspek-aspek tersebut.
Berbagai teknik dan metode telah diusulkan untuk mengimplementasikan sistem konversi grafem ke fonem berbasis aturan[2]. Salah satunya adalah sistem Indonesian G2P dengan model IG-Tree + strategi tebakan terbaik oleh Agus Hartoyo.
Model IG-Tree + strategi tebakan terbaik dibangun dalam struktur pohon- keputusan yang mengkompres data secara lossless untuk kemudian ditawarkan diterapkannya mekanisme prunning (pemangkasan) atas model. Mekanisme tersebut menjadikan dimensi model lebih kecil karena adanya generalisasi namun pada beberapa kasus menjadikan performansi sistem tidak cukup bagus bahkan setelah dibantu dengan strategi tebakan terbaik. Hal ini merupakan trade off yang terjadi pada mekanisme pruning[2].
Lebih lanjut mengenai teknik dan metode berbasis aturan, menemukan aturan yang umum dimana data yang digunakan sangat banyak, adanya kemungkinan data tidak lengkap, terdapatnya perbedaan dari beberapa hal yang mirip, serta terdapatnya kesamaan dari dua hal atau lebih yang berbeda pada data maka hal ini dikategorikan ke dalam sebuah learning. Metode learning sendiri terbagi antara lain ke dalam decision tree learning, jaringan syaraf tiruan, dan algoritma genetika.
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
2
1.2 Perumusan Masalah
Berdasarkan latar belakang masalah yang dikemukakan di atas penulis merumuskan bahwa masalah-masalah yang akan diselesaikan pada Tugas Akhir ini adalah sebagai berikut:
1. Bagaimana membangun pohon keputusan (aturan) untuk sistem Indonesian G2P dengan mengimplementasikan algoritma genetika.
2. Bagaimana mengukur dan menganalisis performansi sistem Indonesian G2P yang dibangun terhadap parameter input dan dataset.
1.3 Batasan Masalah
Dalam rangka memecahkan dua masalah yang dirumuskan di atas penulis menetapkan batasan antara lain:
1. Dataset yang digunakan adalah dataset dari Tugas Akhir mahasiswa ITTelkom yang berjudul “INDONESIAN GRAPHEME-TO-PHONEME (G2P) MENGGUNAKAN MODEL IG-TREE + STRATEGI TEBAKAN TERBAIK” oleh Agus Hartoyo dengan NIM 113040329.
2. Pengukuran performansi dilakukan terhadap akurasi per fonem dan per kata dari data uji sehubung parameter input dan dataset.
1.4 Tujuan
Berdasarkan rumusan masalah yang dikemukakan di atas penulis menetapkan tujuan Tugas Akhir ini sebagai berikut:
1. Mengimplementasikan algoritma genetika dalam membangun pohon keputusan (menemukan aturan) untuk sistem Indonesian G2P.
2.
Menguraikan analisis tentang pengaruh parameter input dan dataset terhadap hasil pengukuran performansi sistem Indonesian G2P yang dibangun.1.5 Metodologi Penyelesaian Masalah
Metode yang akan digunakan untuk menyelesaikan permasalahan dalam Tugas Akhir ini adalah sebagai berikut:
1. Studi literatur
Penulis mempelajari dasar teori tentang Bahasa Indonesia khususnya yang berkaitan dengan fonologi; algoritma genetika; serta evolving decision tree melalui buku-buku atau paper yang telah dipublikasikan.
2. Penggunaan dataset dari Tugas Akhir mahasiswa ITTelkom
“INDONESIAN GRAPHEME-TO-PHONEME (G2P)
MENGGUNAKAN MODEL IG-TREE + STRATEGI TEBAKAN TERBAIK” oleh Agus Hartoyo dengan NIM 113040329.
3. Perancangan perangkat lunak Indonesian G2P
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
3 4. Implementasi sistem perangkat lunak Indonesian G2P menggunakan
bahasa pemrograman C# dengan editor Visual Studio 2008.
5. Analisis terhadap hasil pengujian sistem Indonesian G2P.
6. Pengambilan kesimpulan dan penulisan laporan.
1.6 Sistematika Penulisan
Tugas Akhir ini disusun dengan sistematika sebagai berikut:
1. Pendahuluan
Bab ini menguraikan Tugas Akhir ini secara umum, meliputi latar belakang, perumusan masalah, batasan masalah, tujuan, dan metodologi penyelesaian masalah.
2. Dasar Teori
Bab ini membahas mengenai uraian teori yang berhubungan dengan grafem, fonem, alofon, diftong dalam bahasa Indonesia, serta decision tree, evolving decision tree, dan algoritma genetika.
3. Analisis Perancangan dan Implementasi
Bab ini berisi analisis kebutuhan dari sistem yang kemudian dituangkan ke dalam suatu sistem pemodelan secara terstruktur. Dari tahap analisis kemudian dilanjutkan ke tahap perancangan dan implementasi.
4. Analisis Hasil Pengujian
Bab ini membahas mengenai pengujian yang dilakukan terhadap sistem yang telah dibangun. Pengujian dilakukan dengan melihat perbandingan akurasi jika pada sistem dilakukan perubahan nilai pada parameter- parameter evolusinya dan dataset yang digunakan.
5. Kesimpulan
Berisi kesimpulan dari penulisan Tugas Akhir ini dan saran-saran yang diperlukan untuk pengembangan lebih lanjut.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
26
5. Kesimpulan dan Saran 5.1 Kesimpulan
Berikut adalah kesimpulan yang dapat penulis ambil setelah melakukan implementasi, pengujian, dan analisis terhadap sistem yang dibangun:
1. Dalam membangun pohon keputusan (menemukan aturan) untuk sistem Indonesian G2P, algoritma genetika dapat digunakan.
2. Parameter input dan dataset yang digunakan memberikan pengaruh pada performansi sistem IndonesianG2P yang dibangun.
3. Akurasi kata sangat mungkin memiliki nilai yang cukup kecil dibanding akurasi fonem(alofon).
4. Cara atau model yang digunakan dalam inisialisasi populasi pada algoritma genetika sangat menentukan dalam memperoleh hasil yang baik, pada Tugas Akhir ini yaitu model inisialisasi populasi berdasarkan kamus yang dibentuk berdasarkan Tugas Akhir IndonesianG2P IG-Tree + Strategi tebakan terbaik.
5. Parameter input yang sangat berpengaruh dalam memberikan hasil terbaik untuk sistem ini adalah jumlah individu populasi. Semakin besar jumlah individu populasi maka kemungkinan ditemukan solusi yang baik semakin tinggi.
6. Parameter input seperti jumlah penggantian generasi, peluang pindah silang, dan mutasi berperan besar dalam menghasilkan pohon keputusan yang lebih ramping.
7. Sistem IndonesianG2P yang dibangun memiliki performansi terbaik –baik akurasi fonem(alofon) maupun akurasi kata- pada dataset keempat, yakni dataset dengan komposisi data uji berisi 80% total kata (didalamnya terdapat 80% total kata mengandung grafem <k>) dari dataset, dan 20% sisanya dibagi ke dalam data latih dan data validasi.
8. Sistem IndonesianG2P yang dibangun mampu memberikan akurasi hasil yang tidak kalah baik dibanding sistem IndonesianG2P dengan model IG-Tree + strategi tebakan namun dengan ukuran pohon keputusan yang lebih ramping.
5.2 Saran
Berikut saran penulis untuk pengembangan lebih lanjut mengenai penelitian pada ranah konversi grafem ke fonem dalam bahasa Indonesia ini :
1. Dataset perlu dikembangkan agar performansi sistem yang dihasilkan lebih baik, semisalnya data yang memuat aturan pasangan grafem-fonem untuk frasa atau kalimat diperbanyak jumlahnya.
2. Pembangunan aturan dilakukan berdasarkan segmentasi kata dari kata-kata yang ada dalam bahasa Indonesia.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
27
Daftar Pustaka
[1] Papagelis, Athanasios and Kalles, Dimitris. 2000. GATree: Genetically Evolved Decision Tree.
[2] Hartoyo, Agus. 2008. INDONESIAN GRAPHEME-TO-PHONEME (G2P) MENGGUNAKAN MODEL IG-TREE + STRATEGI TEBAKAN TERBAIK. ITTelkom.
[3] Suyanto. 2008. Evolutionary Computation Komputasi Berbasis
“Evolusi” dan “Genetika”. Bandung:Informatika.
[4] Suyanto. 2005. Algoritma Genetika dalam MATLAB. Yogyakarta:
Penerbit ANDI
[5] Alwi, Hasan dan Dardjowidjojo, Soenjono dkk. 2003. Tata Bahasa Baku Bahasa Indonesia, Edisi Ketiga. Balai Pustaka
[6] Dutoit, Thierry. 1999. A Short Introduction to Text-to-Speech Synthesis.
[7] Kazakov, Dimitar and Manandhar, Suresh. 2001. Unsupervised Learning of Word Segmentation Rules with Genetic Algorithms and Inductive Logic Programming.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika