HASIL DAN PEMBAHASAN Hasil Pengambilan Data

Data suara yang digunakan berjumlah 250 kata yang terdiri atas 70 kata yaitu 200 kata sinyal suara yang dilatih sebelumnya dan 50 kata sinyal suara yang tidak dilatih sebelumnya. Data tersebut disimpan dalam bentuk .wav. Pada data tersebut masih terdapat jeda sehingga dilakukan pemotongan data suara terlebih dahulu. Untuk 20 kata direkam dengan pengulangan 10 kali untuk masing-masing kata sehingga menghasilkan 200 kata sinyal suara. Kemudian 200 kata sinyal suara ini digunakan sebagai data latih dan data uji dengan perbandingan 70 % dan 30 %. Dengan demikian, 140 kata sinyal suara digunakan untuk pemodelan dan 60 kata sinyal suara yang lain digunakan untuk pengujian. Untuk 50 kata sinyal suara yang lain hanya direkam satu kali untuk masing-masing kata dan selanjutnya digunakan untuk menguji model lebih lanjut. Pengujian lebih lanjut dengan 50 kata sinyal

10 Tabel 4 Definisi target JST untuk 10 fonem

No Target ^Representasi Fonem 1 1 0 0 0 0 0 0 0 0 0 Fonem A 2 0 1 0 0 0 0 0 0 0 0 Fonem I 3 0 0 1 0 0 0 0 0 0 0 Fonem U 4 0 0 0 1 0 0 0 0 0 0 Fonem E 5 0 0 0 0 1 0 0 0 0 0 Fonem J 6 0 0 0 0 0 1 0 0 0 0 Fonem K 7 0 0 0 0 0 0 1 0 0 0 Fonem L 8 0 0 0 0 0 0 0 1 0 0 Fonem M 9 0 0 0 0 0 0 0 0 1 0 Fonem N 10 0 0 0 0 0 0 0 0 0 1 Fonem S Pelatihan Sistem

JST dimodelkan dengan menggunakan metode pelatihan Resilient Backpropagation

dengan parameter yang telah dijelaskan sebelumnya. Pelatihan dilakukan dengan 2 model, model pertama dengan hidden neuron

sebanyak 100 dan model kedua dengan hidden neuron sebanyak1000. Banyaknya neuron pada

outputlayer dibuat 10 untuk merepresentasikan fonem yang akan dimodelkan. Learning rate

(laju pemahaman) dipilih 0.01 yang merupakan nilai default. Semakin besar nilai learning rate, semakin cepat pula proses pelatihan. Akan tetapi jika α terlalu besar, maka algoritme menjadi tidak stabil dan mencapai titik minimum lokal (Siang 2005). Toleransi galat yang digunakan adalah 0.0001. Jika besar kesalahan (error) yang dihitung dengan mean square error (mse) lebih kecil dari toleransi yang telah ditentukan maka iterasi dihentikan. Umumnya pelatihan dengan Backpropagation

tidak akan menghasilkan mse = 0 apalagi jika data pelatihan yang digunakan sangat banyak. Pelatihan akan dihentikan jika besar mse lebih kecil dari toleransi yang telah ditentukan atau jika jumlah epoch pelatihan sudah mencapai

epoch maksimum.

Pengujian

Setelah pelatihan selesai, kemudian dilakukan pengenalan pola. Dalam hal ini, hanya propagasi maju yang digunakan untuk menentukan keluaran jaringan. Pengujian dari model yang telah dibangun dilakukan dengan menggunakan data uji dan 50 kata di luar kata yang digunakan dalam pelatihan. Hasil dari pengujian berupa transkripsi kata. Dengan demikian, untuk mengubah transkripsi kata menjadi kata yang diinginkan dilakukan secara manual oleh 5 orang penguji.

Metode pengujian yang dilakukan dengan memberikan kuesioner hasil transkripsi kata kepada masing-masing penguji. Kemudian para penguji tersebut menentukan kata yang tepat untuk masing-masing transkripsi kata yang ada. Sebelumnya penguji diberikan kamus kata sebanyak 70 kata yang merupakan kata- kata yang diinginkan dari transkripsi kata yang diberikan kepada para penguji. Hasil dari pengujian manual ini yang akan diambil untuk menghitung akurasi dari masing- masing kata tersebut.

Penghitungan Akurasi

Akurasi dari masing-masing kata dari dua buah model yang dibangun, dihitung dari hasil prediksi kata dari 5 orang penguji melalui kuesioner.

Lingkungan Pengembangan

Sistem dibangun dan diuji menggunakan perangkat lunak dan perangkat keras dengan spesifikasi :

1. Perangkat keras

 Prosesor AMD Turion 1.8GHz

 RAM 2.5 GB

 Kapasitas Harddisk 80 GB

 Headset

2. Perangkat lunak

 Sistem operasi Windows 7

 Microsoft Excel 2007

 MATLAB versi 7.7.0

HASIL DAN PEMBAHASAN Hasil Pengambilan Data

11 suara di luar dari kata yang sudah dilatih

dimaksudkan untuk melihat kinerja dari model yang dihasilkan jika diberikan kata di luar dari data latih.

Sebelum dilakukan pemodelan dengan

Resilient Backpropagation, 140 kata sinyal suara tersebut diekstrasi dengan metode MFCC yang dimplementasikan menggunakan fungsi yang sudah tersedia yang dikembangkan oleh Slanley pada tahun 1998. Seperti yang telah dijelaskan sebelumnya, frame yang digunakan sebesar 30 ms dimana terjadi overlap antar

frame sebesar 50 % dan koefisien cepstral yang digunakan adalah 13 untuk tiap frame.

Pelatihan dan Pengujian

Data hasil praproses 140 kata sinyal suara berupa matriks dengan ukuran 13 x n karena koefisien cepstral yang digunakan dalam proses MFCC adalah 13. Sebelum data praproses tersebut digunakan untuk pelatihan, data tersebut disegmentasi terlebih dahulu kemudian dikelompokkan berdasarkan fonem yang digunakan. Dengan demikian, data menjadi 10 kelompok fonem. Hal ini dilakukan untuk memudahkan dalam proses memasangkan data pelatihan dengan target yang ingin dicapai. Pelatihan dilakukan dengan parameter- parameter yang telah dijelaskan sebelumnya sehingga didapatkan 2 model JST RPROP.

Data yang digunakan untuk pengujian adalah 60 kata sinyal suara yang merupakan 30% dari sinyal kata untuk pemodelan. Selain itu untuk melihat lebih jauh kinerja dari RPROP, pengujian juga dilakukan dengan 50 kata lain yang merupakan sinyal kata di luar kata yang dilatih. Pengujian dilakukan dengan 2 model yang telah didapat dari proses pelatihan

Resilient Backpropagation. Output dari sistem berupa sequence dari nilai- nilai target yang merepresentasikan fonem. Ilustrasi dari output

sistem sebagai berikut :

Rangkaian fonem-fonem tersebut disebut transkripsi kata. Proses transformasi dari transkripsi kata menjadi sebuah kata dilakukan secara manual oleh 5 orang penguji yang terdiri atas 2 orang wanita dan 3 orang pria. Ilustrasi transformasi dari transkripsi kata menjadi kata sebagai berikut

Tidak semua transkripsi kata yang dihasilkan memiliki pola yang tepat seperti ilustrasi berikut :

AAALLLLLLLLAAAAAEAAAAASMMM

Oleh karena itu proses pengenalan kata dari transkripsi kata yang dihasilkan, masih dilakukan secara manual melalui kuesioner yang diberikan kepada 5 orang. Bentuk kuesioner yang diberikan kepada 5 penguji dapat dilihat pada Lampiran 2, 3, 4, dan Lampiran 5.

Di dalam kuesioner terdapat 60 kata sinyal suara, kemudian kelima orang penguji memberikan prediksi kata yang sesuai dengan siyal kata yang dihasilkan. Prediksi kata yang dilakukan oleh 5 orang penguji tersebut dapat dilihat pada Lampiran 6, 7, dan 8. Perbandingan akurasi yang didapat dari dua model RPROP tersebut dapat memperlihatkan bagaimana kinerja RPROP dalam mengenali pola kata yang dipakai dalam pelatihan dan memberikan respon yang benar untuk pola input yang serupa tapi tidak identik dengan pola yang digunakan selama pelatihan. Dalam hal hal ini pola input

serupa maksudnya adalah pola dari 50 kata lain di luar kata yang dilatih. Karena kata lain yang terdiri atas 50 kata ini merupakan kata- kata yang berasal dari kombinasi fonem yang ada pada kata- kata untuk pelatihan.

Akurasi Pengujian

Grafik akurasi yang didapat dari model pertama yaitu dengan 100 hidden neuron dapat dilihat pada Gambar 11.

MMMAALLLAAAMMM

MALAM 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 MMMMAA

12 Gambar 11 Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang dilatih dengan Model Pertama.

Dari model RPROP dengan 100 hidden neuron didapat rata-rata akurasi seluruh kata untuk kata yang dilatih 75%.

Grafik akurasi rata-rata yang didapat dari model kedua yaitu dengan 1000 hidden neuron

dapat dilihat pada Gambar 12.

Gambar 12 Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang dilatih dengan Model Kedua.

Dari model RPROP dengan 1000 hidden neuron didapat rata- rata akurasi seluruh kata untuk kata yang dilatih sebesar 93%. Akurasi rata-rata dari kata yang digunakan sebagai data latih dengan model RPROP 1000 hidden neuron

lebih tinggi dibandingkan dengan model RPROP 100 hidden neuron.

Penghitungan akurasi rata-rata juga dilakukan terhadap 50 kata di luar kata yang dimodelkan. Hasil dari kuesioner untuk 50 kata di luar kata yang dilatih ini dapat dilihat pada Lampiran 7 dan 8. Masing-masing untuk model pertama dan model kedua. Dari hasil kuesioner tersebut, dihitung akurasi rata-rata dari 50 kata tersebut. Akurasi rata-rata dari 50 kata untuk

0% 20% 40% 60% 80% 100% 120%

Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang digunakan dalam pemodelan

0% 20% 40% 60% 80% 100% 120%

Akurasi rata-rata setiap kata dari 5 penguji untuk 20 kata yang digunakan dalam pemodelan

13 model 1 mencapai 61% dan untuk model kedua

mencapai 62%. Akurasi antara dua model yang dibuat perbedaannya tidak signifikan untuk 50 kata di luar kata yang dilatih ini. Perbandingan akurasi rata-rata antara dua model RPROP tersebut dapat dilihat pada Gambar 13.

Gambar 13 Grafik perbandingan akurasi keseluruhan kata dari 2 model RPROP

Dari Gambar 13 dapat dilihat bahwa akurasi rata-rata keseluruhan kata yang dilatih dengan dua model RPROP tersebut memiliki perbedaan yang signifikan sebesar 18%. Sedangkan untuk kata lain di luar kata yang dilatih, selisih akurasi keseluruhan dari dua model hanya 1 %. Hal ini berarti telah terjadi overfitting pada model dengan 1000 hidden neuron. Pada model RPROP yang kedua ini, akurasi untuk kata yang dilatih sangat tinggi mencapai 93%, namun untuk kata lain di luar kata yang dilatih, hanya 62%. Kejadian overfitting ini menyebabkan model kedua ini terlalu ekslusif untuk data yang dilatih sehingga kemampuan generalisasi untuk data di luar data latih menjadi kurang baik.

KESIMPULAN DAN SARAN Kesimpulan

Dari penelitian ini, akurasi rata-rata keseluruhan kata yang telah dilatih mencapai lebih dari 70%. Untuk model pertama dengan 100 hidden neuron akurasi rata-rata keseluruhan kata adalah 75%, sedangkan model kedua dengan 1000 hidden neuron, akurasi rata-rata keseluruhan katanya mencapai 93%. Hal ini berarti kedua model JST yang dihasilkan memiliki kemampuan memorisasi yang tinggi. Untuk 50 kata lain di luar kata- kata yang digunakan dalam pelatihan, akurasi rata-rata dari model pertama dengan 100 hidden neuron

adalah 61% dan untuk model kedua, akurasi rata-rata keseluruhan kata tersebut adalah 62%. Hal ini berarti, kemampuan generalisasi atau kemampuan untuk mengenali pola dari data di luar data yang dilatih dari kedua model tersebut tidak berbeda jauh.

Pada model kedua dengan JST RPROP 1000

hidden neuron, akurasi rata-rata keseluruhan kata yang digunakan untuk pelatihan sangat tinggi, yaitu 93%. Namun, kemampuan yang terlalu akurat untuk data yang dilatih menyebabkan model tersebut terlalu ekslusif sehingga akan menghasilkan output yang baik untuk data yang telah dilatih saja. Kejadian inilah yang disebut overfitting, yang merupakan suatu masalah dalam JST karena hal yang ingin dicapai dari JST bukan hanya dalam mengenali pola yang dilatih sebelumnya tetapi juga untuk mengenali pola yang serupa di luar pola yang sudah dilatih. Terjadinya overfitting pada model kedua disebabkan model terlalu besar (dengan 1000 hidden neuron). Penggunaan

hidden neuron yang terlalu besar belum tentu akan memberikan hasil yang lebih baik dari

hidden neuron yang lebih sedikit.

Saran

Penelitian ini masih perlu untuk dikembangkan karena terdapat keterbatasan yang membuat sistem yang dihasilkan belum memungkinkan untuk digunakan dalam kondisi nyata. Beberapa saran untuk penelitian selanjutnya adalah :

1. Pada penelitian ini, kata-kata yang digunakan masih terbatas pada kombinasi 10 fonem, sehingga dapat ditambahkan fonem-fonem bahasa Indonesia yang lain sehingga pengenalan kata menjadi lebih luas.

2. Fonem yang digunakan bukan hanya fonem asli, tetapi juga fonem transisi.

3. Untuk fonem yang memiliki lebih dari satu cara pengucapan, sebaiknya fonemnya dikelompokkan berbeda. Seperti fonem /e/, memiliki dua cara pengucapan yang terlihat dari kata ‘nenek’ dan ‘selam’.

4. Agar pemodelan memberikan hasil yang lebih baik, sebaiknya jenis suara yang digunakan lebih banyak. Pengambilan suara dapat dilakukan dengan pembicara yang lebih banyak dan jenis kelamin yang berbeda sehingga pengenalan kata menjadi lebih variatif.

DAFTAR PUSTAKA

Buono, A. 2009. Representasi Nilai HOS dan Model MFCC sebagai Ekstrasi Ciri pada Sistem Identifikasi Pembicara di Lingkungan Ber-noise Menggunakan HMM. [Disertasi]. Depok: Program Studi Ilmu Komputer Universitas Indonesia.

0% 20% 40% 60% 80% 100% kata yang dilatih kata lain Model 1 Model 2 93% 75% 62% 61%