• Tidak ada hasil yang ditemukan

Pengaruh Jumlah Neuron pada Lapisan

Tersembunyi dan Iterasi Terhadap

Akurasi Sistem

Percobaan pertama bertujuan untuk membandingkan kinerja sistem berdasarkan jumlah neuron yang digunakan pada lapisan tersembunyi. Percobaan ini juga akan melihat seberapa besar pengaruh banyaknya unit pada lapisan tersembunyi terhadap akurasi sistem.

Arsitektur JST yang digunakan pada sistem pengenal kata ini adalah jaringan

perceptron lapis banyak (multi layer

perceptron). MLP dipilih karena dapat

membentuk daerah keputusan yang nonlinear, tidak seperti jaringan lapis tunggal (single

layer perceptron) yang hanya dapat

diasumsikan sangat baik untuk kasus pengenalan kata karena sifat suara yang berada pada domain yang nonlinear. Jumlah lapisan tersembunyi yang digunakan juga hanya dibatasi satu lapisan saja, karena menurut Cybenko seperti diacu dalam Tebelskies 1995 semua fungsi yang dapat dihitung dengan MLP dengan lapisan tersembunyi lebih dari satu juga dapat diselesaikan oleh MLP dengan hanya satu lapisan tersembunyi jika jumlah unit pada lapisan tersembunyi telah mencukupi. Selain itu waktu pelatihan untuk MLP dengan tersembunyi layer yang banyak akan meningkat secara signifikan.

Jumlah neuron lapis tersembunyi dalam MLP sangat menentukan kinerja MLP dalam proses pengenalan pola. Banyaknya neuron lapis tersembunyiyang digunakan juga sangat berpengaruh terhadap waktu pelatihan. Apabila suatu jaringan terlalu lama dilatihkan akan timbul keanehan yang akan mengurangi kinerja pada data pelatihan. (Tebelskies 1995). Fungsi aktivasi yang digunakan pada penelitian ini adalah fungsi linear dan fungsi sigmoid biner. Fungsi sigmoid biner dipilih karena daerah hasil yang diinginkan terletak pada interval 0 dan 1.

JST yang dibuat adalah jaringan lapis banyak dengan variasi neuron lapis tersembunyi sebanyak 50, 100, 200, 400, 700, dan 1000 unit. Proses pelatihan dilakukan dengan iterasi sebanyak 50 kali. Setiap iterasi akan menghasilkan bobot jaringan yang berbeda-beda. Setelah pelatihan selesai, semua file pengujian yang ada pada data tes diujikan ke dalam 50 bobot jaringan yang berbeda-beda tadi. Bobot jaringan yang paling baik akan memberikan akurasi pengenalan yang baik pula. Persentase word accuracy

dan sentence accuracy terbaik dari masing-masing variasi neuron dari hasil pengujian menggunakan data tes 1 dapat dilihat pada Tabel 2. Sedangkan untuk hasil akurasi dengan menggunakan data tes 2 tertera pada Tabel 3.

Tabel 2 menunjukkan bahwa akurasi pengenalan kata telah mencapai hasil yang maksimal yaitu 100% menggunakan neuron lapis tersembunyi sebanyak 700 unit.

Meskipun jumlah iterasi yang digunakan adalah 50 iterasi akan tetapi hasil pengenalan terbaik pada masing-masing variasi neuron belum tentu berasal dari iterasi terakhir. Hasil terbaik ini biasanya terjadi lebih awal. Pada

variasi jumlah neuron 50 unit hasil terbaik terjadi pada iterasi ke-5 yaitu 98,33% untuk tingkat kata dan 92,50% untuk tingkat kalimat. Iterasi ke-9 pada variasi neuron lapis tersembunyi sebanyak 100 unit memberikan hasil yang paling maksimum yaitu 99,17% untuk akurasi tingkat kata dan 95,00% untuk tingkat kalimat. Demikian pula untuk variasi neuron 200 unit, hasil terbaik terjadi pada iterasi ke-3. Variasi neuron sebanyak 400 unit memberikan hasil terbaik setelah melalui 9 kali iterasi. Pengenalan terbaik untuk data tes 1, yang didapatkan dari variasi neuron 700 unit, berasal dari iterasi ke-7 sama seperti yang terjadi pada variasi neuron lapis tersembunyi 1000 unit.

Tabel 2 Hasil pengenalan terbaik untuk masing-masing variasi neuron tersembunyi pada data tes 1 Jumlah neuron word accuracy (%) sentence accuracy (%) 50 98,33 92,50 100 99,17 95,00 200 99,17 95,00 400 99,58 97,50 700 100,00 100,00 1000 100,00 100,00 Akan tetapi jika dibandingkan dengan hasil pengenalan kata pada data data yang belum pernah dilatihkan sebelumnya (data tes 2), ketepatan pengenalan sistem menurun untuk semua variasi neuron lapis tersembunyi.

Besar kemungkinan penyebabnya adalah pola suara yang berbeda dengan data sebelumnya yang digunakan dalam pelatihan. Seperti dijelaskan sebelumnya, semua data yang terdapat pada data tes 2 belum pernah dilatihkan ke sistem.

Hasil pengenalan terbaik pada masing-masing variasi neuron lapisan tersembunyi dapat dilihat pada Tabel 3. Seperti halnya data tes 1, akurasi terbaik yang dihasilkan pada data tes 2 juga belum tentu berasal dari iterasi terakhir. Variasi neuron lapis tersembunyi 50 unit memberikan hasil terbaik pada iterasi ke-3, demikian pula yang terjadi pada variasi neuron lapis tersembunyi 100 dan 200 unit. Iterasi ke-29 pada penggunaan neuron lapis tersembunyi sebanyak 400 unit memberikan hasil yang paling baik untuk data tes ini, yaitu 98,33% untuk tingkat kata dan 92,50% untuk

menggunakan JST dengan variasi neuron tersembunyi sebanyak 700 dan 1000 unit menghasilkan akurasi terbaik pada iterasi ke-11 dan 25.

Tabel 3 Hasil pengenalan terbaik untuk masing-masing variasi neuron tersembunyipada data tes 2

Jumlah neuron word accuracy (%) sentence accuracy (%) 50 97,50 87,50 100 97,50 87,50 200 97,50 90,00 400 98,33 92,50 700 97,08 85,00 1000 97,00 90,00 Penggunaan neuron lapis tersembunyi yang lebih banyak tidak menjamin akurasi yang baik. Pada data tes 2, akurasi pengenalan kata sudah mencapai puncaknya dengan neuron lapis tersembunyi sebesar400 unit.

Hal lain yang berhubungan erat dengan banyaknya neuron yang digunakan adalah waktu pelatihan yang dibutuhkan. Penggandaan jumlah neuron lapis tersembunyi juga akan menggandakan waktu pelatihan yang digunakan.

Keseluruhan hasil yang ada menunjukkan bahwa neuron lapis tersembunyi sebanyak400 unit memberikan hasil terbaik. Pemakaian neuron lapis tersembunyi di atas 400 buah memberikan hasil yang relatif konstan, sedangkan jumlah neuron lapis tersembunyi dibawah 400 kurang memberikan hasil yang optimal. Hal ini mengindikasikan banyaknya variasi dalam suara. Meskipun suara berasal dari speaker yang sama dan mengucapkan angka yang sama pula tetap saja terdapat perbedaan. Keragaman ini mengakibatkan jaringan tidak dapat ”mengingat” data pelatihan yang diberikan.

Perbandingan Akurasi Menggunakan

Hand Labeled, Force Alignment, dan FBNN

Percobaan kedua akan membandingkan hasil pengenalan kata menggunakan data yang dilabel secara manual (hand-labeled data)

dengan pengenalan kata menggunakan force alignment.

proses force alignment berasal dari bobot jaringan ke-29 dengan jumlah neuron lapis tersembunyi sebanyak 400 unit. Bobot jaringan ini memberikan hasil pengenalan terbaik berdasarkan percobaan sebelumnya.

Pada dasarnya pelatihan jaringan dengan proses force alignment memiliki tahapan yang sama dengan pelatihan menggunakan data

hand-labeled. Arsitektur JST yang digunakan pun sama dengan yang digunakan pada tahap sebelumnya. Pengenalan menggunakan metode ini tidak lagi memerlukan file transkripsi fonetik yang pada percobaan sebelumnya dihasilkan secara manual. Transkripsi fonetik akan dihasilkan secara otomatis oleh pengenal kata yang telah tersedia. Dalam hal ini pengenal kata yang tersedia berasal dari bobot JST ke-29 dengan neuron lapis tersembunyi sebanyak 400 unit.

Selain terhadap force alignment,

perbandingan akurasi juga dilakukan terhadap FBNN. Arsitektur jaringan yang digunakan adalah jaringan lapis banyak dengan 3 layer ,fully connected, dengan arsitektur yang sama seperti dua proses sebelumnya. Proses pengenalan menggunakan FBNN juga membutuhkan JST yang telah dilatih terlebih dahulu sebagai permulaannya. Peluang observasi yang dihasilkan oleh JST ini akan dihitung kembali menggunakan persamaan yang diturunkan dari koefisien forward dan

backward. Nilai peluang transisi juga turut dihitung kembali dengan nilai awal yang ditetapkan sebesar 0,4 sebagai peluang untuk berpindah dari suatu state ke state berikutnya dan 0,6 sebagai peluang untuk tetap berada pada state yang sama. Ketepatan pengenalan kata untuk masing-masing proses dapat dilihat pada Tabel 4.

Tabel 4 Hasil pengenalan kata menggunakan proses hand-labeled, force alignment

dan FBNN Proses word accuracy (%) Sentence accuracy (%) hand-labeled 98,33 92,50 force alignment 97,08 87,50 FBNN 97,92 90,00

Pengenalan menggunakan data yang dilabel secara manual menghasilkan akurasi yang lebih tinggi dibandingkan dua metode lain. Akurasi tingkat kata menggunakan force

alignment lebih rendah 1,25% dibandingkan dengan data hand-labeled yaitu sebesar 97,08%. Sedangkan untuk tingkat kalimat, pengenalan menurun sebesar 5,00% menjadi sebesar 87,50%. Pengenalan menggunakan FBNN menghasilkan akurasi tingkat kata dan kalimat yang tidak jauh berbeda dari sebelumnya yaitu 97,92% dan 90,00%.

Gambar 11 menunjukkan perbandingan akurasi ketiga proses tersebut. Melalui percobaan di atas dapat disimpulkan bahwa untuk kasus kali ini proses pengenalan menggunakan data suara yang dilabel secara manual memberikan hasil terbaik dibandingkan dua metode lainnya.

0 20 40 60 80 100

hand-labeled force alignment FBNN

aku

rasi

(

%

)

word accuracy (%) Sentence accuracy (%)

Gambar 8 Perbandingan akurasi dari proses hand-labeled, force alignment,

dan FBNN.

KESIMPULAN DAN SARAN

Kesimpulan

Melalui penelitian ini dapat ditarik beberapa kesimpulan sebagai berikut:

1 Untuk sistem CDR berbahasa Indonesia ini telah didefinisikan kamus kata dasar bilangan dan grammar yang dapat digunakan untuk pengembangan selanjutnya.

2 Hasil pengenalan kata terbaik dicapai dengan variasi neuron pada lapisan tersembunyi sebanyak 400 unit dengan iterasi sebanyak 50 kali yaitu sebesar 98,33% untuk word accuracy dan 92,50% untuk sentence accuracy. Hasil terbaik ini dicapai pada iterasi ke 29.

3 Pada kasus ini pengenalan menggunakan data hand-label memberikan hasil yang lebih baik dibandingkan dengan force

alignment dan pelatihan menggunakan

algoritma forward backward. Akurasi tingkat kata berturut-turut untuk ketiga proses tersebut adalah 98,33%, 97,08%,

dan 97,92%. Akurasi tingkat kalimat untuk proses hand-label, force alignment,

dan FBNN masing-masing adalah sebesar 92,50%, 87,50%, dan 90,00%.

4 Optimasi pengenalan kata menggunakan

force alignment dan FBNN memberikan asil yang tidak berbeda nyata dengan proses pelabelan manual berdasarkan uji statistik yang dilakukan.

Saran

Untuk pengembangan penelitian selanjutnya disarankan hal-hal sebagai berikut:

1 Penelitian ini hanya dapat mengenali kata dasar bilangan. Oleh sebab itu pengkajian lebih lanjut mengenai kata bilangan berimbuhan perlu dilakukan.

2 Pengembangan lain yang dapat dilakukan adalah optimasi ekstraksi ciri untuk dapat meningkatkan akurasi sistem.

3 Penelitian ini hanya membagi fonem menjadi satu bagian saja (independent part). Perlu dikembangkan juga penelitian yang membagi fonem menjadi dua atau tiga bagian bergantung pada fonem disekitarnya (dependent part) dan mengelompokkan fonem-fonem tersebut ke dalam sebuah kelas berdasarkan posisi artikulasinya. Dengan pengklasifikasian ini diharapkan akurasi sistem akan meningkat.

DAFTAR PUSTAKA

Carmell T et al. 1997. Spectrogram reading. http://cslu.cse.ogi.edu/tutordemos/Sp ectrogramReading/spectrogram.html. [27 Juli 2005].

Cosi P. 2000. Hybrid HMM-ANN architectures for connected digit recognition. IEEE-INS-ENNS 5: 5085.

Cosi P, Hosom JP, Shalkwyk J, Sutton S, Cole RA. 1998. Connected digit recognition experiments with the OGI toolkit’s neural network and HMM-based recognizers. IEEE Workshop on Interactive Voice Technology for Telecommunication Applications

(IVTTA-ETWR98);Turin, September 1998.

Recognition. New Jersey: Prentice Hall. recognition system. http:// lcavwww.epfl.ch/~minhdo/asr_proje ct/asr_project.pdf. [18 September 2005].

Duc DN, Hosom JP, Mai LC. 2001. HMM/ANN system for Vietnamese continous digit recognition. http://www.speech.bme.ogi.edu/publi cations/ps/duc03.pdf. [4 Juli 2005].

[PPPBDEPDIKBUD] Pusat Pembinaan dan Pengembangan Bahasa Departemen Pendidikan dan Kebudayaan Repulik Indonesia. 1996. Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan dan Pedoman Umum Pembentukan Istilah. Bandung: CV Pustaka Setia.

Fausett L. 1994. Fundamentals of Neural

Networks. New Jersey: Prentice Hall. Rabiner J. 1989. A tutorial on hidden markov model and selected applications in speech recognition. Proc IEEE Vol 22 No.2. Februari 1989.

Fu L. 1994. Neural Networks in Computer Intelligence. Singapura: McGraw-Hill.

Hosom JP et al. 1999. Training neural networks for speech recognition. http://cslu.cse.ogi.edu/training neural networks for speech recognition.html. [5 Desember 2004]

Tebelskis J. 1995. Speech recognition using neural networks. [disertasi]. Pennsylvania: Carnegie Mellon University.

Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language

Processing, Computational Linguistic, and Speech Recognition.

New Jersey: Prentice Hall.

Yan Y, Fanty M, Cole R. 1997. Speech recognition using neural networks with forward-backward probability generated targets. International Conference on Acoustic, Speech, and Signal Processing: 3241-3244.

Dokumen terkait