FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
HASIL DAN PEMBAHASAN
Pengujian yang telah dilakukan adalah tahap praproses meliputi proses akuisisi data suara digital, proses sinyal yang ditambahkan noise dan proses sinyal tanpa penambahan noise, proses frame blocking dan windowing, serta proses ekstraksi ciri dengan MFCC yang berbasis Transformasi Fourier dan Wavelet yang bebasis Transformasi Wavelet dengan tipe Daubechies berorde empat.
Pembentukan referensi fonem dan pencocokan pola
Pengujian yang dilakukan merupakan kombinasi dari sinyal yang ditambahkan noise atau tidak serta jumlah neuron tersembunyi. Total keseluruhan adalah 48 percobaan dimana 36 percobaan merupakan kombinasi dari sinyal yang ditambahkan noise. Percobaan ini menggunakan kombinasi enam neuron tersembunyi, data yang ditambah noise dan dua jenis tipe ekstraksi ciri.
Hal-hal yang dilihat dalam pencocokan pola JST adalah jumlah epoch yang dilalui dalam proses, waktu yang dibutuhkan untuk mencapai jumlah epoch tersebut dan nilai generalisasi yang didapat dari pembelajaran yang telah dilakukan.
Sinyal suara tanpa ditambahkan noise
(sinyal asli)
Wavelet Daubechies orde 4 (db4)
Pengujian pertama dilakukan pada tipe Wavelet Daubechies db4 level satu, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut didapat hasil akurasi yang terbaik dilakukan pada saat proses pembelajaran dengan 220 neuron tersembunyi. Gambar 10 merupakan grafik proses pembelajaran yang dilakukan pengujian tersebut. Walaupun pengujian tersebut tidak mencapai kekonvergenan pada pembelajaran ini, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 32 detik.
Gambar10 Proses Pembelajaran Wavelet dengan 220 neuron tersembunyi.
Gambar 11 menunjukkan hasil dari seluruh pengujian pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri. Tingkat akurasi terbaik didapat sebesar 36% untuk generalisasi 26 fonem yang diujikan.
Gambar 11 Grafik tingkat akurasi Wavelet. Gambar 12 menunjukkan tingkat akurasi masing-masing fonem pada pengujian dengan 220 neuron tersembunyi sebagai percobaan terbaik dalam transformasi Wavelet sebagai ekstraksi ciri.
Gambar 12 Grafik hasil pengenalan fonem dengan Wavelet.
Akurasi pengenalan fonem terbaik pada pengujian transformasi Wavelet sebagai ekstraksi ciri terdapat pada fonem /h/ dan /n/ sebesar 100% seperti yang ditunjukan pada gambar 11. Fonem /e/ dan /u/ mencapai akurasi sebesar 75 %. Fonem /a/, /f/, /g/, /m/, /q/, dan /y/ mencapai akurasi sebesar 50%. Di lain pihak, sisa fonem yang lainnya hanya mencapai akurasi yang tidak lebih besar dari 25%.
MFCC
Pengujian selanjutnya dilakukan dengan ekstraksi ciri berbasis transformasi Fourier yaitu MFCC, dengan toleransi galat 0.00003, laju pembelajaran 0.01, dan kombinasi jumlah neuron tersembunyi 200 sampai 250 dengan selang 10. Dari enam pengujian tersebut, berbeda dengan hasil pengujian sebelumnya dengan transformasi Wavelet sebagai ekstraksi ciri, MFCC mendapat hasil akurasi terbaik yang dilakukan pada saat pembelajaran dengan 240 neuron tersembunyi. Gambar 13 merupakan grafik proses pembelajaran yang terbaik yang didapat pada pengujian ini. Walaupun pengujian tidak mencapai kekonvergenan pada saat pembelajaran, tetapi prosesnya berhasil menyelesaikan 5000 epoch dalam waktu 4 menit 50 detik.
Gambar 13 Proses Pembelajaran MFCC dengan 240 neuron tersembunyi.
Gambar 14 Grafik tingkat akurasi MFCC. Gambar 14 menunjukkan hasil dari seluruh pengujian yang dilakukan pada pengenalan fonem dengan MFCC sebagai transformasi berbasis transformasi Fourier. Hasil yang terbaik yang didapat dari serangkaian pengujian sebesar 100% pada proses pembelajaran dengan 240 neuron tersembunyi.
Tabel 2 Hasil pengujian pengenalan fonem berdasarkan tipe ekstraksi ciri.
Tabel 2 menunjukkan hasil seluruh pengujian pengenalan fonem berdasarkan ekstraksi ciri. Terlihat bahwa hasil yang didapat dari transformasi Wavelet sebagai ekstraksi ciri sangat jauh di bawah hasil MFCC sebagai ekstraksi ciri. MFCC memperoleh hasil terbaik sebesar 100%, sedangkan Wavelet hanya mencapai 36% dengan jumlah neuron tersembunyi yang berbeda pada saat proses pembelajaran.
Tabel 3 Perbandingan hasil pengenalan fonem
Tabel 3 menunjukkan hasil akurasi setiap fonem pada pengujian terbaik di masing-masing metode ekstraksi ciri. Pengenalan fonem dengan MFCC sebagai ekstraksi ciri dapat mengenali seluruh fonem dengan sempurna, sedangkan pengenalan fonem dengan transformasi Wavelet sebagai ekstraksi ciri dapat mengenali fonem dengan sempurna hanya pada fonem /h/ dan /n/.
Sinyal suara ditambahkan noise
Pengujian selanjutnya yaitu dengan menambahkan noise berupa white gaussian noise pada data suara asli dengan nilai 10 dB, 20 dB, dan 30 dB. Data latih yang digunakan untuk membuat model JST tetap menggunakan data asli. Perbandingan data latih dan data uji menggunakan perbandingan 75:25 seperti pada pengujian dengan sinyal suara tanpa ditambahkan noise.
Wavelet Daubechies orde 4 (db4)
Gambar 15 Grafik perbandingan akurasi Wavelet data asli dan data ber-noise.
Gambar 15 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pada gambar tersebut dapat terlihat bahwa tingkat akurasi tidak mengalami perubahan yang signifikan walaupun data uji ditambah dengan noise pada saat pengujian.
Tabel 4 Hasil pengujian Wavelet data asli dan data yang ditambahkan noise.
Tabel 4 menunjukkan secara detail hasil akurasi perbandingan data asli tanpa penambahan noise dan data dengan penambahan noise. Untuk pengujian yang menggunakan pembelajaran JST dengan 200, 210, 220, dan 250 neuron tersembunyi sama sekali tidak mengalami perubahan tingkat akurasi. Pada pengujian dengan pembelajaran JST 230 dan 240 neuron tersembunyi mengalami penurunan tingkat akurasi, walaupun hanya 1% pada penambahan noise 10 dB untuk 230 neuron tersembunyi dan 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi.
MFCC
Gambar 16 menunjukkan grafik perbandingan akurasi pada data asli tanpa penambahan noise dan data dengan penambahan noise 10 dB, 20 dB, dan 30 dB. Pengujian ini pun melakukan kombinasi pada neuron tersembunyi seperti pengujian sebelumnya. Pada gambar 16 ini dapat terlihat perbedaan hasil dengan pengujian sebelumnya.
Gambar 16 Grafik perbandingan akurasi MFCC data asli dan data ber-noise.
Data uji yang ditambah noise pada pengenalan fonem dengan MFCC sebagai ekstraksi ciri mengalami penurunan tingkat akurasi. Seperti terlihat pada Tabel 5 yang menunjukkan secara detail hasil akurasi pengujian ini, setiap pengujian dengan kombinasi neuron tersembunyi mengalami penurunan tingkat akurasi. Penurunan tingkat akurasi yang paling signifikan terjadi pada penambahan noise 10 dB sebesar 13% pada saat pembelajaran JST 220 neuron tersembunyi. Penambahan noise 20 dB mempengaruhi penurunan tingkat akurasi sampai dengan 32% pada saat pembelajaran JST 230 neuron tersembunyi. Penambahan noise 30 dB mempengaruhi tingkat akurasi hasil pengenalan fonem hingga 64% pada pembelajaran JST 230 neuron tersembunyi.
Tabel 5 Hasil pengujian MFCC data asli dan data yang ditambahkan noise.
Hasil pengujian secara keseluruhan dengan membandingkan tingkat akurasi antara pengenalan fonem dengan menggunakan ekstraksi ciri berbasis transformasi Fourier dan transformasi Wavelet yang ditambahkan noise didapat bahwa pengenalan fonem dengan ekstraksi ciri berbasis transformasi Fourier yang ditambah noise semakin merusak sinyal asli sehingga pola masing-masing fonem semakin tidak jelas. Hasil terbaik dengan menggunakan sinyal suara yang ditambahkan noise untuk transformasi Fourier adalah 73% dengan 30 dB pada pembelajaran JST dengan 240 neuron tersembunyi.
Pengenalan fonem dengan ekstraksi ciri berbasis transformasi Wavelet yang ditambah noise, tingkat akurasinya menunjukkan bahwa penambahan noise tidak mempengaruhi penurunan tingkat akurasi. Hal ini terlihat dari perbandingan pada Gambar 15 dan Tabel 4 yang menunjukkan penurunan tingkat akurasi terburuk hanya sebesar 1% pada penambahan noise 10 dB untuk pembelajaran JST 230 neuron tersembunyi. Serta 1% pada penambahan noise 20 dB dan 30 dB untuk 240 neuron tersembunyi pada saat pembelajaran model JST.