masing-masing direkam sebanyak 16 kali. Data tersebut masih berupa data suara kotor karena masih terdapat silent, sehingga perlu dibersihkan dengan menghilangkan silent setelah itu dilakukan normalisasi. Proses segmentasi dilakukan secara manual sehingga membutuhkan waktu yang cukup lama. Segmentasi secara manual menghasilkan data suara berjumlah 752 yang meliputi 26 fonem. Data fonem yang dihasilkan dari segmentasi kemudian ditetapkan 75% sebagai data latih dan 25% sebagai data uji sehingga penelitian ini menggunakan data sebanyak 564 untuk data latih dan 188 untuk data uji. Kemudian data diekstraksi menggunakan MFCC yang dimplementasi menggunakan fungsi yang sudah tersedia yang dikembangkan oleh Slaney pada tahun 1998. Seperti yang telah dijelaskan sebelumnya, frame yang digunakan sebesar 30 ms, dimana terjadi overlap antar frame sebesar 0%, 25%, dan 50%, serta cepstral coefficient yang digunakan sebesar 13, 20, dan 26 untuk setiap frame. Data pelatihan yang telah diolah dan dilakukan praproses digunakan untuk membangun model pengenalan kata dengan
PNN. Model PNN ini yang selanjutnya diuji dengan data pengujian yang telah diolah. Perbandingan Overlap 0%, 25%, dan 50%
Kehilangan informasi dapat dihindari dengan melakukan overlapping frame yang satu dengan frame tetangganya. Perbandingan tingkat keakurasian model pengenalan fonem dapat dilihat pada overlap yang berbeda, baik pada overlap 0%, 25%, maupun 50%.
Gambar 7 Perbandingan akurasi sistem pada overlap 0%, 25%, dan 50%. Pada Gambar 7 ditunjukkan bahwa rata-rata akurasi, pengenalan fonem maksimum, dan pengenalan fonem yang minimum memiliki akurasi yang paling baik pada overlap 50%. Hal ini berarti informasi yang diambil dari tetangganya yang paling baik adalah overlap 50% pada pengenalan fonem. Jika tidak diambil informasi dari tetangganya atau overlap 0% maka akurasi menurun sangat drastis. Semakin besar overlap bukan berarti hasilnya pasti semakin baik tetapi dapat juga tergantung dengan kecepatan berbicara dan lebar frame namun pada kasus ini overlap 50% yang paling baik.
Perbandingan Koefisien 13, 20, dan 26 Jumlah koefisien yang berbeda dapat mengindikasikan cocok atau tidaknya jumlah matriks ciri pada model. Perbandingan tingkat keakurasian model pengenalan fonem dapat dilihat pada jumlah koefisien yang berbeda, baik pada koefisien 13, 20 maupun 26. Hasil rata-rata akurasi model pada koefisien 13, 20, dan 26 dapat dilihat pada Gambar 8.
Koefisien 20 dan 26 memiliki akurasi yang sama, sedangkan koefisien 13 hanya mencapai 94,71%. Hal ini berarti informasi ciri pada koefisien 20 dan 26 lebih baik daripada koefisien 13 pada pengenalan fonem. Untuk semua koefisien beberapa fonem telah berhasil dikenali sebesar 100% sedangkan fonem yang dikenali paling kecil akurasinya sebesar 75%.
Gambar 8 Perbandingan akurasi sistem pada koefisien 13, 20, dan 26.
Hasil Akurasi Pengenalan Fonem
Fonem yang teridentifikasi dengan benar oleh model PNN menghasilkan rata-rata akurasi yang paling baik pada peneltian ini yaitu sebesar 97,12%. Identifikasi yang salah hanya terdapat pada fonem /d/, /e/, /n/, dan /t/. Data uji fonem /d/ dan /e/ sebanyak empat namun hanya satu fonem /d/ dikenali sebagai fonem /g/ begitu pula dengan fonem /e/ yang dikenali sebagai fonem /c/. Data uji fonem /n/ dan /t/ sebanyak delapan namun hanya satu fonem /n/ dikenali sebagai fonem /w/ begitu pula dengan fonem /t/ yang dikenali sebagai fonem /i/. Hal ini disebabkan terdapat kesamaan pola dan karekteristik sehingga sistem salah mengenali fonem.
Semua fonem pada overlap 50% akurasinya tidak ada yang di bawah overlap 25%. Overlap 50% akurasinya hampir semua fonem di atas overlap 0% kecuali pada fonem /d/ dan /t/. Pada overlap 0% terdapat tiga fonem yang memiliki selisih akurasi cukup jauh dengan overlap 50%, yaitu fonem /f/, /k/, dan /q/. Hal ini berarti informasi yang diambil dari tetangganya yang paling baik adalah overlap 50%. Grafik perbandingan tingkat akurasi per fonem pada overlap 0%, 25%, dan 50% dapat dilihat pada Lampiran 1.
Akurasi untuk semua fonem koefisien 20 dan 26 sama persis sedangkan koefisien 13 pada fonem /p/, /t/ dan /y/ akurasinya selisih cukup jauh. Hal ini berarti bahwa fonem /p/, /t/, dan /y/ lebih cocok dengan jumlah matriks ciri 20 dan 26. Grafik perbandingan tingkat akurasi per fonem pada koefisien 13, 20, dan 26 dapat dilihat pada Lampiran 2.
Hasil Pengujian dengan Noise
Percobaan ini menambahkan noise jenis Gaussian white noise sebesar 30 dB, 20 dB, dan 10 dB pada data uji. Pada Gambar 9 ditunjukkan bahwa MFCC dengan pemodelan PNN hasil akurasi pada data uji yang diberi noise 30 dB terjadi penurunan yang tidak begitu
87.5% 91.83% 94.71% 100% 100% 100% 50% 62.5% 75% 0% 20% 40% 60% 80% 100%
overlap 0% overlap 25% overlap 50%
Rata-rata maksimum minimum
94.71% 97.12% 97.12% 100% 100% 100% 75% 75% 75% 50% 60% 70% 80% 90% 100%
koefisien 13 koefisien 20 koefisien 26 rata-rata maksimum minimum
8 jauh dari akurasi fonem tanpa noise sedangkan
jika ditambahkan noise 20 dB dan 10 dB terjadi penurunan sangat drastis. Dibandingkan teknik lain, dalam mengekstraksi sinyal suara yang bersifat low noise (>30 dB) teknik MFCC relatif lebih baik (Buono 2009). Hal ini dikarenakan cara kerja MFCC didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan sinyal suara sebagaimana manusia merepresentasikan.
Gambar 9 Perbandingan data uji tanpa noise dan dengan noise.
Dari perbandingan yang telah dilakukan fonem /a/ merupakan fonem yang paling stabil karena data pelatihannya yang banyak. Pada Gambar 10 ditunjukkan perbedaan sinyal fonem /a/ tanpa noise dengan sinyal yang telah diberi noise 10 dB. Fonem /w/ tidak dikenali pada noise 30 dB. Pada noise 20 dB Ada enam fonem yang tidak dapat dikenali yaitu /j/, /o/, /q/, /v/, /w/, dan /y/. Pada noise 10 dB fonem yang tidak dikenali sebanyak 21 fonem .
Sinyal suara asli
Sinyal suara dengan noise 10 dB
Gambar 10 Sinyal suara asli dan sinyal suara dengan noise 10 dB.
Perbandingan Koefisien, Overlap, dan Data Uji
Perbandingan antara koefisien, overlap, dan data uji dengan noise dan tanpa noise dapat dilihat pada Gambar 11. Terlihat bahwa akurasi pada data uji tanpa noise dan data uji yang ditambah noise 30 dB masih di atas 70% pada setiap overlap dan koefisien.
Gambar 11 Perbandingan koefisien, overlap, dan jenis data uji.
Pada Gambar 11 ditunjukkan bahwa akurasi pada data uji tanpa noise yang paling baik yaitu pada overlap 50% dan dengan koefisien 20 dan 26 sebesar 97,12%. Akurasi pada data uji yang ditambah noise 30 dB yang paling baik adalah overlap 50% dan koefisien 26 sebesar 85,26%. Akurasi pada data uji yang ditambah noise 20 dB yang paling baik adalah overlap 50% dan koefisien 26 sebesar 58,75%. Akurasi pada data uji yang ditambah noise 10 dB yang paling baik adalah overlap 25% dan koefisien 26 sebesar 13,39%. Dari perbandingan ini dapat dilihat bahwa overlap 50% memperlihatkan akurasi yang paling baik karena baik pada data uji tanpa noise maupun data uji yang ditambah noise 30 dB dan 10 dB memiliki akurasi yang paling baik. Koefisien 26 memiliki akurasi yang paling baik pada data uji tanpa noise maupun data uji yang ditambah noise 30 dB, 20 dB, dan 10 dB. Pada Lampiran 3 ditunjukkan secara detail hasil akurasi perbandingan koefisien, overlap, dan jenis data uji.