pilih tanda + untuk melalui setting mangle.
PENGENALAN WICARA KARAKTER INDONESIA MENGGUNAKAN HIDDEN MARKOV MODEL
I Wayan Adi Juliawan Pawana
Program Studi Teknik Informatika, Jurusan Ilmu Komputer,
Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Udayana, Bali [email protected]
ABSTRAK
Automatic Speech Recognition (ASR) merupakan mesin kompleks dimana tujuan dari sistem tersebut adalah untuk mengetahui kata yang diucapkan oleh manusia. Dalam kehidupan nyata penggunaan teknologi pengenalan wicara dapat membantu manusia dalam melaksanakan aktifitas khususnya bagi orang yang memiliki keterbatasan. Penelitian ini bertujuan untuk mengembangkan sebuah sistem pengenalan wicara menggunakan Hidden Markov Model (HMM) menggunakan MATLAB, yang merupakan state of the art dari pengenalan wicara, serta Mel-Frequency Cepstral Coefficient sebagai metode ekstraksi fitur. Penelitian ini berfokus pada mengenali seluruh digit angka indonesia ( dari Nol sampai Sembilan) dan kata ”Aku”, ”Kamu”, ”Kita”, ”Mereka”, bedasarkan struktur kata terisolasi. Pengujian dilakukan dengan jumlah mixture tiap state yang berbeda. Dari hasil pengujian sistem dengan jumlah mixture yang berbeda diperoleh tingkat akurasi terbaik adalah 79,29% saat jumlah mixture adalah lima.
Kata kunci : Hidden Markov Model; Mel Frequency Cepstral Coefficient; Pengenalan Wicara
1. Pendahuluan 1.1 Latar Belakang
Suara merupakan alat komunikasi yang paling dasar yang digunakan oleh manusia. Dewasa ini ketika teknologi semakin berkembang pesat, manusia tidak hanya berinteraksi dengan manusia saja, tetapi seringkali juga harus berinteraksi dengan perangkat-perangkat teknologi seperti komputer. Namun komputer tidak dapet mengerti bahasa yang kita ucapkan, sehinnga diperlukan sebuah sistem pengenalan wicara (speech recognition) untuk mengenali apa yang diucapkan manusia sehingga dapat mempermudah manusia dalam melakukan aktifitas.
Pengenalan wicara (Speech Recognition) atau lebih dikenal dengan automatic speech recognition (ASR) merupakan proses untuk menterjemahkan bahasa manusia ke dalam komputer. Walaupun ASR secara teknis adalah membangun sistem untuk memetakan sinyal menjadi rangkaian kata. Secara umum seluruh sistem ASR bertujuan untuk mengekstrak secara otomatis kata yang diucapkan dari sinyal input [1].
Metode pengenalan wicara seperti Linear Predictive [2] Coding, Neural Network [3],
Hidden Markov Model [4] sudah banyak digunakan dalam pengenalan suara. Hidden Markov Model (HMM) merupakan salah satu metode komputasi tersukses yang digunakan dalam pengenalan suara .
Mel Frequency Cepstral Coefficient atau MFCC adalah salah satu metode ekstraksi fitur yang digunakan dalam pengenalan suara untuk merepesentasikan suara menjadi sebuah acoustic vector. MFCC memiliki kelebihan dalam kompleksitas algoritma yang rendah dalam implementasi dari algoritma ektraksi fitur [5].
Bedasarkan penjelasan diatas, pada penelitian ini akann dibangun sebuah sistem pengenalan wicara yang menggunakan metode ekstraksi fitur MFCC dan metode pengenalan HMM untuk mengenali kata berbahasa Indonesia
1.2 Identifikasi Masalah
Dari latar belakang dapat dirumuskan masalah yang akan diangkat ke dalam penelitian yaitu “Bagaimana pengenalan wicara bahasa indonesia dengan menggunakan metode ektraksi fitur MFCC dan metode pengenalan HMM”, “Apa pengaruh
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
97 penambahan kosakata terhadap arsitektur HMM”
1.3 Tujuan Penelitian
Tujuan penelitian yang penulis lakukan adalah untuk mengetahui tingkat akurasi pengenalan suara menggunakan Hidden Markov Model sebagai metode pengenalan dan Mel Frequence Cepstral Coefficient sebagai metode ekstraksi fitur untuk mengenali suara bahasa Indonesia
1.4 Manfaat Penelitian
Manfaat penelitian ini adalah nantinya selain dikembangkan menjadi aplikasi untuk mempermudah manusia berinteraksi dengan komputer, sehingga komputer dapat dikendalikan dengan suara, diharapkan penelitian ini dapat menjadi batu loncatan dalam penelitian pengolahan sinyal digital lainnya lainnya seperti Voice Verification (Pencocokan Suara), Synthesizer, Musical Instruments Analysis dan lain lain.
1.5 Batasan Masalah
Batasan masalah yang ada pada penelitian ini adalah pengenalan suara masih terbatas untuk mengenali suara digit bahasa indonesia yaitu “Nol”, “Satu” ,”Dua” ,”Tiga” ,”Empat” ,”Lima” ,”Enam” ,”Tujuh” ,”Delapan” ,Sembilan” . dan kata “Aku”, “Kamu”, “Kita”, “Mereka”.
2. Landasan Teori
2.1 Mel Frequence Cepstral Coefficient (MFCC)
Ektraksi fitur merupakan salah satu element terpenting dalam representasi sinyal suara karena semakin baik metode ektraksi fitur maka akan meningkatkan performa pengenalan suara. Effisiensi dari tahap ini merupakan hal penting dalam fase berikutnya
MFCC didasarkan pada variasi dari frekuensi kritis telinga manusia dengan filter linear pada frekuensi rendah dan logaritmik pada frekuensi tinggi untuk menangkap karakteristik penting dari sebuah ucapan. Penelitian telah menunjukan bahwa persepsi manusia dalam mendengar tidak mengikuti skala linear. Jadi untuk setiap suara dengan frekuensi aktual f, diukur dalam Hz, pitch subjektif diukur menggunakan sebuah skala
dinamakan skala mel. Skala frekuensi mel bersifar linear pada frekuensi dibawah 1000 Hz dan bersifat logaritmik diatas 1000 Hz.
Gambar 1. Proses Umum Mel-Frequency Cepstral Coefficient
2.2 Hidden Markov Model (HMM)
Rantai markov telah menjadi cara yang berguna untuk menangkap sifat stokastik variabel dalam beberapa kasus ekonomi dan finansial. Walaupun Hidden Markov Model banyak dikembangkan dalam aplikasi teknik seperti pengenalan suara. Efektifitas nya kemudian diakui dalam beberapa area sosial riset. HMM adalah teknologi yang dominan digunakan dalam pengenalan suara. HMM menyediakan paradigma yang sangat berguna untuk memodelkan sinyal suara yang dinamis[4].
HMM menyediakan formulasi matematika yang solid untuk masalah pembelajaran parameter HMM untuk observasi suara. Selanjutnya, algoritma yang cepat dan efisien ada untuk masalah perhitungan pencarian model yang mirip dari barisan pengamatan. Pada dasarnya HMM merupakan kumpulan state stokastik, dimana tiap state terasosiasi dengan sebuah pobabilitas distribusi. Transisi dari state diatur oleh sebuah himpunan probabilitas yang dinamakan probabilitas transisi. Dalam keadaan tertentu, suatu hasil atau pengamatan dapat dihasilkan sesuai dengan distribusi probabilitas. Hanya hasil yang dapat diobservasi oleh pengamat, bukan state sehingga dinamakan Hidden Markov Model (HMM).
Terdapat tiga masalah dasar yang harus diselesaikan pada model untuk digunakan pada aplikasi di dunia nyata, masalah tersebut adalah:
Masalah 1 : Diberikan barisan observasi dan model
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
98 bagaimana perhitungan effisien , Peluang barisan observasi dihasilkan dari model
Masalah 2 : Diberikan barisan observasi dan model , bagaimana memilih barisan state yang optimal
Masalah 3 : Bagaimana menyesuaikan parameter model untuk memaksimalkan
Masalah 1 adalah maslah evaluasi, diberikan sebuah model dan sebuah barisan observasi. Bagaimana menghitung peluang barisan observasi dihasilkan oleh model. Bisa dilihat masalah ini merupakan scoring seberapa baik model yang diberikan terhadap barisan observasi.
Maslaah 2 merupakan salah satu masalah dimana kita berusaha untuk menemukan bagian tersebunyi dari model, yaitu menemukan barisan state yang “benar”. Itu harus jelas untuk semua namum pada kasus degenerate model, tidak ada barisan state „benar” untuk ditemukan. Terdapat beberapa kriteria optimasi untuk menemukan barisan state. Pengunaannya mungkin dapat untuk mempelajari struktur dari model untuk mendapatkan barisan state untuk countinous speech regocnition atau mendapatkan rata-rata statistic dari tiap state.
Masalah 3 merupakan masalah dimana kita ingin mengoptimasi parameter model sehinga menjelaskan dengan baik bagaimana barisan observasi muncul. Barisan observasi digunakan untuk menyesuaikann parameter model dinamakan barisan training karena digunakan untuk melatih HMM. Masalah training merupakan maslah krusial untuk aplikasi HMM. Karena mengijinkan untuk mengadopsi parameter model ke dalam data training yaitu membuat model terbaik untuk fenomena nyata.
3. Metodologi Penelitian 3.1 Desain Penelitian
Pada penelitian ini, penulis mengumpulan data suara dari 10 orang, dengan tiap orang responden diminta untuk bebicara angka 0 sampai 9 dan kata aku, kami, mereka, kita sebanyak 4 kali. Kemudian dari data suara akan mengalami preprocessing menggunakan metode Mel-Frequencu Cepstral Coefficient
yang nantinya diperoleh sekumpulan vektor akustik. Hasil ini digunakan sebagai input training pada Hidden Markov Model (HMM). Setelah proses training maka sistem akan diuji menggunakan confussion matrix untuk mendapatkan tingkat akurasi model sistem pengenalan wicara
3.2 Pengumpulan Data
Teknik pengumpula data yang digunakan adalah dengan cara penulis mengumpulkan sendiri data suara menggunakan mikrophone handphone. Kemdian responden diminta untuk merekan suara angka 0 sampai 9 dan kata aku, kami, mereka, kita sebanyak 4 kali sehingga untuk tiap responden diperoleh data suara sebanyak 30 file. Responden yang digunakan pada penelitian ini adalah 10 orang mahasiswa dengan rata-rata umur adalah 21 tahun
3.3 Pengolahan Data Awal
Pengolahan awal data (preprocessing) pada sistem ini adalah mengkonversi data hasil rekaman responden ke dalam format file .wav (Waveform Audio File Format) dengan frekuensi sampling adalah 16000 Hz. Setelah dikonversi maka hasil rekaman akan mengalami proses trimming untuk mendapatkan suara dan menghilangkan bagian “silence.
3.4 Metode yang Diusulkan
Pada sistem pengenalan suara ini diusulkan untuk menggunakan metode Countinuous Densities Hidden Hidden Markov Model karena keberhasilannya dalam mengenali suara. Terdapat beberapa fase, yaitu fase ekstraksi fitur, fase insialisasi bobot HMM, fase training dan fase testing.
3.5 Eksperimen dan Pengujian Metode
Sampel suara memiliki karakteristrik sendiri untuk setiap kata yang berbeda serta oleh pembicara yang berbeda. Terdapat empat faktor utama yang harus dipertibangkan ketika mengumpulkan data karena berpengaruh terhadap kumpulan vektor training yang digunakan untuk melatih HMM. Faktor tersebut adalah siapa yang berbicara, kondisi pembicara, kondisi lingkungan setra sistem transmisi dalam input suara. Pada sistem ini
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
99 teradapat 10 responden berbeda yang terdiri dari laki laki dan perempuan yang memiliki rata rata umur 21 tahun.
3.6 Evaluasi dan Validasi
Proses evaluasi metode menggunakan Confusion Matrix, Sebuah Confusion Matrix memiliki informasi mengenai klasifikasi aktual dan prediksi yang dilakukan oleh sistem klasifikasi. Hasil klasifikasi dibandingkan dengan informasi asli. Kekuatan confusion matrix adalah dapat mengidentifikasi sifat kesalahan klasifikasi, serta berapa jumlahnya.
4. Pengujian
Sebelum evaluasi dilakukan, sistem harus melakukan training. Training dilakukan pada pembicara pria dan wanita dengan total 10 orang, dan 3 sampel tiap kata untuk tiap orang. Sehingga terdapat 420 sampel suara training. Hasil trainng adalah 14 model HMM (satu untuk tiap kata). Tiap model terdapat 5 state dengan jumlah mixtute adalah variabel bebas, jumlah mixture yang akan diuji adalah jumlah mixture 2, 3, 4 dan 5 untuk tiap state. Struktur model HMM yang digunakan adalah model left-right dengan ∆ =1. Jumlah sampel suara yang digunakan untuk evaluasi adalah 10 sampel tiap kata, sehingga terdapat 140 sampel suara untuk testing. Sampel suara untuk testing berbeda dengan sampel suara untuk training.
5. Evaluasi
Dengan menggunakan MFCC dan HMM untuk pengenalan wicara karakter Indonesia, diperoleh hasil akurasi 52.86% untuk jumlah mixture pada state adalah 3. Untuk jumlah mixture 2 diperoleh hasil akurasi 51.43%. Untuk jumlah mixture 4 diperoleh hasil akurasi 50.71% dan untuk jumlah mixture 5 diperoleh hasil akurasi 73.57% sehingga terdapat pengaruh perbedaan jumlah mixture terhadap hasil akurasi. Hal ini disebabkan karena mixture pada state berperan dalam memodelkan hasil observasi. Jika data yang digunakan pada training memiliki tingkat variansi yang tinggi maka diperlukan nilai mixture yang tinggi karena umumnya distribusi nilai pada hasil ektraksi fitur tidak mengikuti distribusi Gaussian. Namun penggunaan gausian mixture juga harus menambah parameter HMM yang harus
diestimasi saat training. Jika jumlah data yang digunakan sedikit maka beberapa nilai akan mendapatkan yang tidak sesuai terutama untuk matriks covariance, sehingga menurunkan performa HMM. HMM Hasil Testing Akurasi Benar Salah HMM 2 Mixture Tiap State 72 68 51.43% HMM 3 Mixture Tiap State 74 66 52.86% HMM 4 Mixture Tiap State 71 69 50.71% HMM 5 Mixture Tiap State 103 37 73.57% Hasil observasi yang rendah dipengaruhi oleh jumlah data training yang rendah, karena pada proses training parameter HMM menggunakan metode reestimasi terdapat jumlah barisan observasi yang terbatas sehingga memungkinkan berkurangnya jumlah kemunculan dari event model yang berbeda (symbol observasi yang muncul pada state) untuk memberikan hasil estimasi yang baik untuk parameter model [6]. Salah satu solusi yang mungkin adalah menambah data training observasi, dan cara lainnya adalah untuk mengurangi ukuran model (jumlah state, jumlah observasi tiap state, dan lain lain). Pendekatan lainnya adakah untuk menginterpolasi salah satu parameter estimasi dengan himpunan parameter lainnya dari model.yang memiliki jumlah data training yang memadai. Idenya adalah untuk mendesain secara simultan model yang diharapkan dan model yang lebih kecil dengan jumlah data training yang memadai untuk memberikan estimasi parameter yang baik dan kemudian menginterpolasi parameter estimasi dari kedua buah model.
6. Kesimpulan
Dari hasil eksperimen dan evaluasi penelitian dapat disimpulkan teori untuk mendapatkan fitur akustik menggunakan Mel Frequency Cepstral Coefficient dari sinyal suara, Hidden Markov Model untuk pengenalan wicara berhasil dimplementasi
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
100 dalam MATLAB. Hasil akurasi dari penelitian ini yaitu 73.57% untuk jumlah mixture adalah lima.
Ada beberapa perbaikan yang dapat dilakukan untuk penelitian selanjutnya, yaitu memperbanyak data training pada tiap pembicara untuk mendapatkan lebih banyak variasi data. Menggunakan model akustik, lexicon dan model bahasa pada sistem pengenalan suara dan mencoba konfigurasi yang berbeda untuk sistem pengenalan suara contohnya adalah merubah struktur dari model, jumlah state, jumlah mixture dan inisialisasi parameter awal HMM.
REFERENSI
[1] M. Abushariah, T. S. Gunawan, O. O. Khalifa, and M. a M. Abushariah, “English digits speech recognition system based on Hidden Markov Models,” Comput. Commun. Eng. ICCCE 2010 Int. Conf., no. May, pp. 1–5, 2010.
[2] L. I. Rabiner, S. E. Levinson, A. E. Rosenberg, and J. A. Y. G. Wilpon, “Speaker-Independent Recognition of Isolated Words Using Clustering Techniques,” IEEE Trans. Acoust. Speech, Signal Proc, vol. ASSP-27, no. 4, pp. 336–349, 1979.
[3] J. Tebelskis, R. Lippmann, and M. I. T. L. Labs, “Speech Recognition using Neural Networks,” Carnegie Mellon University, 1995.
[4] M. Aymen, A. Abdelaziz, S. Halim, and H. Maaref, “Hidden Markov Models for Automatic Speech Recognition,” pp. 1–6, 2011.
[5] C. Ittichaichareon, S. Suksri, and T. Yingthawornsuk, “Speech Recognition using MFCC,” pp. 135–138, 2012. [6] L. Rabiner, “A tutorial on hidden
Markov models and selected applications in speech recognition,” Proc. IEEE, vol. 77, no. 2, pp. 257 – 286, 1989.
Jurnal Elektronik Ilmu Komputer - Universitas Udayana JELIKU Vol 2 No. 3 Agustus 2013
101
IDENTIFIKASI KEKURANGAN UNSUR HARA PADA TANAMAN JAGUNG DENGAN