IMPLEMENTASI SPEECH RECOGNITION DENGAN MENGGUNAKAN SVM DAN HMM
Zaky Akbar¹, Suyanto², Warih Maharani³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Belakangan ini, pengenalan ucapan menjadi perhatian dalam pengembangan teknologi untuk mempermudah manusia. Dengan menggunakan suara, manusia dapat melakukan apa saja tanpa harus terganggu dengan aktifitas yang lainnya. Suara juga sebagai komunikasi antar manusia, dengan suara komunikasi menjadi lancar. Berbeda bahasa adalah salah satu kendala
berkomunikasi, maka bila suara dapat di deteksi dan di ubah menjadi bahasa yang dikenali oleh lawan bicara, maka komunikasi akan menjadi lebih mudah. Oleh karena itu dibutuhkan metode yang tepat untuk mengenali suara hingga tepat
Tugas akhir ini akan mengimplemtasikan metode hidden markov model dan support vector machine untuk pengenalan ucapan. Inputan berupa sinyal suara yang direkam dalam keadaan kedap berupa kata. Data latih yang dipakai menggunakan kata dan sukukata pembangun kata tsb. Sinyal suara tersebut dilakukan penyusain dengan system dengan normalisasi dan
pendeteksian sukukata. Hasil segmentasi suku kata dilakukan pengekstraan cirri dengan menggunakan MFCC dan dilakukan klasifikasi persuku kata menggunakan SVM dan pengaturan sukukata menggunakan HMM. Terdapat 10 kata yang akan dikenali dan 19 suku kata
pembangunnya. Dataset yang dipakai berjumlah 600 suku kata dan 100 kata.Pada akhir tugas akhir ini didapat akurasi SVM One-Againts-All dan HMM dengan akurasi 90% dan SVM one-againts-one mempunyai akurasi 63.7 %. Dengan menggunakan model HMM ergodic dengan hidden state sebanyak 3 dan 20
Kata Kunci : SVM , HMM, SVM/HMM, Pengenalan Ucapan
Abstract
Latterly, the attention in the speech recognition technology to facilitate human development. By using speech, people can do anything without having to interfere with other activities as well as communication between humans, with voice communication to be smooth. In Different languages are among the difficulties communicated. Then if the sound can be detected and converted into other language that is recognized by the speaker, the communication will become easier. Therefore, it takes an appropriate method to recognize the speech until appropriate
This final project implementation HMM method and SVM for speech recognition. The input for this system is a signal digital and represented speech, speech had been record in a state resistant form other. Training data is used to use builder-syllable words and the word is. The signal is synchronize with normalize and detection system with syllable. Syllables segmentation results performed using the MFCC feature extraction and classification every syllable with SVM and words using HMM. There are 10 words that will be recognized and 19 syllables builders. Database for this system use 600 syllables and 100 words. The result of this project give the accuracy for HMM and SVM on-against-all 905 and HMM and SVM on-against-one 63.7% This HMM using ergodic model with 3 and 20 hidden states.
Keywords : SVM, HMM, SVM/HMM, Speech Recognition
Powered by TCPDF (www.tcpdf.org)
1
1
PENDAHULUAN
1.1
Latar Belakang
Dewasa ini, kemajuan teknolgi semakin pesat. Hal ini dapat ditandai dengan mudahnya manusia berkomunikasi tanpa batas. Walaupun nyatanya, komunikasi masih menjadi kendala pada kehidupan sehari-hari. Dapat dicontohkan dengan perbedaan bahasa, bahasa adalah sesuatu yang tidak dapat dipelajari dalam waktu singkat. Jika ada orang Jepang yang berkomunikasi dengan orang Indonesia, kemungkinan komunikasi yang dapat dilakukan adalah dengan menggunakan bahasa internasional (bahasa inggris). Namun seringkali hal tersebut menjadi kendala, dikarenkan bahasa inggris yang dikuasai satu sama lain tidak mempunyai pemahaman yang sama. Sehingga dapat menimbulkan perbedaaan dalam memahami komunikasi tersebut. Oleh karena itu, dibutuhkan suatu perantara yang dapat menjadikan solusi dari perbedaan bahasa tersebut.
Speech recognition (pengenalan ucapan) adalah proses dimana seseorang memberikan inputan suara (berbicara) kepada mesin atau komputer yang nantinya dapat mengenali kata dari suara yang sudah dikenali terlebih dahulu. Dengan adanya sistem ini, diharapkan kendala yang disebutkan diatas dapat terselesaikan. Proses kerjanya secara secara singkat sebagai berikut: orang jepang berbicara dengan bahasanya kemesin/komputer dan nantinya akan di identifikasi oleh sistem dan diubah menjadi teks. Hasil teks tersebut diubah kedalam bahasa yang dituju dengan menggunakan kamus. Hal yang sama dilakukan dengan lawan bicaranya. Sehingga setiap komunikasi dengan beda bahasa tidak harus mengusai bahasa universal/internasional atau bahasa lawan bicara untuk dapat berkomunikasi dengan orang asing, cukup berbicara menggunakan bahasanya sendiri.
Support Vector Machin (SVM) dan Hidden Markov Model (HMM) adalah pendekatan yang dapat digunakan dalam modelan masalah tersebut (speech recognition) [2][15]. Speech recognition sendiri pada umumnya berbasiskan HMM dengan menggunakan Probabilitas Gaussian yang bertujuan untuk melatih kemiripan kriteria yang sangat tinggi. Pemakain HMM pada speech recognition
dikarenakan pemodelan pada metode ini melakukan pembelajaran dimana state
yang dilakukan saat ini mempengarui state selanjutnya. Suara mempunyai kondisi yang selalu berubah, sehinga pembelajaran yang diterapkan pada HMM sangat cocok dalam kasus seperti ini. Sedangkan pada SVM melakukan klasifikasi yang dapat membedakan hal satu dengan yang lainnya. Maka sangat berguna dalam pemiliha observasi pada HMM.
Pada tugas akhir ini, digunakan kata sebagai pengujian dan data latih. Sedangkan pada pelatihan SVM digunakan suku-kata pembangun kata tersebut. Adapun kata yang dilatih adalah kata yang berpola K-V-K-V dengan kata yang sudah ditentukan oleh penulis. Oleh karena itu diharapkan pelatihan suku kata yang dilatih pada klasifikasi SVM dapat memberikan kemudahan dalam pengolahan data HMM sebagai observasi.
2
1.2
Perumusan Masalah
Beberapa masalah yang ada pada tugas akhir ini adalah :
Bagaimana sistem speech recognition menerapkan pemakain metode SVM dan HMM?
Berapakah tingkat performansi dari implementasi sistem ini dengan pemakaian parameter ketepatan dan presisi dari pengenalan kata?
1.3
Tujuan
Tujuan dari dilakukannya penelitian tugas akhir ini adalah
1. Menerapkan sistem pengenalan ucapan yang terdiri dari modul-modul yang didefinisikan dan melakukan pemrosesan pengenalan berdasarkan input dan mdoel yang ada.
2. Melakukan pengukuran akurasi terhadap hasil pengerjaan dengan mengihitung word error rate dari semua kata yang diujikan terhadap kata yang tidak dikenali pada sistem ini.
1.4
Batasan Masalah
Batasan masalah pada tugas akhir ini adalah :
1. Data latih dan data uji yang digunakan adalah suara dalam satu chanel
atau biasa disebut dengan monaural (mono).
2. Perangkat lunak yang nantinya dibuat hanya diperuntukan untuk pengenalan kata saja.
3. Kata yang di uji adalah kata berbahasa Indonesia berdasarkan pola K-V-K-V yang sudah ditentukan oleh penulis.
4. Untuk data latih menggunakan suku kata pembentuk kata, dan kata yang nantinya akan diujikan.
1.5
Metodologi Penyelesaian Masalah
Metodologi penyelesaian masalah yang akan digunakan adalah : a. Studi literatur
Studi literatur dilakukan untuk mengusai dan memahami teori dari HMM, SVM, MatLab, speech recognition dan teori-teori lainnya yang berhubungan dengan speech recognition..
b. Pengumpulan Data
Pembuatan dan pembuatan data dengan ekstensi .wav yang nantinya akan digunakan pada proses implementasi dan pengujian ini.
c. Analisa Perancangan Sistem
Menganalisa recruitment dari sistem yang akan dibangun sehingga mendapatkan gambaran mengenai sistem yang akan dibuat.
d. Implementasi Sistem
Melakukan implementasi terhadap hasil desain sistem yang dilakukan dengan menggunakan bantuan MATLAB sebagai program pembangun.
e. Analisa dan Penyusunan Laporan
Data yang telah diproses kemudaian dianalisis untuk mengetahui performasi dan akurasi dari metode yang sudah diimplemtasikan, serta mendokumentasikannya dalam bentuk laporan Tugas Akhir.
Powered by TCPDF (www.tcpdf.org)
44
5
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Kesimpulan yang didapat dari tugas akhir ini :
1. Klasifikasi SVM sangat mempengaruhi observasi pada HMM. Karena kelas pada SVM yang dihasilkan memberikan pemodelan pada observasi dan perpindahan antar state. Pemodelan tersebut memberikan hasil akhir prediksi kata pada data uji yang menjadi berbeda dengan data latih. Sehingga pengkelasifikasi mendapat andil besar dalam menghasilkan prediksi kata tersebut.
2. Pengukuran akurasi dengan menggunakan dapat mencapai 90% pada SVM
one-againts-all dan hanya mencapai 73.3% dengan SVM one-againts-one
dengan kasus HMM ber-hidden state 3 dengan pengujian independent speaker,
3. Pada tugas akhir ini pemakaian observasi state sebanyak 2 buah dan 3 buah
hidden state. Perubahan hidden state tidak berpengaruh pada pengenalan kata, dikarenakan observasi yang dipakai pada tugas akhir ini hanyalah 2, tetapi perubahan state mempengaruhi nilai likelihood.
5.2
Saran
Saran yang dapat diterapkan pada tugas akhir selanjut atau pengembangan tugas akhir ini, sebagai berikut:
1. Pemecahan suku kata yang awalnya 1600 sampel lebih baik dipanjangkan, karena semakin banyak sampel yang dikenali dapat menghindari suku kata yang diucapkan tidak sempurna.
2. Ada baiknya sistem pengenalan ucapan dapat mengenali fonem, karena fonem adalah satuan terkecil dari suatu struktur bahasa. Sehinga banyak kata yang bisa dikenali hingga kalimat, dengan sedikitnya jumlah kelas pengenal bagi SVM.
3. Dengan data training yang lebih banyak dan bervariasi membantu akan pengenalan yang lebih bervariasi.
Powered by TCPDF (www.tcpdf.org)
45
Daftar Pustaka
[1] Stuhlsatz, H.-G.Meier, M.Katz, S.E.Kr¨uger and A.Wendemuth . 2006. Support Vector Machines for Postprocessing of Speech Recognition Hypotheses. Otto-von-Guericke University Magdeburg and University of Applied Sciences D¨usseldorf, March 2006
[2] Ganapathiraju, J.Hamaker, J.Picone, Support Vector Machines for Speech.
Institute for Signal and Information Processing, May 2000
[3] Ganapathiraju, Aravind , Joseph Picone. Hybrid SVM/HMM architectures for speech recognition. Dept. of Elec. and Computer Engr. Mississippi State University, March 2000
[4] http://en.wikipedia.org/wiki/Speech_recognition waktu akses terakhir adalah 22 Maret 2011
[5] http://en.wikipedia.org/wiki/Hidden_Markov_model waktu akses terakhir adalah 22 Maret 2011
[6] J.Stadermann, G.Rigoll. A Hybrid SVM/HMM Acoustic Modeling Approach to Automatic Speech Recognition. Institute for Human-Machine Communication Technische Universit¨atM¨unchen, August 2007
[7] Jaume Padrell-Sendra1, Dar´ıo Mart´ın-Iglesias and Fernando D´ıaz-de-Mar´ıa.
Support Vector Machines for Continous Speech RecognitionSUPPORT. 14th European Signal Processing Conference (EUSIPCO 2006), Florence, Italy, September 4-8, 2006, copyright by EURASIP
[8] M.Gordan, C.Kotropoulos, I.Pitas. 2002. A Support Vector Machine-Based Dynamic Network for Visual Speech Recognition Applications, Department of Informatics, Aristotle University of Thessaloniki, July 2002
[9] R.Solera-Ure˜na, J.Padrell-Sendra, D.Mart´ın-Iglesias, A.Gallardo-Antol´ın, C.Pel´aez-Moreno and F.D´ıaz-de-Mar´ıa. 2006. SVMs for Automatic Speech Recognition: A Survey. EPS-Universidad Carlos III de Madrid.
[10] Sarah Borys and Mark Hasegawa-Johnson. 2009. SVM-HMM Landmark Based Speech Recognition, 405 N. Mathews, March 2009
[11] Yago Pereiro Estevan, Vincent Wan, Odette Scharenborg. Finding Maximum Margin Segments in Speech. Universidad Carlos III de Madrid, Spain and University of Sheffield, UK.January 2007
[12] Christianini, Nello dan John S. Taylor. 2000. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press.
[13] Sembiring, Krisantus. 2007. Tutorial SVM Bahasa Indonesia. STEI ITB.
[14] J. Platt. 1999. Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. Microsoft Research.
46 [15] Rabiner, Lawrence. 1989. A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition. IEEE.
[16] Y.Wu, A, Ganapathiraju and J. Picone. 1999. Baum-Welch Re-estimation of Hidden Markov Model. Institute for Signal and Information Processing, Mississippi State University
[17] Sven E. Kruger, M. Schaffoner, M. Katz, E. Andelic and A. Wendemuth. Speech Recognition with Support Vector Machines in A hybrid System. Otto-von-Guericke-University Magdeburg
[18] Burges, Christopher. A Tutorial On Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery,. 1998.
[19] Osuna, Edgar E. et. al.1997. Support Vector machines: Training and Applications. MIT, 1997.
[20] Hsu, Chih-Wei, Chih-Jen Lin. A Comparison of Methods for Multi-class Support Vector Machines. IEEE Transactions on Neural Networks, 13(2):415-425.2002.
[21] Hsu, Chih-Wei et al. A Practical Guide to Support Vector Classification. Department of Computer Science and Information Engineering, National Taiwan University. 2004.
Powered by TCPDF (www.tcpdf.org)