SPEECH RECOGNITION MENGGUNAKAN GABOR WAVELET DAN JARINGAN SARAF TIRUAN BACKPROPAGATION UNTUK SISTEM KEAMANAN
BERBASIS SUARA
“SPEECH RECOGNITION USING GABOR-WAVELET AND BACKPROPAGATION (BP) NEURAL NETWORK FOR SECU
Andika Bandung Putra¹, Iwan Iwut Tritoasmoro², Joko Haryatno ³
¹Teknik Telekomunikasi, Fakultas Teknik Elektro, Universitas Telkom
Abstrak
Automatic Speech Recognition merupakan suatu teknologi Speech Signal Processing (pemprosesan sinyal suara) dimana suatu sistem dapat mengenali, membandingkan dan mecocokan pola suara masukan sistem tersebut, dengan pola suara yang telah disimpan dalam memori secara otomatis. Meskipun dinilai keamanan dan keabsahan sistem keamanan menggunakan suara masih kalah dibandingkan dengan menggunakan sidik jari atau retina mata, namun seperti yang kita tahu bahwa suara memiliki keunikan tersendiri untuk diteliti atau bahkan untuk dikembangkan. Suara manusia dapat dikatak unik karena setiap manusia memiliki kontrol dan cara pengucapan yang berbeda.
Pada tugas akhir speech recogntion ini terdapat dua proses yang sangat
penting yaitu feature extraction dan learning and pattern comparison. Pada proses feature extraction digunakanlah filter 2D Gabor-wavelet yang berfungsi untuk
menspesifikasikan parameter–parameter yang digunakan untuk mengenali pola suara dengan tidak menggunakan terlalu banyak memori dan juga tidak menjadikan tingkat ketelitiannya sistem tersebut menjadi rendah. Pada proses learning and pattern comparison digunakanlah jaringan syaraf tiruan. Jaringan syaraf tiruan yang
digunakan adalah Backpropagation. Fungsi dari jaringan syaraf tiruan adalah untuk mempelajari dan membandingkan bentuk pola masukan hasil dari ekstraksi ciri, sehingga dapat dikenali sebagai suatu pola tertentu. Karena sistem ini adalah simulasi maka yang digunakan hanyalah rekaman digital.
Hasil (keluaran) yang ingin ditampilkan adalah bagaimana suatu sistem dapat mengenali dan membandingkan pola suara tertentu dan dapat mengambil keputusan yang tepat pada setiap jenis pola suara masukan tertentu. Sistem yang dirancang ini memiliki tingkat keberhasilan diatas 80% untuk mengenali dan membandingkan pola serta mengambil keputusan yang tepat.
Kata Kunci : -
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
Abstract
Automatic Speech Recognition is a Speech Signal Processing technology,
where the system is recognizing, comparing, and matching its voice input pattern automatically with its data base. Although the security level of the voice recognition system is still under the security level of fingerprint-based and retina-based, but the possibility of developing the voice-based system is widely open since it has unique characteristics at the different control and the different pronunciation of every person.
Feature extraction and learning and pattern comparison process are being used in this speech recognition final project. The future extraction process done by Gabor- 2D filter is used for specifying the parameters used in recognizing the voice pattern without wasting lots of memories and without lowering the precision level in a certain value. Backpropagation neuron network is being used in the learning and pattern comparison process. This process is about learning and comparing the input pattern as the result of feature extraction in order to recognize a certain pattern. Since this is a simulation system, then digital recorded voice used is only.
The output of this project is to perform a system which is able to recognize
and compare a certain pattern while also able to take the right decision on each input pattern. This system has grade system about 80% to recognize, compare, and take the right decision.
Keywords : -
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
BAB I PENDAHULUAN I.1. Latar Belakang
Seperti yang kita ketahui teknologi pada sistem keamanan sudah semakin berkembang pesat, mulai menggunakan pin, barcode, dan hingga menggunakan sidik jari. Namun walaupun sudah berkembang pesat, penggunaan suara (voice) sebagai parameter identifikasi masih menjadi suatu pilihan yang tidak dapat ditinggalkan, contoh seperti pada voice dial pada mobile phone, sistem keamanan rumah berbasis suara, dan password berangkas menggunakan suara serta masih banyak contoh-contoh yang lainnya. Memang tingkat keakuratan sistem keamanan menggunakan suara masih kalah dibandingkan dengan yang lainnya, hal ini disebabkan oleh beberapa parameter seperti keadaan (kondisi) dari user itu sendiri, keadaan disini dalam artian seorang user sedang sakit atau sedang memuncak emosinya, namun disitulah letak dari keunikkan sistem keamanan menggunakan suara (voice).
Begitu banyak metoda ekstraksi ciri yang digunakan pada speech recognition namun metoda Gabor-wavelet jarang sekali, atau bahkan belum pernah digunakan untuk speech processing karena pada umumnya Gabor-wavelet sering digunakan untuk image processing. Oleh karena itu penggunaan metoda Gabor-wavelet pada sistem ini adalah untuk membuktikan apakah metoda tersebut dapat digunakan untuk speech processing atau tidak.
Sistem keamanan sangat dibutuhkan, mengingat semakin hari pelaku kejahatan semakin pandai dan semakin nekat. Dengan adanya sistem keamanan yang canggih dan dapat dipercaya diharapkan dapat mengurangi tindak kejahatan.
Seperti yang marak akhir-akhir ini tentang smart house yaitu sebuah rumah dengan sistem keamanan yang dapat mengenali pemiliknya baik dari suara, panas tubuh, retina mata, ataupun sidik jari. Karena panas tubuh, retina mata, dan sidik jari sangat sulit dipalsukan sedangkan suara dapat dengan mudah dipalsukan maka dengan adanya sistem yang lebih canggih diharapkan suarapun akan sulit untuk dipalsukan.
Memang sistem keamanan menggunakan suara (voice) sudah sangat jarang digunakan. Namun tidak dapat dipungkiri bahwa suara juga merupakan salah satu
1
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
sistem pengenal yang cukup significant, contoh kita dapat mengetahui orang dari suaranya seperti saat kita menelepon seseorang maka orang tersebut dapat mengetahui bahwa yang menelepon adalah kita jika orang tersebut telah mengenal karateristik dari suara kita.
FEATURE EXTRACTION
SPEECH DETECTION
DECISION RULE PATTERN
COMPARISON USER
OK
NO
MEMORY
Gambar 1.1 Blok diagram Speech rcognition sebagai sistem keamanan I.2. Perumusan Masalah
Permasalahan yang dijadikan obyek penelitian dan pengembangan Tugas Akhir ini adalah sebagai berikut :
1. Bagaimana suatu sistem dapat mengenali suara (voice) dengan berbagai kondisi dari masukan suara seperti; kondisi suara masukan latih normal, kondisi sakit, amplitudo lebih besar dari amplitudo asli, frekuensi sampling yang berbeda, random asli, dan random palsu. Namun diharapkan sistem tersebut tetap dapat menghasilkan keluaran sesuai dengan yang diharapkan.
2. Bagaimana suatu filter yang jarang digunakan untuk speech processing dapat menghasilkan suatu sistem sesuai dengan yang diharapkan.
3. Bagaimana suatu jaringan syaraf tiruan Backpropagation dapat mengenali pola dengan baik, serta parameter-parameter apa saja yang harus diubah agar hasil yang dirancang sesuai dengan yang diinginkan.
4. Bagaimana cara menentukan parameter-parameter pada setiap proses speech recognition hingga menghasilkan suatu sistem keamanan berbasis suara yang efisien dan akurat.
2
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
I.3. Tujuan
Adapun tujuan dari penelitian dan pengembangan Tugas Akhir ini adalah:
1. Mensimulasikan dan menganalisa kinerja sistem keamanan berbasis suara dengan filter Gabor-wavelet 2D dan jaringan syaraf tiruan Backpropagation.
2. Dapat membuktikan bahwa filter Gabor-wavelet 2D dapat digunakan pula untuk speech processing.
3. Mengetahui dan menganalisa hasil keluaran yang dihasilkan dari masukan yang berbeda – beda.
4. Mengetahui bagaimana cara menanggulangi permasalahan yang sering terjadi pada sistem keamanan menggunakan suara.
5. Dapat mengembangkan suatu sistem keamanan berbasi suara yang efisen dan akurat.
6. Dapat mengembangkan sistem keamanan menggunakan suara dengan teknologi yang baru contohnya sebagai identifikasi suara untuk menekan tindak kriminal seperti penculikan.
I.4. Batasan Masalah
Untuk menghindari meluasnya materi pembahasan Tugas Akhir ini, maka penulis membatasi permasalahan dalam Tugas Akhir ini hanya mencakup hal-hal berikut :
1. Sistem keamanan yang diinginkan adalah sistem keamanan menggunakan suara manusia.
2. Sistem keamanan yang akan dibuat hanya berupa simulasi.
3. Menggunakan software Matlab 7.0
4. Obyek yang diteliti adalah keluaran dari sistem dengan berbagai masukan (seperti yang tertera pada perumusan masalah).
5. Membahas cara mengatasi hasil keluaran yang tidak sesuai seperti yang diharapkan, hanya pada solusi untuk memaksimalkan hasil keluaran agar sesuai dengan yang diharapkan.
6. Model JST yang digunakan adalah Backpropagation.
3
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
7. Teknik transformasi Wavelet yang digunakan hanya jenis filter Gabor
I.5. Metodologi Penyelesaian Masalah
Metode yang akan digunakan untuk menyelesaikan Tugas Akhir ini adalah : 1. Studi Literatur dan pencarian bahan, dengan mempelajari literatur
yang mendukung.
2. Mencari data-data yang berkaitan dengan Tugas Akhir ini.
3. mengolah data-data yang didapat, baik dari data-data terdahulu maupun data-data yang baru diperoleh.
4. studi lapangan, mempelajari kebiasaan yang terjadi dalam kondisi sesungguhnya.
5. menganalisa hasil dari kondisi lapangan tersebut.
6. mengatasi masalah yang biasa terjadi dengan pencarian data – data dan bertanya kepada narasumber yang dirasa berkompeten dibidang ini.
I.6. Hipotesa
Hipotesa awal mengenai sistem sangat diperlukan agar perancangan dapat terencana dengan baik. Hipotesa mengenai Tugas Akhir ini antara lain:
1. Berdasarkan pada tingkat keberhasilan filter 2D Gabor-wavelet pada image processing yang mencapai 80%, maka pada Tugas Akhir ini penulis juga menetapkan 80% sebagai tingkat keberhasilan identifikasi untuk sistem speech recognition yang dirancang.
2. Sistem ini mempunyai dua proses yang utama yaitu ekstraksi ciri dan pembelajaran dan identifikasi pola. Namun tidak menutup kemungkinan bahwa tahap-tahap yang lain juga akan sangat berperan dalam sistem ini.
3. Sistem ini akan dilatih dengan lima suara orang yang berbeda, sehingga sistem harus dapat mengenali lima orang tersebut dengan baik.
4. Sistem akan diuji dengan suara masukan yang sama sekali belum dilatih.
4
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
I.7. Sistematika Penulisan
BAB I PENDAHULUAN
Berisi latar belakang, perumusan masalah, batasan masalah, tujuan pembahasan, metodologi penyelesaian masalah dan sistematika penulisan.
BAB II LANDASAN TEORI (SPEECH RECOGNITION, GABOR WAVELET DAN BACK PROPAGATION)
Berisi tentang dasar-dasar teori yang diperlukan serta literatur- literatur yang mendukung dalam Speech recoqnition menggunakan Gabor-wavelet dan jaringan saraf tiruan Back propagation pada sistem keamanan
BAB III PEMODELAN DAN SIMULASI SISTEM
Membahas tentang tentang persiapan sinyal referensi dan uji, Feature extraction menggunakan filter 2D Gabor-wavelet, training menggunakan Back propagation, proses pengenalan dan pembandingan masukan dengan sistem, dan mencatat hasil keluaran dari sistem tersebut.
BAB IV ANALISA HASIL SIMULASI SISTEM
Menjelaskan tentang tingkat akurasi dan analisa dari sistem keamanan menggunakan suara dengan Gabor-wavelet dan Back propagation pada proses training-nya dan keluaran dari sistem tersebut.
BAB V KESIMPULAN DAN SARAN
Berisi kesimpulan akhir dan saran pengembangan
5
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Dari hasil analisa pengujian sistem pengenalan suara menggunakan Gabor-wavelet dan jaringan saraf tiruan Backpropagation untuk sistem keamanan berbasis suara ini, maka dapat diambil kesimpulan sebagai berikut :
1. Tingkat keberhasilan sistem berdasarkan pengujian yang dilakukan pada pengujian suara asli latih adalah 92%.
2. Tingkat keberhasilan sistem untuk pengujian suara asli dengan kondisi sakit (flu) adalah 76%.
3. Tingkat keberhasilan sistem pada pengujian suara asli dengan dengan perbedaan amplitudo dua kali amplitudo asli adalah 84%.
4. Tingkat keberhasilan sistem untuk pengujian suara asli dengan frekuensi sample yang berbeda adalah 92%. Dari hasil tersebut dapat diambil kesimpulan ternyata sistem dapat mengenali suara uji dengan baik walaupun berbeda frekuensi sampling, namun hal ini hanya akan berlaku jika spesifikasi filter yang digunakan disesuaikan dengan frekuensi sampling yang digunakan.
5. Dari seluruh pengujian menggunakan suara uji asli, tingkat keberhasilan yang dicapai adalah 86%.
6. Tingkat keberhasilan sistem untuk pengujian suara palsu yang memalsukan suara orang lain adalah 93,7%.
7. Tingkat keberhasilan sistem untuk pengujian suara uji yang sama sekali belum dilatih sebelum adalah 77,6%.
8. Dari hasil keseluruhan uji suara palsu dan uji suara yang sama sekali belum dilatih didapatlah tingkat keberhasilan 85,6%. Hasil tersebut ternyata mencapai target awal yang diinginkan.
9. Tingkat keberhasilan sistem pengenalan suara yang dirancang adalah sekitar 75% - 90%. Karena hasil tingkat keberhasilan sistem didapat dari seluruh kinerja sistem untuk seluruh pengujian yang dilakukan, maka tingkat keberhasilan yang dimaksud adalah rata-rata dari keseluruhan kinerja sistem
48
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
untuk tiap pengujian yang dilakukan, dengan adanya hal tersebut didapatlah tingkat keberhasilan sistem untuk mengenali suara dengan benar adalah 85,8%.
10. Keberhasilan sistem mencapai target yang diinginkan pada dasarnya sangat dipengaruhi oleh percobaan nilai parameter pada setiap proses yang ada. Dari percobaan didapatlah nilai parameter sebagai berikut; proses filter didapatlah parameter orde(N) adalah 10, proses desimasi didapatlah parameter desimasi(n) adalah 10, proses ekstraksi ciri didapat nilai parameter jumlah ekstraksi ciri yang dihasilkan adalah 24, proses normalisasi dan pengkodean didapat nilai treshold adalah 0.49, dan proses learning dan identikasi didapatlah nilai parameter sebagai berikut jumlah hidden layer adalah 4, eror target adalah 0.001, jumlah node pada hidden layer adalah 48, dan nilai learning rate adalah 0.02.
11. Dari data analisa lama waktu kerja sistem, ternyata didapat sistem ini tidak dapat bekerja real time. Waktu rata-rata yang diperlukan adalah 300 detik tiap proses. Dengan lama rentan waktu 0.01 detik hingga 2000 detik.
5.2 Saran
Pengembangan yang dapat dilakukan pada tugas akhir ini antara lain:
1. Pada proses filter mungkin filter yang digunakan tetap sama BPF IIR namun dapat dibuat lebih adaptif terhadap frekuensi sampling yang berbeda sehingga tidak perlu lagi setting spesifikasi ulang secara manual.
2. Penggunaan metode gabor-wavelet sebagai ekstraksi ciri mungkin dapat diganti dengan metode yang lain yang mungkin lebih bagus daripada gabor-wavelet, contoh dapat diganti dengan LPC, keluarga wavelet yang lain, atau metode- metode transformasi dan filter yang lain.
3. Perbanyak pelatihan pada JST dengan cara memperbanyak jenis suara uji maupun latih sehingga dapat diperolehlah tingkat keberhasilan yang lebih baik daripada yang didapat sistem ini.
4. Seperti yang kita ketahui sistem ini menggunakan backpropagation untuk JST- nya, mungkin jika dirasa hasil yang didapat pada penggunaan BP tidak sempurna mungkin untuk pengembangan sistem ini dapat menggunakan JST jenis lain yang dirasa dapat menghasilkan suatu sistem yang lebih baik. JST
49
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
yang mungkin dapat digunakan antara lain; genetic algorithm (GA), kohonen, dan adaptive resonance theory (ART).
5. Sistem perekaman suara pada sistem ini kurang sempurna, mungkin untuk pengembangannya perekaman suara dapat dilakukan di studio musik sehingga noise yang dihasilkan sangat kecil sehingga hasil dapat lebih baik dari sistem ini.
6. Karena sistem ini belum dapat dikatakan real time, maka mungkin untuk pengembangannya sistem ini dapat dibuat real time.
7. Seperti yang kita ketahui bahwa sistem ini hanyalah simulasi, mungkin untuk pengembangannya sistem ini dapat direalisasikan dengan hardware dan bukan hanya menjadi sebuah simulasi saja melainkan suatu alat yang mempunyai nilai jual tinggi.
50
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi
Daftar Pustaka
[1] Adipranata, R dan Resmana. Pengenalan Suara Manusia dengan Metode LPC dan Jaringan Syaraf Tiruan Propagasi Balik. Jurnal Prosiding Seminar Nasional I Kecerdasan Komputasional Universitas Indonesia.
Universitas Kristen Petra. 1999.
[2] Burrus, C.S., dkk. Introduction to Wavelets and Wavelets Transforms A primer. international edition, Prentice Hall, Houston, Texas.
[3] Desiani, A dan Muhammad A. Konsep Keceradasan Buatan. ANDI Yogyakarta, Yogyakarta, 2006.
[4] George, B, dkk. Speech Coding and Phoneme Classification Using MATLAB and NeuralWorks. Departement of Electrical Engineering.
[5] Hermawan, A. Jaringan Syaraf tiruan Teori dan Aplikasi. ANDI yogyakarta, Yogyakarta, 2006.
[6] Lee, D and Akio Y, Wavelet Analysis: Theory and Applications. Hewlett Packard journal, 1994.
[7] Lee, T.S. Image Representation using Gabor wavelets. IEEE Transactions On Pattern Analysis and Machine Intelligence, vol. 18, no. 10, 1996.
[8] Neilsen, F. Neural Networks – algorithms and applications. Niels Brock Business College, 2001.
[9] Polikar, Robi. The Wavelet Tutorial. Departement of Electrical and Computer Engineering, Rowan University. 1995.
[10] Puspitaningrum, D. Pengantar Jaringan Syaraf Tiruan. ANDI Yogyakarta, Yogyakarta, 2006.
[11] Rabiner, lawrence, dkk. Fundamentals Of Speech Recoqnition, Prentice hall, Englewood Cliffs, New Jersey.
[12] Siang, J.J., Jaringan Saraf Tiruan dan Pemogramannya Menggunakan Matlab, ANDI Yogyakarta, Yogyakarta, 2005.
[13] Triantoro, A.K. Identifikasi Tanda Tangan Menggunakan Filter 2D Gabor-wavelet dan Jaringan syaraf tiruan Adaptive Resonance Theory (ART). Bandung, 2006.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi