PENGENALAN VOKAL MENGGUNAKAN TRANSFORMASI WAVELET DISKRIT DAN LINEAR PREDICTIVE CODE

(1)

SEMINAR NASIONAL ke 8 Tahun 2013 : Rekayasa Teknologi Industri dan Informasi

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 123

PENGENALAN VOKAL MENGGUNAKAN TRANSFORMASI WAVELET DISKRIT

DAN LINEAR PREDICTIVE CODE

Reza Nandika

1

, Risanuri Hidayat

2

, Sujoko Sumaryono

3

1

Mahasiswa Pascasarjana Jurusan Teknik Elektro dan Teknologi Informasi UGM

2, 3

Dosen Jurusan Teknik Elektrodan Teknologi Informasi UGM

Jalan Grafika No 2 Yogyakarta

email: [email protected], [email protected], [email protected]

ABSTRAK

Semua orang relatif menggunakan anatomi yang sama untuk menghasilkan suara yang terdengar. Proses produksi suara dari seseorang dihasilkan dari udara yang didorong oleh paru-paru melalui saluran vokal, keluar dari mulut dan menghasilkan suara. Sebuah ujaran adalah sinyal nonstasioner, Transformasi Fourier (FT) untuk analisa sinyal nonstationer karena hanya memberikan informasi sinyal tetapi tidak memberikan informasi kapan waktu terjadinya frekuensi tersebut untuk itu diperlukan sebuah Transformasi yang dapat memberikan resolusi frekuensi dan waktu yang disebut Analisis Multi Resolusi (AMR), Transformasi Wavelet adalah AMR.

Dalam makalah ini berisikan skema pengenalan vokal (a, i, u, e, o). rekaman vokal diperoleh dari tiga orang responden, setiap responden mengucapkan vokal masing-masing sebanyak 15 kali. Hasil rekaman ini akan dijadikan pengujian untuk data pembelajaran. Rekaman vokal dalam format *.wav kemudian transformasikan kedalam kawasan waktu-frekuensi menggunakan Transformasi Wavelet Diskrit (TWD) kemudian diekstraksi kembali menggunakan Linear Predictive Coding (LPC). Proses pengenalan menggunakan metode jarak mahalobis

Dalamp penelitian ini hasil uji dari data pembelajaran vokal setiap responden sebanyak 225 sampel didapatkan hasil pengenalan sebasar 100%

Kata kunci : Speech Recognition; Pengenalan vokal; DWT

PENDAHULUAN

Pada dasarnya semua orang menggunakan anatomi yang sama untuk menghasilkan suara. Proses produksi suara pada manusia dapat simpulkan, udara yang didorong dari paru-paru melalui saluran vokal dan keluar melalui mulut untuk menghasilkan suara (Jeremi Bradbury, 2000). Saluran vokal manusia adalah organ biologis dengan sifat non linier, yang bekerja bukan hanya dibawah kendali kesadaran tetapi juga dipengaruhi oleh faktor dari gender dan keadaan emosi. Vokalisasi sangat bervariasi dalam hal aksen, pengucapan, artikulasi, kekerasan, nasalitas, pitch, volume dan kecepatan, pola bicara yang tidak teratur, suara latar belakang atau gema. Semua variabilitas tersebut memberikan masalah yang kompleks dalam pengenalan suara (www.

learnartificialneuralnetworks.com). Penelitian tentang pengenalan suara (speech recognition) dengan mesin telah dilakukan selama hampir empat dekade ini (Laurance Rabirer, 1993). Pengenalan suara diaplikasikan pada sistem kontrol navigasi, aplikasi komersial industri, alat perekam digital.

Bebeberapa paper telah membahas tentang

speech recognition, diantaranya, ekstraksi ciri

dengan metode Linear Predictive Code (LPC) dan dekomposisi wavelet paket untuk pengenalan yang dipakai dalam bahasa Malayam (Sonia Sunny, 2012). Paper selanjutnya tentang pengenalan suara Hindi untuk penyebutan angka 1 sampai 10 dengan ektraksi ciri menggunakan Transformasi Wavelet Diskrit (TWD) dan perhitungan koefisien dari LPC (Shivesh Ranjan, 2010). Paper lainnya

metode ekstraksi ciri dengan dua metode, Transformasi Wavelet Diskrit dan LPC serta Transformasi Wavelet Packet dan LPC untuk pengenalan kata terisolasi (N. S. Nehe, 2012).

Dalam paper ini ditujukan untuk pengenalan vokal (a/i/u/e/o) khas orang indonesia dengan menggunakan Transformasi Wavelet Diskrit dan Linear Predictive Code untuk mendapatkan ekstraksi ciri dari setiap suara vokal, perhitungan koefisien LPC dilakukan untuk pembelajaran dan proses pengenalan menggunakan metode jarak Mahalobis. Jarak yang terendah merupakan hasil dari suara vokal sinyal uji dari proses pengenalan pola.

METODOLOGI

Perekaman awal suara diambil dari tiga orang responden laki-laki. Ciri suara diperoleh dari Ekstraksi suara vokal menggunakan ekstraksi TWD dengan mother wavelet db3 detil level 4 dan LPC. Hasil ekstraksi ciri TDW diseragamkan panjang datanya untuk kemudian diproses di LPC. Pengujian data pembelajaran sebanyak 225 data, proses pengenalan dengan menggunakan metode jarak Mahalobis. Gambar 1 memperlihatkan metode dari penelitian.

Dalam praknteknya sebagian besar sinyal adalah dalam kawasan watu, dalam artian apapun sinyal yang diukur merupakan fungsi dari waktu (Robi Polikar, 2001). Untuk memperoleh informasi yang terkandung di dalam sinyal kita memerlukan sebuah metoda analisis dan salah satunya adalah yang dikenal dengan Transformasi Fourier (TF).

(2)

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 124

Ekstraksi Ciri

TWD db3 detil level 4, menyeragamkan keluaran wavelet menjadi 4001, membuat matrik data pembelajaran, ektraksi dengan LPC

Pengenalan Pola

Pengujian data pembelajaran (225 data). Proses Pengenalan Menggunakan Jarak mahalobis

Output

Mendeteksi Suara vokal a/i/u/e/o

Input

Perekaman Suara

Pre-Processing

Membaca data suara

Transformasi Fourier hanya memberikan informasi frekuensi dari sebuah isyarat tapi tidak memberikan informasi waktu. Dalam alisis isyarat yang memiliki frekuensi bervariasi dalam satuan waktu, diperlukan transformasi yang dapat memberikan resolusi frekuensi dan waktu secara bersamaan, analisis ini disebut juga dengan Analisis Multi Resolusi (AMR), Transformasi Wavelet adalah AMR yang dapat merepresentasikan isyarat dalam kawasan frekuensi dan waktu.

Gambar 1 Blok Diagram Penelitian 1. Transformasi Wavelet Diskrit

Sebuah ujaran (speech) adalah sinyal nonstasioner. Transformasi Fourier (FT) tidak cocok untuk analisa sinyal nonstasioner karena hanya memberikan informasi frekuensi sinyal tetapi tidak memberikan informasi kapan waktu terjadinya frekuensi tersebut. Transformasi Wavelet mengurai sinyal melalui translasi dan dilatasi dari

mother wavelet. Mother wavelet merupakan fungsi

waktu dengan energi terbatas dan fast decay. Fersi yang berbeda dari wavelet tunggal adalah ortogonal satu sama lainnya. Transformasi Wavelet Kontinu di terjemah kan dalam persamaan 1 dimana (t) disebut juga mother wavelet (ibu wavelet) dan merupakan faktor skala dan parameter translasi (N. S. Nehe, 2012)

*

(1)

Transformasi Wavelet Kontinu melakukan analisis multi resolusi dengan kontraksi dan dilatasi fungsi wavelet. Transformasi Wavelet Diskrit menggunakan filter bank untuk membangun multi resolusi dalam frekuensi-waktu (J.R.E.Merry, 2005).

Gambar 2 memperlihatkan filter dari Transformasi wavelet Diskrit, dimana LowPass

Filter meloloskan frekuensi rendah dan HighPass Filer meloloskan frekuensi tinggi, ini disebut juga

dengan filter dasar dari Transformasi Wavelet Diskrit. Aproksimasi adalah skala tinggi dengan komponen frekuensi rendah dan Detil adalah skala rendah dengan kompone frekuensi tinggi (Michael Misiti, 1996)

Gambar 2. Filter Dasar TWD

Gambar 3, memperlihatkan dekomposisi dan rekontruksi beberapa tingkat. Dalam dekomposisi beberapa tingkat, hasil keluaran low-pass filter kemudian digunakan untuk melakukan proses dekomposisi ke tingkat berikutnya. Proses ini kemudian diulang sampai pada tingkat dekomposisi yang diinginkan. Dari gambar 3 dapat ditulis dengan

S= CA3+CD3+CD2+CD1

Gambar 3. Tingkat Dekomposisi Multi Level Setelah mendapatkan tingkat dekomposisi yang diinginkan, kemudian dilakukan proses rekontruksi, hasil rekontruksi dari dekomposisi menjadi ciri dari suara vokal. Gambar 4 rekontruksi sinyal hasil dekomposisi

(3)

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 125

Gambar 4 Rekontruksi TWD

2. Linear Predictive Coding (LPC)

Linear Predictive Coding adalah sebuah

alat yang digunakan dalam pemrosesan sinyal audio dan pengolahan ujaran (speech). Untuk mewakili amplop spektral dari sinyal digital sebuah ujaran dalam bentuk terkompresi menggunakan informasi dari model prediktif linier

Aspek yang paling penting dari LPC adalah filter prediksi linier yang memungkinkan nilai dari sampel berikutnya akan ditentukan oleh kombinasi linier dari sampel sebelumnya (Jeremy Bradbury, 2000). Pada waktu tertentu, , sampel ujaran adalah representasi sebuah penjumlahan linier dari sampel sebelumnya. Hal ini dapat diwakili oleh persamaan 2

S(k)=ak -1 s(k-1) +ak-2 s(k-2) +.. ak-n s(k-n) (2) Dimana S(k) adalah nilai dari sinyal pada waktu (k), koefisien aki disebut juga Linier Prediktive

Coding Coefficient. Koefisien dapat dianalisis

untuk memberikan wawasan dengan sifat sinyal. Fitur lain yang penting dari LPC adalah meminimalkan jumlah dari perbedaan kuadrat antara ujaran asli dan sinyal ujaran perkiraan selama durasi terbatas. Hal ini menghasilkan sebuah seperangkat unik koefisien prediktor yang biasanya diperkirakan dengan panjang frame 20ms sampai 50ms. Koefisien prediktor diwakili oleh ak. Fungsi parameter penting lain adalah gain (G). fungsi transfer dari variasi waktu filter digital diberikan pada persamaan 3 (Sonia Sunny, 2012).

-k

(3)

HASIL DAN PEMBAHASAN 1. Pre-processing

Pada tahap awal, perekaman suara dilakukan dari tiga orang serponden laki-laki dengan rentang usia 24-27 tahun. Setiap responden mengucapkan masing-masing 15 kali pengucapan setiap vokal. Perekaman menggunakan headset dengan kedudukan microphone yang fix, diharapkan tidak terjadi variasi jarak. Gambar 5 dibawah ini memperlihatkan suara vokal hasil perekaman. Gambar 5a memperlihatkan hasil rekaman suara vokal a, 5b memperlihatkan hasil rekaman suara vokal i, 5c memperlihatkan hasil rekaman suara vokal u, 5d memperlihatkan hasil rekaman suara vokal e, 5e memperlihatkan hasil rekaman suara vokal o.

(a) Suara Vokal A (b) Suara Vokal I

(c) Suara Vokal U (d) Suara Vokal E

(e) Suara Vokal O

Gambar 4 Suara Vokal Hasil Perekaman

2. Ekstraksi Ciri

Pada tahap ini ekstraksi ciri menggunakan Transformasi Wavelet Diskrit, dengan mother wavelet db3 (Daubechies3) dengan tingkat dekomposisi level 4. Dalam penelitian ini yang menjadi ciri adalah hasil dekomposisi dan rekontruksi dari db3 detil 4. Gambar 5 memperlihatka hasil rekontruksi dari suara vokal.

Pada gambar 5a dapat dilihat detil 1 memiliki frekuensi yang tinggi sehingga suara yang dihasilkan melengking. Semakin tinggi level dekomposisi maka frekuensi yang dihasilkan akan semakin rendah (suara cenderung bass) dan hampir tidak teerdengar pengucapan suara vokal tersebut. Dari pengamatan ini peneliti mengambil kesimpulan tingkat dekomposisi detil level 4 yang

0 0.2 0.4 0.6 0.8 1 1.2 1.4 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 Waktu (s) Sinyal -- a1.wav 0 0.2 0.4 0.6 0.8 1 1.2 1.4 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 Waktu (s) Sinyal -- i1.wav 0 0.2 0.4 0.6 0.8 1 1.2 1.4 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 Waktu (s) Sinyal -- u1.wav 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 Waktu (s) Sinyal -- e1.wav 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 Waktu (s) Sinyal -- o1.wav

(4)

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 126

0 5 10 15 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5

Ekstraksi LPC untuk Data Pembelajaran

Vokal A Vokal I Vokal U Vokal E Vokal O 0 2000 4000 6000 8000 10000 12000 14000 -1 0 1 Suara Asli 0 2000 4000 6000 8000 10000 12000 14000 -0.2 0 0.2 Detail Level 1 0 2000 4000 6000 8000 10000 12000 14000 -1 0 1 Detail Level 2 0 2000 4000 6000 8000 10000 12000 14000 -0.5 0 0.5 Detail Level 3 0 2000 4000 6000 8000 10000 12000 14000 -0.1 0 0.1 Detail Level 4 0 5 10 15 20 25 30 35 -2.5 -2 -1.5 -1 -0.5 0 Vokal A Vokal I Vokal U Vokal E Vokal O Test LPC 0 5 10 15 20 25 30 35 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 Vokal A Vokal I Vokal U Vokal E Vokal O Test LPC

dijadikan pencirian dari suara vokal yang akan masuk ke proses selanjutnya

Hasil dari ekstraksi ciri DWT, memiliki panjang data yang berbeda. Hal ini disebabkan perbedaan waktu respoden dalam pengucapan suara vokal. Dikeranekan panjang data yang berbeda dilakukan penyeragaman menjadi 4001 sampel dengan alasan, dalam kenyataannya rata-rata pengucapan huruf vokalsetiap responden adalah dalam rentang 0,3 detik sampai 0,4 detik. Sehingga penyeragaman suara diambil 4001 (0,5 detik). Hasil penyeragaman disimpan dalam format *.mat

Gambar 5.a) Rekontruksi Detail

Gambar 5.b) Rekontruksi Aproksimasi

Kemudian data yang telah diseragamkan diekstraksi ciri menggunakan algoritma LPC (Linear Predictive Coding). Gambar 6

memperlihatkan grafik dari distribusi mixture model pada LPC untuk setiap sampel suara vokal

Gambar 6. Grafik Distribusi Mixture LPC Setiap Suara vokal

3. Pengenalan Pola

Pada blok pengenalan pola dilakukan pengujian sinyal hasil ekstraksi ciri dengan sinyal masukan (data pembelajaran). Hasil pengujian data pembelajaran dengan menggunakan metode pengukuran jarak mahalobis. Gambar 7 memperlihatkan grafik distribusi mixture ekstraksi LPC dan data pembelajaran. Sedangkan Gambar 8 memperlihatkan hasil dari pengujian data pembelajaran dengan menggunakan metode pengukuran jarak mahalobis. Jarak pengukuran terendah merupakan hasil dari suara vokal

Gambar 7 Grafik Distribusi Mixture Ektraksi LPC dan Data Pembelajran

0 2000 4000 6000 8000 10000 12000 14000 -1 0 1 Suara Asli 0 2000 4000 6000 8000 10000 12000 14000 -1 0 1 Approx Level 1 0 2000 4000 6000 8000 10000 12000 14000 -1 0 1 Approx Level 2 0 2000 4000 6000 8000 10000 12000 14000 -0.1 0 0.1 Approx Level 3 0 2000 4000 6000 8000 10000 12000 14000 -0.05 0 0.05 Approx Level 4

(5)

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 127

1 1.5 2 2.5 3 3.5 4 4.5 5 0 0.5 1 1.5 2 2.5x 10 4

DATA HURUF VOKAL Nilai Terendah = 61.252 VOKALNYA =O 0 0.2 0.4 0.6 0.8 1 1.2 1.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4

SUARA Dikenali LPC Sbg-O

Gambar 8 Grafik Metode Pengukuran Jarak

Mahalobis

Tampilan hasil dari pengujian suara pembelajaran diperlihatkan Gambar 9

Gambar 9 Tampilan Hasil Pengujian Suara Pembelajaran

Tingkat pengenalan dari seluruh data masukan sinyal pembelajaran diperlihatkan pada tabel 1. Tabel 1 diperoleh dari hasil pengenalan pada pengujian dari data pembelajaran. Data pembelajaran sebanyak 225. Data pembelajaran diperoleh dari 3 orang responden, setiap responden mengucapkan masing-masing 15 kali pengucapan setiap huruf vokal.

Tabel 1. Tingkat Pengenalan Data Pembelajaran Deteksi Suara Vokal

Suara Vokal Tingkat pengenalan (%) A I U E O 100 100 100 100 100 KESIMPULAN

Hasil analisa dan pembahasan dari sistem yang dibangun dengan dua metode ekstraksi ciri, Transformasi Wavelet Diskrit db3 detil level 4 dan LPC. LPC juga digunakan sebagai pengenalan, metode pengukuran jarak mahalobis digunakan sebagai pengujian.

Metode yang telah dilakukan telah berhasil mencirikan suara vokal serta mengenali data pembelajaran dengan baik. Sesuai dengan hasil uji data pembelajaran yang dilakukan didapatkan hasil pengenalan 100%.

Metode ini perlu dilakukan untuk menguji atau mengenali data diluar data pembelajaran UCAPAN TERIMA KASIH

Terima kasih kepada Dr. Ir. Risanuri Hidayat, M.Sc, dan Ir. Sujoko Sumaryono, MT atas izin pemanfaatan fasilitas di Lab Sistem Informasi di FT. JTETI Universitas Gadjah Mada, Yogyakarta.

DAFTAR PUSTAKA

http://www.learnartificialneuralnetworks.com /speechrecognition.html

Jeremy Bradbury. Linear Predictive Coding. 2000. Laurance Rabirer, Biing-Huang Juang.

Fundamental Of Speech Recognition. Prentice-Hall, Eglewood Clift, New Jersey, 1993

Michel Misiti, Yves Misiti, Georges Oppenheim and Jean-Michael Poggi. Wavelet Toolbox For Use With MATLAB

N. S. Nehe, R. S Holambe, DWT and LPC based Feature Extractioan Method for Isolated Word Recognition, EURASIP Journal on Audio, Speech, and Music Processing, 2012

R.J.E Merry Wavelet Theory and Applications A literature study, Eindhoven University of Technology Department of Mechanical Engineering Control Systems Technology Group, Eindhoven, June 7, 2005

Robi Polikar. The Engineer’s Ultimate Guide To Wavelet Analysis

Shivesh Ranjan. A Discrete Wavelet Transform Based Approach to Hindi Speech Recognition. International Conference on

(6)

SEKOLAH TINGGI TEKNOLOGI NASIONAL, 14 Desember 2013

E 128

Signal Acquisition and Processing, IEEE, 2010

Sonia Sunny, David Peter S and K Poulose Jacob. Feature Extraction Methods based on Linear Predictive Coding and Wavelet Packet Decomposition for Recognizing Spoken Words in Malayam. International Conference on Advances in Computing and Communication, 2012