EFEKTIVITAS IDENTIFIKASI UCAPAN HURUF VOKAL MANUSIA PADA DOMAIN FREKUENSI DENGAN MENGGUNAKAN 2048 POINT FFT

(1)

IV-46 SENTRA

EFEKTIVITAS IDENTIFIKASI UCAPAN HURUF VOKAL

MANUSIA PADA DOMAIN FREKUENSI DENGAN

MENGGUNAKAN 2048 POINT FFT

Hendra Setiawan1, Miftahuddin2

1,2

Universitas Islam Indonesia, Yogyakarta

Kontak Person:

Hendra Setiawan

Teknik Elektro, FTI-UII, Jl. Kaliurang km.14.5, Yogyakarta 55584

Telp: 0274-895287, Fax: 0274-895007 ext.148, E-mail: hendra.setiawan@uii.ac.id

Abstrak

Pada makalah ini disajikan teknik pengenalan suara di kawasan frekuensi hanya dengan menggunakan transformasi Fourier dan tanpa tambahan algoritma lainnya untuk mengetahui efektifitas pengenalan suara di kawasan frekuensi. Suara yang diteliti dibatasi hanya pada suara vokal manusia. Dengan hipotesis bahwa setiap suara vocal yang sama memiliki kemiripan dengan suara vocal orang lain, maka dapat dibuat suatu pola suara vocal yang bersifat umum. Tahapan yang digunakan pada penelitian ini meliputi pengambilan sample suara vokal dari responden, ekstraksi keunikan pola setiap vokal untuk setiap responden, dan pengujian kemiripan untuk setiap vokal. Dari pengujian diperoleh nilai akurasi pengenalan huruf vokal ‘a’ adalah 68%, huruf vokal ‘e’ adalah 36%, huruf vokal ‘i’ adalah 58%, huruf vokal ‘o’ adalah 76%, huruf vokal ‘u’ adalah 36%. Sehingga secara teknis pengenalan suara vokal secara langsung di kawasan frekuensi memberikan hasil yang kurang memuaskan.

Kata kunci:_{suara vokal, kawasan frekuensi, FFT, identifikasi suara}

Pendahuluan

Suara merupakan salah satu jenis gelombang longitudinal yang perambatannya memerlukan media penghantar. Suara sangat penting untuk interaksi manusia dengan lingkungan sekitarnya termasuk dengan peralatan/ mesin yang bukan merupakan benda hidup. Untuk dapat memahami informasi yang disampaikan oleh manusia, maka diperlukan suatu teknik pengenalan suara [1].

Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu fonem vokal dengan fonem vokal lainnya [2]. Selain itu seseorang mempunyai karakteristik fonem yang unik dan berbeda dengan orang lain. Untuk itu dengan mengenali karakteristik setiap fonem, dapat digunakan untuk banyak keperluan dari pengenalan jenis kelamin [3][4], sampai ke identifikasi masalah di tenggorokan [5].

Teknik pengenalan suara dapat dilakukan di kawasan waktu maupun di kawasan frekuensi dengan berbagai macam algoritma yang terlibat. Pengenalan di kawasan waktu mempunyai kendala pada pemotongan/pengambilan sample yang harus cukup panjang untuk dapat memperoleh klasifikasi suara yang diinginkan [6]. Selain itu pemrosesan sinyal di kawasan waktu sangat rentan terhadap gangguan noise.

Metode yang sering digunakan dalam identifikasi suara adalah dengan menggunakan transformasi Fourier [3], [4] dan dapat dipadukan dengan jaringan saraf tiruan (JST) [7]. Metode lain yang juga digunakan dalam pengenalan suara adalah dengan transformasi wavelet [5], [8].

(2)

SENTRA IV-47

Metode Penelitian

Langkah-langkah yang ditempuh dalam penelitian ini secara garis besar meliputi pengambilan sample, transformasi ke kawasan frekuensi, identifikasi dan pembuatan pola, dan pengujian pola. Selanjutnya proses ini ditunjukkan dalam gambar 1.

Gambar 1. Diagram proses penelitian

Sample suara yang digunakan dalam penelitian ini adalah suara vokal (‘a’, ‘i’, ‘u’, ‘e’, ‘o’) yang dikeluarkan oleh lima orang responden (dua pria dan tiga wanita) yang berasal dari beberapa daerah yang berbeda di Indonesia. Masing-masing responden diambil 100 data suara untuk setiap huruf vokal. Suara direkam menggunakan mikrofon dengan panjang durasi selama dua detik. Adapun frekuensi sampling yang digunakan adalah 44100Hz agar tidak terjadi aliasing pada suara audio yang berkisar antara 20 sampai 20000Hz.

Semua sample suara (dilambangkan dengan s) disimpan dalam format *.WAV yang kemudian diekstraksi menggunakan MATLAB menjadi variable di dalam workspace. Sinyal dalam kawasan waktu tersebut diubah ke kawasan frekuensi dengan transformasi Fourier diskret sesuai dengan persamaan berikut ini:

Dengan

X

 

n

adalah sinyal diskret hasil transformasi di domain frekuensi,

x

 

n

adalah sinyal diskret

di domain waktu,

N

adalah banyaknya sample, dan

n

adalah indeks sinyal.

Dengan durasi pengambilan setiap sample 2 detik dan frekuensi sampling 44100Hz, maka setiap s mempunyai panjang 88200. Dengan tingkat resolusi di 20Hz, maka diperlukan Fourier transform dengan N=2205. Karena pada realitas yang digunakan adalah fast Fourier transform (FFT) yang nilai N = 2k, maka diambil nilai N=2048. Untuk panjang data 88200, maka diperlukan 5 kali proses FFT untuk masing-masing sample suara (s). Hasil semua FFT untuk setiap s, selanjutnya dilakukan

perhitungan rata-rata (

S

). Sehingga setiap responden akan memiliki 100 buah

S

untuk setiap suara

vokal. 100 buah

S

dilakukan proses rerata dan normalisasi sehingga dihasilkan sebuah pola (

S



). Pola

S



inilah yang kemudian menjadi pola untuk setiap responden.

S1



_A menyatakan pola suara vokal ‘a’

untuk responden 1. Sehingga total terdapat 25 pola untuk lima orang responden.

(3)

IV-48 SENTRA

Proses korelasi di atas juga digunakan untuk melakukan pengujian pola dengan suara vokal yang sama yang berasal dari responden yang sama.

Hasil Penelitian dan Pembahasan

Hasil pengamatan di domain frekuensi diketahui bahwa komponen frekuensi dominan berkisar antara indeks 8 sampai dengan 72. Jika dinyatakan dalam nilai frekuensi adalah 172Hz sampai dengan 1550Hz. Sedangkan komponen frekuensi di atas index 100 (lebih dari 2153Hz) bernilai sangat kecil, sehingga dapat diabaikan.

Pola yang didapat untuk setiap responden ternyata berbeda-beda. Gambar 2 dan 3 masing-masing menunjukkan pola suara vokal di kawasan frekuensi untuk responden 3 dan responden 5. Terlihat bahwa keduanya tidak mempunyai kemiripan sama sekali. Hal ini tentu akan mempersulit pembuatan pola yang berlaku umum untuk semua orang.

Untuk mengetahui kemiripan antar vokal pada setiap responden dilakukan korelasi pola di kawasan frekuensi. Hasil korelasi ini disajikan dalam Tabel 1. Dari tabel tersebut tampak bahwa beberapa vokal mempunyai kemiripan yang lebih besar dengan vokal lain daripada dengan pola vokal

dirinya sendiri. Misalnya pada responden 2, vokal ‘o’ memiliki nilai korelasi yang lebih besar dengan vokal ‘e’ daripada vokal ‘o’ dengan vokal ‘o’ sendiri. Contoh lainnya adalah pada responden 5,

dimana vokal ‘u’ memiliki korelasi paling besar dengan vokal ‘i’. Hal ini akan berdampak pada kesalahan interpretasi ketika pola ini digunakan untuk identifikasi.

Gambar 2. Pola di kawasan frekuensi untuk responden 3

Gambar 3. Pola di kawasan frekuensi untuk responden 5

Tabel 1 Hasil korelasi antar pola suara vokal di kawasan frekuensi

Responden 1

A E I O U

A 1.4027 0.1691 0.0715 1.0796 0.0986 E 1.4878 1.0050 0.5690 1.1539 I 1.3493 0.6592 1.2563

O 2.0629 0.7605

(4)

SENTRA IV-49

Selanjutnya dilakukan identifikasi suara responden dengan menggunakan pola yang telah ada. Berdasarkan hasil pengujian diperoleh hasil sebagaimana diberikan di Tabel 2. Masing-masing pengujian dilakukan sepuluh kali.

Tabel 2 Hasil identifikasi suara responden berdasarkan pola yang diperoleh Keberhasilan deteksi untuk responden (%)

Dari Tabel 2 diketahui bahwa keberhasilan deteksi vokal sangat tergantung pola antar vokal. Responden 3 yang memiliki pola antar vokal yang unik, mempunyai tingkat deteksi yang tinggi, sedangkan pada responden lainnya, cenderung memiliki tingkat deteksi yang rendah untuk beberapa vokal. Secara umum, tingkat deteksi vokal ‘a’ sebesar 68%, vokal ‘e’ sebesar 36%, vokal ‘i’ sebesar

58%, vokal ‘o’ sebesar 76%, dan vokal ‘u’ sebesar 36%.

Kesimpulan

Pada penelitian ini telah berhasil dilakukan identifikasi suara vokal manusia di kawasan frekuensi dengan menggunakan 2048 point FFT. Analisis di kawasan frekuensi menunjukkan bahwa frekuensi-frekuensi dominan berada di daerah frekuensi 170Hz sampai dengan 3200Hz. Pola yang diperoleh di kawasan frekuensi menunjukkan adanya kemiripan antar vokal untuk beberapa responden. Hal ini berpengaruh pada hasil deteksi yang kurang akurat.

(5)

IV-50 SENTRA

Referensi

[1] L. B. Rabiner, R. W. Schafer, Teory and Applications of Digital Speech Processing. 5th edition. New Jersey. Pearson:2011.

[2] Arman, Ari Akhmad. Proses Pembentukan dan Karakteristik Sinyal Ucapan. Thesis S2. Bandung:ITB: 2008.

[3] Safriadi dan Risawandi, Identifikasi Gender Melalui Suara Menggunakan Metode Discrete Fourier Transform (DFT), Seminar Nasional Inovasi dan Teknologi Informasi 2014 (SNITI). Samosir. 2014:351-354.

[4] B. W. Prasetya, B. Susanto, J. Purwadi, Identifikasi Suara Pria dan Wanita Berdasarkan Frekuensi Suara. Jurnal Informatika. 2008; 4(1):11-17.

[5] L. Hakim, A. Arifin, T. A. Sardjono, Identifikasi Suara Serak Berbasis Transformasi Wavelet Dan Algoritma Jaringan Syaraf Tiruan. Seminar on Intelligent Technology and Its Applications. Surabaya. 2012:119-124.

[6] K.W. Lindenberg. Time domain speech recognition system, U.S. Patent no.3940565, 1976.

[7] M. Ambarjati, B. L. Widjiantoro, A. Rahmadiasah, Identifikasi suara ucap berbasis fitur non-akustik dengan menggunakan jaringan syaraf tiruan. Skripsi S1. Surabaya: ITS; 2011.