PENDAHULUAN. Latar Belakang

(1)

1 PENDAHULUAN

Latar Belakang

Perkembangan teknologi informasi dapat mempermudah pekerjaan manusia dalam kehidupan sehari-hari. Pekerjaan manusia secara manual dapat digantikan dengan sistem otomatis. Salah satu sistem otomatis adalah sistem yang dapat membuat komputer mampu berkomunikasi dengan manusia. Dalam proses komunikasi ini diperlukan tahap konversi suara ke teks (speech to text transcription).

Konversi suara ke teks, berawal dari pengenalan berbasiskan fonem Berbasis fonem diterapkan karena, jika berbasiskan kata, yang mana setiap kata yang terdapat dalam kamus kata dimodelkan dengan suatu teknik pemodelan. Hal ini mengakibatkan kurang efektifnya sistem apabila akan dikembangkan untuk sistem pengenalan kata yang bersifat large vocabulary yang mana kata yang terdapat dalam kamus kata berjumlah sangat besar. Oleh karena itu, di dalam penelitian ini akan dikembangkan suatu sistem pengenalan fonem yang merupakan tahap awal dari pengenalan kata.

Tahap awal pengenalan fonem dilakukan dengan praproses pada sinyal suara. Praproses merupakan proses penghapusan silent, normalisasi dan segmentasi manual. Data fonem yang dihasilkan dari praproses, dilanjutkan dengan pembuatan template untuk membangun model pengenalan fonem. Dengan demikian, komputer diharapkan mampu menerjemahkan ucapan ke dalam bentuk teks yang diucapkan.

Teks yang dihasilkan merupakan gabungan dari beberapa fonem. Dengan demikian, sebelum ke tahap konversi suara ke teks diperlukan tahap pengenalan fonem.

Data yang digunakan adalah sinyal suara manusia yang direkam dari satu pembicara.

Digunakan sinyal suara sebagai masukan karena merupakan salah satu karakteristik fisiologis manusia yang unik. Suara juga sebagai sistem biometrik dan lebih efisien dibandingkan dengan biometrik yang lain.

Penelitian ini membandingkan konsep berbasiskan transformasi Fourier dan transformasi Wavelet. Transformasi Wavelet diskret yang digunakan berbasis orthogonal yaitu Daubechies. Menurut (Agustini 2006) Daubechies merupakan tipe Wavelet yang memberikan tingkat pengenalan paling tinggi dibandingkan dengan Symlets dan Coiflets.

Distribusi Normal digunakan sebagai pencocokan pola.

Tujuan

Penelitian ini bertujuan memberikan informasi nilai akurasi. Selain itu, juga membandingkan antara transformasi Fourier dan transformasi Wavelet sebagai ekstraksi ciri, pada pengenalan fonem dengan Distribusi Normal sebagai pencocokan pola.

Ruang Lingkup

Ruang lingkup penelitian ini adalah :

1. Penelitian difokuskan pada pemodelan pengenalan fonem, bukan pengenalan kata atau kalimat.

2. Fonem yang digunakan sebanyak 26 fonem dari /a/ sampai /z/.

3. Teks yang diucapkan berbahasa Indonesia.

4. Penelitian ini menerapkan transformasi Fourier dan transformasi Wavelet jenis orthogonal Daubechies sebagai ekstraksi ciri dengan orde 4 pada level 1.

5. Penelitian ini menerapkan Distribusi Normal sebagai pengenalan pola.

6. Data sinyal suara pada penelitian ini menggunakan satu pembicara.

7. Implementasi sistem pengenalan kata menggunakan software MATLAB 7.7.

TINJAUAN PUSTAKA Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (KBBI). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru yang tidak terkena hambatan atau halangan.

Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru- paru mendapatkan hambatan atau halangan.

Jumlah fonem konsonan ada 21 buah yaitu:

b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

Akuisisi data suara digital

Sinyal merupakan suatu kuantitas fisik yang bervariasi dengan waktu, ruang, maupun sembarang satu atau lebih peubah bebas lainnya (Proakis dan Manolakis 1996).

Akuisisi data suara digital merupakan proses untuk mengakuisisi ucapan pembicara dalam sinyal analog dan mengubah menjadi sinyal digital. Sinyal digital yang terbentuk berupa suatu vektor (Agustini 2006).

(2)

2 Secara konsepsi, konversi analog to

digital (A/D), melalui tiga tahapan proses yaitu: (Proakis dan Manolakis 1996)

a) Proses sampling

Sampling merupakan pengambilan nilai- nilai (sampling rate) dari sinyal kontinu pada setiap jangka waktu (T) yang ditentukan, sehingga sinyal yang awalnya kontinu berubah menjadi diskret.

Menurut (Buono 2009) bahwa, karena sinyal analog dapat direpresentasikan sebagai penjumlahan dari gelombang sinus dengan amplitudo, frekuensi dan fase yang berbeda.

Dengan demikian, nilai sampling rate yang dapat menangkap semua komponen sinyal haruslah minimal dua kali frekuensi maksimum yang ada dalam sinyal. Nilai sampling rate sebesar Fs = 2 Fmax disebut sebagai Nyquist rate.

Aturan teori Nyquist menyatakan bahwa frekuensi sinyal paling sedikit dua kali frekuensi sinyal yang akan di-sampling (sinyal analog) dan merupakan batas minimum dari frekuensi sample (Fs). Lebih besar tentunya lebih baik, karena menggambarkan sinyal aslinya.

Sampling rate yang digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16000 Hz (Jurafsky dan Martin 2000).

Hubungan antara panjang vektor data yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasikan dinyatakan berdasarkan persamaan 1:

S = Fs× T (1)

Keterangan:

S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

b) Kuantisasi

Kuantisasi merupakan konversi nilai amplitudo yang bersifat kontinu menjadi nilai diskret. Proses ini menyimpan nilai-nilai simpangan sinyal menjadi representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000).

c) Pengkodean

Pengkodean merupakan pemberian bilangan biner pada setiap level kuantisasi.

Ekstraksi Ciri

Tujuan ekstraksi ciri untuk mereduksi ukuran data tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri. Ekstraksi ciri didapat dari mengonversikan bentuk sinyal

suara ke dalam bentuk representasi secara parameter (Agustini 2006). Ekstraksi ciri MFCC menghitung koefisien cepstral dengan mempertimbangkan pendengaran manusia.

MFCC didasarkan pada variasi frekuensi batas pendengaran manusia yaitu sekitar 20 Hz - 20000 Hz. Tahapan MFCC adalah sebagai berikut (Do 1994):

1. Frame Blocking dan Windowing 2. Fast Fourier Transform (FFT) 3. Mel FrequencyWrapping 4. Cepstrum

Frame Blocking dan Windowing

Frame blocking merupakan segmentasi frame dengan lebar tertentu yang saling tumpang tindih atau suara digital yang telah diakuisisi dengan durasi tertentu. Tiap-tiap hasil frame direpresentasikan dalam sebuah vektor.

Proses frame blocking mengakibatkan terjadi distorsi (ketidakberlanjutan sinyal) antar frame.

Dengan demikian, untuk meminimalisasi distorsi tersebut dilakukan proses windowing.

Proses windowing yaitu proses filtering tiap frame dengan cara mengalikan setiap frame tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame.

Frame windowing bertujuan meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara. Tahap pembuatan window menggunakan fungsi window Hamming. Window Hamming dapat dituliskan dengan persamaan 2 (Do 1994).

d(u) = 0.54 + 0.46 cos

(2)

Dalam hal ini, u = 0,1,…,N-1 dan N merupakan jumlah samples tiap frame. Menurut (Buono 2009), fungsi window Hamming memiliki nilai J(bias) dan V(varian) moderat.

Selain itu, window Hamming juga memiliki nilai mean squared error (MSE) berada ditengah-tengah dibanding dengan filter yang lain serta memiliki kesederhaan rumus. Oleh sebab itu, maka fungsi window Hamming ini digunakan.

Fast Fourier Transform (FFT)

Fast fourier transformation (FFT) bertujuan mendekomposisi sinyal menjadi sinyal sinusoidal, dan terdiri atas dua unit, yaitu unit real dan unit imajiner. FFT digunakan untuk analisis frekuensi, sehingga mempermudah pemrosesan suara karena sesuai dengan pendengaran manusia. FFT adalah algoritme yang mengimplementasikan discrete fouries transform (DFT). DFT

(3)

3 merupakan transformasi setiap frame dengan N

sample dari domain waktu ke domain frekuensi yang didefinisikan pada persamaan 3 berikut (Do 1994).

"!#

$

%'&(

)*+ ,"-/.

Keterangan:

N = banyaknya segmen sekuen Xk = nilai data ke k

n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1 j = ⁰²¹⁴³

Secara umum Xn adalah bilangan yang kompleks. Hasil dari tahap ini disebut dengan spektrum sinyal atau periodogram.

Mel FrequencyWrapping

Proses wrapping menghitung nilai mel- frequency dengan sejumlah filter yang saling overlap. Filter yang digunakan berbentuk segitiga dengan tinggi satu pada ruang frekuensi mel. Skala mel digunakan untuk mengikuti persepsi pendengaran manusia yang dikenal dengan Mel Wrapping (Buono 2009).

Berdasarkan studi psikologi, telinga manusia mempunyai persepsi terhadap frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Persamaan berikut dapat digunakan untuk perhitungan mel- frequency pada frekuensi ⁵ dalam satuan hertz (Nilsson dan Ejnarsson 2002).

687:9/;<

=>'?@8?4ABC/D'EFHGJI4K

F_Hz

700^LMONQPR F_Hz ^SUTVV'V F_Hz^WYXQZ[ F_Hz^{\U]^^'^} (4) Dari persamaan 4, FHz adalah frekuensi akustik, maka nilai frekuensi FHz sebagai fungsi dari skala mel adalah:

_`acbedffcgihj/kml8nio

pqsrq tvuJw

(5)

Gambar 1 Grafik hubungan frekuensi dengan skala mel (Buono 2009).

Pada Gambar 1 terlihat bahwa untuk frekuensi rendah, filter yang digunakan menggunakan skala linear, sehingga lebarnya konstan. Dilain pihak, untuk frekuensi tinggi (>1000 Hz), filter dibentuk dengan skala logaritma.

M filter selanjutnya digunakan untuk menghitung nilai mel-frequency atau wrapping pada persamaan 6 berikut:

xzy{}|~/'""is

"

Dengan i=1,2,3… ,M (M adalah jumlah filter segitiga) dan Hi(k) adalah nilai filter segitiga ke i untuk frekuensi akustik sebesar k. Untuk N adalah banyaknya data, sedangkan X(k) merupakan nilai data ke k hasil dari proses FFT.

Cepstrum

Cepstrum merupakan hasil mel frequency yang diubah menjadi domain waktu menggunakan discrete cosine transform (DCT) dengan persamaan 7 (Do 1994):

"Y¡ £¢¥¤

¦

§¨©«ª¬®°¯²± ³µ´Q¶¸·/¹º¼»

½ ¾ ¿"ÀJÁ

dengan j=1,2,3,… ,K (K adalah jumlah koefisien yang diiginkan dan M = jumlah filter, sedangkan Xi adalah nilai data ke i hasil proses mel frequensy wrapping .

Wavelet

Wavelet dapat dibentuk dari satu fungsi (x) dikenal sebagai “mother Wavelet” dalam suatu interval berhingga. Wavelet merupakan gelombang singkat (small wave) yang energinya terkonsentrasi pada suatu selang waktu untuk memberikan kemampuan analisis transien, ketidakstasioneran, atau fenomena berubah terhadap waktu (time varying). Karakteristik dari Wavelet antara lain adalah berosilasi singkat, translasi (pergeseran), dan dilatasi (skala) (Burrus et al. 1998).

Wavelet memiliki banyak famili, dibedakan berdasarkan pada bank filter yang digunakan. Famili Wavelet terdiri atas biorthogonal Wavelet, Meyer Wavelet, Morlet Wavelet, Shanon Wavelet, dan masih banyak lainnya. Wavelet Daubechies merupakan famili orthogonal Wavelet hasil pengembangan dari Wavelet Haar.

(4)

4 Transformasi Wavelet menunjukkan

frekuensi waktu yang baik untuk lokalisasi properti dan alat yang tepat untuk analisis sinyal diskontinu (non stationary) (Krishnan 1994). Wavelet merupakan fungsi variabel real t, diberi notasi t dalam ruang fungsi L²(R). Fungsi ini dihasilkan oleh parameter penskala (dilatasi) dan penggeseran (translasi) dari sebuah fungsi tunggal (induk) yang dinyatakan dalam persamaan (Burrus et al.

1998) :

a,b(t) = a^-1/2 ^ÂÄÃÆÅÇ^È ^É ; a>0,b ^ÊÌË (8) fungsi pada persamaan (8) dikenalkan pertama kali oleh Grossman dan Morlet, dengan a,b ^ÍÏÎ dan a 0, a merupakan parameter penskala dan b adalah parameter translasi.

j,k(t) = a^j/2 (2^jt-k) ; j,k ^Ð Z (9) fungsi pada persamaan (9) dikenalkan pertama kali oleh Daubechies.

keterangan:

a = parameter penskala dan a 0 2^j= parameter dilatasi

k = parameter waktu atau lokasi ruang Wavelet berdasarkan pada pembangkitan sejumlah tapis (filter) dengan cara mengeser dan menskala mother Wavelet berupa tapis pelewat tengah (band-pass filter). Dengan demikian diperlukan pembangkit filter.

Penambahan dan pengurangan skala akan mempengaruhi durasi waktu, lebar bidang (bandwith) dan nilai frekuensi (Burrus et al.

1998).

Transformasi Wavelet dapat dibedakan menjadi dua, yaitu continous wavelet transform (CWT) dan discrete wavelet transform (DWT).

Fungsi yang digunakan dalam transformasi CWT dan DWT diturunkan dari mother Wavelet melalui translasi/ pergeseran dan penskalaan/dilatasi. Transformasi Wavelet kontinu mempunyai dua kelemahan yaitu redudancy dan ketidakpastian (impracticality) (Mallat 1999). Masalah tersebut dapat diselesaikan dengan mendiskretkan parameter penskala dan penggeseran.

Transformasi Wavelet Diskret

Transformasi Wavelet merupakan teknik pemrosesan sinyal multiresolusi. Proses transformasi Wavelet dilakukan dengan mengkonvolusi sinyal dengan data tapis (filter) atau dengan proses perata-rataan dan pengurangan secara berulang, yang sering disebut dengan metode filter bank. Prinsip

dasar dari DWT adalah bagaimana cara mendapatkan representasi waktu dan skala dari sebuah sinyal menggunakan teknik filter digital dan operasi sub-sampling.

Transformasi Wavelet diskret bertujuan mengurangi redundansi yang terjadi pada transformasi Wavelet kontinu. Transformasi Wavelet diskret menganalisis suatu sinyal dengan skala yang berbeda.

Sebuah sinyal dilewatkan dalam dua filter DWT yaitu highpass filter dan lowpass filter agar frekuensi dari sinyal tersebut dapat dianalisis. Pembagian sinyal menjadi frekuensi tinggi dan frekuensi rendah dalam proses highpass filter dan lowpass filter disebut sebagai dekomposisi. Proses dekomposisi ini dapat melalui satu atau lebih tingkatan. Dekomposisi satu tingkat ditulis dengan ekspresi matematika pada persamaan 10 dan 11.

ÑÒ"ÓiÔJÕÖ× ØÙ'ÚzÛÝÜßÞàá8âiãåä²æçéèëêì

í îmïð/ñ

ò óÆôõöÄö/ôµ÷ø'ùÌúÝûýü¥þÿ

Dalam hal ini y[k] tinggi dan y[k] rendah adalah hasil dari highpass filter dan lowpass filter, x[n] merupakan sinyal asal, h[n] adalah highpass filter, dan g[n] adalah lowpass filter.

Contoh ilustrasi dekomposisi dipaparkan pada Gambar 2 dengan menggunakan dekomposisi tiga tingkat. Pada Gambar 2 y[k]

tinggi dan y[k] rendah yang merupakan hasil dari highpass filter dan lowpass filter, y[k]

tinggi disebut sebagai koefisien DWT. y[k]

tinggi merupakan detail dari informasi sinyal, sedangkan y[k] rendah merupakan taksiran kasar dari fungsi penskalaan. Dengan menggunakan koefisien DWT ini maka dapat dilakukan proses inverse discrete wavelet transform (IDWT) untuk merekonstruksi menjadi sinyal asal.

Gambar 2 Dekomposisi Wavelet 3 tingkat.

Proses rekonstruksi diawali dengan menggabungkan koefisien DWT dari yang

(5)

5 berada pada akhir dekomposisi dengan

sebelumnya meng – upsample oleh 2 ( 2) melalui highpass filter dan lowpass filter.

Proses rekonstruksi ini sepenuhnya merupakan kebalikan dari proses dekomposisi sesuai dengan tingkatan pada proses dekomposisi. Dengan demikian, persamaan rekonstruksi pada masing-masing tingkatan dapat ditulis sebagai berikut:

"!$#&%')()(*%,+-/.012354687/9;:

<

=8>?A@CBEDGF$HI/JLKNMOP5QSR T/ULV WX Y[Z

Transformasi Wavelet Daubechies

Wavelet Daubechies secara historis berasal dari sistem Haar ditulis sebagai ‘dbN’ dengan N menunjukkan orde dengan 2 koefisien (db2) memiliki scaling function dengan koefisien low- pass sebagai berikut (Burrus et al. 1998).

\*]^_`ba;cNd$e

fEg/h i

j*k&lnmoqpsrNt$u

vEw/x y

z*{|}~qsN$

E/

*Gb;N$

E/

Dengan h(n) merupakan koefisien low-pass.

0,

dengan g= high-pass dan h = low-pass.

Ingrid Daubechies telah mengklasifikasikan koefisien secara numerik untuk N=4 atau berorde 4 pada Tabel 1(Burrus et al. 1998).

Tabel 1 Tabel koefisien db4.

Gambar 3 Bank filter Daubechies.

Tahapan ekstraksi ciri menggunakan transformasi Wavelet yaitu:

a) Frame Blocking dan Windowing

b) Discrete Wavelet Transform (DWT) menggunakan Daubechies

c) Mel FrequencyWrapping d) Cepstrum

Distribusi Normal

Distribusi Normal sering disebut sebaran Gauss. Penulisan notasi dari peubah acak yang berdistribusi normal umum adalah N(x;µ, ²), artinya peubah acak X berdistribusi normal umum dengan mean µ dan varians ². Peubah acak X yang berdistribusi normal dengan mean µ dan varians ² disingkat X~N(µ, ²).

Peubah acak X dikatakan berdistribusi normal umum, jika dan hanya jika fungsi densitasnya berbentuk seperti pada persamaan 13 (Herrhyanto dan Gantini 2009).

"/

/

¢¡[£

¤&¥§¦

¨n©)ª «¬® µ^¯)°¢± (13) Dengan - <X< , - <µ< , - < ²< , dalam hal ini X merupakan data yang digunakan sebagai data uji, µ merupakan nilai rata-rata dari data latih.

Distribusi Normal (Gauss) multivariate N( , ) didefinisikan sebagai:

²³´µ)¶¸· ¹

º»¼½A¾¿ À ÁÂÃ ÄAÅnÆÈÇCÉNÊ

Ë ÌÍÏÎ µ^Ð"Ñ ^ÒnÓÔ^ÕÏÖ µ×LØÙ&ÚÛGÜ

Untuk kasus satu dimensi, disederhanakan menjadi:

ÝnÞ*ßLà/áãâ ä

å,æ*çÈèé

ê

ëGì*í î$ïñð

ò ó,ôöõ

µ^÷

ø ù ú¢û ü¢ý8þÿ

Dalam hal ini, d = dimensi dari variabel, X merupakan koefisien data uji hasil ekstraksi

(6)

6 ciri, µ adalah nilai rata-rata dari data latih dan

merupakan nilai matriks kovarian dari data latih.

Matriks kovarian didapat dengan menghitung nilai rata-rata dari data latih.

Nilai rata-rata yang didapat selanjutnya dikurangi dengan matriks awal, dikali dengan matriks transform hasil pengurangan dan dibagi dengan banyak data. Misalkan, matriks data latih dengan banyak data 3, berukuran mxn dengan m = 3 (banyaknya baris) dan n = 2 (banyaknya kolom), maka matriks kovarian yang dihasilkan berukuran 2x2. Berikut Langkah - langkah menghitung matriks kovarian dan rata-rata dari matriks A:

1. Menghitung nilai rata-rata dari matriks A untuk menghasilkan matriks B.

, "!$#&%

2. Mengurangi matriks rata-rata dengan matriks A

')(+*-,.0/214365

7$8:94;6<=

>@?BAC0D2EGF6H

I$J:KGLMON

PRQBST0UWV4XY

Z$[]\4^`_&a

3. Menghitung nilai kovarian

bcOdfe&gOhieOjlklm)n`oqp)rOs$tvu$w6xzy|{R}f~0

f&ff

Dalam hal ini, A1^tmerupakan transform dari matriks A1, B^t merupakan transform dari matriks B, dan C^t merupakan transform dari matriks C.

METODE PENELITIAN Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengambilan data, pemodelan (feature extraction), dan pengenalan (feature matching). Feature extraction merupakan proses mengekstraksi data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil. Feature matching merupakan prosedur aktual mencocokkan pola dan membandingkan fitur ekstraksi suara yang dimasukkan dengan salah satu dari himpunan pembicara (Agustini 2006). Proses pengenalan fonem dapat dilihat pada Gambar 4.

Gambar 4 Proses pengenalan fonem.

Pengambilan Data

Data yang digunakan dalam penelitian ini adalah data dari sebelas kata (coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat). Pemilihan kata dilakukan untuk memenuhi jumlah keseluruhan fonem yaitu sebanyak 26 fonem.

Letak fonem dalam suatu kata tidak berpengaruh terhadap error rate yang dihasilkan. Letak fonem pada awal kata tidak selalu memberikan nilai error rate yang kecil, begitupun pada fonem yang terletak pada tengah maupun akhir kata (Resmiwati 2009).

Daftar fonem dari kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 2.

Tabel 2 Daftar fonem dalam penelitian.

Kelompok fonem Asal kata /a/, /j/, /y/ Jaya /b/, /c/, /o/ Coba /d/, /e/, /w/ Weda

/f/ fana

/g/, /h/ Gajah

/i/, /v/, /s/ Visa

/k/, /z/ Zakat

/l/, /m/, /u/ Malu /n/, /r/, /q/ Quran