Simulasi spiking neuron terstimulasi arus searah eksternal dengan menggunakan model Izhikevich

(1)

ABSTRACT

NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme Recognition. Under the supervised of AGUS BUONO.

Speech recognition is speech to text transcription. Speech to text transcription system is a system used to convert a voice signal from a microphone into a single or a set of words. Most research of speech to text transcription used technique which every word in corpus is modeled. It is not effective if we want to develop a large vocabulary speech recognition system which number of words in corpus are more than one thousand words. Therefore, this research developed phoneme recognition with early stage in speech recognition.

(2)

1 PENDAHULUAN

Latar Belakang

Perkembangan teknologi informasi dapat mempermudah pekerjaan manusia dalam kehidupan sehari-hari. Pekerjaan manusia secara manual dapat digantikan dengan sistem otomatis. Salah satu sistem otomatis adalah sistem yang dapat membuat komputer mampu berkomunikasi dengan manusia. Dalam proses komunikasi ini diperlukan tahap konversi suara ke teks (speech to text transcription).

Konversi suara ke teks, berawal dari pengenalan berbasiskan fonem Berbasis fonem diterapkan karena, jika berbasiskan kata, yang mana setiap kata yang terdapat dalam kamus kata dimodelkan dengan suatu teknik pemodelan. Hal ini mengakibatkan kurang efektifnya sistem apabila akan dikembangkan untuk sistem pengenalan kata yang bersifat large vocabulary yang mana kata yang terdapat dalam kamus kata berjumlah sangat besar. Oleh karena itu, di dalam penelitian ini akan dikembangkan suatu sistem pengenalan fonem yang merupakan tahap awal dari pengenalan kata.

Tahap awal pengenalan fonem dilakukan dengan praproses pada sinyal suara. Praproses merupakan proses penghapusan silent, normalisasi dan segmentasi manual. Data fonem yang dihasilkan dari praproses, dilanjutkan dengan pembuatan template untuk membangun model pengenalan fonem. Dengan demikian, komputer diharapkan mampu menerjemahkan ucapan ke dalam bentuk teks yang diucapkan. Teks yang dihasilkan merupakan gabungan dari beberapa fonem. Dengan demikian, sebelum ke tahap konversi suara ke teks diperlukan tahap pengenalan fonem.

Data yang digunakan adalah sinyal suara manusia yang direkam dari satu pembicara. Digunakan sinyal suara sebagai masukan karena merupakan salah satu karakteristik fisiologis manusia yang unik. Suara juga sebagai sistem biometrik dan lebih efisien dibandingkan dengan biometrik yang lain.

Penelitian ini membandingkan konsep berbasiskan transformasi Fourier dan transformasi Wavelet. Transformasi Wavelet diskret yang digunakan berbasis orthogonal yaitu Daubechies. Menurut (Agustini 2006) Daubechies merupakan tipe Wavelet yang memberikan tingkat pengenalan paling tinggi dibandingkan dengan Symlets dan Coiflets. Distribusi Normal digunakan sebagai pencocokan pola.

Tujuan

Penelitian ini bertujuan memberikan informasi nilai akurasi. Selain itu, juga membandingkan antara transformasi Fourier dan transformasi Wavelet sebagai ekstraksi ciri, pada pengenalan fonem dengan Distribusi Normal sebagai pencocokan pola. Ruang Lingkup

Ruang lingkup penelitian ini adalah :

1. Penelitian difokuskan pada pemodelan pengenalan fonem, bukan pengenalan kata atau kalimat.

2. Fonem yang digunakan sebanyak 26 fonem dari /a/ sampai /z/.

3. Teks yang diucapkan berbahasa Indonesia. 4. Penelitian ini menerapkan transformasi

Fourier dan transformasi Wavelet jenis orthogonal Daubechies sebagai ekstraksi ciri dengan orde 4 pada level 1.

5. Penelitian ini menerapkan Distribusi Normal sebagai pengenalan pola.

6. Data sinyal suara pada penelitian ini menggunakan satu pembicara.

7. Implementasi sistem pengenalan kata menggunakan software MATLAB 7.7.

TINJAUAN PUSTAKA Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (KBBI). Fonem dibagi menjadi dua, yaitu: 1. Fonem vokal merupakan bunyi ujaran akibat

adanya udara yang ke luar dari paru-paru yang tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

Akuisisi data suara digital

(3)

1 PENDAHULUAN

Latar Belakang

Perkembangan teknologi informasi dapat mempermudah pekerjaan manusia dalam kehidupan sehari-hari. Pekerjaan manusia secara manual dapat digantikan dengan sistem otomatis. Salah satu sistem otomatis adalah sistem yang dapat membuat komputer mampu berkomunikasi dengan manusia. Dalam proses komunikasi ini diperlukan tahap konversi suara ke teks (speech to text transcription).

Konversi suara ke teks, berawal dari pengenalan berbasiskan fonem Berbasis fonem diterapkan karena, jika berbasiskan kata, yang mana setiap kata yang terdapat dalam kamus kata dimodelkan dengan suatu teknik pemodelan. Hal ini mengakibatkan kurang efektifnya sistem apabila akan dikembangkan untuk sistem pengenalan kata yang bersifat large vocabulary yang mana kata yang terdapat dalam kamus kata berjumlah sangat besar. Oleh karena itu, di dalam penelitian ini akan dikembangkan suatu sistem pengenalan fonem yang merupakan tahap awal dari pengenalan kata.

Tahap awal pengenalan fonem dilakukan dengan praproses pada sinyal suara. Praproses merupakan proses penghapusan silent, normalisasi dan segmentasi manual. Data fonem yang dihasilkan dari praproses, dilanjutkan dengan pembuatan template untuk membangun model pengenalan fonem. Dengan demikian, komputer diharapkan mampu menerjemahkan ucapan ke dalam bentuk teks yang diucapkan. Teks yang dihasilkan merupakan gabungan dari beberapa fonem. Dengan demikian, sebelum ke tahap konversi suara ke teks diperlukan tahap pengenalan fonem.

Data yang digunakan adalah sinyal suara manusia yang direkam dari satu pembicara. Digunakan sinyal suara sebagai masukan karena merupakan salah satu karakteristik fisiologis manusia yang unik. Suara juga sebagai sistem biometrik dan lebih efisien dibandingkan dengan biometrik yang lain.

Penelitian ini membandingkan konsep berbasiskan transformasi Fourier dan transformasi Wavelet. Transformasi Wavelet diskret yang digunakan berbasis orthogonal yaitu Daubechies. Menurut (Agustini 2006) Daubechies merupakan tipe Wavelet yang memberikan tingkat pengenalan paling tinggi dibandingkan dengan Symlets dan Coiflets. Distribusi Normal digunakan sebagai pencocokan pola.

Tujuan

Penelitian ini bertujuan memberikan informasi nilai akurasi. Selain itu, juga membandingkan antara transformasi Fourier dan transformasi Wavelet sebagai ekstraksi ciri, pada pengenalan fonem dengan Distribusi Normal sebagai pencocokan pola. Ruang Lingkup

Ruang lingkup penelitian ini adalah :

1. Penelitian difokuskan pada pemodelan pengenalan fonem, bukan pengenalan kata atau kalimat.

2. Fonem yang digunakan sebanyak 26 fonem dari /a/ sampai /z/.

3. Teks yang diucapkan berbahasa Indonesia. 4. Penelitian ini menerapkan transformasi

Fourier dan transformasi Wavelet jenis orthogonal Daubechies sebagai ekstraksi ciri dengan orde 4 pada level 1.

5. Penelitian ini menerapkan Distribusi Normal sebagai pengenalan pola.

6. Data sinyal suara pada penelitian ini menggunakan satu pembicara.

7. Implementasi sistem pengenalan kata menggunakan software MATLAB 7.7.

TINJAUAN PUSTAKA Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (KBBI). Fonem dibagi menjadi dua, yaitu: 1. Fonem vokal merupakan bunyi ujaran akibat

adanya udara yang ke luar dari paru-paru yang tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

Akuisisi data suara digital

(4)

2 Secara konsepsi, konversi analog to

digital (A/D), melalui tiga tahapan proses yaitu: (Proakis dan Manolakis 1996)

a) Proses sampling

Sampling merupakan pengambilan nilai-nilai (sampling rate) dari sinyal kontinu pada setiap jangka waktu (T) yang ditentukan, sehingga sinyal yang awalnya kontinu berubah menjadi diskret.

Menurut (Buono 2009) bahwa, karena sinyal analog dapat direpresentasikan sebagai penjumlahan dari gelombang sinus dengan amplitudo, frekuensi dan fase yang berbeda. Dengan demikian, nilai sampling rate yang dapat menangkap semua komponen sinyal haruslah minimal dua kali frekuensi maksimum yang ada dalam sinyal. Nilai sampling rate sebesar Fs = 2 Fmax disebut sebagai Nyquist rate.

Aturan teori Nyquist menyatakan bahwa frekuensi sinyal paling sedikit dua kali frekuensi sinyal yang akan di-sampling (sinyal analog) dan merupakan batas minimum dari frekuensi sample (Fs). Lebih besar tentunya lebih baik, karena menggambarkan sinyal aslinya.

Sampling rate yang digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16000 Hz (Jurafsky dan Martin 2000). Hubungan antara panjang vektor data yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasikan dinyatakan berdasarkan persamaan 1:

S = Fs× T (1)

Keterangan: S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

b) Kuantisasi

Kuantisasi merupakan konversi nilai amplitudo yang bersifat kontinu menjadi nilai diskret. Proses ini menyimpan nilai-nilai simpangan sinyal menjadi representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000). c) Pengkodean

Pengkodean merupakan pemberian bilangan biner pada setiap level kuantisasi. Ekstraksi Ciri

Tujuan ekstraksi ciri untuk mereduksi ukuran data tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri. Ekstraksi ciri didapat dari mengonversikan bentuk sinyal

suara ke dalam bentuk representasi secara parameter (Agustini 2006). Ekstraksi ciri MFCC menghitung koefisien cepstral dengan mempertimbangkan pendengaran manusia. MFCC didasarkan pada variasi frekuensi batas pendengaran manusia yaitu sekitar 20 Hz -20000 Hz. Tahapan MFCC adalah sebagai berikut (Do 1994):

1. Frame Blocking dan Windowing 2. Fast Fourier Transform (FFT) 3. Mel FrequencyWrapping 4. Cepstrum

Frame Blocking dan Windowing

Frame blocking merupakan segmentasi frame dengan lebar tertentu yang saling tumpang tindih atau suara digital yang telah diakuisisi dengan durasi tertentu. Tiap-tiap hasil frame direpresentasikan dalam sebuah vektor. Proses frame blocking mengakibatkan terjadi distorsi (ketidakberlanjutan sinyal) antar frame. Dengan demikian, untuk meminimalisasi distorsi tersebut dilakukan proses windowing. Proses windowing yaitu proses filtering tiap frame dengan cara mengalikan setiap frame tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame.

Frame windowing bertujuan meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara. Tahap pembuatan window menggunakan fungsi window Hamming. Window Hamming dapat dituliskan dengan persamaan 2 (Do 1994). d(u) = 0.54 + 0.46 cos

✂✁☎✄✝✆

✞✠✟☛✡☞✝✌ (2)

Dalam hal ini, u = 0,1,…,N-1 dan N merupakan jumlah samples tiap frame. Menurut (Buono 2009), fungsi window Hamming memiliki nilai J(bias) dan V(varian) moderat. Selain itu, window Hamming juga memiliki nilai mean squared error (MSE) berada ditengah-tengah dibanding dengan filter yang lain serta memiliki kesederhaan rumus. Oleh sebab itu, maka fungsi window Hamming ini digunakan.

Fast Fourier Transform (FFT)

(5)

3 merupakan transformasi setiap frame dengan N

sample dari domain waktu ke domain frekuensi yang didefinisikan pada persamaan 3 berikut (Do 1994).

✍✏✎✒✑✔✓✖✕✘✗✂✙✛✚✢✜☎✣✝✤☎✥✧✦✒★

✩

✪✬✫✢✭

✮✝✯✢✰ ✱✧✲✴✳

Keterangan:

N = banyaknya segmen sekuen Xk = nilai data ke k

n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1

j = ✵✷✶✹✸

Secara umum Xn adalah bilangan yang kompleks. Hasil dari tahap ini disebut dengan spektrum sinyal atau periodogram.

Mel FrequencyWrapping

Proses wrapping menghitung nilai mel-frequency dengan sejumlah filter yang saling overlap. Filter yang digunakan berbentuk segitiga dengan tinggi satu pada ruang frekuensi mel. Skala mel digunakan untuk mengikuti persepsi pendengaran manusia yang dikenal dengan Mel Wrapping (Buono 2009).

Berdasarkan studi psikologi, telinga manusia mempunyai persepsi terhadap frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Persamaan berikut dapat digunakan untuk perhitungan mel-frequency pada frekuensi ✺ dalam satuan

hertz (Nilsson dan Ejnarsson 2002).

✻✽✼✿✾✴❀✘❁

❂✢❃✬❄✂❅✽❄✹❆✘❇❈✴❉✬❊☛❋❍●❏■✹❑

FHz

700▲✏▼❖◆◗P✂❘

FHz ❙❯❚✢❱✛❱✬❱

FHz❲❨❳◗❩✂❬ FHz❭❯❪✢❫✛❫✬❫

(4)

Dari persamaan 4, FHz adalah frekuensi akustik, maka nilai frekuensi FHz sebagai fungsi dari skala mel adalah:

❴✂❵✂❛❝❜❡❞☛❢☛❢❝❣✐❤☛❥✴❦♠❧✽♥✐♦

♣☎qsr☎q t✈✉❏✇

(5)

Gambar 1 Grafik hubungan frekuensi dengan skala mel (Buono 2009).

Pada Gambar 1 terlihat bahwa untuk frekuensi rendah, filter yang digunakan menggunakan skala linear, sehingga lebarnya konstan. Dilain pihak, untuk frekuensi tinggi (>1000 Hz), filter dibentuk dengan skala logaritma.

M filter selanjutnya digunakan untuk menghitung nilai mel-frequency atau wrapping pada persamaan 6 berikut:

①③②✏④⑥⑤⑦✴⑧✬⑨✧⑩✘❶❸❷❺❹✧❻❽❼✐❾✛❿✢➀➁➃➂s➄☎➅✛➆

➇✠➈✢➉

➊✝➋✂➌ ➍ ➎✧➏✂➐

Dengan i=1,2,3…,M (M adalah jumlah filter segitiga) dan Hi(k) adalah nilai filter segitiga ke i untuk frekuensi akustik sebesar k. Untuk N adalah banyaknya data, sedangkan X(k) merupakan nilai data ke k hasil dari proses FFT.

Cepstrum

Cepstrum merupakan hasil mel frequency yang diubah menjadi domain waktu menggunakan discrete cosine transform (DCT) dengan persamaan 7 (Do 1994):

➑✧➒❨➓→➔↔➣➙↕

➛

➜➝☛➞➠➟➢➡✢➤➦➥➨➧✠➩➭➫◗➯➳➲✴➵✢➸➻➺

➼ ➽ ➾✧➚❏➪

dengan j=1,2,3,…,K (K adalah jumlah koefisien yang diiginkan dan M = jumlah filter, sedangkan Xi adalah nilai data ke i hasil proses mel frequensy wrapping .

Wavelet

Wavelet dapat dibentuk dari satu fungsi (x) dikenal sebagai “mother Wavelet” dalam suatu interval berhingga. Wavelet merupakan gelombang singkat (small wave) yang energinya terkonsentrasi pada suatu selang waktu untuk memberikan kemampuan analisis transien, ketidakstasioneran, atau fenomena berubah terhadap waktu (time varying). Karakteristik dari Wavelet antara lain adalah berosilasi singkat, translasi (pergeseran), dan dilatasi (skala) (Burrus et al. 1998).

(6)

4 Transformasi Wavelet menunjukkan

frekuensi waktu yang baik untuk lokalisasi properti dan alat yang tepat untuk analisis sinyal diskontinu (non stationary) (Krishnan 1994). Wavelet merupakan fungsi variabel real t, diberi notasi t dalam ruang fungsi L²(R). Fungsi ini dihasilkan oleh parameter penskala (dilatasi) dan penggeseran (translasi) dari sebuah fungsi tunggal (induk) yang dinyatakan dalam persamaan (Burrus et al. 1998) :

a,b(t) = a-1/2 ➶➘➹➷➴✂➬

➮ ➱ ; a>0,b

✃❒❐ (8)

fungsi pada persamaan (8) dikenalkan pertama kali oleh Grossman dan Morlet, dengan a,b ❮Ï❰ dan a 0, a merupakan

parameter penskala dan b adalah parameter translasi.

j,k(t) = aj/2 (2jt-k) ; j,k Ð Z (9)

fungsi pada persamaan (9) dikenalkan pertama kali oleh Daubechies.

keterangan:

a = parameter penskala dan a 0 2j = parameter dilatasi

k = parameter waktu atau lokasi ruang Wavelet berdasarkan pada pembangkitan sejumlah tapis (filter) dengan cara mengeser dan menskala mother Wavelet berupa tapis pelewat tengah (band-pass filter). Dengan demikian diperlukan pembangkit filter. Penambahan dan pengurangan skala akan mempengaruhi durasi waktu, lebar bidang (bandwith) dan nilai frekuensi (Burrus et al. 1998).

Transformasi Wavelet dapat dibedakan menjadi dua, yaitu continous wavelet transform (CWT) dan discrete wavelet transform (DWT). Fungsi yang digunakan dalam transformasi CWT dan DWT diturunkan dari mother Wavelet melalui translasi/ pergeseran dan penskalaan/dilatasi. Transformasi Wavelet kontinu mempunyai dua kelemahan yaitu redudancy dan ketidakpastian (impracticality) (Mallat 1999). Masalah tersebut dapat diselesaikan dengan mendiskretkan parameter penskala dan penggeseran.

Transformasi Wavelet Diskret

Transformasi Wavelet merupakan teknik pemrosesan sinyal multiresolusi. Proses transformasi Wavelet dilakukan dengan mengkonvolusi sinyal dengan data tapis (filter) atau dengan proses perata-rataan dan pengurangan secara berulang, yang sering disebut dengan metode filter bank. Prinsip

dasar dari DWT adalah bagaimana cara mendapatkan representasi waktu dan skala dari sebuah sinyal menggunakan teknik filter digital dan operasi sub-sampling. Transformasi Wavelet diskret bertujuan mengurangi redundansi yang terjadi pada transformasi Wavelet kontinu. Transformasi Wavelet diskret menganalisis suatu sinyal dengan skala yang berbeda.

Sebuah sinyal dilewatkan dalam dua filter DWT yaitu highpass filter dan lowpass filter agar frekuensi dari sinyal tersebut dapat dianalisis. Pembagian sinyal menjadi frekuensi tinggi dan frekuensi rendah dalam proses highpass filter dan lowpass filter disebut sebagai dekomposisi. Proses dekomposisi ini dapat melalui satu atau lebih tingkatan. Dekomposisi satu tingkat ditulis dengan ekspresi matematika pada persamaan 10 dan 11.

Ñ☛Ò✧Ó✐Ô❏Õ✝Ö➢×✠ØÙ✬Ú③ÛÝÜßÞ✘àá✽â✐ãåä➨æ✢çéèëê❸ì

í î♠ï✢ð✴ñ

ò✠ó➷ôõ✝ö➘ö✴ô➭÷ø✬ù❒úÝûýü➙þÿ✁✄✂✆☎✞✝✠✟☛✡✌☞✁✍

✎

✏✒✑✓✑✕✔

Dalam hal ini y[k] tinggi dan y[k] rendah adalah hasil dari highpass filter dan lowpass filter, x[n] merupakan sinyal asal, h[n] adalah highpass filter, dan g[n] adalah lowpass filter. Contoh ilustrasi dekomposisi dipaparkan pada Gambar 2 dengan menggunakan dekomposisi tiga tingkat. Pada Gambar 2 y[k] tinggi dan y[k] rendah yang merupakan hasil dari highpass filter dan lowpass filter, y[k] tinggi disebut sebagai koefisien DWT. y[k] tinggi merupakan detail dari informasi sinyal, sedangkan y[k] rendah merupakan taksiran kasar dari fungsi penskalaan. Dengan menggunakan koefisien DWT ini maka dapat dilakukan proses inverse discrete wavelet transform (IDWT) untuk merekonstruksi menjadi sinyal asal.

(7)

5 berada pada akhir dekomposisi dengan

sebelumnya meng – upsample oleh 2 ( 2) melalui highpass filter dan lowpass filter. Proses rekonstruksi ini sepenuhnya merupakan kebalikan dari proses dekomposisi sesuai dengan tingkatan pada proses dekomposisi. Dengan demikian, persamaan rekonstruksi pada masing-masing tingkatan dapat ditulis sebagai berikut:

✖✘✗✙✁✚✜✛✣✢✥✤✧✦✩★✫✪✬✮✭✮✭✯✪✱✰✲✴✳✄✵✆✶✞✷✜✸✺✹✣✻✽✼✴✾❀✿

❁

❂✽❃✒❄❆❅❈❇❊❉●❋✩❍■✴❏▲❑◆▼✞❖✜P✺◗❙❘✠❚✴❯▲❱ ❲✒❳✠❨❬❩

Transformasi Wavelet Daubechies

Wavelet Daubechies secara historis berasal dari sistem Haar ditulis sebagai ‘dbN’ dengan N menunjukkan orde dengan 2 koefisien (db2) memiliki scaling function dengan koefisien low-pass sebagai berikut (Burrus et al. 1998).

❭✯❪✞❫✒❴✁❵❜❛❀❝◆❞✩❡

❢❊❣✴❤ ✐

❥✯❦✫❧♥♠✁♦q♣sr◆t✩✉

✈❊✇✴① ②

③✯④✞⑤✒⑥✁⑦q⑧s⑨◆⑩✩❶

❷❊❸✴❹ ❺

❻✯❼❽●❾✁❿❜➀❀➁◆➂✩➃

➄❊➅✴➆

Dengan h(n) merupakan koefisien low-pass. Nilai koefisien high-pass fungsi Wavelet dengan N=2 atau berorde 2 adalah

g0 = h3 , g1 = -h2, g2 = h1, g3 = -h0,

dengan g= high-pass dan h = low-pass.

Ingrid Daubechies telah mengklasifikasikan koefisien secara numerik untuk N=4 atau berorde 4 pada Tabel 1(Burrus et al. 1998).

Tabel 1 Tabel koefisien db4. Low fass Koefisien N = 4 h(0) 0.230377813309

h(1) 0.714846570553 h(2) 0.630880077679 h(3) -0.027983769417 h(4) -0.187034811719 h(5) 0.030841381836 h(6) 0.032883011667 h(7) -0.010597401785

bank filter Wavelet Daubechies dengan 4 koefisien dapat dilihat pada Gambar 3 untuk n<0 dan n>4 nilai h(n)=0.

h0 h1 h2 h3 0 0 0

g0 g1 g2 g3 0 0 0

0 0 h0 h1 h2 h3 0

0 0 g

0

g

1

g

2

g

3

0

Gambar 3 Bank filter Daubechies. Tahapan ekstraksi ciri menggunakan transformasi Wavelet yaitu:

a) Frame Blocking dan Windowing

b) Discrete Wavelet Transform (DWT) menggunakan Daubechies

c) Mel FrequencyWrapping d) Cepstrum

Distribusi Normal

Distribusi Normal sering disebut sebaran Gauss. Penulisan notasi dari peubah acak yang berdistribusi normal umum adalah N(x;µ , 2), artinya peubah acak X berdistribusi normal umum dengan mean µ dan varians 2. Peubah acak X yang berdistribusi normal dengan mean µ dan varians 2 disingkat X~N(µ , 2).

Peubah acak X dikatakan berdistribusi normal umum, jika dan hanya jika fungsi densitasnya berbentuk seperti pada persamaan 13 (Herrhyanto dan Gantini 2009).

➇➉➈✧➊✴➋➍➌➏➎ ➐✴➑

➒ ➓ ➔➣→❬↔

↕✫➙➜➛

➝♥➞✮➟ ➠➡➤➢ µ

➥✮➦➣➧ (13)

Dengan - <X< , - <µ < , - < 2< , dalam hal ini X merupakan data yang digunakan sebagai data uji, µ merupakan nilai rata-rata dari data latih.

Distribusi Normal (Gauss) multivariate N( , ) didefinisikan sebagai:

➨➩✒➫➭✮➯➳➲ ➵

➸✞➺✒➻✕➼❆➽➾ ➚

➪➶

➹ ➘❆➴♥➷➮➬❈➱◆✃

❐ ❒❮Ï❰ µÐ✧Ñ Ò♥Ó✓ÔÕÏÖ µ×▲Ø✆Ù✫Ú✒Û●Ü

Untuk kasus satu dimensi, disederhanakan menjadi:

Ý♥Þ✯ß▲à✴áãâ ä

å✱æ✯ç➮è✕é

ê

ë●ì✯í î✩ïñð

ò ó✱ôöõ

µ÷

ø ù✠ú➣û ü➣ý✽þ✕ÿ

(8)

6 ciri, µ adalah nilai rata-rata dari data latih dan

merupakan nilai matriks kovarian dari data latih.

Matriks kovarian didapat dengan menghitung nilai rata-rata dari data latih. Nilai rata-rata yang didapat selanjutnya dikurangi dengan matriks awal, dikali dengan matriks transform hasil pengurangan dan dibagi dengan banyak data. Misalkan, matriks data latih dengan banyak data 3, berukuran mxn dengan m = 3 (banyaknya baris) dan n = 2 (banyaknya kolom), maka matriks kovarian yang dihasilkan berukuran 2x2. Berikut Langkah - langkah menghitung matriks kovarian dan rata-rata dari matriks A: 1. Menghitung nilai rata-rata dari matriks A

untuk menghasilkan matriks B.

✂✁

✄✆☎✞✝✠✟☛✡

☞✞✌✠✍☛✎

✏✒✑✔✓✖✕✘✗

, ✙✛✚✢✜✣✥✤✧✦✩★✫✪

2. Mengurangi matriks rata-rata dengan matriks A

✬✮✭✰✯✲✱✳✵✴✷✶✹✸✻✺

✼✩✽✿✾✹❀✻❁✒❂

❃❅❄❇❆❈✵❉✷❊●❋✻❍

■✩❏✿❑●▲☛▼❖◆

P❘◗❇❙❚✵❯❲❱✹❳✒❨

❩✩❬❪❭✹❫❵❴✫❛

3. Menghitung nilai kovarian

❜✘❝❖❞❢❡✫❣❖❤✐❡❖❥❧❦❧♠✮♥❵♦q♣✮r❖s✩t✈✉✩✇✻①③②⑤④❘⑥❢⑦⑨⑧✵⑩

❶❢❷✫❸☛❹⑨❷❢❺❼❻✘❽❢❾❿❽

Dalam hal ini, A1t merupakan transform dari matriks A1, Bt merupakan transform dari matriks B, dan Ct merupakan transform dari matriks C.

METODE PENELITIAN Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengambilan data, pemodelan (feature extraction), dan pengenalan (feature matching). Feature extraction merupakan proses mengekstraksi data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil. Feature matching merupakan prosedur aktual mencocokkan pola dan membandingkan fitur ekstraksi suara yang dimasukkan dengan salah satu dari himpunan pembicara (Agustini 2006). Proses pengenalan fonem dapat dilihat pada Gambar 4.

Gambar 4 Proses pengenalan fonem. Pengambilan Data

Data yang digunakan dalam penelitian ini adalah data dari sebelas kata (coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat). Pemilihan kata dilakukan untuk memenuhi jumlah keseluruhan fonem yaitu sebanyak 26 fonem.

Letak fonem dalam suatu kata tidak berpengaruh terhadap error rate yang dihasilkan. Letak fonem pada awal kata tidak selalu memberikan nilai error rate yang kecil, begitupun pada fonem yang terletak pada tengah maupun akhir kata (Resmiwati 2009). Daftar fonem dari kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 2. Tabel 2 Daftar fonem dalam penelitian.

Kelompok fonem Asal kata /a/, /j/, /y/ Jaya /b/, /c/, /o/ Coba /d/, /e/, /w/ Weda

/f/ fana

/g/, /h/ Gajah

/i/, /v/, /s/ Visa

/k/, /z/ Zakat

(9)

6 ciri, µ adalah nilai rata-rata dari data latih dan

merupakan nilai matriks kovarian dari data latih.

Matriks kovarian didapat dengan menghitung nilai rata-rata dari data latih. Nilai rata-rata yang didapat selanjutnya dikurangi dengan matriks awal, dikali dengan matriks transform hasil pengurangan dan dibagi dengan banyak data. Misalkan, matriks data latih dengan banyak data 3, berukuran mxn dengan m = 3 (banyaknya baris) dan n = 2 (banyaknya kolom), maka matriks kovarian yang dihasilkan berukuran 2x2. Berikut Langkah - langkah menghitung matriks kovarian dan rata-rata dari matriks A: 1. Menghitung nilai rata-rata dari matriks A

untuk menghasilkan matriks B.

✂✁

✄✆☎✞✝✠✟☛✡

☞✞✌✠✍☛✎

✏✒✑✔✓✖✕✘✗

, ✙✛✚✢✜✣✥✤✧✦✩★✫✪

2. Mengurangi matriks rata-rata dengan matriks A

✬✮✭✰✯✲✱✳✵✴✷✶✹✸✻✺

✼✩✽✿✾✹❀✻❁✒❂

❃❅❄❇❆❈✵❉✷❊●❋✻❍

■✩❏✿❑●▲☛▼❖◆

P❘◗❇❙❚✵❯❲❱✹❳✒❨

❩✩❬❪❭✹❫❵❴✫❛

3. Menghitung nilai kovarian

❜✘❝❖❞❢❡✫❣❖❤✐❡❖❥❧❦❧♠✮♥❵♦q♣✮r❖s✩t✈✉✩✇✻①③②⑤④❘⑥❢⑦⑨⑧✵⑩

❶❢❷✫❸☛❹⑨❷❢❺❼❻✘❽❢❾❿❽

Dalam hal ini, A1t merupakan transform dari matriks A1, Bt merupakan transform dari matriks B, dan Ct merupakan transform dari matriks C.

METODE PENELITIAN Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengambilan data, pemodelan (feature extraction), dan pengenalan (feature matching). Feature extraction merupakan proses mengekstraksi data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil. Feature matching merupakan prosedur aktual mencocokkan pola dan membandingkan fitur ekstraksi suara yang dimasukkan dengan salah satu dari himpunan pembicara (Agustini 2006). Proses pengenalan fonem dapat dilihat pada Gambar 4.

Gambar 4 Proses pengenalan fonem. Pengambilan Data

Data yang digunakan dalam penelitian ini adalah data dari sebelas kata (coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat). Pemilihan kata dilakukan untuk memenuhi jumlah keseluruhan fonem yaitu sebanyak 26 fonem.

Letak fonem dalam suatu kata tidak berpengaruh terhadap error rate yang dihasilkan. Letak fonem pada awal kata tidak selalu memberikan nilai error rate yang kecil, begitupun pada fonem yang terletak pada tengah maupun akhir kata (Resmiwati 2009). Daftar fonem dari kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 2. Tabel 2 Daftar fonem dalam penelitian.

Kelompok fonem Asal kata /a/, /j/, /y/ Jaya /b/, /c/, /o/ Coba /d/, /e/, /w/ Weda

/f/ fana

/g/, /h/ Gajah

/i/, /v/, /s/ Visa

/k/, /z/ Zakat

(10)

Kelompok fonem Asal kat

/p/ Pacu

/t/, /x/ Tip-x

Data berasal dari satu pemb masing kata direkam seban pengulangan sehingga data yan sebanyak 520 data suara. Pen dilakukan dengan mengguna (banyaknya bit yang diproses pe sebesar 16 bit sampling rate seb dan disimpan dalam file bere Proses perekaman dilakukan di untuk mengurangi noise dari lin Praproses

Pengenalan 26 fonem pada dilakukan beberapa tahapan yai 1. Penghapusan silent dan norm

Penghapusan silent d suara yang disimpan hanya rekaman suara. Normalisa dengan membagi nilai se sinyal dengan absolute m sebuah frekuensi sinyal normalisasi untuk amplitudo maksimum dan m normal yaitu satu dan sehingga dapat menorm kekerasan suara.

2. Segmentasi sinyal

Data hasil penghapusa normalisasi dilakukan segm manual sehingga dihasilkan sebelas kata yang direkam sebanyak 20 kali pengula demikian jumlah total dat dihasilkan sebanyak 520 da fonem.

Pembagian Data

Pembagian data dibagi bagian, yaitu data pelatihan dengan proporsi 75% untuk 25% untuk data uji. Menurut dengan menggunakan metode HMM pembagian data den 75%:25% lebih baik dibuat dengan 50%:50% dan 25%:75% Ekstraksi Ciri Sinyal

Data fonem hasil segmenta dilakukan ekstraksi ciri deng transformasi Fourier dan Wavelet Daubechies (db4) p Ekstraksi ciri dilakukan untu

ata

mbicara, masing-anyak 20 kali ang dikumpulkan engambilan data nakan bit rate per satuan waktu) sebesar 12000 Hz erekstensi WAV. di tempat hening lingkungan.

da penelitian ini aitu:

ormalisasi dilakukan agar ya yang terdapat isasi dilakukan setiap frekuensi maksimum dari l suara. Tujuan menghasilkan n minimum yang n minus satu, malkan tingkat

san silent dan gmentasi secara an 26 fonem dari masing-masing langan. Dengan ata fonem yang data dari seluruh

i menjadi dua n dan pengujian data latih dan ut Buono (2009) de MFCC dan engan proporsi at perbandingan 5%.

ntasi selanjutnya ngan pemodelan n transformasi pada level 1. tuk menentukan

nilai vektor yang digunakan seba dengan dimensi yang lebih kecil d frame-nya sehingga diharapk mempercepat waktu pengenalan fo Dalam penggunaannya, fungsi Wavelet memerlukan beberapa para 1. Input, merupakan sinyal tanpa

yang akan dianalisis ekstraksi ci 2. Sampling rate yaitu banyakny akan diambil dalam satu detik. 3. Time frame lamanya waktu yan dalam satu frame dalam miliseko 4. Overlap yaitu overlapping yan

antara satu frame dan frame sela 5. Cepstral coeffisient yaitu

koefisien cepstrum yang diingin output.

6. Level yaitu banyaknya tahapan yang digunakan pada fungsi DW MFCC yang diimplementasi sistem ini merupakan fun dikembangkan oleh Stanley pada Alur proses MFCC dan Wavelet pada Gambar 5.

Penjelasan tahapan dari ek MFCC dan DWT yaitu:

a) Frame Blocking dan Windowin

Penelitian ini menggunakan pa pada lebar waktu 30 ms dan menyimpan data sebanyak 360 d antar frame 50%. Windowing m Hamming window dengan panja sama dengan panjang frame yaitu

Gambar 5 Diagram proses ekst MFCC dan Wavelet. b) Transformasi Wavelet Daubec Data yang terbagi dalam be hasil dari frame blocking dan wind setiap fonem dilakukan proses d dengan menggunakan transforma

bagai penciri, l dalam setiap pkan dapat fonem. si MFCC dan arameter yaitu: pa noise suara cirinya. nya data yang ang diinginkan ekon.

ang diinginkan elanjutnya. u banyaknya

ginkan sebagai n dekomposisi WT.

asikan dalam fungsi yang a tahun 1998. dapat dilihat

ekstraksi ciri

ing

panjang frame n tiap frame data, overlap menggunakan njang window tu 360 sample.

straksi ciri

(11)

Hasil dekomposisi menghasil koefisien (koefisien detail dan p Algoritme 1 adalah untuk me detail dan perkiraan pada p dekomposisi (Agustini 2006). Algoritme 1: Proses multiple dek

Input: sinyal yang akan di-filt Tahap 1: Pilih filter yang a sebagai low-pass f pass filter. Tahap 2: Sinyal input di-fi

low-pass filter filter.

Tahap 3: Hasil Low-pass high-pass frekuens selanjutnya dila downsampling. Tahap 4: Low-pass frekuens

selanjutnya kemba Tahap 5: Dilakukan terus

berhenti pada diharapkan. Output: Low-pass frekuensi p ditentukan.

Analisis data transform dilakukan dengan mendekomp sinyal ke dalam kompo frekuensi yang berbeda-beda masing-masing komponen frek dapat dianalisis sesuai d resolusinya atau level dekom ini seperti proses filtering, domain waktu dilewatkan ke d filter dan low pass filter untu komponen frekuensi tinggi rendah.

Proses dekomposisi berda Nyquist. Aturan Nyquist mengatakan bahwa frekuen sample harus kurang atau setengah dari frekuensi samplin itu maka, diambil frekuensi sa frekuensi sampling dalam sub pada dekomposisi Wavelet. c) Mel -Frequency Wrapping

Dengan menggunakan al disarankan oleh Davis dan Me untuk membentuk M filter. Dar sudah dibentuk, selanjutny wrapping terhadap sinyal. N yang diharapkan didapat transformasi kosinus.

silkan koefisien-n perkiraakoefisien-n).

encari koefisien proses multiple ekomposisi. filter

akan digunakan s filter dan

high-filter ke dalam dan high-pass s frekuensi dan nsi pada tahap 2, ilakukan proses nsi hasil tahap 3 bali ke tahap 2. s menerus dan

level yang si pada level yang

rmasi Wavelet posisikan suatu ponen-komponen da. Selanjutnya rekuensi tersebut dengan skala mposisinya. Hal , sinyal dalam dalam high pass tuk memisahkan i dan frekuensi

dasarkan aturan salah satunya ensi komponen sama dengan ling. Oleh sebab sample /2 dari subsample oleh 2

algoritme yang ermelstein 1980 ari M filter yang tnya dilakukan Nilai koefisien t dari hasil

Pemodelan

Hasil ekstraksi ciri satu sinyal d hasil berupa matrikss ciri n×k, n ad frame dan k adalah koefisien. dilakukan perata-rataan koefisien baris, sehingga setiap satu data siny matriks berukuran 1×k. Jumlah dat satu fonem ada 15 data, maka matriks berukuran 15×k, dengan k koefisien. Matriks 15×k yang dih satu fonem kemudian dihitung nila sigma untuk fonem tersebut. Kum mean dan sigma dari fonem /a/ inilah yang digunakan sebagai m tahap pencocokan. Contoh a pemodelan untuk menghitung nila sigma dari satu fonem dapat d Gambar 6.

Gambar 6 Diagram proses pem Variabel n pada Gambar 6 m banyaknya frame yang dihas masing-masing sinyal. Banyak jum dihasilkan pada proses eks bergantung pada panjang pende hasil segmentasi. Variabel x da koefisien nilai hasil penggabung yang diperoleh dari hasil rata-rata. Pencocokan Model

Model yang dihasilkan p pemodelan selanjutnya pencocokan. Pencocokan dilaku data uji yang telah disiapkan s Penerapan Distribusi Norma multivariate N( , ) digunak pencocokan model.

l data memiliki adalah jumlah . Kemudian n pada setiap nyal dihasilkan ata latih untuk ka dihasilkan k banyaknya ihasilkan dari ilai mean dan umpulan Nilai /a/ sampai /z/ model untuk alur proses ilai mean dan dilihat pada

emodelan. menunjukkan asilkan pada jumlah n yang kstraksi ciri deknya sinyal dan y adalah ngan matriks ta.

(12)

9 Pengujian

Pengujian dilakukan pada data uji yang telah dipersiapkan. Setiap data uji dilihat apakah data tersebut terindentifikasi pada fonem yang semestinya. Presentase tingkat akurasi dihitung dengan fungsi berikut:

➀☛➁q➂✒➃✆➄✩➅➇➆➉➈➋➊③➌➥➉➦➋➧③➨➍➏➎✘➐✖➑➓➒❵➔➣→❼↔❵↕➛➙✖➜✵➝➟➞➣➠➢➡➛➤➩➏➫✘➭✖➯➓➲❵➳➣➵❼➸❵➺➛➻✖➼✥➽➋➾➚✖➪➶➾ ➹➴➘❖➷❢➷❢➬ (16)

HASIL DAN PEMBAHASAN Praproses

Penelitian ini, data yang digunakan sebanyak 390 data latih dan 130 data uji. Data tersebut selanjutnya dilakukan praproses yaitu penghapusan silent, normalisasi, dan segmentasi manual. Dengan demikian, tahap praproses menghasilkan 26 fonem dari fonem /a/ sampai /z/. Masing-masing fonem memiliki 15 data latih dan 5 data uji. Setelah dilakukan praproses, dilanjutkan dengan proses ekstraksi ciri pada semua data dengan menerapkan MFCC dan Wavelet Daubechies.

Pada proses ekstraksi ciri dengan MFCC terdapat beberapa parameter yaitu, input suara, sampling rate, time frame, overlap, cepstral coefficient. Parameter ekstraksi ciri Wavelet Daubechies sama dengan parameter pada MFCC hanya ditambah satu parameter lagi yaitu level. Data latih merupakan data hasil praproses dan ekstraksi ciri yang sudah dibuatkan model terlebih dulu. Pemodelan dilakukan dengan menghitung nilai mean dan sigma dari masing-masing fonem dengan 13 koefisien.

Karena keterbatasan data latih yang digunakan penelitian ini menerapkan 13 koefisien. Jika koefisien yang digunakan lebih dari 13 maka nilai sigma ( ) yang dihasilkan mendekati singular. Hal ini terjadi karena memiliki nilai determinan yang sangat kecil hingga mencapai 1e-128, oleh sistem dianggap sama dengan nol. Dengan demikian, akan mengakibatkan Distribusi Normal yang diperoleh bernilai infinitif atau NaN (not a number).

Jumlah data latih yang digunakan mempunyai bobot yang sama untuk setiap kelasnya. Hal ini dilakukan, karena jika salah satu ada yang dominan akan berpengaruh terhadap nilai akurasi. Karena kelas yang dominan akan selalu mendominasi.

Hasil Pengujian dengan MFCC

Hasil pengujian fonem dengan ekstraksi ciri MFCC dan Distribusi Normal terhadap masing-masing fonem dapat dilihat pada Gambar 7. Pada grafik terlihat bahwa fonem yang dapat dikenali dengan baik oleh sistem ada 17 fonem. Fonem /a/,/b/, /d/, /e/, /g/, /h/, /i/, /j/, /l/, /m/, /n/, /o/, /s/, /t/, /w/, /x/, dan /z/ mencapai 100%. Akan tetapi, fonem /f/, /p/, /r/, /v/ kurang baik dikenali karena akurasinya hanya mencapai 60%. Namun demikian, untuk fonem /c/, /k/, /q/, /u/, dan /y/ lumayan baik dapat dikenali dengan akurasinya mencapai 80%.

Gambar 7 Grafik hasil pengujian dengan ekstraksi ciri MFCC.

Hasil Pengujian dengan Wavelet

Daubechies

Hasil pengujian fonem dengan ekstraksi ciri Wavelet Daubechies terhadap masing-masing fonem dapat dilihat pada Gambar 8. Pada grafik terlihat bahwa fonem kurang dapat dikenali dengan baik oleh sistem. Fonem /a/, /b/, /c/, /g/, /h/, /j/, /k/, /n/, /o/, /p/, /q/, /y/ dapat dikenali di atas 50% dan untuk fonem lainnya hanya bisa dikenali kurang dari 50%.

Gambar 8 Grafik hasil pengujian dengan ekstraksi ciri Wavelet.

Pada Gambar 9 terlihat bahwa pengujian fonem dengan ekstraksi ciri MFCC memiliki

0% 20% 40% 60% 80% 100%

a b c d e f g h i j k l m n o p q r s t u v w x y z

N

il

a

i

A

k

u

ra

si

Fonem

0% 20% 40% 60% 80% 100%

Fonem

N

il

a

i

A

k

ur

a

(13)

9 Pengujian

Pengujian dilakukan pada data uji yang telah dipersiapkan. Setiap data uji dilihat apakah data tersebut terindentifikasi pada fonem yang semestinya. Presentase tingkat akurasi dihitung dengan fungsi berikut:

➀☛➁q➂✒➃✆➄✩➅➇➆➉➈➋➊③➌➥➉➦➋➧③➨➍➏➎✘➐✖➑➓➒❵➔➣→❼↔❵↕➛➙✖➜✵➝➟➞➣➠➢➡➛➤➩➏➫✘➭✖➯➓➲❵➳➣➵❼➸❵➺➛➻✖➼✥➽➋➾➚✖➪➶➾ ➹➴➘❖➷❢➷❢➬ (16)

HASIL DAN PEMBAHASAN Praproses

Penelitian ini, data yang digunakan sebanyak 390 data latih dan 130 data uji. Data tersebut selanjutnya dilakukan praproses yaitu penghapusan silent, normalisasi, dan segmentasi manual. Dengan demikian, tahap praproses menghasilkan 26 fonem dari fonem /a/ sampai /z/. Masing-masing fonem memiliki 15 data latih dan 5 data uji. Setelah dilakukan praproses, dilanjutkan dengan proses ekstraksi ciri pada semua data dengan menerapkan MFCC dan Wavelet Daubechies.

Pada proses ekstraksi ciri dengan MFCC terdapat beberapa parameter yaitu, input suara, sampling rate, time frame, overlap, cepstral coefficient. Parameter ekstraksi ciri Wavelet Daubechies sama dengan parameter pada MFCC hanya ditambah satu parameter lagi yaitu level. Data latih merupakan data hasil praproses dan ekstraksi ciri yang sudah dibuatkan model terlebih dulu. Pemodelan dilakukan dengan menghitung nilai mean dan sigma dari masing-masing fonem dengan 13 koefisien.

Karena keterbatasan data latih yang digunakan penelitian ini menerapkan 13 koefisien. Jika koefisien yang digunakan lebih dari 13 maka nilai sigma ( ) yang dihasilkan mendekati singular. Hal ini terjadi karena memiliki nilai determinan yang sangat kecil hingga mencapai 1e-128, oleh sistem dianggap sama dengan nol. Dengan demikian, akan mengakibatkan Distribusi Normal yang diperoleh bernilai infinitif atau NaN (not a number).

Jumlah data latih yang digunakan mempunyai bobot yang sama untuk setiap kelasnya. Hal ini dilakukan, karena jika salah satu ada yang dominan akan berpengaruh terhadap nilai akurasi. Karena kelas yang dominan akan selalu mendominasi.

Hasil Pengujian dengan MFCC

Hasil pengujian fonem dengan ekstraksi ciri MFCC dan Distribusi Normal terhadap masing-masing fonem dapat dilihat pada Gambar 7. Pada grafik terlihat bahwa fonem yang dapat dikenali dengan baik oleh sistem ada 17 fonem. Fonem /a/,/b/, /d/, /e/, /g/, /h/, /i/, /j/, /l/, /m/, /n/, /o/, /s/, /t/, /w/, /x/, dan /z/ mencapai 100%. Akan tetapi, fonem /f/, /p/, /r/, /v/ kurang baik dikenali karena akurasinya hanya mencapai 60%. Namun demikian, untuk fonem /c/, /k/, /q/, /u/, dan /y/ lumayan baik dapat dikenali dengan akurasinya mencapai 80%.

Gambar 7 Grafik hasil pengujian dengan ekstraksi ciri MFCC.

Hasil Pengujian dengan Wavelet

Daubechies

Hasil pengujian fonem dengan ekstraksi ciri Wavelet Daubechies terhadap masing-masing fonem dapat dilihat pada Gambar 8. Pada grafik terlihat bahwa fonem kurang dapat dikenali dengan baik oleh sistem. Fonem /a/, /b/, /c/, /g/, /h/, /j/, /k/, /n/, /o/, /p/, /q/, /y/ dapat dikenali di atas 50% dan untuk fonem lainnya hanya bisa dikenali kurang dari 50%.

Gambar 8 Grafik hasil pengujian dengan ekstraksi ciri Wavelet.

Pada Gambar 9 terlihat bahwa pengujian fonem dengan ekstraksi ciri MFCC memiliki

0% 20% 40% 60% 80% 100%

N

il

a

i

A

k

u

ra

si

Fonem

0% 20% 40% 60% 80% 100%

Fonem

N

il

a

i

A

k

ur

a

(14)

10 kinerja yang cukup baik dibandingkan dengan

ekstraksi ciri Wavelet. Hal ini, pada grafik terlihat bahwa dengan MFCC terdapat 25 fonem nilai akurasinya berada di atas grafik Wavelet. Akan tetapi, dari 26 fonem kecuali untuk fonem /p/ nilai akurasi MFCC berada di bawah Wavelet. Nilai akurasi untuk fonem /p/ dengan MFCC sebesar 60%, sedangkan pada Wavelet mencapai 80%. Jadi Wavelet di atas MFCC sebesar 20% hanya untuk fonem /p/.

Gambar 9 Grafik hasil pengujian dengan ekstraksi ciri MFCC danWavelet.

Gambar 10 Grafik hasil pengujian data uji. Berdasarkan Tabel 3 dan Gambar 10 terlihat bahwa akurasi nilai perbandingan antara MFCC dan Wavelet menunjukkan perbedaan yang sangat signifikan. Rata-rata nilai akurasi MFCC memiliki keunggulan dibandingkan dengan Wavelet sebesar 43,08% dari seluruh fonem. Untuk MFCC akurasi rata-rata sebesar 90% sedangkan Wavelet jauh di bawah MFCC dengan rata-rata akurasinya hanya mencapai 46,92%.

Tabel 3 Akurasi nilai perbandingan MFCC dan Wavelet.

Fonem MFCC Wavelet

A 100% 80%

B 100% 60%

Fonem MFCC Wavelet

C 80% 60%

D 100% 20%

E 100% 40%

F 60% 20%

G 100% 60%

H 100% 60%

I 100% 40%

J 100% 60%

K 80% 60%

L 100% 40%

M 100% 40%

N 100% 60%

O 100% 80%

P 60% 80%

Q 80% 80%

R 60% 20%

S 100% 20%

T 100% 20%

U 80% 20%

V 60% 40%

W 100% 20%

X 100% 20%

Y 80% 80%

Z 100% 40%

Berdasarkan Gambar 11 terlihat bahwa hasil pengujian sangat baik, ketika menggunakan data latih sebagai data uji. Hal ini terlihat pada grafik bahwa, rata-rata nilai akurasi MFCC dan Wavelet cukup tinggi dengan rata-rata akurasi 100% untuk MFCC dan 99,74% untuk Wavelet. Jadi, pengujian dengan data latih MFCC lebih baik dibanding dengan Wavelet dengan selisih sebesar 0,26%.

Gambar 11 Grafik hasil pengujian data latih. 0%

20% 40% 60% 80% 100%

Fonem

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

90.00%

46.92%

0% 20% 40% 60% 80% 100%

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

Ekstraksi Ciri

100.00% 99.74%

0% 20% 40% 60% 80% 100%

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

(15)

11 Hasil pengujiaan akan mengalami

penurunan, jika menggunakan data uji dan Wavelet sebagai ekstrasi ciri. Hal ini dijelaskan dari perbedaan selisih nilai akurasi pengujian dengan data uji mengalami peningkatan yang cukup signifikan. Nilai awal selisih antara MFCC dan Wavelet 0,26% dengan data latih dan meningkat menjadi 43,08% dengan data uji. Maka berdasarkan selisih nilai akurasi, MFCC lebih baik dibanding dengan Wavelet dalam pengenalan fonem untuk sinyal tanpa gangguan.

Penerapan ekstraksi ciri Wavelet baik, jika masih dalam ruang lingkup data latih yang diujikan untuk pengenalan fonem. Hasil akurasi pengenalan fonem kurang baik, ketika menggunakan data uji yang baru. Terlihat dari rata-rata pengujian dengan data uji pada Wavelet hanya mencapai 46,92% dan meningkat 99,74% dengan data latih.

Hasil Pengujian MFCC dan Wavelet dengan

Noise

Penelitian ini dicoba dengan menambahkan noise pada data uji sebesar 10 dB, 20 dB, dan 30 dB. Pemilihan noise 10 dB, 20 dB, dan 30 dB karena berdasarkan fakta empiris, bahwa noise 20 dB mulai terasa pengaruhnya terhadap sinyal suara (Buono 2009). Oleh karena itu, digunakan noise di bawah dan di atas 20 dB untuk mengetahui kehandalan model yang sudah dibuat, jika sinyal uji diberi gangguan. Sinyal noise yang digunakan bersifat gaussian dengan menggunakan paket Matlab melalui instruksi AWGN(sinyal asli,level noise).

Tabel 4 Pengujian data uji dengan noise. Sinyal MFCC Wavelet

Asli 90,0% 46,9%

noise 30 35,4% 26,9% noise 20 13,8% 11,5% noise 10 6,2% 5,4%

Berdasarkan Tabel 4 dapat disimpulkan, bahwa model yang dibangun dengan menerapkan MFCC sebagai ekstraksi ciri, jika data uji ditambah noise, maka tidak dapat mengenali dengan baik dan hasil akurasinya mengalami penurunan. Namun demikian, nilai akurasi MFCC mengalami penurunan, akan tetapi akurasi MFCC selalu berada di atas Wavelet. Lebih jelasnya hasil akurasi yang didapat dapat dilihat pada Gambar 12. Pada grafik terlihat bahwa baik MFCC maupun Wavelet dengan menambahkan noise hasil akurasi mengalami penurunan.

Gambar 12 Grafik hasil pengujian data uji dengan noise.

Perbedaan hasil pengujian yang sangat signifikan antara MFCC dan Wavelet, mungkin disebabkan oleh MFCC dalam mengekstraksi sinyal suara bersifat low noise sehingga teknik MFCC relatif lebih baik untuk sinyal tanpa noise. Selain itu, MFCC juga didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan sinyal suara sebagaimana manusia merepresentasikan.

KESIMPULAN DAN SARAN Kesimpulan

Penelitian ini menghasilkan, bahwa ekstraksi ciri MFCC lebih baik 43,08% dibandingkan dengan Wavelet untuk sinyal tanpa noise. Rata-rata akurasi MFCC dengan data uji tanpa noise sebesar 90% untuk semua pengenalan fonem. Penerapan MFCC baik digunakan ketika data uji tidak ada gangguan dengan pemodelan Distribusi Normal. Nilai akurasi MFCC kurang baik, jika data uji ditambah dengan gangguan (noise).

Ekstraksi ciri Wavelet masih baik dalam pengenalan fonem, jika menggunakan data latih sebagai data uji dengan akurasi sebesar 99,74%. Pada kasus ini, penerapan Wavelet Daubechies kurang baik, jika pengujian dilakukan pada data uji dengan akurasi rata-rata 46,92% dan kurang baik juga ketika ditambah noise.

Saran

Penelitian ini memungkinkan untuk dikembangkan lebih baik lagi, saran untuk pengembangan selanjutnya ialah:

1. Penelitian mengenai pengenalan fonem ini masih sangat memungkinkan untuk dikembangkan lebih lanjut ke tahap pengenalan kata, dengan melakukan

0% 20% 40% 60% 80% 100%

Asli noise 30 noise 20 noise 10

Jenis Sinyal

MFCC Wavelet

N

il

a

i

A

k

ur

a

(16)

12 segmentasi secara otomatis menggunakan

metode auto corelation.

2. Menggunakan jumlah kata yang bervariasi sehingga dapat mewakili untuk tiap fonem yang berada di depan, tengah, dan belakang untuk menghasilkan sistem yang lebih akurat.

3. Pengembangan dengan menggunakan jumlah pembicara yang lebih banyak yang bersifat speaker independent.

4. Analisis lebih lanjut mengenai penyebab akurasi yang kurang bagus pada Wavelet baik sebelum maupun sesudah diberikan noise.

5. Analisis penyebab MFCC yang turun drastis sesudah diberi noise dan memberikan solusi kesalahan pada proses pengenalan fonem.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai Praproses pada Sistem Identifikasi Pembicara. [Tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi Pembicara di Lingkungan Ber-Noise Menggunakan HMM. [Disertasi]. Depok: Fakultas Ilmu Komputer, Universitas Indonesia.

Burrus, C.S. Gopinath R.A., dan Guo, H. 1998. Introduction to Wavelets and Wavelet Transforms A Primer, International Edition. Prentice-Hall International, Inc.

Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic recognition System. Audio Visual Communication Laboratory, Swiss Federal Institute of Technology, Switzerland.

Herryhyanto, Nar, dan Gantini, Tuti. 2009. Pengantar Statistika Matematis. Yrama Widya, Bandung.

Jurafsky D, Martin JH. 2000. Speech and Language Processing an Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Krishnan, M, Neophytou, CP, dan Prescott, G.

1994. Wavelet Transform Speech Recognition Using Vector Quantization, Dynamic Time Warping and Artificial

Neural Networks, Center for Excellence in Computer Aided Systems Engineering and Telecommunications dan Information Sciences Laboratory 2291 Irving Hill Drive, Lawrence, KS 66045.

Mallat, Stephane. 1999. A Wavelet Tour of Signal Processing. Second Edition, Academic Press 84 Theobald’s Road, London WClX 8RR, UK.

Nilsson, M, dan Ejnarsson, M. 2002. Speech Recognition using Hidden Markov Model : Kinerjance Evaluation in Noisy Environment. Master Thesis, Departement Of Telecomunications and signal Processing, Blekinge Institute of technologi, Sweden.

Proakis, L. R., dan Manolakis, D. G. 1996. Digital Signal Processing. Principles, Algorithm, and Aplication. Edisi ke tiga, Prentice Hall, New Jersey.

Resmiwati, Narcayaning U. D. 2009. Pengenalan Kata Berbahasa Indonesia dengan Menggunakan Hidden Markov Models Berbasiskan Fonem. [Skripsi]. Bogor : Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(17)

11 Hasil pengujiaan akan mengalami

penurunan, jika menggunakan data uji dan Wavelet sebagai ekstrasi ciri. Hal ini dijelaskan dari perbedaan selisih nilai akurasi pengujian dengan data uji mengalami peningkatan yang cukup signifikan. Nilai awal selisih antara MFCC dan Wavelet 0,26% dengan data latih dan meningkat menjadi 43,08% dengan data uji. Maka berdasarkan selisih nilai akurasi, MFCC lebih baik dibanding dengan Wavelet dalam pengenalan fonem untuk sinyal tanpa gangguan.

Penerapan ekstraksi ciri Wavelet baik, jika masih dalam ruang lingkup data latih yang diujikan untuk pengenalan fonem. Hasil akurasi pengenalan fonem kurang baik, ketika menggunakan data uji yang baru. Terlihat dari rata-rata pengujian dengan data uji pada Wavelet hanya mencapai 46,92% dan meningkat 99,74% dengan data latih.

Hasil Pengujian MFCC dan Wavelet dengan

Noise

Penelitian ini dicoba dengan menambahkan noise pada data uji sebesar 10 dB, 20 dB, dan 30 dB. Pemilihan noise 10 dB, 20 dB, dan 30 dB karena berdasarkan fakta empiris, bahwa noise 20 dB mulai terasa pengaruhnya terhadap sinyal suara (Buono 2009). Oleh karena itu, digunakan noise di bawah dan di atas 20 dB untuk mengetahui kehandalan model yang sudah dibuat, jika sinyal uji diberi gangguan. Sinyal noise yang digunakan bersifat gaussian dengan menggunakan paket Matlab melalui instruksi AWGN(sinyal asli,level noise).

Tabel 4 Pengujian data uji dengan noise. Sinyal MFCC Wavelet

Asli 90,0% 46,9%

noise 30 35,4% 26,9% noise 20 13,8% 11,5% noise 10 6,2% 5,4%

Berdasarkan Tabel 4 dapat disimpulkan, bahwa model yang dibangun dengan menerapkan MFCC sebagai ekstraksi ciri, jika data uji ditambah noise, maka tidak dapat mengenali dengan baik dan hasil akurasinya mengalami penurunan. Namun demikian, nilai akurasi MFCC mengalami penurunan, akan tetapi akurasi MFCC selalu berada di atas Wavelet. Lebih jelasnya hasil akurasi yang didapat dapat dilihat pada Gambar 12. Pada grafik terlihat bahwa baik MFCC maupun Wavelet dengan menambahkan noise hasil akurasi mengalami penurunan.

Gambar 12 Grafik hasil pengujian data uji dengan noise.

Perbedaan hasil pengujian yang sangat signifikan antara MFCC dan Wavelet, mungkin disebabkan oleh MFCC dalam mengekstraksi sinyal suara bersifat low noise sehingga teknik MFCC relatif lebih baik untuk sinyal tanpa noise. Selain itu, MFCC juga didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh telinga manusia sehingga mampu merepresentasikan sinyal suara sebagaimana manusia merepresentasikan.

KESIMPULAN DAN SARAN Kesimpulan

Penelitian ini menghasilkan, bahwa ekstraksi ciri MFCC lebih baik 43,08% dibandingkan dengan Wavelet untuk sinyal tanpa noise. Rata-rata akurasi MFCC dengan data uji tanpa noise sebesar 90% untuk semua pengenalan fonem. Penerapan MFCC baik digunakan ketika data uji tidak ada gangguan dengan pemodelan Distribusi Normal. Nilai akurasi MFCC kurang baik, jika data uji ditambah dengan gangguan (noise).

Ekstraksi ciri Wavelet masih baik dalam pengenalan fonem, jika menggunakan data latih sebagai data uji dengan akurasi sebesar 99,74%. Pada kasus ini, penerapan Wavelet Daubechies kurang baik, jika pengujian dilakukan pada data uji dengan akurasi rata-rata 46,92% dan kurang baik juga ketika ditambah noise.

Saran

Penelitian ini memungkinkan untuk dikembangkan lebih baik lagi, saran untuk pengembangan selanjutnya ialah:

1. Penelitian mengenai pengenalan fonem ini masih sangat memungkinkan untuk dikembangkan lebih lanjut ke tahap pengenalan kata, dengan melakukan

0% 20% 40% 60% 80% 100%

Asli noise 30 noise 20 noise 10

Jenis Sinyal

MFCC Wavelet

N

il

a

i

A

k

ur

a

(18)

DAFTAR PUSTAKA

(19)

PERBANDINGAN

W

EKSTRAKSI CIRI P

DEP

FAKULTAS MATE

INS

WAVELET

DAUBECHIES DAN MFCC SEBA

PADA PENGENALAN FONEM BERDASAR

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

PARTEMEN ILMU KOMPUTER

EMATIKA DAN ILMU PENGETAHUAN AL

NSTITUT PERTANIAN BOGOR

BOGOR

2011

BAGAI

RKAN

(20)

DAFTAR PUSTAKA

(21)

PERBANDINGAN

W

EKSTRAKSI CIRI P

DEP

FAKULTAS MATE

INS

WAVELET

DAUBECHIES DAN MFCC SEBA

PADA PENGENALAN FONEM BERDASAR

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

PARTEMEN ILMU KOMPUTER

EMATIKA DAN ILMU PENGETAHUAN AL

NSTITUT PERTANIAN BOGOR

BOGOR

2011

BAGAI

RKAN

(22)

PERBANDINGAN

WAVELET

DAUBECHIES DAN MFCC SEBAGAI

EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

G64086010

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(23)

ABSTRACT

NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme Recognition. Under the supervised of AGUS BUONO.

Speech recognition is speech to text transcription. Speech to text transcription system is a system used to convert a voice signal from a microphone into a single or a set of words. Most research of speech to text transcription used technique which every word in corpus is modeled. It is not effective if we want to develop a large vocabulary speech recognition system which number of words in corpus are more than one thousand words. Therefore, this research developed phoneme recognition with early stage in speech recognition.

(24)

Judul Skripsi : Perbandingan Wavelet Daubechies dan MFCC sebagai Ekstraksi Ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal

Nama : Ni Wayan Sudarmi

NRP : G64086010

Menyetujui: Pembimbing,

Dr. Ir. Agus Buono, M.Si., M.Kom. NIP. 19660702 199302 1 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP. 19601126 198601 2 001

(25)

PRAKATA

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah melimpahkan rahmat dan karunia yang tak terbatas sehingga penulis dapat menyelesaikan tugas akhir ini.

Penulis menyadari bahwa keberhasilan penyelesaian tugas akhir ini tidak terlepas dari pihak-pihak yang telah banyak membantu. Oleh karena itu, penulis sampaikan terima kasih kepada Bapak Dr. Ir. Agus Buono, M. Si., M. Kom. sebagai pembimbing yang selalu sabar dalam memberikan arahan dan saran selama penyelesaian tugas akhir ini, serta Bapak Aziz Kustiyo, S.si, M.Kom. dan Bapak Mushthofa, S. Kom., M. Sc. yang telah bersedia menjadi moderator dan penguji dalam seminar dan sidang penulis.

Penulis ucapkan terima kasih kepada seluruh keluarga khususnya orang tua penulis yang tiada henti-hentinya memberikan doa, dukungan, pendidikan dan kepercayaan penuh atas apa yang penulis kerjakan hingga saat ini, juga kepada adik-adikku yang selalu memberikan keceriaan, semangat, dan dukungan selama ini. Kepada teman-teman Ekstensi Ilkom angkatan 3 penulis ucapkan terima kasih karena telah memberikan keceriaan dan persahabatannya. Kepada Yuliana Suri, Rahim Rasyid dan Herman A. yang bersedia menjadi pembahas dalam seminar tugas akhir penulis ucapkan terima kasih. Kemudian penulis sampaikan terima kasih kepada seluruh staf dan karyawan Departemen Ilmu Komputer, teman-teman Ekstensi Ilkom serta seluruh pihak lainnya yang tidak dapat disebutkan satu persatu.

Penulis menyadari bahwa dalam penelitian ini masih terdapat kekurangan, sehingga kritik dan saran yang membangun penulis harapkan dari