Perbandingan Wavelet Daubechies dan MFCC sebagai ekstraksi ciri pada pengenalan fonem berdasarkan distribusi normal

(1)

PERBANDINGAN W

EKSTRAKSI CIRI P

DEP

FAKULTAS MATE

INS

WAVELET DAUBECHIES DAN MFCC SEBA

PADA PENGENALAN FONEM BERDASAR

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

PARTEMEN ILMU KOMPUTER

EMATIKA DAN ILMU PENGETAHUAN AL

NSTITUT PERTANIAN BOGOR

BOGOR

2011

BAGAI

RKAN

(2)

PERBANDINGAN WAVELET DAUBECHIES DAN MFCC SEBAGAI

EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

G64086010

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme Recognition. Under the supervised of AGUS BUONO.

Speech recognition is speech to text transcription. Speech to text transcription system is a system used to convert a voice signal from a microphone into a single or a set of words. Most research of speech to text transcription used technique which every word in corpus is modeled. It is not effective if we want to develop a large vocabulary speech recognition system which number of words in corpus are more than one thousand words. Therefore, this research developed phoneme recognition with early stage in speech recognition.

This research used some stage proces, those are take data, feature extraction, and feature matching. Normal Distribution (Gaussian) is used for feature matching, Wavelet Daubechies and MFCC is used for feature extraction. Corpus on this research consist of 11 words in Indonesian which each word recorded 20 times, 15 times for data training and 5 times for data testing. This research used 13 cepstral coefficients. Phonemes are generated from the segmentation process, and then mhu and sigma be calculated to generate the model. This case produced 26 models. The best accuracy is 90% generated by feature extraction MFCC and 46.92% generated by the Wavelet Daubechies.

(4)

Judul Skripsi : Perbandingan Wavelet Daubechies dan MFCC sebagai Ekstraksi Ciri pada Pengenalan Fonem Berdasarkan Distribusi Normal

Nama : Ni Wayan Sudarmi

NRP : G64086010

Menyetujui: Pembimbing,

Dr. Ir. Agus Buono, M.Si., M.Kom.

NIP. 19660702 199302 1 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc.

NIP. 19601126 198601 2 001

(5)

PRAKATA

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa yang telah melimpahkan rahmat dan karunia yang tak terbatas sehingga penulis dapat menyelesaikan tugas akhir ini.

Penulis menyadari bahwa keberhasilan penyelesaian tugas akhir ini tidak terlepas dari pihak-pihak yang telah banyak membantu. Oleh karena itu, penulis sampaikan terima kasih kepada Bapak Dr. Ir. Agus Buono, M. Si., M. Kom. sebagai pembimbing yang selalu sabar dalam memberikan arahan dan saran selama penyelesaian tugas akhir ini, serta Bapak Aziz Kustiyo, S.si, M.Kom. dan Bapak Mushthofa, S. Kom., M. Sc. yang telah bersedia menjadi moderator dan penguji dalam seminar dan sidang penulis.

Penulis ucapkan terima kasih kepada seluruh keluarga khususnya orang tua penulis yang tiada henti-hentinya memberikan doa, dukungan, pendidikan dan kepercayaan penuh atas apa yang penulis kerjakan hingga saat ini, juga kepada adik-adikku yang selalu memberikan keceriaan, semangat, dan dukungan selama ini. Kepada teman-teman Ekstensi Ilkom angkatan 3 penulis ucapkan terima kasih karena telah memberikan keceriaan dan persahabatannya. Kepada Yuliana Suri, Rahim Rasyid dan Herman A. yang bersedia menjadi pembahas dalam seminar tugas akhir penulis ucapkan terima kasih. Kemudian penulis sampaikan terima kasih kepada seluruh staf dan karyawan Departemen Ilmu Komputer, teman-teman Ekstensi Ilkom serta seluruh pihak lainnya yang tidak dapat disebutkan satu persatu.

Penulis menyadari bahwa dalam penelitian ini masih terdapat kekurangan, sehingga kritik dan saran yang membangun penulis harapkan dari semua pihak. Semoga penelitian ini dapat bermanfaat.

Bogor, Maret 2011

(6)

RIWAYATHIDUP

Penulis dilahirkan pada tanggal 17 Juli 1984 di Lampung. Penulis merupakan anak pertama dari dua bersaudara pasangan Nyoman Arta dan Nengah Kundri.

(7)

DAFTAR ISI

Halaman

DAFTAR TABEL ... vii

DAFTAR GAMBAR ... vii

DAFTAR PENDAHULUAN ... 1

Latar Belakang ... 1

Tujuan Penelitian ... 1

Ruang Lingkup ... 1

TINJAUAN PUSTAKA ... 1

Fonem ... 1

Akuisisi Data Sinyal Suara ... 1

Ekstraksi Ciri ... 2

Frame Blocking dan Windowing ... 2

Fast Fourier Transform (FFT) ... 2

Mel Frequency Wrapping ... 3

Cepstrum ... 3

Wavelet ... 3

Transformasi Wavelet Diskret ... 4

Transformasi Wavelet Daubenchies ... 5

Distribusi Normal ... 5

METODE PENELITIAN ... 6

Pengambilan Data ... 7

Praproses ... 7

Pembagian Data ... 7

Ekstraksi Ciri Sinyal ... 7

Pemodelan ... 8

Pencocokan Model ... 8

Pengujian ... 9

HASIL DAN PEMBAHASAN... 9

Praproses ... 9

Hasil Pengujian dengan MFCC ... 9

Hasil Pengujian dengan Wavelet Daubechies ... 9

Hasil Pengujian MFCC dan Wavelet Daubechies dengan Noise ... 11

KESIMPULAN DAN SARAN... 11

Kesimpulan ... 11

Saran ... 11

(8)

DAFTAR TABEL

Halaman

1 Tabel koefisien db4 ... 5

2 Daftar Fonem dalam Penelitian ... 6

3 Akurasi Nilai Perbandingan MFCC dan Wavelet ... 10

4 Pengujian Data Uji dengan Noise ... 11

DAFTAR GAMBAR Halaman 1 Grafik hubungan frekuensi dengan skala mel ... 3

2 Dekomposisi Wavelet 3 Tingkat ... 4

3 Bank Filter Daubechies ... 5

4 Proses Pengenalan Fonem ... 6

5 Diagram Proses Ekstraksi Ciri MFCC dan Wavelet ... 7

6 Diagram proses pemodelan ... 8

7 Grafik Hasil Pengujian dengan Ekstraksi Ciri MFCC ... 9

8 Grafik Hasil Pengujian dengan Ekstraksi Ciri Wavelet ... 9

9 Grafik Hasil Pengujian dengan Ekstraksi Ciri MFCC dan Wavelet ... 10

10 Grafik Hasil Pengujian Data Uji ... 10

11 Grafik Hasil Pengujian Data Latih ... 10

(9)

PENDAHULUAN

Latar Belakang

Perkembangan teknologi informasi dapat

mempermudah pekerjaan manusia dalam

kehidupan sehari-hari. Pekerjaan manusia secara manual dapat digantikan dengan sistem otomatis. Salah satu sistem otomatis adalah sistem yang dapat membuat komputer mampu berkomunikasi dengan manusia. Dalam proses komunikasi ini diperlukan tahap konversi suara ke teks (speech to text transcription).

Konversi suara ke teks, berawal dari pengenalan berbasiskan fonem Berbasis fonem diterapkan karena, jika berbasiskan kata, yang mana setiap kata yang terdapat dalam kamus

kata dimodelkan dengan suatu teknik

pemodelan. Hal ini mengakibatkan kurang efektifnya sistem apabila akan dikembangkan untuk sistem pengenalan kata yang bersifat

large vocabulary yang mana kata yang terdapat dalam kamus kata berjumlah sangat besar. Oleh karena itu, di dalam penelitian ini akan dikembangkan suatu sistem pengenalan fonem yang merupakan tahap awal dari pengenalan kata.

Tahap awal pengenalan fonem dilakukan dengan praproses pada sinyal suara. Praproses merupakan proses penghapusan silent, normalisasi dan segmentasi manual. Data fonem yang dihasilkan dari praproses, dilanjutkan dengan pembuatan template untuk membangun model pengenalan fonem. Dengan demikian, komputer diharapkan mampu menerjemahkan ucapan ke dalam bentuk teks yang diucapkan. Teks yang dihasilkan merupakan gabungan dari beberapa fonem. Dengan demikian, sebelum ke tahap konversi suara ke teks diperlukan tahap pengenalan fonem.

Data yang digunakan adalah sinyal suara manusia yang direkam dari satu pembicara. Digunakan sinyal suara sebagai masukan karena merupakan salah satu karakteristik fisiologis manusia yang unik. Suara juga sebagai sistem biometrik dan lebih efisien dibandingkan dengan biometrik yang lain.

Penelitian ini membandingkan konsep

berbasiskan transformasi Fourier dan

transformasi Wavelet. Transformasi Wavelet

diskret yang digunakan berbasis orthogonal yaitu Daubechies. Menurut (Agustini 2006) Daubechies merupakan tipe Wavelet yang memberikan tingkat pengenalan paling tinggi dibandingkan dengan Symlets dan Coiflets.

Distribusi Normal digunakan sebagai

pencocokan pola.

Tujuan

Penelitian ini bertujuan memberikan informasi nilai akurasi. Selain itu, juga membandingkan antara transformasi Fourier

dan transformasi Wavelet sebagai ekstraksi

ciri, pada pengenalan fonem dengan

Distribusi Normal sebagai pencocokan pola.

Ruang Lingkup

Ruang lingkup penelitian ini adalah :

1. Penelitian difokuskan pada pemodelan pengenalan fonem, bukan pengenalan kata atau kalimat.

2. Fonem yang digunakan sebanyak 26

fonem dari /a/ sampai /z/.

3. Teks yang diucapkan berbahasa Indonesia. 4. Penelitian ini menerapkan transformasi

Fourier dan transformasi Wavelet jenis orthogonal Daubechies sebagai ekstraksi ciri dengan orde 4 pada level 1.

5. Penelitian ini menerapkan Distribusi Normal sebagai pengenalan pola.

6. Data sinyal suara pada penelitian ini menggunakan satu pembicara.

7. Implementasi sistem pengenalan kata menggunakan software MATLAB 7.7.

TINJAUAN PUSTAKA

Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (KBBI). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru yang tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang ke luar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

Akuisisi data suara digital

(10)

Secara konsepsi, konversi analog to digital (A/D), melalui tiga tahapan proses yaitu: (Proakis dan Manolakis 1996)

a) Proses sampling

Sampling merupakan pengambilan nilai-nilai (sampling rate) dari sinyal kontinu pada setiap jangka waktu (T) yang ditentukan, sehingga sinyal yang awalnya kontinu berubah menjadi diskret.

Menurut (Buono 2009) bahwa, karena sinyal analog dapat direpresentasikan sebagai penjumlahan dari gelombang sinus dengan amplitudo, frekuensi dan fase yang berbeda. Dengan demikian, nilai sampling rate yang dapat menangkap semua komponen sinyal

haruslah minimal dua kali frekuensi

maksimum yang ada dalam sinyal. Nilai

sampling rate sebesar Fs = 2 Fmax disebut sebagai Nyquist rate.

Aturan teori Nyquist menyatakan bahwa frekuensi sinyal paling sedikit dua kali frekuensi sinyal yang akan di-sampling

(sinyal analog) dan merupakan batas

minimum dari frekuensi sample (Fs). Lebih

besar tentunya lebih baik, karena

menggambarkan sinyal aslinya.

Sampling rate yang digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16000 Hz (Jurafsky dan Martin 2000). Hubungan antara panjang vektor data yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasikan dinyatakan berdasarkan persamaan 1:

S = Fs× T (1)

Keterangan: S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

b) Kuantisasi

Kuantisasi merupakan konversi nilai amplitudo yang bersifat kontinu menjadi nilai diskret. Proses ini menyimpan nilai-nilai simpangan sinyal menjadi representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000).

c) Pengkodean

Pengkodean merupakan pemberian

bilangan biner pada setiap level kuantisasi.

Ekstraksi Ciri

Tujuan ekstraksi ciri untuk mereduksi ukuran data tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri. Ekstraksi ciri didapat dari mengonversikan bentuk sinyal

suara ke dalam bentuk representasi secara parameter (Agustini 2006). Ekstraksi ciri MFCC menghitung koefisien cepstral dengan mempertimbangkan pendengaran manusia. MFCC didasarkan pada variasi frekuensi batas pendengaran manusia yaitu sekitar 20 Hz -20000 Hz. Tahapan MFCC adalah sebagai berikut (Do 1994):

1. Frame Blocking dan Windowing

2. Fast Fourier Transform (FFT) 3. Mel FrequencyWrapping

4. Cepstrum

Frame Blocking dan Windowing

Frame blocking merupakan segmentasi

frame dengan lebar tertentu yang saling tumpang tindih atau suara digital yang telah diakuisisi dengan durasi tertentu. Tiap-tiap hasil

frame direpresentasikan dalam sebuah vektor. Proses frame blocking mengakibatkan terjadi distorsi (ketidakberlanjutan sinyal) antar frame. Dengan demikian, untuk meminimalisasi distorsi tersebut dilakukan proses windowing. Proses windowing yaitu proses filtering tiap

frame dengan cara mengalikan setiap frame

tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame.

Frame windowing bertujuan meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara. Tahap

pembuatan window menggunakan fungsi

window Hamming. Window Hamming dapat dituliskan dengan persamaan 2 (Do 1994).

d(u) = 0.54 + 0.46 cos

✂✁☎✄✝✆

✞✠✟☛✡☞✝✌ (2)

Dalam hal ini, u = 0,1,…,N-1 dan N

merupakanjumlah samples tiap frame. Menurut (Buono 2009), fungsi window Hamming memiliki nilai J(bias) dan V(varian) moderat. Selain itu, window Hamming juga memiliki nilai mean squared error (MSE) berada ditengah-tengah dibanding dengan filter yang lain serta memiliki kesederhaan rumus. Oleh sebab itu, maka fungsi window Hamming ini digunakan.

Fast Fourier Transform (FFT)

Fast fourier transformation (FFT) bertujuan mendekomposisi sinyal menjadi sinyal sinusoidal, dan terdiri atas dua unit, yaitu unit real dan unit imajiner. FFT digunakan untuk analisis frekuensi, sehingga mempermudah pemrosesan suara karena sesuai dengan pendengaran manusia. FFT adalah

algoritme yang mengimplementasikan

(11)

merupakan transformasi setiap frame dengan N

sample dari domain waktu ke domain frekuensi yang didefinisikan pada persamaan 3 berikut (Do 1994).

✍✏✎✒✑✔✓✖✕✘✗✂✙✛✚✢✜☎✣✝✤☎✥✧✦✒★

✩

✪✬✫✢✭

✮✝✯✢✰ ✱✧✲✴✳

Keterangan:

N = banyaknya segmen sekuen Xk = nilai data ke k

n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1 j = ✵✷✶✹✸

Secara umum Xn adalah bilangan yang kompleks. Hasil dari tahap ini disebut dengan spektrum sinyal atau periodogram.

Mel FrequencyWrapping

Proses wrapping menghitung nilai mel-frequency dengan sejumlah filter yang saling overlap. Filter yang digunakan berbentuk segitiga dengan tinggi satu pada ruang frekuensi mel. Skala mel digunakan untuk mengikuti persepsi pendengaran manusia yang dikenal dengan Mel Wrapping (Buono 2009).

Berdasarkan studi psikologi, telinga

manusia mempunyai persepsi terhadap

frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Persamaan berikut dapat digunakan untuk perhitungan mel-frequency pada frekuensi ✺ dalam satuan

hertz (Nilsson dan Ejnarsson 2002).

✻✽✼✿✾✴❀✘❁

❂✢❃✬❄✂❅✽❄✹❆✘❇❈✴❉✬❊☛❋❍●❏■✹❑ FHz

700▲✏▼❖◆◗P✂❘

FHz ❙❯❚✢❱✛❱✬❱

FHz❲❨❳◗❩✂❬ FHz❭❯❪✢❫✛❫✬❫ (4)

Dari persamaan 4, FHz adalah frekuensi akustik, maka nilai frekuensi FHz sebagai fungsi dari skala mel adalah:

❴✂❵✂❛❝❜❡❞☛❢☛❢❝❣✐❤☛❥✴❦♠❧✽♥✐♦ ♣☎qsr☎q t✈✉❏✇

(5)

Gambar 1 Grafik hubungan frekuensi dengan skala mel (Buono 2009).

Pada Gambar 1 terlihat bahwa untuk frekuensi rendah, filter yang digunakan menggunakan skala linear, sehingga lebarnya konstan. Dilain pihak, untuk frekuensi tinggi (>1000 Hz), filter dibentuk dengan skala logaritma.

M filter selanjutnya digunakan untuk

menghitung nilai mel-frequency atau

wrapping pada persamaan 6 berikut:

①③②✏④⑥⑤⑦✴⑧✬⑨✧⑩✘❶❸❷❺❹✧❻❽❼✐❾✛❿✢➀➁➃➂s➄☎➅✛➆ ➇✠➈✢➉

➊✝➋✂➌ ➍ ➎✧➏✂➐

Dengan i=1,2,3…,M (M adalah jumlah filter

segitiga) dan Hi(k) adalah nilai filter segitiga ke i untuk frekuensi akustik sebesar k. Untuk N adalah banyaknya data, sedangkan X(k) merupakan nilai data ke k hasil dari proses FFT.

Cepstrum

Cepstrum merupakan hasil mel frequency

yang diubah menjadi domain waktu

menggunakan discrete cosine transform (DCT) dengan persamaan 7 (Do 1994):

➑✧➒❨➓→➔↔➣➙↕

➛

➜➝☛➞➠➟➢➡✢➤➦➥➨➧✠➩➭➫◗➯➳➲✴➵✢➸➻➺

➼ ➽ ➾✧➚❏➪

dengan j=1,2,3,…,K (K adalah jumlah koefisien yang diiginkan dan M = jumlah

filter, sedangkan Xi adalah nilai data ke i hasil proses mel frequensy wrapping .

Wavelet

Wavelet dapat dibentuk dari satu fungsi (x) dikenal sebagai “motherWavelet” dalam suatu interval berhingga. Wavelet merupakan gelombang singkat (small wave) yang energinya terkonsentrasi pada suatu selang

waktu untuk memberikan kemampuan

analisis transien, ketidakstasioneran, atau fenomena berubah terhadap waktu (time varying). Karakteristik dari Wavelet antara lain adalah berosilasi singkat, translasi (pergeseran), dan dilatasi (skala) (Burrus et al. 1998).

Wavelet memiliki banyak famili, dibedakan berdasarkan pada bank filter yang digunakan. Famili Wavelet terdiri atas biorthogonal Wavelet, Meyer Wavelet, Morlet

Wavelet, Shanon Wavelet, dan masih banyak lainnya. Wavelet Daubechies merupakan

famili orthogonal Wavelet hasil

(12)

Transformasi Wavelet menunjukkan frekuensi waktu yang baik untuk lokalisasi properti dan alat yang tepat untuk analisis sinyal diskontinu (non stationary) (Krishnan 1994). Wavelet merupakan fungsi variabel

real t, diberi notasi t dalam ruang fungsi L²(R). Fungsi ini dihasilkan oleh parameter penskala (dilatasi) dan penggeseran (translasi) dari sebuah fungsi tunggal (induk) yang dinyatakan dalam persamaan (Burrus et al. 1998) :

a,b(t) = a-1/2 ➶➘➹➷➴✂➬

➮ ➱ ; a>0,b

✃❒❐ (8)

fungsi pada persamaan (8) dikenalkan pertama kali oleh Grossman dan Morlet, dengan a,b ❮Ï❰ dan a 0, a merupakan parameter penskala dan b adalah parameter translasi.

j,k(t) = a j/2

(2jt-k) ; j,k Ð Z (9)

fungsi pada persamaan (9) dikenalkan pertama kali oleh Daubechies.

keterangan:

a = parameter penskala dan a 0 2j = parameter dilatasi

k = parameter waktu atau lokasi ruang

Wavelet berdasarkan pada pembangkitan sejumlah tapis (filter) dengan cara mengeser dan menskala mother Wavelet berupa tapis pelewat tengah (band-pass filter). Dengan demikian diperlukan pembangkit filter. Penambahan dan pengurangan skala akan mempengaruhi durasi waktu, lebar bidang (bandwith) dan nilai frekuensi (Burrus et al. 1998).

Transformasi Wavelet dapat dibedakan menjadi dua, yaitu continous wavelet transform

(CWT) dan discrete wavelet transform (DWT). Fungsi yang digunakan dalam transformasi CWT dan DWT diturunkan dari motherWavelet

melalui translasi/ pergeseran dan

penskalaan/dilatasi. Transformasi Wavelet

kontinu mempunyai dua kelemahan yaitu

redudancy dan ketidakpastian (impracticality) (Mallat 1999). Masalah tersebut dapat diselesaikan dengan mendiskretkan parameter penskala dan penggeseran.

Transformasi Wavelet Diskret

Transformasi Wavelet merupakan teknik pemrosesan sinyal multiresolusi. Proses

transformasi Wavelet dilakukan dengan

mengkonvolusi sinyal dengan data tapis (filter) atau dengan proses perata-rataan dan pengurangan secara berulang, yang sering disebut dengan metode filter bank. Prinsip

dasar dari DWT adalah bagaimana cara mendapatkan representasi waktu dan skala dari sebuah sinyal menggunakan teknik filter

digital dan operasi sub-sampling.

Transformasi Wavelet diskret bertujuan mengurangi redundansi yang terjadi pada transformasi Wavelet kontinu. Transformasi

Wavelet diskret menganalisis suatu sinyal dengan skala yang berbeda.

Sebuah sinyal dilewatkan dalam dua filter

DWT yaitu highpass filter dan lowpass filter

agar frekuensi dari sinyal tersebut dapat

dianalisis. Pembagian sinyal menjadi

frekuensi tinggi dan frekuensi rendah dalam proses highpass filter dan lowpass filter

disebut sebagai dekomposisi. Proses

dekomposisi ini dapat melalui satu atau lebih tingkatan. Dekomposisi satu tingkat ditulis dengan ekspresi matematika pada persamaan 10 dan 11.

Ñ☛Ò✧Ó✐Ô❏Õ✝Ö➢×✠ØÙ✬Ú③ÛÝÜßÞ✘àá✽â✐ãåä➨æ✢çéèëê❸ì

í î♠ï✢ð✴ñ

ò✠ó➷ôõ✝ö➘ö✴ô➭÷ø✬ù❒úÝûýü➙þÿ✁✄✂✆☎✞✝✠✟☛✡✌☞✁✍

✎

✏✒✑✓✑✕✔

Dalam hal ini y[k] tinggi dan y[k] rendah adalah hasil dari highpass filter dan lowpass filter, x[n] merupakan sinyal asal, h[n] adalah

highpassfilter, dan g[n] adalah lowpassfilter.

Contoh ilustrasi dekomposisi dipaparkan

pada Gambar 2 dengan menggunakan

dekomposisi tiga tingkat. Pada Gambar 2 y[k] tinggi dan y[k] rendah yang merupakan hasil dari highpass filter dan lowpass filter, y[k] tinggi disebut sebagai koefisien DWT. y[k] tinggi merupakan detail dari informasi sinyal, sedangkan y[k] rendah merupakan taksiran kasar dari fungsi penskalaan. Dengan menggunakan koefisien DWT ini maka dapat dilakukan proses inverse discrete wavelet transform (IDWT) untuk merekonstruksi menjadi sinyal asal.

Gambar 2 Dekomposisi Wavelet 3 tingkat.

(13)

berada pada akhir dekomposisi dengan sebelumnya meng – upsample oleh 2 ( 2) melalui highpass filter dan lowpass filter.

Proses rekonstruksi ini sepenuhnya

merupakan kebalikan dari proses dekomposisi

sesuai dengan tingkatan pada proses

dekomposisi. Dengan demikian, persamaan rekonstruksi pada masing-masing tingkatan dapat ditulis sebagai berikut:

✖✘✗✙✁✚✜✛✣✢✥✤✧✦✩★✫✪✬✮✭✮✭✯✪✱✰✲✴✳✄✵✆✶✞✷✜✸✺✹✣✻✽✼✴✾❀✿

❁

❂✽❃✒❄❆❅❈❇❊❉●❋✩❍■✴❏▲❑◆▼✞❖✜P✺◗❙❘✠❚✴❯▲❱ ❲✒❳✠❨❬❩

Transformasi Wavelet Daubechies

Wavelet Daubechies secara historis berasal dari sistem Haar ditulis sebagai ‘dbN’ dengan N menunjukkan orde dengan 2 koefisien (db2) memiliki scaling function dengan koefisien low-pass sebagai berikut (Burrus et al. 1998).

❭✯❪✞❫✒❴✁❵❜❛❀❝◆❞✩❡ ❢❊❣✴❤ ✐

❥✯❦✫❧♥♠✁♦q♣sr◆t✩✉ ✈❊✇✴① ②

③✯④✞⑤✒⑥✁⑦q⑧s⑨◆⑩✩❶ ❷❊❸✴❹ ❺

❻✯❼❽●❾✁❿❜➀❀➁◆➂✩➃ ➄❊➅✴➆

Dengan h(n) merupakan koefisien low-pass.

Nilai koefisien high-pass fungsi Wavelet dengan N=2 atau berorde 2 adalah

g0 = h3 , g1 = -h2, g2 = h1, g3 = -h0, dengan g= high-pass dan h = low-pass.

Ingrid Daubechies telah mengklasifikasikan koefisien secara numerik untuk N=4 atau berorde 4 pada Tabel 1(Burrus et al. 1998).

Tabel 1 Tabel koefisien db4.

Low fass Koefisien

N = 4 h(0) 0.230377813309

h(1) 0.714846570553

h(2) 0.630880077679

h(3) -0.027983769417

h(4) -0.187034811719

h(5) 0.030841381836

h(6) 0.032883011667

h(7) -0.010597401785

bank filter Wavelet Daubechies dengan 4 koefisien dapat dilihat pada Gambar 3 untuk n<0 dan n>4 nilai h(n)=0.

h

0

h

1

h

2

h

3

0 0 0

g

0

g

1

g

2

g

3

0 0 0

0 0 h

0

h

1

h

2

h

3

0

0 0 g

0

g

1

g

2

g

3

0

Gambar 3 Bank filter Daubechies.

Tahapan ekstraksi ciri menggunakan transformasi Wavelet yaitu:

a) Frame Blocking dan Windowing

b) Discrete Wavelet Transform (DWT) menggunakan Daubechies

c) Mel FrequencyWrapping

d) Cepstrum

Distribusi Normal

Distribusi Normal sering disebut sebaran

Gauss. Penulisan notasi dari peubah acak yang berdistribusi normal umum adalah

N(x;µ , 2), artinya peubah acak X

berdistribusi normal umum dengan mean µ dan varians 2. Peubah acak X yang berdistribusi normal dengan mean µ dan

varians 2 disingkat X~N(µ , 2).

Peubah acak X dikatakan berdistribusi normal umum, jika dan hanya jika fungsi densitasnya berbentuk seperti pada persamaan 13 (Herrhyanto dan Gantini 2009).

➇➉➈✧➊✴➋➍➌➏➎ ➐✴➑

➒ ➓ ➔➣→❬↔ ↕✫➙➜➛

➝♥➞✮➟ ➠➡➤➢ µ

➥✮➦➣➧ (13)

Dengan - <X< , - <µ < , - < 2< , dalam hal ini X merupakan data yang digunakan sebagai data uji, µ merupakan nilai rata-ratadari data latih.

Distribusi Normal (Gauss) multivariate

N( , ) didefinisikan sebagai:

➨➩✒➫➭✮➯➳➲ ➵

➸✞➺✒➻✕➼❆➽➾ ➚ ➪➶

➹ ➘❆➴♥➷➮➬❈➱◆✃

❐ ❒❮Ï❰ µÐ✧Ñ Ò♥Ó✓ÔÕÏÖ µ×▲Ø✆Ù✫Ú✒Û●Ü

Untuk kasus satu dimensi, disederhanakan menjadi:

Ý♥Þ✯ß▲à✴áãâ ä

å✱æ✯ç➮è✕é

ê

ë●ì✯í î✩ïñð

ò ó✱ôöõ

µ÷

ø ù✠ú➣û ü➣ý✽þ✕ÿ

(14)

ciri, µ adalah nilai rata-ratadari data latih dan merupakan nilai matriks kovarian dari data latih.

Matriks kovarian didapat dengan

menghitung nilai rata-rata dari data latih. Nilai rata-rata yang didapat selanjutnya dikurangi dengan matriks awal, dikali dengan matriks transform hasil pengurangan dan dibagi dengan banyak data. Misalkan, matriks data latih dengan banyak data 3, berukuran

mxn dengan m = 3 (banyaknya baris) dan n = 2 (banyaknya kolom), maka matriks kovarian yang dihasilkan berukuran 2x2. Berikut Langkah - langkah menghitung matriks kovarian dan rata-rata dari matriks A:

1. Menghitung nilai rata-rata dari matriks A untuk menghasilkan matriks B.

✂✁

✄✆☎✞✝✠✟☛✡

☞✞✌✠✍☛✎

✏✒✑✔✓✖✕✘✗

, ✙✛✚✢✜✣✥✤✧✦✩★✫✪

2. Mengurangi matriks rata-rata dengan matriks A

✬✮✭✰✯✲✱✳✵✴✷✶✹✸✻✺ ✼✩✽✿✾✹❀✻❁✒❂

❃❅❄❇❆❈✵❉✷❊●❋✻❍ ■✩❏✿❑●▲☛▼❖◆

P❘◗❇❙❚✵❯❲❱✹❳✒❨ ❩✩❬❪❭✹❫❵❴✫❛

3. Menghitung nilai kovarian

❜✘❝❖❞❢❡✫❣❖❤✐❡❖❥❧❦❧♠✮♥❵♦q♣✮r❖s✩t✈✉✩✇✻①③②⑤④❘⑥❢⑦⑨⑧✵⑩

❶❢❷✫❸☛❹⑨❷❢❺❼❻✘❽❢❾❿❽

Dalam hal ini, A1t merupakan transform

dari matriks A1, Bt merupakan transform

dari matriks B, dan Ct merupakan

transform dari matriks C.

METODE PENELITIAN

Penelitian ini dilakukan dengan beberapa tahapan, yaitu pengambilan data, pemodelan (feature extraction), dan pengenalan (feature matching). Feature extraction merupakan proses mengekstraksi data hasil akuisisi sehingga dihasilkan data yang berdimensi lebih kecil. Feature matching merupakan prosedur aktual mencocokkan pola dan membandingkan fitur ekstraksi suara yang dimasukkan dengan salah satu dari himpunan pembicara (Agustini 2006). Proses pengenalan fonem dapat dilihat pada Gambar 4.

Gambar 4 Proses pengenalan fonem.

Pengambilan Data

Data yang digunakan dalam penelitian ini adalah data dari sebelas kata (coba, fana, gajah, jaya, malu, pacu, quran, tip-x, visa, weda, dan zakat). Pemilihan kata dilakukan untuk memenuhi jumlah keseluruhan fonem yaitu sebanyak 26 fonem.

Letak fonem dalam suatu kata tidak

berpengaruh terhadap error rate yang

dihasilkan. Letak fonem pada awal kata tidak selalu memberikan nilai error rate yang kecil, begitupun pada fonem yang terletak pada tengah maupun akhir kata (Resmiwati 2009). Daftar fonem dari kata yang digunakan dalam penelitian ini dapat dilihat pada Tabel 2.

Tabel 2 Daftar fonem dalam penelitian.

Kelompok fonem Asal kata

/a/, /j/, /y/ Jaya

/b/, /c/, /o/ Coba

/d/, /e/, /w/ Weda

/f/ fana

/g/, /h/ Gajah

/i/, /v/, /s/ Visa

/k/, /z/ Zakat

/l/, /m/, /u/ Malu

(15)

Kelompok fonem Asal kat

/p/ Pacu

/t/, /x/ Tip-x

Data berasal dari satu pemb masing kata direkam seban pengulangan sehingga data yan sebanyak 520 data suara. Pen dilakukan dengan mengguna (banyaknya bit yang diproses pe sebesar 16 bit sampling rate seb dan disimpan dalam file bere Proses perekaman dilakukan di untuk mengurangi noise dari lin

Praproses

Pengenalan 26 fonem pada dilakukan beberapa tahapan yai

1. Penghapusan silent dan norm Penghapusan silent d suara yang disimpan hanya rekaman suara. Normalisa dengan membagi nilai se sinyal dengan absolute m sebuah frekuensi sinyal

normalisasi untuk

amplitudo maksimum dan m normal yaitu satu dan sehingga dapat menorm kekerasan suara.

2. Segmentasi sinyal

Data hasil penghapusa normalisasi dilakukan segm manual sehingga dihasilkan sebelas kata yang direkam sebanyak 20 kali pengula demikian jumlah total dat dihasilkan sebanyak 520 da fonem.

Pembagian Data

Pembagian data dibagi bagian, yaitu data pelatihan dengan proporsi 75% untuk 25% untuk data uji. Menurut dengan menggunakan metode HMM pembagian data den 75%:25% lebih baik dibuat dengan 50%:50% dan 25%:75%

Ekstraksi Ciri Sinyal

Data fonem hasil segmenta dilakukan ekstraksi ciri deng

transformasi Fourier dan

Wavelet Daubechies (db4) p Ekstraksi ciri dilakukan untu

ata

mbicara, masing-anyak 20 kali ang dikumpulkan engambilan data nakan bit rate

per satuan waktu) sebesar 12000 Hz erekstensi WAV. di tempat hening lingkungan.

da penelitian ini aitu:

ormalisasi dilakukan agar ya yang terdapat isasi dilakukan setiap frekuensi maksimum dari l suara. Tujuan menghasilkan n minimum yang n minus satu, malkan tingkat

san silent dan gmentasi secara an 26 fonem dari masing-masing langan. Dengan ata fonem yang data dari seluruh

i menjadi dua n dan pengujian data latih dan ut Buono (2009) de MFCC dan engan proporsi at perbandingan 5%.

ntasi selanjutnya ngan pemodelan n transformasi pada level 1. tuk menentukan

nilai vektor yang digunakan seba dengan dimensi yang lebih kecil d

frame-nya sehingga diharapk mempercepat waktu pengenalan fo

Dalam penggunaannya, fungsi

Wavelet memerlukan beberapa para 1. Input, merupakan sinyal tanpa

yang akan dianalisis ekstraksi ci 2. Sampling rate yaitu banyakny akan diambil dalam satu detik. 3. Time frame lamanya waktu yan dalam satu frame dalam miliseko 4. Overlap yaitu overlapping yan

antara satu frame dan frame sela 5. Cepstral coeffisient yaitu

koefisien cepstrum yang diingin

output.

6. Level yaitu banyaknya tahapan yang digunakan pada fungsi DW

MFCC yang diimplementasi

sistem ini merupakan fun

dikembangkan oleh Stanley pada Alur proses MFCC dan Wavelet

pada Gambar 5.

Penjelasan tahapan dari ek MFCC dan DWT yaitu:

a) Frame Blocking dan Windowin

Penelitian ini menggunakan pa pada lebar waktu 30 ms dan menyimpan data sebanyak 360 d antar frame 50%. Windowing m Hamming window dengan panja sama dengan panjang frame yaitu

Gambar 5 Diagram proses ekst MFCC dan Wavelet.

b) Transformasi Wavelet Daubec

Data yang terbagi dalam be hasil dari frame blocking dan wind

setiap fonem dilakukan proses d dengan menggunakan transforma

bagai penciri, l dalam setiap

pkan dapat

fonem.

si MFCC dan arameter yaitu: pa noise suara cirinya. nya data yang

ang diinginkan ekon.

ang diinginkan elanjutnya. u banyaknya

ginkan sebagai

n dekomposisi WT.

asikan dalam fungsi yang a tahun 1998. dapat dilihat

ekstraksi ciri

ing

panjang frame

n tiap frame

data, overlap

menggunakan njang window

tu 360 sample.

straksi ciri

echies

bentuk frame ndowing pada

(16)

Hasil dekomposisi menghasil koefisien (koefisien detail dan p

Algoritme 1 adalah untuk me detail dan perkiraan pada p dekomposisi (Agustini 2006).

Algoritme 1: Proses multiple dek

Input: sinyal yang akan di-filt

Tahap 1: Pilih filter yang a sebagai low-pass f pass filter.

Tahap 2: Sinyal input di-fi low-pass filter filter.

Tahap 3: Hasil Low-pass high-pass frekuens selanjutnya dila

downsampling.

Tahap 4: Low-pass frekuens selanjutnya kemba Tahap 5: Dilakukan terus

berhenti pada diharapkan.

Output: Low-pass frekuensi p ditentukan.

Analisis data transform dilakukan dengan mendekomp

sinyal ke dalam kompo

frekuensi yang berbeda-beda masing-masing komponen frek dapat dianalisis sesuai d resolusinya atau level dekom ini seperti proses filtering, domain waktu dilewatkan ke d

filter dan low pass filter untu komponen frekuensi tinggi rendah.

Proses dekomposisi berda Nyquist. Aturan Nyquist mengatakan bahwa frekuen

sample harus kurang atau setengah dari frekuensi samplin

itu maka, diambil frekuensi sa

frekuensi sampling dalam sub

pada dekomposisi Wavelet.

c) Mel -Frequency Wrapping

Dengan menggunakan al disarankan oleh Davis dan Me untuk membentuk M filter. Dar sudah dibentuk, selanjutny

wrapping terhadap sinyal. N

yang diharapkan didapat

transformasi kosinus.

silkan koefisien-n perkiraakoefisien-n).

encari koefisien proses multiple

ekomposisi.

filter

akan digunakan

s filter dan

high-filter ke dalam dan high-pass

s frekuensi dan nsi pada tahap 2, ilakukan proses

nsi hasil tahap 3 bali ke tahap 2. s menerus dan

level yang

si pada level yang

rmasi Wavelet

posisikan suatu ponen-komponen da. Selanjutnya rekuensi tersebut dengan skala mposisinya. Hal , sinyal dalam dalam high pass

tuk memisahkan i dan frekuensi

dasarkan aturan salah satunya ensi komponen sama dengan

ling. Oleh sebab

sample /2 dari

subsample oleh 2

algoritme yang ermelstein 1980 ari M filter yang tnya dilakukan Nilai koefisien t dari hasil

Pemodelan

Hasil ekstraksi ciri satu sinyal d hasil berupa matrikss ciri n×k, n ad

frame dan k adalah koefisien. dilakukan perata-rataan koefisien baris, sehingga setiap satu data siny matriks berukuran 1×k. Jumlah dat satu fonem ada 15 data, maka matriks berukuran 15×k, dengan k

koefisien. Matriks 15×k yang dih satu fonem kemudian dihitung nila

sigma untuk fonem tersebut. Kum

mean dan sigma dari fonem /a/ inilah yang digunakan sebagai m

tahap pencocokan. Contoh a

pemodelan untuk menghitung nila

sigma dari satu fonem dapat d Gambar 6.

Gambar 6 Diagram proses pem

Variabel n pada Gambar 6 m banyaknya frame yang dihas masing-masing sinyal. Banyak jum

dihasilkan pada proses eks

bergantung pada panjang pende hasil segmentasi. Variabel x da koefisien nilai hasil penggabung yang diperoleh dari hasil rata-rata.

Pencocokan Model

Model yang dihasilkan p

pemodelan selanjutnya

pencocokan. Pencocokan dilaku data uji yang telah disiapkan s

Penerapan Distribusi Norma

multivariate N( , ) digunak pencocokan model.

l data memiliki adalah jumlah . Kemudian n pada setiap nyal dihasilkan ata latih untuk ka dihasilkan

k banyaknya ihasilkan dari ilai mean dan umpulan Nilai /a/ sampai /z/ model untuk alur proses ilai mean dan dilihat pada

emodelan.

menunjukkan asilkan pada jumlah n yang kstraksi ciri deknya sinyal dan y adalah ngan matriks ta.

(17)

Pengujian

Pengujian dilakukan pada data uji yang telah dipersiapkan. Setiap data uji dilihat apakah data tersebut terindentifikasi pada fonem yang semestinya. Presentase tingkat akurasi dihitung dengan fungsi berikut:

➀☛➁q➂✒➃✆➄✩➅➇➆➉➈➋➊③➌➥➉➦➋➧③➨➍➏➎✘➐✖➑➓➒❵➔➣→❼↔❵↕➛➙✖➜✵➝➟➞➣➠➢➡➛➤➩➏➫✘➭✖➯➓➲❵➳➣➵❼➸❵➺➛➻✖➼✥➽➋➾➚✖➪➶➾ ➹➴➘❖➷❢➷❢➬ (16)

HASIL DAN PEMBAHASAN

Praproses

Penelitian ini, data yang digunakan sebanyak 390 data latih dan 130 data uji. Data tersebut selanjutnya dilakukan praproses yaitu penghapusan silent, normalisasi, dan segmentasi manual. Dengan demikian, tahap praproses menghasilkan 26 fonem dari fonem /a/ sampai /z/. Masing-masing fonem memiliki 15 data latih dan 5 data uji. Setelah dilakukan praproses, dilanjutkan dengan proses ekstraksi ciri pada semua data dengan menerapkan MFCC dan

Wavelet Daubechies.

Pada proses ekstraksi ciri dengan MFCC terdapat beberapa parameter yaitu, input suara,

sampling rate, time frame, overlap, cepstral coefficient. Parameter ekstraksi ciri Wavelet

Daubechies sama dengan parameter pada MFCC hanya ditambah satu parameter lagi yaitu level. Data latih merupakan data hasil praproses dan ekstraksi ciri yang sudah dibuatkan model terlebih dulu. Pemodelan dilakukan dengan menghitung nilai mean dan

sigma dari masing-masing fonem dengan 13 koefisien.

Karena keterbatasan data latih yang digunakan penelitian ini menerapkan 13 koefisien. Jika koefisien yang digunakan lebih dari 13 maka nilai sigma ( ) yang dihasilkan mendekati singular. Hal ini terjadi karena memiliki nilai determinan yang sangat kecil hingga mencapai 1e-128, oleh sistem dianggap sama dengan nol. Dengan demikian, akan

mengakibatkan Distribusi Normal yang

diperoleh bernilai infinitif atau NaN (not a number).

Jumlah data latih yang digunakan

mempunyai bobot yang sama untuk setiap kelasnya. Hal ini dilakukan, karena jika salah satu ada yang dominan akan berpengaruh terhadap nilai akurasi. Karena kelas yang dominan akan selalu mendominasi.

Hasil Pengujian dengan MFCC

Hasil pengujian fonem dengan ekstraksi ciri MFCC dan Distribusi Normal terhadap masing-masing fonem dapat dilihat pada Gambar 7. Pada grafik terlihat bahwa fonem yang dapat dikenali dengan baik oleh sistem ada 17 fonem. Fonem /a/,/b/, /d/, /e/, /g/, /h/, /i/, /j/, /l/, /m/, /n/, /o/, /s/, /t/, /w/, /x/, dan /z/ mencapai 100%. Akan tetapi, fonem /f/, /p/, /r/, /v/ kurang baik dikenali karena akurasinya hanya mencapai 60%. Namun demikian, untuk fonem /c/, /k/, /q/, /u/, dan /y/ lumayan baik dapat dikenali dengan akurasinya mencapai 80%.

Gambar 7 Grafik hasil pengujian dengan ekstraksi ciri MFCC.

Hasil Pengujian dengan Wavelet

Daubechies

Hasil pengujian fonem dengan ekstraksi ciri

Wavelet Daubechies terhadap masing-masing fonem dapat dilihat pada Gambar 8. Pada grafik terlihat bahwa fonem kurang dapat dikenali dengan baik oleh sistem. Fonem /a/, /b/, /c/, /g/, /h/, /j/, /k/, /n/, /o/, /p/, /q/, /y/ dapat dikenali di atas 50% dan untuk fonem lainnya hanya bisa dikenali kurang dari 50%.

Gambar 8 Grafik hasil pengujian dengan ekstraksi ciri Wavelet.

Pada Gambar 9 terlihat bahwa pengujian fonem dengan ekstraksi ciri MFCC memiliki

0% 20% 40% 60% 80% 100%

a b c d e f g h i j k l m n o p q r s t u v w x y z

N

il

a

i

A

k

u

ra

si

Fonem

0% 20% 40% 60% 80% 100%

Fonem

N

il

a

i

A

k

ur

a

(18)

kinerja yang cukup baik dibandingkan dengan ekstraksi ciri Wavelet. Hal ini, pada grafik terlihat bahwa dengan MFCC terdapat 25 fonem nilai akurasinya berada di atas grafik Wavelet. Akan tetapi, dari 26 fonem kecuali untuk fonem /p/ nilai akurasi MFCC berada di bawah

Wavelet. Nilai akurasi untuk fonem /p/ dengan MFCC sebesar 60%, sedangkan pada Wavelet

mencapai 80%. Jadi Wavelet di atas MFCC sebesar 20% hanya untuk fonem /p/.

Gambar 9 Grafik hasil pengujian dengan ekstraksi ciri MFCC danWavelet.

Gambar 10 Grafik hasil pengujian data uji.

Berdasarkan Tabel 3 dan Gambar 10 terlihat bahwa akurasi nilai perbandingan antara MFCC dan Wavelet menunjukkan perbedaan yang sangat signifikan. Rata-rata nilai akurasi MFCC memiliki keunggulan dibandingkan dengan

Wavelet sebesar 43,08% dari seluruh fonem. Untuk MFCC akurasi rata-rata sebesar 90% sedangkan Wavelet jauh di bawah MFCC dengan rata-rata akurasinya hanya mencapai 46,92%.

Tabel 3 Akurasi nilai perbandingan MFCC dan

Wavelet.

Fonem MFCC Wavelet

A 100% 80%

B 100% 60%

Fonem MFCC Wavelet

C 80% 60%

D 100% 20%

E 100% 40%

F 60% 20%

G 100% 60%

H 100% 60%

I 100% 40%

J 100% 60%

K 80% 60%

L 100% 40%

M 100% 40%

N 100% 60%

O 100% 80%

P 60% 80%

Q 80% 80%

R 60% 20%

S 100% 20%

T 100% 20%

U 80% 20%

V 60% 40%

W 100% 20%

X 100% 20%

Y 80% 80%

Z 100% 40%

Berdasarkan Gambar 11 terlihat bahwa hasil pengujian sangat baik, ketika menggunakan data latih sebagai data uji. Hal ini terlihat pada grafik bahwa, rata-rata nilai akurasi MFCC dan

Wavelet cukup tinggi dengan rata-rata akurasi 100% untuk MFCC dan 99,74% untuk

Wavelet. Jadi, pengujian dengan data latih MFCC lebih baik dibanding dengan Wavelet

dengan selisih sebesar 0,26%.

Gambar 11 Grafik hasil pengujian data latih. 0%

20% 40% 60% 80% 100%

Fonem

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

90.00%

46.92%

0% 20% 40% 60% 80% 100%

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

Ekstraksi Ciri

100.00% 99.74%

0% 20% 40% 60% 80% 100%

MFCC WAVELET

N

il

a

i

A

k

ur

a

si

(19)

Hasil pengujiaan akan mengalami penurunan, jika menggunakan data uji dan

Wavelet sebagai ekstrasi ciri. Hal ini dijelaskan dari perbedaan selisih nilai akurasi pengujian dengan data uji mengalami peningkatan yang cukup signifikan. Nilai awal selisih antara MFCC dan Wavelet 0,26% dengan data latih dan meningkat menjadi 43,08% dengan data uji. Maka berdasarkan selisih nilai akurasi, MFCC lebih baik dibanding dengan Wavelet dalam pengenalan fonem untuk sinyal tanpa gangguan.

Penerapan ekstraksi ciri Wavelet baik, jika masih dalam ruang lingkup data latih yang diujikan untuk pengenalan fonem. Hasil akurasi pengenalan fonem kurang baik, ketika menggunakan data uji yang baru. Terlihat dari rata-rata pengujian dengan data uji pada

Wavelet hanya mencapai 46,92% dan meningkat 99,74% dengan data latih.

Hasil Pengujian MFCC dan Wavelet dengan

Noise

Penelitian ini dicoba dengan menambahkan

noise pada data uji sebesar 10 dB, 20 dB, dan 30 dB. Pemilihan noise 10 dB, 20 dB, dan 30 dB karena berdasarkan fakta empiris, bahwa

noise 20 dB mulai terasa pengaruhnya terhadap sinyal suara (Buono 2009). Oleh karena itu, digunakan noise di bawah dan di atas 20 dB untuk mengetahui kehandalan model yang sudah dibuat, jika sinyal uji diberi gangguan. Sinyal noise yang digunakan bersifat gaussian dengan menggunakan paket Matlab melalui instruksi AWGN(sinyal asli,level noise).

Tabel 4 Pengujian data uji dengan noise.

Sinyal MFCC Wavelet

Asli 90,0% 46,9%

noise 30 35,4% 26,9%

noise 20 13,8% 11,5%

noise 10 6,2% 5,4%

Berdasarkan Tabel 4 dapat disimpulkan,

bahwa model yang dibangun dengan

menerapkan MFCC sebagai ekstraksi ciri, jika data uji ditambah noise, maka tidak dapat mengenali dengan baik dan hasil akurasinya mengalami penurunan. Namun demikian, nilai akurasi MFCC mengalami penurunan, akan tetapi akurasi MFCC selalu berada di atas

Wavelet. Lebih jelasnya hasil akurasi yang didapat dapat dilihat pada Gambar 12. Pada grafik terlihat bahwa baik MFCC maupun

Wavelet dengan menambahkan noise hasil akurasi mengalami penurunan.

Gambar 12 Grafik hasil pengujian data uji dengan noise.

Perbedaan hasil pengujian yang sangat signifikan antara MFCC dan Wavelet, mungkin disebabkan oleh MFCC dalam mengekstraksi sinyal suara bersifat low noise sehingga teknik MFCC relatif lebih baik untuk sinyal tanpa

noise. Selain itu, MFCC juga didasarkan pada perbedaan frekuensi yang dapat ditangkap oleh

telinga manusia sehingga mampu

merepresentasikan sinyal suara sebagaimana manusia merepresentasikan.

KESIMPULAN DAN SARAN

Kesimpulan

Penelitian ini menghasilkan, bahwa ekstraksi ciri MFCC lebih baik 43,08% dibandingkan dengan Wavelet untuk sinyal tanpa noise. Rata-rata akurasi MFCC dengan data uji tanpa noise sebesar 90% untuk semua pengenalan fonem. Penerapan MFCC baik digunakan ketika data uji tidak ada gangguan dengan pemodelan Distribusi Normal. Nilai akurasi MFCC kurang baik, jika data uji ditambah dengan gangguan (noise).

Ekstraksi ciri Wavelet masih baik dalam pengenalan fonem, jika menggunakan data latih sebagai data uji dengan akurasi sebesar 99,74%. Pada kasus ini, penerapan Wavelet Daubechies kurang baik, jika pengujian dilakukan pada data uji dengan akurasi rata-rata 46,92% dan kurang baik juga ketika ditambah noise.

Saran

Penelitian ini memungkinkan untuk

dikembangkan lebih baik lagi, saran untuk pengembangan selanjutnya ialah:

1. Penelitian mengenai pengenalan fonem ini

masih sangat memungkinkan untuk

dikembangkan lebih lanjut ke tahap

pengenalan kata, dengan melakukan

0% 20% 40% 60% 80% 100%

Asli noise 30 noise 20 noise 10

Jenis Sinyal

MFCC Wavelet

N

il

a

i

A

k

ur

a

(20)

segmentasi secara otomatis menggunakan metode auto corelation.

2. Menggunakan jumlah kata yang bervariasi sehingga dapat mewakili untuk tiap fonem yang berada di depan, tengah, dan belakang untuk menghasilkan sistem yang lebih akurat.

3. Pengembangan dengan menggunakan

jumlah pembicara yang lebih banyak yang bersifat speaker independent.

4. Analisis lebih lanjut mengenai penyebab akurasi yang kurang bagus pada Wavelet

baik sebelum maupun sesudah diberikan

noise.

5. Analisis penyebab MFCC yang turun drastis sesudah diberi noise dan memberikan solusi kesalahan pada proses pengenalan fonem.

DAFTAR PUSTAKA

Agustini, Ketut. 2006. Perbandingan Metode Transformasi Wavelet sebagai Praproses pada Sistem Identifikasi Pembicara. [Tesis]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Buono, Agus. 2009. Representasi Nilai HOS dan Model MFCC sebagai Ekstraksi Ciri pada Sistem Identifikasi Pembicara di

Lingkungan Ber-Noise Menggunakan

HMM. [Disertasi]. Depok: Fakultas Ilmu Komputer, Universitas Indonesia.

Burrus, C.S. Gopinath R.A., dan Guo, H. 1998.

Introduction to Wavelets and Wavelet Transforms A Primer, International Edition.

Prentice-Hall International, Inc.

Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic recognition System. Audio Visual Communication Laboratory, Swiss Federal Institute of Technology, Switzerland.

Herryhyanto, Nar, dan Gantini, Tuti. 2009.

Pengantar Statistika Matematis. Yrama Widya, Bandung.

Jurafsky D, Martin JH. 2000. Speech and Language Processing an Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall.

Krishnan, M, Neophytou, CP, dan Prescott, G.

1994. Wavelet Transform Speech

Recognition Using Vector Quantization, Dynamic Time Warping and Artificial

Neural Networks, Center for Excellence in Computer Aided Systems Engineering and

Telecommunications dan Information

Sciences Laboratory 2291 Irving Hill Drive, Lawrence, KS 66045.

Mallat, Stephane. 1999. A Wavelet Tour of Signal Processing. Second Edition, Academic Press 84 Theobald’s Road, London WClX 8RR, UK.

Nilsson, M, dan Ejnarsson, M. 2002. Speech Recognition using Hidden Markov Model : Kinerjance Evaluation in Noisy Environment. Master Thesis, Departement

Of Telecomunications and signal

Processing, Blekinge Institute of technologi, Sweden.

Proakis, L. R., dan Manolakis, D. G. 1996.

Digital Signal Processing. Principles, Algorithm, and Aplication. Edisi ke tiga, Prentice Hall, New Jersey.

Resmiwati, Narcayaning U. D. 2009.

Pengenalan Kata Berbahasa Indonesia

dengan Menggunakan Hidden Markov

Models Berbasiskan Fonem. [Skripsi]. Bogor : Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(21)

PERBANDINGAN W

EKSTRAKSI CIRI P

DEP

FAKULTAS MATE

INS

WAVELET DAUBECHIES DAN MFCC SEBA

PADA PENGENALAN FONEM BERDASAR

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

PARTEMEN ILMU KOMPUTER

EMATIKA DAN ILMU PENGETAHUAN AL

NSTITUT PERTANIAN BOGOR

BOGOR

2011

BAGAI

RKAN

(22)

PERBANDINGAN WAVELET DAUBECHIES DAN MFCC SEBAGAI

EKSTRAKSI CIRI PADA PENGENALAN FONEM BERDASARKAN

DISTRIBUSI NORMAL

NI WAYAN SUDARMI

G64086010

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(23)

ABSTRACT

NI WAYAN SUDARMI. Comparison between Wavelet Daubechies and Mel-frequency Cesptral Coeffisient (MFCC) with Feature Extraction Using Normal Distribution for Phoneme Recognition. Under the supervised of AGUS BUONO.

Speech recognition is speech to text transcription. Speech to text transcription system is a system used to convert a voice signal from a microphone into a single or a set of words. Most research of speech to text transcription used technique which every word in corpus is modeled. It is not effective if we want to develop a large vocabulary speech recognition system which number of words in corpus are more than one thousand words. Therefore, this research developed phoneme recognition with early stage in speech recognition.

This research used some stage proces, those are take data, feature extraction, and feature matching. Normal Distribution (Gaussian) is used for feature matching, Wavelet Daubechies and MFCC is used for feature extraction. Corpus on this research consist of 11 words in Indonesian which each word recorded 20 times, 15 times for data training and 5 times for data testing. This research used 13 cepstral coefficients. Phonemes are generated from the segmentation process, and then mhu and sigma be calculated to generate the model. This case produced 26 models. The best accuracy is 90% generated by feature extraction MFCC and 46.92% generated by the Wavelet Daubechies.

(24)

PENDAHULUAN

Latar Belakang

pencocokan pola.

Tujuan

Ruang Lingkup

TINJAUAN PUSTAKA

Fonem

(25)

PENDAHULUAN

Latar Belakang

pencocokan pola.

Tujuan

Ruang Lingkup

TINJAUAN PUSTAKA

Fonem

(26)

Secara konsepsi, konversi analog to digital (A/D), melalui tiga tahapan proses yaitu: (Proakis dan Manolakis 1996)

a) Proses sampling

Sampling merupakan pengambilan nilai-nilai (sampling rate) dari sinyal kontinu pada setiap jangka waktu (T) yang ditentukan, sehingga sinyal yang awalnya kontinu berubah menjadi diskret.

Menurut (Buono 2009) bahwa, karena sinyal analog dapat direpresentasikan sebagai penjumlahan dari gelombang sinus dengan amplitudo, frekuensi dan fase yang berbeda. Dengan demikian, nilai sampling rate yang dapat menangkap semua komponen sinyal

haruslah minimal dua kali frekuensi

maksimum yang ada dalam sinyal. Nilai

sampling rate sebesar Fs = 2 Fmax disebut sebagai Nyquist rate.

Aturan teori Nyquist menyatakan bahwa frekuensi sinyal paling sedikit dua kali frekuensi sinyal yang akan di-sampling

(sinyal analog) dan merupakan batas

minimum dari frekuensi sample (Fs). Lebih

besar tentunya lebih baik, karena

menggambarkan sinyal aslinya.

Sampling rate yang digunakan pada pengenalan suara adalah 8000 Hz sampai dengan 16000 Hz (Jurafsky dan Martin 2000). Hubungan antara panjang vektor data yang dihasilkan, sampling rate dan panjang data suara yang didigitalisasikan dinyatakan berdasarkan persamaan 1:

S = Fs× T (1)

Keterangan: S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

b) Kuantisasi

Kuantisasi merupakan konversi nilai amplitudo yang bersifat kontinu menjadi nilai diskret. Proses ini menyimpan nilai-nilai simpangan sinyal menjadi representasi nilai 8 bit atau 16 bit (Jurafsky dan Martin 2000).

c) Pengkodean

Pengkodean merupakan pemberian

bilangan biner pada setiap level kuantisasi.

Ekstraksi Ciri

Tujuan ekstraksi ciri untuk mereduksi ukuran data tanpa mengubah karakteristik dari sinyal suara dalam setiap frame yang dapat digunakan sebagai penciri. Ekstraksi ciri didapat dari mengonversikan bentuk sinyal

suara ke dalam bentuk representasi secara parameter (Agustini 2006). Ekstraksi ciri MFCC menghitung koefisien cepstral dengan mempertimbangkan pendengaran manusia. MFCC didasarkan pada variasi frekuensi batas pendengaran manusia yaitu sekitar 20 Hz -20000 Hz. Tahapan MFCC adalah sebagai berikut (Do 1994):

1. Frame Blocking dan Windowing

2. Fast Fourier Transform (FFT) 3. Mel FrequencyWrapping

4. Cepstrum

Frame Blocking dan Windowing

Frame blocking merupakan segmentasi

frame dengan lebar tertentu yang saling tumpang tindih atau suara digital yang telah diakuisisi dengan durasi tertentu. Tiap-tiap hasil

frame direpresentasikan dalam sebuah vektor. Proses frame blocking mengakibatkan terjadi distorsi (ketidakberlanjutan sinyal) antar frame. Dengan demikian, untuk meminimalisasi distorsi tersebut dilakukan proses windowing. Proses windowing yaitu proses filtering tiap

frame dengan cara mengalikan setiap frame

tersebut dengan fungsi window tertentu yang ukurannya sama dengan frame.

Frame windowing bertujuan meminimalkan diskontinuitas (non-stationary) sinyal pada bagian awal dan akhir sinyal suara. Tahap

pembuatan window menggunakan fungsi

window Hamming. Window Hamming dapat dituliskan dengan persamaan 2 (Do 1994).

d(u) = 0.54 + 0.46 cos

✂✁☎✄✝✆

✞✠✟☛✡☞✝✌ (2)

Dalam hal ini, u = 0,1,…,N-1 dan N

merupakanjumlah samples tiap frame. Menurut (Buono 2009), fungsi window Hamming memiliki nilai J(bias) dan V(varian) moderat. Selain itu, window Hamming juga memiliki nilai mean squared error (MSE) berada ditengah-tengah dibanding dengan filter yang lain serta memiliki kesederhaan rumus. Oleh sebab itu, maka fungsi window Hamming ini digunakan.

Fast Fourier Transform (FFT)

Fast fourier transformation (FFT) bertujuan mendekomposisi sinyal menjadi sinyal sinusoidal, dan terdiri atas dua unit, yaitu unit real dan unit imajiner. FFT digunakan untuk analisis frekuensi, sehingga mempermudah pemrosesan suara karena sesuai dengan pendengaran manusia. FFT adalah

algoritme yang mengimplementasikan

(27)

merupakan transformasi setiap frame dengan N

sample dari domain waktu ke domain frekuensi yang didefinisikan pada persamaan 3 berikut (Do 1994).

✍✏✎✒✑✔✓✖✕✘✗✂✙✛✚✢✜☎✣✝✤☎✥✧✦✒★

✩

✪✬✫✢✭

✮✝✯✢✰ ✱✧✲✴✳

Keterangan:

N = banyaknya segmen sekuen Xk = nilai data ke k

n = 0,1,2,3,…,N-1 dan k= 0,1,2,3,…,N-1 j = ✵✷✶✹✸

Secara umum Xn adalah bilangan yang kompleks. Hasil dari tahap ini disebut dengan spektrum sinyal atau periodogram.

Mel FrequencyWrapping

Proses wrapping menghitung nilai mel-frequency dengan sejumlah filter yang saling overlap. Filter yang digunakan berbentuk segitiga dengan tinggi satu pada ruang frekuensi mel. Skala mel digunakan untuk mengikuti persepsi pendengaran manusia yang dikenal dengan Mel Wrapping (Buono 2009).

Berdasarkan studi psikologi, telinga

manusia mempunyai persepsi terhadap

frekuensi suara secara tidak linear pada frekuensi di atas 1000 Hz. Persamaan berikut dapat digunakan untuk perhitungan mel-frequency pada frekuensi ✺ dalam satuan

hertz (Nilsson dan Ejnarsson 2002).

✻✽✼✿✾✴❀✘❁

❂✢❃✬❄✂❅✽❄✹❆✘❇❈✴❉✬❊☛❋❍●❏■✹❑ FHz

700▲✏▼❖◆◗P✂❘

FHz ❙❯❚✢❱✛❱✬❱

FHz❲❨❳◗❩✂❬ FHz❭❯❪✢