TINJAUAN PUSTAKA Suara dan sinyal

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Sinyal suara merupakan gelombang yang tercipta dari tekanan udara yang berasal dari paru-paru yang berjalan melewati lintasan suara menuju mulut dan rongga hidung dengan bentuk artikulator yang senantiasa berubah. Manusia mendengar bunyi saat gelombang bunyi, yaitu getaran di udara atau medium lain sampai ke gendang telinga manusia. Batas frekuensi bunyi yang dapat didengar oleh telinga manusia sekitar 20 Hz sampai 20 KHz atau sering disebut audiosonik.

Secara matematika suatu sinyal dirumuskan sebagai fungsi dari satu atau lebih peubah bebas. Berdasarkan pada peubah bebas waktu (t) sinyal dibedakan menjadi dua jenis, yaitu: a. Sinyal Analog

Sinyal analog adalah suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki semua nilai untuk setiap nilai waktu (dan atau setiap nilai ruang). Sinyal analog sering disebut sinyal kontinu untuk menggambarkan bahwa besaran itu memiliki nilai yang kontinu (tak terputus). Contoh grafik sinyal analog dapat dilihat pada Gambar 1.

b. Sinyal Diskret

Sinyal Diskret merupakan suatu besaran yang berubah dalam waktu dan atau dalam ruang dan yang memiliki nilai pada suatu titik-titik waktu tertentu. Jarak setiap titik waktu bisa saja berbeda-beda namun untuk kemudahan penurunan sifat matematikanya biasanya jarak antar titik waktu adalah sama. Contoh grafik sinyal diskret dapat dilihat pada Gambar 2.

Gambar 2 Sinyal diskret.

Digitalisasi gelombang suara

Gelombang suara yang ditangkap berupa sinyal analog. Sinyal analog harus diubah menjadi sinyal digital yang disebut proses digitalisasi. Proses digitalisasi suara terdiri atas dua tahap, yaitu sampling dan kuantisasi (Jurafsky & Martin 2000). Sampling adalah pengambilan nilai-nilai dalam jangka waktu tertentu. Sampling rate yang biasanya digunakan pada pengenalan suara ialah 8000 Hz sampai dengan 16.000 Hz (Jurafsky & Martin 2000). Hubungan panjang vektor yang dihasilkan, sampling rate dan panjang data suara yang digitalisasikan dinyatakan dengan persamaan:

S = F_s x T (1) Keterangan:

S = panjang vektor

Fs = sampling rate yang digunakan (Hertz) T = panjang suara (detik)

Setelah tahap sampling maka proses selanjutnya adalah proses kuantisasi. Proses ini menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit (Jurafsky & Martin 2000).

Ekstraksi Ciri

Ekstraksi ciri merupakan proses menentukan suatu nilai atau vektor yang dapat dipergunakan sebegai penciri objek atau individu. Banyak metode yang ada untuk ekstraksi ciri di antaranya Linier Predictive Coding (LPC), Mel Frequency Cepstrum Coefficients (MFCC), dan filter bank. Transform Wavelet Diskcet (TWD) adalah bagian dari filter bank selain Discret Fourier Transform (DFT), merupakan metode baru yang mempunyai karakteristik khusus yang sesuai untuk analisis sinyal, termasuk sinyal suara. Transformasi ini dapat digunakan untuk

memberikan informasi mengenai sinyal secara bersamaan dalam domain waktu dan frekuensi.

MFCC

Salah satu teknik ekstraksi ciri sinyal suara adalah teknik MFCC yang menghitung koefisien cepstral dengan mempertimbangkan persepsi sistem pendengaran manusia terhadap frekuensi suara. Teknik MFCC dapat merepresentasikan sinyal lebih baik dibandingkan LPC, LPCC dan yang lainnya dalam pengenalan suara (Buono 2009).

Teknik MFCC sebagai ekstraksi ciri dan teknik parameterisasi sinyal suara telah banyak digunakan pada berbagai bidang area pemrosesan suara. Gambar 6 merupakan diagram alur MFCC. Tahap-tahap dalam teknik MFCC lebih jelasnya yaitu sebagai berikut :

Gambar 3 Diagram alur MFCC. (Buono 2009)

a. Frame blocking

Untuk keperluan pemrosesan, sinyal analog yang sudah melalui proses sampling dan kuantisasi (digitasi suara) dibaca dari frame demi frame dengan lebar tertentu yang saling tumpang tindih (overlap). Proses ini dikenal dengan frame blocking.

b. Windowing

Setiap frame mengandung satu unit informasi, sehingga barisan frame akan menyimpan suatu informasi yang lengkap

dari sebuah sinyal suara. Untuk itu, distorsi antar frame harus diminimalisasi. Salah satu teknik untuk meminimalkan distorsi antar frame adalah dengan melakukan proses filtering pada setiap frame. Pada penelitian kali ini jenis filter yang digunakan yaitu Windowing karena pemrosesan sinyal yang akan dilakukan dalam domain frekuensi. Proses windowing dilakukan pada setiap frame. Dalam hal ini sinyal digital dikalikan dengan fungsi window tertentu yang berukuran sama dengan ukuran frame. Jika sinyal digital frame ke-i adalah xi dan fungsi window yang digunakan adalah wi, maka output windowing frame ke-i adalah perkalian skalar antara vektor xi dengan wi. Fungsi window yang digunakan pada penelitian ini adalah Hamming karena memiliki ekspersi matematika yang cukup sederhana.

c. Transformasi Fourier

Analisis Fourier merupakan suatu teknik matematika untuk mendekomposisi sinyal menjadi sinyal-sinyal sinusoidal. Untuk dapat melihat perbedaan sinyal suara yang berbeda-beda maka harus dilihat dari domain frekuensi karena jika dilihat dari domain waktu sulit terlihat perbedaannya. Untuk itu dari sinyal suara yang berada pada domain waktu diubah ke domain frekuensi dengan Fast Fourier Transform (FFT). FFT merupakan suatu algoritme untuk mengimplementasikan Discrete Fourier Transform (DFT) (Do 1994).

d. Mel frequency wrapping

Persepsi sistem pendengaran manusia terhadap frekuensi sinyal suara ternyata tidak hanya bersifat linear. Oleh karena itu, untuk setiap nada dengan frekuensi aktual f (dalam Hertz) tinggi subjektifnya diukur dengan skala mel (Melody). Skala mel-frequency adalah selang frekuensi di bawah 1000Hz bersifat linear dan untuk selang frekuensi di atas 1000Hz bersifat logaritmik (Do 1994).

e. Transformasi Kosinus

Langkah terakhir yaitu mengkonversikan log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients. Cara untuk mengkonversikan log mel spectrum ke bentuk domain waktu yaitu dengan menggunakan Discrete Cosine Transform (DCT).

Transformasi Wavelet Daubechies

Transformasi adalah proses merepresentasikan suatu sinyal ke dalam domain atau kawasan lain. Tujuan dari transformasi adalah untuk lebih menonjolkan sifat atau karakteristik sinyal tersebut.

Definisi Wavelet (secara harfiah berarti “gelombang kecil”) adalah himpunan fungsi dalam ruang vektor L²I, yang mempunyai sifat-sifat sebagai berikut (Burrus et al,1998): - berenergi terbatas

- merupakan fungsi band-pass pada domain frekuensi

- merupakan hasil penggeseran (translasi) dan penskala (dilatasi) dari sebuah fungsi tunggal (induk) yang ditujukan oleh persamaan berikut.

(2)

Dengan a,b ∈ R (bilangan nyata), dan a ≠ 0. dalam hal ini a adalah parameter penskala dan b adalah parameter penggeser posisi terhadap sumbu t. Pada dasarnya, transformasi Wavelet merupakan sebuah teknik pemrosesan sinyal multiresolusi. Dengan sifat penskalaannya, wavelet dapat memilah-milah suatu sinyal data berdasarkan komponen frekuensi yang berbeda-beda. Dengan demikian tiap-tiap bagian dapat dipelajari berdasarkan skala resolusi yang sesuai, sehingga diperoleh gambaran data secara keseluruhan dan detail.

Teori Wavelet didasari oleh pembangkitan sejumlah tapis (filter) dengan cara menggeser dan menskala suatu wavelet induk (mother wavelet) berupa tapis pelewat tengah (band-pass filter). Dengan demikian hanya diperlukan pembangkitan sebuah tapis. Tapis lain mengikuti aturan penskalaan, baik pada kawasan waktu maupun kawasan frekuensi. Penambahan skala Wavelet akan meningkatkan durasi waktu, mengurangi lebar bidang dan menggeser frekuensi pusat ke nilai frekuensi yang lebih rendah. Sebaliknya pengurangan skala menurunkan durasi waktu, menambah lebar bidang dan menggeser frekuensi ke nilai frekuensi yang lebih tinggi (Burrus et al, 1998)

Secara garis besar, transformasi Wavelet dibedakan menjadi dua, yaitu Transformasi Wavelet Kontinu (Continuous Wavelet Transform atau Integrated Wavelet Transform) dan Wavelet Diskret (Discret Wavelet Transform). Transformasi Wavelet kontinu mempunyai dua kelemahan, yaitu redudancy

dan ketidakpraktisan (Mallat 1999). Transformasi Wavelet diskret bertujuan mengurangi redudansi yang terjadi dengan teknik yang efisien yaitu dengan teknik analisis resolusi jamak (multi resolution analysis) yang dikembangkan Mallat tahun 1998.

Persamaan 3 merupakan hasil turunan dari persamaan transformasi Wavelet kontinu sehingga parameter skala kontinu adalah kebalikan (inversely) dari parameter skala binary dan hal inilah yang membuat muncul dalam persamaan di atas sebagai penyebut (denominator). Transformasi Wavelet Diskret yang digunakan adalah persamaan berikut (Gonzales 2000).

(3)

Sinyal masukan dilewatkan melalui 2 filter komplementer (low-pass H dan high-pass G), dan downsampling dengan membuang setiap data kedua, sehingga diperoleh koefisien pendekatan cA (komponen frekuensi rendah) dan koefisien detil cD (komponen frekuensi tinggi). Proses ini dapat diiterasi dengan cara melanjutkan dekomposisi terhadap koefisien cA. Dengan demikian suatu sinyal dapat dipecah (didekomposisi) menjadi komponen-komponen dengan resolusi yang lebih rendah.

Wavelet Daubechies secara historis berasal dari sistem Haar. Wavelet Daubechies ini merupakan karya gemilang dari Ingrid Daubechies (Agustini 2006).

(4) (5) (6) (7)

Persamaan (4, 5, 6, dan 7) merupakan empat persamaan dengan empat bilangan yang tidak diketahui yaitu h0, h1, h2, dan h3. Persamaan tersebut pertama kalinya diperkenalkan dan diselesaikan oleh Ingrid Daubechies, ditunjukkannya bahwa persamaan-persamaan ini mempunyai penyelesaian tunggal.

; ;

Matriks Transformasi ditemukan oleh Ingrid Daubechies yang memungkinkan melalui suatu sinyal dari resolusi 2^j ke resolusi 2^j+1. Untuk

menyederhanakannya, matriks ini disebut matriks DAUB (Agustini 2006).

(8) (9)

Pada persamaan (8) dan (9) dimana H berkaitan dengan suatu filter low pass dan G berkaitan dengan filter high pass. H dan G disebut filter konjugasi kuadratur.

(10) (11)

Dari persamaan (10) dan (11), dapat dibentuk suatu matriks transformasi yang mempunyai elemen-elemen h(n) dan g(n). Yang dapat dihitung dengan persamaan g(n) = (-1)ⁿ h((2N-1)-n). Jika N = 2 maka akan diperoleh:

g(0) = h(3); g(1) = -h(2); g(2) = h(1); g(3) = -h(0);

Dengan mengganti variabel-variabel yang bersesuaian, akan diperoleh matriks DAUB4 dengan empat koefisien (Agustini 2006).

Gambar 4 Matriks transformasi

Jaringan Syaraf Tiruan

Jaringan syaraf tiruan adalah sistem pemroses informasi yang memiliki karakteristik mirip dengan jaringan syaraf biologi (Siang 2005). JST dibentuk sebagai generalisasi model matematika dari jaringan syaraf biologi, dengan asumsi bahwa :

• Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron)

• Sinyal dikirimkan di antara neuron melalui penghubung-penghubung

• Penghubung antar neuron memiliki bobot yang akan memperkuat atau memperlemah sinyal

• Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi (biasanya bukan fungsi linear) yang dikenakan pada jumlah input yang diterima untuk menentukan keluarannya.

Jaringan syaraf tiruan juga dikenal sebagai black box technology atau tidak transparan karena tidak dapat menerangkan bagaimana suatu hasil didapatkan. Hal inilah yang membuat jaringan syaraf tiruan mampu digunakan untuk menyelesaikan persoalan yang tidak terstruktur dan sulit didefinisikan (Hermawan 2006). JST ditentukan oleh tiga hal: 1. Pola hubungan neuron (arsitektur jaringan) 2. Metode untuk menentukan bobot

penghubung (metode training atau learning) 3. Fungsi Aktivasi

Fungsi aktivasi akan menghitung input yang diterima oleh suatu neuron, kemudian neuron tersebut meneruskan hasil dari fungsi aktivasi ke neuron berikutnya, sehingga fungsi aktivasi berfungsi sebagai penentu kuat lemahnya sinyal yang dikeluarkan oleh suatu neuron. Salah satu fungsi aktivasi yang digunakan dalam JST propagasi balik adalah fungsi sigmoid biner, yaitu fungsi biner yang memiliki rentang nol sampai dengan satu dengan persamaan sebagai berikut :

(12)

Gambar 5 Sigmoid biner pada selang [0,1]. Backpropagation merupakan salah satu model JST untuk pencocokan pola yang menggunakan arsitektur multi layer perceptron dan pembelajaran terbimbing. Walaupun JST Backpropagation membutuhkan waktu yang lama untuk pembelajaran tetapi bila pembelajaran telah selesai dilakukan, JST akan dapat mengenali suatu pola dengan cepat. Jaringan Multi Layer adalah karakteristik dari JST Backpropagation yang mempunyai lapisan input, lapisan tersembunyi dan lapisan output dan setiap neuron pada satu lapisan menerima input dari semua neuron pada lapisan sebelumnya. Gambar 6 menunjukkan arsitektur multilayer perceptron.

Secara garis besar proses backpropagation adalah sebagai berikut: ketika JST diberikan pola masukan sebagai pola pelatihan maka pola tersebut menuju ke unit-unit pada lapis tersembunyi untuk diteruskan ke unit-unit lapis keluaran. Kemudian unit-unit lapis keluaran memberikan tanggapan yang disebut sebagai

keluaran JST. Saat keluaran JST tidak sama dengan keluaran yang diharapkan maka keluaran akan disebarkan mundur (backward) pada lapis tersembunyi diteruskan ke unit pada lapis masukan.

Gambar 6 Arsitektur Multilayer Perceptron. Dalam pelatihan JST backpropagation ini terdapat algoritme pelatihan yang terdiri dari dua tahapan, yaitu feedforward dan backpropagtion.

1. Feedforward

Pada lapisan input setiap elemen vektor input akan diterima oleh sebuah neuron sehingga jumlah neuron pada lapisan ini akan sama dengan banyaknya elemen vektor input. Lapisan input memiliki fungsi pengaktifan berupa fungsi identitas sehinggga hanya berfungsi meneruskan input yang diterima ke lapisan berikutnya.

Lapisan tersembunyi akan menerima output yang dikeluarkan oleh lapisan input. Setiap neuron pada lapisan tersembunyi menerima input dari seluruh neuron pada lapisan input dikalikan dengan bobotnya. Input yang masuk dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron pada lapisan tersembunyi. Banyaknya neuron pada lapisan tersembunyi dapat bervariasi dan dapat dianggap cukup jika JST dapat mengenali pola-pola yang ada dengan cukup baik.

Lapisan output akan menerima output yang dikeluarkan oleh lapisan tersembunyi. Setiap neuron pada lapisan output menerima input dari seluruh neuron pada lapisan tersembunyi dikalikan dengan bobotnya. Input yang masuk juga dihitung dengan suatu fungsi pengaktifan dan hasil dari fungsi pengaktifan ini akan menjadi output tiap neuron. Untuk kemudahan dan hasil yang lebih baik jumlah neuron pada lapisan output dapat ditentukan sama dengan jumlah pola yang ada. Fase dari pertama kali

masuk dalam lapisan input sampai lapisan output memberikan hasil merupakan fase feedforward (Fu 1994).

2. Backpropagation

Jika telah diperoleh hasil pada lapisan output maka hasil ini akan dibandingkan dengan target pasangan untuk data yang masuk. Dari perbedaan nilai antara target yang diinginkan dengan hasil saat ini dapat dihitung suatu nilai kesalahan. Untuk seluruh data yang ada dapat dihitung suatu nilai total kesalahan. Fase ini merupakan fase kalkulasi error. Nilai error yang diperoleh akan digunakan untuk memperbaiki nilai bobot-bobot pada JST sehingga JST akan semakin baik mengenali pola-pola yang ada. Fase ini disebut dengan fase penyesuaian bobot.

Setelah bobot-bobot diperbaiki data pembelajaran kembali di-input-kan dalam jaringan dan kembali diperoleh nilai error dan bobot akan kembali diperbaiki sehingga pembelajaran akan bersifat iteratif. Fase pembelajaran yang di-input-kan kembali dengan bobot yang telah diperbaiki ini disebut fase backpropagation (Fu 1994).

Iterasi dapat dihentikan jika kriteria error tertentu dipenuhi atau jumlah epoch (satu cycle seluruh data pembelajaran melewati jaringan) tertentu dipenuhi. Kriteria henti dengan menggunakan suatu nilai error tertentu mengimplikasikan jika nilai error cukup kecil maka jaringan akan cukup baik untuk mengenali pola-pola yang ada. Namun nilai error yang terlalu kecil akan membuat jaringan terlalu spesifik mengenali pola-pola pembelajaran (overtrained) dan kemampuannya mengenali pola-pola baru yang serupa tetapi tdak identik dengan pola pembelajaran akan menurun (Fu 1994).

Fonem

Fonem merupakan satuan bunyi terkecil yang mampu menunjukkan kontras makna (Depdikbud 2003). Fonem dibagi menjadi dua, yaitu:

1. Fonem vokal merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru tidak terkena hambatan atau halangan. Jumlah fonem vokal ada lima yaitu: a, i, u, e, dan o.

2. Fonem konsonan merupakan bunyi ujaran akibat adanya udara yang keluar dari paru-paru mendapatkan hambatan atau halangan. Jumlah fonem konsonan ada 21 buah yaitu: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, dan z.

METODOLOGI

Pada bab ini akan dijelaskan mengenai tahapan-tahapan yang akan dilakukan dalam penelitian. Tahapan akan dimulai dari proses pencarian dan pengumpulan data, kemudian mempelajari data yang ada untuk digunakan pada tahap pelatihan dan pengujian. Gambar 7 adalah ilustrasi tahapan metodologi penelitian yang digambarkan dengan diagram alur penelitian.

Gambar 7 Diagram alur penelitian.

Data Suara

Penelitian ini dilakukan dengan mengambil data suara dari satu orang (speaker dependent) dengan satu kata sebanyak 16 kali (“coba”, ”fana”, ”gajah”, ”jaya”, ”pacu”, ”malu”,

”quran”, ”tip-x”, ”visa”, ”weda”, ”zakat”). Dengan demikian, total data suara yang akan dikumpulkan yakni sebanyak 176 kata. Pengambilan data suara menggunakan software Audacity. Setiap pengucapan direkam dengan rentang waktu satu detik dengan nilai sampling rate 12000 Hz.

Penghapusan silence

Data suara yang sudah didapat harus melalui tahap praproses terlebih dahulu. Tahapan praproses terdiri atas standardisasi suara dan penghapusan silence. Silence merupakan bagian ‘diam’ yang biasanya terdapat pada saat awal dan akhir perekaman suara. Berikut ilustrasinya:

Gambar 8 Ilustrasi pemotongan silence.

Normalisasi

Setiap rekaman suara memiliki nilai range amplitudo yang berbeda-beda. Oleh karena itu, semua data suara dinormalisasi dengan cara membagi setiap nilai dengan nilai maksimum pada data masing-masing suara sehingga didapatkan range nilai amplitudo suara yang sama.

Segmentasi Sinyal

Tahap segmentasi sinyal merupakan tahap dimana setiap fonem dari kata-kata yang ada akan dipisahkan secara manual menggunakan Audacity. Segmentasi dari semua kata-kata tersebut dapat dihasilkan 26 fonem yakni a sampai z.

Data Latih dan Data Uji

Data dibagi menjadi data latih dan data uji. Proporsi data latih dan data uji yaitu 75%:25%. Data uji yang digunakan yaitu data tanpa penambahan noise dan data yang ditambah noise 30 dB, 20 dB, dan 10 dB.

Proses ekstrasi ciri

Data suara yang sudah direkam dan dihapus silence disegmentasi terlebih dahulu menjadi beberapa bagian fonem tunggal. Hasilnya masih terlalu besar jika diproses untuk pengenalan

pola maka dilakukan proses ekstraksi ciri yang merupakan proses menentukan suatu nilai atau vektor yang dapat digunakan sebagai penciri objek atau individu. Metode ekstraksi ciri yang digunakan yaitu Wavelet Daubechies dan MFCC.

Ekstraksi Ciri (MFCC dan Wavelet)

Tahap ekstraksi ciri merupakan tahap untuk menentukan vektor penciri dan biasanya menggunakan koefisien cepstral. Proses yang dilakukan pada tahap ini adalah Framing, windowing, penggunaan Fast Fourier Transform dan Transformasi Wavelet daubechies, Mel-Frequency Wrapping, dan Cepstrum. Proses MFCC dan transformasi Wavelet akan dibuat fungsi pada MATLAB yang membutuhkan lima parameter, yaitu : 1. Input suara merupakan data suara dijital

yang disimpan dalam format (.wav).

2. Sampling rate yaitu banyaknya nilai yang diambil dari setiap detik. Penelitian ini menggunakan sampling rate sebesar 12000 Hz.

3. Time frame yaitu waktu yang digunakan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. 4. Lap yaitu overlaping yang diinginkan (harus

kurang dari 100%). Lap yang digunakan pada penelitian ini adalah 50%.

5. Cepstral coefficient yaitu jumlah koefisien yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13. Setiap data suara dilakukan proses framing dimana masing-masing frame berukuran 30 ms dengan overlap 50% tanpa noise. Penelitian ini menggunakan 13 koefisien mel cepstrum untuk masing-masing frame. Hasil matriks ini yang merupakan masukan untuk pembelajaran JST.

Proses ekstraksi ciri dengan menggunakan Wavelet akan menghasilkan koefisien-koefisien (koefisien detail dan perkiraan) yang diperoleh dari hasil dekomposisi pada level 1. Pada penelitian ini koefisien yang diambil sebagai masukan ke proses selanjutnya adalah koefisien yang dihasilkan dari frekuensi rendah yaitu koefisien perkiraan (approximation) karena bagian penting dari suatu sinyal terletak pada frekuensi tersebut, yang mampu memberikan identitas dari suatu sinyal. Koefisien yang dihasilkan akan membentuk suatu vektor. Algoritme berikut adalah untuk mencari koefisien detail dan perkiraan pada proses multiple dekomposisi.

• Sinyal yang masuk difilter ke dalam sinyal frekuensi rendah (low-pass filter) dan sinyal frekuensi tinggi (high-pass filter)

• Lakukan downsampling pada kedua sinyal tersebut

• Low-pass frekuensi hasil downsampling selanjutnya melalui proses seperti pada tahap pertama

• Lakukan ulang sampai pada level yang diinginkan

Jika diilustrasikan dalam gambar terlihat pada Gambar 9.

Gambar 9 Proses multiple dekomposisi

Perata-rataan hasil MFCC dan Wavelet

Hasil MFCC dan Wavelet memiliki hasil berupa matriks ciri n×k, n adalah koefisien dan k adalah jumlah frame. Agar ukuran matriks sama untuk setiap fonem yakni berbentuk n×1 untuk setiap fonem, maka dilakukan proses perata-rataan koefisien pada setiap baris.

Pemodelan JST

Pembentukan model referensi fonem dilakukan menggunakan JST Backpropagation dengan arsitektur Multi Layer Perceptron, dengan satu lapisan tersembunyi. Jumlah neuron pada lapisan masukan disesuaikan dengan dimensi hasil ekstraksi ciri, sedangkan jumlah neuron pada lapisan tersembunyi akan dicobakan beberapa nilai sebagai perbandingan dan jumlah neuron pada lapisan keluaran sama dengan jumlah banyaknya fonem). Struktur JST dapat dilihat dalam Tabel 1 dan skema JST yang digunakan terdapat pada Lampiran 1.

Tabel 1 Struktur JST

Karakteristik Spesifikasi

Arsitektur 1 lapisan tersembunyi Neuron lapis masukan 13 (koefisien hasil ekstrasi ciri) Neuron lapis tersembunyi 200, 210, 220, 230, 240, 250 Neuron lapis keluaran 26 (banyaknya fonem)

Fungsi Aktivasi Sigmoid biner Toleransi galat 0,0003 Epoch maksimal 5000 Pembelajaran Traingdx Laju pembelajaran 0,01

Laju pembelajaran yg dipakai dalam penelitian ini adalah 0,01. Namun dengan pembelajaran traingdx, nlai laju pembelajaran dapat berubah-ubah karena mengalami rasio penurunan atau peningkatan nilai yang disesuaikan dengan kebutuhan selama pembelajaran berlangsung.

Jumlah epoch maksimal yang ditetapkan adalah 5000. Hal ini diperlukan sebagai kriteria henti jaringan di samping toleransi galat untuk membatasi waktu yang disediakan bagi jaringan dalam melakukan pembelajaran.

Target menggunakan nilai satu pada neuron lapisan keluaran untuk fonem yang bersesuaian. Misalnya untuk target dengan nilai elemen pertama satu maka target tersebut menunjukkan kelas pertama. Pendefinisian target terdapat pada Lampiran 2.

Pengujian model JST

Pada proses identifikasi, pembuatan keputusan dilakukan dengan metode nilai maksimum. Jika neuron output ke-n merupakan neuron dengan nilai maksimum maka data yang masuk dikenali sebagai fonem ke-n. Sebagai contoh jika neuron pertama pada lapisan output bernilai satu maka input diidentifikasi sebagai fonem pertama yaitu a.

Analisis akurasi

Dari hasil pengujian, dapat diketahui berapa nilai akurasi yang didapat untuk penelitian pengenalan fonem ini. Nilai akurasi menunjukkan seberapa besar keberhasilan penerapan metode MFCC dan transformasi Wavelet untuk ekstrasi ciri pada pengenalan

Dalam dokumen Perbandingan pemodelan Wavelet dan MFCC sebagai ekstraksi ciri pada pengenalan fonem dengan teknik jaringan syaraf tiruan sebagai classifier (Halaman 30-37)