Penerapan Hidden Markov Model Untuk Pengenalan Ucapan

(1)

SKRIPSI

NADIA WIDARI NASUTION

110803016

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

(2)

PENERAPAN HIDDEN MARKOV MODEL

UNTUK PENGENALAN UCAPAN

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains

NADIA WIDARI NASUTION 110803016

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

(3)

PERSETUJUAN

Judul : PENERAPAN HIDDEN MARKOV MODEL

UNTUK PENGENALAN UCAPAN

Kategori : Skripsi

Nama : NADIA WIDARI NASUTION

Nomor Induk Mahasiswa : 110803016

Program Studi : SARJANA (S1) MATEMATIKA

Departemen : MATEMATIKA

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN

ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di Medan, April 2015

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Sawaluddin, M.IT Dra. Normalina Napitupulu, M.Sc NIP.19591231 199802 1 001 NIP.19631106 198902 2 001

Diketahui/Disetujui oleh

Departemen Matematika FMIPA USU Ketua

Prof. Dr. Tulus, M.Si

(4)

PERNYATAAN

PENERAPAN HIDDEN MARKOV MODEL UNTUK PENGENALAN UCAPAN

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, April 2015

(5)

PENGHARGAAN

Puji syukur kehadirat Allah SWT Yang Maha Pemurah dan Maha Penyayang, dengan limpahan karunia-Nya, skripsi ini berhasil diselesaikan dalam waktu yang telah ditetapkan. Shalawat beriring salam kepada Rasulullah SAW, sebagai rahmatan lil’alamin.

Ucapan terima kasih penulis sampaikan kepada Ibu Dra. Normalina Napitupulu, M.Sc dan Bapak Dr. Sawaluddin, M.IT selaku pembimbing yang telah memberikan panduan dan penuh kepercayaan kepada penulis untuk menyempurnakan skripsi ini. Bapak Drs. Marihat Situmorang, M.Kom dan Bapak Dr. Suyanto, M.Kom selaku penguji yang telah memberikan kritikan dan saran yang membangun dalam penyempurnaan skripsi ini. Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara. Ketua dan Sekretaris Departemen Matematika Bapak Prof. Dr. Tulus, M.Si dan Ibu Dr. Mardiningsih, M.Si. Seluruh staf pengajar dan staf administrasi di lingkungan Departemen Matematika, serta seluruh civitas akademika di lingkungan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.

Ucapan terima kasih juga ditujukan kepada kedua orang tua penulis tercinta, Ayahanda Muhammad Daud Nasution, S.H dan Ibunda Winarti yang telah memberikan banyak bantuan baik materi, moral maupun spiritual. Kepada adik-adik penulis, Iqbal Naufal Khalis Nasution dan Rohid Zaidan Nasution. Penulis juga mengucapkan banyak terima kasih kepada teman-teman yang banyak memberikan masukan kepada penulis dalam menyelesaikan skripsi ini dan menyelesaikan studi di Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.

Tidak terlupakan, ucapan terima kasih kepada teman-teman stambuk 2011, teman-teman di Himpunan Mahasiswa Matematika, teman-teman di Ikatan Mahasiswa Matematika Muslim diFakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, dan kepada semua pihak yang telah memberikan bantuan dan dorongan yang tidak dapat disebutkan satu per satu.

(6)

PENERAPAN HIDDEN MARKOV MODEL

UNTUK PENGENALAN UCAPAN

ABSTRAK

Pengenalan ucapan adalah suatu proses yang dilakukan komputer untuk mengenali kata-kata yang diucapkan oleh seseorang tanpa memperdulikan identitas orang terkait. Kata-kata tersebut akan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Pada tulisan ini dibahas tentang bagaimana pengenalan ucapan menggunakan metode Hidden Markov Model(HMM). HMM adalah suatu model statistik dari sebuah sistem yang diasumsikan sebuah proses Markov dengan parameter-parameter yang tidak diketahui dan memiliki ketepatan dalam identifikasi suara. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi, yaitu menggunakan software Microsoft Speech Application Programming Interface.

(7)

THE APPLICATION OF HIDDEN MARKOV MODEL FOR SPEECH RECOGNITION

ABSTRACT

Speech recognition is a process that is done the computer to recognize words spoken by a person without regard to the identity of persons.The words will be transformed into digital signals by converting sound waves into a set of numbers and then adjusted with certain codes and matched with a pattern stored in a device. In this paper discussed about how speech recognition using hidden Markov Model (HMM). HMM is a statistical model of a system that is assumed to be a Markov process with parameters that are unknown and has accuracy in voice identification. The result of the identification of the spoken word can be displayed in written form or can be read by the device technology, which uses software Microsoft Speech Application Programming Interface.

(8)

DAFTAR ISI

Halaman

PERSETUJUAN iii

PERNYATAAN iv

PENGHARGAAN v

ABSTRAK vi

ABSTRACT vii

DAFTAR ISI viii

DAFTAR GAMBAR x

DAFTAR TABEL xi

DAFTAR SINGKATAN xii

BAB 1 PENDAHULUAN

1.1.Latar Belakang 1

1.2.Rumusan Masalah 2

1.3.Batasan Masalah 2

1.4.Tinjauan Pustaka 3

1.5.Tujuan Penelitian 6

1.6.Manfaat Penelitian 6

1.7.Metodologi Penelitian 7

BAB 2 LANDASAN TEORI

2.1.Suara 8

2.2.Proses Sinyal Suara 10

2.2.1. Pulse Code Modulation 10

2.2.2. Delta Modulation 18

2.3.Pengenalan Ucapan 19

2.4.Tahapan-Tahapan dalam Pengenalan Ucapan 21

2.3.1. Ekstraksi Fitur 22

2.3.2. Pemodelan Akustik 26

2.3.3. Pemodelan Ucapan 27

2.3.4. Model Bahasa 29

2.3.5. Decoder 31

2.5.Hidden Markov Model (HMM) 31

2.4.1. Tipe HMM 32

2.4.2. Elemen HMM 33

2.4.3. Fungsi Rekursif HMM 35

2.6.Contoh Penyelesaian Rantai Markov pada Kasus Cuaca 38 2.7.Contoh Penyelesaian Hidden Markov Model pada Kasus Cuaca 40

2.8.Microsoft Speech API 42

BAB 3 PEMBAHASAN

(9)

3.1.1 Flowchart Proses Suara 45

3.1.2 Flowchart Pemodelan HMM 46

3.2.Perancangan Perangkat Lunak 47

3.3.SoftwareMicrosoft Speech API 47

3.4.Halaman Perekaman 51

3.5.Halaman Hasil 52

BAB 4 KESIMPULAN DAN SARAN

4.1.Kesimpulan 53

4.2.Saran 53

(10)

DAFTAR GAMBAR

Nomor Judul Halaman

Gambar

1.1. Rantai Markov 3

1.2. Blok diagram untuk sistem pengenalan ucapan 5

2.1. Organ Pernapasan Manusia 9

2.2 Pengkodean PCM 11

2.3 Pencacahan dengan berbagai frekuensi pencacah 12

2.4 Pencacahan natural dan sample and hold 14

2.5 Proses kuantisasi 15

2.6 Ilustrasi Delta Modulation (DM) 18

2.7. Blok diagram untuk sistem pengenalan ucapan 22

2.8. Blok diagram LPC 23

2.9. Rantai Markov 27

2.10. HMM model basis phone 28

2.11. HMM model ergodic 32

2.12. HMM model kiri-kanan 33

2.13. Contoh Hidden Markov Model (HMM) 34

2.14. Ilustrasi Alur Algoritma Forward 35

2.15. Ilustrasi Alur Algoritma Backward 36

2.16. Ilustrasi Perhitungan pada Algoritma Baum-Welch 38

2.17. Rantai Markov pada kasus cuaca 39

2.18. Arsitektur Microsoft Speech Application Programming Interface 43

3.1. Flowchart Proses Suara 45

3.2. Flowchart Pemodelan HMM 46

3.3. Tampilan Utama Windows Speech Recognition 48

3.4. Jenis microphone 48

3.5. Set up microphone 49

3.6. Read the following the sentence 49

3.7. Microphone is now set up 50

3.8. Run Speech Recognition 50

3.9. Tampilan Speech Dictionary 51

3.10. Tampilan menambahkan kata yang akan diucapkan 51

(11)

DAFTAR TABEL

Nomor Judul Halaman

Tabel

2.1. Pengkodean digital 16

(12)

DAFTAR SINGKATAN

HMM = Hidden Markov Model

ASR = Automatic Speech Recognition LPC = Linear Prediction Coding ANN = Artificial Neural Network DBN = Dinamic Bayesian Network SVM = Supported Vectoc Machine

API = Application Programming Interface SDK = System Development Kit

PAM = Pulse Amplitudo Modulation PCM = Pulse Code Modulation DM = Delta Modulation SNR = Signal to Noise Ratio

(13)

PENERAPAN HIDDEN MARKOV MODEL

UNTUK PENGENALAN UCAPAN

ABSTRAK

Pengenalan ucapan adalah suatu proses yang dilakukan komputer untuk mengenali kata-kata yang diucapkan oleh seseorang tanpa memperdulikan identitas orang terkait. Kata-kata tersebut akan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Pada tulisan ini dibahas tentang bagaimana pengenalan ucapan menggunakan metode Hidden Markov Model(HMM). HMM adalah suatu model statistik dari sebuah sistem yang diasumsikan sebuah proses Markov dengan parameter-parameter yang tidak diketahui dan memiliki ketepatan dalam identifikasi suara. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi, yaitu menggunakan software Microsoft Speech Application Programming Interface.

(14)

THE APPLICATION OF HIDDEN MARKOV MODEL FOR SPEECH RECOGNITION

ABSTRACT

Speech recognition is a process that is done the computer to recognize words spoken by a person without regard to the identity of persons.The words will be transformed into digital signals by converting sound waves into a set of numbers and then adjusted with certain codes and matched with a pattern stored in a device. In this paper discussed about how speech recognition using hidden Markov Model (HMM). HMM is a statistical model of a system that is assumed to be a Markov process with parameters that are unknown and has accuracy in voice identification. The result of the identification of the spoken word can be displayed in written form or can be read by the device technology, which uses software Microsoft Speech Application Programming Interface.

(15)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Seiring dengan berkembangnya teknologi informasi, aplikasi pengolah kata merupakan sarana kebutuhan sehari-hari bagi kalangan pengguna komputer. Teknologi ini yang memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan.

Untuk dapat mengenali ucapan dari pembicara, komputer perlu diberi kecerdasan sehingga dari ucapan yang diterima oleh komputer akan direspons atau mendapatkan tanggapan yang sesuai.

Pengenalan ucapan adalah proses yang dilakukan komputer untuk mengenali kata yang diucapkan oleh seseorang tanpa memperdulikan identitas orang terkait. Pengenalan ucapan juga dikenal sebagai Automatic Speech Recognition (ASR). ASR merupakan pengenalan ucapan komputer yang berarti suara pemahaman komputer dan melakukan setiap tugas yang diperlukan atau kemampuan untuk mencocokkan suara terhadap kosakata yang tersedia atau diperoleh (Saini dan Kaur, 2013).

Penelitian pengenalan ucapan ini menggunakan Model Markov Tersembunyi atau biasa disebut Hidden Markov Model (HMM)karena memiliki ketepatan yang tinggi untuk identifikasi suara.

(16)

Parameter-parameter yang ditentukan kemudian dapat digunakan untuk analisis yang lebih jauh, misalnya untuk aplikasi pattern recognition(Monika, 2012).

Berdasarkan uraian tersebut, penulis memilih judul “Penerapan

Hidden Markov Model untuk Pengenalan Ucapan.“

1.2. Rumusan Masalah

Masalah dalam penelitian ini adalah sebagai berikut:

1. Bagaimana tahapan-tahapan dalam merancang sistem pengenalan ucapan (speech recognition).

2. Bagaimana mencocokan perintah suara yang dibuat agar komputer dapat mengenali dan memahami kata-kata yang diucapkan.

3. Bagaimana melakukan uji coba dan analisis terhadap parameter-parameter yang berpengaruh terhadap pengenalan ucapan (speech recognition).

1.3. Batasan Masalah

Batasan-batasan masalah dalam penelitian ini adalah sebagai berikut:

1. Perintah suara yang dibuat dalam penelitian ini hanya mampu mengenali kata yang diucapkan melalui hardware yaitu mikrophone dengan bantuan soundcard yang terdapat pada komputer.

2. Pengucapan bunyi (lafal) dilakukan oleh orang yang tidak mengalami cacat artikulasi (orang normal).

3. Kata yang diucapkan dalam penelitian ini adalah “open notepad” untuk

membuka aplikasi komputer

(17)

1.4. Tinjauan Pustaka

Hidden Markov Model (HMM) adalah suatu model statistik dari sebuah sistem yang diasumsikan sebuah proses Markov dengan parameter yang tidak diketahui. Kita harus menentukan parameter-parameter tersembunyi

(state) dari parameter-parameter yang dapat diamati. Parameter-parameter yang ditentukan kemudian dapat digunakan untuk analisis yang lebih jauh,

misalnya untuk aplikasi pattern recognition (Monika, 2012).

HMM pada dasarnya perluasan dari rantai Markov yang merupakan model stokastik. Biasanya dalam model Markov setiap keadaan (state) dapat terlihat langsung oleh pengamatan, sehingga kemungkinan transisi antara keadaan menjadi satu-satunya parameter yang teramati.

Rabiner (1989) mengemukakan bahwa transisi pada Rantai Markov yaitu:

a. Transisi dari suatu keadaan tergantung pada keadaan sebelumnya. (1.1) b. Transisi keadaan bebas terhadap waktu.

(1.2)

Berikut ini adalah contoh gambar dari rantai Markov.

Gambar 1.1. Rantai Markov Sumber: (Monika, 2012) 13

a

31 a

12 a

21 a

32 a

23 a

33

a a22

11 a

1

2 3

] |

[ ...] |

|

[q_t S_j q_t ₁ S_i q_t ₂ S_k P q_t S_j q_t ₁ S_i

P = ₋ = ₋ = = = ₋ =

] |

[q S q ₁ i P

(18)

Hidden Markov Model(HMM) terdiri dari keadaan (state), peluang transisi (state probabilities), peluang emisi (emission probabilities), dan peluang awal(initial probabilities).

HMM didefinisikan sebagai berikut:

1. N, jumlah state dalam model yang didefinisikan oleh

{

S SN

}

S = ₁,...,

2. M, jumlah simbol pengamatan yang berbeda tiap state, misalnya ukuran alfabet diskrit didefinisikan oleh V =

{

v1,...,v_M

}

. Jika pengamatankontinu

maka M adalah tak terbatas.

3. Distribusi peluang keadaan transisi A=

{ }

a_ij , dimana a_ij adalah

distribusi yang state pada waktu t+1adalahS_j, diberikan ketika keadaan

pada waktut adalah

i

S . Struktur matriks stokastik ini mendefinisikan

hubungan struktur model.

[

t 1 j | t i

]

,

ij pq S q S

a = ₊ = = 1≤i,

j

≤

N

(1.3)

4. Distribusi peluang simbol pengamatan pada masing-masing state j,

{

b (k)

}

B= _j dimanab_j(k)adalah peluang yang simbol V_kdiemisi dalam

keadaan j

S .

[

|

]

,

)

( _t _k _t _j

j k pO V q S

b = = = 1≤ j≤N,1≤k≤M (1.4)

jika pengamatankontinu, maka kita harus menggunakan fungsi kepadatan peluang kontinu.

5. Distribusi keadaan awal π =

{ }

π_i dimana π_iadalah peluang bahwa model

tersebut berada dalam keadaan S_i pada waktu t=0 didefinisikan oleh

{

q₁ i

}

, p

i = =

π 1≤i≤N (1.5)

Hidden Markov Model (HMM) dapat dituliskan sebagai

) , ,

( π

λ= A B . Dengan diketahuinya parameter-parameter N,M,A,B,

(19)

Sistem pengenalan ucapan (speech recognition) terdiri dari 5 blok, yaitu: ekstraksi fitur (feature extraction), pemodelan akustik (acoustic modelling), pemodelan pengucapan (pronounciation modelling), model bahasa (language model), dan decoder.

Blok diagram untuk sistem pengenalan ucapan adalah sebagai berikut:

Gambar 1.2. Blok diagram untuk sistem pengenalan ucapan Sumber : (Gales dan Young, 2007)

Pengenalan ucapan juga dikenal sebagai Automatic Speech Recognition (ASR). ASR merupakan pengenalan ucapan komputer yang berarti suara pemahaman komputer dan melakukan setiap tugas yang diperlukan atau kemampuan untuk mencocokkan suara terhadap kosakata

yang tersedia atau diperoleh.

Dalam sistem pengenalan ucapan automatis (automatic speech recognition)berbasis statistik, ucapan diwakili oleh beberapa urutan

pengamatan fitur akustik O, berasal dari urutan kata-kata W. Gelombang

input audio dari sebuah mikrophone dikonversikan menjadi sebuah urutan

vektor akustik O₁_:_T =O₁,...,O_T dalam proses yang disebut ekstraksi fitur

(fitur extraction). Decoder kemudian berusaha untuk menemukan urutan

kata-kata W₁_:_L =W₁,...,W_L.

Sinyal akustik dirumuskan oleh:

(1.6)

)} | ( { max

arg PW O

W

w

=

Language Model Feature

Extraction Decoder

Acoustic Modelling

Pronounciation Modelling Speech

Feature Vectors

...

O W

“Stop that.”

(20)

Akan tetapi, karena P(W|O) sulit untuk dimodelkan secara

langsung, maka dapat menggunakan aturan Baye (Baye’s Rule) dapat ditulis sebagai berikut:

(1.7)

Dalam persamaan (1.7), P(O|W)adalah probabilitas pengamatan

dan dievaluasi berdasarkan pemodelan akustik (acoustic

modelling)sedangkan P(W)ditentukan oleh model bahasa (languange

model) dan diperoleh dari Hidden Markov Model(HMM). Di antara berbagai model, HMM sejauh ini merupakan teknik yang paling banyak digunakan karena yang algoritma yang efisien untuk pengenalan ucapan (speech recognition)(Saini dan Kaur, 2013).

1.5. Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk mempermudah pengguna (user) dalam membuka aplikasi komputer secara cepat dengan tanpa mengklik icon.

1.6. Manfaat Penelitian

Manfaat dari penelitian ini adalah sebagai berikut:

1. Dapat menambah pengetahuan dan wawasan bagi masyarakat terutama

mahasiswa tentang pengenalan ucapan (speech recognition).

2. Dapat berguna bagi orang-orang yang mengalami kesulitan menggunakan tangan dalam mengetik.

) ( . ) | ( max

arg P O W PW

W

(21)

1.7. Metodologi Penelitian

Metode penelitian yang digunakan antara lain: 1. Studi Literatur

Penulis menggunakan metode ini untuk memperoleh informasi yang berkaitan dengan penelitian yang penulis buat, mengacu pada buku-buku pegangan, informasi yang didapat dari internet, jurnal-jurnal dan makalah-makalah yang membahas tentang pengenalan ucapan (speech recognition).

2. Perancangan dan Pembuatan Sistem

Proses perancangan merupakan suatu proses perencanaan bagaimana

sistem akan bekerja. Sistem akan dibuat dengan menggunakan perangkat lunak/ softwareMicrosoft Speech Application Programming Interface.

3. Pengujian dan Analisis Kerja Sistem

Pengujian dan anilisis kerja sistem dilakukan berdasarkan parameter-parameter yang dapat yang berpengaruh terhadap pengenalan ucapan (speech recognition), yaitu parameter jumlah pelatihan, jumlah parameter yang diekstrak, dialek pembicara, model HMM, dan jumlah state yang digunakan dalam sistem tersebut.

4. Penulisan Hasil Penelitian

(22)

BAB 2

LANDASAN TEORI

2.1. Suara

Suara adalah fenomena fisik yang dihasilkan oleh getaran suatu benda yang berupa sinyal analog dengan amplitudo yang berubah secara kontinu terhadap waktu. Suara merupakan gelombang yang mengandung sejumlah parameter (amplitudo, simpangan, frekuensi, spectrum), yang dapat menyebabkan suara yang satu berbeda dari suara lain. Suara beramplitudo lebih besar akan terdengar lebih keras. Suara dengan frekuensi lebih besar akan terdengar lebih tinggi. Sementara itu bisa juga ditemukan dua suara

yang beramplitudo dan berfrekuensi sama, misalnya biola dan piano dibunyikan secara bersamaan dengan tingkat kekerasaan dan nada yang

sama, namun telinga masih dapat membedakan mana yang suara piano dan mana yang suara biola. Ini terjadi karena suara memiliki warna suara. Warna suatu suara ditentukan oleh pola dasar dari gelombang suara (Nurlaily, 2009).

Perbedaan pola dasar gelombang bunyi biola dan piano antara lain disebabkan oleh perbedaan faktor resonansi yang timbul pada masing-masing instrumen. Demikian juga pada manusia, resonansi yang terjadi pada rongga mulut akan menimbulkan pola dasar gelombang bunyi yang berbeda-beda.

(23)

tertentu.Gerakan membuka dan menutup pita suara itu akan mengakibatkan arus udara dan udara yang berada di sekitar pita suara akan turun berubah tekanan dan ikut bergetar.

Adanya perubahan bentuk saluran suara yang terdiri dari rongga faring, rongga mulut dan rongga hidung akan menghasilkan bunyi bahasa yang berbeda-beda. Pada saat udara dari paru-paru dihembuskan, kedua pita suara dapat merapat atau merenggang. Jika kedua pita itu bergantian merapat atau merenggang dalam pembentukan suatu bunyi bahasa, maka bunyi bahasa yang dihasilkan terasa berat. Bunyi bahasa ini dinamakan bunyi bersuara (voiced). Jika kedua pita merenggang sehingga arus udara dapat lewat dengan mudah (ringan), maka bunyi bahasa ini umumnya dinamakan bunyi tak bersuara (unvoiced).

Gambar 2.1. Organ Pernapasan Manusia

(24)

2.2. Proses Sinyal Suara

Di sekitar kita, dalam kehidupan sehari-hari, sebenarnya lebih banyak sinyal yang direpresentasikan dalam bentuk analog daripada sinyal dalam bentuk digital. Misalnya, suara, cahaya, suhu, bau dan sebagainya. Namun sinyal-sinyal analog semacam itu akan lebih mudah disimpan, diolah, direproduksi kembali apabila disimpan dalam bentuk data digital. Sebagai contoh, Compact Disc yang dijual di pasaran dapat menampung sejumlah besar lagu adalah hasil konversi sinyal suara analog ke dalam bentuk digital. Film-film yang dapat dinikmati melalui DVD juga merupakan hasil dari rekayasa digital. Dan masih banyak lagi manfaat yang dapat kita rasakan saat ini dengan adanya teknologi digital (Mafisamin, 2014).

Untuk memperoleh data digital dibutuhkan suatu proses untuk mengubah sinyal analog menjadi data digital. Ada beberapa metode yang dapat digunakan, yaitu Pulse Code Modulation (PCM) dan Delta Modulation (DM).

2.2.1. Pulse Code Modulation (PCM)

(25)

Gambar 2.2. memberikan ilustrasi seluruh proses mengubah sinyal analog menjadi data digital dengan menggunakan PCM.

Gambar 2.2. Pengkodean PCM Sumber: (Mafisamin, 2014)

1. Proses pencacahan (sampling)

Proses pencacahan dilakukan dengan mencacah sinyal analog dalam periode waktu tertentu dirumuskan sebagai berikut:

(2.1) Keterangan :

= s

f frekuensi pencacahan

= s

T periode pencacahan

Semakin tinggi frekuensi pencacahan, atau semakin kecil periode pencacahan maka sinyal hasil cacahan akan semakin menyerupai sinyal analog asli. Sinyal hasil cacahan seringkali disebut juga istilah sinyal Pulse Amplitudo Modulation (PAM). Namun semakin tinggi frekuensi pencacahan membawa konsekuensi pada harga keseluruhan dalam proses pencacahan semakin mahal.

Sebaliknya menggunakan frekuensi pencacahan rendah akan menurunkan harga proses pencacahan tetapi mengandung konsekuensi pada represensitasi sinyal PAM yang kurang dapat mewakili sinyal analog asli.

Sinyal

Analog Pengkodean PCM

Data Digital

Pencacahan Kuantisasi Pengkodean 1101...001

s

s T

(26)

Proses pencacah dilakukan dengan didasarkan asumsi bahwa sinyal percakapan berada pada daerah frekuensi 300-3400 Hz.

Teori Nyquist menyebutkan bahwa frekuensi pencacah harus minimal dua kali frekuensi tertinggi (bukan bandwidth) yang dikandung oleh sinyal asli.

Dengan menggunakan representasi domain frekuensi tersebut kita dapat melihat frekuensi tertinggi yang dikandung oleh suatu sinyal. Karena itu dapat menarik acuan umum bahwa proses pencacahan hanya dapat dilakukan apabila sinyal memiliki bandwidth terbatas (band-limited). Apabila bandwidth dari suatu sinyal tak terbatas, maka pencacahan tidak dapat dilakukan. Dengan kata lain, akan dibutuhkan frekuensi tak terhingga untuk mencacah sinyal dengan bandwidth tak terbatas.

(27)

Efek dari variasi frekuensi pencacah ditunjukkan dalam Gambar 2.3. Gambar sebelah kanan atas adalah contoh pencacahan sinyal dengan menggunakan frekuensi pencacah sama dengan

frekuensi yang diisyaratkan oleh Nyquist, yaitu f_s =2f_max.

Gambar bawah sebelah kiri adalah pencacahan dengan frekuensi pencacah kurang dari syarat Nyquist. Karena jumlah sinyal pencacah kurang dari syarat minimal, maka sinyal pencacah tidak akan dapat merepresentasikan sinyal analog asli. Sedangkan pada gambar terakhir terlihat bahwa frekuensi pencacah jauh di atas syarat Nyquist, karena itu sinyal pencacah dapat merepresentasikan sinyal analog asli dengan sangat baik.

Contoh 1:

Dalam Gambar 2.3., sinyal memiliki frekuensi 1 Hz. Tentukan frekuensi pencacah yang dibutuhkan untuk mencacah sinyal tersebut.

Sesuai dengan kriteria Nyquist, maka frekuensi pencacah minimal

adalah f_s =2f_max, maka nilai f_s =2Hz. Frekuensi pencacah

tersebut adalah pencacah minimal. Apabila frekuensi pencacah

ditingkatkan menjadi 5 kali frekuensi maksimal, maka f_s =5Hz.

Seperti terlihat dalam Gambar 2.3, dengan menggunakan frekuensi pencacah 5 Hz, sinyal hasil sampling lebih menyerupai sinyal asli.

(28)

2. Proses kuantisasi

Pencacahan menghasilkan deretan pulsa PAM dengan amplitudo bervariasi dari nilai minimum tegangan sampai nilai maksimum tegangan sinyal analog asli. Jumlah variasi amplitudo tak terhingga. Karena itu langkah selanjutnya adalah melakukan proses kuantisasi amplitudo.

Gambar 2.4. Pencacahan natural dan sample and hold Sumber: (Mafisamin, 2014)

Lebar kuantisasi (∆) ditentukan dengan rumusan berikut:

L V V_max − _min =

∆ (2.2)

Keterangan:

max

V = tegangan maksimal dari sinyal analog asli

min

V = tegangan minimum yang dapat dicapai oleh

sinyal analog asli

L = jumlah level kuantisasi yang diinginkan

Ilustrasi proses kuantisasi dapat dilihat dalam gambar 2.4.

(29)

Apabila diinginkan level kuantisasi sebanyak 8 level, maka dengan menggunakan persamaan 2.2 didapatkan lebar kuantisasi

2

=

∆ volt. Normalisasi PAM dalam Gambar 2.4 adalah nilai

tegangan PAM hasil dari pencacahan dibagi dengan delta (∆).

Sedangkan normalisasi kuantisasi adalah hasil pembulatan normalisasi PAM ke level kuantisasi terdekat, dalam gambar level kuantisasi ditandai dengan garis terputus-putus yaitu pada:

. 5 , 3 ; 5 , 2 ; 5 , 1 ; 5 , 0 ; 5 , 0 ; 5 , 1 ; 5 , 2 ; 5 ,

3 ∆− ∆− ∆− ∆ ∆ ∆ ∆ ∆

−

PCM dengan lebar kuantisasi (∆) yang memiliki nilai tetap

seperti terlihat dalam gambar disebut dengan kuantisasi seragam

(uniform quantization). Dalam kasus yang lain, misalnya perubahan amplitudo sinyal analog lebih sering terjadi pada tegangan rendah, tidak digunakan kuantisasi seragam tetapi digunakan kuantisasi tidak seragam. Kuantisasi tidak seragam akan menghasilkan lebar kuantisasi berbeda-beda untuk setiap level kuantisasi. Berikut adalah gambar dari proses kuantisasi dan tabel pengkodean digital.

Gambar 2.5. Proses kuantisasi Sumber: (Mafisamin, 2014)

Normalisasi Amplitudo

Level Kuantisasi

(30)

Tabel 2.1. Pengkodean digital

Sumber: (Mafisamin, 2014)

Hal lain yang perlu mendapatkan perhatian khusus adalah adanya kesalahan kuantisasi akibat adanya pembulatan level tegangan PAM ke level kuantisasi terdekat. Nilai kesalahan dari setiap cacahan tidak akan melebihi ∆/2, karena itu kesalahan

kuantisasi akan berada pada nilai −∆/2≤kesalahan kuantisasi

2 /

∆

≤ . Kesalahan kuantisasi berkontribusi pada peningkatan Signal

to Noise Ratio (SNR) dari sinyal yang tentu saja akan berakibat langsung pada penurunan kapasitas kanal. SNR akibat adanya kesalahan kuantisasi dirumuskan oleh persamaan berikut:

76 . 1 log 02 , 6 )

(dB = x ₂L+

SNR (2.3)

Keterangan:

SNR = perbandingan sinyal asli dengan sinyal gangguan (noise)

L = jumlah level kuantisasi

Rata-rata kesalahan kuantisasi dapat dikurangi dengan memberikan penambahan derau dalam jumlah kecil. Proses penambahan derau seperti ini disebut dengan dithering. Perlu diketahui bahwa tidak semua derau bersifat mengganggu, justru sebaliknya derau yang terkendali akan sangat bermanfaat sebagaimana halnya implementasi dithering dalam proses kuantisasi.

Normalisasi PAM -2,3 -1,8 1,7 3,2 3,7 2,6 0,6 -0,7 -2,6

Normalisasi kuantisasi -2,5 -1,5 1,5 3,5 3,5 2,5 0,5 -0,5 -2,5

Kesalahan kuantisasi 0,2 0,3 0,2 0,3 0,2 0,1 0,1 0,2 0,1

Level kuantisasi 1 2 5 7 7 6 4 3 1

(31)

Contoh 2:

Berapakah SNR akibat adanya kesalahan kuantisasi dari proses kuantisasi dalam Gambar 2.5. dan Tabel 2.1.

Dalam Gambar 2.5. dan Tabel 2.1 terlihat bahwa proses kuantisasi menggunakan 8 level kuantisasi, berarti untuk setiap cacahan dibutuhkan representasi kode digital sebanyak 3 bit.

dB x

dB

SNR( )=6,02 log2(8)+1,76=19,82 .

Sesuai dengan persamaan 2.3, apabila level kuantisasi dinaikkan, maka nilai SNR juga akan meningkat.

3. Proses Pengkodean Digital

Langkah terakhir dalam metode PCM adalah pengkodean data digital. Seperti terlihat dalam Gambar 2.5., pengkodean digital terletak pada baris terakhir dalam gambar. Pengkodean ini mengubah level kuantisasi seperti dalam Gambar 2.5. ke dalam bentuk digital. Misalnya level kuantisasi 7 memiliki bentuk digital 111, level kuantisasi 3 memiliki bentuk digital 011, dan seterusnya. Dengan cara demikian, sinyal analog sekarang telah berubah menjadi bentuk digital.

Kecepatan data dapat dihitung dengan rumusan dalam persamaan

berikut:

L x f

R= _s log₂ (2.4)

Keterangan:

R = kecepatan data (dalam satuan bps)

s

(32)

Dalam persamaan 2.4, log2L pada dasarnya adalah jumlah bit yang

digunakan untuk merepresentasikan Llevel, sebagai contoh untuk

8

=

L , maka dibutuhkan jumlah bit 3 seperti dapat dilihat dalam Gambar 2.5.

2.2.2. Delta Modulation (DM)

Teknik konversi dari sinyal analog menjadi data digital akan menjadi lebih sederhana apabila diimplementasikan dengan menggunakan Delta Modulation (DM) daripada menggunakan Pulse Code Modulation (PCM). DM tidak mendeteksi amplitudo sebagaimana

halnya pada PCM, melainkan mendeteksi perubahan amplitudo antara cacahan seperti ini dengan cacahan sebelumnya. Perbedaan antara amplitudo saat ini dengan amplitudo sebelumnya disebut dengan δ (Mafisamin, 2014).

[image:32.595.198.482.465.624.2]

Ilustrasi Delta Modulation (DM) digambarkan sebagai berikut.

Gambar 2.6. Ilustrasi Delta Modulation (DM) Sumber: (Mafisamin, 2014)

Apabila δ bernilai positif, maka DM akan membangkitkan

(33)

merupakan deretan bit yang menggambarkan perubahan amplitudo dari sinyal analog. Untuk dapat menghasilkan unjuk kerja DM yang lebih baik, δ dapat dibuat menjadi adaptif. Dengan menggunakan

DM adaftif nilai δ akan berubah-ubah mengikuti amplitudo dari sinyal analog.

2.3. Pengenalan ucapan

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (voice recognition), yaitu proses identifikasi seseorang berdasarkan suaranya.

Pengenalan ucapan adalah proses yang dilakukan komputer untuk mengenali kata yang diucapkan oleh sesorang tanpa memperdulikan

identitas orang terkait. Pengenalan ucapan merupakan suatu teknik yang memungkinkan sistem komputer untuk menerima input berupa kata yang

diucapkan. Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka lalu disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola yang tersimpan dalam suatu perangkat. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi.

Pengenalan ucapan juga dikenal sebagai Automatic Speech Recognition (ASR). ASR merupakan pengenalan ucapan komputer yang berarti suara pemahaman komputer dan melakukan setiap tugas yang diperlukan atau kemampuan untuk mencocokkan suara terhadap kosakata yang tersedia atau diperoleh (Saini dan Kaur, 2013).

(34)

melalui mikrophone dan mengubahnya menjadi sinyal digital. Kemudian program menganalisa sinyal digital tersebut dengan membandingkannya dengan digital pattern yang ada dalam databasenya. Setelah itu akan diambil digital pattern yang paling besar prosentase kemiripannya, kemudian dari digital pattern tersebut diubah menjadi teks. Karena setiap manusia memiliki karakteristik suara yang berbeda-beda, maka diberikan suatu metode untuk melatih program dan kemudian data-data spesifik tentang karakter suara tersebut disimpan dalam database dengan tujuan supaya proses pengenalan suara berikutnya memiliki prosentase keberhasilan yang lebih besar.

Ada 2 tipe pengenalan ucapan (speech recognition), dilihat dari ketergantungan pembicara yaitu:

a. Independent Speech Recognition(ISR), yaitu sistem pengenalan ucapan tanpa terpengaruh dengan siapa yang berbicara, tetapi mempunyai keterbatasan dalam jumlah kosakata. Model ini akan mencocokkan setiap ucapan dengan kata yang dikenali dan memilih yang “sepertinya” cocok. Untuk mendapatkan kecocokan kata yang diucapkan maka digunakan model statistik yang dikenal dengan nama Hidden Markov Model (HMM).

(35)

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 4 jenis kata yaitu:

1. Kata-kata yang terisolasi : proses pengidentifikasi kata yang hanya terdapat mengenali kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata.

2. Kata-kata yang berhubungan : proses pengidentifikasian kata yang mirip dengan kata yang terisolasi, namun membutuhkan jeda waktu yang sangat sedikit.

3. Kata-kata yang berkelanjutan : proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenali kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara normal.

4. Kata-kata spontan : proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata.

Proses pengenalan suara ini sangat bergantung pada bahasa yang digunakan, karena setiap bahasa memiliki cara pengucapan yang berbeda. Sehingga teknologi ASR ini bersifat language dependent.

2.4. Tahapan-tahapan dalam pengenalan ucapan (speech recognition)

(36)

modelling), pemodelan pengucapan (pronounciation modelling), model bahasa (language model), dan decoder.

[image:36.595.149.505.181.320.2]

Blok diagram untuk sistem pengenalan ucapan adalah sebagai berikut:

Gambar 2.7. Blok diagram untuk sistem pengenalan ucapan Sumber : (Gales dan Young, 2007)

2.4.1. Ekstraksi Fitur

Gelombang input audio dari sebuah microphone dikonversikan

menjadi sebuah urutan vektor akustik O₁_:_T =O₁,...,O_T dalam proses

yang disebut ekstraksi fitur (fitur extraction)(Gales dan Young, 2007).

Tahap ekstraksi fitur bertujuan untuk memberikan sebuah gambaran dari gelombang ucapan. Tahap ekstraksi fitur ini dapat meminimalkan hilangnya informasi yang membedakan antara kata-kata, dan memberikan kecocokan dengan asumsi distribusi yang dibuat oleh model akustik. Metode yang digunakan adalah Linear Predictive Coding(LPC).

Language Model Feature

Extraction Decoder

Acoustic Modelling

Pronounciation Modelling Speech

Feature Vectors

...

O W

“Stop that.”

(37)

Pre-emphasis Frame

Blocking Windowing

Auto Correlation

Analisa LPC LPC

Parameter

LPCmerupakan salah satu teknik analisis sinyal percakapan yang paling powerful dan menyediakan ekstraksi fitur yang berkualitas baik dan efisien untuk digunakan dalam perhitungan .

[image:37.595.192.479.221.376.2]

Prosedur untuk mendapatkan koefisien LPC diperlihatkan pada blok diagram berikut:

Gambar 2.8. Blok Diagram LPC

Langkah-langkah dasar yang harus dilakukan mengenai blok diagram tersebut adalah sebagai berikut:

1. Pre-emphasis : Proses dimana sinyal/ speech ucapan dirubah menjadi sinyal.

2. Frame Blocking : pada tahap ini, sinyal yang telah di pre-emphasis, diblok menjadi beberapa bagian dengan jumlah sampel N, dan tiap bagian dipisahkan dengan sejumlah M sampel.

3. Windowing : Tahap berikutnya adalah melakukan proses window pada setiap bagian sinyal yang telah dibuat sebelumnya. Hal ini dilakukan untuk meminimalkan pada bagian awal dan akhir sinyal. Jika didefinisikan sebuah windoww(n) dan sinyal tiap

(38)

4. Auto Correlation Analysis : Tiap bagian yang telah diberi window kemudian akan dibentuk autokorelasinya.

5. Analisa LPC : Langkah berikutnya adalah analisa LPC dimana semua nilai autokorelasinya yang telah dihitung pada tahap sebelumnya akan diubah menjadi parameter LPC.

6. Pengubahan parameter LPC menjadi koefisien cepstral : Parameter LPC yang sangat penting yang bisa diturunkan dari koefisien LPC adalah koefisien cepstral LPC, c(m)

Adapun langkah-langkah analisa LPC untuk pengenalan ucapan (speech recognition) adalah sebagai berikut:

1. Pre-emphasis terhadap cuplikan sinyal dengan persamaan Pre-emphasizer

(2.5)

dengan s(n) adalah sampel ke-n dan harga a yang paling sering

digunakan adalah 0.95

2. Membagi hasil pre-emphasiss(n) ke dalam frame-frame yang

masing-masing memuat N buah sampel yang dipisahkan sejauh M

buah sample. Semakin M <N semakin baik perkiraan spektral LPC dari frame ke frame.

3. Melakukan windowing terhadap setiap frame yang telah dibentuk untuk meminimalkan diskontinuitas pada ujung awal dan ujung akhir setiap frame dengan persamaan Hamming Window untuk sampel ke-n adalah :

) 1 / 2 cos( 46 . 0 54 . 0 )

(n = − n N−

W π , 0≤n≤ N−1 _(2.6)

4. Analisis autokorelasi terhadap setiap frame hasil windowingx1(n)

dengan persamaan :

) 1 ( ) ( )

(n =s n −as n−

s

∑

−−

= +

= 1 1

0 1 1

1( ) ( ) ( )

n

n x n x n m

(39)

(2.7)

dengan mdimulai dari 0 dan nilai tertinggi dari m= p adalah orde

LPC yang biasa bernilai 8-16.

5. Mengubah p+1 buah hasil autokorelasi pada masing-masing

frame menjadi koefisien LPC a_m =a_m(p) untuk m=1,2,...,p

dengan persamaan dibawah ini :

) 0 ( ) 0 ( r

E = _(2.8)

, / |) (| ) (

{ −

∑

−1 − ( −1)

= m m

m r m r m j E

k 1≤m≤ p _(2.9)

m m

m =k

) ( α (2.10) , ) 1 ( ) 1 ( ) ( − − − ₋ = m j m m m j m

j α k α

α 1≤ j≤m−1 _(2.11)

) 1 ( 2 ) ( ) 1 ( − − = m m m E k E (2.12)

dengan r(0) adalah hasil autokorelasi, E(m) adalah error, km

adalah koefisien pantulan, a_j(m) adalah koefisien prediksi untuk

m j≤

≤

1 .

6. Mengubah parameter LPC a_m ke koefisien cepstralc_m untuk

mendapatkan kinerja yang lebih baik dan tahan terhadap noise, yaitu dengan persamaan”

∑

−

= −

+

= 1

1( / ) ,

m

k k m k

m

m a k m c a

c 1≤m≤ p _(2.13)

∑

−

= −

= 1

1( / ) ,

m

k k m k

m k m c a

c m> p _(2.14)

(40)

2.4.2. Pemodelan Akustik

Dalam sistem pengenalan ucapan automatis (automatic speech recognition)berbasis statistik, ucapan diwakili oleh beberapa urutan

pengamatan fitur akustik O, berasal dari urutan kata-kata W.

Sinyal akustik dirumuskan oleh:

(2.15)

Akan tetapi, karena P(W|O) sulit untuk dimodelkan secara

langsung, maka dapat menggunakan aturan Baye (Baye’s Rule) dapat ditulis sebagai berikut:

(2.16)

Keterangan:

) |

(O W

P = probabilitas bahwa ketika string kata W

diucapkan

) (W

P = probabilitas bahwa string kata W akan

diucapkan

Dalam persamaan (2.13), P(O|W)adalah probabilitas

pengamatan dan dievaluasi berdasarkan pemodelan akustik (acoustic modelling), sedangkan P(W) adalah probabilitas sebagai

model bahasa (language model).

Model akustik diimplementasikan dengan menggunakan pendekatan model seperti Hidden Markov Model (HMM), Artificial Neural Network (ANN), jaringan Bayesian dinamis (DBN), mendukung mesin vektor (SVM).

HMM digunakan dalam beberapa bentuk atau yang lain di setiap keadaan (state) dari sistem pengenalan ucapan.

)} | ( { max

arg PW O

W

w

=

) ( . ) | ( max

arg P O W PW

W

(41)

HMM pada dasarnya perluasan dari rantai Markov yang merupakan model stokastik. Biasanya dalam model Markov setiap keadaan (state) dapat terlihat langsung oleh pengamat, sehingga kemungkinan transisi antara keadaan menjadi satu-satunya parameter yang teramati.

Rabiner (1989) mengemukakan bahwa transisi pada Rantai Markov yaitu:

a. Transisi dari suatu keadaan tergantung pada keadaan sebelumnya.

(2.17) b. Transisi keadaan bebas terhadap waktu.

(2.18)

[image:41.595.219.452.395.609.2]

Berikut ini adalah contoh gambar dari rantai Markov.

Gambar 2.9. Rantai Markov Sumber: (Monika, 2012)

2.4.3. Pemodelan ucapan

Dalam pemodelan pengucapan (pronounciation modelling), selama pengenalan, urutan simbol-simbol yang dihasilkan oleh model

12 a 13

a

31

a a₂₁

32 a

23 a

33

a a22

11 a

1

2

3

] |

[ ...] |

|

[q_t S_j q_t ₁ S_i q_t ₂ S_k P q_t S_j q_t ₁ S_i

P = ₋ = ₋ = = = ₋ =

] |

[q S q ₁ i P

(42)

akustik HMM dibandingkan dengan serangkaian kata yang ada dalam kamus untuk menghasilkan urutan kata-kata yang hasil akhir sistem berisi informasi tentang kata-kata yang dikenal ke sistem dan bagaimana kata-kata yang diucapkan yaitu apa yang representasi fonetik mereka.

Gales dan Young (2007) mengemukakan bahwa setiap kata yang diucapkan didekomposisi menjadi urutan suara dasar yang disebut basis phones. Urutan ini disebut pengucapannya. Untuk memungkinkan kemungkinan beberapa pengucapan-pengucapan dapat dihitung:

∑

= Q

W Q P Q O p W

O

p( | ) ( | ) ( | ) (2.19)

di mana penjumlahan selesai semua urutan pengucapan berlaku

untuk w, Qadalah urutan pengucapan partikular,

), | ( )

|

( ( )

1

Wl q P W

Q

P wl

L

l

∏

=

= (2.20)

dan di mana masing-masing pengucapan berlaku untuk kataWl.

[image:42.595.193.467.542.660.2]

Setiap base phone diwakili oleh kepadatan kontinu HMM dengan parameter probabilitas transisi dan distribusi observasi output digambarkan sebagai berikut:

Gambar 2.10. HMM model basis phone Model

Markov

Sequence Vector

Acoustic

1 2 3 4 5

=

O

12

a a23 a34 a45

22

a a33 a44

1

O O₂ O3 O4 O5

) ( 1 2 O

(43)

Dalam operasi, HMM membuat transisi dari kondisi saat ini ke salah satu keadaan (state) yang terhubung setiap langkah waktu. Kemungkinan membuat transisi stertentu dari state ke state

diberikan oleh probabilitas transisi

{ }

a_ij . Masuk ke state, fitur vector

yang dihasilkan dengan menggunakan distribusi terkait dengan

keadaan (state) yang masuk,

{ }

b_j() .

Bentuk proses menghasilkan asumsi bebas bersyarat standar untuk HMM:

• keadaan (state) yang bersyarat independen dari semua state-state lain mengingat keadaan sebelumnya

• pengamatan bersyarat independen dari semua pengamatan lainnya mengingat keadaan yang dihasilkan itu.

2.4.4. Model Bahasa

Model bahasa (Language Model) digunakan untuk membatasi proses pencarian pada pengenalan ucapan (speech recognition), yaitu menuntun pencarian urutan kata yang benar dengan memprediksi kemungkinan kata n menggunakan (n-1) kata-kata sebelumnya.

Model bahasa dapat diklasifikasikan menjadi:

1. Model seragam: setiap kata memiliki probabilitas yang sama terhadap kejadian.

2. Model stokastik: probabilitas terhadap kejadian dari sebuah kata tergantung pada kata yang mendahuluinya.

3. Bahasa state yang terbatas: bahasa menggunakan jaringan anegara yang terbatas untuk menentukan urutan kata yang

diperbolehkan.

(44)

Model bahasa N-gram merupakan sebuah metode yang diaplikasikan untuk pembangkitan kata atau karakter. Probabilitas

sebelumnya dari urutan kata W =W₁,...,W_k diperoleh dari persamaan

berikut:

(2.21)

Untuk pengenalan kosakata yang besar, sejarah pendingin kata dalam biasanya dipotong ke N-1 kata-kata untuk membentuk model bahasa N-gram

) ,..., , | ( )

( ₁ ₂ ₁

1 + − − − =

∏

= i i i i N

K i W W W W P W P (2.22)

dimana N biasanya diantara 2-4. Model bahasa sering dinilai dari segi kebingungan (perplexity) mereka, H, yang didefinisikan sebagai )) ,..., ( ( log 1 1 2

lim

K K W W P K H ∞ → − =

dimana perkiraan tersebut digunakan untuk model bahasa N-gram dengan urutan kata dengan panjang terbatas.

Probabilitas N-gram diperkirakan dari training teks dengan menghitung kejadian N-gram untuk membentuk maximum likelihood

(ML) estimasi parameter.

Sebuah pendekatan alternatif untuk estimasi model bahasa yang kuat adalah dengan menggunakan model berbasis kelas di

mana untuk setiap kata W_kada kelas yang sesuai C_k. Maka,

) ,..., | ( ) | ( )

( ₁ ₁

1 + − − =

∏

= k k k k k N

K k C C C p C W P W P (2.23)

(Gales dan Young, 2007)

) ) ,..., , | ( ( log 1 1 1 2 1 2

∑

= − − − + − ≈ K i N i i i

i W W W

W P K ) ,..., | ( )

( ₁ ₁

1 W W W P W

P _k _k

(45)

2.4.5. Decoder

Decoder adalah peralatan yang digunakan untuk mendapatkan kembali sinyal analog yang telah dikodekan menjadi data digital. Perlu diingat bahwa untuk dapat melakukan pembalikkan kode, persyaratan Nyquist harus dipenuhi pada saat melakukan pencacahan (sampling) (Mafisamin, 2014).

Decoder merupakan suatu tahapan yang paling penting dalam proses pengenalan ucapan (speech recognition). Sebuah decoder berfungsi untukmelakukan keputusan yang sebenarnya dengan menggabungkan pemodelan akustik (acoustic modelling), pemodelan pengucapan (pronounciation modelling)dan model bahasa (language model) untuk mencari semua urutan kata yang mungkin dan akan menghasilkan output.

2.5. Hidden Markov Model (HMM)

Hidden Markov Model (HMM) adalah suatu model statistik dari sebuah sistem yang diasumsikan sebuah proses Markov dengan parameter yang tidak diketahui. Kita harus menentukan parameter-parameter tersembunyi (state) dari parameter-parameter yang dapat diamati. Parameter-parameter yang ditentukan kemudian dapat digunakan untuk analisis yang lebih jauh, misalnya untuk aplikasi pattern recognition(Monika, 2012).

HMM pada dasarnya perluasan dari rantai Markov yang merupakan model stokastik. Biasanya dalam model Markov setiap keadaan (state) dapat terlihat langsung oleh pengamat, sehingga kemungkinan transisi antara keadaan menjadi satu-satunya parameter yang teramati. Dalam HMM,

keadaan tidak dapat terlihat langsung meskipun parameter model diketahui, model tersebut tetap tersembunyi, tetapi hasil keluaran (output) yang

(46)

HMM terdiri dari dua proses stokastik. Proses stokastik pertama adalah rantai Markov yang ditandai oleh state-state dan probabilitas transisi. State pada bagian rantai Markov secara eksternal tidak terlihat, karena itu “tersembunyi”. Sedangkan proses stokastik kedua menghasilkan emisi diamati pada setiap saat, tergantung pada distribusi probabilitas tergantung pada state. Hal ini penting untuk melihat bahwa dominasi “tersembunyi” serta menciptakan Hidden Markov Model dirujuk ke state bagian Rantai Markov, bukan dengan parameter pada model tersebut.

2.5.1 Tipe HMM

Ada dua tipe HMM, yaitu HMM ergodic dan HMM kiri-kanan. a. HMM ergodic

[image:46.595.265.456.432.605.2]

Pada HMM ergodic perpindahan keadaan satu ke keadaan yang lain semuanya memungkinkan, hal ini ditunjukkan pada gambar berikut:

Gambar 2.11. HMM model ergodic Sumber: (Paul, 1990)

b. HMM kiri-kanan

Pada HMM kiri-kanan perpindahan keadaan hanya dapat berpindah dari kiri ke kanan, perpindahan keadaan tidak dapat mundur ke belakang, hal ini ditunjukkan pada gambar berikut:

3

S

1

S

2

(47)

[image:47.595.216.504.78.174.2]

Gambar 2.12. HMM model kiri-kanan Sumber: (Paul, 1990)

Hidden Markov Model(HMM) terdiri dari keadaan (state), peluang transisi (state probabilities), peluang emisi (emission probabilities), dan peluang awal(initial probabilities).

2.5.2 Elemen HMM

HMM didefinisikan sebagai berikut:

1. N, jumlah state dalam model yang didefinisikan oleh

{

S SN

}

S = ₁,...,

2. M, jumlah simbol pengamatan yang berbeda tiap state, misalnya ukuran alfabet diskrit didefinisikan oleh V =

{

v1,...,v_M

}

. Jika

pengamatankontinu maka M adalah tak terbatas.

3. Distribusi peluang keadaan transisi A=

{ }

a_ij , dimana ij

a adalah

distribusi yang state pada waktu t+1adalah , diberikan ketika

keadaan pada waktu adalah S_i. Struktur matriks stokastik ini

mendefinisikan hubungan struktur model.

(2.24) 1

S S₂ S₃ S₄ S₅

t

j

S

, 1≤i

[

_t ₁ _j | _t _i

]

,

ij pq S q S

(48)

4. Distribusi peluang simbol pengamatan pada masing-masing

state j, B=

{

bj(k)

}

dimana adalah peluang yang simbol vk

diemisi dalam keadaan S_j.

(2.25) jika pengamatankontinu, maka kita harus menggunakan fungsi kepadatan peluang kontinu.

5. Distribusi keadaan awal π =

{ }

π_i dimana π_iadalah peluang

bahwa model tersebut berada dalam keadaan S_i pada waktu

0 =

t didefinisikan oleh

(2.26)

[image:48.595.167.495.408.555.2]

Adapun contoh Hidden Markov Model (HMM) digambarkan sebagai berikut:

Gambar 2.13. Contoh Hidden Markov Model (HMM) Sumber : (Dymarski, 2011)

Hidden Markov Model (HMM) dapat dituliskan sebagai model

) , ,

( π

λ = A B . Dengan diketahuinya parameter-parameter N,M,A,B,

dan π(Dymarski, 2011).

) (k b_j

M k≤

≤ 1

, 1≤ j≤N

[

|

]

,

)

( _t _k _t _j

j k po v q S

b = = =

N i≤

≤ 1

{

q1 i

}

,

p

i = =

(49)

2.5.3 Fungsi Rekursif HMM

Ada tiga fungsi rekursif HMM, yaitu: 1. Algoritma Forward

Variabel algoritma forward : αi =P(O₁,O₂,...,OT,qT =Si |λ).

Berikut ini langkah-langkah dalam algoritma Forward:  Inisialisasi

), ( )

( 1

1 i b O

a =π_i _i 1≤i≤ N (2.27)

 Induksi ), ( ) ( ) ( ₁ 1 1 + = +      

=

∑

N _j _t

i

ij t

t j α i α b O

α (2.28)

dengan 1≤t≤T−1 dan 1≤ j≤N

 Terminasi

∑

= = N i T i O P 1 ), ( ) |

( λ α 1≤i≤N (2.29)

Ilustrasi algoritma forward dapat dilihat pada gambar berikut:

[image:49.595.231.438.497.710.2]

. . .

Gambar 2.14. Ilustrasi Alur Algoritma Forward Sumber: (Rabiner, 1989)

(50)

2. Algoritma Backward

Variabel algoritma Backward: β_t =P(O₁,O₂,...,O_T,q_T =S_i|λ).

Berikut ini langkah-langkah dalam algoritma Backward:  Inisialisasi

, 1 ) (i = T

β

1≤i≤N (2.30)

 Induksi , ) ( ) ( 1 1 1 ,       _⋅ _⋅ =

∑

= + + N i t t j j i

t α b O β j

β (2.31)

dengan t=T −1,T−2,...,1 dan 1≤i,j≤N.

Ilustrasi untuk algoritma backward dapat dilihat pada gambar berikut:

[image:50.595.239.450.385.598.2]

. . .

Gambar 2.15. Ilustrasi Alur Algoritma Backward Sumber: (Rabiner, 1989)

3. Algoritma Baum Welch

Algoritms Baum Welch melibatkan algoritma forward dan algoritma backward.

(51)

Untuk menggambarkan prosedur update parameter

HMM, diperlukan variabel ξ_t(i, j) yang merupakan peluang

gabungan state i dan state j terhadap peluang pengamatan

pada model yang diberikan, dan γ_t(i) state pada waktu dan

merepresentasikan peluang berada di state i pada waktu t.

Secara matematis nilai ξ_t(i,j) danγ_t(i) dapat

diformulasikan dengan persamaan berikut:

) , | , ( ) ,

( ₁ λ

ξ_t i j =P q_t =S_i q_t₊ =S_j O

(2.32) Variabel state: ) , | ( ) ( λ

γ_t i =P q_t =S_i O (2.33)

Dengan menggunakan persamaan (2.32) dan (2.33), maka persamaan untuk mengupdate parameter-parameter

) , ,

(A B

π

pada HMM dapat dirumuskan sebagai berikut:  Probabilitas state transisi:

, ) ( ) , ( 1 1 1 1

∑

− = − = = _T t t T t t ij i j i a γ ξ ,

1≤i≤N 1≤ j≤M (2.34)

 Simbol probabilitas emisi

, ) ( ) ( ) ( 1 , 1

∑

= = = = _T t t T V O t j j j k

b T k γ

γ

,

1≤i≤N 1≤ j≤M (2.35) ) | ( ) ( ) ( )

( _, ₁ ₁

λ β α α O P j O b

i _i _j _j _t _t

t + +

(52)

 Probabilitas state awal

), 1 (

t

i γ

π = 1≤i≤N (2.36)

Ilustrasi mengenai algoritma Baum-Welch dapat dilihat sebagai berikut:

. .

[image:52.595.191.511.199.370.2]

. .

Gambar 2.16. Ilustrasi Perhitungan pada Algoritma Baum-Welch Sumber: (Rabiner, 1989)

2.6. Contoh Penyelesaian Rantai Markov pada Kasus Cuaca

Cuaca dalam tiga hari yang lalu dimodelkan dalam tiga state: cerah(1), berawan(2), dan hujan(3). Misalkan, kita asumsikan bahwa probabilitas cuaca esok hari berdasarkan cuaca hari ini dalam tabel berikut:

Tabel 2.2. Probabilitas cuaca hari ini berdasarkan cuaca esok hari

Cuaca Esok Hari

Cuaca Hari Ini

Cerah Hujan Berawan

Cerah 0,8 0,05 0,15

Hujan 0,2 0,6 0,2

Berawan 0,2 0,3 0,5

Sumber: (Lussier, 1998)

) ( _t₊₁ j ijb O a

t _t₊₁

) (i t

α β_t₊₁(j)

1 −

t t+1

i

[image:52.595.150.512.616.728.2]

(53)

Penyelesaian:

[image:53.595.180.477.112.303.2]

Diketahui rantai Markov sebagai berikut:

Gambar 2.17. Rantai Markov pada kasus cuaca

Contoh 3:

Jika hari ini cuaca cerah, berapakah probabilitas bahwa esok hari cuaca cerah dan lusa adalah hujan?

Jika hari ini cuaca cerah, maka probabilitas bahwa esok hari cuaca cerah dan lusa adalah hujan, yaitu:

Contoh 4:

Jika hari ini cuaca berawan, berapakah probabilitas bahwa lusa akan hujan?

Jika hari ini cuaca berawan, maka probabilitas bahwa lusa akan hujan, yaitu: hujan berawan cerah 6 , 0 2 , 0 05 ,

0 0,3

2 , 0

8 ,

0 0,5

(54)

Dari penjelasan diatas, dapat disimpulkan bahwa Markov Chain bermanfaat untuk menghitung probabilitas urutan state yang dapat diamati. Masalahnya terkadang ada urutan state yang ingin diketahui tetapi tidak dapat diamati. Untuk menyelesaikan kasus tersebut, dikembangkan oleh model baru yang memodelkan kejadian yang tersembunyi, disebut Hidden Markov Model (HMM).

2.7. Contoh Penyelesaian Hidden Markov Model pada Kasus Cuaca

Anggaplah bahwa Anda sedang terkunci di sebuah ruangan untuk beberapa hari, dan Anda ditanya tentang cuaca diluar. Satu-satunya bukti yang Anda miliki adalah apakah orang yang datang ke ruangan sedang membawa makanan sehari-hari Anda membawa sebuah payung atau tidak. Probabilitas melihat ada sebuah payung berdasarkan cuaca tersebut dapat dilihat pada tabel berikut:

Tabel 2.3. Probabilitas melihat sebuah payung berdasarkan cuaca

Probabilitas Payung

Cerah 0.1

Hujan 0.8

Berawan 0.3

Sumber: (Lussier, 1998)

(55)

Contoh 5:

Anggaplah hari dimana Anda terkunci adalah cuaca cerah. Hari berikutnya, penjaga rumah membawa sebuah payung ke ruangan. Asumsikan bahwa probabilitas utama dari penjaga rumah yang membawa sebuah payung pada hari itu adalah 0.5. Berapakah probabilitas bahwa hari kedua adalah hujan?

Anggaplah hari dimana Anda terkunci adalah cuaca cerah. Hari berikutnya, penjaga rumah membawa sebuah payung ke ruangan. Asumsikan bahwa probabilitas utama dari penjaga rumah yang membawa sebuah payung pada hari itu adalah 0.5

Maka, probabilitas bahwa hari kedua adalah hujan, yaitu:

2

(W dan O₁ tidak bergantung)

) ( ) | , ( 1 2 1 2 cerah O P T W cerah O hujan O P = = = = = ) ( ) ( ) , ( ) , | ( ) ' ( 1 1 2 2 1 2 T W P cerah O P cerah O hujan O P hujan O cerah O T W P Rule s Baye = = = = = = = = ) ( ) ( ) , ( ) | ( ) ( 2 1 1 2 2 2 T W P cerah O P cerah O hujan O P hujan O T W P assumption Markov = = = = = = = ) ( ) | ( ) | ( )) ( : ( 2 1 2 2 2 T W P cerah O hujan O P hujan O T W P cerah P Cancel = = = = = = Contoh 6:

Anggaplah hari dimana Anda terkunci di ruangan adalah cerah. Penjaga rumah membawa sebuah payung di hari kedua, tetapi tidak di hari ketiga. Asumsikan bahwa probabilitas utama dari penjaga rumah membawa sebuah payung adalah 0.5. Berapakah probabilitas bahwa hari tersebut berawan di hari ketiga?

Anggaplah hari dimana Anda terkunci di ruangan adalah cerah. Penjaga rumah membawa sebuah payung di hari kedua, tetapi tidak di hari ketiga.

(56)

Asumsikan bahwa probabilitas utama dari penjaga rumah membawa sebuah payung adalah 0.5

Maka, probabilitas bahwa hari tersebut berawan di hari ketiga, yaitu:

3.1. Microsoft Speech API

Speech Application Programming Interface adalah sebuah API yang dikembangkan oleh Microsoft yang digunakan sebagai pengenal suara di

dalam lingkungan pemrograman aplikasi Windows. Sampai saat ini Speech APIdikemas baik berupa SDK (Sistem Development Kit) maupun disertakan dalam sistem operasi Windows itu sendiri.

(57)

Salah satu aplikasi yang telah menggunakan Speech Application Programming interface antara lain Microsoft Office. Secara arsitektur

pemrograman SAPI dapat dilihat sebagai sebuah middleware yang terletak antara aplikasi dan speech engine.

[image:57.595.158.493.238.446.2]

Di dalam SAPI versi 1 sampai 5, aplikasi dapat berkomunikasi langsung dengan speech engine seperti tampak pada gambar berikut:

Gambar 2.18. Arsitektur Microsoft Speech Application Programming Interface

Komponen-komponen utama di dalam Microsoft Speech API adalah sebagai berikut:

a. Voice Command, sebuah objek level tinggi untuk perintah dan kontrol menggunakan pengenalan suara.

b. Voice Dictation, sebuah obyek level tinggi continuous dictationspeech recognition.

(58)

d. Direct Speech Recognition, sebuah obyek sebagai mesin untuk mengontrol pengenalan suara (direct control of recognition engine).

e. Direct Text to Speech, sebuah mesin yang mengontrol synthesis.

(59)

BAB 3

PEMBAHASAN

3.1. Flowchart

Flowchart adalah bagan (chart) yang menunjukkan aliran (flow) di dalam program atau prosedur sistem secara logis. Bagan alir (program flowchart) merupakan bagan yang menjelaskan secara rinci langkah-langkah dari proses program.

a. Flowchart Proses Suara

Gambar 3.1. Flowchart ProsesSuara

Tampilan Aplikasi Komputer

Ya Testing Mulai

Selesai Input Suara

Pemodelan HMM Proses Sinyal

Suara

Bandingkan data digital baru dengan data digital template

Data Digital Baru

[image:59.595.166.503.328.723.2]

(60)

b. Flowchart Pemodelan HMM

Gambar 3.2. Flowchart Pemodelan HMM

Mulai

Masukan Runtun Pengamatan

Pilih State dan Bentuk Model HMM

Inisialisasi Parameter HMM

Pelatihan Parameter HMM

Penyimpanan Parameter HMM

Masukan Urutan (Sequence) Data

Pencocokan ke Model HMM

[image:60.595.223.413.125.589.2]

(61)

3.2. Perancangan Perangkat Lunak

Perancangan sistem pengenalan ucapan (speech recognition) ini menggunakan Microsoft Speech Application Programming (SAPI) dengan spesifikasi perangkat keras (hardware) dan perangkat lunak (software) sebagai berikut:

1. Perangkat keras(hardware)

a. Notebook Toshiba Satellite L735

- Processor Dual Core B960 2.20 GHz - Memory 2GB

- Harddisk 320GB - Soundcard terintegrasi

b. Microphone Sony PC Headseat MDR-788

2. Perangkat lunak (software) a. Sistem Operasi Windows 7

b. Software Microsoft Speech Application Programming Interface