7203030018

(1)

PROYEK AKHIR

PEMANFAATAN GALATEA UNTUK

PEMBANGUNAN KARAKTER HIDUP

Sub: Speech Synthesis Module (SSM)

TAUFIK WICAKSONO NRP. 7203.030.018

Dosen Pembimbing: SRITRUSTA SUKARIDHOTO, ST

NIP. 132 300 372

Dr. TITON DUTONO M.Eng NIP. 131 651 258

JURUSAN TEKNIK TELEKOMUNIKASI POLITEKNIK ELEKTRONIKA NEGERI SURABAYA

(2)

KARAKTER HIDUP Sub: Speech Synthesis Module (SSM)

Oleh:

TAUFIK WICAKSONO 7203.030.018

Proyek Akhir ini Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Ahli Madya (A.Md.)

di

Politeknik Elektronika Negeri Surabaya Institut Teknologi Sepuluh Nopember Surabaya

Disetujui oleh

Tim Penguji Proyek Akhir: Dosen Pembimbing:

1. Tri Budi Santoso, ST, MT 1. Sritrusta Sukaridhoto, ST NIP. 132.128.464 NIP. 132.300.372

2. Drs. Miftahul Huda, MT 2. Dr.Ir. Titon Dutono, M.Eng NIP. 132.055.257 NIP. 131.651.258

3. Reni Soelistijorini, B. Eng. MT NIP. 132.243.734

Mengetahui:

Ketua Jurusan Telekomunikasi

Drs. Miftahul Huda, MT NIP. 132.055.257

(3)

ABSTRAK

Teknologi Live Like Character adalah teknologi masa depan yang menggantikan cara interaksi manusia dengan komputer., yaitu dengan menggabungkan teknologi audio dan visual. Galatea merupakan teknologi yang memanfaatkan keunggulan tersebut. Dimana interaksi user dengan sistem dapat dilakukan dengan memberikan inputan dari keyboard dan suara. Namun teknologi speech synthesizer masih sebatas dapat digunakan untuk bahasa Jepang.

Pada proyek akhir ini dijelaskan bagaimana mencapai sistem galatea yang dapat digunakan untuk bahasa Indonesia. Dengan menggunakan teknik Hidden Markov Model, yaitu suatu teknik yang digunakan untuk menghitung probabilitas suatu keadaan yang belum diketahui urutannya. Untuk membangun suatu sistem agar bisa mengeluarkan suara dengan logat bahasa Indonesia maka dibutuhkan suara sintesis dan databases suara yang besar. Pada proyek akhir ini telah dilakukan pembangun suara sintesis dengan karakteristik orang Indonesia menggunakan HMM-based Speech Synthesis System (HTS) yang merupakan penggabungan antara HTK dengan SPTK. Sehingga menghasilkan suara sintesis yang dapat digunakan di dalam Galatea.

Kata Kunci − speech recognizer, speech synthesizer, facial-image synthesizer, dialog controller, communication manager, HMM, HTS, HTK, SPTK

(4)

Technological Live Like Character is future technology replacing way of man interaction with computer. That is by merging audio technology and visual technology. Galatea is technology exploiting the excellence. Where interaction user with system can be done by giving input from keyboard and voice. But technological speech synthesizer still limited to Japanese applicable.

At this end project is explained how reaching Galatea system applied for Indonesian Language. By using technique in Hidden Markov Model, that is an technique which applied for calculating probability of state which not been known by the sequence. To build a system so that can spend voice with Indonesian required by is synthesis voice and big voice databases. At this final project had be done for developing synthesis voice with characteristic Indonesia voice apply HMM-based Speech Synthesis System ( HTS) which is merger between HTK with SPTK. Result from this system is synthesis voice and can use for Galatea system.

Key words − speech recognizer, speech synthesizer, facial-image

synthesizer, dialog controller, communication manager, HMM, HTS, HTK, SPTK.

(5)

KATA PENGANTAR

Puji syukur kehadirat Allah SWT atas segala karunia dan inayah NYA yang sangat besar sehingga penulis dapat menyelesaikan tugas akhir dengan judul :

PEMANFAATAN GALATEA UNTUK MEMBANGUN KARAKTER HIDUP

Sub Judul: Speech Synthesis Module (SSM)

Buku tugas akhir ini disusun sebagai salah satu syarat akademik untuk memperoleh gelar ahli madya pada jurusan Teknik Telekomunikasi , Fakultas Politeknik Elektronika Negeri Suarabaya, Institut Teknologi Speuluh Nopember Surabaya.

Untuk dapat memahami isi dari buku ini dengan mudah, hendaknya pembaca terlebih dahulu mengetahui latarbelakang, batasan masalah dan permasalahan yang diangkat.

Dalam penyusunan buku tugas akhir ini penulis mengambil referensi dari beberapa sumber seperi teori-teori yang yang telah penulis peroleh dari perkuliahan, membaca literatur, serta bimbingan dari dosen pembimbing.

Akhirnya penulis menyadari bahwa masih banyak kekurangan dan kelemahan dalam buku ini. Oleh karena itu, penulis mengharapkan saran, kritik, dan koreksi yang konstruktif untuk perkembangan lebih lanjut.

Semoga buku tugas akhir ini dapat memberikan manfaat bagi pengembangan ilmu pengetahuan dan bagi semua pihak pada umumnya serta bagi penulis sendiri pada khususnya.

Surabaya, Juli 2006

(6)

Alhamdulillah. Kami panjatkan puji syukur kehadhirat Allah SWT atas segala rahmat dan hidayah-Nya sehingga kegiatan proyek akhir ini dengan judul “Pemanfaatan Galatea Untuk Pembangunan Karakter Hidup Sub: Speech Synthesis Module (SSM)” dapat diselesaikan dengan baik. Pada kesempatan ini penulis sampaikan terima kasih yang sebesar-besarnya kepada :

1. Allah SWT yang telah memeberikan rahmat dan hidayahnya sehingga proyek akhir ini dapat terselesaikan dengan baik.

2. Bapak dan Ibu saya yang selalu memberikan dukungan baik materi maupun moril dalam peyelesaian tuga akhir ini.

3. Bapak Sritrusta Sukaridhoto selaku pembimbing I yang telah memberikan pemahaman serta pencerahan dalam proses pengerjaan Proyek Akhir ini.

4. Bapak Titon Dutono, selaku Direktur Politeknik Elektronika Negeri Surabaya sekaligus sebagai dosen pembimbing yang senantiasa memberikan pencerahan dalam proses pengerjaan Proyek akhir.

5. Bapak Miftahul Huda selaku ketua jurusan Teknik Telekomunikasi Politeknik Elektronika Negeri Surabaya.

6. Buat Alief Fauzia Amalia yang selalu memberikan dukungan moral saat stress.

7. Teman – teman Goodle2006 yang selalu kompak dalam segala keadaan.

8. Seluruh teman – teman Telkom A angkatan 2003 yang semakin kompak.

9. Para sukarelawan yang bersedi mengisi polling untuk MOS. 10. Semua pihak yang tak dapat disebutkan satu – persatu yang telah

membantu dalam proses pengerjaan proyek akhir ini

Akhir kata, segala kritik dan saran sangat saya harapkan untuk pengembangan penelitian selanjutnya.

Surabaya, Juli 2006

(7)

DAFTAR ISI

HALAMAN JUDUL ………..……..………. i LEMBAR PENGESAHAN ………...……… ii ABSTRAK ………... iii ABSTRACT ………... iv KATA PENGANTAR ………... v

UCAPAN TERIMA KASIH... vi

DAFTAR ISI ……….. vii

DAFTAR GAMBAR... x DAFTAR TABLE... xi BAB 1 PENDAHULUAN ……..……….. 1 1.1 LATAR BELAKANG ………... 1 1.2 PERUMUSAN MASALAH ……….. 2 1.3 BATASAN MASALAH ………... 3

1.4 TUJUAN DAN MANFAAT……….. 3

1.5 METODOLOGI ………... 4

1.6 SISTEMATIKA PEMBAHASAN... 5

BAB 2 DASAR TEORI ………... 7

2.1 UMUM ………...… 7

2.2 PENGOLAHAN SINYAL WICARA... 7

2.2.1 Sinyal Suara Manusia………. 7

2.2.2 Representasi Sinyal Ucapan... 9

2.2.3 Karakteristik Sinyal Ucapan... 11

2.2.3.1 Vokal………... 12 2.2.3.2 Diftong……… 13 2.2.3.3 Konsonan Nasal……….. 13 2.2.3.4 Konsonan Friktif……….. 14 2.2.3.5 Konsonan Stop……… 14 2.3 GALATEA TOOLKIT .……….... 15 2.4 SPEECH SYNTHESIS... 18

2.4.1 Teknologi Sintesa Suara……….. 18

2.5 HMM-Based Speech Synthesis System... 19

2.5.1 Proses Training... 20

2.5.1.1 Pemodelan Spektrum……….………….. 20

(8)

2.5.1.4 Decision-tree Berbasis Context Clustering 25

2.5.2 Proses Sintesa……….. 26

2.6 HIDDEN MARKOV MODEL……… 26

2.6.1 Pendahuluan……….. 26 2.6.2 Observasi……….. 27 2.6.3 Inisialisasi………. 29 2.6.4 Estimasi……… 30 2.7 HMM-TOOLKIT………. 33 2.7.1 Pendahuluan……….. 33

2.7.2 Arsitektur Perangkat lunak HTK……... 34

2.8 Speech Signal Processing Toolkit (SPTK)…... 35

2.8.1 SWAB………... 35

2.8.2 X2X... 36

2.8.3 FRAME... 38

2.8.4 WINDOW... 39

2.8.5 PITCH... 40

BAB 3 PERENCANAAN DAN PEMBUATAN 3.1. INSTALASI DAN KONFIGURASI SISTEM... 43

3.1.1 Installasi Sistem Operasi………... 43

3.1.2 Konfigurasi sound di linux... 45

3.1.3 Installasi Galatea... 48

3.1.4 Software yang dibutuhkan... 48

3.1.5 Struktur Direktori di Dalam Galatea……... 49

3.1.6 Installasi Face Synthesis Module (FSM)….. 51

3.1.7 Installasi Java……… 52

3.1.8 Instalasi Morpheme analysis (morph)……... 53

3.1.9 Verifikasi pada Speech Synthesis (SSM)….. 54

3.1.10 Verifikasi pada Speech Recogniton (SRM).. 55

3.1.11 Task manager (TM) ………. 56

3.1.12 Ruby/TK……….... 56

3.1.13 Galatea DM setup……….. 57

3.1.14 Installasi toolkit untuk merekam……… 57

3.1.15 Installasi HTS……… 59

3.2. PEMBUATAN DATABASE SUARA……… 63

(9)

3.2.2 Perekaman dan Pelabelan Suara... 63

3.2.2.1. HSLAB... 64

3.2.2.2. wavesurfer... 67

3.2.3 Ekstraksi Pitch………... 69

3.2.4 Pendefinisian HMM………... 70

3.2.5 Pembangunan Databases Suara... 72

3.2.6 Proses Training pada Databases Suara... 75

3.2.6.1.

Inisialisasi...

76

3.2.6.2. Training... 79

3.2.6.3. Iterasi……….. 81

3.2.6.4. Sintesa Suara dalam HTS-demo... 82

3.3. INTEGRASI KEDALAM SISTEM GALATEA... 83

3.4. Pembangunan Text To Speech Indonesia... 83

BAB IV PENGUJIAN DAN ANALISA SISTEM 4.1 PENDAHULUAN………...……. 89

4.2 PENGUJIAN HASIL SINTESA SUARA………... 89

4.2.1 Analisa Pembangunan Databases Suara Indonesia………. 89

4.3 Nilai Mean Opinion Score (MOS)………... 97

BAB V PENUTUP 5.1 KESIMPULAN……… 99 5.2 SARAN……… 99 DAFTAR PUSTAKA………...……… 100 LAMPIRAN... 101 RIWAYAT HIDUP

(10)

Gambar 2.1 Sinar X Penampang Alat-Alat Ucap Manusia …... 8

Gambar 2.2 Model Sistem Produksi Ucapan Manusia ...……… 9

Gambar 2.3 Contoh Sinyal Ucapan “It’s time”……….. 10

Gambar 2.4 Daftar dan Klasifikasi Fonem Inggris-Amerika... 12

Gambar 2.5 Bentuk Sinyal Ucapan Vokal Bahasa Inggris... 13

Gambar 2.6 Skema Galatea Project………... 15

Gambar 2.7 Skema Synthesis Module………... 16

Gambar 2.8 Sistem HMM-based speech synthesis…... 20

Gambar 2.9 Grafik Mel dan Frekuensi... 21

Gambar 2.10 Struktur MLSA Filter... 22

Gambar 2.11 Proses Modeling MSD-HMM... 24

Gambar 2.12 Decision-tree Berbasis Context Clustering……….. 25

Gambar 2.13 Markov model... 28

Gambar 2.14 Algoritma viterbi... 29

Gambar 2.15 Diagram alir untuk estimasi... 30

Gambar 2.16 Contoh Proses Pembelajaran dan Pengenalan... 32

Gambar 2.17 Arsitektur HTK... 34

Gambar 3.1 Konfigurasi Modconf... 47

Gambar 3.2 Tampilan Wavesurfer... 58

Gambar 3.3 Tampilan HSLAB………... 65

Gambar 3.4 Wavesurfer... 66

Gambar 3.5 Proses Perekaman dan Pelabelan... 68

Gambar 3.6 Proses Training... 76

Gambar 3.7 Proses Inisialisasi... 76

Gambar 3.8 Proses TrainingMenggunakan Hrest... 79

Gambar 3.9 Tampilan text to Speech Indonesia... 87

Gambar 4.1 Sinyal Suara... 92

Gambar 4.2 Sinyal Pitch... 93

Gambar 4.3 Bentuk Sinyal Mel-Cepstrum... 96

Gambar 4.4 Spektrum FFT... 97

(11)

DAFTAR TABLE

Tabel 2.1 Daftar Fonem Untuk American English... 11 Table 4.1 Table Nilai Mean Opinion Score(MOS)... 98

(12)

(13)

B A B I

PENDAHULUAN

1.1 LATAR BELAKANG

Anthropomorphic Spoken Dialog Agent (ASDA) adalah suatu software toolkit untuk mengembangkan sebuah agen human-like spoken dialog. ASDA bertingkah laku seperti manusia dengan animasi wajah dan gesture, serta pembuatan percakapan dengan manusia yang merupakan generasi baru human-interface. Meskipun sejumlah besar sistem ASDA telah dikembangkan, komunikasi antara sistem ASDA dengan manusia masih jauh dari natural dan perkembangan sistem ASDA dengan kualitas tinggi masih sangat menarik. Sehingga untuk mengaktifkan dan memajukan penelitian dalam bidang ini, kami percaya bahwa sebuah pembangunan sistem ASDA yang mudah digunakan, mudah disesuaikan dan software toolkit yang gratis adalah sangat diperlukan. Sebagai contoh, hal ini sangat menyenangkan jika toolkit ini menyediakan karakter life-like agent yang tak terbatas, mempunyai wajah dan suara yang berbeda seperti manusia dalam dunia nyata.

Kami mengembangkan software toolkit ASDA menggunakan galatea dengan tujuan menyediakan sebuah platform untuk membangun generasi baru sistem ASDA. Adapun fitur-fitur dari toolkit ini adalah kemampuan tinggi dalam synthesis text to speech, fungsi dasar untuk mencapai speech recognition, mekanisme untuk lip synchronization antara audio speech dan lip image motion, arsitektur virtual machine untuk mencapai kejelasan dalam komunikasi antar modul.

Jika dibandingkan dengan toolkit lain seperti CSLU toolkit dan DARPA Communicator Program, toolkit ini masih dalam persiapan (awal). Meskipun demikian, toolkit kami tersusun rapi, sederhana, mudah dimengerti sehingga cocok untuk pengembangan sistem ASDA untuk tujuan riset dan tentu saja ini adalah toolkit dari Jepang yang pertama dari life-like agent. Salah satu fitur yang terkenal dari galatea adalah bahwa galatea menggunakan foto seseorang untuk mensintesis image wajah dari sebuah agen. Oleh karena itu, galatea dapat mensintesa agen yang mempunyai wajah yang berbeda dari orang-orang yang berbeda. Sekarang sistem ASDA yang mudah telah sukses dibangun dengan toolkit under UNIX/Linux dan Windows dan bagian dari toolkit

(14)

Dalam Galatea, sintesis image wajah dan suara dapat diubah-ubah dengan mudah tergantung maksud dan aplikasi dari user toolkit. Perubahan ini diselesaikan dengan baik oleh model pengguna berdasarkan tindakan dimana parameter model dasar diarahkan atau ditentukan dengan sebuah data training yang diambil dari seseorang. Sehingga dari parameter model tersebut dapat diarahkan untuk mendapatkan kualitas ekspresi wajah dan suara yang dapat dikontrol dengan mudah.

Dasar dari system agen menggunakan galatea terdiri dari lima unit fungsional yang meliputi speech recognition, speech synthetizer, facial animation synthetizer, agent manager yang bekerja sebagai sebuah inter-module communication manager dan task (dialog) manager. Sebagai tambahan, galatea mempersiapkan prototyping tools untuk kemudahan pengkodean scenario dialog. Di dalam galatea toolkit, unit fungsional secara bebas dimodulkan. Peralatan input/output secara langsung diatur dalam modul. Agent Manager mengontrol komunikasi antar modul. Jika ingin menambah sebuah fungsi baru, implementasikan sebuah modul baru dengan fungsi baru dan modul baru tersebut terkoneksi dengan agent manager. Dialog manager mengkomunikasikan agent manager untuk mencapai dialog tasks berdasarkan database dari skenario dialog. Prototyping tool yang mendukung pembuatan database dari skenario dialog, bekerja secara bebas dari agent manager.

1.2 PERUMUSAN MASALAH

Permasalahan dalam proyek akhir ini adalah rancang bangun agent yang interaktif yaitu dengan menggabungkan beberapa modul yang berbeda karakteristik yaitu speech recognizer, speech synthesizer, facial-image synthesizer dan dialog cotroller, dimana setiap modul ini dimodelkan sebagai sebuah mesin virtual yang memiliki antar muka atau interface yang saling terhubung oleh communication manager.

Dalam sub judul ini adalah menghasilkan suara sintesa modul yang dapat menerjemahkan inputan atau perintah dari agent manager berupa teks dan merekam inputan tersebut. Speech Synthesis Module akan menghasilkan teks yang akan dirubah kebentuk gelombang suara. Dalam pembuatan module ini dibutuhkan sebuah database yang digunakan untuk penyimpanan teks yang telah dirubah kebentuk suara atau

(15)

fonemnya. Sehingga pada module ini kita juga harus menyediakan teks untuk dimasukkan kedalam database tersebut. Untuk mencapai perubahan Speech Synthesis Module(SSM), modul tersebut tidak terbatas menerima teks tetapi mensintesa (memadukan) wicara dengan suara manusia secara jelas dalam bentuk yang spesifik.

1.3 BATASAN MASALAH

Permasalahan yang harus diselesaikan pada proyek akhir ini dibatasi pada hal-hal sebagai berikut:

• Dapat membangun module speech synthesizer yang dapat meghasilkan suara yang memiliki karakteristik orang Indonesia.

1.4 TUJUAN DAN MANFAAT

Tujuan dari proyek akhir ini adalah pembuatan teknologi life-like characters untuk mengubah dan mengembangkan interaksi antara manusia dan komputer. Life-like characters adalah suatu pola yang bertujuan mendukung kecenderungan manusia untuk berinteraksi dengan komputer sebagai aktor sosial. Sebuah karakteristik umum yang mendasari tampilan yang seperti hidup (logis) sebagai lawan bicara adalah model komputasi yang menyediakan fungsi secara efektif seperti sintesa emosi dan kepribadian serta mengimplementasikan tingkah laku manusia secara interaktif atau merepresentasikan ketrampilan.

Kami mengembangkan software toolkit ASDA menggunakan galatea dengan tujuan untuk dapat mempelajari speech processing dan image processing sehingga dapat dikembangkan untuk dijadikan berbagai aplikasi yang lain.

1.5 METODOLOGI

Pada metodologi ini ditunjukkan bagan dari Implementasi Anthropomorphic Spoken Dialog Agents (ASDA) menggunakan Galatea. Untuk mendapatkan modul SSM dalam Anthropomorphic Spoken Dialog Agents (ASDA) Menggunakan Galatea yang kita inginkan diantaranya kita harus melakukan langkah-langkah sebagai berikut:

(16)

a. Pengumpulan Bahan dan Source

Pengumpulan bahan yakni mencari source yang akan digunakan untuk membangun Anthropomorphic Spoken Dialog Agents (ASDA). Pada project ini kita menggunakan GALATEA sebagai Open Source Software for Developing Anthropomorphic Spoken Dialog Agents (ASDA). Selain itu juga mencari panduan dalam proses installasinya. Pada sub judul SSM kita harus memfokuskan text-to-speech engine yang terdapat pada GALATEA.

b. Instalasi Source

Pada proses instalasi kita harus meperhatikan secara tepat bagaimana software original berjalan dan mecari module yang berhubungan dengan SSM dan terletak dimana saja sub modul yang kita butuhkan. Diataranya sub modul Text Analyzer, Waveform Generation Engine , Dictionary, dan Speech Output.

c. Penambahan Kata

Penambahan kosa kata yang akan digunakan dalam percakapan yang terjadi pada saat jual beli tiket. Kata didaftar dan dimasukkan kedalam skenario yang akan digunakan dalam percakapan dalam jual beli tiket.

d. Penambahan Karakteristik Suara

Penambahan karakteristik suara hasil sintesa suara dengan karakteristik suara manuasia. Sintesa suara dilakukan dengan mentraining sejumlah suara dengan metode HMM-based Speech Synthesis System (HTS). Hasil dari proses training yaitu jenis suara baru dengan karakteristik orang Indonesia yang kemudian dapat digunakan dalam GALATEA.

(17)

e. Integrasi dan Pengujian Sistem

Hasil dari pembuatan dan pengeditan pada setiap sub modul yang terdapat SSM dapat dilakukan integrasi dengan sub modul atau modul yang lain dan kemudian dilakukan pengujian system. Pada tahap ini setiap modul dan sub modul harus dapat berjalan dengan baik. Apabila masih terjadi kesalahan maka akan kembali ke tahab sebelumnya.

f. Eksperiment dan Analisa Sistem

Sistem yang sudah dibangun dan telah terintegrasi dengan baik dapat dilakukan eksperimen diataranya dengan pengujian terhadap kata-kata tertentu. Kemudian kita dapat menganalisa terhadap sistem kita. 1.6 SISTEMATIKA PEMBAHASAN

Buku laporan proyek akhir ini terdiri dari 5 (lima) bab, dimana masing-masing bab mempunyai kaitan satu sama lain, yaitu:

BAB I. PENDAHULUAN

Akan diuraikan tentang latar belakang dan tujuan batasan masalah serta metodologi pembahasan masalah yang yang digunakan. BAB II. TEORI PENUNJANG

Teori yang akan digunakan dalam penyelasaian proyek akhir ini. Pada bab ini akan diuraikan semuanya tentang dasar yang manjadi landasan dalam pembuatan suara sintesa dan kemudian yang akan diapakai dalam paket galatea.

BAB III. PERENCANAAN DAN PEMBUATAN SUARA SINTESA Pada bab ini akan dibahas mengenai tahap tahap pembuatan dan proses kerja dari sistem.

BAB IV. PANGUJIAN DAN ANALISA SISTEM

Pada bab ini akan dijelaskan tentang proses pengujian sistem yang telah dibuat dan hasil analisa dari hasil pengujian sistem tersebut, supaya diketahui hasil yang telah dicapai apakah sesuai dengan tujuan yang telah ditetapkan untuk dicapai.

(18)

(19)

B A B 2

DASAR TEORI

2.1 U M U M

Pada bab ini diberikan teori dasar yang melandasi permasalahan dan penyelesaiannya yang diangkat dalam proyek akhir ini. Teori dasar yang digunakan untuk mendukung proyek akhir berjudul Pemanfaatan Galatea Untuk Pembangunan Karakter Hidup sub judul Speech Synthesis Module (SSM) diantaranya adalah: Pengolahan sinyal suara, Speech Synthesis, HMM-Based Speech Synthesis System (HTS), Hidden Markov Model Toolkit (HTK), Speech Signal Processing Toolkit (SPTK).

2.9 PENGOLAHAN SINYAL WICARA

2.2.1. Sinyal suara manusia

Ucapan manusia dihasilkan oleh suatu sistem produksi ucapan yang dibentuk oleh alat-alat ucap manusia. Proses tersebut dimulai dengan formulasi pesan dalam otak pembicara. Pesan tersebut akan diubah menjadi perintah-perintah yang diberikan kepada alat-alat ucap manusia, sehingga akhirnya dihasilkan ucapan yang sesuai dengan pesan yang ingin diucapkan. Gambar dibawah menunjukkan rongga mulut manusia sebagai alat-alat ucap manusia.

Gambar 2.1 memperlihatkan foto sinar X penampang alat-alat ucap manusia. Vocal tract pada gambar tersebut ditandai oleh garis putus-putus, dimulai dari vocal cords atau glottis, dan berakhir pada mulut. Vocal tract terdiri dari pharynx (koneksi antara esophagus dengan mulut) dan mulut. Panjang vocal tract pria pada umumnya sekitar 17 cm. Daerah pertemuan vocal tract ditentukan oleh lidah, bibir, rahang, dan bagian belakang langit-langit. Luasnya berkisar antara 20 cm2 sampai dengan mendekati nol. Nasal tract mulai dari bagian belakang langit-langit dan berakhir pada nostrils. Pada keadaan tertentu, suara nasal akan dikeluarkan melalui rongga ini.

(20)

Gambar 2.1 Foto Sinar X Penampang Alat-Alat Ucap Manusia Gambar 2.2 memperlihatkan model sistem produksi ucapan manusia yang disederhanakan. Pembentukan ucapan dimulai dengan adanya hembusan udara yang dihasilkan oleh paru-paru. Cara kerjanya mirip seperti piston atau pompa yang ditekan untuk menghasilkan tekanan udara. Pada saat vocal cord berada dalam keadaan tegang, aliran udara akan menyebabkan terjadinya vibrasi pada vocal cord dan menghasilkan bunyi ucapan yang disebut voiced speech sound. Pada saat vocal cord berada dalam keadaan lemas, aliran udara akan melalui daerah yang sempit pada vocal tract dan menyebabkan terjadinya turbulensi, sehingga menghasilkan suara yang dikenal sebagai unvoiced sound.

(21)

Gambar 2.2. Model Sistem Produksi Ucapan Manusia Ucapan dihasilkan sebagai rangkaian atau urutan komponen-komponen bunyi-bunyi pembentuknya. Setiap komponen-komponen bunyi yang berbeda dibentuk oleh perbedaan posisi, bentuk, serta ukuran dari alat-alat ucap manusia yang berubah-ubah selama terjadinya proses produksi ucapan.

2.2.2. Representasi Sinyal Ucapan

Sinyal ucapan merupakan sinyal yang berubah terhadap waktu dengan kecepatan perubahan yang relatif lambat. Jika diamati pada selang waktu yang pendek (antara 5 sampai dengan 100 mili detik), karakteristiknya praktis bersifat tetap; tetapi jika diamati pada selang waktu yang lebih panjang karakteristiknya terlihat

(22)

berubah-memperlihatkan contoh sinyal ucapan dari suatu kalimat bahasa Inggris “It’s time” yang diucapkan oleh seorang pria. Setiap baris pada gambar tersebut memperlihatkan potongan sinyal selama 100 mili detik, sehingga seluruh gambar tersebut memperlihatkan sinyal ucapan sepanjang 500 mili detik.

Gambar 2.3. Contoh Sinyal Ucapan “It’s time”

Ada berbagai cara untuk mengklasifikasikan bagian-bagian atau komponen sinyal ucapan. Salah satu cara yang sederhana adalah dengan cara mengklasifikasikannya menjadi tiga keadaan yang berbeda, yaitu (1) silence (S), keadaan pada saat tidak ada ucapan yang diucapkan; (2) unvoiced (U), keadaan pada saat vocal cord tidak melakukan vibrasi, sehingga suara yang dihasilkan bersifat tidak periodic atau bersifat random; (3) voiced (V), keadaan pada saat terjadinya vibrasi pada vocal cord, sehingga menghasilkan suara yang bersifat kuasi periodik.

(23)

2.2.3. Karakteristik Sinyal Ucapan

Unit bunyi terkecil yang dapat dibedakan oleh manusia disebut fonem. Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihat sebagai urutan fonem. Himpunan fonem yang ada dalam suatu bahasa berbeda-beda. Setiap fonem disimbolkan dengan suatu simbol yang unik. Saat ini ada beberapa standar cara penamaan fonem yang berlaku , diantaranya adalah standar IPA (International Phonetic Alphabet), ARPABET, serta SAMPA. Tabel 2.1 memperlihatkan daftar fonem bahasa Inggris-Amerika serta representasinya dalam simbol-simbol IPA serta ARPABET.

Tabel 2.1 Daftar Fonem Untuk American English

Setiap fonem memiliki ciri-ciri yang berbeda. Gambar 2.4 memperlihatkan daftar fonem serta pengkalisifikasiannya untuk bahasa Inggris-Amerika.

(24)

Gambar 2.4 Daftar dan Klasifikasi Fonem Bahasa Inggris-Amerika

2.2.3.1. Vokal

Sinyal ucapan vokal memiliki bentuk kuasi periodik seperti terlihat pada Gambar 2.5. Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu fonem vokal dengan fonem vokal lainnya. Fonem vokal Bahasa Inggris mencakup fonem-fonem /IY/, /IH/, /EH/, /AE/, /AA/, /ER/, /AH/, /AX/, /AO/, /UW/, /UH/, dan /OW/. Penelitian untuk mengidentifikasikan karakteristik fonem-fonem vokal Bahasa Indonesia pernah dilakukan dan dipublikasikan oleh Arry Akhmad Arman pada tahun 1999

(25)

Gambar 2.5. Bentuk Sinyal Ucapan Vokal Bahasa Inggris

2.2.3.2. Diftong

Diftong pada prinsipnya adalah dua fonem vokal yang berurutan dan diucapkan tanpa jeda. Fonem diftong Bahasa Inggris mencakup /AY/, /OY/, /AW/, dan /EY/. Karakteristik diftong mirip dengan karakteristik fonem-fonem vokal pembentuknya disertasi bentuk transisinya

2.2.3.3. Konsonan Nasal

Konsonan nasal dibangkitkan dengan eksitasi glotal dan vocal tract mengerut total pada beberapa titik tertentu sepanjang lintasan pengucapan. Bagian belakang langit-langit merendah, sehingga udara mengalir melalui nasal tract dengan suara yang dipancarkan melalui lubang hidung. Konsonan nasal Bahasa Inggris adalah /M/, /N/, dan /NX/.

(26)

Konsonen frikatif pada prinsipnya dapat dibedakan menjadi frikatif unvoiced serta voiced. Fonem Bahasa Inggris yang termasuk frikatif unvoiced adalah /F/, /TH/, /S/, dan /SH/, sedangkan yang termasuk frikatif voiced adalah /V/, /Z/, dan /ZH/. Frikatif unvoiced dibentuk dengan suatu eksitasi terhadap vocal tract dengan suatu aliran udara yang tetap, sehingga menyebabkan turbulensi di daerah yang mengkerut dalam vocal tract. Frikatif voiced agak berbeda dengan frikatif unvoiced. Pada frikatif voiced, suara dihasilkan oleh dua sumber eksitasi. Sumber eksitasi lainnya adalah glotis.

2.2.3.5. Konsonan Stop

Seperti konsonan frikatif, konsonen stop dapat dibedakan menjadi konsonan stop unvoiced serta voiced. Konsonan stop memiliki bentuk yang berbeda dengan konsonan-konsonan lainnya. Konsonan ini memperlihatkan pola transient dan tidak kontinyu. Konsonan ini dibentuk dengan cara memberikan tekanan pada kondisi pengerutan total di bagian rongga mulut tertentu, dan segera diikuti dengan pelemasan. Untuk fonem /B/ pengerutan terjadi di bibir, untuk fonem /D/ pengerutan terjadi di belakang gigi depan, sedangkan untuk fonem /G/ pengerutan terjadi di sekitar bagian belakang langit-langit. Selama perioda total pengerutan terjadi, tidak ada suara yang dikeluarkan dari mulut, sehingga fonem ini selalu mengandung bagian yang menyerupai silence. Fonem Bahasa Inggris yang termasuk konsonan stop unvoiced adalah /P/, /T/, dan /K/, sedangkan yang termasuk konsonan stop voiced adalah /B/, /D/, dan /G/.

(27)

2.10 GALATEA TOOLKIT

Dasar dari system agen menggunakan galatea terdiri dari lima unit fungsional yang meliputi speech recognition, speech synthetizer, facial animation synthetizer, agent manager yang bekerja sebagai sebuah inter-moule communicatin manager, task manager dan dialog manager. Sebagai tambahan, galatea mempersiapkan prototyping tools untuk kemudahan pengkodean scenario dialog. Gambar 2.6 menunjukkan arsitektur model dasar dari galatea toolkit. Di dalam galatea toolkit, unit fungsional secara bebas dimodulkan. Peralatan input/output secara langsung diatur dalam modul. Agent manager mengontrol komunikasi antar modul. Jika anda ingin menambah sebuah fungsi baru, anda implementasikan sebuah modul baru dengan fungsi baru dan modul baru tersebut terkoneksi dengan agent manager. Dialog manager mengkomunikasikan agent manager untuk mencapai dialog tasks berdasarkan database dari skenario dialog. Prototyping tool yang mendukung pembuatan database dari skenario dialog dan bekerja secara bebas dari agent manager.

(28)

berbicara, mendengar dan bertingkah laku seperti manusia, suatu konfigurasi yang easy-to-customize. Dalam Galatea sintesa image wajah dan suara dapat diubah-ubah dengan mudah tergantung maksud dan aplikasi dari user toolkit. Perubahan ini diselesaikan dengan baik oleh model pengguna berdasarkan tindakan dimana parameter model dasar diarahkan atau ditentukan dengan sebuah data training yang diambil dari seseorang yang ada. Suatu kejadian sebuah parameter model diarahkan, kualitas ekspresi wajah dan suara dapat dikontrol dengan mudah.

Pemanfaatan Galatea Untuk Pembuatan Karakter Hidup Sub Judul : Speech Synthesis Modul memiliki 4 sub modul yang terdapat pada gambar 2.7. diantaranya Text Analyzer yang akan menganalisa teks Jepang untuk dicocokkan dengan database teks yaitu Chasen. Text analyzer juga menghasilkan informasi linguistic diantaranya pronoun, jenis aksen, fonem dan lainya. Waveform Generation Engine yang menghasilkan parameter suara yang berurutan dan menkonversinya menjadi synthechic speech waveform atau gelombang suara. Sedangkan pada sub module Speech Output akan menghasilkan synthechic speech waveform atau suara sintesa.

Gambar 2.7. Skema Synthesis Module

Untuk mencapai perubahan Speech Synthesis Module(SSM), modul tersebut tidak terbatas menerima teks Jepang termasuk juga huruf “Kanji” (Cina) dan huruf “Kana”, dan mensintesa wicara dengan suara

(29)

manusia secara jelas dalam bentuk yang spesifik.

Waveform generation engine didalam SSM berdasarkan pada HMM-speech sythisizer yang menghasilkan model spektrum yang simultan, F0 dan lamanya dikelompokkan menjadi framework dari HMM (Hidden Markov Model). HMM adalah sebuah teknik untuk pengurutan waktu dalam parameter vector. HMM model menggenerate probability dalam parameter vector berdasarkan bagian dari perpindahan yang terjadi. HMM dapat digunakan untuk mengenali pola terutama untuk speech recognition dengan menyeleksi banyaknya probabilitas dalam parameter vector. HMM juga dapat menghasilkan time sequence dari feature vectors. Di dalam speech synthesis, HMM sequence menampilkan fonem secara berurutan didalam kalimat, dan menghasilkan time sequence dalam feature vector. HMM berdasarkan speech synthesis memiliki keuntungan dalam kontrol kuwalitas suara dalam gelombang suara. Teknik adaptasi speaker dalam HMM berbasis speech recognation dapat digunakan untuk percakapan. Seperti teknik yang dapat diguanakan secara mudah dalam berbagai tipe speaker di dalam speech synthesis system.

SSM modul juga menjalankan berbagai fungsi yang penting untuk menghasilkan mekanisme untuk sinkronisasi gerak bibir dengan suara, yang diberi nama “lip-sync”. Mekanisme ini berdasarkan pembagian setiap timing dan durasi informasi untuk fonem didalam suara.

Akhirnya, SSM dapat menyela suara yang dikeluarkan untuk mengatasi tukar menukar suara dalam dialog system. Ini juga penting untuk menampilkan dialog yang natural antar manusia dengan mesin. Ketika suara keluaran disela, SSM memberikan urutan fonem dalam kata, dimana setiap user mengharapkan mendengar dari agent manager.

Dalam study pustaka yang lain yaitu JEIDA Standard of Symbols for Japanese Text-to-Speech Synthesizers oleh TANAKA Kazuyo, AKABANE Makoto, MINOWA Toshimitsu, ITAHASHI Shuichi dalam papernya menampilkan simbol standart yang biasanya digunakan dalam Japanese text-to-speech synthesizer. Standart ini telah didiskusikan dalam the Speech Input/Output Systems Expert Committee of the Japan Electronic Industry Development Association (JEIDA). dan telah diumumkan oleh JEIDA sebagai standart JEIDA yang diberi nama "JEIDA-62-2000" pada maret 2000.

Text-to-speech (TTS) synthesizers telah banyak tersedia di kehidupan kita dalam bentuk aplikasi yang bervariasi. Dalam

(30)

"JEIDA-dalam TTS engine membutuhkan sebuah inputan. TTS engine akan mensintesa suara dengan membaca setiap karakter secara berurutan dalam menulis standarisai simbol dan mendeskripsikan format. Dari hasil perundingan commite telah dipertimbangkan bahwa simbol harus memiki beberapa karakteristik diantaranya:

1. Simbol tidak bergantung pada suatu aplikasi atau plaform seperti arsitektur hardware, operating system, bahasa pemrograman, kode karakter dan lainya.

2. Simbol harus mempunyai kemampuan untuk digunakan dalam banyak aplikasi.

2.11 SPEECH SYTHESIS

Sebuah text-to-speech system dibagi menjadi dua bagian yaitu front end dan back end. Pada bagian front end memiliki fungsi menerima inputan teks atau simbol. Sedangkan back end memiliki fungsi mengambil inputan simbol atau teks dan mengeluarkannya menjadi synthesized speech waveform. Sebuah speech synthesizer yang natural adalah seberapa banyak outputan suara yang dihasilkan menyerupai suara manusia dan seberapa mudah untuk dimengerti.

2.11.1 Teknologi Sintesa Suara

Ada dua macam teknologi yang digunakan untuk menghasilkan suara sintesis yaitu: concatenative synthesis dan formant synthesis. Concatenative synthesis

Concatenative synthesis berdasarkan sebuah rangkaian sekmen suara yang terekam. Pada umumnya Concatenative synthesis memberikan sebuah suara sythetis yang natural. Bagaimanapun variasi natural dari suara dan teknik otomatis untuk mensegmentasi sebuah gelombang kadang kala menghasilkan output yang mengalami pengurangan dari natural.

(31)

Formant synthesis

Sintese forman tidak menggunakan suara manusia pada saat runtime. Sebagai gantinya, suara sintesa dihasilkan menggunakan satu model akustik. Parameter-parameter seperti frekuensi dasar, suara, dan level noise bervariasi dari waktu ke waktu untuk membuat satu bentuk gelombang dari suara buatan. Metode ini adalah disebut rule-based synthesis.

Metode sintesa yang lain:

• Articulatory Synthesis adalah metode yang sering digunakan untuk akademik hingga sekarang, ini berdasarkan computational models dari saluran suara manusia dan proses-proses artikulasi yang terjadi.

• HMM-based Synthesis adalah metode sintesa berdasarkan Hidden Markov Model(HMMs). Dalam sistem ini frekuensi spektrum suara(vocal tract), frekuensi dasar (vocal source), dan durasi (prosody) adalah model simultan dari HMMs, Gelombang suara dihasilkan dari HMMs berdasarkan Maximum likelihood.

2.12 HMM-Based Speech Synthesis System (HTS)

Banyak sistem sintesa suara dapat digunakan untuk mensintesa suara dengan kualitas yang tinggi, tetapi mereka tidak dapat mensintesa suara dengan beberapa karakteristik suara seperti speaker individual, style berbicara, emosi, dan lain-lain. Untuk mendapatkan karakteristik di dalam sistem sintesa suara dibutuhkan data dalam jumlah yang besar, yang digunakan dalam membangun sistem sintesa suara yang digunakan untuk menghasilkan berbagai macam karakteristik suara.

Gambar 2.8. menunjukkan gambar dari proses training dan sintesa yang dilakukan oleh HTS. Dalam proses training spektrum dan parameter emosi sample suara diekstrak dari database suara dan dimodelkan dengan fungsi HMM. Fungsi HMM yaitu mensintesa suara kemudian spektrum dan parameter emosi akan diturunkan dari HMM.

Di dalam sistem HMM-based speech synthesis terdapat dua proses utama yaitu proses training dan proses sintesa yang dapat dijelaskan dalam gambar berikut:

(32)

Gambar 2.8. Sistem HMM-based speech synthesis

2.12.1 Proses Training

Dalam HTS vector ouput HMM mengandung bagian dari spectrum dan bagian dari excitation. Dalam hal ini bagian excitation mengandung log frekuensi dasar (log F0), delta dan delta-delta koefisien. HMMs memiliki bagian durasi density untuk model sementara dalam struktur suara. Hasil dari HTS model tidak hanya parameter spectrum tetapi juga F0 dan durasi dalam frame HMM. 2.12.1.1 Pemodelan Spektrum

Untuk mengontrol sintesa filter oleh HMM, fungsi dari sistem harus di definisikan dengan keluaran vector HMM yaitu koefisien mel-ceptral. Untuk mendapatkan koefisien mel-ceptral maka kita harus menggunakan teknik analisa mel-ceptral yang mana suara akan disintesa ulang menggunakan filter MLSA (Mel Log Spectrum Approximation).

(33)

Analisa Mel Ceptrum adalah teknik analisa menggunakan cepstrum sumbu non linier yang mengikuti skala dari mel untuk menghasilkan mel cepstrum. Mel cepstrum berasal dari mel dan cepstrum. Mel berasal dari kata melodi yaitu untuk mengindikasi skala dalam pitch. Referensi point dari skala dan frekuensi normal yaitu 1000 tone, 40 dB diatas threshold suara yang dapat didengar, dengan pitch 1000 mel, lebih tinggi dari 500Hz maka akan menghasilkan 4 oktaf dalam skala frekuensi diatas 500 Hz terdiri dari 2 oktaf dalam skala mel. Untuk menkonversi f frekuensi ke m mel dapat digunakan persamaan:

⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + =1127.01048log 1 f ₇₀₀ m e (2.1) Dan inverse: ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ =700 _em1127.01048 1 f (2.2)

Gambar 2.9. Grafik Mel dan Frekuensi

Cepstrum atau pronounce adalah hasil dari Fourier Transform (FT) dari spektrum suatu sinyal. Cepstrum dalam paper Bogert tahun 1963 didefinisikan:

(34)

tanpa phase dari FT

• Matematika : cepstrum dari signal = FT(log(FT(the signal))+j2πm) dimana m adalah fungsi log.

• Algoritma : signal → FT → log → phase unwrapping → FT → cepstrum

Terdapat komplek cepstrum dan real cepstrum. Real cepstrum menggunakan logaritma fungsi untuk mendapatkan nilai real. Sementara algoritma komplek digunakan untuk mendapatkan nilai komplek. Komplek cepstrum adalah informasi tentang magnitude dan phase dari spektrum. Sedangkan real cepstrum hanya menggunakan informasi magnitude dari spektrum.

Proses coding yang digunakan dalam HMMs yaitu teknik analisa mel-cepstral dengan menggunakan filter Mel Log Spectral Approximation(MLSA). Penggunaan analisa mel-cepstral yaitu untuk menghilangkan pengaruh noise shipping dan postfiltering sehingga menghasilkan suara dengan kulitas yang tinggi. Dibawah ini adalah struktur dari MLSA filter.

∑

= = − + + ≅ = _L l l l L L l l l L z F A z F A z F z D 1 , 1 , )} ( { 1 )} ( { 1 ) ( exp ) ( (2.3)

(35)

Fitur dari MLSA filter yaitu:

1. Keakurasian : Maksimum spectral error 0.24db 2. Stabil

2.12.1.2 F0 Modeling

Fundamental Frequency (F0) atau pitch adalah bagian terkecil dari sinyal. Satu periode pitch mempresentasikan periode sinyal secara penuh. Tedapat banyak algoritma untuk mendapatkan F0 dari suatu sinyal salah satunya yaitu HMMs. Didalam HMMs dikategorikan menjadi diskrit dan continuous. Meskipun demikian kita tidak dapat mengaplikasikan keduanya untuk menganalisa nilai continuous dan simbol diskrit. Begitu pula dengan penggunaan algoritma HMMs kedalam proses pemodelan dari pola frekuensi dasar (F0). Kita tidak dapat menggunakan kedua cara tersebut dalam pemodelan F0 karena nilai F0 tidak didefinisikan di dalam daerah unvoice atau daerah yang memiliki sinyal suara yang lemah.

Oleh karena itu penggunaan diskrit konvensional dan continuous tidak dapat diaplikasikan secara bersaman untuk pemodelan pola F0. Untuk pemodelan menggunakan pengamatan continuous dan diskrit kita dapat menggunakan HMMbased on multi-space probability distribution (MSD-HMM). MSD-HMM meliputi HMM diskrit dan continuous mixture HMM, dan lebih lanjut dengan menggunakan MSD-HMM dapat melakukan observasi vektor secara kontinue dengan menggunakan variable dimensi termasuk observasi zero-dimensional misalnya simbol diskret. Hasil dari MSD-HMM dapat membuat pola model F0 tanpa asumsi heuristic. Dibawah ini adalah proses modeling spektrum bersama, F0 dan durasi dengan menggunakan algoritma MSD-HMM.

(36)

Gambar 2.11. Proses Modeling spektrum , F0 dan durasi dengan MSD-HMM

2.12.1.3 Pemodelan Durasi

Durasi dalam setiap HMM dimodelkan dengan multivariate gaussian distribution. Dimensi dari durasi sama dengan banyaknya status dari HMM, dan demensi n-th dari status jangka waktu sama dengan n-th dari status HMMs. Status durasi yang dimodelkan dengan distribusi continue, memiliki keuntungan yaitu:

¾ Kecepatan dalam bicara dari synthetic speech dapat difariasikan dengan mudah.

¾ Tidak ada kebutuhan untuk batasan-batasan label manakala model awal tersedia karena jangka waktu status diperkirakan di dalam training embedded tentang fonem HMMs.

Adapun usulan untuk digunakan teknik ini dalam HMMs dan status durasi secara simultan atau bersamaan, meskipun demikian teknik ini membutuhkan database yang besar dan beban komputasi yang besar.

(37)

2.12.1.4 Decision-tree Berbasis Context Clustering

Terdapat banyak faktor kontekstual diantaranya identitas fonem, hubungan dengan emosi, faktor lokasi yang merupakan emosi dari spektrum, pola F0 dan durasi. Untuk menangkap semua efek ini, kita menggunakan context-dependent HMMs. Bagaimanapun faktor kontekstual menjadi meningkat, kombinasi juga meningkat secara eksponen. Oleh karena itu model parameter tidak dapat ditraining secara akurat apabila memiliki data training yang terbatas. Meskipun demikian tidak mungkin dapat menyiapkan database suara yang mana termasuk semua kombinasi dari faktor kontektual. Untuk mengatasi masalah ini dapat menggunakan Decision-tree berbasis Context Clustering. Teknik ini digunakan untuk distribusi spektrum, F0, dan durasi dalam cara yang sama seperti HMM-based speech recognition.

Algoritma Decision-tree berbasis Context Clustering telah diperluas untuk MSD-HMMs. Setiap spektrum, F0, dan durasi berpengaruh dalam setiap faktor kontektual. Maka faktor tersebut di cluster secara sendiri-sendiri yang dapat dilihat pada gambar 2.12. Status durasi dari setiap HMM dimodelkan dengan n-demensional Gaussian, dan context-depentdent n-dementional Gaussian adalah hasil cluster dari decision tree. Untuk catatan bagian dari spektrum dan F0 untuk ouput vektor dimodelkan dengan multivariate Gaussian distributions dan multi-space probability distributions secara berturut-turut.

(38)

2.12.2 Proses Sintesa

Di dalam proses sintesa dari HTS, pertama-tama sebuah teks akan disintesa dan dikonversi menjadi context-based label sequence. Kedua, berdasarkan urutan label kalimat HMM disusun dengan mengurutkan context dependent HMMs. Durasi dari kalimat HMM adalah faktor yang ditentukan supaya dapat memaksimalkan output kemungkinan dari durasi, dan kemudian urutan dari koefisien dari mel-cepstral dan nilai log F0 termasuk kondisi voiced/unvoiced untuk HMM ditentukan sedemikian hingga kemungkinan output dari HMM adalah dimaksimalkan menggunakan algoritma speech parameter generation.

Fitur utama dalam sistem ini adalah menggunakan fitur dinamik dengan cara memasukkan koefisien dinamik kedalam vektor feature, urutan parameter suara dihasilkan didalam proses sintesa dibuat agar realistik. Seperti yang didefinisikan dengan parameter statistik dari HMMs. Akhirnya, bentuk gelombang suara disatukan secara langsung dari koefisien mel-cepstral dan nilai F0 dengan menggunakan filter MLSA.

2.13 Hidden Markov Model (HMM) 2.13.1 Pendahuluan

Prinsip umum Hidden Markov Model adalah memodelkan simbol kedalam sebuah mesin finite state, sehingga diketahui simbol apa yang dapat mewakili sebuah parameter vektor dari sebuah kata dimasukkan kedalam mesin, dan diestimasi berulang–ulang hingga dihasilkan parameter vektor atau observasi ot dengan mean dan kovarian yang konvergen untuk setiap statenya. Pada implementasinya sistem pengenalan suara berbasis hidden markov model dibagi menjadi beberapa bagian sebagai berikut :

1. Data preparasi : pembentukan parameter vector (observasi) 2. Training : inisialisasi dan estimasi parameter vector 3. Testing : pengenalan

(39)

2.13.2 Observasi

Pemisahan kata menjadi simbol yang dilafalkan (phone) menghasilkan rangkaian observasi untuk setiap kejadian yang mungkin pada saat transisi antar state. Aggap suara sebagai sebuah rangkaian vektor suara atau observasi, yang didefinisikan sebagai berikut:

(2.4) Dimana ot adalah vektor suara yang diobservasi pada saat t.

Observasi pada dasarnya menentukan nilai dari persamaan berikut (2.5) Dimana wi adalah pengucapan yang ke-i, probabilitas ini tidak dapat dihitung secara langsung tetapi dapat dihitung dengan menggunakan aturan Bayes

(2.6) Maka, prioritas kemungkinan P(wi) sangat tergantung pada P(O | wi ).

Dalam pengenalan suara berbasis hmm, diasumsikan bahwa rangkaian vektor observasi berkorepondensi dengan masing masing word yang dihasilkan oleh markov model. Markov model adalah mesin finite state yang mengalami perubahan state sekali setiap satuan waktu t pada saat state j dimasuki, vektor suara ot dihasilkan berdasarkan nilai

kemungkinan bj(ot). Selanjutnya transisi antara state i ke state j juga merupakan probabilitas diskrit aij. Gambar di bawah menunjukkan contoh dari proses ini dimana lima model state berupa rangakaian state X = 1,2,3,4,5,6 untuk membangun urutan o1 sampai o6.

(40)

Gambar 2.13. Markov Model

Untuk membangun rangkaian observasi O dengan jumlah state 6. probabilitas diskrit untuk transisi dari state i ke state j ditentukan oleh aij sedangkan bj(ot) adalah probabilitas yang membentuk observasi pada saat t (ot) untuk state j

Probabilitas O dibangun oleh model M yang melalui seluruh urutan state X dihitung sabagai hasil perkalian antara kemungkinan transisi dan kemungkinan hasil. Jadi untuk rangkaian state X pada

gambar di atas

(2.7) Meskipun demikian hanya rangkaian observasi O yang diketahui dan rangkaian state X yang mendasari adalah tersembunyi. Itu mengapa ini disebut hidden markov model.

(41)

2.13.3 Inisialiasi

Inisialisasi dapat dilakukan dengan menggunakan algoritma viterbi untuk menemukan jalur terbaik dalam sebuah matrik dimana dimensi vertikal merepresentasikan state-state hmm dan dimensi horisontal merepresentasikan frame suara. Masing masing titik pada gambar dibawah menunjukkan kemungkinan terhadap frame saat itu dan daerah antar titik menunjukkan kemungkinan transisi.

Gambar 2.14. Algoritma viterbi

Untuk mencari urutan state setiap observasi pada frame suara diamana a35 menunjukkan kemungkinan transisi dari state 3 ke state 5 dan b3(o4) adalah probabilitas pembentukan observasi o3 pada state 3

Kemungkian masing masing jalur dihitung dengan menjumlah kemungkinan transisi dan kemungkinan keluaran sepanjang path. Pada waktu t masing masing bagian path diketahui untuk semua state i. dapat dihitung dengan persamaan di bawah

(2.9) Konsep path ini sangat berguna untuk suara kontinyu pada umumnya.

(42)

Proses estimasi dilakukan dengan menggunakan metode Baum-Welch Re-estimation. Formula Baum-Baum-Welch re-estimasi untuk mean dan kovarian pada masing masing state HMM adalah :

dan

Estimasi dilakukan terhadap mean dan varian HMM yang mana distribusi keluaran masing masing state adalah komponen gausian, yang didefinisikan sebagai berikut:

(2.12) Parameter vector akan diestimasi dengan menggunakan algoritma foreward-backward hingga diperoleh nilai probabilitas P(O|M) terbesar berdasarkan observasi pada masing – masing state. Perhitungan algoritma Baum-Welch dilakukan berdasarkan diagram alir berikut :

Gambar 2.15. Diagram alir untuk estimasi

(2.10)

(43)

Estimasi dilakukan terhadap parameter vektor pada initial HMM dengan menggunakan metode forward atau backward hingga diperoleh parameter vektor yang konvergen (tidak dapat diestimasi lagi). Kriteria update adalah nilai probabiltias observasi terhadap model P(O|M) lebih tinggi dari nilai iterasi sebelumnya.

Nilai kemungkinan foreward untuk beberapa model M dan N state didefinisikan sebagai

kemungkinan ini dapat dihitung berdasarkan rumus :

(2.13) sedangkan nilai kemungkinan backward untuk model M dan N state didefinisikan sebagai dan dapat dihitung dengan persamaan :

(2.14)

berdasarkan persamaan maka didapat persamaan untuk menentukan nilai probabilitas Lj(t sebagai berikut :

(2.15) dimana P = P(O|M).

Algoritma untuk membentuk re-estimasi parameter HMM dengan Baum-Welch re-estimasi adalah sebagai berikut :

1. Untuk setiap vektor parameter/matrik, alokasikan storage untuk pembilang dan penyebut formula Baum-Welch sebagai akumulator.

(44)

pada waktu t.

3. Untuk setiap state j dan waktu t, gunakan probabiltas LJ(t) dan vektor observasi saat ini ot untuk merubah acumulator pada state itu.

4. Gunakan nilai acumulator terakhir untuk menghitung nilai parameter yang baru.

5. Jika nilai P = P(O|M) iterasi saat ini kurang dari iterasi sebelumnya maka berhenti jika tidak ulangi langkah diatas dengan menggunakan nilai parameter yang baru.

Berikut contoh proses pembelajaran dan pengenalan untuk rangkaian observasi.

Gambar 2.16. Contoh Proses Pembelajaran dan Pengenalan Pada awalnya HMM dibelajari untuk memodelkan beberapa contoh kata dalam hal ini adalah “one, two, three”. Hasil dari pembelajaran adalah model yang telah diestimasi(M). Kemudian HMM digunakan untuk mengenali kata/observasi (O) berdasarkan hasil pembelajaran tersebut. P(O|M) adalah kemungkinan rangkaian observasi O terhadap model M.

(45)

2.14 HMM toolkit 2.14.1 Pendahuluan

Sistem pengenalan suara pada umumnya mengasumsikan bahwa sinyal suara merupakan realisasi dari beberapa kode pesan yang berupa satu atau beberapa urutan simbol. Untuk mendapatkan simbol – simbol itu, sinyal suara pertama kali diubah menjadi urutan vektor parameter diskrit dengan space yang sama. Vektor parameter diskrit ini diasumsikan membentuk representasi yang tepat terhadap sinyal suara dengan selang waktu selama kurang lebih 10 ms untuk satu vektornya, karena sinyal suara dapat dianggap stasioner. Walaupun tidak sepenuhnya benar, tetapi hal itu adalah tafsiran yang rasional.

Dasar dari pengenalan adalah pemetaan antara rangkaian vektor suara dan rangkaian simbol yang diinginkan. Dua hal yang menjadi masalah yaitu :

1. Pemetaan dari simbol menjadi suara tidak satu per satu karena perbedaan simbol yang mendasar dapat mempengaruhi bunyi suara yang hampir sama.

2. Batasan antar simbol tidak dapat diidentifikasikan secara langsung pada sinyal suara. Oleh karena itu adalah tidak mungkin menganggap sinyal suara sebagai rangkaian gabungan pola – pola statis.

Masalah kedua dapat diatasi dengan membagi sinyal menjadi simbol yang dikenali terpisah (word isolated recognition). Secara umum permasalahan yang terjadi pada sistem pengenalan suara seperti di atas dapat diselesaikan dengan menggunakan metode hidden markov model.

Hidden Markov Model Toolkit (HTK) adalah tool atau perangkat lunak yang mudah dignakan untuk membangun dan memanipulasi Hidden Markov Model. HTK pada dasarnya digunakan untuk penelitian mengenai pengenalan suara meskipun juga digunakan untuk sejumlah aplikasi yang lain termasuk penelitian dalam suara sintetis, pengenalan karakter, dan pengurutan DNA. HTK terdiri dari kumpulan beberapa modul librabry dan tool dalam bahasa C. Perangkat–perangkat tersebut memberikan fasilitas yang handal untuk speech analysis, HMM training, testing dan results analisis. Perangkat lunak ini mendukung HMM baik yang menggunakan continuous density mixture gaussians atau discrete

(46)

yang komplek. Dalam buku ini akan disinggung secara singkat mengenai arsitektur HTK dan perangkat-perangkat yang terlibat pada masing masing tahap.

HTK terbaru adalah HTK-3.2.1.tar.gz yang dapat didownload secara gratis pada : http://htk.eng.cam.ac.uk/

2.14.2 Arsitektur perangkat lunak HTK

HTK dibangun dari modul modul sebagaimana yang dapat dilihat seperti pada gambar di bawah ini :

Gambar 2.17. Arsitektur HTK

Input / output dan interaksi dengan sistem operasi ditangani oleh modul library HSHELL dan semua manajemen memori di kontrol oleh HMM. Perhitungan matematika di ditangani oleh HMATH dan operasi pemrosesan sinyal yang dibutuhkan untuk analisa sinyal suara terdapat pada modul HSIGHP. Semua tipe file yang berhubungan dengan

(47)

perhitungan HTK didefinisikan pada modul interface. HLABEL menyediakan interface untuk melabeli file, HLM untuk model bahasa, HNET untuk network (jaringan) dan lattice (pola-pola), HDICT untuk dictionaries (pembuatan kamus), HVQ untuk VQ codebooks (kode Kuantisasi Vektor) dan HMODEL untuk definisi HMM.

Semua sinyal masukan dan keluaran pada level waveform adalah via HWAVE dan pada level parameter adalah via HPARM. HWAVE dan HLABEL mendukung multiple file format yang mengijinkan data diimport dari sistem yang lain. Input audio secara langsung (direct audio input) didukung oleh modul HAUDIO dan grafik interaktif yang sederhana di sediakan oleh HGRAF. HUTIL menyediakan sejumlah fasilitas routin untuk manipulasi HMM dimana HTRAIN dan HFB sangat mendukung macam – macam perangkat pembelajaran HTK. HADAPT mendukung berbagai perangkat adaptasi HTK. Terakhir HREC berisi fungsi utama untuk proses pengenalan.

2.15 Speech Signal Processing Toolkit (SPTK)

Speech Signal Processing Toolkit (SPTK) dibangun dan telah digunakan untuk kelompok penelitian dari Prof. Satoshi Imai(di Chiba Institute of Technology) dan Prof. Takao Kobayashi (Lulusan dari School of Science and Engineering, Tokyo Institute of Technology) at P&I laboratory. Fasilitas utama yang dimiliki oleh Speech Signal Processing Toolkit (SPTK) tidak hanya speech analisis standart dan teknik synthesis (LPC analysis, PARCOR analysis, LSP analysis, PARCOR synthesis filter, LSP synthesis filter, and vector quantization techniques) tetapi juga speech analysis dan synthesis techniques yang dibangun oleh kelompok penelitian dapat digunakan secara mudah.

SPTK berisi tool-tool yang dapat digunakan untuk pengolahan sinyal, diantaranya SPTK dapat melakukan proses windowing, ekstraksi pitch, dan dapat mendapatkan koefisien Mel-Cepstral. Adapun perintah-perintah yang sering digunakan dalam mensintesa suara.

2.15.1 SWAB NAMA

(48)

swab [ –S S1 ] [ –s S2 ] [ –E E1 ] [ –e E2 ] [ +type ] [ infile ] DESKRIPSI

Perintah swab akan merubah byte dari little endia (Intel, DEC, etc) ke big endian (Sun, HP, etc) dan vice versa (byte swap). Jika input file tidak ditentukan kemudian data membaca dari input standart. Range swap akan ditentukan dengan option –S, -E atau –s, -e.

Format data input dan output akan ditentukan dengan +type OPTIONS

–S S1 awal alamat byte [0] –s S2 tart data number [0] –E E1 end byte address [EOF] –e E2 akhir alamat byte [0] +type tipe data input dan output [s]

s short (2bytes) l long (4bytes) f float (4bytes) d double (8bytes) EXAMPLE

Pada contoh dibawah tipe byte dari data.f dalam format float akan dirubah menjadi tipe data.swab:

swab +f data.f > data.swab

2.15.2 X2X NAMA

x2x – merubah tipe data DESKRIPSI

Perintah x2x akan membaca dari input standart dan mengconvert tipe data dan mengeluarkanya ke output standart. Tipe data input ditentukan dengan option +type1 dan ouput data ditentukan dengan option +type2.

(49)

OPTIONS

+type1 input data type [f] +type2 output data type [type1]

Kedua option type1 dan type2 dapat ditentukan dengan option di bawah

c char (1byte) C unsigned char (1byte) s short (2bytes) S unsigned short (2bytes) i int (4bytes) I unsigned int (4bytes) l long (4bytes) L unsigned long (4bytes) f float (4bytes) d double (8bytes) a ASCII

Tipe data dikonvert dari t1(type1) ke t2(type2). Jika t2 tidak ditentukan kemudian tidak ada operasi yang diambil maka file output akan sama dengan file input.

+a A jumlah kolom. Setiap baris dimasukkan setelah setiap block A mendapatkan nilai.

-r untuk menspesifkan ketika input desimal maka akan disubtitusi ke interger. Jika ini tidak ditentukan dan proses pengurutan selesai maka akan didapatkan nilai interger tertinggi akan lebih kecil dari pada nilai input. Jika option ditentukan kemudian nilai desimal dimulai dengan nomer sama atau lebih besar dari 5 kemudian input akan diurutkan.

%format specify output format similar to printf(), if type2 isASCII.

EXAMPLE

Pada contoh di bawah data dikonvert dari format ASCII yaitu data.asc ke formta data float yaitu data.f

(50)

NAMA

frame – mengekstrak frame SIPNOSIS

frame [ –l L ] [ –n ] [ –p P ] [ +type ] [ infile ] DESKRIPSI

Perintah frame digunakkan untuk membaca data dari input file yang telah ditentukkan dan kemudian ekstrak frame dengan periode P dan panjang L. Jika input data adalah x(0), x(1),....,x(T) kemudian output data adalah

0 , 0 , . . . , x(0) , . . . , x(L/2) x(P − L/2) , x(P − L/2 + 1) , . . . , x(P) , . . . , x(P + L/2) x(2P − L/2) , x(2P − L/2 + 1) , . . . , x(2P) , . . . , x(2P + L/2) OPTIONS –l L panjang frame [256] –p P periode frame [100] –n option ini digunakan ketikan x(0) sebagai

center point di dalam frame pertama dan kita ingin membuat x(0) sebagai point pertama dalam frame pertama [FALSE] +t tipe data input dan output [f]

c char (1byte) s short (2bytes) i int (4bytes) l long (4bytes) f float (4bytes) d double (8bytes) EXAMPLE

Di dalam contoh di bawah, data dalam format float yaitu data.f, periode frame yaitu 80, window blackman dan penggunaan linear prediction analysis(lpc). Dan data ditulis dalam format lpc yaitu data.lpc:

frame -p 80 < data.f | window | lpc > data.lpc

(51)

2.15.4 WINDOW NAME

window – data windowing SIPNOSIS

window [ –l L1 ] [ –L L2] [ –n N ] [ –w W ] [ infile ] DESKRIPSI

Perintah input real yang berurutan dari input standart, dan apabila menggunakan perintah window maka akan menggunakan fungsi dari windowing dengan kata lain jika urutan input adalah:

x(0), x(1), . . . , x(L1 − 1) dan fungsi dari windowing adalah: w(0), w(1), . . ., w(L1 − 1) menghasilkan output:

x(0) · w(0), x(1) · w(1), . . . , x(L1 − 1) · w(L1 − 1) Jika panjang output L2 adalah lebih besar dari L1, kemudian akan ditambahkan 0s pada output dan menghasilkan:

Input dan output data berupa format float. OPTIONS

–l L1 window length of input (L ≤ 2048) [256] –L L2 output length [L1] –n N type of normalization

(52)

1 normalization so that

∑

=

0 2

₍

₎

₁

n

w

2 normalization so that

∑

= =

=

1 0

1 )

(

L n

n

w

–w W type of window [0] 0 Blackman 1 Hamming 2 Hanning 3 Bartlett 4 rectangular EXAMPLE

Pada contoh di bawah akan menampilkan kelayar gelombang sinus dengan periode fungsi 20 setelah widowing dengan tipe window Blackman:

sin -p 20 | window | fdrw | xgr 2.15.5 PITCH

NAMA

pitch – ekstraksi pitch SIPNOSIS

pitch [ –s S ] [ –l L ] [ –t T ] [ –L Lo ] [ –H Hi ] [ –e E ] [ –i I ] [ –j J ] [ –d D ] [ infile ]

DESKRIPSI

Perintah ini mengekstarak pitch p(t) menggunakan metode cepstrum dan mengirimkanya ke output standart. Diasumsikan input telah dilakukan proses windowing dengan panjang urutah L adalah

x(0), x(1), . . . , x(L − 1)

Input dan output data adalah dalam format float

Untuk membedakan antara ada suara dan tidak ada suara, penilaian yang tidak memihak dari metode log spektrum adalah

(53)

untuk mengevaluasi (S/10 × 25) cepstrum order. Kemudian dari koefisien, magnitude dari log spektrum ˆgi(Ωk) dievaluasi. Akhirnya nilai mean

v

_i untuk setiap band akan dikalkulasi.

Dimana ukuran FFT yaitu N adalah bilangan kuadrat lebih besar daripada L. Jika suara speech adalah voiced (vi > T), daripada koefisien FFT cepstrum c(m) ditranformasikan kedalam c(m) × m, dan peak frekuensi antara Lo (Hz) and Hi (Hz) adalah pitch. Jika suara speech unvoiced (vi < T) kemudian dioutputkan 0.

OPTIONS

–s S frekuensi sampling (kHz) [10] –l L panjang frame data input [400] –t T voiced/unvoiced threshold [6.0] –L Lo minimum fundamental frequency untuk

mendapatkan (Hz) [60] –H Hi maximum fundamental frequency untuk

mendapatkan (Hz) [240] –e E nilai terkecil yang dimasukkan untuk

menghitung kalkulasi dari log power spectrum [0.0] Biasanya option tidak ditentukan. Mereka berhubugan dengan penilaian yang tidak memihak pada metode log spectrum –i I minimum jumlah iterasi [2] –j J minimum jumlah iterasi [30] –d D kondisi akhir [0.1] EXAMPLE

Data suara dengan sampling rate 10kHz dalam format float yaitu data.f, kemudian output berupa data pitch yaitu data.pitch. frame -l 400 < data.f | window -l 400 | pitch -l 400 > data.pitch

256 ,

2 (

),

(

14

1

17 4

N

n

N

k

gi

n

v

_k n n k k i

=

∑

Ω

=

π

(54)

(55)

BAB III

PERENCANAAN DAN PEMBUATAN

Seperti yang telah di jelaskan pada bab sebelumnya, pada bab ini akan di jelaskan tentang perencanaan dan langkah pembuatan suara sintesa serta apa saja yang telah dilakukan untuk membangun database sebuah suara sintesa berbasis bahasa Indonesia.

3.1. INSTALASI DAN KONFIGURASI SISTEM

Pada proyek akhir ini sistem operasi yang dipakai adalah sistem operasi Debian GNU/Linux sarge dengan kernel 2.6, dan software yang dipakai untuk menganalisis speech adalah HTK yang dapat didownload secara gratis di situs HTK kemudian didownload juga paket Galatea dari situs resminya. Untuk dapat menjalankan software tersebut dengan baik maka perlu melakukan beberapa konfigurasi agar software nantinya dapat berjalan dengan baik.

3.1.1. Instalasi Sistem Operasi

Adapun Langkah-langkah instalasi sebagai berikut :

 Booting dari CD dengan mengeset bios booting awal pada CD rom

 Pada menu input ketikkan kernel linux yang akan di pakai, untuk kernel 2.6 ketikkan linux26

 Pilihan bahasa, untuk bahasa yang standar pilih american english.

Pilihan negara, pilih other, asia kemudian indonesia.

Pilihan keyboard, untuk keyboard yang di gunakan adalah dari amerika, maka pilih american english.

 Automatic detect hardware, network (dhcp), klien akan mendapatkan IP dari server secara otomatis.

Memasukkan hostname, debian (optional).  Memasukkan domain name: eepis-its.edu

Metode partisi, entire disk, untuk memudahkan manajemen hardisk pilih partisi secara manual.

 Finish partisi dan write changes to disk, pilih yes.  Instaling debian base system.

(56)

 Setelah instaling complet,ambil CD installer, pilih continue.  Komputer akan booting ulang.

 Tampilan " Welcome to your new Debian System!" pilih no. Konfigurasi waktu, pilih konfigurasi menual untuk wilayah asia

pilih no.

 Pilih asia/ Jakarta ( java & sumatra ).  Konfigurasi password

root password (password untuk super user root) re-enter password (pengulangan password root) nama user / full name (user lain selain root) nama user account

user password (password user)

re-enter password (pengulangan password user)

Konfigurasi apt, untuk instalasi sistem dari CD, masukkan CD Debian dan pilih CDROM tekan ok. perlu di ketahui letak direktori CD-ROM berada pada file Æ /dev/cdrom.

Tunggu beberapa saat. !

Tampilan scan untuk CD Debian Yang lain, pilih no

Tampilan pilihan tentang informasi HTTP proxyÆkosongi, pilih ok.

Tampilan connect security.debian.org Æ CTRL-C untuk cancel Muncul peringatan untuk access security, pilih ok

 Debian Software Debian Selection

Pilihan untuk memilih Paket yang akan diinstal Ækosongi, pilih ok (instalasi paket di lakukan secara manual saja)

 konfigurasi EXIM:

Configuring Exim v4 (exim4- Config) general typre of mail configuration Æno configuration at this time, pilih ok

Menu konfirmasi untuk Exim v4 Æpilih yes

Menu untuk mempertanyakan tujuan mail (root and post mail recipent) Æketik sesuai dengan user pilih ok

Tunggu untuk reloding exim4 configuration files  Tampilan Thank you for choosing debianÆok.

 Kemudian masuk pada login Æ ketik root dan masukkan password untuk root

(57)

3.1.2. Konfigurasi sound di linux

Hal-hal yang perlu dilakukan untuk mengkonfigurasi sistem suara maka ada beberapa paket yang harus diinstal pada sistem operasi. paket-paket ini yang nantinya akan digunakan sebagai driver untuk menjalankan soundcard

Kemudian langkah selanjutnya adalah merekompilasi source yang telah diinstall, gunanya adalah untuk mencocokkan driver yang sesuai dengan soundcard yang sekarang. Hal ini diperlukan karena driver yang disertakan dalam paket alsa yang standar adalah driver yang standard sehingga sering kali kita temui konfigurasi soundcard yang janggal dimana kesalahan yang paling banyak terjadi yang diakibatkan oleh driver yang standar tersebut adalah letak posisi output yang terbalik-balik misalnya output seharusnya untuk speaker menjadi miliknya microphone dan sebagainya.

Cara menghindari salah konfigurasi adalah paket alsa harus di compile ulang. Untuk dapat merekompilasi alsa-source maka dibutuhkan header atau source dari kernel yang dipakai lengkap dengan versi kernel dan arsitekturnya. Disini kernel yang dipakai adalah kernel versi 2.6.8-2-386. Kemudian paket modconf , modconf ini gunanya adalah untuk mengaktifkan modul/ driver hasil kompilasi nantinya.

Selanjutnya adalah mulai merekompilasi kernel untuk sound. Buka directory posisi alsa-source yang telah diinstal yaitu pada directory /usr/src dan ekstrak file alsa-driver.tar

#apt-get install alsa-base alsa-utils alsa-oss alsa-source

# su

Password:_