• Tidak ada hasil yang ditemukan

Prosedur Pelaksanaan

BAB III METODE PELAKSANAAN

3.1 Prosedur Pelaksanaan

Prosedur pelaksanaan secara garis besar digambarkan dalam diagram alir di bawah ini :

Gambar 3.1 Diagram Alir Pelaksanaan Program Penelitian Unggulan VIBIO

TAHUN 1

TAHUN 2

TAHUN 3

19

Prosedur penelitian dibagi menjadi beberapa tahapan yang akan dijelaskan sebagai berikut:

3.1.1 Pembuatan Bahasa Indonesia Speech Corpus

Speech corpus merupakan suatu kumpulan basisdata suara dalam bentuk file suara/audio dan berupa transkripsi teksnya. Basisdata yang digunakan dalam penelitian ini merupakan basisdata dalam Bahasa Indonesia. Langkah yang dilakukan dalam pembuatan speech corpus ini adalah (a) pengumpulan kalimat basis data natural dan ekspresif dalam Bahasa Indonesia, (b) perekaman kalimat basis data natural dan ekspresif dalam Bahasa Indonesia, (c) pengolahan sinyal suara.

a. Pengumpulan kalimat basis data natural dan ekspresif dalam Bahasa Indonesia

Kalimat Bahasa Indonesia yang dikumpulkan dipilih dari beberapa sumber literatur, yaitu buku pelajaran, majalah, novel, koran dan website. Pemilihan kalimat didasarkan pada kaidah fonem Bahasa Indonesia yang sesuai dengan standard International Phonetic Alphabet (IPA). Bahasa Indonesia memiliki total 32 fonem yang terdiri dari enam fonem vokal, tiga fonem diftong, dan 23 fonem konsonan. Pada tabel 3.1 menunjukkan fonem dalam Bahasa Indonesia sesuai dengan standar International Phonetic Alphabet (IPA) yang juga mencakup karakter silence.

Tabel 3.1 Fonem Bahasa Indonesia sesuai dengan standar International Phonetic Alphabet (IPA)

No Bahasa Indonesia Bahasa Inggris Contoh

1. /a/ aa Father

2. /e/ ah, ae Ten

3. /ê/ ah, ax Learn

4. /i/ ih, iy, ix

see, happy

5. /o/ ow, ao

got, saw

6. /u/ uh, uw put, too

7. /ay/ Ay Five

8. /aw/ Aw Now

9. /ey/ Ey Say

10. /oy/ Oy Boy

20

11. /b/ B Bad

12. /c/ Ch Chain

13. /d/ d, dx, dh Did

14. /f/ f, v fall, van

15. /g/ G Got

16. /h/ Hh Hat

23. /R/ r red

24. /S/ s so

25. /T/ t¸th tea

26. /W/ w wet

27. /Y/ y yes

28. /Z/ z, zh zoo

29. /Kh/ - -

30. /Ng/ ng sing

31. /Ny/ - -

32. /Sy/ - share

Kalimat basis data natural mempunyai pencampuran kata, suku kata, dan fonem yang sesuai dalam kaidah Bahasa Indonesia. Kalimat yang dipilih adalah kalimat yang biasa digunakan dalam kehidupan sehari-hari. Jumlah kata pada kalimat basis data natural bervariasi dari 5-10 kata pada satu kalimat untuk kalimat yang pendek dan dari 11-20 kata pada satu kalimat untuk kalimat panjang. Jumlah total kalimat basis data yang dibangun, yaitu sebanyak 1529 kalimat dengan rincian 1029 kalimat berupa kalimat berita dan 500 kalimat berupa kalimat tanya. Berikut adalah beberapa kalimat basis data natural yang harus naracoba ucapkan:

kalimat basis data ekspresif bahasa Indonesia diucapkan dengan gaya emosional marah, sedih, dan senang. Basis data kalimat ini sebanyak 600 kalimat yang mencakup tiga ekspresi dengan variasi kalimat pendek (1 atau 2 kata), kalimat sedang (2 sampai 5 kata), dan kalimat panjang (lebih dari 5 kata). Kalimat basis data suara ujaran bahasa Indonesia ini disusun dengan mengambil sampel kalimat yang diperoleh dari beberapa sumber, yaitu majalah, novel, film, dan website. Kalimat yang dipilih adalah kalimat yang biasa digunakan dalam kehidupan sehari-hari. Berikut adalah contoh kalimat ekspresif:

21 b. Perekaman basis data suara bahasa Indonesia

Kalimat basis data yang telah dikumpulkan selanjutnya dilakukan perekaman suaranya. Perekaman basis data ini dilakukan dengan cara membaca kalimat basisd ata yang tersedia oleh narasuara yang telah ditentukan. Untuk basis data natural narasuara yang dipilih pada penelitian ini adalah narasuara yang berprofesi sebagai pembawa berita profesional, baik di radio maupun televisi. Hal tersebut ditujukan agar pembacaan kalimat basis data yang direkam tidak terdapat logat dari daerah tertentu. Sedangkan untuk kalimat basis data ekspresif, narasuara dipilih yang berprofesi sebagai pemain teater professional yang tergabung dalam Dewan Kesenian Surabaya, Jawa Timur serta Dewan Kesenian Bandung, Jawa Barat dan telah diseleksi sebelum melakukan perekaman dengan ketentuan diperbolehkan memiliki logat daerah asal.

3.1.2 Instalasi dan Identifikasi HMM-based Speech Synthesis System (HTS)

HMM-based Speech Synthesis System (HTS) pertama kali diusulkan oleh Yoshimura, Tokuda dan Kobayashi, (1999), kemudian dipublikasikan sebagai open-source software pada tahun 2002 oleh kelompok kerja HTS sebagai perluasan dari HMM toolkit (HTK). Pada HTS terdapat dua proses utama yaitu proses training dan proses sintesis.

a. Persiapan data

Data yang diperlukan sebagai input untuk menjalankan sistem sintesis suara bahasa Indonesia berbasis HMM diantaranya adalah sebagai berikut :

• File .raw (~/data/raw/*.raw): merupakan format audio tanpa kompresi yang dihasilkan dari konversi file .wav hasil rekaman kalimat basis data ucapan bahasa Indonesia.

• File .utt (~/data/utts/*.utt): merupakan file informasi teks dari kalimat basis data ucapan bahasa Indonesia yang digunakan untuk proses training.

• File .lab (~/data/labels/gen/*.lab): merupakan file informasi label kalimat yang digunakan sebagai input proses training dan sintesis.

• File question (~/data/question/*.hed): merupakan file informasi pohon keputusan yang digunakan untuk membangun sistem sintesa suara bahasa Indonesia sesuai dengan kaidah fonem yang berlaku.

• File teks (~/data/teks/*.txt) : berisi kalimat prompt basis data dalam tiap kalimat pada setiap file .txt.

b. HMM-based Speech Synthesis System (HTS)

22

➢ Proses Training HTS

Proses training bertujuan untuk mendapatkan model akustik suara dari suara basis data. Bahasa Indonesia speech corpus yang telah dibuat, akan digunakan sebagai input pada sistem HTS. Tahapan pada proses training adalah sebagai berikut,

1. Input basis data terdapat dua macam, yaitu sinyal suara dan teks label. Input teks label berupa informasi rangkaian teks dalam bentuk file utterance (*.utt) dan label (*.lab). File utterance dan label ini kemudian diekstraksi sesuai dengan Persamaan 3.1. Proses ekstraksi ini untuk mengestimasi label mono dan full context, master label file (MLF), serta untuk pembuatan list data training.

(3. 1)

dimana terdapat dua variable acak A dan B, dengan P(A|B) merupakan probabilitas bersyarat dari kejadian A. merupakan peluang kejadian B yang telah terjadi dan merupakan peluang kejadian A.

2. Input sinyal suara berupa file raw (*.raw) yang kemudian diekstrak menjadi parameter eksitasi dan parameter spektral sesuai dengan Persamaan 3.2 yang menunjukkan estimasi likelihood dari input yang digunakan pada sistem HTS.

Hasil estimasi dari persamaan 2.2 ini akan menghasilkan fitur akustik suara seperti

cepstrum, LPC, F0, dan aperiodisitas. (3.

2)

dimana merupakan estimasi kumpulan teks basis data, adalah label yang dihasilkan dari kumpulan set basisdata ( ).

3. Hasil ekstraksi input basis data pada tahap 1 dan 2 kemudian dilakukan estimasi pembentukan model HMM. Model HMM ini diestimasi dengan Persamaan 3.3, dimana pada setiap model HMM akan terbentuk distribusi Gaussian sehingga menghasilkan distribusi multivariate Gaussian sesuai pada Persamaan 3.4. Output pdf dari masing-masing distribusi Gaussian memiliki nilai mean dan variansi masing-masing. Nilai mean dan varian ini diestimasi dengan maximum likelihood estimation (Persamaan 2.5) untuk mendapatkan nilai maksimumnya.

(3. 3)

23

dimana merupakan model estimasi ucapan dan o adalah parameter ucapan.

(3. 4)

dimana terdapat dua variable acak A dan B, dengan P(A|B) merupakan probabilitas bersyarat dari kejadian A. merupakan peluang kejadian B yang telah terjadi dan merupakan peluang kejadian A.

➢ Proses Sintesis HTS

Proses sintesis bertujuan untuk membangkitkan kembali model akustik suara yang telah dihasilkan pada proses training sesuai dengan input yang teks yang akan disintesis sesuai Gambar 2.8. Tahapan sintesis ini menggunakan tools HMGens dari HTK yang menghasilkan 39-order cepstrum (*.mgc), logF0 (*.lf0) dan aperiodisitas (*.ap1-5), kemudian melalui SPTK akan dibangkitkan sinyal suara sintesis yang diinginkan. Proses pembangkitan suara ini terdapat tahapan untuk pembuatan model tersembunyi (Persamaan 3.5), dimana model ini belum dideteksi pada saat proses training basis data. Pohon keputusan yang telah terbentuk pada proses training digunakan untuk memetakan model tersembunyi pada cluster yang memiliki informasi linguistik yang serupa.

(3.5)

adalah pembobot, -dimensi vektor mean dan matriks kovarian dari komponen pada state , secara berurutan. Persamaan (3.5) merupakan distribusi Gaussian pada masing-masing komponen, dimana merupakan dimensi dari data observasi .

Gambar 3.4 Tahapan Proses Sintesis, (Sumber: Krebs, 2010)

3.1.3 HTS Speaker Dependent

24

Bahasa Indonesia memiliki sistem bunyi yang mirip dengan bahasa Inggris, dimana keduanya memiliki diftong, similitude (kemiripan bunyi pada suatu fonem dalam satu kata), assimilation (proses historis dimana bunyi dipengaruhi oleh bunyi disebelahnya), dan elision (peleburan bunyi), oleh karena itu digunakan HTS-demo_CMU-ARCTIC-SLT untuk diterapkan dalam bahasa Indonesia. Penerapannya yaitu dengan menyesuaikan format labeling kalimat dan decision tree kalimat sesuai dengan kaidah fonologi bahasa Indonesia.

Tabel 3.2 Variasi Jumlah Basis Data Training Kalimat Training Kalimat

Kalimat Campuran 1379 116

Kalimat Tanya

Kalimat Campuran 1379 116

Pembuatan speaker dependent sintesis suara bahasa Indonesia digunakan basis data suara satu narasuara laki-laki dan satu narasuara perempuan pada kalimat berita dan kalimat tanya. Variasi dilakukan pada jumlah basis data yang digunakan, yaitu menggunakan minimal dan maksimal training (Cahyaningtyas, 2015). Jumlah variasi yang dilakukan terdapat pada Tabel 3.2. Pengaturan untuk proses eksperimen ditunjukkan pada Tabel 3.3, dimana menggunakan kalimat basis data Bahasa Indonesia dengan dua pembicara yaitu pembicara mmht dan fena.

Tabel 3.3 Experimental Set-Up Speaker Dependent

Demo HTS-demo_CMU-ARCTIC-SLT

Basis data Bahasa Indonesia

Jenis kalimat Kalimat berita dan kalimat tanya Jumlah kalimat Kalimat tanya : 44 kalimat, 450 kalimat

Kalimat berita : 72 kalimat, 929 kalimat Kalimat campuran : 116 kalimat, 1379 kalimat Test data 50 kalimat

Sampling rate 16 kHz

25 Frame length 25 ms

Frame shift 5 ms

HMM topology 5-state, left to right HMM[21], MSD F0[22], MDL[23]

Acoustic feature 0-39th mel-cepstrum, log F0, 5-band aperiodicity dengan  dan 2

Dokumen terkait