Analisa Pembangunan Databases Suara Indonesia

PENGUJIAN DAN ANALISA SISTEM

4.5 PENGUJIAN HASIL SINTESA SUARA

4.5.1 Analisa Pembangunan Databases Suara Indonesia

4.5.1 Analisa Pembangunan Databases Suara Indonesia

Pembangunan database suara memerlukan database suara yang besar. Pada percobaan ini mengacu pada database suara yang berisi suara orang Jepang yaitu HTS-demo_NIT-ATR503-M001. Dalam percobaan ini dilakukan perekaman suara sebanyak 20 sample suara. Berikut adalah daftar kalimat yang digunakan dalam proses perekaman:

1. Selamat Pagi 2. Foto Cakep 3. Makan Siang 4. Sore yang Cerah

6. Waktu Makan 7. Pembuatan Buku 8. Pemain Figuran 9. Sedang Bermain 10. Wanita Idaman

11. Saya ingin memesan tiket tujuan Surabaya dan Jakarta. 12. Pesawat telah mendarat di bandara Semarang pada hari

Selasa pagi

13. Tujuan keberangkatan pesawat Buraq dari Bandung adalah Solo.

14. Saya terbang naik Mandala hari Rabu tanggal tiga belas Maret dua ribu enam.

15. Harga tiket kelas ekonomi dari padang dengan batavia adalah delapan ratus lima puluh ribu rupiah.

16. Jadwal keberangkatan Mandala, hari Senin, Selasa dan Rabu.

17. Terima kasih atas tiket Merpati ke Surabaya

18. Untuk keamanan selama terbang, Anda harus memakai sabuk pengaman.

19. Bulan Januari, februari, september, oktober, november, dan Desember tiket mahal.

20. Maaf anda belum memesan tiket untuk semarang.

Setelah dilakukan proses perekaman kemudian dilanjutkan dengan proses pelabelan. Teknik pelabelan yang digunakan adalah teknik pelabelan fonem. Hasil dari proses pelabelan disimpan dalam bentuk *.lab yang terdapat dalam direktory /label/monophone/m001/. Contoh hasil dari proses pelabelan dari kalimat ”Selamat Pagi”.

0 7575000 sil 7575000 8950000 s 8950000 10300000 e 10300000 11150000 l 11150000 12700000 a 12700000 13675000 m

13675000 14600000 a 14600000 15550000 t 15550000 18875000 pau 18875000 19350000 p 19350000 20750000 a 20750000 21525000 pau 21525000 22475000 g 22475000 23800000 i 23800000 24550000 sil

Pada hasil pelabelan di atas proses pelabelan di awali dan di akhiri dengan sil yang menandakan awal adanya suara dan akhir suara. Pada pelabelan fonem setiap huruf harus mendapatkan label. Apabila terjadi tenggang waktu antara satu huruf dengan huruf yang lain maka harus diberi label pau atau pause. Angka pada setiap label menunjukkan waktu mulai ada suara sampai tidak ada suara atau yang disebut dengan timing. Proses pelabelan di atas disebut juga proses pelabelan monophone. Dalam HTS-demo terdapat dua pelabelan yaitu monophone dan fullcontext. Proses pelabelan monophone dilakukan secara manual seperti di atas, sedangkan pelabelan fullcontext disebut juga pelabelan otomatis. Proses pelabelan yang digunakan adalah proses pelabelan monophone.

Pada percobaan ini sampel suara dapat dianalisa menggunakan SPTK yaitu dengan melakukan perintah.

Dengan menggunakan gwave yang memiliki fungsi untuk membaca inputan dari file suara kemudian di keluarkan secara berurutan menggunakan perintah xgr.

$gwave +s nit_jp_ATR503_m001_a01.raw | xgr

Gambar 4.1 Sinyal Suara

Pada gambar di atas menunjukkan mulai adanya sinyal suara berada pada 12480 dan berakhir pada 38400. Setelah suara diberi

label, langkah selanjutnya yaitu mengekstrak pitch dari file suara tersebut, dengan menggunakan perintah di bawah:

Dari perintah di atas akan dilakukan ekstraksi pitch terhadap file suara. Untuk menganalisa dapat menggunakan tool bantuan dari SPTK untuk menampilkan hasil ekstraksi tersebut. Perintah yang digunakan adalah sebagai berikut:

Maka akan menghasilkan tampilan sebagai berikut:

Gambar 4.2 Sinyal Pitch Sebelum dan Sesudah Proses Training Dari gambar di atas sinyal pitch ditampilkan dalam dengan Y = 250, Width = 15 Cm, High = 4 Cm, dan X =596.

x2x +sf raw/$fname.raw | frame -l 640 -p 80 | window -l 640 | pitch -s 16 -l 640 -t 4.5 -L 60 -H 170 > f0/$fname.f0

$ fdrw -y 0 250 -W 1.5 -H 0.4 < nit_jp_ATR503_m001_a01.f0 | xgr

pembangunan basis data suara terhadap sample suara, label, dan pitch. Dalam proses pembangunan basis data suara yang dijelaskan pada bab 3. Berikut adalah proses pembangunan basis data suara. Dengan melakukan perintah.

sed 's:CURRENTDIR:'`pwd`':g' `pwd`/labels/mono.mlf | \ sed 's:SPEAKER:'m001':g' | \

sed 's:DATASET:'nit_jp_ATR503':g' > `pwd`/labels/mono_m001.mlf

sed 's:CURRENTDIR:'`pwd`':g' `pwd`/labels/full.mlf | \ sed 's:SPEAKER:'m001':g' | \

sed 's:DATASET:'nit_jp_ATR503':g' > `pwd`/labels/full_m001.mlf

sed 's:CURRENTDIR:'`pwd`':g' `pwd`/scripts/mkdata.in | \ sed 's:SPTKDIR:'/usr/local/SPTK/bin':g' | \

sed 's:MCEPORDER:'18':g' | \ sed 's:BYTESWAP:'0':g' | \

sed 's:SPEAKER:'m001':g' > `pwd`/scripts/mkdata.pl perl `pwd`/scripts/mkdata.pl

make training data nit_jp_ATR503_m001_a01.cmp from nit_jp_ATR503_m001_a01.raw

make training data nit_jp_ATR503_m001_a02.cmp from nit_jp_ATR503_m001_a02.raw

make training data nit_jp_ATR503_m001_a03.cmp from nit_jp_ATR503_m001_a03.raw

make training data ………….

make training data nit_jp_ATR503_m001_a19.cmp from nit_jp_ATR503_m001_a19.raw

make training data nit_jp_ATR503_m001_a20.cmp from nit_jp_ATR503_m001_a20.raw

cat `pwd`/labels/fullcontext/m001/*.lab | \ sort -u > `pwd`/lists/full_m001.list sort -u `pwd`/lists/full_m001.list \

`pwd`/labels/fullcontext/gen/*.lab \ > `pwd`/lists/full_m001_all.list

sed -e "s/[0-9]*//g" `pwd`/labels/monophone/m001/*.lab | \ sed -e "s/ *//g" | sort -u > `pwd`/lists/mono_m001.list

ls `pwd`/cmp/nit_jp_ATR503_m001*.cmp > `pwd`/lists/data_nit_jp_ATR503_m001.scp

Proses pembangunan basis data suara akan menghasilkan file *.cmp pada folder /cmp yang merupakan hasil dari proses pembelajaran dari sample suara. Selain itu juga menghasilkan file dari analisa Mel-Cepstral yang terletak pada folder /mcep. Proses analisa Mel-Cepstral bertujuan untuk menghilangkan pengaruh noise shipping dan postfiltering sehingga menghasilkan suara dengan kulitas yang tinggi. Data hasil analisa Mel-Cepstral dapat dilihat dalam direktori /mcep. Untuk menganalisanya dapat menggunakan tool dari SPTK yaitu:

Perintah di atas bertujuan untuk manmpilakan bentuk mel-cepstrum dengan urutan analisa sebesar 20, frekuensi warping 0.42, FFT 512, frame yang diambil dari frame ke 10 sampai frame ke 135, dengan besar frekuensi sampling 16 kHz.

$ bcut -n 20 -s 10 -e 135 <

nit_jp_ATR503_m001_a01.mcep | mgc2sp -m 20 -a 0.42 -g 0 -l 512 | grlogsp -l 512 -x 8 | xgr

Gambar 4.3 Spektrum Suara Sebelum dan Sesudah Proses Training

Hasil dari proses training yang dilakukan oleh HTS-demo dapat membuat kualitas spektrum dan pitch menjadi lebih bagus. Hal ini disebabkan dalam HTS-demo menggunakan MLSA filter yang dapat menghilangkan pengaruh noise shipping dan postfiltering sehingga dapat menghasilkan kuwalitas suara yang tinggi.

$ bcut -n 20 -s 65 -e 65 <

nit_jp_ATR503_m001_a01.mcep | mgc2sp -m 20 a 0.42 g 0 l 512 | glogsp l 512 -x 8 | -xgr

Gambar 4.4 Spektrum FFT

Dari hasil pengamatan menggunakan FFT dapat ditunjukkan bahwa suara manusia berada pada range frekuensi 2.5 KHz sampai dengan 3 KHz.

Untuk data suara pada HTS-demo_NIT-ATR503-M001 telah melalui proses training sehingga menghasilkan file cmp, mcep, dan log_f0. Setelah berhasil mentraining suara yang terdapat didalam HTS-demo_NIT-ATR503-M001 kemudian kita dapat melakukan proses sintesa menggunakan HTS-demo.

Dalam dokumen 7203030018 (Halaman 101-109)