BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

(1)

1.1 Latar Belakang Masalah

Sintesis suara percakapan adalah pembangkitan suara percakapan dari tulisan atau teks yang dilakukan dengan program komputer. Saat ini sedang diusahakan agar suara hasil sintesis ucapan sulit dibedakan dengan suara per-cakapan orang. Salah satu aspek yang berpengaruh besar terhadap kealamian suara hasil sintesis ucapan adalah ketepatan prosodi (Taylor, 2009).

Prosodi adalah nilai pitch (tinggi rendah nada ucapan), intonasi, volum, durasi, dan tekanan selama pengucapan kalimat. Dengan kata lain prosodi adalah nilai-nilai pitch, intonasi, volum, durasi, dan tekanan sebagai fungsi waktu. Pitch merupakan frekuensi suara yang digunakan untuk membangkitk-an ucapmembangkitk-an. Ucapmembangkitk-an suatu fonem merupakmembangkitk-an sekumpulmembangkitk-an frekuensi namun ada frekuensi utama yang dinamakan frekuensi fundamental atau frekuensi dasar dan simbolkan sebagai F0(Burkhardt, 2005; Mustafa dkk., 2010).

Prosodi bersifat sangat spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk membangkitkan data prosodi menjadi sangat spesifik juga untuk setiap bahasa. Dengan prosodi yang benar maka informasi yang disampaikan seseorang melalui ucapannya dapat diterima oleh pendengar dengan benar. Pendengar dapat membedakan batas frase, kata, ataupun kalimat berdasarkan prosodi ucapan pembicara.

Beberapa model pendekatan umum prosodi pernah dikembangkan. Misalnya pendekatan secara corpus based (basis data suara), rule-based (berbasis aturan), template based, dan learning based. Namun saat digunakan pada suatu bahasa tertentu masih perlu banyak penyesuaian (Burkhardt, 2005).

Ada 2 pendekatan dalam sistem sintesis ucapan yang berdasarkan pada basis data suara yaitu: berdasarkan basis data rekaman frase dan berdasarkan basis data rekaman potongan ucapan.

Aplikasi telepon banyak menggunakan model pertama. Misalnya in-formasi tagihan atau jam dari TELKOM. Untuk menyuarakan suatu kalimat dilakukan dengan menyambung rekaman suara masing-masing kata dalam kalimat tersebut. Misalnya kalimat ’saat ini pukul tiga belas lebih sepuluh

(2)

menit’ maka diperlukan rekaman kata ’saat’, ’ini’, ’pukul’, ’tiga, ’belas’, ’lebih’, ’sepuluh’, dan ’menit’. Model ini mudah dibuat dan sederhana. Kelemahan-nya adalah, jika variasi informasi yang disampaikan baKelemahan-nyak dan diambilkan dari frase yang ada, intonasi hasil penggabungan menjadi terdengar janggal. Kelemahan lainnya adalah tidak ada modifikasi intonasi (Taylor, 2009; Arslan, 2014).

Model yang kedua menggunakan rekaman potongan ucapan atau fo-nem. Model ini sangat fleksibel dan dapat melayani berbagai variasi ucapan. Kelemahannya adalah pada penentuan prosodi setiap fonem (Shaw, 2005). Proses sintesis ucapan text-to-speech umumnya melibatkan (Huang dkk., 2001):

1. Analisis teks yang meliputi:

(a) normalisasi teks: mengubah simbol dan bilangan menjadi teks; (b) analisis linguistik: analisis sintaktik dan semantik sesuai dengan

konteks.

2. Analisis fonetik yang mengubah grafem (tulisan) menjadi fonem; 3. Analisis prosodik yang membubuhi informasi prosodi terutama pitch,

dan durasi;

4. Sintesis ucapan yang membangkitkan sinyal suara.

Intonasi Bahasa Indonesia mempunyai kaidah umum walaupun tidak begitu ketat mempengaruhi arti kalimat. Kaidah yang umum digunakan adalah bahwa di akhir kalimat intonasi akan turun. Intonasi akan naik pada suku kata penultima (suku kata sebelum suku kata terakhir (Halim, 1974).

Intonasi suara percakapan dalam Bahasa Indonesia akan lebih jelas jika dapat ditentukan bagian-bagian dalam kalimat, yang meliputi penentuan bagian subjek, predikat, dan objek. Masing-masing bagian kalimat tersebut dapat diperinci menjadi subbagian-subbagian. Jadi ada subbagian subjek, subbagian predikat, dan juga subbagian objek. Untuk masing-masing bagian dapat ditentukan intonasi yang cocok dengan cara menentukan prosodi pada subbagian tersebut (Halim, 1984).

Intonasi bahasa Indonesia juga dipengaruhi oleh daerah. Walaupun demikian intonasi suara penyiar pembaca berita radio (khususnya RRI)

(3)

rata-rata sama. Oleh karena itu suara penyiar pembaca berita radio dapat dijadikan sebagai pola bahasa Indonesia.

Jika bisa dibuat sintesis ucapan bahasa Indonesia yang melibatkan kaidah umum intonasi bahasa Indonesia, struktur kalimat bahasa Indonesia, dan pola intonasi penyiar maka akan didapatkan sintesis bahasa Indonesia yang dapat diterima oleh sebagian besar penutur bahasa Indonesia.

Sintesis ucapan yang sudah pernah dibuat biasanya belum melibatkan pola intonasi berdasarkan rekaman suara kalimat lengkap. Misalnya penelitian Schröder (2001) dan Cahn (1989) sama sekali tidak melibatkan rekaman suara karena menggunakan metode sintesis Formant. Sedangkan Vroomen dkk. (1993), Heuft dkk. (1996), dan Murray dkk. (2000) menggunakan rekaman suara difon, bukan rekaman suara kalimat lengkap.

Oleh karena itu perlu dibuat sintesis suara dengan penekanan pada intonasi (bagian dari prosodi) dari setiap fonem yang dipengaruhi oleh kai-dah umum intonasi, struktur kalimat, dan pola intonasi dari rekaman suara. Dengan harapan bahwa jika prosodi dapat ditentukan berdasarkan kaidah umum intonasi, struktur kalimat, dan pola intonasi maka hasil sintesis ucapan akan lebih mendekati ucapan alami.

1.2 Perumusan Masalah

Apakah model penentuan intonasi secara otomatis pada sintesis ucap-an (text-to-speech) dalam Bahasa Indonesia yucap-ang melibatkucap-an pola intonasi dari rekaman suara kalimat dapat dibuat dan apakah dapat ditentukan juga proses-proses yang diperlukan dalam penentuan intonasi pada sintesis bahasa Indonesia?

1.3 Batasan Masalah

Sintesis ucapan yang akan dibuat dibatasi pada: 1. hanya pada kalimat berita;

2. pendengar dewasa, pada forum dan suasana formal; 3. keperluaan penyampaian informasi;

(4)

4. kaidah umum yang digunakan sesuai dengan buku Amran Halim (Ha-lim, 1974, 1984);

Buku ini banyak diacu oleh pembahas masalah intonasi bahasa Indone-sia.

5. prosodi yang dimodifikasi hanya unsur durasi dan pitch; 6. pola intonasi rekaman dari seorang pembaca berita RRI;

7. struktur kalimat menggunakan model bangun kalimat dari Ajat Sakri (Sakri, 1994);

Penguraian struktur kalimat yang mendasarkan pada frasa. Dengan cara ini kalimat diuraikan menjadi 2 bagian atau ruas.

8. model lebih menekankan pada penyusunan berkas fonem dan prosodi yang menyertainya.

1.4 Tujuan Penelitian

Penelitian ini bertujuan untuk: mengembangkan model/metode penentuan intonasi secara otomatis pada sintesis ucapan Bahasa Indonesia berdasarkan penggandengan difon, pola intonasi, dan struktur kalimat.

1.5 Manfaat

Model sintesis ucapan dapat diterapkan pada beberapa aplikasi sintesis ucapan seperti pembaca buku elektronik, penyampai pengumuman di tem-pat umum (bank, stasiun, bus, kereta api, rumah sakit), pembelajar bahasa Indonesia dan lain-lain.

1.6 Kontribusi

Hasil penelitian diharapkan dapat menjadi alternatif model sintesis ucapan bahasa Indonesia yang sudah melibatkan pola intonasi dari rekaman suara pembaca berita. Dengan model ini diharapkan dapat dikembangkan lagi menjadi sintesis ucapan berdasar pada dialek tertentu.

(5)

1.7 Metodologi Penelitian

Metodologi penelitian yang dilakukan secara garis besar adalah mem-buat model sintesis ucapan dengan melibatkan struktur kalimat dan pola intonasi. Pada awalnya dilakukan telaah artikel dan aplikasi tentang sintesis ucapan. Pada aplikasi MBROLA, sebagai pembangkit ucapan dari berkas berformat pho, ditemukan cara untuk memanipulasi intonasi dengan cara mengubah isi berkas pho. Pengubahan berkas pho dilakukan pada bagian durasi dan pitch atau frekuensi.Pengubahan didasarkan pada struktur kali-mat dan pola intonasi. Gambar 1.1 menunjukkan metodologi penelitian yang dilakukan.

Telaah artikel dan aplikasi tentang sintesis ucapan

Pengambilan data rekaman berita RRI

Pembuatan model sintesis ucapan

Pemenggalan rekaman kalimat demi kalimat

Pembuatan aplikasi sintesis ucapan

Penyusunan basis data pola intonasi

Ujicoba aplikasi

Pembahasan dan pengukuran kuali-tas suara ucapan

Penarikan kesim-pulan dan saran

(6)

Telaah artikel dan aplikasi tentang sintesis ucapan dilakukan untuk mem-buka wawasan dan memperluas pengetahuan tentang sintesis ucapan. Selain itu telaah dilakukan untuk mengetahui sejauh mana sintesis ucapan telah dilakukan dan kira-kira model seperti apa yang masih bisa dikembangkan.

Pembuatan model sintesis ucapan dilakukan setelah mempelajari

bebera-pa sintesis ucabebera-pan yang telah ada. Dalam model yang dibuat melibatkan struktur kalimat dan pola intonasi. Dari telaah artikel dan aplikasi yang telah dilakukan, model sintesis ucapan semacam ini belum ada.

Pembuatan aplikasi sintesis ucapan merupakan implementasi dari model

yang dibuat. Aplikasi ini sekaligus untuk menunjukkan bahwa model bisa diimplementasikan. Aplikasi dibuat cukup sederhana dan dapat dijalankan pada console.

Pengambilan data rekaman berita RRI sebagai bahan untuk penyusunan

basis data pola intonasi. Rekaman berita RRI dipilih dengan asumsi bahwa intonasinya mengikuti standar bahasa Indonesia. Data rekaman diperoleh dari siaran RRI online.

Pemenggalan rekaman kalimat demi kalimat dilakukan agar

memudahk-an saat akmemudahk-an disimpmemudahk-an dalam basis data pola. Tidak semua kalimat dalam berita tersebut digunakan. Berita yang berupa kutipan dari suara sumber berita tidak digunakan karena intonasinya belum tentu sesuai dengan pola intonasi penyiar berita RRI.

Penyusunan basis data pola intonasi diawali dengan cara melakukan

trans-literasi dari kalimat suara rekaman berita menjadi tulisan (teks) kalimat bahasa Indonesia. Kemudian kalimat suara rekaman berita dikenai proses pengambil-an frekuensi fundamental menggunakpengambil-an aplikasi Praat. Hasil dari tahap ini adalah teks, jumlah fonem, deretan waktu dan frekuensi fundamental.

Ujicoba aplikasi dilakukan dengan menggunakan kalimat hasil transliterasi

(7)

Hasil akhir ujicoba dari kalimat transliterasi yang berupa berkas audio (wav) disimpan untuk keperluan uji kualitas.

Pembahasan dilakukan terhadap hasil ujicoba. Pembahasan juga dilakukan

untuk modul-modul yang ada dalam model sintesis ucapan. Hasil antara yang diamati antara lain teks ternormalisasi, pola intonasi, dan berkas pho.

Pengukuran kualitas suara ucapan dilakukan dengan membandingkan

ber-kas rekaman suara dan berber-kas hasil sintesis ucapan untuk kalimat yang sama. Pengukuran kualitas menggunakan metode PESQ dan jarak Mahalanobis.

Penarikan kesimpulan dan saran dilakukan setelah proses pembahasan

hasil. Saran lebih menekankan pada kemungkinan perbaikan agar hasilnya lebih baik.

1.8 Sistematika Penulisan

Disertasi ini ditulis dalam 7 bab. Hubungan antar bab disajikan dalam diagram Gambar 1.2. Inti dari disertasi ini ada di Bab IV yang berisi model sintesis ucapan yang diusulkan yaitu pelibatan pola intonasi dan struktur kalimat dalam penentuan intonasi.

Pada Bab I disajikan pendahuluan dari penelitian. Bab ini berisi latar belakang, perumusan masalah, batasan masalah, tujuan penelitian, kontribusi, metodologi penelitian, dan sistematika penulisan.

Pada Bab II disajikan tinjauan pustaka tentang sintesis ucapan teruta-ma yang menggunakan metode penggandengan difon. Pengkajian tentang pengaturan pitch dan kontur durasi pada sintesis ucapan. Beberapa peneliti melakukan penelitian tentang pengaturan ekspresi dengan menggunakan penanda teks. Berdasarkan kajian dalam bab ini dibuatlah pengaturan prosodi menggunakan pola intonasi dan struktur kalimat.

Bab III mengajikan dasar teori yang mendasari model yang diusulkan. Pengaturan intonasi sintesis memerlukan pengetahuan tentang fonetik bahasa Indonesia. Teori tentang struktur kalimat diperlukan untuk dapat melakuk-an pengelompokmelakuk-an kata (frasa) ymelakuk-ang nmelakuk-antinya digunakmelakuk-an untuk pengaturmelakuk-an

(8)

Bab I Pendahuluan

Latar belakang, tujuan, rumusan masalah, batasan masalah, sistematika penulisan

Bab II Tinjauan Pustaka

Tinjauan artikel tentang sintesis ucapan teru-tama yang menggunakan metode penggan-dengan; tinjauan pengaturan prosodi; MBROLA

Fonetik bahasa Indonesia: fonem, prosodi, tekanan

Struktur kalimat: penguraian kalimat berdasar katego-ri, pencarian kata dasar

Metode sintesis ucapan: NLP, DSP, berbasis aturan,

penggandengan, teks ke fonem; teori:PSOLA, MBROLA

Pengukuran kualitas suara ucapan: PESQ, Mahalanobis

Bab III Dasar Teori

Normalisasi: bilangan, simbol Pola intonasi: frekuensi fundamental, pola into-nasi rekaman kalimat

Analis sintaks: penulisan BNF, algoritme pencarian kata dasar

Model sintesis yang diusulkan: penjelasan modul di dalamnya

Bab IV Analisis

Modul normalisasi Modul pemilih pola Modul Analis Sintaks Pembangkit prosodi

Bab V Rancangan dan Implementasi Rancangan

Implementasi

Pembahasan normalisasi: dapat bekerja dengan baik

Pembahasan pemilih pola: kriteria panjang teks, jarak terdekat

Pembahasan analis sin-taks: dapat menguraikan kalimat berdasar kategori kata

Pembangkit prosodi: menghasilkan deretan fo-nem beserta prosodinya

Bab VI Pembahasan

Bab VII Kesimpulan dan Saran

Kesimpulan dari pembahasan; saran ter-hadap perbaikan berdasarkan kesimpulan

Gambar 1.2: Diagram Sistematika Penulisan

jeda. Metode sintesis ucapan dibahasa mulai dari pengertian umum sam-pai dengan metode sintesis penggandengan unit suara terutama unit suara difon. Dalam bab ini dibahas pula tentang pengubahan teks ke fonem dan teori dasar PSOLA yang digunakan dalam MBROLA. Bagian akhir bab ini memuat cara pengukuran kualitas suara ucapan dengan metode PESQ dan

(9)

jarak Mahalanobis.

Bab IV menyajikan model sintesis yang diusulkan. Model ini mengan-dung 4 bagian utama yaitu normalisasi, pola intonasi, analis sintaks, dan pembangkit prosodi. Normalisasi berhubungan dengan struktur kalimat dan pengubahan teks ke fonem dari Bab III. Normalisasi merupakan proses awal dari sintesis ucapan. Pola intonasi berhubungan dengan pembicaraan tekanan pada Bab III. Analis sintaks berhubungan langsung dengan bagian struktur kalimat pada Bab III. Analis sintaks menggunakan teori struktur kalimat dan BNF untuk menghasilkan parser bahasa Indonesia. Bagian akhir dari bab ini menyajikan pembangkit prosodi yang merupakan muara dari bagian-bagian lainnya. Bagian ini bertanggung jawab untuk menghasilkan prosodi yang menyertai deretan fonem.

Bab V berisi rancangan dan implementasi dari model sintesis ucapan yang diusulkan. Rancangan berupa modul dari masing-masing bagian dari Bab IV yaitu modul normalisasi, pemilih pola, analis sintaks, dan pembangkit prosodi. Bagian implementasi merupakan implementasi dari modul-modul dalam bagian rancangan di bab ini juga.

Bab VI berisi pembahasan kinerja dan hasil dari modul-modul yang sama dengan yang diuraikan pada Bab V. Pada bagian akhir disajikan tentang hasil pengujian kualitas suara dari model sintesis yang diusulkan.

Bab VII berisi kesimpulan dan saran tentang hasil penelitian dalam disertasi ini.