• Tidak ada hasil yang ditemukan

Penyusunan Daftar Difon untuk Keperluan Sintesis Ucapan

N/A
N/A
Protected

Academic year: 2021

Membagikan "Penyusunan Daftar Difon untuk Keperluan Sintesis Ucapan"

Copied!
17
0
0

Teks penuh

(1)

Penyusunan Daftar Difon

untuk Keperluan Sintesis Ucapan

Yohanes Suyanto

FMIPA UGM, Sekip Utara, Yogyakarta E-mail : yanto@ugm.ac.id

Abstrak: Teknologi sintesis ucapan (text-to-speech) ada yang meng-gunakan basis data difon yaitu penggalan suara dari 2 fonem. Proses sintesis ucapannya dilakukan dengan menggabung difon-difon men-jadi suara ucapan kata atau kalimat. Penyusunan basis data di-fon ditempuh dengan cara merekam perkataan utuh dari kata yang mengandung difon yang akan digunakan, kemudian rekaman terse-but dipenggal menggunakan aplikasi penyunting berkas suara. Telah berhasil disusun sebanyak 782 difon dalam format wav. Difon yang dimulai maupun diakhiri dengan i atau U merupakan jumlah ter-banyak. Perlu diteliti lagi apakah mungkin masih ada difon yang lain.

(2)

1

Pendahuluan

Sintesis suara dalam bahasa Indonesia dengan menggunakan ba-sis data difon belum banyak dilakukan. Penelitian yang ada kebanyakan menggunakan basis data dari bahasa asing, sehing-ga tidak cocok untuk bahasa Indonesia. Oleh karena itu perlu dilakukan penelitian untuk menyusun basis data difon dalam bahasa Indonesia.

1.1

Tinjauan pustaka

Dalam sintesis suara dengan metode penggabungan unit suara diperlukan sekumpulan data unit suara yang disatukan dalam basis data suara. Donovan [1996] mengemukakan bahwa pan-jang pendeknya unit suara berpengaruh terhadap hasil akhir sintesis suara. Unit suara yang panjang menghasilkan sintesis yang lebih alami daripada unit suara yang pendek. Namun dari sisi jumlah unit suara, unit suara pendek lebih sedikit, sehing-ga lebih mudah penansehing-ganannya karena tidak memerlukan ruang yang besar.

Basis data vokal dengan variasi pitch diperlukan untuk penye-lidikan sintesis suara dengan metode interpolasi. Namun peny-impanan dan pengambilan kembali data dari rekaman yang su-dah ada menjadi kompleks karena variasi artikulasi dan durasi yang banyak. Mann [1999] menyusun jaringan RBF (Radial Base Function) untuk menyelidiki metode interpolasi pada sin-tesis suara. Metode ini menggunakan basis data suara vokal dengan variasi pitch.

(3)

2

Penyusunan daftar difon untuk

keper-luan sintesis ucapan

2.1

Pengantar Sintesis Ucapan

Sintesis dari tulisan (teks) menjadi ucapan merupakan permasala-han yang kompleks untuk mengkonversikan kata-kata dalam tulisan menjadi ucapan yang terdengar alami. Idealnya hasil akhir sintesis ucapan ini tidak dapat dibedakan dari ucapan manusia (Mann [1999]).

Permasalahan sintesis dengan metode penggabungan meliputi pemrosesan teks, penerjemahan teks menjadi fonem-fonem, men-erjemahkan fonem menjadi suara dan menggabung suara-suara tersebut menjadi suara yang terdengar kontinyu tidak terputus-putus.

2.2

Unit suara

Unit suara yang menggunakan kata mempunyai keunggulan yaitu unit tersebut sudah mencakup efek artikulasi pada bagian kata. Penggabungan kata-kata menjadi kalimat akan relatif mudah dilakukan karena artikulasi antara kata tidak begitu kuat pen-garuhnya daripada artikulasi antar fonem dalam kata (Linggard [1985]). Namun demikian cara ini akan kalimat akan terdengar patah-patah, karena untuk memuluskan gandengan unit suara tersebut tidak mudah. Penyebabnya adalah kata sudah teriso-lasi oleh bunyi diam.

Suku kata merupakan unit yang lebih kecil daripada ka-ta. Dengan unit suara berdasarkan pada suku kata mempunyai

(4)

kerumitan yang mirip dengan kata, cuma jumlah unit suaranya jauh lebih kecil. Menurut Allen dkk. [1987] belum ada sistem sintesis suara dengan metode penggabungan yang menggunakan suku kata sebagai unit terkecilnya.

Difon (diphone) adalah gabungan 2 buah fonem. Satuan suara difon lebih kecil daripada suku kata. Dengan menggu-nakan satuan ini, basis data yang dicatat menjadi lebih sedikit dan penggabungannya menjadi kata serta kalimat masih relatif lebih mudah daripada berdasarkan fonem. Sampai saat ini cara ini paling banyak dipakai. Dari paling awal tercatat Peterson dkk. [1958] sampai dengan yang mutakhir seperti Lernout & Hauspie menggunakan cara ini.

2.3

Penyiapan Basis data

Serangkaian kegiatan perlu dilakukan sebelum proses sintesis suara dapat dilakukan. Pertama, pemilihan unit suara yang tepat agar masalah penggabungan nantinya tidak banyak men-galami masalah. Kombinasi difon paling banyak digunakan se-bagai unit suara karena suara transisi antar fonem ikut terekam juga, sehingga perpaduan fonem lebih mulus. Setelah didap-at semua daftar segmen suara (yang mengandung unit suara) diperoleh, langkah berikutnya adalah merekam segmen suara tadi dan dikonversi dalam bentuk digital sehingga dapat dis-impan dalam bentuk digital juga. Bahan inilah nantinya yang akan diambil oleh program sintesis suara untuk menghasilkan suara dengan merangkai unit-unit suara yang sesuai. (Dutoit [2003] dan Kaynar dan Gelgi [2004])

(5)

2.4

Format rekaman suara digital

Rekaman suara banyak dilakukan sejak dulu. Entah itu dalam bentuk piringan hitam, kaset, CD, atau DVD. Ada dua kelom-pok besar format perekaman suara yaitu analog dan digital. Rekaman suara analog menyimpan informasi intensitas suara kedalam bentuk fisik lekukan (dalam piringan hitam) atau in-tensitas magnet (dalam kaset). Perekaman suara format digital, menyimpan informasi suara tersebut dalam bentuk kode bilan-gan biner, sehingga untuk penulisan dan pembacaannya perlu dekoder yang cocok.

Keunggulan format digital adalah informasi yang tersimpan dengan mudah dapat diproses sebagai data oleh komputer se-hingga dapat dilakukan penapisan secara digital dan juga kom-presi data. Dalam format digital, suara disimpan dalam format WAV ataupun MP3. Format MP3 lebih unggul dalam besar da-ta (hanya sepersepuluh dari besar dada-ta format WAV) sehingga tidak memakan banyak tempat.

Sekarang sudah banyak tersedia dipasaran alat perekam suara digital dalam format MP3 dengan harga terjangkau oleh kalan-gan peneliti universitas (dosen). Harapannya denkalan-gan alat ini jika diterapkan untuk perekaman basis data suara akan mem-permudah proses perekaman dengan hasil yang jernih dan tidak memakan banyak memori.

2.5

Pembuatan daftar fonem

Pemilihan fonem dilakukan dengan mengacu pada buku ten-tang fonologi dan masih dapat ditemukan contoh kata yang

(6)

mengandung fonem tersebut. Kemungkinan variasi vokal lebih banyak daripada variasi konsonan. Maksudnya huruf e misal-nya dalam sate dan teman sudah berbeda fonemmisal-nya. Dalam Marsono [1999] sudah ada tabel mengenai vokal monoftong dan diftong serta konsonan berbagai bahasa di Indonesia. Untuk penelitian ini peneliti mengacu pada tabel-tabel tersebut.

2.6

Pembuatan daftar difon dan contoh kata

Setelah semua fonem dapat diidentifikasi langkah selanjutnya adalah membuat kombinasi dari fonem-fonem tersebut sehingga membentuk difon (dua fonem). Dari kombinasi yang dibuat barulah dicari contoh kata yang mengandung difon tersebut. Jika ditemukan paling tidak satu kata saja, maka difon tersebut dipertahankan dalam daftar. Namun jika tidak ditemukan kata yang mengandung difon tersebut maka difon itu dikeluarkan dari daftar difon.

Dalam Krishnamurti dan Suyanto [2003] telah terdapat con-toh kata-kata yang ada kaitannya dengan difon ini sehingga peneliti juga mengacu pada contoh kata-kata ini walaupun ada sedikit perubahan simbol fonem.

2.7

Perekaman daftar kata yang mengandung

difon

Daftar difon yang sudah terkumpul dijadikan pedoman untuk melakukan pere-kaman suara orang yang menyuarakan kata terse-but. Diusahakan agar perekaman dilakukan oleh satu orang yang sama dan dalam waktu yang terus-menerus, artinya tidak

(7)

boleh berhenti di tengah jalan. Jika ada proses perekaman yang ditunda, maka emosi penyuara akan berbeda sehingga mempen-garuhi hasl akhir.

Di samping itu penyuaraan kata-kata tersebut harus dilakukan dalam intonasi yang datar saja, tidak boleh turun-naik karena rekaman ini akan digunakan sebagai dasar sintesis suara. In-tonasi akan diterapkan saat sintesis suara dengan aturan-aturan tertentu yang tidak dibahas di sini.

2.8

Penyimpanan rekaman dalam format .mp3

Perekaman yang dilakukan pada bagian sebelumnya masih dalam format .wav yang menyimpan informasi utuh tentang rekaman suara secara digital. Ukuran re-kaman suara dalam format .wav cukup besar. Sebagai gambaran ukuran rekaman 1 MB hanya direkam dalam waktu 6 detik. Padahal jika disimpan dalam format .mp3, rekaman 1 MB itu perlu waktu 1 menit. Dengan menyimpan dalam format .mp3 diharapkan makin kecil ukuran penyimpanan yang diperlukan.

2.9

Pembuatan daftar fonem

Berdasarkan hasil penelitian pada buku fonologi maka fonem ba-hasa Indonesia ada sebanyak 41 fonem ditambah dengan fonem ’diam’ seperti terlihat pada Tabel 1. Beberapa fonem tidak banyak digunakan dalam tulisan Bahasa Indonesia seperti x dan q. Namun demikian untuk mengantisipasi kemungkinan sintesis suara nantinya (dalam penyusunan difon) maka fonem itu tetap ditulis.

(8)

Fonem ’diam’ disertaan dalam tabel ini karena nantinya da-pat membentuk difon yaitu mengawali fonem ataupun men-gakhirinya.

Tabel 1: Daftar fonem Bahasa Indonesia Fonem Huruf Dalam kata

i i biak e e beo ˜e e mei a a maaf ˆe e lebah ˆ o o tokoh o o toko U u takjub u u kue ai ai sampai au au kaul oi oi amboi b b bimbang c c cantik d d dinda f f foto g g gila h h hutang kh kh khabar j j janji

(9)

lanjutan ... Fonem Huruf Dalam kata

k k kabar l l lima m m mama n n nama nk nk bank ˜ n n menjual ng ng panjang ny ny kunyit p p papa q q quran r r jaring s s susu sy sy asyik ks ks ekspor t t tanam v v volum w w w x x xilofon y y bayi z z izin (diam)

2.10

Pembuatan daftar difon dan contoh kata

Berdasarkan daftar fonem seperti Tabel 1 maka dapat dibuat daftar difon yang merupakan kombinasi 2 fonem dari 42 macam fonem tadi. Dengan demikian akan didapat 42 x 42 atau 1746

(10)

macam kombinasi difon.

Namun demikian ternyata tidak semua kombinasi difon itu mempunyai contoh penerapan dalam Bahasa Indonesia. Misal-nya difon xx, mm, ll,ww, dan lain-lain tidak ditemukan contoh pemakaiannya dalam Bahasa Indonesia. Contoh kombinasi lain yang tidak ditemukan contoh katanya misalnya vq, qv, vd, nz, dan lain-lain.

Daftar lengkap difon dan contoh kata ada pada Tabel ?? pada lampiran yang ternyata hanya ditemukan kombinasi yang mempunyai contoh kata sebanyak 782 atau 44% dari total kom-binasi yang mungkin.

3

Hasil penelitian

3.1

Perekaman daftar kata yang mengandung

difon

Dari daftar difon didapat kata-kata sebagai contoh pemakaian-nya yang kemudian direkam dengan alat perekam suara digital dalam format .wav. Contoh grafik suara hasil perekaman dap-at dilihdap-at pada Gambar 1. Pada gambar tersebut grafik suara belum ditandai batas untuk difon i-ˆo dari kata ’bioskop’. Pada Gambar 2 sudah ditandai titik awal difon i-ˆo, titik perubahan dari i ke ˆo, dan titik akhir ˆo.

Jumlah difon yang dapat ditemukan yang diawali dengan su-atu fonem dapat dilihat pada grafik Gambar 3 sedang difon yang diakhiri dengan suatu fonem jumlahnya dapt dilihat pada Gam-bar 4. Terlihat bahwa penyeGam-barannya tidak merata dan belum

(11)

Gambar 1: Grafik suara bioskop untuk pengambilan difon i-ˆo sebelum ditandai

Gambar 2: Grafik suara bioskop untuk pengambilan difon i-ˆo setelah ditandai

ditemukan pola yang menentukan jumlah penggunaan fonem dalam difon. Namun demikian dapat dilihat bahwa fonem i dan U mendominasi sebagai awal maupun akhir difon.

3.2

Penyimpanan rekaman dalam format .mp3

Hasil perekaman dalam format .wav kemudian dikonversi meng-gunakan Cool-Edit sehingga menjadi format .mp3. Format ini

(12)

dipilih karena ukuran filenya kecil akibat proses kompresi data. Namun belum dicoba untuk melakukan menggabungan difon rekaman mp3 ini untuk digunakan dalam sintesis suara. Kemu-ngkinan proses menjadi lebih panjang, namun karena kecepatan prosesor sekarang sudah dalam orde GHz, kemungkinan pan-jangnya proses ini tidak begitu terasa.

Hasil kompresi format .wav menjadi .mp3 sebagian dapat dil-ihat pada Tabel 2 yang ternyata bahwa dugaan awal untuk besar format .mp3 menjadi kira-kira sepersepuluh besar format .mp3 menjadi tidak benar karena terlihat bahwa nilai perbandingan antara .wav dan .mp3 hanya berkisar antara 0,52 atau 0,53. Ini berlaku untuk semua sampel yang telah dikonversi.

4

Kesimpulan

Difon sebanyak 782 dikenali sebagai penyusun ucapan Bahasa Indonesia. Fonem i dan U mendominasi sebagai fonem awal maupun akhir pada difon. Kompresi wav menjadi mp3 untuk data rekaman difon hanya mengakibatkan besar data menjadi setengahnya.

Pustaka

Allen, J., Hunnicutt, M. S., dan Klatt, D., 1987, From Text to Speech : MITalk System, Cambridge University Press, Cam-bridge.

(13)

Tabel 2: Perbandingan besar file format .wav dan .mp3 (seba-gian)

WAV ukuran WAV MP3 ukuran MP3 rasio

w1030.wav 64044 w1030.mp3 33984 0,530635188308038 w1031.wav 96044 w1031.mp3 50112 0,521760859606014 w1032.wav 96044 w1032.mp3 50112 0,521760859606014 w1036.wav 96044 w1036.mp3 50112 0,521760859606014 w1037.wav 96044 w1037.mp3 50112 0,521760859606014 w1039.wav 64044 w1039.mp3 33984 0,530635188308038 w104.wav 128044 w104.mp3 66240 0,517322170503889 w1040.wav 64044 w1040.mp3 33984 0,530635188308038 w1041.wav 64044 w1041.mp3 33984 0,530635188308038 w1043.wav 64044 w1043.mp3 33984 0,530635188308038 w1044.wav 96044 w1044.mp3 50112 0,521760859606014 w1045.wav 64044 w1045.mp3 33984 0,530635188308038 w1049.wav 64044 w1049.mp3 33984 0,530635188308038 w105.wav 64044 w105.mp3 33984 0,530635188308038 w1051.wav 64044 w1051.mp3 33984 0,530635188308038 w1055.wav 64044 w1055.mp3 33984 0,530635188308038 w106.wav 96044 w106.mp3 50112 0,521760859606014

(14)

Donovan, R. E., 1996, Trainable Speech Synthesis, PhD thesis, Univeristy of Cambridge.

Dutoit, T., 2003, A Short Introduction to Text-to-Speech Syn-thesis. URL tcts.fpms.ac.be/synthesis/introtts.html. Kaynar, I. dan Gelgi, F., 2004, Text-To-Speech Synthesis. URL

www.cclub.metu.edu.tr/ fagelgi/studies/tts/proposal.htm. Krishnamurti, M. S. dan Suyanto, Y., 2003, Pembuatan dan

Perekaman Segmen-segmen ucapan (Difon) Bahasa Indone-sia untuk Pengembangan Basis Data Difon dalam Aplikasi Text-to-Speech Berbasis MBROLA, FMIPA UGM, Yogyakar-ta, Skripsi.

Linggard, R., 1985, Electronics Synthesis of Speech, Cambridge University Press, Cambridge.

Mann, I., 1999, An Investigation of Nonlinear Speech Synthesis and Pitch Modification Techniques, PhD thesis, The Univer-sity of Edinburgh.

Marsono, 1999, Fonetik, Gadjah Mada University Press, Yo-gyakarta.

Peterson, G. E., Wang, dan Sivertsen, E., 1958, Segmentation Techniques in Speech Synthesis, Journal of the Acoustical So-ciety of America, 30(8).

(15)

Tentang penulis

Penulis dilahirkan di Bantul tanggal 6 Maret 1962, menempuh pendidikan SD di SD Kebonagung I, Imo-giri dan SMP di SMPN ImoImo-giri Bantul, serta SMA di SMA Negeri 1 Yogyakarta. Selesai pendidikan S1 di Jurusan Fisika FMIPA UGM tahun 1987 kemudi-an menjadi dosen pada tempat ykemudi-ang sama. Tahun 1988 bekerja juga di UPT Pusat Komputer UGM. Pendidikan S2 diselesaikan di Ilmu Komputer UI tahun 1992. Matakuliah yang pernah diampun-ya antara lain: Pemrograman Terstruktur, Algo-ritme dan Pemrograman, Pemrograman Berorien-tasi Objek, Pemrograman Web, Pemrograman Visu-al, Jaringan Komputer, Sistem Informasi Geografis, Arsitektur Komputer, Tapis Elektronika dan Sis-tem Digital. Penulis pernah menjabat sebagai Wakil Kepala UPT Puskom UGM Bidang Pengembangan Sistem dan Asisten Kepala II PPTIK UGM, serta terlibat dalam beberapa tim pengembangan sistem informasi di UGM

(16)
(17)

Gambar

Tabel 1: Daftar fonem Bahasa Indonesia Fonem Huruf Dalam kata
Gambar 1: Grafik suara bioskop untuk pengambilan difon i-ˆ o sebelum ditandai
Tabel 2: Perbandingan besar file format .wav dan .mp3 (seba- (seba-gian)
Gambar 3: Jumlah difon yang diawali dengan fonem
+2

Referensi

Dokumen terkait

Menurut penulis, peraturan perundang- undangan yang erat kaitannya dengan tindak pidana perusakan dan pencemaran lingkungan (yang dapat dijatuhkan sanksi pidana)

Kegiatan Pengabdian ini memiliki tujuan: meningkatkan keterampilan peserta dalam hal pemilihan vocabulary yang tepat, penyusunan kalimat yang sopan serta etika berkomunikasi

Persoalan cabai merah sebagai komoditas sayuran yang mudah rusak, dicirikan oleh produksinya yang fluktuatif, sementara konsumsinya relatif stabil. Kondisi ini menyebabkan

Hasil penelitian menunjukkan bahwa pengembangan LKPD interaktif berbasis web dengan pendekatan CTL telah memenuhi kriteria valid, praktis, dan efektif untuk digunakan

Kegiatan pelatihan pembuatan yogurt dapat memberikan keterampilan pada mitra untuk membuat produk turunan dari rumput laut dan jagung. Dengan meningkatnya

Jumlah / Volume yang disepakati dalam perjanjian ini sesuai jumlah dalam volume kontrak antara pihak pertama dengan pihak pabrik / PKS yang menjadi rekrsnan /

a. Apabial diriwayatkan oleh seorang perawi maka disebut hadis gharib.. Jika diriwayatkan oleh tiga orang atau lebih namun tidak sampai pada derajat mutawatir maka termasuk

Kedua, Adanya Issu Gender dan penyebabnya, Kehamilan yang tidak diinginkan, aborsi, pornografi, resiko triad (seksualitas, narkotika, HIV/AIDS) yang terjadi