BAB I PENDAHULUAN. 1.1 Latar Belakang Masalah

(1)

1.1 Latar Belakang Masalah

Pada abad ke-17 John Selden, seorang ahli hukum berkebangsaan Inggris, menyatakan: "Syllables govern the world" Selden (1819). Pada zaman itu, pernyataan tersebut barangkali tidak masuk akal bagi banyak orang: bagaimana mungkin silabel mampu memerintah dunia? Namun, pada abad ke-21 sekarang ini, di mana data teks, suara, dan video begitu melimpah di internet dan berbagai media lain, banyak ahli linguistik komputasional mulai menaruh perhatian pada pernyataan tersebut.

Pada tahun 2010-an sejumlah peneliti menunjukkan bahwa sistem Pengenalan Ucapan Kontinu Kosakata Besar (PUKKB) berbasis silabel memberikan performansi lebih tinggi dibanding yang berbasis fonem (yang telah dikembangkan oleh banyak peneliti selama 50 tahun terakhir). Dua keunggulan PUKKB berbasis silabel adalah: lebih tahan terhadap derau dan lebih mampu mengadaptasi berbagai variasi dialek Janakiraman dkk. (2010). Satu hal yang menarik adalah silabel suatu bahasa dapat digunakan untuk mengadaptasi silabel bahasa-bahasa lain. Jika teknologi PUKKB berbasis silabel mampu mentranskripsikan miliaran data suara maupun video ke da-lam teks dada-lam waktu singkat, maka teknologi transliterasi otomatis dan data mining yang sudah maju saat ini dapat mengolah data teks tersebut menjadi informasi, penge-tahuan, bahkan rekomendasi dan kebijakan yang berdampak besar dan luas bagi umat manusia. Dengan teknologi PUKKB berbasis silabel, transliterasi otomatis, dan

da-ta mining yang berperformansi tinggi, suatu negara dapat dengan mudah melakukan

spionase terhadap data kemiliteran, ekonomi, dan segala rahasia negara-negara lain melalui pentranskripsian rekaman penyadapan komunikasi para pejabat tinggi.

Pada dasarnya, (PUKKB) dapat dibangun menggunakan pendekatan berbasis: kata, morfem, silabel, atau fonem. Pendekatan berbasis kata biasanya digunakan un-tuk kegunaan tertentu dengan kosakata terbatas karena setiap kata harus dimodelkan sebagai satu pola akustik yang utuh, tidak dipecah menjadi unit-unit yang lebih ke-cil (Sakti dkk., 2004). Untuk pengenalan ucapan dengan kosakata yang lebih besar dalam domain yang lebih umum, PUKKB dibangun menggunakan pendekatan ber-basis silabel (Janakiraman dkk., 2010) dan fonem (Sakti dkk., 2007). Untuk bahasa Inggris, pendekatan berbasis silabel memberikan performansi lebih tinggi dibanding

(2)

yang berbasis fonem (Janakiraman dkk., 2010).

Salah satu modul penting dalam sistem PUKKB berbasis silabel adalah sila-bifikasi fonemis, yang berfungsi untuk menemukan barisan fonem beserta titik-titik silabis dari sebuah kata. Silabifikasi fonemis dapat digunakan secara terintegrasi un-tuk menangani pengenalan kata-kata di luar kosakata (out of vocabulary words) atau secara terpisah sebagai kakas bantu untuk membangun kamus silabel fonemis (yang berisi kata dan barisan silabel fonemisnya), misalnya kata ’bunga’ harus disimbolkan /bu.Na/ yang mengandung dua silabel: /bu/ dan /Na/. Oleh karena itu, model silabifi-kasi fonemis terdiri atas dua bagian, yaitu: 1) model fonemisasi, untuk mengkonversi barisan grafem (simbol tulisan) menjadi barisan fonem (simbol ucapan); dan 2) model silabifikasi, untuk menemukan titik-titik silabis pada barisan fonem (keluaran model fonemisasi).

Untuk bahasa Inggris, Belanda, Jerman, dan sejumlah bahasa lain di Eropa, model silabifikasi umumnya diaplikasikan pada barisan fonem (Bartlett dkk., 2009) dan memberikan performansi tinggi. Untuk bahasa Indonesia, sebuah model silabi-fikasi bernama Silabel yang dibangun oleh Lanin (2015) diaplikasikan pada barisan grafem sehingga memberikan performansi relatf rendah. Pada penelitian ini, pengu-jian terhadap 50 ribu kata yang dikumpulkan dari Kamus Besar Bahasa Indonesia (KBBI) Luar Jaringan edisi ketiga (Bahasa, 2008), menunjukkan bahwa performansi Silabel sangat rendah, dengan syllable error rate (SER) mencapai 21,28%, karena ambiguitas fonem tidak diperhatikan. Sebagai contoh, kata ’astringen’ disilabifikasi menjadi ’as.tri.ngen’, yang benar seharusnya ’as.trin.gen’. Hal ini karena dua grafem <n> dan <g> pada kata ’astringen’ adalah barisan dua fonem, /n/ dan /g/, bukan se-buah fonem tunggal /N/ seperti pada kata ’bunga’. Kata ’bodhi’ disilabifikasi menjadi ’bod.hi’, yang benar seharusnya ’bo.dhi’. Hal ini disebabkan dua grafem <d> dan <h> pada kata ’bodhi’ adalah sebuah fonem /d/, bukan barisan dua fonem /d/ dan /h/ seperti pada kata ’adha’.

Sementara itu, observasi terhadap 50 ribu kata dari KBBI menunjukkan bahwa 57% (15 dari 26) grafem disimbolkan sebagai fonem yang pasti (dipetakan satu-ke-satu) sedangkan grafem lainnya dikonversi menjadi dua hingga lima fonem berbeda. Jika masalah fonemisasi ini diselesaikan menggunakan cara yang sangat sederhana, dengan mengkonversi setiap grafem menjadi fonem yang frekuensinya paling tinggi, maka dihasilkan PER sebesar 9,87%. Hal ini menunjukkan bahwa masalah fonemi-sasi jauh lebih sederhana dibanding silabifikasi. Fakta ini dapat menjadi justifikasi yang kuat bahwa silabifikasi bahasa Indonesia sebaiknya dilakukan pada barisan

(3)

fo-Tabel 1.1: Struktur silabel bahasa Indonesia beserta frekuensi dan persentasenya da-lam 50 ribu kata, K adalah konsonan dan V menyatakan vokal

Nomor Struktur silabel Contoh Frekuensi Persentase

1 V a.nak 6.606 4,08% 2 KV ba.ta 82.061 50,63% 3 KKV pra.ha.ra 3.056 1,89% 4 KKKV stra.ta 44 0,03% 5 VK an.da 6.338 3,91% 6 KVK ban.tu 61.826 38,15% 7 VKK eks.tra 116 0,07% 8 KVKK teks.tur 252 0,16% 9 KVKKK korps 6 0,00% 10 KKVK trak.tir 1.639 1,01% 11 KKVKK kom.pleks 72 0,04% 12 KKKVK struk.tur 56 0,03%

nem (keluaran dari fonemisasi), bukan pada barisan grafem.

Berdasarkan metode pengklasifikasian bahasa yang diusulkan Dauer (1983), bahasa Indonesia tergolong sederhana karena sebagian besar silabelnya berstruktur KV dan lebih banyak yang terbuka (berakhiran V) dibandingkan dengan yang tertu-tup (berakhiran K). Observasi terhadap 50 ribu kata dari KBBI menunjukkan bahwa bahasa Indonesia memiliki 50,63% silabel berstruktur KV dan 56,63% silabel ter-buka, seperti tertera pada Tabel 1.1. Sementara itu, bahasa Inggris yang termasuk bahasa kompleks memiliki 35% silabel KV serta mempunyai silabel terbuka dan ter-tutup yang lebih bervariasi (Dauer, 1983).

Bagaimanapun, bahasa Indonesia sangat kaya secara silabel. Observasi ter-hadap 50 ribu kata dari KBBI menunjukkan bahwa bahasa Indonesia memiliki rata-rata 3,20 silabel dan 7,64 fonem per kata, di mana distribusinya diilustrasikan pa-da Gambar 1.1 pa-dan Gambar 1.2. Papa-da Gambar 1.1 pa-dapat dilihat bahwa hanya 862 kata (1,70%) yang monosilabis (hanya berisi satu silabel) sedangkan 98,30% lain-nya polisilabis (berisi lebih dari satu silabel). Mengingat adalain-nya imbuhan dan pe-ngulangan, bahasa Indonesia memiliki lebih dari seribu kata yang panjangnya enam silabel atau lebih, seperti ’bermewah-mewahan’, ’merestrukturisasi’ , ’semaksimal-maksimalnya’, ’pertelekomunikasian’, dan sebagainya. Hal ini berbeda sekali dengan bahasa Inggris yang memiliki 80% kata monosilabis dan 20% kata polisilabis berda-sarkan data Switchboard Corpus (Wu dkk., 1997). Sebagai contoh, semua kata dalam kalimat bahasa Inggris ’Please come to my home’ adalah monosilabis. Penerjemahan

(4)

kalimat tersebut ke dalam bahasa Indonesia menghasilkan ’Silakan datang ke rumah-ku’, di mana hanya kata ’ke’ yang monosilabis sedangkan lainnya polisilabis.

ϴϲϮ ϭϰϳϲϭ ϭϲϳϯϳ ϭϭϵϵϭ ϰϱϰϵ ϭϯϱϭ Ϯϴϲ ϲϵ ϭϮ Ϭ ϮϬϬϬ ϰϬϬϬ ϲϬϬϬ ϴϬϬϬ ϭϬϬϬϬ ϭϮϬϬϬ ϭϰϬϬϬ ϭϲϬϬϬ ϭϴϬϬϬ ϭ Ϯ ϯ ϰ ϱ ϲ ϳ ϴ ϵ & ƌ Ğ Ŭ Ƶ Ğ Ŷ Ɛ ŝ Ŭ Ğ ŵ Ƶ Ŷ Đ Ƶ ůĂ Ŷ WĂŶũĂŶŐŬĂƚĂ;ĚĂůĂŵƐŝůĂďĞůͿ ŝƐƚƌŝďƵƐŝƉĂŶũĂŶŐŬĂƚĂ;ĚĂůĂŵƐŝůĂďĞůͿƉĂĚĂϱϬƌŝďƵŬŽƐĂŬĂƚĂ</ĞĚŝƐŝŬĞƚŝŐĂ

Gambar 1.1: Distribusi panjang kata (dalam silabel) pada 50 ribu kosakata KBBI

ϴ ϭϱϭ ϳϱϳ Ϯϵϯϳ ϴϬϱϴ ϲϵϮϭ ϴϬϲϭ ϳϲϬϲ ϱϰϮϴ ϰϱϮϬ ϯϭϬϱ ϭϯϴϭ ϳϴϬ ϰϱϵ Ϯϰϳ ϭϭϭ ϱϬ Ϯϰ ϴ ϰ ϭ Ϭ ϭ Ϭ ϭϬϬϬ ϮϬϬϬ ϯϬϬϬ ϰϬϬϬ ϱϬϬϬ ϲϬϬϬ ϳϬϬϬ ϴϬϬϬ ϵϬϬϬ ϭ Ϯ ϯ ϰ ϱ ϲ ϳ ϴ ϵ ϭϬ ϭϭ ϭϮ ϭϯ ϭϰ ϭϱ ϭϲ ϭϳ ϭϴ ϭϵ ϮϬ Ϯϭ ϮϮ Ϯϯ &ƌ ĞŬ Ƶ ĞŶ Ɛ ŝ Ŭ Ğŵ Ƶ ŶĐ Ƶ ůĂ Ŷ WĂŶũĂŶŐŬĂƚĂ;ĚĂůĂŵĨŽŶĞŵͿ ŝƐƚƌŝďƵƐŝƉĂŶũĂŶŐŬĂƚĂ;ĚĂůĂŵĨŽŶĞŵͿƉĂĚĂϱϬƌŝďƵŬŽƐĂŬĂƚĂ</ĞĚŝƐŝŬĞƚŝŐĂ

Gambar 1.2: Distribusi panjang kata (dalam fonem) pada 50 ribu kosakata KBBI

Selain itu, dalam bahasa Indonesia juga terdapat banyak pengecualian dan ambiguitas. Sebuah contoh pengecualian adalah: pada kata ’empat’, ’tempat’, ber-empat’, bertber-empat’, dan ’tempatnya’, grafem <a> dan <t> berada dalam satu silabel

(5)

’pat’. Tetapi, jika grafem <t> diikuti vokal seperti pada kata ’empati’, maka grafem <a> dan <t> harus dipisah karena kata ’empati’ disilabifikasi menjadi ’em.pa.ti’. Con-toh ambiguitas adalah: kata ’beragam’ (’be.ra.gam’) dan ’beragama’ (’ber.a.ga.ma’) akan menjadi ambigu jika grafem fokusnya adalah <e> dan lebar konteks grafemisnya 8 (yaitu 4 grafem di kiri dan 4 grafem di kanan). Meski demikian, bahasa Indonesia memiliki kaidah fonotaktik (kaidah yang mengatur penjejeran fonem dalam satu mor-fem (Alwi dkk., 1998)) yang berlaku umum tanpa pengecualian. Misalnya, gramor-fem <m> dan <p> tidak mungkin berada dalam satu silabel sehingga pada kata ’empat’, ’tempat’, ’empati’, dan sebagainya kedua grafem tersebut selalu dipisahkan ke dalam dua silabel berbeda.

Fakta-fakta di atas mengindikasikan bahwa silabifikasi untuk bahasa Indone-sia lebih rumit dibanding bahasa Inggris. Jika silabifikasi bahasa Inggris dibangun menggunakan metode berbasis aturan yang sangat sederhana, dengan menganggap setiap kata adalah monosilabis (tidak perlu disilabifikasi), maka didapatkan WER sebesar 20%. Jika dibangun menggunakan metode berbasis statistik yang bekerja secara global, silabifikasi bahasa Inggris memberikan WER 8,92% Marchand dkk. (2007). Sementara itu, silabifikasi untuk bahasa Indonesia yang memiliki 98,30% ka-ta polisilabis, tentu saja sulit diselesaikan menggunakan metode berbasis aturan saja. Silabifikasi bahasa Indonesia juga sulit diselesaikan menggunakan metode berbasis statistik yang bekerja secara global mengingat banyaknya pengecualian dan ambigu-itas yang ada. Metode yang diduga lebih sesuai untuk silabifikasi bahasa Indonesia adalah gabungan metode berbasis statistik yang bekerja secara lokal dan metode ber-basis aturan (menggunakan kaidah fonotatik).

1.2 Rumusan Masalah

Sebagai bahasa yang kompleks secara silabel, dengan banyak pengecualian dan ambiguitas, silabifikasi bahasa Indonesia sulit diaplikasikan pada barisan grafem dengan menggunakan metode berbasis aturan maupun metode berbasis statistik yang bekerja secara global.

1.3 Batasan Masalah

Agar lebih fokus dan objektif dalam melakukan pengukuran performansi serta analisis, penelitian ini dibatasi pada dua hal, yaitu:

(6)

1. Model silabifikasi fonemis hanya diaplikasikan pada kata-kata yang terdapat di KBBI (bukan nama orang maupun nama tempat) dengan simbol-simbol fonem standar, tidak sampai ke tingkat alofon atau variasi fonem karena model ini akan diintegrasikan ke dalam sistem PUKKB (bukan sistem konversi teks ke suara); dan

2. Model silabifikasi fonemis hanya menangani satu kata yang dikonversi ke da-lam satu barisan fonem, bukan sekumpulan kata (kalimat) yang dapat dikon-versi ke dalam beberapa variasi barisan fonem.

1.4 Tujuan Penelitian

Tujuan penelitian ini adalah mengembangkan model silabifikasi fonemis meng-gunakan gabungan metode berbasis statistik yang bekerja secara lokal dan metode berbasis aturan (kaidah fonotatik) yang mampu menangani banyak pengecualian dan ambiguitas dalam bahasa Indonesia.

1.5 Manfaat Penelitian

Model fonemisasi dan silabifikasi dapat digunakan untuk membangun kamus silabel pada sistem PUKKB bahasa Indonesia berbasis fonem dan silabel. Kedua model tersebut juga dapat digunakan menangani pengenalan suara untuk kata-kata di luar kosakata (out of vocabulary words) yang membuat PUKKB mampu mengenali lebih banyak kata sehingga layak digunakan pada beragam aplikasi, seperti pusat panggilan, pentranskripsian pidato atau wawancara, pencarian data berbasis suara, dan sebagainya.

1.6 Keaslian Disertasi

Untuk bahasa Inggris dan sejumlah bahasa asing di dunia, model fonemisa-si maupun fonemisa-silabifikafonemisa-si yang ada saat ini umumnya menggunakan metode klafonemisa-sifikafonemisa-si berbasis statistik yang bekerja secara global dengan memperhitungkan semua sam-pel data. Sementara itu, model fonemisasi dan silabifikasi yang dikembangkan pada penelitian ini menggunakan metode klasifikasi lokal, yang hanya memperhitungkan sebagian sampel data, sehingga lebih mampu menangani banyak pengecualian dan ambiguitas yang terdapat dalam bahasa Indonesia.