• Tidak ada hasil yang ditemukan

Pengembangan Treebank Bahasa Indonesia

N/A
N/A
Protected

Academic year: 2023

Membagikan "Pengembangan Treebank Bahasa Indonesia"

Copied!
4
0
0

Teks penuh

(1)

Pengembangan Treebank Bahasa Indonesia

Arawinda Dinakaramani

Fakultas Ilmu Komputer Universitas Indonesia

Depok, Indonesia

[email protected]

Fam Rashel Fakultas Ilmu

Komputer Universitas Indonesia

Depok, Indonesia

fam.rashel@ui.

ac.id

Andry Luthfi Fakultas Ilmu

Komputer Universitas Indonesia

Depok, Indonesia

andry.luthfi@u

i.ac.id

Ruli Manurung Fakultas Ilmu

Komputer Universitas Indonesia

Depok, Indonesia

[email protected]

c.id

Abstract

Kami mendeskripsikan penelitian kami mengenai pengembangan Treebank Bahasa Indonesia, yaitu korpus yang terdiri atas 1.000 kalimat bahasa Indonesia yang telah diurai dan dianotasi secara manual. Untuk menghasilkan Treebank Bahasa Indonesia ini, kami juga membuat pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Kami menggunakan pedoman anotasi dari proyek the Penn Treebank (Bies et al., 1995) sebagai dasar dalam perancangan pedoman anotasi Treebank Bahasa Indonesia. Pengembangan Treebank Bahasa Indonesia dilakukan dalam beberapa tahap. Pada tahap awal, kami merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Pada tahap selanjutnya, melalui beberapa iterasi, kami menganotasi 1.000 kalimat bahasa Indonesia dan sekaligus menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Hasil penelitian kami, yaitu (1) pedoman anotasi Treebank Bahasa Indonesia, (2) alat anotasi berbasis web, dan (3) Treebank Bahasa Indonesia, telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac.id/tree bank/.

1 Pendahuluan

Treebank adalah korpus teks yang terdiri atas kalimat-kalimat yang telah diurai dan dianotasi berdasarkan struktur sintaktis atau semantis.

Treebank menjadi salah satu sumber yang penting dalam pengembangan aplikasi di bidang Pemrosesan Bahasa Alami dan Linguistik Komputasi.

Pada makalah ini, kami mempresentasikan penelitian kami dalam pengembangan Treebank Bahasa Indonesia. Tujuan dari penelitian ini adalah menghasilkan Treebank Bahasa Indonesia yang berukuran cukup besar. Untuk menghasilkan Treebank Bahasa Indonesia ini, kami juga membuat pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web.

Pengembangan Treebank Bahasa Indonesia dilakukan dalam beberapa tahap. Pada tahap awal, kami merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Pada tahap selanjutnya, melalui beberapa iterasi, kami menganotasi 1.000 kalimat bahasa Indonesia dan sekaligus menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web.

2 Perancangan Pedoman Anotasi Treebank Bahasa Indonesia

Pada tahap awal penelitian ini, kami merancang pedoman anotasi Treebank Bahasa Indonesia.

Kami menggunakan pedoman anotasi dari proyek the Penn Treebank (Bies et al., 1995) sebagai dasar dalam perancangan pedoman anotasi Treebank Bahasa Indonesia. The Penn Treebank adalah korpus bahasa Inggris beranotasi yang terdiri atas 4.5 juta kata yang telah diberi tag kelas kata dan lebih dari separuhnya telah dianotasi (Marcuset al., 1993).

Terdapat sejumlah perbedaan antara struktur kalimat bahasa Indonesia dengan struktur kalimat bahasa Inggris, sehingga kami perlu memodifikasi pedoman anotasi the Penn Treebank supaya sesuai dan dapat diaplikasikan untuk struktur kalimat bahasa Indonesia.

Aturan-aturan dari pedoman anotasi the Penn Treebank yang sudah sesuai dan dapat

(2)

diaplikasikan untuk struktur kalimat bahasa Indonesia kami masukkan ke dalam pedoman anotasi Treebank Bahasa Indonesia. Contohnya adalah aturan frasa preposisional (1) frasa preposisional memiliki induk preposisi dan (2) preposisi dalam frasa preposisional dapat diikuti oleh frasa nominal dan frasa adjektival.

Aturan-aturan dari pedoman anotasi the Penn Treebank yang perlu atau penting dimasukkan ke dalam pedoman anotasi Treebank Bahasa Indonesia, tetapi belum sesuai dengan struktur kalimat bahasa Indonesia, kami modifikasi sehingga sesuai dan dapat diaplikasikan untuk struktur kalimat Bahasa Indonesia. Kami memodifikasi aturan-aturan tersebut dengan mengacu ke referensi-referensi tata bahasa Indonesia (Alwi et al., 2003; Sneddon et al., 2010).

Perumusan struktur kalimat dalam pedoman anotasi Treebank Bahasa Indonesia menggunakan label kategori sintaktis dan tag fungsi dari pedoman anotasi the Penn Treebank, sedangkan tag kelas kata berasal dari kumpulan tag kelas kata yang dikembangkan dalam penelitian Dinakaramaniet al. (2014).

3 Deskripsi Data

Dalam mengembangkan Treebank Bahasa Indonesia, kami menggunakan kalimat bahasa Indonesia dari korpus yang telah dikembangkan dalam penelitian Dinakaramani et al. (2014).

Korpus ini terdiri atas 10.000 kalimat bahasa Indonesia yang telah diurai menjadi token leksikal dan diberi tag kelas kata. Korpus ini disimpan dalam format berkas TSV.

Proses anotasi Treebank Bahasa Indonesia dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan dalam penelitian ini.

Alat anotasi berbasis web ini dapat menerima berkas masukan dalam format berkas BRACKET, sehingga kami mengonversi format berkas korpus dari TSV menjadi BRACKET.

Sebagai contoh, kalimat “Pembahasan tadi masih dalam tahap awal.” jika disimpan dalam format berkas TSV, menjadi

Pembahasan NN tadi PR

masih MD dalam IN tahap NN awal NN . Z

dan jika disimpan dalam format berkas BRACKET, menjadi (NN (Pembahasan)) (PR (tadi))(MD (masih))(IN (dalam))(NN (tahap))(NN (awal))(Z (.)).

Kami tetap mempertahankan tag kelas kata dari korpus ini. Kami berasumsi dengan adanya informasi kelas kata ini, anotator dapat lebih cepat dan mudah dalam melakukan anotasi.

4 Proses Anotasi

Proses anotasi dilakukan dalam dua fase. Pada fase pertama, proses anotasi dilakukan secara manual dan hasil anotasi disimpan dalam format berkas teks TXT. Pada fase kedua, proses anotasi dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan.

4.1 Proses Anotasi tanpa Alat Anotasi Berbasis Web

Pada proses anotasi fase pertama, dua orang anotator menganotasi 100 kalimat pertama dari korpus kami secara manual tanpa menggunakan alat anotasi berbasis web. Pada fase pertama ini, anotator mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia yang telah kami rancang dan menyimpan hasil anotasi dalam format berkas teks TXT.

Berikut ini contoh kalimat yang dianotasi pada proses anotasi fase pertama.

(S (PP-TMP Selama

(NP bertahun-tahun)) (NP-SBJ monyet)

(VP mengganggu

(NP warga Delhi)) .)

Hasil anotasi dari kedua anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia.

4.2 Proses Anotasi dengan Alat Anotasi Berbasis Web

Pada proses anotasi fase kedua, tiga orang anotator menganotasi 1.000 kalimat pertama dari korpus kami. Proses anotasi dilakukan dengan mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia dan menggunakan alat anotasi berbasis web yang kami kembangkan.

Pada fase kedua ini, selain menganotasi 1.000 kalimat bahasa Indonesia, kami juga sekaligus menyempurnakan pedoman anotasi Treebank

(3)

Bahasa Indonesia dan alat anotasi berbasis web.

Proses anotasi fase kedua dilakukan dalam tiga langkah.

Langkah pertama: Pada langkah pertama, tiga orang anotator menganotasi ulang 100 kalimat pertama dari korpus kami dengan mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia yang telah disempurnakan pada proses anotasi fase pertama.

Proses anotasi dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan.

Setelah selesai melakukan anotasi, ketiga anotator memberikan saran yang kami gunakan untuk menyempurnakan alat anotasi berbasis web tersebut.

Hasil anotasi dari ketiga anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan membuat 100 kalimat beranotasi definitif yang akan dijadikan contoh untuk anotasi kalimat-kalimat selanjutnya.

Hasil dari langkah pertama ini adalah alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan 100 kalimat beranotasi definitif.

Langkah kedua: Pada langkah kedua, tiga orang anotator menganotasi 100 kalimat selanjutnya dari korpus kami. Proses anotasi dilakukan menggunakan ketiga hasil dari langkah pertama, yaitu alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan 100 kalimat beranotasi definitif.

Setelah selesai melakukan anotasi, ketiga anotator memberikan saran yang kami gunakan untuk menyempurnakan alat anotasi berbasis web. Hasil anotasi dari ketiga anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia.

Hasil dari langkah kedua ini adalah alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan tambahan 100 kalimat beranotasi.

Langkah ketiga: Pada langkah ketiga, dua orang anotator menganotasi 1.000 kalimat pertama dari korpus kami. Proses anotasi dilakukan menggunakan alat anotasi berbasis web versi terbaru dan pedoman anotasi Treebank Bahasa Indonesia versi terbaru yang dihasilkan dari langkah kedua.

Hasil anotasi dari kedua anotator kemudian dibandingkan dan didiskusikan untuk memfinalisasi pedoman anotasi Treebank Bahasa

Indonesia dan membuat Treebank Bahasa Indonesia versi final yang akan dirilis.

5 Hasil

Dalam penelitian ini, kami mengembangkan dan menghasilkan pedoman anotasi Treebank Bahasa Indonesia, alat anotasi berbasis web, dan Treebank Bahasa Indonesia. Hasil penelitian kami telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac.

id/treebank/.

5.1 Pedoman Anotasi Treebank Bahasa Indonesia

Pedoman anotasi Treebank Bahasa Indonesia berisi petunjuk cara menganotasi struktur kalimat bahasa Indonesia dalam pengembangan Treebank Bahasa Indonesia. Pedoman anotasi Treebank Bahasa Indonesia yang kami kembangkan mencakup struktur kalimat, klausa, dan frasa bahasa Indonesia.

Struktur kalimat mencakup kalimat deklaratif sederhana, kalimat pasif, kalimat imperatif, kalimat interogatif, kalimat inversi, dan kutipan langsung. Struktur klausa mencakup klausa subordinatif, koordinasi antarklausa, dan kutipan tidak langsung. Struktur frasa mencakup frasa adjektival, frasa adverbial, frasa konjungtor, frasa nominal, frasa numeral, frasa preposisional, frasa verbal, dan koordinasi frasa tak sejenis.

5.2 Alat Anotasi Berbasis Web

Alat anotasi berbasis web yang kami kembangkan dapat menerima dua jenis masukan, yaitu (1) teks yang ditulis langsung oleh pengguna di halaman web alat anotasi dan (2) berkas teks dengan format BRACKET.

Setiap kalimat dalam berkas masukan BRACKET akan muncul di area kanvas halaman web alat anotasi. Selanjutnya, anotator dapat menganotasi kalimat tersebut menjadi diagram pohon. Berikut ini contoh diagram pohon kalimat yang sudah diurai dan dianotasi menggunakan alat anotasi berbasis web.

(4)

Gambar 1. Diagram Pohon dalam Alat Anotasi Berbasis Web

Setelah selesai melakukan anotasi, pengguna dapat menyimpan hasil anotasi dalam format berkas BRACKET. Diagram pohon dalam Gambar 1 jika disimpan dalam format berkas BRACKET akan menjadi (S (NP-SBJ (PR (Ini))) (VP (MD (akan)) (VP (VB (mempengaruhi)) (NP (NN (neraca pembayaran)) (PRP (kita))))) (Z (.))).

5.3 Treebank Bahasa Indonesia

Dalam penelitian ini, kami telah menganotasi 1.000 kalimat bahasa Indonesia secara manual menggunakan alat anotasi berbasis web dengan mengikuti pedoman anotasi Treebank Bahasa Indonesia. Korpus Treebank Bahasa Indonesia disimpan dalam format berkas BRACKET.

6 Kesimpulan

Kami telah mengembangkan Treebank Bahasa Indonesia yang terdiri atas 1.000 kalimat bahasa Indonesia yang telah diurai dan dianotasi secara manual. Dalam penelitian ini, kami juga merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Hasil penelitian kami telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac.id/

treebank/.

Referensi

A. Bies, M. Ferguson, K. Katz, dan R. MacIntyre.

1995. "Bracketing Guidelines for Treebank II Style

Penn Treebank Project".

https://catalog.ldc.upenn.edu/docs/LDC99T42/prsg uid1.pdf. Diakses September 2013.

A. Dinakaramani, F. Rashel, A. Luthfi, dan R.

Manurung. 2014. "Designing an Indonesian Part of Speech Tagset and Manually Tagged Indonesian

Corpus". Dalam Proceedings of the 2014 International Conference on Asian Language Processing.

H. Alwi, S. Dardjowidjojo, H. Lapoliwa, dan A.

Moeliono. 2003. Tata Bahasa Baku Bahasa Indonesia. Edisi Ketiga. Balai Pustaka, Jakarta.

J. Sneddon, A. Adelaar, D. Djenar, dan M. Ewing.

2010. Indonesian Reference Grammar. Edisi Kedua. Allen & Unwin, Crows Nest.

M. Marcus, B. Santorini, dan M.A. Marcinkiewicz.

1993. Building a large annotated corpus of English:

the Penn Treebank.Computational Linguistics, Vol.

19, No. 2, pp. 313-330.

Referensi

Dokumen terkait

Pertama, karakter yang dikembangkan da- lam buku ajar bahasa Indonesia berbasis jender adalah siswa yang mampu (1) me- ngakses semua kegiatan tanpa membeda- kan jenis kelamin,

Maka untuk mengetahui lebih jelas berikut ini uraian langkah -langkah tersebut:.. Hal pertama yang perlu dilakukan adalah meperhatikan tujuan pembelajaran yang ingin dicapai,

Pada setiap siklus dilakukan langkah-langkah penilaian berbasis proyek, yaitu pada pertemuan pertama berupa kegiatan awal (tahap perencanaan ) KBM yang dilakukan

Kurikulum 2004 Sekolah Menengah Pertama SMP: Pedoman Umum Sistem Penilaian Hasil Belajar Berbasis Kompetensi Siswa Sekolah Menengah Pertama SMP.. Tes Bahasa: Pegangan Bagi Pengajar

Huruf kapital tidak digunakan untuk menuliskan huruf pertama kata yang bermakna 'anak dari', seperti bin, binti, boru, dan van, kecuali dituliskan sebagai awal nama atau huruf pertama

5 Penggunaan warna dalam media animasi berbasis Microsoft PowerPoint dengan nilai 100% 6 Penguasasan materi dalam media animasi berbasis Microsoft PowerPoint dengan nilai 100% 7

Kesimpulan Dari penelitian yang telah selesai dilaksanakan oleh penulis, dapat disimpulkan bahwa : 1 Langkah-langkah pengembangan media pembelajaran pembelajaran kartu kata berbasis

Penilaian Sikap Pedoman Kriteria Penskoran No Aspek yang diamati Sangat baik 4 Baik 3 Cukup 2 Perlu Bimbingan 1 1 Keterampilan menulis langkah- langkah teks petunjuk Menuliskan