BAB V PENGUJIAN
V.1 Tujuan Pengujian
Pengujian dilakukan untuk menguji hasil kumpulan file masukan hasil pemrosesan awal (preprocessing) dari tesis ini. Pengujian juga dilakukan untuk mengetahui kinerja pengurai Collins jika digunakan untuk bahasa Indonesia menggunakan kumpulan file masukan hasil pemrosesan awal (preprocessing).
Hasil pengujian juga dapat digunakan untuk menganalisa bagian-bagian yang masih perlu diperbaiki di masa mendatang.
V.2 Perancangan Pengujian
Pengujian yang akan dilakukan dalam tesis ini adalah sebagai berikut:
1. Membagi pengujian menjadi dua buah kelompok dan dilakukan pengujian yang sama terhadap kedua kelompok itu, kelompok pertama adalah kelompok yang memiliki spesifikasi sebagai berikut:
a. File treebank berisi 42 pohon kalimat yang memiliki struktur sederhana (berjenis kalimat berita),
b. File kalimat berisi 7 buah kalimat sederhana (berjenis kalimat berita) yang setipe yang memiliki grammar mirip dengan pohon kalimat di file treebank;
kelompok kedua adalah kelompok yang memiliki spesifikasi berikut:
a. File treebank berisi 190 pohon kalimat (berjenis kalimat berita, opini, pertanyaan, perintah) termasuk pohon kalimat yang ada di kelompok pertama,
b. File kalimat berisi 15 kalimat (berjenis kalimat berita) yang lebih kompleks dari kelompok pertama,
2. Pada kedua kelompok dilakukan hal-hal berikut:
a. Memasukkan file treebank yang berisi pohon kalimat untuk
leksikon, file treebank yang digunakan dapat dilihat pada Lampiran 10, file leksikon yang digunakan dapat dilihat pada Lampiran 11, b. Memasukkan file kalimat berbahasa Indonesia untuk
mempersiapkan file korpus, file korpus yang digunakan dapat dilihat pada Lampiran 8,
c. Menguji pengurai Collins dengan file masukan dari pemrosesan awal (preprocessing) tesis ini untuk kelompok pertama dan kedua.
Topik pemilihan kalimat untuk kalimat treebank dan korpus diambil dari sebuah topik ditambah dengan beberapa kalimat sederhana (memiliki pohon kalimat yang sederhana). Topik tersebut diambil dari buku “Bahasa Indonesia: Bahasa Kebanggaanku” karangan Sarwiji Suwandi Sutarmo untuk tingkat SMP dan MTs kelas VII [25] dan beberapa kalimat dari contoh Penn treebank yang diterjemahkan ke bahasa Indonesia. Dengan menggunakan sebuah topik dan beberapa kalimat sederhana diharapkan hasil penguraian akan lebih bervariasi (tidak hanya menghasilkan probabilitas 0).
Penyesuaian yang dilakukan terhadap kode program pengurai Collins adalah
memperkecil nilai threshold dari hasil penguraian per aturan grammar kalimat
yang dianggap valid. Penyesuaian threshold dilakukan karena terlalu kecilnya
jumlah kalimat pada treebank berbahasa Indonesia dibanding dengan treebank
yang digunakan pengurai Collins. Threshold pada pengurai Collins awalnya
bernilai -5000000 diganti oleh penulis menjadi -999999999.999999999 (nilai
terkecil untuk tipe data double pada bahasa pemrograman C). Dari 190 pohon
kalimat dalam treebank yang diujicobakan menghasilkan 319 aturan grammar sisi
kiri (L = Left), 103 aturan grammar sisi kanan (R = Right), 21 aturan grammar
unary (U), 21 aturan grammar sub-kategori sisi kiri (X), dan 21 aturan grammar
sub-kategori sisi kanan (Y). Aturan grammar murni hasil generasi pemrosesan
awal (preprocessing) pada tesis ini dapat dilihat pada Lampiran 7 sedangkan hasil
generasi file events dapat dilihat pada Lampiran 9.
V.2.1 Hasil dan Analisis Pengujian
Hasil pengujian kelompok pertama, dari 7 kalimat berhasil diuraikan dengan benar 6 kalimat, sedangkan 1 kalimat ada bagian yang masih kurang tepat diuraikan. Hal ini dikarenakan bagian kalimat yang kurang tepat diuraikan tidak memiliki events di file events (aturan grammar yang tepat tidak memiliki event di file events untuk menghitung probabilitas grammar). Hasil pengujian kelompok pertama dapat dilihat pada Lampiran 6.
Hasil pengujian kelompok kedua, dari 15 kalimat yang diujikan, yang berhasil diuraikan adalah 8 kalimat. Kalimat yang tidak dapat diuraikan hasil probabilitas kalimatnya adalah 0. Justifikasi nilai 0 diambil oleh Collins dalam pengurainya karena kalimat tidak berhasil diuraikan keseluruhan (terputus di tengah), karena ada bagian pohon yang tidak cocok dengan satupun grammar di file grammar.
Oleh karena itu probabilitas pohon yang tidak dapat diuraikan juga bernilai 0.
Dapat diambil contoh dari contoh kalimat pada korpus yang digunakan pada tesis ini, yaitu kalimat ke-4 yang tidak berhasil diuraikan oleh pengurai Collins seperti pada Tabel V-1.
Tabel V-1 Kalimat ke-4 Kelompok ke-2 yang Tidak Berhasil Diuraikan
9 Kalau CS ada VB , PU tulislah VB dengan IN singkat JJ cerita NN itu PR ! PU
Sebagian proses penguraian pada kalimat ke-4 dapat dilihat pada Tabel V-2. Oleh
karena itu diperlukan adanya tambahan data treebank yang lebih banyak agar hasil
penguraian lebih konsisten. Dilihat dari segi jumlah, 190 kalimat pada treebank
berbahasa Indonesia yang dibuat manual belum bisa merepresentasikan sebuah
bagian (section) Penn treebank yang digunakan pengurai Collins untuk bahasa
Inggris. Pengurai Collins menggunakan sekitar 100.000 kalimat dari Penn
treebank. Hasil pengujian penguraian kalimat berbahasa Indonesia yang diuraikan
dengan pengurai Collins dapat dilihat pada lampiran 6.
Tabel V-2 Proses Penguraian Kalimat ke-4 Kelompok ke-2 {hasil penguraian awal kalimat}
EDGE 0 0 0 1 0 18 L 110 0 HV0 R 10 0 CS 0 Kalau
EDGE 1 0 0 1 0 31 L 110 0 HV0 R 10 0 VB 0 ada
EDGE 2 -43.9314 -50.7629 0 1 12 L 110 0 HV0 R 10 0 ADJP -43.9314 VB 0 ada
EDGE 3 -0.290122 -4.05236 0 1 13 L 110 0 HV0 R 10 0 ADVP -0.290122 VB 0 ada
EDGE 4 -1.66501 -6.83979 0 1 32 L 110 0 HV0 R 10 0 VP -1.66501 VB 0 ada
EDGE 5 -4.64459 -8.40684 1 1 13 L 110 0 HV0 R 10 0 ADVP -4.64459 VB 0 ada
EDGE 6 -3.82346 -8.99824 1 1 32 L 110 0 HV0 R 10 0 VP -3.82346 VB 0 ada
EDGE 7 0 0 1 0 34 L 110 0 HV0 R 10 0 PU 0 ,
...
{hasil penguraian akhir kalimat, tidak ada konektivitas dengan awal kalimat/terputus}
EDGE 98 -21.1985 -26.3733 1 3 32 L 110 0 HV0 R 0 0 VP -21.1985 VB 0 tulislah
ADVP -14.1724 IN 0 dengan JJ 0 singkat
NP -9.59634 NN 0 cerita PR 0 itu
PU 0 !
Dari 8 kalimat yang berhasil diuraikan tidak ada yang benar hasil penguraiannya
secara kesatuan kalimat. Namun beberapa hasil penguraian bagian kalimat ada
yang benar, tapi juga ada yang kurang tepat (kurang sesuai dengan kaidah bahasa
Indonesia) (dapat dilihat pada Lampiran 6). Hal ini karena aturan grammar yang
memiliki bobot besar (dihitung dari events) merupakan grammar yang kurang
tepat diaplikasikan pada kalimat yang diuraikan. Oleh karena itu perlu lebih
banyak treebank yang dijadikan events sebagai data pembelajaran agar hasilnya
lebih konsisten. Misal proses pada bagian proses penguraian kalimat ke-2 dari
Tabel V-3 Proses Penguraian Kalimat ke-2 Kelompok ke-2 ...
EDGE 319 -66.8343 -72.4793 0 3 13 L 110 0 HV0 R 0 0 ADVP -66.8343 NN 0 Malin
SBAR -21.1653 NP -10.2499 NN 0 Kundang ADVP -5.67955 IN 0 dari
NP -4.31217 NN 0 Sumatra NN 0 Barat
PR 0 ini
VP -2.57047 VB 0 ternyata
EDGE 320 -18.024 -20.6916 0 3 24 L 110 0 HV0 R 0 0 NP -18.024 NN 0 Malin
NN 0 Kundang
ADVP -2.97829 IN 0 dari NP -1.61092 NN 0 Sumatra NN 0 Barat
ADVP -5.14351 NP -0.0849127 PR 0 ini VB 0 ternyata
...