HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

TEMATIKA DAN ILMU PENGETAHUAN A INSTITUT PERTANIAN BOGOR

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Dokumen korpus yang digunakan untuk pengujian ada sebanyak 2000 dokumen dalam bentuk file teks yang berformat XML. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1.

Tabel 1. Deskripsi dokumen pengujian

Uraian Nilai

(bytes) Ukuran rata-rata dokumen 3.220 Ukuran dokumen keseluruhan 6.439.002 Ukuran dokumen terbesar 53.306 Ukuran dokumen terkecil 412

Pemrosesan Dokumen

Dokumen berasal dari Laboratorium Temu Kembali Informasi. Dokumen ini terlebih dahulu diproses sehingga dihasilkan dokumen berbentuk teks (*.txt) dengan strutur XML di dalamnya. Pemrosesan dokumen yang ditunjukkan pada Gambar 2 dilakukan secara

offline, dimana proses tersebut dilakukan secara terpisah dan terlebih dahulu sebelum dilakukan pembuatan sistem. Pada tahap ini dilakukan proses pembacaan seluruh dokumen. Kemudian dilakukan proses tokenisasi pada dokumen tersebut yaitu memilah-milah tiap kata dengan membuang setiap tanda baca dan spasi sehingga dihasilkan token-token. Setelah itu dilakukan proses pembuangan stopwords sehingga dihasilkan token-token yang lebih efektif dan efisien. Stopwords adalah kata-kata yang sering muncul dalam korpus tetapi tidak memiliki makna yang terlalu penting yang dapat mewakili isi dari korpus, contohnya: ‘pada’, ‘atau’, ‘ke’, ‘dan’, ‘lalu’, ‘mereka’, ‘saya’, ‘kamu’, dan lain-lain. Tahap selanjutnya adalah pembentukan frasa dimana frasa tersebut didapatkan dari kata-kata yang berdekatan dalam setiap kalimat. Jika ada dua kata yang memiliki posisi yang berurutan dalam suatu kalimat pada satu dokumen dan kejadian ini sering terjadi dianggap memiliki keterkaitan antar konteks. Dua kata yang menjadi sebuah frasa dianggap memiliki kesamaan konteks. Pemrosesan dokumen menghasilkan contoh confusion set yang dapat dilihat pada Tabel 2.

Tabel 2. Contoh 15 Confusion set dan jumlah pada data latih

Confusion set Jumlah confusion set pada data latih sawah, kawah irigasi, iritasi panen, paten pupuk, bubuk batang, barang nelayan, pelayan perahu, perayu jamur, janur garam, haram, karam nangka, sangka, langka lemak, lemah, lemas hama, sama, nama hewan, heran bambu, rambu, bumbu

144 113 186 358 234 92 49 51 12 36 5 301 113 39

Confusion set pada Tabel 2 menjelaskan beberapa kata yang memiliki kesamaan dalam hal tulisan tetapi memiliki arti yang berbeda. Hal tersebut yang menyebabkan sistem koreksi konvensional mengalami keambiguan dalam proses pengoreksian. Jumlah pada data latih yang dimaksud adalah banyaknya kata-kata ambigu tersebut terdapat dalam kamus frasa.

Pengujian dan Evaluasi Sistem

Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi sistem dilakukan oleh manusia, dimana jawaban dinilai dari segi ketepatan sistem dalam memberikan kata usulan sebagai hasil koreksi.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan adalah sebagai berikut:

Perangkat lunak: • Windows XP Professional • MySQL Server 5.0 • NetBeans IDE 6.8 • Microsoft Office 2007 • Notepad Perangkat keras:

• Processor Intel Core 2 Duo (2.80 GHz)

• 3271 Mbytes RAM

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Dokumen korpus yang digunakan untuk pengujian ada sebanyak 2000 dokumen dalam bentuk file teks yang berformat XML. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1.

Tabel 1. Deskripsi dokumen pengujian

Uraian Nilai

(bytes) Ukuran rata-rata dokumen 3.220 Ukuran dokumen keseluruhan 6.439.002 Ukuran dokumen terbesar 53.306 Ukuran dokumen terkecil 412

Pemrosesan Dokumen

Tabel 2. Contoh 15 Confusion set dan jumlah pada data latih

144 113 186 358 234 92 49 51 12 36 5 301 113 39

Pembentukan Frasa

Pembentukan frasa beserta nilai peluangnya dilakukan dengan memanfaatkan hasil penelitian Kartina (2010). Setiap pasangan frasa beserta nilai peluangnya didapat dari preproses pada 2000 dokumen yang merupakan koleksi dokumen dari penelitian ini. Proses pembentukan frasa dilakukan dalam program

peluang300510.pl, yang memanggil

kembali filepreproses.dat yang dihasilkan oleh program frek270510.pl. Dari program tersebut didapatkan kumpulan kata unik yang akan digunakan dalam program

peluang300510.pl untuk menghitung

frekuensi kata A setelah kata B muncul dan menghitung kata A terhadap semua kata. Frekuensi kata A setelah kata B merupakan pembilang dari perhitungan nilai peluang dan frekuensi kata A terhadap semua kata merupakan penyebut dari perhitungan nilai peluang. Ilustrasi algoritme untuk mendapatkan variabel $pembilang dan

$penyebut sebagai berikut:

$penyebut :

%frek= retrieve(‘praproses.dat’);

%urut = %{$frek {‘frekUrut’}};

%unik = %{$frek {‘unik’}};

foreach $kataA of %unik{

foreach $kataB of {$unik{$kataA}}{ $pembilang{$kataA}{$kataB}=

$urut{$kataA}{$kataB}; $penyebut{$kataA} +=

$urut{$kataA}{$kataB}; }}

Perhitungan nilai peluang kata A setelah kata B dari semua pasangan kata unik dapat dilihat pada algoritme berikut:

%unik = %{$frek {‘unik’}};

foreach $kataA of %unik{

foreach $kataB of {$unik{$kataA}}{ if $kataA not equal $kataB{

$peluang{$kataA}{$kataB} = $pembilang{$kataA}{$kataB}/ $penyebut{$kataA}{$kataB}; }}}

Contoh proses pembentukan frasa beserta nilai peluangnya dari sebuah dokumen (situshijau07.txt) dapat dijelaskan sebagai berikut:

Gunakan ramuan temulawak untuk mengobati gangguan pada hati.

Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Caranya iris rimpang temulawak tipis-tipis setelah dibersihkan, lalu direbus dengan air. Rebusan inilah yang nanti diminum, bisa juga ditambahkan madu.

Isi dari dokumen tersebut diproses kemudian dilakukan pembentukan frasa dalam hal ini pembentukan frasa dilakukan per kalimat, proses tersebut dapat dilihat pada Gambar 4.

Gambar 4 Proses pembentukan frasa. Perhitungan Nilai Peluang

Kolom pasangan frasa hanya terdiri atas 15 pasangan frasa dikarenakan pembentukan frasa terjadi di setiap satu kalimat. Kolom frekuensi dari Tabel 3 menunjukkan berapa banyak pasangan frasa tersebut muncul pada dokumen tersebut (situshijau07.txt). Nilai frekuensi ini selanjutnya akan digunakan untuk menentukan nilai peluang dari masing-masing pasangan frasa. Kolom frekuensi pada Tabel 3 menjelaskan berapa banyak sebuah pasangan frasa muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Perhitungan nilai peluang pada Tabel 3 hanya ditinjau dari satu dokumen saja untuk memperjelas setiap langkah pembentukan nilai peluang. Kolom ketiga menjelaskan berapa banyak kata A (kata kedua dari setiap pasangan frasa) muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Pada baris pertama kolom ketiga terdapat nilai 2 yang berarti kata ‘ramuan’ pada pasangan frasa ‘gunakan-ramuan’ muncul sebanyak dua kali dalam dokumen

situshijau.txt. Pada baris kesepuluh

kolom ketiga terdapat nilai 3 berarti kata ‘mengobati’ pada pasangan frasa ‘temulawak-mengobati’ muncul sebanyak tiga kali dalam dokumen situshijau.txt. Kolom keempat yang berisi nilai peluang menjelaskan pembentukan nilai peluang dari setiap pasangan frasa yaitu hasil pembagian dari kolom kedua (frekuensi pasangan frasa) dengan kolom ketiga ( A dalam dokumen).

Perhitungan peluang pasangan frasa dari 2000 dokumen menghasilkan 90.077 kandidat frasa dengan nilai peluang terkecil 1.98 x 10^-4 dan nilai terbesarnya adalah 1. Sebanyak 9.600 pasangan kata memilki nilai peluang sebesar 1, 5.307 pasangan kata memiliki nilai peluang antara 0.5 sampai 1, 18.196 pasang kata memiliki peluang antara 0.1 sampai kurang dari 0.5, dan 56.974 pasang kata

memiliki peluang kurang dari 0.1. Gambar 5 menunjukkan histogram sebaran nilai peluang, sumbu y menunjukkan frekuensi pasangan kata untuk setiap nilai peluang. Tabel 3. Nilai peluang pasangan frasa

Gambar 5 Histogram sebaran nilai peluang pembentukan frasa.

Pemecahan (Split) Kueri

Kueri yang digunakan dalam penelitian ini minimal terdiri atas subjek dan predikat. Contoh dari kueri yaitu:

• jangkrik merusak bawah S P O

Sistem akan melakukan proses pemecahan (split) sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Dengan adanya proses tokenisasi maka spasi (“ “) dibuang sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Hasil pemecahan (split) kemudian digunakan sebagai pedoman untuk mengoreksi kata yang salah dan mencari kata usulan sebagai hasil dari koreksi. Kueri yang telah diproses akan diperiksa ke dalam kamus frasa. Proses pencarian kata usulan tersebut menggunakan nilai peluang dari masing-masing kata tunggal hasil proses tokenisasi. Periksa pada Kamus Frasa

Kueri yang dimasukkan pengguna berupa kalimat akan dibaca oleh sistem kemudian disimpan ke dalam variabel query. Hasil pemecahan (split) disimpan dalam variabel q

dan akan diperiksa apakah terdapat dalam kamus frasa atau tidak. Hasil pemecahan (split) yang terdapat dalam kamus frasa akan disimpan dalam variabel

kueriBaru[jlhKueriBaru], sedangkan

yang tidak terdapat dalam kamus frasa akan diabaikan dan dianggap sebagai kata yang salah dan akan diperbaiki. Pemeriksaan dilakukan baik pada entitas kata1 ataupun kata2 pada kamus frasa. Indeks pada variabel

kueriBaru[jlhKueriBaru] dimulai dari

jlhKueriBaru=0 sampai

jlhKueriBaru=n. Variabel

kueriBaru[jlhKueriBaru] tersebut akan

digunakan untuk pencarian kata usulan. Berikut adalah ilustrasi algoritme untuk

mendapatkan variabel

kueriBaru[jlhKueriBaru] adalah:

query = Kueri.getText();

String[] q = query.parsing dan

tokenisasi(" ");

for (a = 0; a < q.length; a++) { b = 0;

rs=statement.executeQuery("selec

t * from peluang where

kata1='" + q[a] + "' OR kata2='" + q[a] + "'"); if (b != 0) { kueriBaru[jlhKueriBaru]= q[a];}} Pasangan Frasa (A-B) Frekuensi A dalam dokumen Nilai Peluang = Frekuensi A dalam dokumen gunakan-ramuan 2 2 1 2 2 = gunakan-temulawak 2 2 1 2 2 = gunakan-mengobati 2 2 1 2 2 = gunakan-gangguan 2 2 1 2 2 = gunakan-hati 2 2 1 2 2 = ramuan-temulawak 2 2 1 2 2 = ramuan-mengobati 2 2 1 2 2 = ramuan-gangguan 2 2 1 2 2 = ramuan-hati 2 2 1 2 2 = temulawak-mengobati 2 3 67 . 0 3 2 = temulawak-gangguan 2 3 67 . 0 3 2 = temulawak-hati 2 3 67 . 0 3 2 = mengobati-gangguan 2 2 1 2 2 = mengobati-hati 2 2 1 2 2 = gangguan-hati 2 2 1 2 2 =

Pemrosesan kueri berguna untuk menunjukkan kata yang salah yang terdapat dalam kueri. Contoh kueri:

pupuk organik digantikan dengan susuk buatan

S P O Kueri tersebut terlebih dahulu diproses yaitu setelah kueri dibaca oleh program maka kueri tersebut disimpan dalam variabel

query[], kemudian dilakukan proses

pemecahan (split) dan hasil proses pemecahan (split) disimpan dalam variabel q[] yaitu pupuk, organik, digantikan, dengan, susuk, buatan. Hasil pemecahan (split) tersebut kemudian diperiksa satu persatu ke dalam kamus frasa, apakah kata-kata tersebut ada dalam kamus frasa. Berdasarkan ke-enam kata tersebut maka kata susuk tidak terdapat dalam kamus frasa sehingga program menganggap kata susuk sebagai kata yang salah yang kemudian akan dicari kata usulannya. Pencarian Kata Usulan

Penggunaan nilai peluang dalam proses pencarian kata usulan dari kata yang dianggap salah pada kueri merupakan fokus dari penelitian ini. Proses sorting dilakukan pada kamus frasa berdasarkan nilai peluangnya menggunakan algoritme quick sort. Proses sorting dilakukan sebanyak dua kali yaitu pada entitas kata1 dan pada entitas kata2. Entitas kata1 di-sorting berdasarkan nilai peluangnya begitu juga dengan entitas kata2. Berikut adalah ilustrasi algoritme untuk men-sorting entitas kata1 dan entitas kata2 berdasarkan nilai peluangnya:

if (i<=j) { try { h = nilai[i]; nilai[i] = nilai[j]; nilai[j] = h; kataI = kata1[i]; kata1[i]=kata1[j]; kata1[j]= kataI; kataII = kata2[i]; kata2[i]=kata2[j]; kata2[j]= kataII; i++; j--;

} catch (Exception ex) { }}

Variabel kueriBaru[j] yang merupakan hasil pemrosesan kueri dan terdiri atas kata tunggal akan diperiksa apakah terdapat dalam kamus frasa. Pencarian kata usulan dilakukan dengan memeriksa kesamaan anggota entitas

kata1 dan entitas kata2 satu per satu dengan variabel kueriBaru[j]. Kata usulan dari proses koreksi dibatasi pada kata yang baru, maksudnya kata usulan tidak mengandung kata yang terdapat dalam variabel

kueriBaru[] atau kueri. Jika ada anggota

entitas kata1 yang sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata2 beserta nilai peluangnya sebagai kata usulan dan jika entitas kata1 tidak sama dengan anggota yang terdapat dalam variabel

kueriBaru[j] atau kueri maka program

akan mengeluarkan entitas kata1 beserta nilai peluangnya sebagai kata usulan.

Pada penelitian ini, kata yang diusulkan berasal dari kata-kata yang berhubungan secara konteks dengan kueri, dilihat nilai peluang dari setiap pasangan kata. Pada kueri

pupuk organik digantikan susuk

buatan. Program sudah dapat mendeteksi

kesalahan berada pada kata susuk. Tahap selanjutnya adalah program akan mencari kata usulan untuk menggantikan kata susuk. Hasil parsing dan tokenisasi digunakan kembali dimana tiap anggota dari variabel

kueriBaru[j] akan diperiksa

keanggotaanya dalam kamus frasa, jika ada dalam kamus frasa baik terdapat dalam entitas kata1 ataupun pada entitas kata2 pada kamus frasa, maka program akan mengambil pasangan frasa tersebut beserta nilai peluangnya, contoh untuk kata pupuk maka pasangan frasa yang terdapat dalam kamus frasa yaitu : sebagi' 1, 'pupuk-sriwijaya' 1, 'pupuk-koprasi' 1, 'kelangkaan-pupuk' 0.0823373, 'penggunaan-pupuk' 0.0756972, 'harga-pupuk' 0.065073, dan seterusnya. Kumpulan hasil pencarian pada kamus frasa dari setiap anggota pada variabel

kueriBaru[j] tersebut kemudian di-sorting

secara descending sehingga dihasilkan: 'pupuk-sriwijaya' 1, 'menggantikan-bpkp' 1, 'pupuk-bokashi' 1, tdc' 1, 'organik-prinsipnya' 1, dan seterusnya. Kemudian program akan memeriksa kesamaan setiap kandidat kata usulan baik pada entitas kata1 maupun entitas kata2 dengan anggota pada variabel kueriBaru[j]. Kata yang diambil sebagai kata usulan adalah kata yang tidak sama dengan anggota pada variabel

kueriBaru[j]. Dari lima kandidat kata

usulan di atas didapatkan kata usulan sebagai berikut: sriwijaya, bpkp, borashi,

Kata usulan sangat banyak maka setiap kemungkinan pasangan kata usulan tersebut akan dilakukan pengurutan berdasarkan nilai peluangnya secara menurun (descending). Penelitian dibatasi dengan mengambil 10 pasangan kata teratas menjadi kata usulan sebagai koreksi dari kata yang salah. Algoritme lengkap dari pembuatan sistem dapat dilihat pada Lampiran 4.

Pengujian Sistem

Pada tahap ini sistem yang telah dibuat diuji menggunakan metode black box dengan beberapa data contoh sebelum melakukan pengujian dengan data uji sebenarnya. Hal ini berguna untuk menyempurnakan sistem yang telah dibuat. Pengujian sistem yang sesungguhnya dilakukan dengan cara memasukkan data kata salah ejaan yang telah ditentukan secara acak sebelumnya sebanyak 60 jenis inputan kueri. Inputan kueri tersebut dibedakan menjadi dua macam yaitu 30 kueri biasa, dimana kata yang salah merupakan kata tunggal dalam kueri dan 30 kueri khusus, dimana kata yang salah berupa frasa dalam kueri. Kata yang salah dalam kalimat dibuat salah pengejaan sesuai dengan yang didefinisikan oleh Damerau Levenstein yaitu penyisipan (insertion), penghapusan (deletion), Penukaran (transposition), dan penggantian (substitution), maupun kesalahan secara konteks. Lampiran 2 menunjukkan 60 jenis kueri yang digunakan dalam penelitian ini. Proses pengujian yang sebenarnya menghasilkan 60 macam percobaan dengan 2 macam jenis kesalahan yang hasilnya dapat dilihat pada Tabel 4 dan Gambar 6.

Tabel 4. Hasil pengujian sistem

Kueri-kesalahan Kejadian 1 2 3 4 5 6 7 8 9 ^10-_dst Biasa-konteks ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ Biasa-Damerau ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ ⁰ Khusus-konteks ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ Khusus-Damerau ¹ ¹ ¹ ¹ ¹ ¹ ¹ ⁰ ¹ ¹

Gambar 6 Grafik hasil koreksi sistem.

Pada Tabel 4 nilai 0 menjelaskan bahwa sistem tidak berhasil memberikan kata usulan yang tepat sebagai hasil koreksi sedangkan nilai 1 menjelaskan sistem berhasil memberikan kata usulan yang tepat sebagai hasil koreksi. Pada sumbu ordinat terdapat rentang antara 0-18 yang mewakili jumlah kueri masukan, sehingga terdapat 60 kejadian pengujian yaitu ada 30 kueri biasa dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau dan 30 kueri khusus dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau.

Pengujian pada 30 kueri biasa dengan kesalahan ejaan yaitu kesalahan konteks dan kesalahan Damerau, sistem tidak menghasilkan kata usulan yang tepat, sehingga grafik kueri biasa dengan kesalahan konteks dan kesalahan Damerau merujuk di angka 0. Pengujian pada 30 kueri khusus dengan kesalahan ejaan yaitu kesalahan konteks, sistem berhasil mengembalikan kata usulan yang tepat pada 30 khusus tersebut sehingga grafik kueri khusus dengan kesalahan konteks merujuk di angka 10. Pengujian pada 10 kueri khusus dengan kesalahan Damerau, sistem hanya mampu menyelesaikan 9 kueri khusus dengan memberikan kata usulan yang tepat pada 9 kueri tersebut dan gagal memberikan kata usulan yang tepat pada satu kueri khusus dengan kesalahan Damerau.

Dari 60 kali pengujian yang terlihat dalam Gambar 6 dapat disimpulkan bahwa sistem sangat baik diimplementasikan pada kueri khusus. Pada kueri biasa, sistem memiliki akurasi yang buruk pada kedua jenis kesalahan. Hasil pengoreksian sistem dapat lebih jelas dilihat pada Lampiran 3.

Evaluasi Sistem

Proses pengujian sistem pada 30 jenis kueri khusus dihasilkan 10 kata usulan dari kata yang akan dikoreksi sehingga didapatkan hasil bahwa ada sebanyak 18 kueri khusus yang menghasilkan kata usulan yang diinginkan. Hasil untuk kueri khusus ini cukup baik mengingat bahwa kata yang salah tersebut merupakan sebuah frasa yang dipengaruhi sangat besar oleh pasangan frasanya. Pada pengujian ini, sistem berhasil mengembalikan kata usulan yang tepat pada 18 kueri khusus dengan kesalahan konteks dari 30 percobaan dan 17 kueri khusus dengan kesalahan Damerau dari 30 percobaan.

Akurasi yang dihasilkan 60% pada kueri khusus dengan kesalahan konteks dan 56.67% pada kueri khusus kesalahan Damerau.

Proses pengujian sistem pada 30 jenis kueri biasa dihasillkan 10 kata usulan dari kata yang akan dikoreksi maka didapatkan hasil bahwa 30 kueri biasa tersebut tidak menghasilkan kata usulan yang diinginkan atau tepat secara persepsi manusia, tetapi jika dibangkitkan program untuk menghasilkan lebih dari 10 kata usulan maka ada kemungkinan kata usulan yang tepat akan muncul. Hal itu dikarenakan banyaknya kata-kata yang ada di sekitar kata-kata yang salah atau kata-kata yang terdapat dalam kueri yang mempengaruhi proses pengajuan kandidat kata usulan sedangkan sistem hanya memunculkan 10 kata usulan saja sehingga belum tentu kata usulan yang tepat tersebut masuk ke dalam kata usulan yang diajukan. Adanya pasangan frasa yang memiliki nilai 1 tetapi jika dianalisis berdasarkan persepsi manusia tidak memiliki keterkaitan antar konteks. Hal ini dikarenakan pasangan kata tersebut muncul satu kali pada seluruh dokumen. Tabel 4 akan menunjukkan contoh pasangan kata dengan nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks.

Tabel 5. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks

Pasangan frasa Nilai

Pena namanya 1

Pabrik terbunuh 1 Terbuka berhias 1

Ipb titipkan 1

Munculnya pasangan frasa pada Tabel 5. tersebut dikarenakan bahwa frekuensi munculnya kata, misalnya: “namanya” setelah kata “pena” sebanyak 1 kali dan munculnya kata “namanya” sebanyak 1 kali dalam korpus sehingga berdasarkan rumus peluang bersyarat didapatkan nilai peluang frasa tersebut sebesar 1 yang merupakan hasil dari: Frekuensi (namanya|pena) = 1 = 1 Jumlah kata “namanya” 1

Kejadian ini banyak terdapat pada korpus sehingga mengakibatkan pemberian kata usulan oleh sistem tidak sesuai dengan yang diinginkan. Minimnya metode untuk

menentukan kandidat kata usulan menyebabkan hasil yang tidak begitu baik. Penentuan kata usulan hanya menggunakan nilai peluang sebagai acuan belum menjawab permasalahan ini terlebih pada jenis kueri biasa yaitu kueri yang dipengaruhi oleh banyak kata di sekitar kata yang salah pada kueri. Selain itu adanya pasangan kata yang tidak memiliki arti secara KBBI tetapi masuk ke dalam kamus frasa, hal itu mungkin disebabkan kesalahan pada pemrosesan dokumen yaitu pada tahap parsing dan tokenisasi. Tabel 6 menunjukkan contoh kata yang tidak memiliki arti dalam KBBI tetapi termasuk dalam kamus frasa.

Tabel 6. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI

Pasangan frasa Nilai

Tdc tdg 1

Ppic sumbagut 1

Lkj zaim 1

Shih fang 1

Wto tipuan 1

Pasangan frasa pada Tabel 6 dikarenakan pemilihan korpus sebagai data latih kurang diperhatikan sehingga banyak terdapat kata-kata yang tidak memiliki arti sama sekali dalam KBBI.

Selain itu nilai peluang yang besar juga belum mewakili keterkaitan antar konteks dari setiap pasangan kata, justru pasangan kata dengan nilai peluang yang kecil yang memiliki keterkaitan antar konteks berdasarkan persepsi manusia. Tabel 7 akan menunjukkan contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil.

Tabel 7. Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil

Pasangan frasa Nilai

Agroindustri pertanian 0.000197981 Irigasi petani 0.000627353 Bayam tanaman 0.000713776 Sawah lahan 0.000860585 Pertanian produksi 0.000968992

Akurasi yang rendah yang dihasilkan oleh sistem juga dikarenakan oleh pembuangan stopwords pada pemrosesan offline. Ada sebanyak 733 kata yang dimasukkan pada

Dalam dokumen Pengembangan sistem koreksi frasa bahasa indonesia berbasis konteks (Halaman 45-52)