• Tidak ada hasil yang ditemukan

Pengembangan sistem koreksi frasa bahasa indonesia berbasis konteks

N/A
N/A
Protected

Academic year: 2017

Membagikan "Pengembangan sistem koreksi frasa bahasa indonesia berbasis konteks"

Copied!
72
0
0

Teks penuh

(1)

PENGEMBANGAN

E

DE

FAKULTAS MAT

IN

N SISTEM KOREKSI FRASA BAHASA INDO

BERBASIS KONTEKS

EKA YULIANI SIMANJUNTAK

EPARTEMEN ILMU KOMPUTER

TEMATIKA DAN ILMU PENGETAHUAN A

INSTITUT PERTANIAN BOGOR

BOGOR

2011

DONESIA

(2)

PENGEMBANGAN SISTEM KOREKSI FRASA BAHASA INDONESIA

BERBASIS KONTEKS

EKA YULIANI SIMANJUNTAK

Skripsi

Sebagai salah satu syarat untuk memperoleh

gelar Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(3)

ABSTRACT

EKA YULIANI SIMANJUNTAK. Development of Indonesian Spelling Phrase System Based on Context. Under Direction of SONY HARTONO WIJAYA and SRI NURDIATI.

This research proposes a new method, phrase pair together with opportunity value to give a proposed word as a correction result. Conditional probability formula is used to determine the value of opportunities of each phrase pair. Formation of phrase in this study is determined among words that are in a sentence and considered to have similar contexts. The corpus used consist of 2000 documents originating from the Laboratory of Information Retrieval, Department Computer Science, Bogor Agricultural University. Processing of document produces 90,077 pairs of phrases together with the opportunity values. Testing of this correction system uses two types of queries (common query and specific query) and two type of errors (context error and Damerau error). The context based correction system is appropriate to implement on the type of specific query. Accuracy values produced by system are 60% on spesific query and 56.67% on spesific query with context error and Damerau error. Restriction of system by giving 10 proposed words causing there is a correct proposed word but which is not included in 10 proposed words. The solution is by increasing the proposed word produced by the system. In common query, the system has poor performance. The poor accuracy emerges due to the lack of method in determination of correcting word, there are pair phrases that have high opportunity value but do not have similar context and are not included in Big Dictionary of Indonesian (KBBI) and there are pair phrases that have similar context but have low opportunity value.

(4)

Judul : Pengembangan Sistem Koreksi Frasa Bahasa Indonesia Berbasis Konteks Nama : Eka Yuliani Simanjuntak

NIM : G64062767

Menyetujui: Pembimbing I,

Sony Hartono Wijaya, S.Kom, M.Kom NIP 19810809 200812 1 002

Pembimbing II,

Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001

Mengetahui:

Ketua Departemen Ilmu Komputer,

Dr. Ir. Sri Nurdiati, M.Sc. NIP 19601126 198601 2 001

(5)

PRAKATA

Segala puji syukur dan hormat hanya bagi Tuhan Yang Maha Kuasa atas kasih dan penyertaanNya sehingga penulis berhasil menyelesaikan tugas akhir ini dengan judul Pengembangan Sistem Koreksi Frasa Bahasa Indonesia Berbasis Konteks.

Penulis menyadari bahwa penyelesaian tugas akhir ini tidak akan terwujud tanpa bantuan berbagai pihak:

1. Orang tua tercinta KM. Simanjuntak dan T. Manurung, ketiga adikku tersayang Dedy Christian S., Try Mariance S., dan Gita Febrina S., serta segenap keluarga besar, terima kasih atas doa, kasih dan dukungannya.

2. Bapak Sony Hartono Wijaya, S.Kom, M.Kom, dan Ibu Dr. Ir. Sri Nurdiati, M.Sc., selaku dosen pembimbing tugas akhir. Terima kasih atas kesabaran dan dukungan dalam penyelesaian tugas akhir ini.

3. Bapak Ahmad Ridha, S.Kom, M.S. dan serta seluruh staf Departemen Ilmu Komputer FMIPA IPB.

4. Teman-teman satu bimbingan Kartina, Hendrex, Wildan, Rio, Awet, Maryam, dan Sri atas masukan dan kebersamaannya selama penyelesaian tugas akhir ini.

5. Sahabat-sahabatku Nurafifah, Lies Umi Kulsum dan Eli Mulyati dan seluruh teman Ilkomerz 43. Terima kasih atas motivasi dan kebersamaannya selama ini.

6. Teman-teman di Perwira 43, ka Rio, Molly, ka Japet dan lain-lain. Saudaraku dalam kelompok kecil, ka Ina, Yessy dan ka Noviyanti. Terima kasih atas bantuan dan doanya selama ini.

7. Sahabat-sahabatku Eko, Corry, Sandro, Mada, Riferson, Okto, dan teman-teman KPS’43 PMK IPB atas keceriannya selama ini.

8. Seluruh pihak yang turut membantu baik secara langsung maupun tidak langsung dalam pelaksanaan tugas akhir.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, Maret 2011

(6)

RIWAYAT HIDUP

Penulis dilahirkan pada tanggal 05 Juli 1988 di Medan Sumatra Utara sebagai anak pertama dari empat bersaudara dari pasangan KM. Simanjuntak dan T. Manurung. Tahun 2006 penulis lulus dari SMA Negeri 5 Medan.

(7)

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... v

DAFTAR TABEL ... v

DAFTAR LAMPIRAN... v

PENDAHULUAN Latar Belakang ... ……….………1

Tujuan ... 1

Ruang Lingkup ... 1

Manfaat ... 1

TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan ... 2

Koreksi Ejaan Konteks Sensitif ... 2

Baseline ... 2

Context Words ... 3

Collocations ... 3

Trigram ... 3

Frasa ... 3

METODE PENELITIAN Pengumpulan Dokumen ... 4

Pemrosesan Offline ... 4

Pembuatan Sistem ... 4

Pengujian dan Evaluasi Sistem ... 5

Lingkungan Pengembangan ... 5

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian ... 5

Pemrosesan Dokumen... 5

Pembentukan Frasa ... 6

Perhitungan Nilai Peluang ... 6

Split Kueri ... 7

Periksa pada Kamus Frasa ... 7

Pencarian Kata Usulan ... 8

Pengujian Sistem ... 9

Evaluasi Sistem ... 9

Antarmuka Sistem ... 11

KESIMPULAN DAN SARAN Kesimpulan ... 11

Saran ... 11

DAFTAR PUSTAKA ... 12

(8)

DAFTAR GAMBAR

Halaman

1 Metodologi penelitian ... 4

2 Alur pemrosesan dokumen atau pemrosesan offline (Kartina 2010) ... 4

3 Alur pembuatan sistem ... 4

4 Proses pembentukan frasa... 6

5 Histogram sebaran nilai peluang pembentukan frasa ... 7

6 Grafik hasil koreksi sistem. ... 9

7 Antarmuka sistem. ... 11

DAFTAR TABEL

Halaman 1 Deskripsi dokumen pengujian ... 5

2 Contoh 15 Confusion set dan jumlah pada data latih ... 5

3 Nilai peluang pasangan frasa ... 7

4 Hasil pengujian sistem ... 9

5 Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks………..………....10

6 Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI ……….10

7 Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil ………..10

DAFTAR LAMPIRAN

Halaman 1 Contoh dokumen pengujian ... 14

2 Contoh kueri ... 15

3 Daftar hasil usulan koreksi pada kueri ... 17

(9)

PENDAHULUAN Latar Belakang

Kebutuhan informasi menjadi hal yang penting dalam kehidupan saat ini. Keakuratan kata kunci atau kueri dapat secara signifikan mempengaruhi hasil proses pencarian informasi. Oleh sebab itu, pengguna mesin pencari menyadari bahwa kueri sangat penting dalam proses menemukan dokumen yang relevan. Kenyataannya bahwa pengguna sering memasukkan kueri yang salah yang mungkin disebabkan oleh kesalahan dalam proses pengetikan atau ketidakpahaman terhadap kueri yang dimasukkan. Beberapa mesin pencari menawarkan beberapa kemudahan yang dapat dinikmati pengguna.

Kesalahan sintaksis sering ditemukan dalam tulisan Bahasa Indonesia dalam kehidupan sehari-hari seperti pada media cetak yaitu koran dan majalah dan juga pada media elektronik seperti dalam warta berita TV atau radio dan dapat ditemukan juga pada penulisan kueri. Kesalahan sintaksis ini perlu diperhatikan karena akan mempengaruhi proses pencarian informasi pada mesin pencari. Penelitian mengenai pengoreksian dari aspek sintaks belum berkembang pesat. Aspek sintaks dari sebuah bahasa meliputi frasa, klause dan kalimat. Permasalahan ini sudah mendapat perhatian sejak tahun 1990. Beberapa metode yang muncul untuk mengatasi masalah ini antara lain, Bayesian hybrids (Golding 1995), kombinasi Trigram dan Bayesian hybrids (Golding & Schabes 1996), analisis semantic latent (Jones & Martin 1997) dan tata bahasa diferensial (Powers 1997).

Zamora et al. (1981) menggunakan analisis trigram dalam mendeteksi ejaan yang salah. Hasil dari analisis ini adalah memberikan tanda kepada ejaan kata yang salah. Analisis trigram ini diaplikasikan pada sebuah sistem, dimana sistem tersebut akan memeriksa kueri yang dimasukkan sesuai atau tidak dengan kamus yang ada kemudian menunjukkan posisi huruf yang salah kemudian hasil keluarannya adalah bahwa sistem pencarian tidak ditemukan.

Sutisna (2009) telah melakukan pengoreksian ejaan berbahasa Indonesia menggunakan algoritme Damerau Levenshtein serta membandingkan sistem pencarian menggunakan algoritme Damerau Levenshtein dengan sistem pencarian yang

tidak menggunakan algoritme Damerau Levenshtein. Hasil perbandingan menunjukkan bahwa penggunaan algoritme Damerau Levenshtein belum cukup efisien. Hal itu terlihat dari hasil kerja algoritme tersebut belum memberikan hasil yang lebih baik dibandingkan sistem pencari yang tidak menggunakannya.

Penelitian ini merupakan pengembangan dari penelitian Sutisna (2009) yang menggunakan rumus peluang bersyarat dalam menentukan nilai peluang dari setiap pasangan frasa yang akan digunakan dalam proses pencarian kata usulan. Pasangan frasa tersebut diasumsikan dapat mewakili kesamaan antar konteks. Analisis konteks diperlukan dalam memberikan kata-kata usulan sebagai hasil koreksi dari kata yang salah, dimana adanya beberapa kata yang memiliki kesamaan dalam hal tulisan tetapi berbeda arti dan konteksnya. Pengembangan sistem koreksi frasa berbasis konteks ini diarahkan pada tata bahasa bukan pada kesalahan pengetikan.

Pengembangan sistem koreksi frasa berbasis konteks ini dilakukan dengan menggunakan nilai peluang dari pasangan frasa, hasil penelitian Kartina (2010) terhadap kueri sebagai acuan dalam pengoreksian dan pemberian kata usulan yang diharapkan akan menghasilkan kata usulan yang lebih optimal. Tujuan

Tujuan utama dari penelitian ini adalah mengimplementasikan pendekatan berbasis konteks menggunakan peluang bersyarat untuk menghitung nilai peluang dari frasa yang dijadikan acuan dalam pengoreksian frasa dan pemberian kata usulan pada kata yang salah.

Ruang Lingkup

Ruang lingkup penelitian yang dilakukan oleh penulis meliputi :

• Koleksi dokumen terdiri atas dokumen berbahasa Indonesia.

• Hasil dari penelitian dievaluasi menggunakan persepsi manusia.

Manfaat

(10)

usulan. Pengembangan sistem ini diharapkan akan dapat meningkatkan keefektifan dan keefesienan dalam proses koreksi frasa Bahasa Indonesia berbasis konteks.

TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan

Menurut Damerau (1964) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu: penggantian satu huruf (substitution), penyisipan satu huruf (insertion), penghilangan satu huruf (deletion), transposisi dua huruf berdekatan (transpotion). Menurut Peterson (1980), kesalahan ejaan dapat terjadi karena beberapa hal, diantaranya:

1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya.

2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari.

3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme dengan pengkodean pada jalur mekanisme transmisi data. Koreksi ejaan adalah proses menemukan kesalahan ejaan pada kata di suatu teks tertulis dan mungkin untuk dilakukan pengoreksian. Kesalahan ejaan dapat dikelompokkan menjadi dua yaitu(1) non-word errors dan (2) real-word errors (Fossati & Eugenio 2007). 1. Non-word errors yaitu kesalahan ejaan

dimana kata tersebut tidak terdapat dalam kamus atau bahasa tertentu.

Contoh: Batang pohon terdiri atas lapisan pembuluj silem dan floem. Kata pembuluj tidak terdapat dalam KBBI dan dinyatakan sebagai kata yang salah.

2. Real-word errors yaitu kesalahan ejaan dimana secara konteks kata tersebut dinyatakan salah walau kata tersebut terdapat dalam KBBI.

Contoh: Batang pohon terdiri atas lapisan pembunuh silem dan floem. Kata pembunuh terdapat dalam KBBI tetapi secara konteks yang benar seharusnya kata pembuluh.

Koreksi Ejaan Konteks Sensitif

Koreksi ejaan konteks sensitif adalah masalah dari kesalahan ejaan yang merupakan invalid word dalam kosa kata atau konteksnya (Golding 1995). Contoh kesalahan ejaan yang dapat muncul dengan tipe-tipe yang berbeda, kesalahan ketik (kawah, sawah), kerancuan homonim (bisa, bisa), kerancuan homofon (bank, bang), kerancuan homograf (apel, apel) dan kesalahan penggunaan (ke, di). Kesalahan ini tidak dapat dideteksi oleh koreksi ejaan biasa. Koreksi ejaan tersebut hanya menunjukkan kesalahan dan tidak menghasilkan sebuah koreksi dari kata yang salah.

Koreksi ejaan konteks sensitif dianggap sebagai sebuah tugas dari keambiguan kata. akan mendeteksi kesalahan kata tanpa memberikan usulan dari hasil koreksi.

Ada dua jenis kesalahan yaitu:

false negatives yaitu mempermasalahkan mengenai kata yang benar.

false positives yaitu kegagalan dalam

mendeteksi sebuah kesalahan.

Harus dibuat asumsi bahwa kedua kesalahan tersebut sama buruknya, walaupun dalam kenyataannya false negatives lebih buruk dan sebagai pengguna pasti merasa kesal. Lima metode untuk koreksi ejaan yaitu (Golding 1995):

Baseline: sebuah indikator dari kompetensi minimal untuk perbandingan dengan metode-metode lain.

Context words: uji kata-kata tertentu

dalam ±k kata dari kata yang ambigu.

Collocations: test untuk pola sintaktis

sekitar target ambigu.

Decision list: menggabungkan context words dan collocations melalui daftar keputusan.

(11)

Baseline

Keambiguan kata pada metode Baseline antara Wi sampai Wn, dimana i dimulai dari 0

sampai n merupakan bilangan real positif dengan hanya mengabaikan konteks dan mencoba menebak kata yang tepat berdasarkan data latih. Koleksi kata dalam confusion set dapat digunakan untuk evaluasi metode keseluruhan. Akurasi prediksinya didapat dari jumlah kata yang benar yang diprediksi dibagi jumlah kata dalam confusion set yang muncul. Contoh: anggota dari confusion set {nangka, sangka} berjumlah 860 dalam korpus, dimana {nangka} sebanyak 744 dan {sangka} sebanyak 96 maka metode Baseline memprediksi {nangka} dan jumlah {nangka} yang benar 744 sehingga didapat hasil 744/860 = 0.886. Context Words

Pengidentifikasian kata usulan pada metode context words berasal dari kata yang berada di sekitar kata yang salah. Sebagai contoh, keambiguan antara kata pembunuh dan pembuluh. Kata-kata yang tersedia di sekitarnya adalah penjara, kriminal dan mayat maka kata yang diusulkan adalah pembunuh, dan sebaliknya jika kata-kata yang tersedia di sekitarnya adalah tanaman, lapisan dan silem akan lebih mengarahkan kata pembuluh sebagai kata usulannya. Metode context words baik untuk masalah-masalah umum yang penyelesaian masalahnya tergantung pada kata-kata di sekitar kata yang salah.

Collocations

Pencarian kata usulan pada metode collocations dilakukan dengan melihat pola pada kata dan melakukan proses tagging pada kata-kata yang ada di sekitar kata yang salah. Tetapi untuk masalah sintaks, collocations dan metode trigram lebih baik. Contoh:

• Gudeg Jogja menggunakan biji

Metode trigram dibuat untuk koreksi ejaan sensitif yang ditemukan oleh Mays et al (1991). Metode ini membutuhkan korpus yang banyak sebagai data latih. Kata yang akan dikoreksi tersebut akan digantikan dengan kata yang berada dalam confusion set. Setiap kata pengganti kata yang salah dihitung nilai peluangnya berdasarkan hasilnya dalam sebuah kalimat.

Lebih jelasnya, diasumsikan sebuah kata wk terdapat dalam sebuah kalimat

W=w1…wk…wn, dan w’k adalah kata dan kita

sedang mempertimbangkan menggantikannya sehingga dihasilkan kalimat W’. Kata w’k

dipilih untuk menggantikan wk apabila P(W’)

> P(W), dimana P(W) dan P(W’) adalah nilai peluang W dan W’ berturut-turut. Kita akan menghitung nilai W dan W’ menggunakan urutan yang telah ditandai oleh W sebagai kuantitas antara dan menjumlahkan semua kemungkinan urutan yang telah ditandai. Nilai peluang dari kalimat yang telah ditandai adalah:

dengan T adalah urutan yang ditandai dalam kalimat W yang dimulai dari 1. Nilai peluang pada metode trigram dapat diduga dengan rumus sebagai berikut:

=

dengan T = t1 … tn dan P(ti|ti-2ti-1) adalah nilai

peluang dari kemungkinan urutan yang ditandai terlebih dahulu antara ti-2 dan ti-1. Frasa

Frasa adalah gabungan dua kata atau lebih yang bersifat non-predikatif (misal, gunung tinggi disebut frasa karena merupakan konstruksi non predikatif) (Anonim 1991). Frasa ada dua jenis yaitu:

• Frasa eksosentris yaitu frasa yang

keseluruhannya tidak mempunyai perilaku sintaksis yang sama dengan keseluruhan konstituennya.

(12)

METODE PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap yang dapat dilihat pada Gambar 1. Tahapan umum dari penelitian ini yaitu: (1) Pengumpulan dokumen, (2) Pemrosesan offline, (3) Pembuatan sistem, (4) Pengujian dan evaluasi sistem.

Gambar 1 Metodologi penelitian. Pengumpulan Dokumen

Penelitian ini menggunakan 2000 dokumen yang berasal dari Laboratorium Temu Kembali Informasi Departemen Ilmu Komputer Fakultas Matematika dan IPA Institut Pertanian Bogor. Dokumen tersebut berbentuk teks (*.txt) dengan struktur XML. Contoh dari dokumen yang digunakan dapat dilihat pada Lampiran 1. Kumpulan frasa beserta nilai peluangnya disimpan dalam database berbentuk file SQL (*.sql) dan akan digunakan sebagai acuan dalam proses koreksi ejaan dan pengajuan kata usulan.

Untuk percobaan dalam penelitian ini digunakan 60 jenis kueri (inputan) yang dimasukkan secara manual, dapat terdiri atas dua atau lebih kata dan dipilih secara acak dari database referensi. Kata-kata tersebut dibuat salah pengejaan tetapi kata tersebut masih dapat didefinisikan dalam Kamus Besar Bahasa Indonesia (KBBI).

Pemrosesan Offline

Pemrosesan offline terdiri atas tahap pemrosesan dokumen dan pembentukkan frasa beserta nilai peluangnya. Pembentukkan frasa beserta nilai peluangnya dilakukan sebagai acuan dalam pencarian kata usulan. Asumsi dari pembentukan frasa adalah jika ada dua kata memiliki posisi berurutan dalam suatu dokumen dan kejadian ini sering terjadi

pada koleksi dokumen uji, maka kata tersebut dianggap sebuah frasa dan dianggap dapat mewakili kesamaan konteks. Perhitungan nilai peluang dari setiap frasa menggunakan nilai peluang bersyarat dengan rumus sebagai berikut:

P(A|B) =

,

dengan, n(A|B) = banyaknya kemunculan kata A tepat setelah B, n(A|X) = banyaknya kemunculan kata A tepat setelah kata X, dimana X merupakan kumpulan kata unik yang ada pada koleksi dokumen, dan P(A|B) = peluang munculnya kata A tepat setelah kata B. Pemrosesan offline dapat dilihat dalam Gambar 2.

Gambar 2 Alur pemrosesan dokumen atau pemrosesan offline (Kartina 2010). Pembuatan Sistem

Sistem dibuat setelah proses pembentukan kamus frasa beserta nilai peluangnya didapatkan. Proses pembuatan sistem terdiri atas tahap parsing dan tokenisasi kueri, pemeriksaan pada kamus frasa, dan pencarian kata usulan. Proses pada tahap pembuatan sistem dapat dilihat dalam Gambar 3.

(13)

Pengujian dan Evaluasi Sistem

Pengujian dilakukan sebanyak 60 kali menggunakan dua jenis kueri (kueri biasa dan kueri khusus) dan dua jenis kesalahan (kesalahan konteks dan kesalahan Damerau). Evaluasi sistem dilakukan oleh manusia, dimana jawaban dinilai dari segi ketepatan sistem dalam memberikan kata usulan sebagai hasil koreksi.

Lingkungan Pengembangan

Lingkungan pengembangan yang digunakan adalah sebagai berikut:

Perangkat lunak:

• Windows XP Professional

• MySQL Server 5.0

• NetBeans IDE 6.8

• Microsoft Office 2007

• Notepad

Perangkat keras:

• Processor Intel Core 2 Duo (2.80 GHz)

• 3271 Mbytes RAM

HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian

Dokumen korpus yang digunakan untuk pengujian ada sebanyak 2000 dokumen dalam bentuk file teks yang berformat XML. Deskripsi dokumen pengujian ditunjukkan oleh Tabel 1.

Tabel 1. Deskripsi dokumen pengujian

Uraian Nilai

(bytes) Ukuran rata-rata dokumen 3.220 Ukuran dokumen keseluruhan 6.439.002 Ukuran dokumen terbesar 53.306 Ukuran dokumen terkecil 412

Pemrosesan Dokumen

Dokumen berasal dari Laboratorium Temu Kembali Informasi. Dokumen ini terlebih dahulu diproses sehingga dihasilkan dokumen berbentuk teks (*.txt) dengan strutur XML di dalamnya. Pemrosesan dokumen yang ditunjukkan pada Gambar 2 dilakukan secara

offline, dimana proses tersebut dilakukan secara terpisah dan terlebih dahulu sebelum dilakukan pembuatan sistem. Pada tahap ini dilakukan proses pembacaan seluruh dokumen. Kemudian dilakukan proses tokenisasi pada dokumen tersebut yaitu memilah-milah tiap kata dengan membuang setiap tanda baca dan spasi sehingga dihasilkan token-token. Setelah itu dilakukan proses pembuangan stopwords sehingga dihasilkan token-token yang lebih efektif dan efisien. Stopwords adalah kata-kata yang sering muncul dalam korpus tetapi tidak memiliki makna yang terlalu penting yang dapat mewakili isi dari korpus, contohnya: ‘pada’, ‘atau’, ‘ke’, ‘dan’, ‘lalu’, ‘mereka’, ‘saya’, ‘kamu’, dan lain-lain. Tahap selanjutnya adalah pembentukan frasa dimana frasa tersebut didapatkan dari kata-kata yang berdekatan dalam setiap kalimat. Jika ada dua kata yang memiliki posisi yang berurutan dalam suatu kalimat pada satu dokumen dan kejadian ini sering terjadi dianggap memiliki keterkaitan antar konteks. Dua kata yang menjadi sebuah frasa dianggap memiliki kesamaan konteks. Pemrosesan dokumen menghasilkan contoh confusion set yang dapat dilihat pada Tabel 2.

Tabel 2. Contoh 15 Confusion set dan jumlah pada data latih

Confusion set Jumlah confusion set pada data latih sawah, kawah garam, haram, karam nangka, sangka, langka lemak, lemah, lemas hama, sama, nama hewan, heran bambu, rambu, bumbu

(14)

Pembentukan Frasa

Pembentukan frasa beserta nilai peluangnya dilakukan dengan memanfaatkan hasil penelitian Kartina (2010). Setiap pasangan frasa beserta nilai peluangnya didapat dari preproses pada 2000 dokumen yang merupakan koleksi dokumen dari penelitian ini. Proses pembentukan frasa dilakukan dalam program

peluang300510.pl, yang memanggil

kembali filepreproses.dat yang dihasilkan oleh program frek270510.pl. Dari program tersebut didapatkan kumpulan kata unik yang akan digunakan dalam program

peluang300510.pl untuk menghitung

frekuensi kata A setelah kata B muncul dan menghitung kata A terhadap semua kata. Frekuensi kata A setelah kata B merupakan pembilang dari perhitungan nilai peluang dan frekuensi kata A terhadap semua kata merupakan penyebut dari perhitungan nilai peluang. Ilustrasi algoritme untuk mendapatkan variabel $pembilang dan

$penyebut sebagai berikut:

$penyebut :

%frek= retrieve(‘praproses.dat’);

%urut = %{$frek {‘frekUrut’}};

%unik = %{$frek {‘unik’}};

foreach $kataA of %unik{

foreach $kataB of {$unik{$kataA}}{ $pembilang{$kataA}{$kataB}= B dari semua pasangan kata unik dapat dilihat pada algoritme berikut:

%unik = %{$frek {‘unik’}};

foreach $kataA of %unik{

foreach $kataB of {$unik{$kataA}}{ if $kataA not equal $kataB{

$peluang{$kataA}{$kataB} = $pembilang{$kataA}{$kataB}/ $penyebut{$kataA}{$kataB}; }}}

Contoh proses pembentukan frasa beserta nilai peluangnya dari sebuah dokumen (situshijau07.txt) dapat dijelaskan sebagai berikut:

Gunakan ramuan temulawak untuk mengobati gangguan pada hati.

Gunakan ramuan temulawak untuk mengobati gangguan pada hati. Caranya iris rimpang temulawak tipis-tipis setelah dibersihkan, lalu direbus dengan air. Rebusan inilah yang nanti diminum, bisa juga ditambahkan madu.

Isi dari dokumen tersebut diproses kemudian dilakukan pembentukan frasa dalam hal ini pembentukan frasa dilakukan per kalimat, proses tersebut dapat dilihat pada Gambar 4.

Gambar 4 Proses pembentukan frasa. Perhitungan Nilai Peluang

Kolom pasangan frasa hanya terdiri atas 15 pasangan frasa dikarenakan pembentukan frasa terjadi di setiap satu kalimat. Kolom frekuensi dari Tabel 3 menunjukkan berapa banyak pasangan frasa tersebut muncul pada dokumen tersebut (situshijau07.txt). Nilai frekuensi ini selanjutnya akan digunakan untuk menentukan nilai peluang dari masing-masing pasangan frasa. Kolom frekuensi pada Tabel 3 menjelaskan berapa banyak sebuah pasangan frasa muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Perhitungan nilai peluang pada Tabel 3 hanya ditinjau dari satu dokumen saja untuk memperjelas setiap langkah pembentukan nilai peluang. Kolom ketiga menjelaskan berapa banyak kata A (kata kedua dari setiap pasangan frasa) muncul dalam korpus (dalam hal ini dokumen situshijau.txt mewakili korpus). Pada baris pertama kolom ketiga terdapat nilai 2 yang berarti kata ‘ramuan’ pada pasangan frasa ‘gunakan-ramuan’ muncul sebanyak dua kali dalam dokumen

situshijau.txt. Pada baris kesepuluh

kolom ketiga terdapat nilai 3 berarti kata ‘mengobati’ pada pasangan frasa ‘temulawak-mengobati’ muncul sebanyak tiga kali dalam dokumen situshijau.txt. Kolom keempat yang berisi nilai peluang menjelaskan pembentukan nilai peluang dari setiap pasangan frasa yaitu hasil pembagian dari kolom kedua (frekuensi pasangan frasa) dengan kolom ketiga ( A dalam dokumen).

(15)

memiliki peluang kurang dari 0.1. Gambar 5 menunjukkan histogram sebaran nilai peluang, sumbu y menunjukkan frekuensi pasangan kata untuk setiap nilai peluang. Tabel 3. Nilai peluang pasangan frasa

Gambar 5 Histogram sebaran nilai peluang pembentukan frasa.

Pemecahan (Split) Kueri

Kueri yang digunakan dalam penelitian ini minimal terdiri atas subjek dan predikat. Contoh dari kueri yaitu:

• jangkrik merusak bawah S P O

Sistem akan melakukan proses pemecahan (split) sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Dengan adanya proses tokenisasi maka spasi (“ “) dibuang sehingga dihasilkan “jangkrik”, “merusak” dan “bawah”. Hasil pemecahan (split) kemudian digunakan sebagai pedoman untuk mengoreksi kata yang salah dan mencari kata usulan sebagai hasil dari koreksi. Kueri yang telah diproses akan diperiksa ke dalam kamus frasa. Proses pencarian kata usulan tersebut menggunakan nilai peluang dari masing-masing kata tunggal hasil proses tokenisasi. Periksa pada Kamus Frasa

Kueri yang dimasukkan pengguna berupa kalimat akan dibaca oleh sistem kemudian disimpan ke dalam variabel query. Hasil pemecahan (split) disimpan dalam variabel q

dan akan diperiksa apakah terdapat dalam kamus frasa atau tidak. Hasil pemecahan (split) yang terdapat dalam kamus frasa akan disimpan dalam variabel

kueriBaru[jlhKueriBaru], sedangkan

yang tidak terdapat dalam kamus frasa akan diabaikan dan dianggap sebagai kata yang salah dan akan diperbaiki. Pemeriksaan dilakukan baik pada entitas kata1 ataupun kata2 pada kamus frasa. Indeks pada variabel

kueriBaru[jlhKueriBaru] dimulai dari

jlhKueriBaru=0 sampai

jlhKueriBaru=n. Variabel

kueriBaru[jlhKueriBaru] tersebut akan

digunakan untuk pencarian kata usulan. Berikut adalah ilustrasi algoritme untuk

mendapatkan variabel

kueriBaru[jlhKueriBaru] adalah:

query = Kueri.getText();

(16)

Pemrosesan kueri berguna untuk menunjukkan kata yang salah yang terdapat dalam kueri. Contoh kueri:

pupuk organik digantikan dengan susuk buatan

S P O Kueri tersebut terlebih dahulu diproses yaitu setelah kueri dibaca oleh program maka kueri tersebut disimpan dalam variabel

query[], kemudian dilakukan proses

pemecahan (split) dan hasil proses pemecahan (split) disimpan dalam variabel q[] yaitu pupuk, organik, digantikan, dengan, susuk, buatan. Hasil pemecahan (split) tersebut kemudian diperiksa satu persatu ke dalam kamus frasa, apakah kata-kata tersebut ada dalam kamus frasa. Berdasarkan ke-enam kata tersebut maka kata susuk tidak terdapat dalam kamus frasa sehingga program menganggap kata susuk sebagai kata yang salah yang kemudian akan dicari kata usulannya. Pencarian Kata Usulan

Penggunaan nilai peluang dalam proses pencarian kata usulan dari kata yang dianggap salah pada kueri merupakan fokus dari penelitian ini. Proses sorting dilakukan pada kamus frasa berdasarkan nilai peluangnya menggunakan algoritme quick sort. Proses sorting dilakukan sebanyak dua kali yaitu pada entitas kata1 dan pada entitas kata2. Entitas kata1 di-sorting berdasarkan nilai peluangnya begitu juga dengan entitas kata2. Berikut adalah ilustrasi algoritme untuk men-sorting entitas kata1 dan entitas kata2 berdasarkan nilai peluangnya:

if (i<=j) { try {

h = nilai[i];

nilai[i] = nilai[j]; nilai[j] = h;

kataI = kata1[i]; kata1[i]=kata1[j]; kata1[j]= kataI;

kataII = kata2[i]; kata2[i]=kata2[j];

Variabel kueriBaru[j] yang merupakan hasil pemrosesan kueri dan terdiri atas kata tunggal akan diperiksa apakah terdapat dalam kamus frasa. Pencarian kata usulan dilakukan dengan memeriksa kesamaan anggota entitas

kata1 dan entitas kata2 satu per satu dengan variabel kueriBaru[j]. Kata usulan dari proses koreksi dibatasi pada kata yang baru, maksudnya kata usulan tidak mengandung kata yang terdapat dalam variabel

kueriBaru[] atau kueri. Jika ada anggota

entitas kata1 yang sama dengan anggota yang terdapat dalam variabel kueriBaru[j] atau kueri maka program akan mengeluarkan entitas kata2 beserta nilai peluangnya sebagai kata usulan dan jika entitas kata1 tidak sama dengan anggota yang terdapat dalam variabel

kueriBaru[j] atau kueri maka program

akan mengeluarkan entitas kata1 beserta nilai peluangnya sebagai kata usulan.

Pada penelitian ini, kata yang diusulkan berasal dari kata-kata yang berhubungan secara konteks dengan kueri, dilihat nilai peluang dari setiap pasangan kata. Pada kueri

pupuk organik digantikan susuk

buatan. Program sudah dapat mendeteksi

kesalahan berada pada kata susuk. Tahap selanjutnya adalah program akan mencari kata usulan untuk menggantikan kata susuk. Hasil parsing dan tokenisasi digunakan kembali dimana tiap anggota dari variabel

kueriBaru[j] akan diperiksa

keanggotaanya dalam kamus frasa, jika ada dalam kamus frasa baik terdapat dalam entitas kata1 ataupun pada entitas kata2 pada kamus frasa, maka program akan mengambil pasangan frasa tersebut beserta nilai peluangnya, contoh untuk kata pupuk maka pasangan frasa yang terdapat dalam kamus frasa yaitu : sebagi' 1, 'pupuk-sriwijaya' 1, 'pupuk-koprasi' 1, 'kelangkaan-pupuk' 0.0823373, 'penggunaan-pupuk' 0.0756972, 'harga-pupuk' 0.065073, dan seterusnya. Kumpulan hasil pencarian pada kamus frasa dari setiap anggota pada variabel

kueriBaru[j] tersebut kemudian di-sorting

secara descending sehingga dihasilkan: 'pupuk-sriwijaya' 1, 'menggantikan-bpkp' 1, 'pupuk-bokashi' 1, tdc' 1, 'organik-prinsipnya' 1, dan seterusnya. Kemudian program akan memeriksa kesamaan setiap kandidat kata usulan baik pada entitas kata1 maupun entitas kata2 dengan anggota pada variabel kueriBaru[j]. Kata yang diambil sebagai kata usulan adalah kata yang tidak sama dengan anggota pada variabel

kueriBaru[j]. Dari lima kandidat kata

usulan di atas didapatkan kata usulan sebagai berikut: sriwijaya, bpkp, borashi,

(17)

Kata usulan sangat banyak maka setiap kemungkinan pasangan kata usulan tersebut akan dilakukan pengurutan berdasarkan nilai peluangnya secara menurun (descending). Penelitian dibatasi dengan mengambil 10 pasangan kata teratas menjadi kata usulan sebagai koreksi dari kata yang salah. Algoritme lengkap dari pembuatan sistem dapat dilihat pada Lampiran 4.

Pengujian Sistem

Pada tahap ini sistem yang telah dibuat diuji menggunakan metode black box dengan beberapa data contoh sebelum melakukan pengujian dengan data uji sebenarnya. Hal ini berguna untuk menyempurnakan sistem yang telah dibuat. Pengujian sistem yang sesungguhnya dilakukan dengan cara memasukkan data kata salah ejaan yang telah ditentukan secara acak sebelumnya sebanyak 60 jenis inputan kueri. Inputan kueri tersebut dibedakan menjadi dua macam yaitu 30 kueri biasa, dimana kata yang salah merupakan kata tunggal dalam kueri dan 30 kueri khusus, dimana kata yang salah berupa frasa dalam kueri. Kata yang salah dalam kalimat dibuat salah pengejaan sesuai dengan yang didefinisikan oleh Damerau Levenstein yaitu penyisipan (insertion), penghapusan (deletion), Penukaran (transposition), dan penggantian (substitution), maupun kesalahan secara konteks. Lampiran 2 menunjukkan 60 jenis kueri yang digunakan dalam penelitian ini. Proses pengujian yang sebenarnya menghasilkan 60 macam percobaan dengan 2 macam jenis kesalahan yang hasilnya dapat dilihat pada Tabel 4 dan Gambar 6.

Tabel 4. Hasil pengujian sistem

Kueri-Gambar 6 Grafik hasil koreksi sistem.

Pada Tabel 4 nilai 0 menjelaskan bahwa sistem tidak berhasil memberikan kata usulan yang tepat sebagai hasil koreksi sedangkan nilai 1 menjelaskan sistem berhasil memberikan kata usulan yang tepat sebagai hasil koreksi. Pada sumbu ordinat terdapat rentang antara 0-18 yang mewakili jumlah kueri masukan, sehingga terdapat 60 kejadian pengujian yaitu ada 30 kueri biasa dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau dan 30 kueri khusus dengan perlakuan dua kali pada dua macam kesalahan yaitu kesalahan konteks dan kesalahan Damerau.

Pengujian pada 30 kueri biasa dengan kesalahan ejaan yaitu kesalahan konteks dan kesalahan Damerau, sistem tidak menghasilkan kata usulan yang tepat, sehingga grafik kueri biasa dengan kesalahan konteks dan kesalahan Damerau merujuk di angka 0. Pengujian pada 30 kueri khusus dengan kesalahan ejaan yaitu kesalahan konteks, sistem berhasil mengembalikan kata usulan yang tepat pada 30 khusus tersebut sehingga grafik kueri khusus dengan kesalahan konteks merujuk di angka 10. Pengujian pada 10 kueri khusus dengan kesalahan Damerau, sistem hanya mampu menyelesaikan 9 kueri khusus dengan memberikan kata usulan yang tepat pada 9 kueri tersebut dan gagal memberikan kata usulan yang tepat pada satu kueri khusus dengan kesalahan Damerau.

Dari 60 kali pengujian yang terlihat dalam Gambar 6 dapat disimpulkan bahwa sistem sangat baik diimplementasikan pada kueri khusus. Pada kueri biasa, sistem memiliki akurasi yang buruk pada kedua jenis kesalahan. Hasil pengoreksian sistem dapat lebih jelas dilihat pada Lampiran 3.

Evaluasi Sistem

(18)

Akurasi yang dihasilkan 60% pada kueri khusus dengan kesalahan konteks dan 56.67% pada kueri khusus kesalahan Damerau.

Proses pengujian sistem pada 30 jenis kueri biasa dihasillkan 10 kata usulan dari kata yang akan dikoreksi maka didapatkan hasil bahwa 30 kueri biasa tersebut tidak menghasilkan kata usulan yang diinginkan atau tepat secara persepsi manusia, tetapi jika dibangkitkan program untuk menghasilkan lebih dari 10 kata usulan maka ada kemungkinan kata usulan yang tepat akan muncul. Hal itu dikarenakan banyaknya kata-kata yang ada di sekitar kata-kata yang salah atau kata-kata yang terdapat dalam kueri yang mempengaruhi proses pengajuan kandidat kata usulan sedangkan sistem hanya memunculkan 10 kata usulan saja sehingga belum tentu kata usulan yang tepat tersebut masuk ke dalam kata usulan yang diajukan. Adanya pasangan frasa yang memiliki nilai 1 tetapi jika dianalisis berdasarkan persepsi manusia tidak memiliki keterkaitan antar konteks. Hal ini dikarenakan pasangan kata tersebut muncul satu kali pada seluruh dokumen. Tabel 4 akan menunjukkan contoh pasangan kata dengan nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks.

Tabel 5. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki keterkaitan antar konteks

Pasangan frasa Nilai

Pena namanya 1

Pabrik terbunuh 1 Terbuka berhias 1

Ipb titipkan 1

Munculnya pasangan frasa pada Tabel 5. tersebut dikarenakan bahwa frekuensi munculnya kata, misalnya: “namanya” setelah kata “pena” sebanyak 1 kali dan munculnya kata “namanya” sebanyak 1 kali dalam korpus sehingga berdasarkan rumus peluang bersyarat didapatkan nilai peluang frasa tersebut sebesar 1 yang merupakan hasil dari: Frekuensi (namanya|pena) = 1 = 1 Jumlah kata “namanya” 1

Kejadian ini banyak terdapat pada korpus sehingga mengakibatkan pemberian kata usulan oleh sistem tidak sesuai dengan yang diinginkan. Minimnya metode untuk

menentukan kandidat kata usulan menyebabkan hasil yang tidak begitu baik. Penentuan kata usulan hanya menggunakan nilai peluang sebagai acuan belum menjawab permasalahan ini terlebih pada jenis kueri biasa yaitu kueri yang dipengaruhi oleh banyak kata di sekitar kata yang salah pada kueri. Selain itu adanya pasangan kata yang tidak memiliki arti secara KBBI tetapi masuk ke dalam kamus frasa, hal itu mungkin disebabkan kesalahan pada pemrosesan dokumen yaitu pada tahap parsing dan tokenisasi. Tabel 6 menunjukkan contoh kata yang tidak memiliki arti dalam KBBI tetapi termasuk dalam kamus frasa.

Tabel 6. Contoh pasangan kata yang memiliki nilai peluang sebesar 1 tetapi tidak memiliki arti dalam KBBI

Pasangan frasa Nilai

Tdc tdg 1

Ppic sumbagut 1

Lkj zaim 1

Shih fang 1

Wto tipuan 1

Pasangan frasa pada Tabel 6 dikarenakan pemilihan korpus sebagai data latih kurang diperhatikan sehingga banyak terdapat kata-kata yang tidak memiliki arti sama sekali dalam KBBI.

Selain itu nilai peluang yang besar juga belum mewakili keterkaitan antar konteks dari setiap pasangan kata, justru pasangan kata dengan nilai peluang yang kecil yang memiliki keterkaitan antar konteks berdasarkan persepsi manusia. Tabel 7 akan menunjukkan contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil.

Tabel 7. Contoh pasangan kata yang terkait secara konteks tetapi memiliki nilai peluang yang kecil

Pasangan frasa Nilai

(19)

Akurasi yang rendah yang dihasilkan oleh sistem juga dikarenakan oleh pembuangan stopwords pada pemrosesan offline. Ada sebanyak 733 kata yang dimasukkan pada stopwords. Dari 733 kata tersebut, banyak kata-kata yang tidak seharusnya dibuang atau dijadikan menjadi stopwords karena dianggap masih memiliki makna dan dapat mewakili penciri dari sebuah dokumen. Contoh kata yang termasuk stopwords yaitu

dicontohkan, dan jika dianalisis kata

tersebut memiliki makna dan dapat mempengaruhi secara konteks dalam kalimat sehingga harus diperhatikan kembali kata yang akan dimasukkan ke dalam stopwords. Sesuai dengan judul yang digunakan dalam penelitian ini bahwa penelitian ini memperhatikan konteks dari sebuah kalimat, sistem akan mencari semua kata yang berhubungan secara konteks dengan kata-kata yang ada dalam kueri dan karena banyak kata yang bermakna telah dibuang pada pemrosesan offline maka sistem tidak berhasil menemukan kata yang terkait secara konteks dengan kata-kata yang ada dalam kueri sehingga sistem menghasilkan kata usulan yang tidak sesuai dengan yang diharapkan. Kelebihan:

• Penggunaan nilai peluang dalam proses

koreksi frasa sangat baik dilakukan pada frasa.

Kekurangan:

• Koreksi frasa berbasis konteks belum

menghasilkan koreksi frasa yang akurat dikarenakan metode ini hanya menggunakan nilai peluang dari setiap pasangan kata dimana nilai tersebut belum tentu mewakili keterkaitan antar kata. Antarmuka Sistem

Antarmuka sistem koreksi frasa Bahasa Indonesia berbasis konteks terdiri atas text box (intuk input kueri masukan), button untuk melakukan proses koreksi dari kueri masukan dan output area untuk menampung hasil proses koreksi. Perancangan antarmuka sistem ini dapat dilihat pada Gambar 7.

Gambar 7 Antarmuka sistem. Proses yang terjadi pada sistem hanya pada button “Koreksi” dimana sistem akan menerima dari pengguna berupa kueri masukan dan proses yang terjadi adalah kueri masukan yang telah dimasukkan akan diproses terlebih dahulu menghasilkan kata-kata tunggal yang kemudian akan diperiksa ke dalam kamus frasa lalu dilakukan proses pencarian kata usulan dan output yang dihasilkan adalah kata-kata tunggal yang menjadi kata usulan.

KESIMPULAN DAN SARAN Kesimpulan

Hasil penelitian menunjukkan pengembangan sistem koreksi frasa Bahasa Indonesia menggunakan nilai peluang bersyarat dari setiap frasa cukup baik untuk diimplementasikan pada kueri masukan yang berupa frasa. Hal ini terbukti dari 30 masukan kueri berupa frasa, terdapat 18 masukan kueri yang menghasilkan kata usulan yang sesuai dengan yang diinginkan. Pada kueri biasa, sistem koreksi frasa belum mampu menyelesaikan dengan baik. Hal ini terbukti dari 30 masukan kueri biasa, sistem tidak menghasilkan kata usulan sesuai dengan yang diinginkan.

Saran

Beberapa hal yang perlu dilakukan untuk pengembangan lebih lanjut adalah sebagai berikut:

(20)

2. Perbaikan dalam pengambilan kata unik pada korpus, dimana kata-kata tersebut tidak hanya unik dalam arti jarang muncul pada korpus tetapi memiliki makna.

3. Pembobotan dalam pembentukan frasa, semakin dekat kata yang satu terhadap kata yang lain maka bobotnya semakin besar, dan sebagainya.

4. Penggunaan metode nilai peluang dalam proses koreksi perlu dikombinasikan dengan proses tagging pada setiap kata.

5. Perbaikan dalam formula untuk mendapatkan kandidat frasa dan perhitungan nilai peluang dari kandidat frasa.

6. Perlu diperhatikan pemilihan kata yang akan dimasukkan ke dalam stopwords.

DAFTAR PUSTAKA

Anonim. 1991. Kamus Besar Bahasa Indonesia. Jakarta: Balai Pustaka.

Arumsari KN. 1998. Penggunaan Metode Kesamaan String pada Pemeriksaan Ejaan Bahasa Indonesia [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Fossati D, Eugenio BD. 2007. A Mixed Trigrams Approach for Context Sensitive Spell Checking. In CICLing-6007, Eighth International Conference on Intelligent Text Processing and Computational Linguistics: 623-633.

Golding AR. 1995. A Bayesian Hybrid Method for Context-Sensitive Spelling Correction. The Computing Research Repository (CoRR). 9605037: 39-53. Golding AR, Schabes Y. 1996. Combining

Trigram-based and Feature-based Methods for Context-Sensitive Spelling Correction. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics: 71-78.

Golding AR, Roth D. 1999. A Winnow-Based Approach to Context-Sensitive Spelling Correction. Machine Learning. Vol 34: 107-130.

Kartina. 2010. Analisis Pertanyaan Berbahasa Indonesia pada Question Answering System (QAS) [skripsi]. Bogor: Program Sarjana, Institut Pertanian Bogor.

Mays E, Fred JD and Robert LM. 1991. Context Based Spelling Correction. Information Processing and Management. Vol. 27, No. 5: 517–522.

Sutisna U. 1999. Koreksi Ejaan Query Bahasa Indonesia Menggunakan Algoritme Damerau Lavenshetein [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

Wahyudin A. 2009. Analisis Trigram Untuk Koreksi Ejaan [skripsi]. Bogor: Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

(21)

LAMPIRAN

(22)

Lampiran 1 Contoh dokumen pengujian <DOC>

<DOCNO>Deptan11122009</DOCNO>

<TITLE>TERINFESTASI OPTK A1, 6 KONTAINER BENIH JAGUNG DAN 3.697 KG BENIH PADI DIMUSNAHKAN</TITLE>

<AUTHOR>(BBKP Surabaya)</AUTHOR> <TEXT>

Pada hari Rabu, tanggal 9 Desember 2009, bertempat di Instalasi Karantina Tumbuhan Exelent di Driorejo Gresik, Balai Besar Karantina Pertanian Surabaya melakukan tindak karantina

pemusnahan terhadap benih jagung dan benih padi.

Benih jagung yang dimusnahkan adalah sebanyak 6 kontainer karena ditemukan OPTK Pseudomonas syringae pv. Syringae dan Erwinia (pantoea) stewartii. Sedangkan benih padi sebanyak 93 bag (3.697 kg) ditemukan OPTK Pseudomonas syringae pv. Syringae. Secara administrative, kedua media pembawa tersebut telah dilaporkan dan sesuai prosedur yang telah ditetapkan. Tetapi setelah dilakukan uji laboratorium di Balai Besar Karantina Pertanian dan dilakukan uji banding di BBUS Karantina Pertanian, media pembawa tersebut positif terinfestasi OPTK golongan I A1 dan harus dimusnahkan

Kedua agen penyebab penyakit ini dilaporkan belum pernah ada di wilayah Indonesia dan tidak dapat dibebaskan dengan perlakuan. Bahaya yang ditimbulkan bila masuk ke Indonesia adalah akan dapat menurunkan produktivitas sebesar 60% hingga 60%. Tentunya ancaman ini akan sangat berpengaruh pada tataran ekonomi pertanian khususnya di Jawa Timur yang merupakan sentra penghasil jagung dan padi terbesar di Indonesia. Pemusnahan tersebut di awali dengan penyulutan api oleh kepala Balai Besar Karantina Pertanian Surabaya, Dr Ir Arifin Tasrif, M.Sc dan disaksikan oleh pemilik barang, perwakilan dari BBSB Jawa Timur, Bea dan Cukai Tanjung Perak, Camat Driyorejo Gresik, Kepolisian, dan instansi setempat.

(23)

Lampiran 2 Contoh kueri Kueri biasa

No Kueri

1 Jangkrik merusak sawah

2 Pemerintah menghitung luas areal sawah 3 Konsumsi padi dalam negri meningkat 4 Hujan buatan diturunkan untuk mengairi sawah 5 Permintaan terhadap sapi meningkat pada saat hari raya 6 Distribusi air tidak merata karena aliran sungai yang memburuk 7 Varietas unggul belum termanfaatkan dengan baik di Indonesia 8 Produk perkebunan masih tetap jadi andalan

9 Tanaman bawang merah busuk terendam air

10 Pemerintah meminjamkan benih bawang putih pada penduduk

11 Pangan merupakan kebutuhan pokok yang sangat penting bagi manusia 12 Sertifikasi bahan pangan diterbitkan oleh petani organik

13 Penyakit asal makanan sebagian besar disebabkan oleh mikroorganisme 14 Daya saing produk domestik dan penerapan standar pada komoditas hortikultura 15 Kebanyakan produk pertanian segar diekspor ke luar negri daripada dikonsumsi di dalam

negri

16 Pembudidayaan tanaman yang baik harus memperhatikan standar tatacara bagaimana memproduksi tanaman

17 Petani harus memperhatikan cara penggunaan pestisida yang baik agar dihasilkan produk yang aman dikonsumsi

18 Residu pestisida di atas ambang batas dinyatakan tidak aman dikonsumsi

19 Apabila komoditas impor diharuskan menerapkan standar jaminan mutu, maka komoditas lokal pun diharuskan menerapkannya juga

20 Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sayur dan buah

21 Es balok dapat menangani produk ikan agar tetap segar

22 Buah-buahan banyak mengandung polisakarida dan asam organik 23 Kandungan yang terdapat pada buah dan sayur dapat mencegah penyakit 24 Kecap ikan yang dihasilkan Indonesia belum memenuhi standar 25 Tempe yang baik dikonsumsi harus melewati fermentasi alami 26 Eksploitasi laut yang berlebihan mengurangi stok ikan dunia 27 Aktifitas manusia dapat mengancam ekosistem laut

28 Penanaman mangrove dapat mencegah terjadinya abrasi

(24)

Lampiran 2 Lanjutan Kueri khusus

No Kueri

1 Tanah bertekstur kurang cocok untuk bertani

2 Lapisan pada batang terdiri dari pembuluh tapis dan pembuluh kayu 3 Komoditi ikan pindang dapat menambah devisa negara

4 Pertambangan batu bara terletak di Sawahlunto 5 Area persawahan rusak akibat banjir bandang 6 Budidaya salak pondoh dilakukan di dataran rendah 7 Pohon jambu mente banyak kegunaanya

8 Musim paceklik merusak tanaman 9 Ayam berkembang biak dengan bertelur

10 Peneliti harus mendaftarkan hak paten dari hasil temuannya

11 Pohon peneduh di pipnggiran kota mulai berkurang seiring perkembangan kota tersebut 12 Petani mendapati lahan berair setelah hujan turun seharian

13 Peneliti sedang mempelajari kegunaan cairan empedu katak

14 Enzim pencernaan sangat berpengaruh dalam proses mencerna makanan 15 Virus ebola adalah virus yang sering menyerang organ mata

16 Proses pembekuan lava dari gunung berapi menghasilkan batu gamping 17 Hewan amfibi dapat hidup di darat dan di air

18 Para korban banjir Aceh memerlukan cairan desinfektan pada pasca bencana 19 Pabrik penyuling kelapa sawit menghasilkan banyak limbah

20 Pasokan ayam buras dalam negri belum dapat memenuhi kebutuhan ayam dalam negri 21 Minyak zaitun banyak digunakan untuk kecantikan

22 Hewan mamalia berkembang biak dengan melahirkan 23 Kandungan oksigen terlarut dalam setiap air berbeda-beda

24 Pengolahan asama gelugur banyak dilakukan oleh industri rumah tangga 25 Makanan utama burung-burung peliharaan adalah jagung pipil

26 Sistem ekskresi dari tumbuhan sangat sulit diamati

27 Struktur geologist suatu daerah mempengaruhi kesuburan tanahnya 28 Jaring pukat termasuk alat tangkap ikan yang aman

(25)

Lampiran 3 Daftar hasil usulan koreksi pada kueri Kueri Biasa

No Kueri Jenis

kesalahan

Hasil koreksi

1 Jangkrik merusak bawah konteks plengsengan,suara,kemampuan,bakal Jangkrik merusak saah Damerau

(deletion)

plengsengan,suara,kemampuan,bakal 2 Pemerintah menghitung puas

areal sawah

konteks berpengairan,diharakan,persemean, memikirkan,pengangonan, mengimpelementasikan,rest, merangkul,bercurah,tugaskan Pemerintah menghitung lluas

areal sawah

konteks prluasan,bankir,absennya,harinya, membengkak,kalori,

kedele,sweet,pukul,rekonstruksi Konsumsi pady dalam negri

meningkat

untuk mengairi sawah

konteks penuhi,gerimis,tersendam,berhektare, buah

Hujan butaan diturunkan untuk mengairi sawah

Damerau (transpotion)

berpengairan,tersendam,menganggur, gerimis,rendam,berhektare,cetakan, beririgasi,deras,menyedot

5 Permintaan terhadap papi meningkat pada saat hari raya

konteks mendekorasi,masayarakat,cende,nmr, pajajaran,tlekung,qsar,idul,tmii,panen Permintaan terhadap sap

meningkat pada saat hari raya

Damerau (deletion)

masayarakat,pajajaran,tlekung,cende, mendekorasi,qsar,nmr,idul,tmii, konsep

6 Distribusi air tidak merata karena aluran sungai yang memburuk

konteks nasturtium,lindi,ciwalen,terjung,pikat an,sindupraja,bisikan,diinjak, sekantong,petarangan Distribusi air tidak merata

karena aliiran sungai yang memburuk

Damerau (insertion)

mendekorasi,masayarakat,cende,nmr, pajajaran,tlekung,qsar,idul,tmii,panen 7 Industri manufaktur hanya

mampu menyerap sedikit bekerja

konteks disoroti,setap,keramik,polimer,cat, puree,penyamak,strategik,pemintalan, formaldehid

Industri manufaktur hanya mampu menyerap sedikit bekerla

8 Hamil perkebunan masih tetap jadi andalan

konteks disyaratkan,sedep,disbun,sppp,kta, panglejar,gpp,pnp,menetralkan, tuturya

Hsail perkebunan masih tetap jadi andalan

Damerau (transpotion)

disbun,disyaratkan,sedep,kta,sppp, gpp,panglejar,pnp,ktna,nyalindung 9 Lahan bawang merah susuk

terendam hujan

konteks menandai,kecokelat,maja,bombay,pu cat,berlereg,rendam,panther, pandanus,sangubanyu Lahan bawang merah usuk

terendam hujan

Damerau (deletion)

(26)

rendam,panther,pandanus, sangubanyu

10 Pemerintah meminjamkan benih bawang putih pada pendidik

konteks eucalyptus,merangkul,mere,bombay, negarabagin,perai,keruan,mun, dibuangnya,bertabur

Pemerintah meminjamkan benih bawang putih pada pendudduk

11 Tangan merupakan kebutuhan

pokok yang sangat penting bagi manusia

konteks tekstur,jahil,masayarakt,ipm,guber, pembuktian,jagungnyateknologinya, kanannya,pengantin

Langan merupakan kebutuhan pokok yang sangat penting bagi manusia 12 Sertifikasi tahan pangan

diterbitkan oleh petani organik

konteks mengharap,pemiliknya,tinggalkan, pengukuran,dikerubuti,penggunanya, terhimpun,dihantui,merugi,

berbondong Sertifikasi baahn pangan

diterbitkan oleh petani organik

Damerau

13 Alas penyakit makanan sebagian besar disebabkan oleh mikroorganisme

konteks campak,berangsur,kronik,brucellosis, rebah,ekaphan,ispa,tekor,perabot,nbm Asl penyakit makanan

sebagian besar disebabkan oleh mikroorganisme

14 Maya saing produk domestik dan penerapan standar pada komoditas hortikultura

konteks turunanya,bertarif,kompetitor,idec, igd,singosari,

derivatif,dikoordinasi,udangnya Darya saing produk domestik

dan penerapan standar pada komoditas hortikultura

15 Kebanyakan produk pertanian senar diekspor ke luar negri daripada dikonsumsi di dalam negri

konteks adab,dikelompokkan,tsukasa, singosari,terkonversi,lengkaplah, tercermin,naldlatul,transmigration, bertumbuh

Kebanyakan produk pertanian sedar diekspor ke luar negri daripada dikonsumsi di dalam negri 16 Pembudidayaan tanaman yang

bait harus memperhatikan standar tatacara bagaimana memproduksi tanaman

konteks antigen,kanola,diperbincangkan, kalayakan,gandaria,

bunut,penaung,comberan,asori,digilir Pembudidayaan tanaman yang

baki harus memperhatikan standar tatacara bagaimana memproduksi tanaman

17 Pelani harus memperhatikan cara penggunaan pestisida yang baik agar dihasilkan produk yang aman dikonsumsi

konteks situasinya,perbekunan,reservasi, soejitno,barata,lokalnya,mandilah, tivitas,terhirup

Peani harus memperhatikan cara penggunaan pestisida yang

Damerau (deletion)

situasinya,perbekunan,reservasi, soejitno,barata,

(27)

baik agar dihasilkan produk yang aman dikonsumsi

lokalnya,mandilah,tivitas,terhirup, digambarkan

18 Residu pestisida di atas tambang batas dinyatakan tidak aman dikonsumsi

konteks soejitno,tertib,metasiklor,culakron, wiratakusumah,mandilah,hambat, terhirup,lingkunggan,pestisidanya Residu pestisida di atas

amnbang batas dinyatakan tidak aman dikonsumsi

Damerau (insertion)

soejitno,tertib,metasiklor,culakron, wiratakusumah,mandilah,hambat, terhirup,lingkunggan,pestisidanya 19 Apabila komoditas impor

diharuskan menerapkan standar jaminan mutu, maka komoditas vokal pun diharuskan

menerapkannya juga

konteks bareng,banjiri,prio,kedalam,mernurut, leluasa,nongabah,kebanggaan, ekstraktif,prospektif

Apabila komoditas impor diharuskan menerapkan standar jaminan mutu, maka komoditas mokal pun diharuskan menerapkannya juga

20 Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sayup dan buah

konteks buahan,rontoknya,kiwi,palmerah, mingguan,pgb,bernaung,dilepaskan, perkawinannya

Departemen pertanian telah bekerja sama dengan pasar swalayan dan rumah pengemas sauyr dan buah

produk ikan agar tetap segar

konteks demersal,pindang,nila,pelagis,menari, turunanya,asin,jemaah,tivitas, berberapa

Es balk dapat menangani produk ikan agar tetap segar

Damerau

22 Buah-buahan banyak mengandung polisakarida dan ayam organik mengandung polisakarida dan asram organik

Damerau (insertion)

anthocyanin,komponen2,medianya,ni trat,antiosiamni,konotasi,persentasi,pr insipnya,tdc,embrio

23 Kandungan yang terdapat pada buah dan sayup dapat mencegah penyakit

konteks teorinya,kuku,misterius,herpes,sarna, budog,ditaksir,

malaria,pgb,kronis Kandungan yang terdapat pada

buah dan sauyr dapat 24 Kecap ikan yang dihasilkan

Indonesia belum memenuhi sandar

konteks dikembangbiakkan,peruri,middle, parsi,agribusiness,aeksipi,ati, memarkir,psi,pumpun Kecap ikan yang dihasilkan

Indonesia belum memenuhi stanar 25 Tempo yang baik dikonsumsi

harus melewati fermentasi alami

konteks bernutrisi,peniadaan,diperketat, bioavaibilitasnya,sesampainya, menyehatkan,semalam,interaktif,pha, kecap

Temfpe yang baik dikonsumsi Damerau bernutrisi,peniadaan,diperketat,

(28)

harus melewati fermentasi alami

(insertion) menyehatkan,sesampainya,pha,kecap, koridor,bioavaibilitasnya,aman 26 Eksploitasi laut yang

berlebihan mengurangi stok ikal dunia

konteks halmahera,duplikasi,kecemburuan, seaweed,cotonou,natuna,

timbunanpertamakali,

persemakmuran,kesemrawutan Eksploitasi laut yang

berlebihan mengurangi stok ijan dunia

Damerau (substitution)

halmahera,duplikasi,kecemburuan,sea weed,cotonou,natuna,

timbunanpertamakali,

persemakmuran,kesemrawutan 27 Aktifitas manusia dapat

mengancam ekosistem baut

konteks pembuktian,tekstur,sejagad,estuaria, masayarakt,ipm,antarwaktu,generasi Aktifitas manusia dapat

mengancam ekosistem luat

Damerau (transpotion)

pembuktian,tekstur,sejagad,estuaria, masayarakt,ipm,antarwaktu,generasi 28 Penanaman mangrove rapat

mencegah terjadinya abrasi

konteks tananan,karier,beredarnya,satkorlag, minggon,menjangkit,singkronisasi, disebar,interdep,hutan

Penanaman mangrove apat mencegah terjadinya abrasi

Damerau (deletion)

hutan

29 Bulog diminta mengambil peran impor supaya marga kedelai tidak fluktuatif

konteks kedalam,maryoso,berkilah,naipin, prognosa,bareng,mulya,mandala, widjanarko,hegemonik

Bulog diminta mengambil peran impor supaya harnga kedelai tidak fluktuatif

Damerau (insertion)

widjanarko,membanjir,banjiri, dwifungsi,kecipir,berkilah,prognosa, bareng,kedalam,wijanarko

30 Inovasi pertanian dimulai dengan membangun contoh modal agribisnis pedesaan

konteks binswanger,involusi,dituangkan, suwanto,upn,tercermin,ngroho, kalkulasi,delanggu,ukmk Inovasi pertanian dimulai

dengan membangun contoh mokel agribisnis pedesaan

Damerau (substitution)

(29)

Lampiran 3 Lanjutan Kueri khusus

No Kueri Jenis kesalahan Hasil koreksi

1 Panah bertekstur kurang cocok untuk bertani

konteks tanah,berburu,pengalaman anah bertekstur kurang cocok

untuk bertani

Damerau (deletion)

tanah,pengalaman,tips 2 Lapisan pada batang terdiri dari

pemburuh tapis dan pembuluh kayu

konteks kayuan,pembuluh,pembuluh

Lapisan pada batang terdiri dari ppembuluh tapis dan pembuluh kayu

Damerau (insertion)

kayuan,pembuluh,pembuluh

3 Komoditi ikat pindang dapat menambah devisa negara

konteks kemahiran,tersedot,ikan,satu, enam

Komoditi ikag pindang dapat menambah devisa negara

Damerau (substitution)

kecukupakan,tersedot,ikan, tahun

4 Pertambangan batu barang terletak di Sawahlunto

konteks baranya,gamping,bara, sandungan,bintan,pahat, barakemudianterurai,suntakim, akik,bata

Pertambangan batu baar terletak di Sawahlunto akik,bara,berlapis

5 Area persawahan rusak akibat bankir bandang

konteks kultivasi,yus,outbound,pingir, hiasi,perwasahan,banjir, konsumsi,areal

Area persawahan rusak akibat bajir bandang

Damerau (deletion)

kultivasi,yus,hiasi,pingir, outbound,perwasahan,banjir, areal

6 Budidaya salah pondoh dilakukan di dataran rendah

konteks salak,wilayah,teknologi Budidaya salaak pondoh

dilakukan di dataran rendah

Damerau (insertion)

salak,wilayah,teknologi 7 Pohon jamu mente banyak

kegunaanya

konteks suweg,tersisa,urainya,kilah, memper,pegal,peneduh, jambu

Pohon jamlu mente banyak kegunaanya

Damerau (substitution)

penegasan,suweg,urainya, plang,peneduh,tersisa,jambu 8 Muslim paceklik merusak

tanaman

konteks perduk,musim Muism paceklik merusak

tanaman

konteks kordinator,ldcs,broiler,kalkun, buras,menggusur,biaknya, berargumen,biak,brandt Ayam berkembang bik dengan

bertelur

Damerau (deletion)

kordinator,ldcs,broiler,kalkun, buras,menggusur,biaknya, berargumen,biak,brandt 10 Bintang pengerat umumnya

merugikan manusia

(30)

Biinatang pengerat umumnya

kota mulai berkurang seiring perkembangan kota tersebut

konteks payakumbuh,pohonan,memper, waringin,perhatikan,penegasan, ovarium,tlethong,gotontalo, plang

Pohon penedth di pinggiran kota mulai berkurang seiring perkembangan kota tersebut

Damerau

12 Petani mendapati tahan berair setelah hujan turun seharian

konteks berbondong,tinggalkan, terhimpun,ditundanya, dihantui,rendam,merugi, pemiliknya,membutuhkannya, mengangg

Petani mendapati alhan berair setelah hujan turun seharian

Damerau (transpotion)

berbondong,trampil,ditundanya, dihantui,mogok,tinggalka,meng harap,terhimpun,merugi,nekat 13 Peneliti sedang mempelajari

kegunaan cair empedu katak

konteks mengobservasi,idwan,btpt, pertamawati,balitbantan,cairan, adams

Peneliti sedang mempelajari kegunaan caira empedu katak

Damerau (deletion)

mengobservasi,idwan,btpt, pertamawati,balitbantan,cairan 14 Ensim pencernaan sangat

berpengaruh dalam proses mencerna makanan

konteks tekor,kerupuk,nbm,perabot, marjinalisasi,pelapukan, rempeyek,penyisiran,klaim, fungsionel

Enzoim pencernaan sangat berpengaruh dalam proses mencerna makanan sering menyerang mata

konteks syncytal,flus,dompolan,cpsv, ctv,cpsv,mikroplasma,binis, hanta,ctv

Virus pbola adalah virus yang sering menyerang mata

Damerau (substitution)

hiv,flus,cvev,mikroplasma, dompolan,syncytal,

hanta,cpsv,mikroplasma,ebola 16 Proses pembekuan lava dari

gunung berapi menghasilkan batu gampang

konteks gunung,gunung

Proses pembekuan lava dari gunung berapi menghasilkan batu gamipng

konteks bplh,rebusan,berkecukupan, nasturtium,qantas,suangi, lautnya,terjung,sudariyono, lukito

Hean amfibi dapat hidup di darat dan di air

18 Para korban banjir Aceh memerlukan airan desinfektan pada pasca bencana

konteks dandim,incaran,bsa,marshall, kesabaran,bandang,sumetara, cairan

Para korban banjir Aceh memerlukan cabiran

desinfektan pada pasca bencana

Damerau (insertion)

dandim,incaran,bsa,marshall,ke sabaran,bandang,sumetara, cairan

(31)

19 Pabrik penyulik kelapa sawit menghasilkan banyak limbah

konteks sampora,ektrak,kelentik,kerat, pemeliharaannya,lengkuas,rbd, diaudit,penyuling,lpptk Pabrik penyulinh kelapa sawit

menghasilkan banyak limbah

Damerau negri belum dapat memenuhi kebutuhan ayam dalam negri

konteks bapaknya,bersa,broiler, petrokimia,kalkun,gasnya, piharaannya,bapaknya,buras, broiler

Pasokan ayam bruas dalam negri belum dapat memenuhi kebutuhan ayam dalam negri

Damerau digunakan untuk kecantikan

konteks minyak,mata,alat Mnyak zaitun banyak

digunakan untuk kecantikan

Damerau (deletion)

minyak,mata,alat 22 Heran mamalia berkembang

biak dengan melahirkan

konteks menggusur,hyundai,hewan, berkembang

Hewman mamalia berkembang

biak dengan melahirkan

Damerau (insertion)

berargumen,menggusur, berkembang,berkembang 23 Kandungan oksigen terparut

dalam setiap air berbeda-beda

konteks chlorom,rebusan,nasturtium, beta,glikosil,terjung, plta,kerapkali,menggenang, flow

Kandungan oksigen terlakut dalam setiap air berbeda-beda

Damerau

24 Pengolahan asam gugur banyak dilakukan oleh industri rumah tangga

konteks ruta,onggok,ketumbar,amino, setap,folat,lenoleik,urat, deoksiribonukleat,pcb Pengolahan asam geluur banyak

dilakukan oleh industri rumah tangga

25 Makanan utama burung-burung peliharaan adalah jagung pipih

konteks kerupuk,bakarnya,inlander,diko nsurmi,bulei,

terkecil,tekor,membekali,leadin g,perabot

Makanan utama burung-burung peliharaan adalah jagung pipikl

Damerau (insertion)

bakarnya,iradiasi,functional, inlander,bulei,terkecil,tekor, membekali,leading,kerupuk 26 Stem ekskresi dari tumbuhan

sangat sulit diamati

konteks penghuninya,sistem Sostem ekskresi dari tumbuhan

sangat sulit diamati

Damerau (substitution)

penghuninya,epifit,sensor, beton,sistem,jenis 27 Struktur geolog suatu daerah

mempengaruhi kesuburan tanahnya

konteks geologis,attractiveness, kimiawinya,diratakan, tritrophic,kelakuan,tnah,feodal, kimianya,keterpurukan Struktur geologsi suatu daerah

(32)

28 Saring pukat termasuk alat tangkap ikan yang aman

konteks pengendapan,pelagis,menari,lin gkunggan,pakkaja,

pengaduk,asin,penggiling, diagnose,tangkapnya Jarin pukat termasuk alat

tangkap ikan yang aman

Damerau (deletion)

gancu,pemecah,pengukur, pindang,pakkaja,sterilisasi, diagnose,penggiling, tangkapnya,pengendapan 29 Tanaman sangat baik ditanam di

lawan gambut

konteks penaung,tagetes,

diperbincangkan,monokul, kesayangan,bunut,umbu, grafting,bersatu

Tanaman sangat baik ditanam di laghan gambut

Damerau (insertion)

monokul,penaung,penguat, diperbincangkan,tagetes,bunut, umbu,kesayangan,grafting,asori

30 Sadur mayur mengandung

karbohidrat dan nitrogen

konteks persentasi,konotasi, antiosiamnin,nitrat,npn, komponen2,anthocyanin, disanhut,sayur

Saxur mayur mengandung karbohidrat dan nitrogen

Damerau (substitution)

persentasi,konotasi, antiosiamnin,nitrat,npn, komponen2,anthocyanin, disanhut,sayur

Gambar

Gambar 3 Alur pembuatan sistem.
Tabel 2.  Contoh 15 Confusion set dan jumlah pada data latih
Gambar 4  Proses pembentukan frasa.
Tabel 3.  Nilai peluang pasangan frasa
+7

Referensi

Dokumen terkait

Pertama-tama, orang harus mengeluarkan uang yang banyak, termasuk pajak yang tinggi, untuk membeli mobil, memiliki surat ijin, membayar bensin, oli dan biaya perawatan pun

Kriteria inklusi pada penelitian ini adalah keluarga yang memiliki dan tidak memiliki anggota keluarga yang pernah atau sedang bekerja sebagai pekerja di daerah endemis

“Penelitian deskriptif adalah penelitian tujuannya untuk memperoleh deskripsi atau gambaran tentang karakteristik tertentu (variabel tertentu) dari suatu subjek yang

Dan dalam pemenuhan kebutuhan tersebut, perilaku yang dimunculkan akan berbeda dalam menghadapi sesuatu, untuk melakukan kebutuhan secara riligius membutuhkan niat

Penelitian ini membuktikan bahwa ada hubungan positif yang sangat signifikan antara dukungan istri dengan keterlibatan suami dalam pengasuhan, artinya semakin tinggi dukungan

(2) Hambatan dalam implementasi manajemen sarana dan prasarana pendidikan di SMK Negeri 1 Karanganyar adalah hambatan Sumber Daya Manusia terdiri dari (a)

Berdasarkan hasil skrining fitokimia yang telah dilakukan, diperoleh hasil bahwa ekstrak etanol daun ketapang mengandung senyawa alkaloid dan flavonoid, di Fraksi Heksana

Faktor penghambat ketika pelaksanaan pembelajaran Aqidah Akhlaq dalam mencegah pergaulan bebas di MTs NU TMI Pujon Malang adalah pertama, faktor dari peserta didik kurang fokus