TEMATIKA DAN ILMU PENGETAHUAN A INSTITUT PERTANIAN BOGOR
TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan
Menurut Damerau (1964) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu: penggantian satu huruf (substitution), penyisipan satu huruf (insertion), penghilangan satu huruf (deletion), transposisi dua huruf berdekatan (transpotion). Menurut Peterson (1980), kesalahan ejaan dapat terjadi karena beberapa hal, diantaranya:
1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya.
2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari.
3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme dengan pengkodean pada jalur mekanisme transmisi data. Koreksi ejaan adalah proses menemukan kesalahan ejaan pada kata di suatu teks tertulis dan mungkin untuk dilakukan pengoreksian. Kesalahan ejaan dapat dikelompokkan menjadi dua yaitu(1) non-word errors dan (2) real-word errors (Fossati & Eugenio 2007). 1. Non-word errors yaitu kesalahan ejaan
dimana kata tersebut tidak terdapat dalam kamus atau bahasa tertentu.
Contoh: Batang pohon terdiri atas lapisan pembuluj silem dan floem. Kata pembuluj tidak terdapat dalam KBBI dan dinyatakan sebagai kata yang salah.
2. Real-word errors yaitu kesalahan ejaan dimana secara konteks kata tersebut dinyatakan salah walau kata tersebut terdapat dalam KBBI.
Contoh: Batang pohon terdiri atas lapisan pembunuh silem dan floem. Kata pembunuh terdapat dalam KBBI tetapi secara konteks yang benar seharusnya kata pembuluh.
Koreksi Ejaan Konteks Sensitif
Koreksi ejaan konteks sensitif adalah masalah dari kesalahan ejaan yang merupakan invalid word dalam kosa kata atau konteksnya (Golding 1995). Contoh kesalahan ejaan yang dapat muncul dengan tipe-tipe yang berbeda, kesalahan ketik (kawah, sawah), kerancuan homonim (bisa, bisa), kerancuan homofon (bank, bang), kerancuan homograf (apel, apel) dan kesalahan penggunaan (ke, di). Kesalahan ini tidak dapat dideteksi oleh koreksi ejaan biasa. Koreksi ejaan tersebut hanya menunjukkan kesalahan dan tidak menghasilkan sebuah koreksi dari kata yang salah.
Koreksi ejaan konteks sensitif dianggap sebagai sebuah tugas dari keambiguan kata. Kata yang ambigu dimodelkan dalam confusion set, C = {Wi,...,Wn} dimana i dimulai dari 0, artinya setiap kata Wi dalam confusion set tersebut saling ambigu satu sama lain. Pada kejadian C = {nangka, sangka}, program koreksi ejaan biasa hanya akan mendeteksi kesalahan kata tanpa memberikan usulan dari hasil koreksi.
Ada dua jenis kesalahan yaitu:
• false negatives yaitu mempermasalahkan mengenai kata yang benar.
• false positives yaitu kegagalan dalam mendeteksi sebuah kesalahan.
Harus dibuat asumsi bahwa kedua kesalahan tersebut sama buruknya, walaupun dalam kenyataannya false negatives lebih buruk dan sebagai pengguna pasti merasa kesal. Lima metode untuk koreksi ejaan yaitu (Golding 1995):
• Baseline: sebuah indikator dari kompetensi minimal untuk perbandingan dengan metode-metode lain.
• Context words: uji kata-kata tertentu dalam ±k kata dari kata yang ambigu.
• Collocations: test untuk pola sintaktis sekitar target ambigu.
• Decision list: menggabungkan context words dan collocations melalui daftar keputusan.
• Bayesian classifiers: menggabungkan context words dan collocations melalui klasifier Bayesian.
usulan. Pengembangan sistem ini diharapkan akan dapat meningkatkan keefektifan dan keefesienan dalam proses koreksi frasa Bahasa Indonesia berbasis konteks.
TINJAUAN PUSTAKA Kesalahan dan Koreksi Ejaan
Menurut Damerau (1964) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu: penggantian satu huruf (substitution), penyisipan satu huruf (insertion), penghilangan satu huruf (deletion), transposisi dua huruf berdekatan (transpotion). Menurut Peterson (1980), kesalahan ejaan dapat terjadi karena beberapa hal, diantaranya:
1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya.
2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari.
3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme dengan pengkodean pada jalur mekanisme transmisi data. Koreksi ejaan adalah proses menemukan kesalahan ejaan pada kata di suatu teks tertulis dan mungkin untuk dilakukan pengoreksian. Kesalahan ejaan dapat dikelompokkan menjadi dua yaitu(1) non-word errors dan (2) real-word errors (Fossati & Eugenio 2007). 1. Non-word errors yaitu kesalahan ejaan
dimana kata tersebut tidak terdapat dalam kamus atau bahasa tertentu.
Contoh: Batang pohon terdiri atas lapisan pembuluj silem dan floem. Kata pembuluj tidak terdapat dalam KBBI dan dinyatakan sebagai kata yang salah.
2. Real-word errors yaitu kesalahan ejaan dimana secara konteks kata tersebut dinyatakan salah walau kata tersebut terdapat dalam KBBI.
Contoh: Batang pohon terdiri atas lapisan pembunuh silem dan floem. Kata pembunuh terdapat dalam KBBI tetapi secara konteks yang benar seharusnya kata pembuluh.
Koreksi Ejaan Konteks Sensitif
Koreksi ejaan konteks sensitif adalah masalah dari kesalahan ejaan yang merupakan invalid word dalam kosa kata atau konteksnya (Golding 1995). Contoh kesalahan ejaan yang dapat muncul dengan tipe-tipe yang berbeda, kesalahan ketik (kawah, sawah), kerancuan homonim (bisa, bisa), kerancuan homofon (bank, bang), kerancuan homograf (apel, apel) dan kesalahan penggunaan (ke, di). Kesalahan ini tidak dapat dideteksi oleh koreksi ejaan biasa. Koreksi ejaan tersebut hanya menunjukkan kesalahan dan tidak menghasilkan sebuah koreksi dari kata yang salah.
Koreksi ejaan konteks sensitif dianggap sebagai sebuah tugas dari keambiguan kata. Kata yang ambigu dimodelkan dalam confusion set, C = {Wi,...,Wn} dimana i dimulai dari 0, artinya setiap kata Wi dalam confusion set tersebut saling ambigu satu sama lain. Pada kejadian C = {nangka, sangka}, program koreksi ejaan biasa hanya akan mendeteksi kesalahan kata tanpa memberikan usulan dari hasil koreksi.
Ada dua jenis kesalahan yaitu:
• false negatives yaitu mempermasalahkan mengenai kata yang benar.
• false positives yaitu kegagalan dalam mendeteksi sebuah kesalahan.
Harus dibuat asumsi bahwa kedua kesalahan tersebut sama buruknya, walaupun dalam kenyataannya false negatives lebih buruk dan sebagai pengguna pasti merasa kesal. Lima metode untuk koreksi ejaan yaitu (Golding 1995):
• Baseline: sebuah indikator dari kompetensi minimal untuk perbandingan dengan metode-metode lain.
• Context words: uji kata-kata tertentu dalam ±k kata dari kata yang ambigu.
• Collocations: test untuk pola sintaktis sekitar target ambigu.
• Decision list: menggabungkan context words dan collocations melalui daftar keputusan.
• Bayesian classifiers: menggabungkan context words dan collocations melalui klasifier Bayesian.
Baseline
Keambiguan kata pada metode Baseline antara Wi sampai Wn, dimana i dimulai dari 0 sampai n merupakan bilangan real positif dengan hanya mengabaikan konteks dan mencoba menebak kata yang tepat berdasarkan data latih. Koleksi kata dalam confusion set dapat digunakan untuk evaluasi metode keseluruhan. Akurasi prediksinya didapat dari jumlah kata yang benar yang diprediksi dibagi jumlah kata dalam confusion set yang muncul. Contoh: anggota dari confusion set {nangka, sangka} berjumlah 860 dalam korpus, dimana {nangka} sebanyak 744 dan {sangka} sebanyak 96 maka metode Baseline memprediksi {nangka} dan jumlah {nangka} yang benar 744 sehingga didapat hasil 744/860 = 0.886. Context Words
Pengidentifikasian kata usulan pada metode context words berasal dari kata yang berada di sekitar kata yang salah. Sebagai contoh, keambiguan antara kata pembunuh dan pembuluh. Kata-kata yang tersedia di sekitarnya adalah penjara, kriminal dan mayat maka kata yang diusulkan adalah pembunuh, dan sebaliknya jika kata-kata yang tersedia di sekitarnya adalah tanaman, lapisan dan silem akan lebih mengarahkan kata pembuluh sebagai kata usulannya. Metode context words baik untuk masalah-masalah umum yang penyelesaian masalahnya tergantung pada kata-kata di sekitar kata yang salah.
Collocations
Pencarian kata usulan pada metode collocations dilakukan dengan melihat pola pada kata dan melakukan proses tagging pada kata-kata yang ada di sekitar kata yang salah. Tetapi untuk masalah sintaks, collocations dan metode trigram lebih baik. Contoh:
• Gudeg Jogja menggunakan biji *sangka. S/ Kb P/Kker O/Kb • biji *sangka D/Kb M/Kker Keterangan: S = subjek P = predikat O = objek Kb = kata benda Kker = kata kerja D = diterangkan M = menerangkan
Trigram
Metode trigram dibuat untuk koreksi ejaan sensitif yang ditemukan oleh Mays et al (1991). Metode ini membutuhkan korpus yang banyak sebagai data latih. Kata yang akan dikoreksi tersebut akan digantikan dengan kata yang berada dalam confusion set. Setiap kata pengganti kata yang salah dihitung nilai peluangnya berdasarkan hasilnya dalam sebuah kalimat.
Lebih jelasnya, diasumsikan sebuah kata wk terdapat dalam sebuah kalimat W=w1…wk…wn, dan w’k adalah kata dan kita sedang mempertimbangkan menggantikannya sehingga dihasilkan kalimat W’. Kata w’k
dipilih untuk menggantikan wk apabila P(W’) > P(W), dimana P(W) dan P(W’) adalah nilai peluang W dan W’ berturut-turut. Kita akan menghitung nilai W dan W’ menggunakan urutan yang telah ditandai oleh W sebagai kuantitas antara dan menjumlahkan semua kemungkinan urutan yang telah ditandai. Nilai peluang dari kalimat yang telah ditandai adalah:
dengan T adalah urutan yang ditandai dalam kalimat W yang dimulai dari 1. Nilai peluang pada metode trigram dapat diduga dengan rumus sebagai berikut:
=
dengan T = t1 … tn dan P(ti|ti-2ti-1) adalah nilai peluang dari kemungkinan urutan yang ditandai terlebih dahulu antara ti-2 dan ti-1. Frasa
Frasa adalah gabungan dua kata atau lebih yang bersifat non-predikatif (misal, gunung tinggi disebut frasa karena merupakan konstruksi non predikatif) (Anonim 1991). Frasa ada dua jenis yaitu:
• Frasa eksosentris yaitu frasa yang keseluruhannya tidak mempunyai perilaku sintaksis yang sama dengan keseluruhan konstituennya.
• Frasa endosentris yaitu frasa yang secara keseluruhannya mempunyai perilaku sintaksis yang sama dengan salah satu konstituennya.