TINJAUAN PUSTAKA - Koreksi Ejaan Query Bahasa Indonesia Menggunakan Algoritme Damerau Levenshte

Menurut Damerau dalam Wahyudin (1999) menyimpulkan 80% kesalahan ejaan dapat disebabkan karena empat hal, yaitu:

1. Penggantian satu huruf 2. Penyisipan satu huruf 3. Penghilangan satu huruf

4. Penukaran dua huruf berdekatan.

Kesalahan ejaan juga dapat disebabkan oleh beberapa hal, diantaranya:

1. Ketidaktahuan penulisan. Kesalahan ini biasanya konsisten dan kemungkinan berhubungan dengan bunyi kata dan penulisan yang seharusnya.

2. Kesalahan dalam pengetikan yang lebih tidak konsisten tapi mungkin berhubungan erat dengan posisi tombol papan ketik dan pergerakan jari.

3. Kesalahan transmisi dan penyimpanan yang berhubungan dengan pengkodean pada jalur mekanisme transmisi data.

Kesalahan ejaan dapat dikoreksi menggunakan dua strategi dasar yang berbeda, yaitu mutlak dan relatif (Pullock & Zamora 1984, dalam Wahyudin 1999). Secara mutlak, pengoreksian dilakukan dengan membuat suatu tabel variasi ejaan yang salah dengan ejaan yang benarnya. Namun demikian, secara relatif ejaan yang benar dipilih dari kamus yaitu dengan mencari kata dalam kamus yang paling mirip dengan kata yang salah ejaannya.

Temu Kembali Informasi

Temu Kembali informasi adalah menemukan material (biasanya dokumen- dokumen) dari yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari koleksi-koleksi yang besar (biasanya disimpan dalam komputer). Temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi

2 dokumen. sistem yang berfungsi untuk

menemukan informasi yang relevan dengan kebutuhan pemakai merupakan suatu sistem temu kembali informasi (Manning et al. 2009).

Information Retrieval System (IRS) tidak memberi tahu pengguna masalah yang ditanyakannya. Sistem tersebut hanya memberitahukan keberadaan dan keterangan dokumen yang berhubungan dengan permintaan pengguna. Dengan memakai bahasa natural sebagai bahasa query, IRS memberikan kemudahan kepada pengguna dalam merepresentasikan kebutuhan informasinya dalam bentuk query.

IRS menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan

query. Perangkingan dokumen oleh sistem ini dilakukan dengan memberikan pembobotan.

Pembobotan dilakukan terhadap token yang berada dalam dokumen koleksi. Sistem temu kembali yang paling sederhana memboboti dengan bobot biner, 1 jika token muncul di dokumen dan 0 jika sebaliknya. Untuk menghasilkan penggabungan bobot untuk setiap token di dalam setiap dokumen, dilakukan pengkombinasian frekuensi token

(term frequency) dan inverse document frequency yang dinyatakan sebagai berikut (Manning et al. 2009).

Wi,j = tfi,j * idft.

Dengan tfi,j merupakan bobot token ke-i

pada dokumen ke-j dan idft, N adalah jumlah

dokumen dalam koleksi serta ni merupakan

jumlah dokumen yang mengandung token ke-i.

Vector Space Model (VSM)

VSM merupakan pemodelan yang berbasiskan token yang memungkinkan partial matching dan pemeringkatan dokumen. Berikut beberapa prinsip dasar yang digunakan dalam VSM (Manning et al. 2009):

1. D ={d0, d1, …, dN} adalah himpunan N

dokumen dalam koleksi. d mengacu pada sembarang dokumen di Є D. Dokumen

sebagai vektor token.

2. Q adalah query yang direpresentasikan sebagai sebuah vektor berdimensi m mirip dengan dokumen.

3. T = {t0, t1, … tm} adalah himpunan m token

dalam dokumen.

4. Kesamaan vektor dokumen dan query

dihitung berdasarkan kesamaan antar vektor. Dokumen-dokumen yang ditemukembalikan merupakan hasil penemukembalian yang ditampilkan berupa daftar dokumen yang telah terurutkan berdasar tingkat kesamaan dokumen dengan query. Tingkat atau ukuran kesamaan

sim(dj, q) antara dokumen di dengan query Q

dihitung dengan menggunakan persamaan kosinus sudut antara di dan Q sebagai berikut :

Evaluasi Temu Kembali Informasi

Dasar pengukuran keefektifan temu kembali informasi adalah recall dan precision. Recall

adalah fraksi dokumen-dokumen yang relevan yang ditemukembalikan terhadap dokumen yang relevan. Precision adalah fraksi dokumen- dokumen yang relevan yang ditemukembalikan terhadap dokumen yang ditemukembalikan (Manning et al. 2009).

Average precison (AVP) adalah suatu ukuran evaluasi temu kembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall yang ditemukembalikan. Tingkat recall standar yang digunakan adalah 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.

Precision yang diinterpolasi pada standar

recall level ke j adalah precision maksimum pada suatu recall level antara level j dan level (j+1) :

Algoritme Damerau Levenhstein Metric

Damerau Levenshtein Metric adalah sebuah fungsi pada finite string dari sebuah alphabet ke integer. Sebuah matriks jarak yang diberikan

stringss1, s2, s3 yang memenuhi kondisi (Bard, 2006):

Non-negativity: d(s1, s2) ≥ 0

Non-degeneracy: d(s1, s2) = 0 jika dan hanya

jika s1 = s2

Symmetry: d(s1, s2) = d(s2, s1)

Triangle Inequality: d(s1, s2) + d(s2, s3) ≥

d(s1, s3)

Jarak d(s1, s2) didefinisikan sebagai sebuah

kombinasi operasi penjumlahan dari penambahan sebuah huruf, penghilangan sebuah huruf, penggantian sebuah huruf atau penukaran

3 sebuah huruf dari huruf lainnya dalam satu

lokasi. Itu memungkinkan beberapa kombinasi pada empat operasi yang dapat menransformasikan string s1 ke s2, tapi panjang terpendek urutan adalah jarak antara dua strings.

Metode Damerau Levenshtein Metric melakukan operasi perbandingan kata-kata dengan memerhatikan 4 macam kesalahan pengetikan (misalnya kata DAMERAU), yaitu: 1. Penyisipan sebuah huruf, misalnya

DAHMERAU.

2. Penghapusan sebuah huruf, misalnya DAMRAU.

3. Penggantian sebuah huruf dengan huruf lain, misalnya DANERAU.

4. Penukaran sebuah huruf berurutan, misalnya DAMERUA.

Salah satu metode pembandingan dalam memeriksa ejaan dengan menggunakan Table Look-up. Metode ini membandingkan kata terhadap kata dalam kamus. Jika tidak ada dikamus maka kata tersebut dianggap salah (Peterson 1980, diacu dalam Wahyudin 1999). Ketidaksesuaian dari strings dapat dibandingkan dengan kata pada kamus yang secara langsung menggunakan penyesuaian karakter demi karakter secara iteratif, dengan menentukan jumlah minimum kesalahan dari masing-masing operasi.

Damerau Levenshtein Metric menghitung jumlah minimum kesalahan dari dua kata misalnya terdapat dua buah kata yang dinotasikan sebagai s dan t. Variabel i dan j

menyatakan posisi huruf yang dibandingkan pada suatu kata (pfiefer et al. 1994).

f(0, 0)= 0 f(i, 0)= i f(0, j)= j f(i, j)= min { f(i-1, j) + 1, // deletion f(i, j-1) + 1, // insertion f(i-1, j-1) + d(si, tj) // substitution f(i-2, j-2) + d(si-1, tj) + d(si, tj-1) + 1 // transposition } fungsi d merupakan fungsi untuk mengukur jarak untuk huruf.

Fungsi f(i, j) menghitung minimum jumlah kesalahan-kesalahan perbandingan i karakter pertama dari kata pertama dengan j karakter pada kata kedua. Jarak antara dua strings

adalah f(m,n), dimana m merupakan panjang

string pertama dan n merupakan panjang string

ke dua.

Dalam dokumen Koreksi Ejaan Query Bahasa Indonesia Menggunakan Algoritme Damerau Levenshtein (Halaman 67-69)