• Tidak ada hasil yang ditemukan

Implementasi Dan Analisis Algoritma Edit Distance Untuk Spelling Checker Pada Document Teks Bahasa Indonesia

N/A
N/A
Protected

Academic year: 2021

Membagikan "Implementasi Dan Analisis Algoritma Edit Distance Untuk Spelling Checker Pada Document Teks Bahasa Indonesia"

Copied!
6
0
0

Teks penuh

(1)

IMPLEMENTASI DAN ANALISIS ALGORITMA EDIT DISTANCE UNTUK SPELLING CHECKER PADA DOCUMENT TEKS BAHASA INDONESIA

Muhammad Firdaus Safri¹, Retno Novi Dayawati², Agung Toto Wibowo³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Seringnya terjadi kesalahan penulisan yang umumnya berupa salah ketik akan mempengaruhi informasi yang akan disampaikan penulis melalui tulisannya. Oleh sebab itu, kebutuhan akan adanya pengolahan kata yang bisa memberikan fasilitas pemeriksaan ejaan kata dalam bahasa indonesia sangatlah penting. Sistem pemeriksaan ejaan kata ini menggunakan algoritma edit distance untuk mencari kemiripan antar kata sebagai kandidat-kandidat ejaan kata yang benar dengan asumsi bahwa kesalahan pengetikan ejaan kata yang benar disebabkan karena adanya insertion, deletion dan substitution karakter satu dengan karakter yang lain maka algoritma Edit Distance dapat menjadi salah satu alternatif pemeriksaan ejaan kata yang mampu mengoreksi dan memberikan kandidat kata yang tepat untuk setiap kata yang salah ketik.

Pada tugas akhir ini, digunakan sebuah Directed Acyclic Word Graph (DAWG) sebagai

representasi lexicon karena dapat mengecek keberadaan suatu kata dalam lexicon dengan cepat. Dari hasil pengujian didapatkan hasil akurasi terhadap algoritma Edit Distance dalam

memberikan kandidat-kandidat kata yang benar. Ketepatan kandidat kata yang diberikan oleh algoritma edit distance ini didapatkan yaitu sebesar 75,4%.

Kata Kunci : Pengoreksian ejaan kata, DAWG, Edit distance.

Abstract

Frequent writing errors which tend to be the wrong type will affect the information to be conveyed the author through his writings. Hence, the need for word processing that can provide testing facilities in the Indonesian spelling is very important. The system checks the spelling of this word using the edit distance algorithm to find similarities between words as candidates for the correct spelling of words with the assumption that the error of typing the correct spelling of the word due to insertion, deletion and substitution of one character with another character then the Edit Distance algorithm can be an alternative examination that is able to correct spelling and give candidates the right word for every word that mistype.

In this end task, use a Word Directed Acyclic Graph (DAWG) as a representation of lexicon

because it can check the existence of a word in the lexicon quickly. From the results of testing the accuracy of the results obtained on the Edit Distance algorithm in giving candidates the right word. The accuracy of candidate words supplied by the Edit Distance algorithm is obtained that is.equal.to.75.4%.

Keywords : Proofreading spelling of the word, DAWG, Edit distance.

Powered by TCPDF (www.tcpdf.org)

(2)

1.

Pendahuluan

1.1

Latar Belakang Masalah

Di era komputasi dan digital seperti sekarang ini, mengetik adalah suatu pekerjaan yang tidak asing lagi bagi semua orang. Dewasa ini banyak sekali perangkat digital yang meminta input data kepada user melalui keyboard. Hal ini tentulah mengharuskan user tersebut mengetik. Baik komputer, Personal Digital Assistant (PDA) maupun telepon genggam mengharuskan usernya untuk dapat mengetik dengan cepat, tepat dan efisien. Sayangnya kemampuan untuk mengetik cepat dan tepat secara umum masih belum banyak dimiliki masyarakat luas. Terkadang hal ini menjadi kendala ketika seseorang berada dalam keadaan terjepit/terdesak untuk melakukan pengetikan yang cepat dan tepat dalam penyelesaian suatu tugas atau pekerjaan. Dalam hal ini maka seorang user rawan sekali melakukan kesalahan dalam mengetik sebuah string. Kesalahan yang terjadi dalam pengetikan sebuah string dapat menyebabkan kesalahpahaman atau salah pengertian dari pihak-pihak yang membacanya. Selain itu upaya user untuk memeriksa string-string yang telah diinputkan juga akan memakan waktu yang lama dan berakhir kepada ketidakefisienan.

Dalam melakukan pengetikan tersebut biasanya kesalahan yang terjadi diakibatkan oleh user yang dapat mengakibatkan pengejaan tidak sesuai dan benar menurut kamus besar bahasa Indonesia misalnya, kesalahan yang terjadi ketika user salah dalam menekan huruf atau karakter yaitu meskipun jumlah dari karakter tersebut sama tetapi tidak sesuai dengan pengejaan kata yang benar, biasanya karena huruf ataupun karakter tersebut berdekatan dengan karakter yang ingin diketikan. Misalnya kata yang ingin diketikkan “ittelkom” tetapi justru user mengetikan “itteljom”. Kemudian kesalahan seperti kurang dari jumlah karakter yang diinginkan. Kesalahan ini juga sering terjadi dalam aktifitas pengetikan misalnya ketika user ingin mengetikkan kata “informatika” tetapi justru kata yang user ketikan “informatka”. Kesalahan selanjutnya yaitu kelebihan jumlah karakter yang diinginkan. Pada kasus ini pula sering terjadi pada saat melakukan pengetikan, contoh kesalahan ini adalah ketika ingin mengetikan kata “bandung” tetapi justru kata yang diketikan adalah “bandunng”.

Berdasarkan permasalahan diatas diperlukan sebuah aplikasi yang tidak hanya dapat melakukan deteksi terhadap kata yang pengejaannya salah tetapi harus dapat melakukan pemeriksaan terhadap pengejaan katanya sehingga kata-kata yang terdapat dalam teks tersebut pengejaan nya sesuai dengan kamus bahasa Indonesia. Diharapkan aplikasi ini dapat melakukan deteksi dan pemeriksaan kata sehingga sesuai dengan kamus data yang sudah dibuat dalam aplikasi yang disesuaikan berdasarkan kamus bahasa Indonesia dan dapat memberikan kandidat kata setelah kata-kata tersebut diperiksa pengejaannya.

Ketika ingin melakukan pendeteksian dan pemeriksaan kata-kata yang telah diinputkan apakah sudah benar ejaannya atau terdapat kesalahan pengejaan maka membutuhkan daftar kamus kata yang berada pada aplikasi sehingga dapat membandingkan kata-kata yang salah yang telah diketikan dalam sebuah teks tersebut dengan kata-kata yang pengejaan nya sesuai dan benar menurut kamus besar bahasa Indonesia yang terdapat dalam database. Kata-kata yang pengejaan nya sesuai dan benar menurut kamus besar bahasa Indonesia tersebut disimpan dalam

(3)

daftar kamus data aplikasi. Agar dalam proses pencarian kata dapat dilakukan dengan tepat dengan tingkat pemampatan yang tinggi dan memakan waktu yang sedikit maka aplikasi ini menggunakan teknik Directed Acyclic Word Graph (DAWG) dalam merepresentasikan kamus data pada aplikasi tersebut.

Untuk mencari kemiripan kata yang sesuai dengan kata dalam kamus dalam database sampai memberikan kandidate kata yang sesuai dengan pengejaan yang benar sesuai dengan kamus data bahasa Indonesia adalah dengan menggunakan Algoritma edit distance. Prinsip kerja pengecekan pengejaan ini sebenarnya sederhana, yaitu dengan membandingkan suatu kata dengan daftar kata pada basisdata. Jika terdapat kata yang tepat maka akan ditampilkan usulan kata-kata dengan perbedaan terkecil. Edit Distance yaitu sebuah algoritma untuk mencari nilai minimum dari string kata yang salah setelah membandingkan dengan kata dalam kamus data dengan perubahan yang di ijinkan yaitu mengubah huruf, menyisipkan huruf dan menghapus sebuah huruf. Sehingga algoritma ini sangat cocok digunakan untuk memberikan kandidat kata karena dapat melihat perbedaan di antara dua string dengan cepat dan akurat.

1.2

Rumusan Masalah

Berdasarkan latar belakang yang telah dikemukan sebelumnya, maka dapat dirumuskan permasalahan sebagai berikut:

1. Bagaimana menggenerate kamus data kedalam bentuk kamus elektronis dengan menggunakan DAWG.

2. Bagaimana menerapkan algoritma Edit Distance untuk mendapatkan kandidat kata yang disarankan yang mempunyai tingkat kemiripan yang baik.

Batasan Masalah

Penulis membatasi masalah dalam penelitian pemeriksaan ejaan kata ini yaitu:

1. Aplikasi yang dibuat adalah aplikasi pemeriksaan kata yang hanya mendeteksi dan memeriksa kesalahan penulisan kata dalam bahasa Indonesia.

2. Kesalahan tata bahasa (Grammer) di abaikan karena sistem ini hanya memeriksa kesalahan penulisan kata.

3. Pemeriksaan hanya dilakukan untuk huruf saja, tidak untuk angka maupun tanda baca.

4. Pembentukan kamus data ke dalam bentuk kamus elektronis dengan DAWG hanya menggenerate dari kamus data yang sudah di buat dari file berformat .txt.

5. Daftar kata pada kamus data harus disesuaikan dengan kamus besar bahasa Indonesia edisi ke IV/Tim Penyusun Pusat Bahasa Departemen Pendidikan Nasional, Jakarta, 2008.

1.3

Tujuan Penelitian

1. Penelitian ini bertujuan untuk mengimplementasikan algoritma edit distance untuk pemeriksaan kata yang dapat memeriksa setiap kata yang ditulis dalam bahasa Indonesia serta mampu memberikan pilihan kandidat kata yang tepat untuk kata yang salah ketik dan pengguna dapat langsung mengganti kata yang salah tersebut dengan pilihan kata yang tepat dan sesuai.

(4)

2. Mengukur akurasi dari algoritma edit distance dalam memberikan saran berupa kandidat kata yang memiliki tingkat kemiripan yang baik.

1.4

Metode Penyelesaian Masalah

Metodologi yang digunakan dalam melakukan penelitian pada tugas akhir ini adalah: 1. Studi Literatur

Mencari referensi mengenai implementasi teknik directed acyclic word graph (DAWG) untuk membentuk kamus data elektronis, teknik string matching, teknik parsing dan teknik pemeriksaan ejaan kata. Kemudian mempelajari dan memahami tentang sistem informasi retrieval, algoritma edit distance melalui berbagai macam media, antara lain melalui internet, jurnal-jurnal dan buku yang berhubungan dengan text processing.

2. Analisis Perancangan Sistem

Pada tahap ini dilakukan perancangan sistem dari studi literatur dan data penunjang, serta analisis terhadap rancangan yang dikembangkan.

3. Implementasi Sistem

Pada tahap ini dilakukan implementasi sistem dari rancangan yang dikembangkan. Sistem direalisasikan menggunakan program aplikasi berbasis Visual C#.Net. 2008

4. Uji coba produk dan evaluasi.

Melakukan uji coba program yang telah dibuat. Kemudian melakukan evaluasi terhadap kekurangan program dan memperbaikinya.

5. Pengambilan kesimpulan dan penyusanan laporan tugas akhir

Pada tahap ini dilakukan pengambilan kesimpulan dari hasil analisis yang telah dilakukan pada tahap sebelumnya untuk kemudian disusun laporan terhadap analisis yang telah dilakukan.

Powered by TCPDF (www.tcpdf.org)

(5)

5.

Kesimpulan dan Saran

5.1

Kesimpulan

Dari hasil penelitian yang dilakukan pada sistem pemeriksaan ejaan kata menggunakan metode edit distance dapat diambil kesimpulan sebagai berikut:

1. Sistem pemberian kandidat kata dengan menggunakan edit distance cukup baik karena mampu memberikan nilai akurasi sampai 75,4%.

2. Cost dari kata yang mengalami kesalahan mempengaruhi algoritma edit distance dalam memberikan jumlah kandidat kata.

5.2.

Saran

Saran-saran yang dapat diambil berdasarkan hasil penelitian yang dapat digunakan untuk penelitian selanjutnya antara lain:

1. Untuk penelitian selanjutnya, Kompleksitas algoritma ini dapat diperkecil menjadi O(m) dengan cara hanya menyimpan baris saat ini dan baris sebelumnya.

2. Untuk penelitian selanjutnya, Dapat dieksekusi secara paralel untuk mempercepat waktu pemrosesan.

Powered by TCPDF (www.tcpdf.org)

(6)

DAFTAR PUSTAKA

[1] Alexandr Andoni and Krzysztof Onak. Approximating edit distance in near-linear time. In

Proceedings of the Symposium on Theory of Computing (STOC), pages 199–204, 2009.

[2] Beeza-yates R. and Navarro G. 1998. Fast approximate string matching in a dictionary. string

processing and information retrieval. Santa Crus de la sierra de la Sierra, Bolivia,pp,14-22

[3] Demerau, Fred J, A technique for computer detection and correction of spelling errors,

communications of the A.C.M.,vol.7,pp171-176,MArch 1964.

[4] D. Grinberg, J. Lafferty and D. D. K. Sleator. A Robust Parsing Algorithm for link grammar.

Technical Report CMU-CS-95-125, School of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburg, 1995

[5] Kamus besar bahasa indonesia.(http://www.pusatbahasa.diknas.go.id/kbbi/

[6] Lazarov M, 2006, finite state Methods for spelling correction, seminar fur

sprachwissenschaft,Eberhard-Karls-Universitat Tubingen.

[7] Lowrance, R. 1975. “An extension of the string-to-string correction problem” J. ACM 22,

178-183

[8] M. Bal´ık. Implementation of DAWG. In Proc. The Prague Stringology Club Workshop ’98

(PSCW’98), pages 26–35. Czech Technical University, 1998.

[9] Munawar,2005. Pemodelan visual dengan UML.Graha ilmu ,Jakarta

[10] Pusatbahasa.kemdiknas.go.id,2008.Pedoman umum ejaan bahasa indonesia yang

disempurnakan. Yrama Widya bandung.

[11] R. S. Boyer and J. S. Moore, A fast string searching algorithm

[12] Spelling checker and spelling suggestion (http://en.wikipedia.org/wiki/spelling_checker

[13] Spellchecking by computer (http://www.spellingsociety.org/journals/

[14] Tim divisi penelitian dan pengembangan MADCOM,2005. pemrograman visual basic 6.0,

Andi,yogyakarta.

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

paper ini meneliti dampak penyelidikan tanah terbatas terhadap estimasi Bearing Stratum pada pondasi tiang pancang, merumuskan cara memetakan Bearing Stratum dengan

Udara panas berat jenisnya lebih ringan daripada udara biasa dan akan mendesak  ke atas, udara panas ini dimanfaatkan dengan cara ditampung (bahan balon tersebut)

Secara umum jika dilihat dari karakteristik tingkat maturitas penyelenggaraan SPIP (Tabel1), pada tingkat level ini berarti pemerintah kota Pekanbaru telah

Untuk kasus perjudian yang dilakukan oleh tersangka Indra Linda, Dewi Martini, Yanti, Ijun, Novi Zelvita, Sandra Permata dan Norma berdasarkan Laporan Polisi Nomor:

Lada (Piper nigrum L.) ligan atau interaksi reseptor dan protein dengan mengidentifikasi situs aktif yang cocok pada protein untuk mendapatkan ligan yang lebih

merupakan implementasi dari halaman dashboard warga dalam home yang dapat dilihat dengan login terlebih dahulu yang tersedia di header maka akan muncul

Kesimpulan dari penelitian ini adalah terdapat pengaruh yang signifikan antara motivasi, kepemimpinan, dan lingkungan kerja terhadap kinerja karyawan bagian operasional BOSHE

Tanah bengkok yang merupakan tanah adat yang telah di koversi menjadi hak pakai diatur dalam Pasal VI UUPA ketentuan Konversi, Tanah bengok yang merupakan bagian dari