Pencarian Kata dan Sinonim Kata Dalam Dokumen Dengan Menggunakan Algoritma Two Sliding Windows

(1)

BAB 1

PENDAHULUAN

1.1.Latar Belakang

Saat ini informasi sangat mudah didapatkan terutama melalui media internet. Dengan banyaknya informasi yang terkumpul atau tersimpan dalam jumlah yang banyak, user akan kesulitan mendapatkan informasi berbentuk dokumen yang diinginkan.

Semakin bertambahnya dokumen, penggunaan sistem pencarian pola teks ataupun informasi yang terdapat di dalamnya menjadi penting. Dengan adanya sistem pencarian teks banyak menghemat waktu pengerjaan untuk menemukan informasi yang terdapat dalam dokumen.

Sistem tersebut menerima kata kunci (keyword) yang ditulis oleh user dan melakukan pencocokan dengan database. Selama ada penyimpanan dan pencarian kembali dokumen, sistem dapat bekerja dengan baik.

Tiap dokumen teks bisa diolah untuk menemukan informasi baru. Di dalam dokumen tersebut terkadang terdapat kata penghubung yang saling berhubungan dan menimbulkan makna yang berbeda, sedangkan dalam bahasa seringkali terdapat sinonim kata yang sama maknanya dengan kata kunci pencarian.

(2)

(term) dan menghitung cosine similaritas untuk menghitung kesamaan kata dalam dokumen. (Februariyanti, et al. 2010). Hasil uji menunjukan bahwa algoritma dapat digunakan untuk menghitung tingkat similaritas (kesamaan) dokumen berdasarkan kata kunci yang diinputkan oleh pengguna tetapi tidak berdasarkan persamaan makna kata yang sering muncul di dalam dokumen .

Bari, et al (2010) menerapkan pencarian kata dengan vector space model untuk melakukan perhitungan kemiripan data berdasarkan kata yang diinput. Kemiripan data dipertimbangkan berdasarkan tingkat kemunculan data tersebut.

Oleh karena itu, apabila dihadapkan dengan jumlah dokumen yang banyak dan kemunculan kata baku yang masih jarang dijumpai, diperlukan adanya suatu metode untuk menyelesaikan permasalahan tersebut. Metode yang diajukan didalam penelitian ini adalah metode stemming yang merupakan salah satu teknik text mining untuk mendapatkan kata dasar dan diakhiri dengan eliminasi kata-kata umun yang muncul dalam jumlah besar dan dianggap tidak memiliki makna (stopword).

Dalam implementasinya, metode ini akan menggunakan algoritma pattern matching

sebagai algoritma pencarian kata dalam dokumen. Salah satu metode yang digunakan dalam pencocokan pola (pattern matching) yaitu algoritma two sliding windows (TSW) yang mempunyai keunggulan dalam fase pencarian (searching phase).

Berdasarkan penelitian yang dilakukan oleh Hudaib et al, algoritma TSW mempunyai performasi yang lebih unggul khususnya jika pola tersebut berada diakhir teks. Hasil pengujian menunjukkan percobaan dan perbandingan dengan algoritma lainnya seperti algoritma Knuth-Morris-Pratt dan Boyer-Moore lebih cepat dan membutuhkan usaha yang lebih sedikit. Pada mulanya, algoritma ini memulai pre-processing phase untuk membagi string menjadi dua bagian (two windows) sebanyak n/2 ukuran string. Kemudian, dilakukan scanning pada fase pencarian dari kiri dan kanan secara paralel dan bersamaan( Hudaib et al, 2008 ).

(3)

1.2.Rumusan Masalah

Terdapat kesulitan dalam memahami kata dalam bahasa Indonesia yang jarang digunakan dalam pembicaraan sehari-hari misalnya kata baku yang terdapat di dalam artikel atau jurnal. Oleh karena itu, dibutuhkan suatu pendekatan untuk mengatasi permasalahan persamaan kata dalam dokumen.

1.3.Tujuan Penelitian

Penelitian ini bertujuan untuk mencari makna kata dan sinonim kata dalam dokumen dengan menggunakan algoritma two sliding windows.

1.4.Batasan Masalah

Agar penelitian dapat berjalan dengan baik dan terarah, maka penelitian ini akan menggunakan batasan sebagai berikut:

1. Dokumen yang diproses berupa artikel atau jurnal ilmiah. 2. Pencarian kata menggunakan bahasa Indonesia.

3. Sinonim kata yang dipakai hanya dibatasi pada kata benda dan kata kerja. 4. Referensi kata dasar dari KBBI ( Kamus Besar Bahasa Indonesia ). 5. Referensi sinonim kata dari thesaurus Indonesia.

1.5.Manfaat Penelitian

Hasil dari penelitian ini diharapkan dapat memberikan manfaat, yaitu :

1. Menambah referensi penelitian mengenai berbagai sistem yang menyangkut pencarian kata atau informasi.

2. Memberikan pendekatan hasil yang lebih optimal dengan penerapan algoritma two sliding windows.

3. Menambah pengetahuan mengenai penggunaan algoritma TSW yang lebih cepat dalam menghadapi jumlah data yang kompleks.

(4)

1.6.Metodologi Penelitian

Penelitian akan dilakukan dengan tahapan-tahapan metodologi penelitian sebagai berikut :

1. Studi Literatur

Pada tahap ini dilakukan studi kepustakaan dengan melakukan pengumpulan referensi melalui berbagai macam buku, jurnal, artikel, dan sumber referensi lainnya yang berkaitan dengan penelitian ini.

2. Pengumpulan Data

Pada tahap ini dilakukan pengumpulan data dan informasi berupa kamus data dan sejumlah jurnal ilmiah yang akan diperlukan dalam penelitian ini.

3. Analisis dan Perancangan

Pada tahap ini dilakukan analisis terhadap studi literatur untuk mendapatkan pendekatan kata dalam dokumen. Setelah itu, dilakukan perancangan arsitektur sistem yang akan dibangun berdasarkan analisis yang telah dibuat sebelumnya. 4. Implementasi

Pata tahap ini, perancangan sistem yang telah dibuat akan diimplementasikan ke dalam suatu aplikasi yang dibuat dengan menggunakan bahasa pemrograman PHP dan database MySQL.

5. Pengujian

Pada tahap ini dilakukan pengujian aplikasi yang telah dibuat untuk mengetahui apakah aplikasi tersebut sudah berjalan dengan benar dan sesuai dengan perancangan yang telah dilakukan sebelumnya.

6. Penyusunan Laporan

Pada tahap ini diakukan penyusunan dokumentasi dari hasil analisis dan implementasi dari aplikasi yang telah dibuat.

1.7.Sistematika Penulisan

(5)

Bab 1: Pendahuluan

Bab ini akan menjelaskan tentang latar belakang penelitian, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi tentang teori dan penelitian terdahulu yang digunakan untuk menyelesaikan permasalahan yang akan dibahas dalam penelitian ini.

Bab 3: Analisa dan Perancangan Sistem

Pada bab ini penulis menjelaskan arsitektur sistem yang akan dibangun dan pemrosesan stemming dengan menggunakan algoritma Porter serta pencarian teks dibantu dengan algoritma two sliding windows.

Bab 4: Implementasi dan Pengujian Sistem

Pada bab ini dibahas implementasi dari metode yang digunakan serta pengujian hasil penelitian dengan kriteria yang telah ditentukan.

Bab 5: Kesimpulan dan Saran