PENCARIAN KATA DAN SINONIM KATA DALAM DOKUMEN
DENGAN MENGGUNAKAN ALGORITMA TWO SLIDING WINDOWS
SKRIPSI
FRANS OCTAVIANUS
091402089
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PENCARIAN KATA DAN SINONIM KATA DALAM DOKUMEN
DENGAN MENGGUNAKAN ALGORITMA
TWO SLIDING WINDOWS
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
FRANS OCTAVIANUS
091402089
PROGRAM STUDI TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
PERSETUJUAN
Judul : PENCARIAN KATA DAN SINONIM KATA
DALAM DOKUMEN DENGAN MENGGUNAKAN
ALGORITMA TWO SLIDING WINDOWS
Kategori : SKRIPSI
Nama : FRANS OCTAVIANUS
Nomor Induk Mahasiswa : 091402089
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
Program Studi Teknologi Informasi
Ketua,
Muhammad Anggia Muchtar, ST.,MM.IT
PERNYATAAN
PENCARIAN KATA DAN SINONIM KATA DALAM DOKUMEN DENGAN
MENGGUNAKAN ALGORITMA TWO SLIDING WINDOWS
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, 22 Oktober 2015
FRANS OCTAVIANUS
PENGHARGAAN
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa dan Maha Penyayang, dengan segala rahmat dan karuniaNya penulisan tugas akhir ini berhasil diselesaikan dalam waktu yang telah ditetapkan. Selama penyelesaian tugas akhir ini, banyak bantuan dan kerja sama serta doa dan dukungan dari berbagai pihak, oleh karena itu penulis sampaikan ucapan terima kasih sedalam - dalamnya dan penghargaan kepada :
1. Kedua orang tua dan sanak saudara penulis yang telah memberikan dukungan dan motivasi baik materil dan spiritual selama penulis mengikuti pendidikan hingga selesainya tugas akhir ini.
2. Ibu Dr. Erna Budhiarti Nababan, M.IT dan Bapak Dedy Arisandi, S.T., M.Kom selaku pembimbing yang telah banyak meluangkan waktu dan pikiran beliau, memotivasi, memberikan arahan, kritik dan saran kepada penulis.
3. Bapak Romi Fadillah Rahmat, B.Comp.Sc, M.Sc dan Ibu Amalia, ST.,M.T yang telah bersedia menjadi dosen pembanding yang telah memberikan kritik dan saran kepada penulis.
4. Ketua dan Sekretaris Program Studi Teknologi Informasi, Bapak M. Anggia Muchtar, ST.,MM.IT dan Bapak M. Fadly Syahputra, B.Sc.,M.Sc.IT. Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, semua dosen di Fakultas Ilmu Komputer dan Teknologi Informasi.
5. Kepada Bang Manap, Kakak Umi, dan Ibu Mega dan semua staff dan pegawai di Fakultas Ilmu Komputer dan Teknologi Informasi yang tidak dapat saya sebutkan satu-persatu.
6. Kepada sahabat seperjuangan dan rekan – rekan mahasiswa Program Studi Teknologi Informasi USU yang telah memberikan dukungan dan semangat untuk saya.
i
ABSTRAK
Saat ini informasi mudah didapatkan terutama informasi yang tersimpan di dalam
dokumen. Di dalam dokumen terutama artikel sering dijumpai kata-kata yang masih
jarang digunakan seperti beranda, telaga, bilik, misai, dan jeram. Kata-kata tersebut
mengandung persamaan kata dengan kata-kata umum yang sudah sering digunakan
dalam pembicaraan sehari-hari. Akan tetapi, kata kunci pencarian yang umumnya dicari
oleh user, dominan berupa kata-kata umum yang sering dijumpai. Oleh karena itu,
diperlukan suatu metode untuk mempermudah pengguna dalam mencari informasi yang
berhubungan dengan kata dan sinonim kata pada dokumen. Peneliti menggunakan
metode stemming yaitu Porter Stemming yang digunakan untuk mengolah kata-kata berimbuhan menjadi kata dasar. Selanjutnya diproses lebih lanjut untuk dicari
kecocokan persamaan makna kata yang sesuai. Kata dan sinonim kata yang telah
diproses akan dicari menggunakan algoritma Two Sliding Windows sebagai metode pencarian teks pada dokumen. Pencarian menjadi lebih cepat karena TSW melakukan
pengecekan dengan menggunakan dua sisi (windows) yaitu sisi kiri dan kanan secara paralel. Hasil pengujian menunjukkan metode yang dipakai bisa menyelesaikan
permasalahan mencari sinonim kata baik kata dasar maupun kata majemuk. Tingkat
keakuratan tidak mencapai 100% karena adanya perbedaan kata imbuhan baik serapan
maupun sisipan yang menimbulkan makna berbeda.
ii
Words and Synonym Searching in Documents using Two Sliding Windows Algorithm
ABSTRACT
Nowadays information is obtained easily, especially information stored in the document. In the document, especially the article often found words that are rarely used such as porches, pond, walk, whiskers, and rafting. These words contain a synonym with common words that have been frequently used in everyday conversation. However, the search keywords are generally searched by the user, the form of common words that are often encountered. Therefore, a method is needed in order to facilitate the user while searching the information in the document. the application uses stemming method namely Porter Stemming used to process from much affix words into root words. Then processed further to look for the meaning of the equation match several appropriate word. Word and synonym that has been processed will be searched by Two Sliding Windows algorithm as a method of text searching in the document. Search becomes faster because TSW check by using double-sided (windows) that the left and right being searched in parallel. The test results showed that the method can be used to solve the problems of searching for a synonym both basic words and compound words. The accuracy does not reach 100% because of different affixes; “serapan” as well as “sisipan” which giving several different meanings.
iii
1.6 Metodologi Penelitian 3
1.7 Sistematika Penulisan 3
BAB 2 LANDASAN TEORI 6
2.1 Sinonim Kata 6
2.2 Stemming 8
2.3 Stopword 13
2.4 Pattern Matching 14
2.5 Penelitian Terdahulu 16
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 17
3.1 Data Yang Digunakan 17
3.2 Arsitektur Umum 17
3.3 Analisis Data 18
3.4 Rancangan Antar Muka 33
BAB 4 IMPLEMENTASI DAN PENGUJIAN 37
4.1 Implementasi Sistem 37
4.2 Tahapan Operasi Aplikasi 40
iv
BAB 5 KESIMPULAN DAN SARAN 49
5.1 Kesimpulan 49
5.2 Saran 50
v
DAFTAR TABEL
Hal.
Tabel 2.1Aturan untuk Infection Particle 11
Tabel 2.2 Aturanuntuk Possesive Pronoun 12
Tabel 2.3 Aturan untuk First Order Derivational Prefix 12 Tabel 2.4 Aturan untuk Second Order Derivational Prefix 13
Tabel 2.5 Aturan untuk Derivation Suffix 13
Tabel 2.6 Penelitian Terdahulu 18
Tabel 4.1 Pengujian terhadap variasi jumlah kata pada kalimat baku 44
Tabel 4.2 Hasil pencocokan dengan kata kunci 45
“pelaku,pasar,jibaku,reda,polemic,krisis,ekonomi”
Tabel 4.3 Hasil pencocokan dengan sinonim kata kunci 47
vi
DAFTAR GAMBAR
Hal.
Gambar 2.1 Desain Porter Stemmer 10
Gambar 2.2 Bad character shift a dan b (nextl) 15
Gambar 2.3 Bad character shift a dan b (nextr) 15
Gambar 3.1 Arsitektur Umum Sistem 18
Gambar 3.2 Proses Stopwords 19
Gambar 3.3 Algoritma Porter dalam proses stemming 21
Gambar 3.4 Proses Pencarian Teks 24
Gambar 3.5 Ilustrasi posisi penentuan letak pada bagian kiri teks 25
Gambar 3.6 Aturan Operasi Hitung Nilai shift kiri 26
Gambar 3.7 Ilustrasi posisi penentuan letak pada bagian kanan teks 27
Gambar 3.8 Aturan Operasi Hitung Nilai shift kanan 28
Gambar 3.9 Pre-processing bad character shift algoritma Berry-Ravindran 29
Gambar 3.10 Algoritma Two Sliding Windows (TSW) 33
Gambar 3.11 Perancangan Sistem 34
Gambar 4.1 Tampilan halaman input 38
Gambar 4.2 Tampilan database file 39
Gambar 4.3 Tampilan halaman kamus kata 39
Gambar 4.4 Tampilan saat menuliskan kata-kata pada textbox 40 Gambar 4.5 Tampilan hasil pencarian sinonim kata pada dokumen 41
Gambar 4.6 Tampilan saat memilih berkas 42
Gambar 4.7 Tampilan hasil penyimpanan berkas 43
Gambar 4.8 Tampilan saat menambah kata dan sinonim kata 43