RANCANG BANGUN APLIKASI PENCARIAN BERKAS MENGGUNAKAN ALGORITMA WORD2VEC
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.)
Steven Sutirta 14110110014
PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG 2020
LEMBAR PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya,
Nama : Steven Sutirta
NIM : 14110110014
Program Studi : Informatika
Menyatakan bahwa k i i a g be j d l Rancang Bangun Aplikasi Pencarian Berkas Menggunakan Algoritma Word2Vec ini adalah karya tulis saya sendiri dan tidak melakukan plagiat. Semua kutipan karya ilmiah orang lain atau lembaga lain yang dirujuk dalam laporan kerja magang ini telah saya sebutkan sumber kutipannya serta saya cantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan/penyimpangan, baik dalam pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang telah saya tempuh.
Tangerang, 15 Juni 2020
Steven Sutirta
iv
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda tangan di bawah ini:
Nama : Steven Sutirta
NIM : 14110110014
Program Studi : Informatika
Fakultas : Teknik dan Informatika Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyutujui dan memberikan izin kepada Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Nonexclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul: Rancang Bangun Aplikasi Pencarian Berkas Menggunakan Algoritma Word2Vec beserta perangkat yang diperlukan.
Dengan Hak Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan data (database), merawat, dan mendistribusi dan menampilkan atau mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan akademis, tanpa perlu meminta izin dari saya maupun memberikan royalty kepada saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan sebagaimana mestinya.
Tangerang, 15 Juni 2020
Steven Sutirta
KATA PENGANTAR
Puji dan syukur kepada Tuhan Yang Maha Esa atas berkat dan karunia-Nya dalam memberikan ilmu pengetahuan dan kemudahan sehingga penulis dapat menyelesaikan skripsi yang berj d l Rancang Bangun Aplikasi Pencarian Berkas Me gg aka Alg i a W d2Vec yang diajukan kepada Program Studi Informatika, Fakultas Teknik dan Informatika, Universitas Multimedia Nusantara.
Penyusunan dan penulisan skripsi selesai tepat pada waktunya, tidak terlepas dari bantuan berbagai pihak, sehingga melalui kesempatan ini penulis ingin mengucapkan terima kasih kepada:
1. Orang tua dan keluarga, yang tanpa henti memberikan dukungan dalam menyelesaikan laporan ini,
2. Dr. Ninok Leksono, Rektor Universitas Multimedia Nusantara, yang memberi inspirasi dan semangat bagi penulis untuk terus maju,
3. Friska Natalia, Ph.D., Dekan Fakultas Teknik dan Informatika Universitas Multimedia Nusantara,
4. Nunik Afriliana, S.Kom., MMSI, Ketua Program Studi Informatika Universitas Multimedia Nusantara,
5. Alexander Waworuntu S.Kom., M.T.I., selaku dosen pembimbing yang telah memberikan pengarahan dan bimbingan dalam pembuatan skripsi, 6. Rakadetyo Alif S.Kom., yang telah membantu penulis dalam tahap
pemrograman aplikasi,
7. Vanya Theresa Givianty S.T., B.Eng., yang telah memberikan dukungan positif terhadap penulis untuk terus semangat dalam mengerjakan penelitian,
vi 8. Frangky S.Kom., dan Kevin Kelly Isyanta S.Kom., yang telah membantu
penulis dalam formatting penulisan laporan skripsi,
9. Seluruh anggota grup Discord Rencang, yang telah memberikan dukungan serta menemani penulis di saat mengerjakan penelitian,
10. Pihak-pihak lain yang turut membantu penulis menyelesaikan laporan skripsi ini yang tidak dapat disebutkan satu per satu.
Semoga skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun sumber inspirasi, bagi para pembaca.
Tangerang, 15 Juni 2020
Steven Sutirta
RANCANG BANGUN APLIKASI PENCARIAN BERKAS MENGGUNAKAN ALGORITMA WORD2VEC
ABSTRAK
Rata-rata manusia menghabiskan 16 menit setiap harinya untuk mencari barang yang salah ditaruh, yang dapat diartikan hampir setahun dari seluruh hidup manusia. Dengan adanya perkembangan zaman, tidak hanya barang yang berbentuk fisik yang dapat salah ditaruh, berkas digital juga sering disimpan di tempat yang salah. Tetapi tidak hanya salah penempatan, berkas digital juga dapat hilang jika ada salah penamaan pada berkas atau typo. Oleh karena itu dibuatlah aplikasi pencarian berkas berbasis Word2Vec yang dapat membantu untuk mencari keyword yang memiliki arti yang mirip dengan input dan proses pengkoreksi ejaan diproses dengan Damerau-Levenshtein Distance. Aplikasi berhasil dibuat menggunakan library dan pre-trained model fastText juga menggunakan bahasa pemrograman Python dengan TkInter sebagai Graphical User Interface (GUI) untuk memudahkan pengguna dalam menggunakan aplikasi. Evaluasi pencarian dilakukan dengan cara membandingkan nearest neighbour dari keyword dengan sinonim dari keyword berdasarkan situs http://thesaurus.com/ menghasilkan tingkat akurasi sebesar 35.26% dari 100 kali percobaan, sedangkan evaluasi proses spell checking dilakukan dengan cara memasukkan input dengan minor typo menghasilkan tingkat akurasi sebesar 47% dari 100 kali percobaan.
Kata Kunci: Word2Vec, Damerau-Levenshtein Distance, fastText.
viii
RANCANG BANGUN APLIKASI PENCARIAN BERKAS MENGGUNAKAN ALGORITMA WORD2VEC
ABSTRACT
The average human spends 16 minutes every day looking for things that are misplaced, which can be interpreted for almost a year of all human life. As the time goes, not only physical items can be misplaced, digital files are often stored in the wrong place. But not only is it misplaced, digital files can also be lost if there is a naming error in the file or can be said to be typo. Therefore a Word2Vec-based file searching application was created to help search file with keyword that have similar to the input and Damerau-Levenshtein Distance used to do the spell correction. The application was successfully created using fastText library and pre-trained model also uses Python programming language with TkInter as Graphical User Interface (GUI) to facilitate users in using the application. Evaluation of file searching is done by comparing the nearest neighbour of keyword with synonyms of keyword based on the website http://thesaurus.com/ resulting in an accuracy rate of 35.26%
from 100 sample, while the spell checking process evaluated by inputting input with minor typo resulting accuracy level of 47% out of 100 sample.
Keyword: Word2Vec, Damerau-Levenshtein Distance, fastText.
DAFTAR ISI
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN TIDAK MELAKUKAN PLAGIAT ... iii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI... iv
KATA PENGANTAR ... v
ABSTRAK ... vii
ABSTRACT ... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
DAFTAR RUMUS ... xiii
DAFTAR LAMPIRAN ... xiv
BAB I ... 1
1.1 Latar Belakang Masalah... 1
1.2 Rumusan Masalah ... 2
1.3 Batasan Masalah ... 3
1.4 Tujuan Penelitian ... 3
1.5 Manfaat Penelitian ... 4
1.6 Sistematika Penulisan ... 4
BAB II ... 6
2.1 Semantic Similarity ... 6
2.2 Natural Language Processing... 6
2.3 Word2Vec ... 6
2.4 Damerau-Levenshtein Distance ... 8
2.5 fastText ... 9
BAB III ... 10
3.1 Metodologi Penelitian ... 10
3.2 Perancangan Aplikasi ... 12
3.2.1 Flowchart ... 12
3.2.3 Perancangan Antarmuka ... 18
BAB IV ... 22
4.1 Spesifikasi Sistem ... 22
4.2 Implementasi Algoritma ... 23
4.3 Tampilan Antarmuka Aplikasi... 26
4.3 Evaluasi Pencarian ... 27
4.4 Evaluasi Spell Correction ... 30
x
BAB V ... 35
5.1 Simpulan ... 35
5.2 Saran ... 35
DAFTAR PUSTAKA ... 36
RIWAYAT HIDUP ... 39
DAFTAR GAMBAR
Gambar 2.1 Proses CBOW dan Skrip-Gram (Ling, 2015) ... 7
Gambar 2.2 Kondisi proses substitution (Zhao dan Sahni, 2017)... 8
Gambar 2.3 Kondisi proses insertion (Zhao dan Sahni, 2017) ... 8
Gambar 2.4 Kondisi proses deletion (Zhao dan Sahni, 2017) ... 8
Gambar 2.5 Kondisi proses transposition (Zhao dan Sahni, 2017) ... 9
Gambar 3.1 Flowchart Aplikasi ... 13
Gambar 3.2 Flowchart tombol browse ... 15
Gambar 3.3 Flowchart Pencarian Berkas ... 16
Gambar 3.4 Flowchart Spelling Correction ... 17
Gambar 3.5 Rancangan Antarmuka Halaman Utama ... 19
Gambar 3.6 Rancangan Antarmuka Browse Folder ... 20
Gambar 3.7 Rancangan Antarmuka Hasil Pencarian ... 21
Gambar 4.1 Memuat model fastText berbahasa Inggris ... 23
Gambar 4.2 Implementasi pencarian berkas menggunakan fastText... 23
Gambar 4.3 Implementasi proses spell check ... 25
Gambar 4.4 Tampilan Antarmuka Halaman Utama ... 26
Gambar 4.5 Tampilan Antarmuka Halaman Hasil Pencarian ... 26
xii
DAFTAR TABEL
Tabel 3.1 Rencana tahap penelitian ... 10 Table 4.1 Hasil Evaluasi Pencarian menggunakan model fastText ... 27 Table 4.2 Hasil Evaluasi Spell Checking menggunakan model fastText ... 31
DAFTAR RUMUS
Rumus 2.1 Rumus Cosine Similarity ... 8 Rumus 2.2 Rumus Pearson Correlation ...
xiv
DAFTAR LAMPIRAN
Riwayat Hidup ... 40 Form Bimbingan Skripsi ... 42