DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU
KEMBALI INFORMASI
SKRIPSI
ATIKA ZAFIKRI
041401058
PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Komputer
ATIKA ZAFIKRI 041401058
PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2008
PERSETUJUAN
Judul : IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Kategori : SKRIPSI
Nama : ATIKA ZAFIKRI Nomor Induk Mahasiswa : 041401058
Program Studi : SARJANA (S1) ILMU KOMPUTER Departemen : ILMU KOMPUTER
Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA
Diluluskan di
Medan, 10 Desember 2008 Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Rahmat W. Sembiring, SE, M.Sc, IT Prof. Dr. Muhammad Zarlis NIP. 131 997 892 NIP. 131 570 434
Diketahui/Disetujui oleh
Program Studi S1 Ilmu Komputer Ketua,
Prof. Dr. Muhammad Zarlis NIP 131 570 434
iii PERNYATAAN
IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, 10 Desember 2008
Atika Zafikri 041401058
PENGHARGAAN
Puji dan syukur penulis panjatkan kepada Allah SWT, dengan limpahan karunia-Nya kertas kajian ini berhasil diselesaikan dalam waktu yang telah ditetapkan.
Ucapan terima kasih penulis sampaikan kepada :
1. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Ilmu Komputer sekaligus pembimbing pada penyelesaian skripsi ini, serta Bapak Rahmat W. Sembiring, SE, M.Sc, IT yang telah memberikan panduan dan penuh kepercayaan kepada penulis untuk menyempurnakan kajian ini. Panduan ringkas, padat dan profesional telah diberikan kepada penulis agar penulis dapat menyelesaikan skripsi ini.
2. Ibu Maya Silvi Lydia, B.Sc, M.Sc selaku pembimbing akademik yang telah memberikan arahan dalam perkuliahan pada penulis sejak penulis berada di Program Studi S-1 Ilmu Komputer Universitas Sumatera Utara hingga menyelesaikan ujian sarjana lengkap.
3. Bapak Syariol Sitorus, S.Si, MIT selaku Sekretaris Program Studi Ilmu Komputer sekaligus pembanding skripsi serta Bapak Syahril Efendi, S.Si, MIT. Kemudian pada Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, semua dosen pada Program Studi Ilmu Komputer FMIPA USU, pegawai di FMIPA USU.
4. Ayah dan Mama tercinta atas teladan, kasih sayang, doa, dukungan materil dan semangat yang telah diberikan kepada penulis selama ini. Semoga segala kebaikan ini juga dibalas dengan kebaikan disisi-Nya. Untuk abang-abang, dan adik-adik tercinta atas segala suka, duka, tangis dan canda kita bersama.
5. Mas Nanda Rishianto dan uni Indri Rahmayuni S.T terima kasih atas kelapangan waktu yang diberikan kepada penulis untuk berbagi ilmu.
6. Teman-teman terbaik, Heru Pratama A.Md atas motivasi, kebaikan dan perhatiannya. Nisa Awesome, Leni SY, Dian MS, Farida Y, Dewi TA, Yunita S, Sri F dan Dewi Y serta rekan-rekan kuliah angkatan 04 yang telah banyak memberikan bantuan kepada penulis.
7. Kak Dina, Kak Silmi, Kak Ria, Kak Jimi, Lili, Wina, Ivana, Lia, Saras dan sahabat-sahabat lainnya di Asrama Puteri.
v ABSTRAK
Penulisan tugas akhir ini bertujuan untuk memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak untuk mengimplementasikannya pada sistem temu kembali informasi. Perangkat lunak ini dapat memudahkan pengguna mendapatkan dokumen relevan berdasarkan query yang dimasukkan, serta telah teranking berdasarkan tingkat relevansinya. Sistem ini dibangun menggunakan perangkat lunak Borland Delphi 7.0. Metodologi untuk membentuk sistem menggunakan pendekatan model air terjun. Tahapan yang penulis lakukan untuk melakukan proses pembentukan sistem tersebut meliputi tahapan analisis permasalahan, perancangan aplikasi yang melibatkan diagram alir data, algoritma dan flowchart beserta desain antar muka aplikasi, sehingga aplikasi yang terbentuk menjadi mudah dipergunakan dan memiliki fungsi yang optimal. Untuk memastikan bahwa seluruh fungsi yang terdapat di dalam sistem temu kembali informasi bekerja secara optimal, maka sistem aplikasi tersebut diuji dan dibentuk kesimpulan akhir.
IMPLEMENTATION OF TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) METHOD IN INFORMATION RETRIEVAL
SYSTEM
ABSTRACT
This writing final duty aim to comprehend a Term Frequency Inverse Document Frequency (TF-IDF) document weighting method and to develop an software to implement it. This software could facilitate user to get the relevant documents based on the entered query, and the documents have ranked based on the relevancy level. The system is built by using Borland Delphi 7.0 software. The methodologies to form the system is use the approach of waterfall model. The step which writer do to conduct the application forming process are covering the step analysis the problems, application scheme entangling data flow diagram, algorithm and flowchart therewith the user interface design, so that application formed become easy to use and own the optimal function. To ensure that the entire function which is there are in the information retrieval system work in an optimal, so the application system tested and formed final conclusion.
vii DAFTAR ISI Halaman Persetujuan ii Pernyataan iii Penghargaan iv Abstrak v Abstract vi
Daftar Isi vii
Daftar Tabel ix Daftar Gambar x Bab 1 Pendahuluan 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 3 1.3. Batasan Masalah 3 1.4. Tujuan Penelitian 4 1.5. Manfaat Penelitian 4 1.6. Metodologi Penelitian 4 1.7. Sistematika Penulisan 5
Bab 2 Landasan Teori 7
2.1. Sistem Temu Kembali Informasi 7
2.2. Model Ruang Vektor 14
2.2.1 Pengindeksan Dokumen 18 2.2.2 Pembobotan kata (term weighting) 27 2.2.3 Pemeringkatan (Perankingan) Dokumen 32 2.3. Evaluasi Sistem Temu Kembali Informasi 33
2.2.1 Kakas Evaluasi 33
2.2.2 Koleksi Pengujian 33 Bab 3 Analisis dan Perancangan Aplikasi 35 3.1. Analisis Masalah Umum 35 3.2. Spesifikasi Umum Kebutuhan Perangkat Lunak 35 3.2.1. Fungsi Perangkat Lunak 36 3.2.2. Tujuan Perangkat Lunak 36 3.2.3. Masukan dan Keluaran Perangkat Lunak 36 3.2.4. Batasan Perangkat Lunak 36 3.3. Model Fungsional Perangkat Lunak 37 3.3.1. Data Flow Diagram 37 3.3.1.1. Diagram Aliran Data Level 0 37 3.3.1.2. Diagram Aliran Data Level 1 38 3.3.2. Kamus Data DFD 39
3.4. Perancangan Perangkat Lunak 40 3.4.1. Perancangan Arsitektur 40 3.4.2. Perancangan Data 42 3.4.3. Perancangan Antarmuka Perangkat Lunak 43 3.4.4. Perancangan Prosedural 44 3.4.4.1. Perancangan Modul Perangkat Lunak 44 3.4.4.2. Algoritma dan Flowchart Proses Pengindeksan
Dokumen dan Query 48 3.4.4.2.1. Proses Parsing 49 3.4.4.2.2. Proses Penghapusan Stopwords 50 3.4.4.2.3. Proses Stemming 52 Bab 4 Implementasi dan Pengujian Sistem 68
4.1. Implementasi 68
4.1.1. Lingkungan Implementasi 68 4.1.1.1. Lingkungan Perangkat Keras 68 4.1.1.2. Lingkungan Perangkat Lunak 68 4.1.2. Batasan Implementasi 69 4.1.3. Implementasi Arsitektur 69 4.1.4. Implementasi Modul Perangkat Lunak 70 4.1.5. Implementasi Layar Antarmuka 71
4.2. Pengujian 75 4.2.1. Pengujian Pengindeksan 76 4.2.1.1. Kriteria Pengujian 76 4.2.1.2. Hasil Pengujian 76 4.2.2. Pengujian Perankingan 76 4.2.2.1. Kriteria Pengujian 76 4.2.2.2. Hasil Pengujian 76
Bab 5 KESIMPULAN DAN SARAN 80
5.1. Kesimpulan 80
5.2. Saran 80
Daftar Pustaka 82
Lampiran A Listing Program 83
ix DAFTAR TABEL
Halaman Tabel 2.1 Remove Plural Suffixation 23 Tabel 2.2 Remove Verbal Inflexion 23 Tabel 2.3 Continued for -ed and -ing Rules 24
Tabel 2.4 y and i 24
Tabel 2.5 Peel One Suffix Off for Multiple Suffixes 25
Tabel 2.6 Step 3 25
Tabel 2.7 Delete Last Suffix 26
Tabel 2.8 Remove e 26
Tabel 2.9 Reduction 26
Tabel 2.10 Perhitungan Pembobotan TF-IDF TermQuery dalam Setiap Dokumen 32 Tabel 2.11 Hasil Pembobotan dan Perankingan Dokumen terhadap Query 32
Tabel 3.1 Kamus Data DFD 40
Tabel 3.2 Struktur Data DFD 42 Tabel 4.1 Pemetaan Modul dalam Unit Implementasi 70 Tabel 4.2 Koleksi Data Uji 75 Tabel 4.3 Hasil Pengujian Temu Kembali Informasi pada Koleksi Data Uji 78
DAFTAR GAMBAR
Halaman Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi 7 Gambar 2.2 Outline Sistem Temu Kembali Informasi 9 Gambar 2.3 Bagian-bagian Sistem Temu Kembali Informasi 10 Gambar 2.4 Komponen Sistem Temu-Kembali Informasi 12 Gambar 2.5 Interaksi antara pengguna dengan sistem 13 Gambar 2.6 Representasi dokumen dan query pada ruang vektor 16 Gambat 2.7 Representasi matriks kata-dokumen 17 Gambar 2.8 Jenis-jenis Metode Stemming 21 Gambar 2.9 Flow Control Algoritma Porter 22 Gambar 2.10 Representasi Term Query pada Ruang Vektor 31 Gambar 2.11 lustrasi penggunaan koleksi pengujian 33
Gambar 3.1 Diagram Konteks 37
Gambar 3.2 Diagram Aliran Data Level 1 38 Gambar 3.3 Rancangan Antarmuka Utama Perangkat Lunak 43 Gambar 3.4 Rancangan Antarmuka Tampilan Dokumen dan Query 44 Gambar 3.5 Struktur Modul Perangkat Lunak 45 Gambar 3.6 Flowchart Prosedur Parsing 50 Gambar 3.7 Flowchart Prosedur Penghapusan Stopwords 52 Gambar 3.8 Flowchart Prosedur Stemming 54 Gambar 3.9 Flowchart Prosedur Remove Plural Suffixation 55 Gambar 3.10 Flowchart Prosedur Remove Verbal Inflection 56 Gambar 3.11 Flowchart Prosedur Continued for -ed and -ing rule 58 Gambar 3.12 Flowchart Prosedur y and i 59 Gambar 3.13 Flowchart Prosedur One Suffix Off for Multiple Suffixes 61 Gambar 3.14 Flowchart Prosedur Other Suffixes 63 Gambar 3.15 Flowchart Prosedur Delete Last Suffix 65 Gambar 3.16 Flowchart Prosedur Remove e 66 Gambar 3.17 Flowchart Prosedur Reduction 67 Gambar 4.1 Halaman Utama Perangkat Lunak 71 Gambar 4.2 Tampilan Proses Input Koleksi Dokumen 72 Gambar 4.3 Tampilan Proses Input Query 73 Gambar 4.4 Halaman Utama dengan Arsip Masukannya 73 Gambar 4.5 Halaman Tampilan Hasil Temu Kembali Informasi 74 Gambar 4.6 Perbandingan Hasil Output Perangkat Lunak trhdp Data Relevansi 77