• Tidak ada hasil yang ditemukan

IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI SKRIPSI ATIKA ZAFIKRI"

Copied!
11
0
0

Teks penuh

(1)

DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU

KEMBALI INFORMASI

SKRIPSI

ATIKA ZAFIKRI

041401058

PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

(2)

IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Komputer

ATIKA ZAFIKRI 041401058

PROGRAM STUDI S-1 ILMU KOMPUTER DEPARTEMEN S-1 ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN 2008

(3)

PERSETUJUAN

Judul : IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI Kategori : SKRIPSI

Nama : ATIKA ZAFIKRI Nomor Induk Mahasiswa : 041401058

Program Studi : SARJANA (S1) ILMU KOMPUTER Departemen : ILMU KOMPUTER

Fakultas : MATEMATIKA DAN ILMU PENGETAHUAN ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, 10 Desember 2008 Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Rahmat W. Sembiring, SE, M.Sc, IT Prof. Dr. Muhammad Zarlis NIP. 131 997 892 NIP. 131 570 434

Diketahui/Disetujui oleh

Program Studi S1 Ilmu Komputer Ketua,

Prof. Dr. Muhammad Zarlis NIP 131 570 434

(4)

iii PERNYATAAN

IMPLEMENTASI METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) PADA SISTEM TEMU KEMBALI INFORMASI

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, 10 Desember 2008

Atika Zafikri 041401058

(5)

PENGHARGAAN

Puji dan syukur penulis panjatkan kepada Allah SWT, dengan limpahan karunia-Nya kertas kajian ini berhasil diselesaikan dalam waktu yang telah ditetapkan.

Ucapan terima kasih penulis sampaikan kepada :

1. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Ilmu Komputer sekaligus pembimbing pada penyelesaian skripsi ini, serta Bapak Rahmat W. Sembiring, SE, M.Sc, IT yang telah memberikan panduan dan penuh kepercayaan kepada penulis untuk menyempurnakan kajian ini. Panduan ringkas, padat dan profesional telah diberikan kepada penulis agar penulis dapat menyelesaikan skripsi ini.

2. Ibu Maya Silvi Lydia, B.Sc, M.Sc selaku pembimbing akademik yang telah memberikan arahan dalam perkuliahan pada penulis sejak penulis berada di Program Studi S-1 Ilmu Komputer Universitas Sumatera Utara hingga menyelesaikan ujian sarjana lengkap.

3. Bapak Syariol Sitorus, S.Si, MIT selaku Sekretaris Program Studi Ilmu Komputer sekaligus pembanding skripsi serta Bapak Syahril Efendi, S.Si, MIT. Kemudian pada Dekan dan Pembantu Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara, semua dosen pada Program Studi Ilmu Komputer FMIPA USU, pegawai di FMIPA USU.

4. Ayah dan Mama tercinta atas teladan, kasih sayang, doa, dukungan materil dan semangat yang telah diberikan kepada penulis selama ini. Semoga segala kebaikan ini juga dibalas dengan kebaikan disisi-Nya. Untuk abang-abang, dan adik-adik tercinta atas segala suka, duka, tangis dan canda kita bersama.

5. Mas Nanda Rishianto dan uni Indri Rahmayuni S.T terima kasih atas kelapangan waktu yang diberikan kepada penulis untuk berbagi ilmu.

6. Teman-teman terbaik, Heru Pratama A.Md atas motivasi, kebaikan dan perhatiannya. Nisa Awesome, Leni SY, Dian MS, Farida Y, Dewi TA, Yunita S, Sri F dan Dewi Y serta rekan-rekan kuliah angkatan 04 yang telah banyak memberikan bantuan kepada penulis.

7. Kak Dina, Kak Silmi, Kak Ria, Kak Jimi, Lili, Wina, Ivana, Lia, Saras dan sahabat-sahabat lainnya di Asrama Puteri.

(6)

v ABSTRAK

Penulisan tugas akhir ini bertujuan untuk memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak untuk mengimplementasikannya pada sistem temu kembali informasi. Perangkat lunak ini dapat memudahkan pengguna mendapatkan dokumen relevan berdasarkan query yang dimasukkan, serta telah teranking berdasarkan tingkat relevansinya. Sistem ini dibangun menggunakan perangkat lunak Borland Delphi 7.0. Metodologi untuk membentuk sistem menggunakan pendekatan model air terjun. Tahapan yang penulis lakukan untuk melakukan proses pembentukan sistem tersebut meliputi tahapan analisis permasalahan, perancangan aplikasi yang melibatkan diagram alir data, algoritma dan flowchart beserta desain antar muka aplikasi, sehingga aplikasi yang terbentuk menjadi mudah dipergunakan dan memiliki fungsi yang optimal. Untuk memastikan bahwa seluruh fungsi yang terdapat di dalam sistem temu kembali informasi bekerja secara optimal, maka sistem aplikasi tersebut diuji dan dibentuk kesimpulan akhir.

(7)

IMPLEMENTATION OF TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) METHOD IN INFORMATION RETRIEVAL

SYSTEM

ABSTRACT

This writing final duty aim to comprehend a Term Frequency Inverse Document Frequency (TF-IDF) document weighting method and to develop an software to implement it. This software could facilitate user to get the relevant documents based on the entered query, and the documents have ranked based on the relevancy level. The system is built by using Borland Delphi 7.0 software. The methodologies to form the system is use the approach of waterfall model. The step which writer do to conduct the application forming process are covering the step analysis the problems, application scheme entangling data flow diagram, algorithm and flowchart therewith the user interface design, so that application formed become easy to use and own the optimal function. To ensure that the entire function which is there are in the information retrieval system work in an optimal, so the application system tested and formed final conclusion.

(8)

vii DAFTAR ISI Halaman Persetujuan ii Pernyataan iii Penghargaan iv Abstrak v Abstract vi

Daftar Isi vii

Daftar Tabel ix Daftar Gambar x Bab 1 Pendahuluan 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 3 1.3. Batasan Masalah 3 1.4. Tujuan Penelitian 4 1.5. Manfaat Penelitian 4 1.6. Metodologi Penelitian 4 1.7. Sistematika Penulisan 5

Bab 2 Landasan Teori 7

2.1. Sistem Temu Kembali Informasi 7

2.2. Model Ruang Vektor 14

2.2.1 Pengindeksan Dokumen 18 2.2.2 Pembobotan kata (term weighting) 27 2.2.3 Pemeringkatan (Perankingan) Dokumen 32 2.3. Evaluasi Sistem Temu Kembali Informasi 33

2.2.1 Kakas Evaluasi 33

2.2.2 Koleksi Pengujian 33 Bab 3 Analisis dan Perancangan Aplikasi 35 3.1. Analisis Masalah Umum 35 3.2. Spesifikasi Umum Kebutuhan Perangkat Lunak 35 3.2.1. Fungsi Perangkat Lunak 36 3.2.2. Tujuan Perangkat Lunak 36 3.2.3. Masukan dan Keluaran Perangkat Lunak 36 3.2.4. Batasan Perangkat Lunak 36 3.3. Model Fungsional Perangkat Lunak 37 3.3.1. Data Flow Diagram 37 3.3.1.1. Diagram Aliran Data Level 0 37 3.3.1.2. Diagram Aliran Data Level 1 38 3.3.2. Kamus Data DFD 39

(9)

3.4. Perancangan Perangkat Lunak 40 3.4.1. Perancangan Arsitektur 40 3.4.2. Perancangan Data 42 3.4.3. Perancangan Antarmuka Perangkat Lunak 43 3.4.4. Perancangan Prosedural 44 3.4.4.1. Perancangan Modul Perangkat Lunak 44 3.4.4.2. Algoritma dan Flowchart Proses Pengindeksan

Dokumen dan Query 48 3.4.4.2.1. Proses Parsing 49 3.4.4.2.2. Proses Penghapusan Stopwords 50 3.4.4.2.3. Proses Stemming 52 Bab 4 Implementasi dan Pengujian Sistem 68

4.1. Implementasi 68

4.1.1. Lingkungan Implementasi 68 4.1.1.1. Lingkungan Perangkat Keras 68 4.1.1.2. Lingkungan Perangkat Lunak 68 4.1.2. Batasan Implementasi 69 4.1.3. Implementasi Arsitektur 69 4.1.4. Implementasi Modul Perangkat Lunak 70 4.1.5. Implementasi Layar Antarmuka 71

4.2. Pengujian 75 4.2.1. Pengujian Pengindeksan 76 4.2.1.1. Kriteria Pengujian 76 4.2.1.2. Hasil Pengujian 76 4.2.2. Pengujian Perankingan 76 4.2.2.1. Kriteria Pengujian 76 4.2.2.2. Hasil Pengujian 76

Bab 5 KESIMPULAN DAN SARAN 80

5.1. Kesimpulan 80

5.2. Saran 80

Daftar Pustaka 82

Lampiran A Listing Program 83

(10)

ix DAFTAR TABEL

Halaman Tabel 2.1 Remove Plural Suffixation 23 Tabel 2.2 Remove Verbal Inflexion 23 Tabel 2.3 Continued for -ed and -ing Rules 24

Tabel 2.4 y and i 24

Tabel 2.5 Peel One Suffix Off for Multiple Suffixes 25

Tabel 2.6 Step 3 25

Tabel 2.7 Delete Last Suffix 26

Tabel 2.8 Remove e 26

Tabel 2.9 Reduction 26

Tabel 2.10 Perhitungan Pembobotan TF-IDF TermQuery dalam Setiap Dokumen 32 Tabel 2.11 Hasil Pembobotan dan Perankingan Dokumen terhadap Query 32

Tabel 3.1 Kamus Data DFD 40

Tabel 3.2 Struktur Data DFD 42 Tabel 4.1 Pemetaan Modul dalam Unit Implementasi 70 Tabel 4.2 Koleksi Data Uji 75 Tabel 4.3 Hasil Pengujian Temu Kembali Informasi pada Koleksi Data Uji 78

(11)

DAFTAR GAMBAR

Halaman Gambar 2.1 Ilustrasi Sistem Temu Kembali Informasi 7 Gambar 2.2 Outline Sistem Temu Kembali Informasi 9 Gambar 2.3 Bagian-bagian Sistem Temu Kembali Informasi 10 Gambar 2.4 Komponen Sistem Temu-Kembali Informasi 12 Gambar 2.5 Interaksi antara pengguna dengan sistem 13 Gambar 2.6 Representasi dokumen dan query pada ruang vektor 16 Gambat 2.7 Representasi matriks kata-dokumen 17 Gambar 2.8 Jenis-jenis Metode Stemming 21 Gambar 2.9 Flow Control Algoritma Porter 22 Gambar 2.10 Representasi Term Query pada Ruang Vektor 31 Gambar 2.11 lustrasi penggunaan koleksi pengujian 33

Gambar 3.1 Diagram Konteks 37

Gambar 3.2 Diagram Aliran Data Level 1 38 Gambar 3.3 Rancangan Antarmuka Utama Perangkat Lunak 43 Gambar 3.4 Rancangan Antarmuka Tampilan Dokumen dan Query 44 Gambar 3.5 Struktur Modul Perangkat Lunak 45 Gambar 3.6 Flowchart Prosedur Parsing 50 Gambar 3.7 Flowchart Prosedur Penghapusan Stopwords 52 Gambar 3.8 Flowchart Prosedur Stemming 54 Gambar 3.9 Flowchart Prosedur Remove Plural Suffixation 55 Gambar 3.10 Flowchart Prosedur Remove Verbal Inflection 56 Gambar 3.11 Flowchart Prosedur Continued for -ed and -ing rule 58 Gambar 3.12 Flowchart Prosedur y and i 59 Gambar 3.13 Flowchart Prosedur One Suffix Off for Multiple Suffixes 61 Gambar 3.14 Flowchart Prosedur Other Suffixes 63 Gambar 3.15 Flowchart Prosedur Delete Last Suffix 65 Gambar 3.16 Flowchart Prosedur Remove e 66 Gambar 3.17 Flowchart Prosedur Reduction 67 Gambar 4.1 Halaman Utama Perangkat Lunak 71 Gambar 4.2 Tampilan Proses Input Koleksi Dokumen 72 Gambar 4.3 Tampilan Proses Input Query 73 Gambar 4.4 Halaman Utama dengan Arsip Masukannya 73 Gambar 4.5 Halaman Tampilan Hasil Temu Kembali Informasi 74 Gambar 4.6 Perbandingan Hasil Output Perangkat Lunak trhdp Data Relevansi 77

Referensi

Dokumen terkait

Manajer harus sangat berhati – hati dalam pengambilan keputusan pendanaan, sebab jumlah hutang yang semakin tinggi akan mengakibatkan financial distress yang

Kata humas adalah merupakan singkatan dari Hubungan Masyarakat, belum ada ilmuan yang dapat menafsirkan arti kata humas dengan memuaskan karena memang banyak

Penelitian ini bertujuan untuk mengetahui apakah pembelajaran berbasis masalah lebih baik daripada pembelajaran biasa dalam meningkatkan kemampuan pemecahan masalah

Agar data yang diperoleh tervalidasi, maka dilaksanakan penerapan tata kerja analisis untuk menentukan kadar unsur dalam cuplikan acuan standar SRM NIST 1548a typical diet dan SRM

dengan TG-DTA tersebut, dapat diketahui pengaruh konsentrasi NaCl terhadap perubahan berat total, titik lebur dan fenomena yang terjadi selama proses pemanasan / peleburan garam

(2) Rencana Kerja Tahunan Perseroan sebagaimana dimaksud pada ayat (1) pelaksanaan tanggung jawab sosial dan lingkungan. Astra International Tbk menerapkan CSR sebagai

Keamanan pada kamar tidur Keamanan sirkulasi kamar tidur tidak terpenuhi dikarenakan satu kamar di isi dengan 4 orang dengan tempat tidur tingkat dengan ukuran 1x2 meter dan

Dalam data reduction ini peneliti selalu berorientasi dan berusa mendapatkan data sebanyak-banyaknya pada tujuan yang ingin dicapai dalam penelitian, yaitu memilih