• Tidak ada hasil yang ditemukan

ANALISIS DAN IMPLEMENTASI VECTOR SPACE MODEL (VSM) PADA INFORMATION RETRIEVAL

N/A
N/A
Protected

Academic year: 2021

Membagikan "ANALISIS DAN IMPLEMENTASI VECTOR SPACE MODEL (VSM) PADA INFORMATION RETRIEVAL"

Copied!
6
0
0

Teks penuh

(1)

INFORMATION RETRIEVAL

Novian Anggis Suwastika¹, Yanuar Firdaus A.w.², Dana Suliyo Kusumo³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

¹anggis@telkomuniversity.ac.id Abstrak

Information Retrieval (IR) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents melalui pencarian query yang diinputkan user.

Parameter uji untuk menilai relevansi sebuah dokumen yang digunakan dalam Tugas Akhir ini adalah precision, recall dan IAP. Precision adalah parameter untuk menghitung nilai tingkat ketepatan antara query dengan dokumen koleksi. Precision merupakan hasil dari perbandingan antara dokumen relevan dengan seluruh dokumen yang berhasil diambil oleh sistem. Recall adalah parameter untuk menghitung nilai tingkat kelengkapan antara query dengan dokumen koleksi. Recall merupakan hasil perbandingan antara dokumen relevan dengan dokumen relevan yang ada dalam seluruh dokumen koleksi. IAP menghitung nilai keterurutan dokumen relevan dalam sistem. Nilai IAP didapatkan dari perhitungan nilai precision dan recall.

Dalam IR terdapat model untuk mendapatkan nilai similiarity dokumen yang relevan dengan query yang diinputkan oleh user. Salah satu model tersebut adalah Vector Space Model. Terdapat 3 metode pembobotan dalam Vector Space Model, yaitu Term Frequency (TF), Inverse Document Frequency (IDF) dan Term Frequency-Inverse Document Frequency (TF-IDF). Dari hasil pengujian didapatkan bahwa dengan parameter IAP metode TF-IDF lebih unggul dibandingkan dengan dua metode yang lain. Hal ini menunjukan bahwa metode pembobotan TF-IDF lebih baik

dibandingkan dengan 2 metode lainnya, yaitu TF dan IDF.

Kata Kunci : Information Retrieval, Information Retrieval System, Vector Space Model, precision,recall, IAP , TF, IDF, TF-IDF , document collection dan query.

Abstract

Information Retrieval (IR) is a part of computer science-related information from the documents that is based on the content and context of the documents themselves. Information Retrieval in the process can be described as a process for the collection of documents Relevant documents through search queries input by user.

Test parameters to assess the relevance of a document that is used in this Final Project is

Precision, recall and IAP. Precision is a parameter to calculate the value-level accuracy between a query with the document collection. Precision is the result of the comparison between the

document with all relevant documents retrieved successfully by the system. Recall is a parameter to calculate the value of the level of completeness of a query with the document collection. Recall is the result of the comparison between the relevant documents with the relevant documents that exist in the entire document collection. IAP keterurutan calculate the value of relevant documents in the system. IAP values obtained from the calculation of the value of Precision and recall.

In the IR there is a model for the value similiarity documents relevant to the query input by by the user. One model is the Vector Space Model. There are 3 methods weightining in Vector Space Model, the Term Frequency (TF), inverse Document Frequency (IDF) and Term Frequency-inverse Document Frequency (TF-IDF). From the test results obtained with the parameters that IAP TF- IDF method is superior compared with the other two methods. This shows that the method weightining TF-IDF is better than the other 2 methods, namely TF and IDF.

Keywords : Information Retrieval, Information Retrieval System, Vector Space Model, precision,recall, IAP , TF, IDF, TF-IDF , document collection and query.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(2)

1

1. PENDAHULUAN

1.1 Latar Belakang

Pada saat ini, kebutuhan setiap individu terhadap Internet terus meningkat. Hal ini dapat disebabkan karena semakin banyaknya fasilitas yang ditawarkan dari dunia Internet itu sendiri. Salah satu yang penting dari Internet bahwa banyaknya web-web atau blog-blog yang menyediakan beragam informasi baik berupa berita ataupun artikel tentang suatu hal. Sebagian besar aktivitas user dalam dunia Internet digunakan untuk mencari suatu data atau berita yang diinginkannya dari web-web atau blog-blog tersebut.

Dan mayoritas dari mereka membutuhkan search engine sebagai acuan pencarian bahan referensi yang dicarinya. Oleh karena itu, sebuah search engine dituntut untuk dapat memberikan hasil pencarian yang tepat dan benar-benar relevant terhadap keinginan user. Search engine sendiri menggunakan Information Retrieval (IR) sebagai konsep dasarnya.

Information Retrieval (IR) merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents melalui pencarian query yang diinputkan user.

Information Retrieval pada dasarnya merupakan proses untuk menentukan dokumen dalam koleksi yang harus ditemubalikkan untuk memenuhi keinginan pengguna akan informasi. Informasi yang diinginkan pengguna direpresentasikan dalam bentuk query dan mengandung satu atau lebih term yang akan digunakan dalam pencarian.

Dalam Information Retrieval, ketika dokumen yang ada dalam database berjumlah besar dan tidak memungkinkan untuk dilakukan pencocokan secara boolean.

Dibutuhkan pencocokan query dengan dokumen yang dicari sehingga ditemukan dokumen yang relevan dengan query yang kita masukan. Untuk memudahkan kita memilih dokumen mana yang memiliki tingkat relevansi yang tinggi dibutuhkan sebuah model yang mampu untuk menemubalikan dokumen yang ada kemudian merangkingnya berdasarkan tingkat relevansinya. Salah satu model dalam Information Retrieval tersebut adalah Vector Space Model.

Vector Space Model adalah salah satu model dalam Information Retrieval.

Metode ruang vektor mengibaratkan query dan dokumen sebagai sebuah vektor n- dimensi yang tiap dimensinya diwakili oleh satu kata pada query. Relevansi tertinggi ditentukan menurut vektor yang paling mendekati dengan vektor query.

Terdapat tiga metode pembobotan dalam Vector Space Model untuk dokumen relevan yang ditemukan. Ketiga metode tersebut adalah Term Frequency (TF), yaitu pembobotan berdasarkan keseringan term dari query muncul dalam sebuah dokumen.

Inverse Document Frequency (IDF) adalah metode pembobotan yang memperhitungkan nilai atau tingkat kepentingan term dalam kumpulan dokumen. TF-IDF adalah metode pembobotan dengan memanfaatkan hasil perkalian antara TF dengan IDF.

Ketiga metode tersebut memiliki karakateristik masing-masing dalam pembobotan sebuah dokumen relevan dari query yang diinputkan. Presicion, recall dan IAP adalah parameter uji yang digunakan untuk menilai metode mana yang cocok untuk

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(3)

2 diimplementasikan dalam Vector Space Model agar didapatkan dokumen relevan sesuai dengan query yang diinputkan.

1.2 Perumusan Masalah

Berdasarkan uraian diatas, maka permasalahan yang muncul dan yang menjadi objek penelitian pada Tugas Akhir ini ialah:

1. Bagaimana menerapkan Vector Space Model dalam Information Retrieval

2. Merancang dan membangun perangkat lunak untuk penerapan Vector Space Model pada IR.

3. Bagaimana menganalisis performansi Information Retrieval yang menerapkan Vector Space Model dengan 3 metode pembobotan yaitu metode TF, metode IDF dan metode TF-IDF berdasarkan parameter uji precision, recall dan IAP.

Batasan masalah agar tidak meluasnya materi pembahasan dalam tugas akhir ini ialah:

1. Koleksi dokumen dan kata kunci yang digunakan adalah dokumen dalam teks bahasa Inggris.

2. Simulasi yang dibuat berbasis web menggunakan PHP dan basisdata MySQL.

3. Parameter pengujian meliputi perhitungan nilai recall, precision dan IAP.

4. Pengujian performansi akan dilakukan dengan membandingkan nilai precision, recall, dan IAP dari dokumen relevan yang didapatkan dari hasil pembobotan menggunakan weighting proposed method.

1.3 Tujuan

Secara umum tujuan penulisan yang ingin dicapai dalam Tugas Akhir ini ialah:

1. Memahami cara penerapan Vector Space Model pada Information Retrieval.

2. Merancang dan membangun suatu Information Retrieval System berupa search engine yang mengimplementasikan Vector Space Model.

3. Melakukan analisis performansi terhadap pembobotan dalam Vector Space Model dengan weighting proposed method, dimana performansi sistem diukur berdasarkan parameter uji precision, recall, dan Interpolated Average Precision (IAP).

1.4 Metodologi Penyelesaian Masalah

Metodologi yang digunakan untuk menyelesaikan masalah dalam Tugas Akhir ini ialah:

1. Studi Literatur

Mempelajari sumber-sumber pustaka yang ada, yang dapat dijadikan referensi mengenai information retrieval khususnya Vector Space Model, pembobotan, proses indexing dan searching serta sumber-sumber lain yang relevan untuk menunjang penyelesaian tugas akhir ini. Sumber-sumber pustaka dapat berupa buku, paper, maupun halaman web.

2. Analisis dan Desain

Tahap ini meliputi analisis kebutuhan serta penyelesaian masalah untuk merancang perangkat lunak Information Retrieval System dengan Vector Space Model.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(4)

3 3. Implementasi Sistem

Tahap ini meliputi pembangunan perangkat lunak yang telah dirancang pada tahap sebelumnya. Pembangunan perangkat lunak berbasiskan web dengan menggunakan PHP dan database MySQL.

4. Analisis dan Pengujian

Melakukan pengujian perangkat lunak yang telah dikembangkan, dan kemudian menganalisis hasil performansi yang didapatkan. Pengukuran performansi adalah precisionl, precission, Interpolated Average Precision (IAP) dan waktu yang digunakan selama pemrosesan. Tujuan pengujian adalah untuk mengetahui performansi IR yang menerapkan Vector Space Model pada setiap weighting proposed method

5. Penyusunan Laporan

Hasil penelitian akan disusun menjadi suatu laporan yang meliputi aspek-aspek dalam penelitian yaitu teori, perancangan dan implementasinya, serta membuat kesimpulan dari hasil penelitian tersebut.

1.5 Sistematika Penulisan

Sistematika Penulisan Tugas Akhir ini terdiri dari 5 Bab, yaitu:

BAB I Pendahuluan

Bab ini membahas kerangka penelitian dalam tugas akhir, meliputi latar belakang, perumusan masalah, batasan masalah, tujuan perancangan dan metodologi yang digunakan dalam perancangan system.

BAB II Landasan Teori

Bab ini menjelaskan seluruh teori yang menjadi landasan konseptual dan mendukung penyelesaian tugas akhir ini.

BAB III Analisis dan Perancangan Sistem

Bab ini membahas mengenai pengumpulan data analisis dan perancangan perangkat lunak yang terdiri dari perancangan struktur data, perancangan modul dan interface.

BAB IV Implementasi dan Pengujian Sistem

Bab ini membahas implementasi detail sistem dan pengujian terhadap sistem.

BAB V Kesimpulan dan Saran

Berisi tentang kesimpulan dan saran yang dapat diambil dari keseluruhan sistem yang telah dibuat.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(5)

39

5. KESIMPULAN DAN SARAN

Pada bab ini akan diuraikan hal yang dapat disimpulkan dari pelaksanaan Tugas Akhir ini. Selain itu diuraikan pula beberapa saran yang dapat digunakan dalam pengembangan Tugas Akhir di masa mendatang.

5.1 Kesimpulan

Berdasarkan hasil analisis dan pengujian perangkat lunak yang dilakukan dalam tugas akhir ini dapat diambil beberapa kesimpulan, yaitu:

a. Information Retrieval System yang dibangun, mampu melakukan fungsionalitas yang ada, yaitu melakukan proses indexing dokumen dan proses searching dengan memasukan query. Information retrieval system mampu melakukan pembobotan dokumen dengan metode TF, IDF dan TF-IDF berdasarkan query yang diiputkan serta mampu melakukan perhitungan nilai precision, recall dan IAP.

b. Jika pencarian dilakukan terhadap seluruh dokumen, perhitungan precision dan recall akan menghasilkan jumlah dokumen relevan yang sama, serta dokumen relevan keseluruhan dan dokumen terambil yang sama untuk ketiga metode.

c. Metode TF-IDF memberikan nilai pembobotan yang lebih baik dibandingkan dengan metode TF dan metode IDF dalam Vector Space Model dapat dilihat dari hasil perhitungan IAP.

d. Nilai IAP untuk metode pembobotan TF terkadang lebih tinggi daripada metode pembobotan IDF, begitu juga sebaliknya. Hal ini bergantung pada query yang diinputkan. Jika dalam satu dokumen koleksi tertentu term-term dari query yang diinputkan frekuensinya lebih tinggi dibandingkan tingkat kepentingan term tersebut diseluruh dokumen, maka nilai TF lebih tinggi dibandingkan nilai IDF nya.

5.2 Saran

Untuk pengembangan Tugas Akhir di masa mendatang, penulis menyarankan hal-hal sebagai berikut:

a. Pembobotan bisa dikembangkan dengan teknik pembobotan lainnya untuk mendapatkan hasil pencarian yang lebih relevan.

b. Document collection untuk VSM menggunakan jenis document lain selain free text.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(6)

40

DAFTAR PUSTAKA

[1] Information Retrieval http://en.wikipedia.org/wiki/Information_retrieval.htm.

Diakses pada 25 Oktober 2008.

[2] Korfhage. R.R., Information Storage and Retrieval, 1997, New York: Wiley Computer Publishing.

[3] Macdonald, Craig., and Ben He.2008. Researching and Building IR applications using Terrier. Scotland: University of Glasgow.

[4] Manning, Christopher D., Prabhakar Raghavan., and Hinrich Sch ¨ utze.2008.

Introduction to Information Retrieval. United States of America: Cambridge University.

[5] Moffat, Alistair., Justin Zobel and David Hawking.2004. Recommended Reading for IR Research Students. Australia: The University of Melbourne.

[6] Raghavan, V. V. and Wong, S. K. M. A 1986. critical analysis of vector space model for information retrieval. Journal of the American Society for Information Science.

[7] Relevance

Judgement.http://220.156.188.21/CDAC/ASCNT_2009/ASCNT%202009/Paper/Languag e%20computing/Abstract8.pdf. Diakses tanggal 6 Maret 2009.

[8] Salton, Gerard and Buckley, Chris. Term Weighting Approaches in Automatic Text Retrieval. Technical Report TR87-881, Department of Computer Science, Cornell University.

[9] Vector Space Model http://en.wikipedia.org/wiki/Vector_space_model.htm.

Diakses pada 25 Oktober 2008.

[10] Van Rijsbergen, C.J., 1979, Information Retrieval. Department of Computing Science, University of Glasgow.

[11] Vector Space Model

www.srdc.metu.edu.tr/webpage/courses/ceng352/lecture_notes/Ch27b_ir2 vectorspace-95.ppt. Diakses pada 28 Oktober 2008.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Referensi

Dokumen terkait

Sistem information retrieval (IR) system adalah system yang digunakan untuk menemukan kembali ( retrieve ) informasi-informasi yang relevan terhadap kebutuhan pengguna dari

Algoritma pembobotan TF-IDF dan vector space model ( cosine similarity ) digunakan untuk menunjukkan kemiripan antar dokumen yang merupakan representasi dari kalimat komplain

Tahap perancangan yang dilakukan adalah dengan pemodelan menggunakan metode pemograman berorientasi objek dan menerapkan metode VSM pada sistem jawaban esai untuk

Dari menganalisis permasalahan yang ada, dapat dibangun aplikasi untuk sistem temu kembali opini angket mahasiswa menggunakan metode generalized vector space model

Sistem information retrieval (IR) system adalah system yang digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari

Sistem secara otomatis akan melakukan indexing secara offline dan temu kembali (retrieval) secara real time. Proses retrieval dimulai dengan mengambil query dari pengguna,

Input: keywords, file “testIndex.dat” and “titleIndex.dat” Output: List of search results that are not-ranked Vector Space Model Create Python Sourcecode File Name:

Diagram Alir Document Preprocessing Metode Vector Space Model melakukan pengolahan hasil dari pembobotan TF-IDF dengan menghitung panjang dari vektor setiap dokumen, di samping itu