TINJAUAN PUSTAKA Sistem Temu Kembali Informasi

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

TINJAUAN PUSTAKA Sistem Temu Kembali Informasi

Temu kembali informasi mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen. Sistem temu kembali informasi merupakan sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).

Pembobotan tf-idf

Metode tf-idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Menurut Robertson (2005) dalam Intan & Defeng (2006), metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse

dokumen frekuensi yang mengandung kata tersebut.

PENDAHULUAN Latar Belakang

Semakin populernya penggunaan internet memengaruhi jumlah sumber daya informasi yang semakin besar keragamannya. Informasi yang jumlahnya sedikit dapat dicari secara manual dengan mudah, namun untuk informasi yang jumlahnya besar dibutuhkan suatu sistem yang dapat mencari dengan cepat informasi tersebut. Masalah lain yang dihadapi adalah sistem tidak mampu memeringkat dokumen relevan yang diinginkan pengguna berdasarkan urutan awal hasil pencarian. Untuk memecahkan masalah tersebut, salah satu pendekatan yang digunakan adalah sistem temu kembali informasi. Sistem temu kembali informasi digunakan untuk menemukembalikan informasi yang dianggap relevan terhadap kebutuhan pengguna. Temu kembali informasi yang baik menghasilkan dokumen relevan pada urutan awal hasil pencarian.

Banyak model yang dapat digunakan untuk memeringkat dokumen hasil temu kembali informasi, salah satunya adalah model ruang vektor. Idenya adalah memeringkat dokumen hasil temu kembali informasi berdasarkan tingkat relevansi suatu dokumen. Dalam ukuran kesamaan model ruang vektor, terdapat tiga buah koefisien, yaitu koefisien cosine, koefisien Jaccard, dan koefisien Dice.

Penelitian model ruang vektor umumnya menggunakan koefisien cosine, seperti Paiki (2006), Rusidi (2008), dan Rahayuni (2011) untuk memeringkat dokumen hasil pencarian. Intan & Defeng (2006) menggabungkan metode tf-idf dan koefisien Jaccard dalam memperkenalkan suatu algoritme search

engine berdasarkan konsep High Accuracy

Retrieval from Documents (HARD).

Nurhanifah (2001) menggunakan metode trigram dengan ukuran kesamaan Dice dalam bentuk hypertext. Penelitian-penelitian tersebut hanya menggunakan satu koefisien model dalam penelitiannya dan tidak ada yang membandingkan kinerja dari model model ruang vektornya.

Tujuan

Penelitian ini bertujuan membandingkan efisiensi ukuran koefisien kesamaan model ruang vektor berdasarkan recall dan average

precision, waktu komputasi, dan

kompleksitas algoritme.

Ruang Lingkup

Ruang lingkup penelitian ini ialah: 1 Model sistem temu kembali informasi

yang digunakan adalah model ruang vektor.

2 Terbatas pada perbandingan koefisien model ruang vektor yang dilihat berdasarkan recall dan average precision, waktu komputasi, dan kompleksitas algoritme.

Manfaat

Kinerja mesin pencari dapat dikembangkan berdasarkan berbagai macam model. Dari penelitian ini, diharapkan dapat diketahui hasil perbandingan pemeringkatan model ruang vektor dan dapat menjadi pembanding kinerja model lain.

TINJAUAN PUSTAKA Sistem Temu Kembali Informasi

Pembobotan tf-idf

dokumen frekuensi yang mengandung kata tersebut.

Persamaan metode tf-idf secara umum sebagai berikut:

Wij= tfij× (log(^� �⁾⁾ dengan:

Wij : bobot kata/term tj terhadap dokumen di

tfij : jumlah kemunculan kata/term tj dalam di

N : jumlah semua dokumen yang ada dalam pangkalan data

n : jumlah dokumen yang mengandung kata/term tj (minimal ada satu kata yaitu term tj)

Model Ruang Vektor

Pengukuran kesamaan (similarity

measure) model ruang vektor digunakan

untuk memeringkat dokumen hasil temu kembali informasi. Salton (1989) dalam Adisantoso (1996) melakukan normalisasi ukuran koefisien kesamaan ini menjadi tiga, yaitu:

1 Koefisien cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Persamaannya sebagai berikut:

similarity d j_,q ₌ ^|d j_∙q | dj x q dengan: dj: vektor dokumen q : vektor kueri

2 Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung

similarity antara dua obyek. Ditemukan

oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman set sampel. Persamaannya sebagai berikut: similarity d j ,q = ^|d ^j_∙q | dj x q -|d j_∙_q_| dengan: dj: vektor dokumen q : vektor kueri

3 Koefisien Dice ditemukan oleh Lee Raymond Dice yang merupakan metode ukuran kesamaan yaang berhubungan dengan koefisien Jaccard. Persamaannya sebagai berikut: similarity d j ,q = ^2|d ^j_∙q | dj x q dengan: dj: vektor dokumen q : vektor kueri Kompleksitas Algoritme

Untuk menyelesaikan suatu masalah pemrograman, terdapat berbagai algoritme yang dapat digunakan. Dalam algoritme, harus ada parameter yang bisa dibandingkan agar dapat diselesaikan secara efektif.

Dalam aplikasinya, setiap algoritme memiliki dua buah ciri khas yang dapat digunakan sebagai parameter pembanding, yaitu jumlah proses yang dilakukan dan jumlah memori yang digunakan untuk melakukan proses. Jumlah proses ini dikenal sebagai kompleksitas waktu yang disimbolkan dengan T(n), sedangkan jumlah memori ini dikenal sebagai kompleksitas ruang yang disimbolkan dengan S(n).

Kompleksitas waktu diukur berdasarkan jumlah proses khas suatu algoritme, bukan berdasarkan run-time secara nyata ketika aplikasi dilakukan. Hal ini disebabkan oleh arsitektur komputer dan kompilator yang berbeda-beda sehingga suatu algoritme yang sama akan menghasilkan waktu eksekusi yang berbeda, pada komputer dan penyusun yang berbeda (Rheinadi 2009).

Evaluasi Sistem Temu Kembali Informasi

Terdapat banyak jenis ukuran yang dapat digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi. Pengukuran yang paling umum menggunakan recall dan

precision.

Recall adalah rasio jumlah dokumen

relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan, sedangkan precision

adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukembalikan (Manning et al.

2008). Ilustrasi recall dan precision dapat dilihat di Tabel 1.

Tabel 1 Ilustrasi recall dan precision

Relevan Non relevan

Retrieved tp fp Non retrieved ^fn ^tn Recall= ^|tp| (|tp|+|fn|) Precision= ^|tp| (|tp|+|fp|)

Pengukuran kinerja pemeringkatan dapat dilakukan dengan interpolasi average

precision. Interpolasi average precision

adalah suatu ukuran evaluasi kinerja temukembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Standar yang digunakan adalah standar tingkat recall, yaitu 0.0, 0.1,0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Average

precision diformulasikan sebagai berikut:

� = �_�( )

� �

�=1

� adalah average precision pada level

recall r, Nq adalah jumlah kueri yang

digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i (Baeza-Yates & Ribeiro-Neto 1999).

Dalam dokumen Perbandingan Efisiensi Model Ruang Vektor pada Sistem Temu Kembali Informasi (Halaman 33-36)