FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi
Temu kembali informasi mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen. Sistem temu kembali informasi merupakan sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).
Pembobotan tf-idf
Metode tf-idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Menurut Robertson (2005) dalam Intan & Defeng (2006), metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse
dokumen frekuensi yang mengandung kata tersebut.
PENDAHULUAN Latar Belakang
Semakin populernya penggunaan internet memengaruhi jumlah sumber daya informasi yang semakin besar keragamannya. Informasi yang jumlahnya sedikit dapat dicari secara manual dengan mudah, namun untuk informasi yang jumlahnya besar dibutuhkan suatu sistem yang dapat mencari dengan cepat informasi tersebut. Masalah lain yang dihadapi adalah sistem tidak mampu memeringkat dokumen relevan yang diinginkan pengguna berdasarkan urutan awal hasil pencarian. Untuk memecahkan masalah tersebut, salah satu pendekatan yang digunakan adalah sistem temu kembali informasi. Sistem temu kembali informasi digunakan untuk menemukembalikan informasi yang dianggap relevan terhadap kebutuhan pengguna. Temu kembali informasi yang baik menghasilkan dokumen relevan pada urutan awal hasil pencarian.
Banyak model yang dapat digunakan untuk memeringkat dokumen hasil temu kembali informasi, salah satunya adalah model ruang vektor. Idenya adalah memeringkat dokumen hasil temu kembali informasi berdasarkan tingkat relevansi suatu dokumen. Dalam ukuran kesamaan model ruang vektor, terdapat tiga buah koefisien, yaitu koefisien cosine, koefisien Jaccard, dan koefisien Dice.
Penelitian model ruang vektor umumnya menggunakan koefisien cosine, seperti Paiki (2006), Rusidi (2008), dan Rahayuni (2011) untuk memeringkat dokumen hasil pencarian. Intan & Defeng (2006) menggabungkan metode tf-idf dan koefisien Jaccard dalam memperkenalkan suatu algoritme search
engine berdasarkan konsep High Accuracy
Retrieval from Documents (HARD).
Nurhanifah (2001) menggunakan metode trigram dengan ukuran kesamaan Dice dalam bentuk hypertext. Penelitian-penelitian tersebut hanya menggunakan satu koefisien model dalam penelitiannya dan tidak ada yang membandingkan kinerja dari model model ruang vektornya.
Tujuan
Penelitian ini bertujuan membandingkan efisiensi ukuran koefisien kesamaan model ruang vektor berdasarkan recall dan average
precision, waktu komputasi, dan
kompleksitas algoritme.
Ruang Lingkup
Ruang lingkup penelitian ini ialah: 1 Model sistem temu kembali informasi
yang digunakan adalah model ruang vektor.
2 Terbatas pada perbandingan koefisien model ruang vektor yang dilihat berdasarkan recall dan average precision, waktu komputasi, dan kompleksitas algoritme.
Manfaat
Kinerja mesin pencari dapat dikembangkan berdasarkan berbagai macam model. Dari penelitian ini, diharapkan dapat diketahui hasil perbandingan pemeringkatan model ruang vektor dan dapat menjadi pembanding kinerja model lain.
TINJAUAN PUSTAKA Sistem Temu Kembali Informasi
Temu kembali informasi mempelajari algoritme dan model untuk memperoleh informasi dari koleksi dokumen. Sistem temu kembali informasi merupakan sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. Sistem temu kembali informasi menyediakan kemudahan akses informasi bagi pengguna. Pengguna harus menerjemahkan kebutuhan informasinya ke dalam bentuk kueri. Dengan adanya kueri yang diberikan pengguna, tujuan utama dari sistem temu kembali informasi adalah mengembalikan informasi yang relevan dengan kueri dan informasi yang tidak relevan sesedikit mungkin (Baeza-Yates & Ribeiro-Neto 1999).
Pembobotan tf-idf
Metode tf-idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen. Menurut Robertson (2005) dalam Intan & Defeng (2006), metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah dokumen tertentu dan inverse
dokumen frekuensi yang mengandung kata tersebut.
Persamaan metode tf-idf secara umum sebagai berikut:
Wij= tfij× (log(� �)) dengan:
Wij : bobot kata/term tj terhadap dokumen di
tfij : jumlah kemunculan kata/term tj dalam di
N : jumlah semua dokumen yang ada dalam pangkalan data
n : jumlah dokumen yang mengandung kata/term tj (minimal ada satu kata yaitu term tj)
Model Ruang Vektor
Pengukuran kesamaan (similarity
measure) model ruang vektor digunakan
untuk memeringkat dokumen hasil temu kembali informasi. Salton (1989) dalam Adisantoso (1996) melakukan normalisasi ukuran koefisien kesamaan ini menjadi tiga, yaitu:
1 Koefisien cosine merupakan metode ukuran kesamaan yang paling popular, yaitu dengan menghitung sudut antara vektor dokumen dengan vektor kueri. Persamaannya sebagai berikut:
similarity d j ,q = |d j∙q | dj x q dengan: dj: vektor dokumen q : vektor kueri
2 Koefisien Jaccard adalah salah satu metode yang dipakai untuk menghitung
similarity antara dua obyek. Ditemukan
oleh Paul Jaccard yang merupakan metode ukuran kesamaan yang digunakan untuk membandingkan kesamaan dan keragaman set sampel. Persamaannya sebagai berikut: similarity d j ,q = |d j∙q | dj x q -|d j∙q | dengan: dj: vektor dokumen q : vektor kueri
3 Koefisien Dice ditemukan oleh Lee Raymond Dice yang merupakan metode ukuran kesamaan yaang berhubungan dengan koefisien Jaccard. Persamaannya sebagai berikut: similarity d j ,q = 2|d j∙q | dj x q dengan: dj: vektor dokumen q : vektor kueri Kompleksitas Algoritme
Untuk menyelesaikan suatu masalah pemrograman, terdapat berbagai algoritme yang dapat digunakan. Dalam algoritme, harus ada parameter yang bisa dibandingkan agar dapat diselesaikan secara efektif.
Dalam aplikasinya, setiap algoritme memiliki dua buah ciri khas yang dapat digunakan sebagai parameter pembanding, yaitu jumlah proses yang dilakukan dan jumlah memori yang digunakan untuk melakukan proses. Jumlah proses ini dikenal sebagai kompleksitas waktu yang disimbolkan dengan T(n), sedangkan jumlah memori ini dikenal sebagai kompleksitas ruang yang disimbolkan dengan S(n).
Kompleksitas waktu diukur berdasarkan jumlah proses khas suatu algoritme, bukan berdasarkan run-time secara nyata ketika aplikasi dilakukan. Hal ini disebabkan oleh arsitektur komputer dan kompilator yang berbeda-beda sehingga suatu algoritme yang sama akan menghasilkan waktu eksekusi yang berbeda, pada komputer dan penyusun yang berbeda (Rheinadi 2009).
Evaluasi Sistem Temu Kembali Informasi
Terdapat banyak jenis ukuran yang dapat digunakan untuk mengevaluasi kinerja suatu sistem temu kembali informasi. Pengukuran yang paling umum menggunakan recall dan
precision.
Recall adalah rasio jumlah dokumen
relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan, sedangkan precision
adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukembalikan (Manning et al.
2008). Ilustrasi recall dan precision dapat dilihat di Tabel 1.
Tabel 1 Ilustrasi recall dan precision
Relevan Non relevan
Retrieved tp fp Non retrieved fn tn Recall= |tp| (|tp|+|fn|) Precision= |tp| (|tp|+|fp|)
Pengukuran kinerja pemeringkatan dapat dilakukan dengan interpolasi average
precision. Interpolasi average precision
adalah suatu ukuran evaluasi kinerja temukembali yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall. Standar yang digunakan adalah standar tingkat recall, yaitu 0.0, 0.1,0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10. Average
precision diformulasikan sebagai berikut:
� = ��( )
� �
�=1
� adalah average precision pada level
recall r, Nq adalah jumlah kueri yang
digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i (Baeza-Yates & Ribeiro-Neto 1999).