A. Pendahuluan
Search engine mulai diperkenalkan pada
tahun 1993 dan berbagai teknik untuk mengevaluasi performa search engine dipublikasikan tahun 1996. Selama periode 10 tahun terakhir sejak kemunculannya, teknologi search engine mengalami kemajuan yang sangat dramatis. Saat ini search engine merupakan perangkat
web yang paling berpengaruh karena
peranan-nya dalam proses temu kembali informasi. Pesatnya perkembangan teknologi search
engine dan proliferasi website menciptakan
tantangan-tantangan baru dalam dunia temu kembali informasi. Menurut survey yang di-lakukan Situs Netcraft jumlah website yang ada di dunia sejak tahun 1995 hingga Maret 2012 telah mencapai 644,275,754 website. S e m e n t a r a i t u , K e v i n K e l l y, p e n d i r i m a j a l a h Wi r e d ¸ seperti yang dikutip oleh Sutter (2011), kolumnis CNN Tech, menulis bahwa saat ini di dunia terdapat lebih dari satu triliun halaman web. Dari jumlah tersebut, hanya sekitar 1% saja yang berada ‘per-mukaan’ dan mudah ditemukan.
Kini, proses mencari informasi relevan menjadi semakin rumit dan memakan waktu.
MENGUJI EFEKTIVITAS ALGORITMA PENGINDEKSAN META SEARCH ENGINE
DENGAN METODE PENILAIAN RELATIVE RECALL & PRECISION UNTUK HASIL
PENCARIAN ORGANIK BIDANG ILMU PERPUSTAKAAN DAN INFORMASI
Wishnu Hardi*
* Pegawai pada National Library of Australia Jakarta Offi ce
Pengguna sering menemui kesulitan ketika mengkonversi bahasa alami menjadi konsep atau istilah yang dikenal oleh search engine. Sifat ambiguitas bahasa alami menyebabkan satu kata bisa memiliki lebih dari satu makna, di sisi lain, beberapa kata dapat mengekspresi-kan konsep yang sama. Efektivitas search
engine untuk penelusuran query yang bersifat
luas atau ambigu masih dipertanyakan oleh karena hasil penelusuran masih mencampur adukan beragam subtopik atau k o n s e p dengan informasi yang kurang relevan. Kendala bahasa (language barrier) akan terus menjadi tantangan yang mendorong pengem-bangan model search engine yang lebih baik lagi.
Diskusi mengenai efektivitas kinerja dari sebuah search engine selalu dikaitkan dengan tingkat relevansi hasil pencarian. Meski-pun demikian, definisi konsep relevansi telah menjadi perdebatan bertahun-tahun d a l a m Ilmu Perpustakaan dan Informasi. Artikel ini mengevaluasi efektivitas algoritma pengindeksan lima meta search engine untuk temu kembali informasi ilmiah untuk bidang Ilmu Perpustakaan dan Informasi.
Pengujian dilakukan dengan mengukur tingkat relative recall dan precision pada
Abstrak
Makalah ini menguji efektivitas algoritma pengindeksan lima meta search engine yaitu Speres,
Ixquick, Meta Search Engine, Clusty dan Polymeta. Ada lima belas pertanyaan yang dipilih terkait istilah
Ilmu Perpustakaan dan Informasi. Setiap pertanyaan kemudian dikirim ke semua meta search engine tersebut. Hasil dari percobaan ini lalu dievaluasi dan dibandingkan dengan cara penilaian relative recall dan precision. Hasil dari penelitian ini menunjukkan bahwa masalah yang dihasilkan tetap menjadi tantangan dalam membangun meta search engine yang baik.
masing-masing meta search engine. Precision adalah proporsi hasil pencarian dari suatu
query yang benar-benar relevan. Dalam hal
ini, precision mengukur tingkat “gangguan” dari akurasi informasi yang ditampilkan. Sedangkan, relative recall adalah proporsi seluruh hasil pencarian relevan yang ditemu-kan oleh sistem.
Studi Literatur
Kajian mengenai meta search engine telah dimulai sejak tahun 90-an seiring perkembangan search engine yang kian pesat. Dreiliner (1996) dalam tesisnya mengevaluasi efektivitas meta search engine dalam memilah dan memberikan peringkat hasil pencarian dengan menguji algoritma
meta indeks. Meng, Yu, dan Liu (2002) men-survey berbagai teknik yang sering digunakan
untuk mengatasi masalah mendasar dalam membangun meta search engine yang baik.
Namun, penelitian ini belum dapat dika-takan berhasil menemukan solusi untuk tiga masalah utama meta search engine, yakni pe-nyeleksian database, pepe-nyeleksian dokumen, dan penggabungan hasil, oleh karena masih memerlukan informasi lebih jauh mengenai komponen search engine yang diteliti.
Lu, Meng, Shu, dan Yu (2005) meng-investigasi variasi algoritma penggabungan hasil pencarian meta search engine. Dujmovic dan Bai (2006) melakukan evaluasi dan perbandingan search engine dengan metode
Logic Scoring of Preference (LSP). Model
pen-dekatan kuantitatif ini cukup efektif mengukur fungsionalitas, penggunaan, dan performa
search engine karena menggunakan mekanisme
struktur dekomposisi yang meliputi keseluruhan atribut sistem yang berpengaruh terhadap
search engine yang sedang dievaluasi.
Taksa dan Spink (2007) menganalisis
pemakaian query yang bersifat kompleks pada meta search engine dengan mengukur efektivitas, efisiensi, dan tingkat kepuasan.
Kumar dan Pavithra (2010) menguji kapabilitas meta search engine dengan melaku-kan perbandingan dengan search engine. Pe-nelitian ini membuktikan bahwa meta search
engine mampu menghasilkan nilai precision
yang lebih baik dari search engine. Sebaliknya, nilai relative recall meta search engine masih rendah meskipun memiliki berbagai keunggulan
teoretis dalam hal pencarian ke database-data-base tunggal.
Srinivas, Srinivas, dan Govardhan (2011) melakukan survey komprehensif meta search
engine dengan menggunakan paramater,
antara lain, keterhubungan meta search engine dengan search engine lokal, waktu respon, dan algoritma pemeringkatan. Hasil studi membuktikan bahwa meta search engine me-miliki superioritas dibandingkan search engine biasa dalam hal relative recall and precision.
Mahabhashyam dan Singitham (2012) mengevaluasi strategi pemeringkatan meta
search engine. Dari hasil evaluasi ditemukan
bahwa kompleksitas komputasional dari algoritma pemeringkatan dan performa meta
search engine adalah parameter yang saling
bertentangan.
Meta search engine
Istilah meta search engine digunakan untuk menjelaskan paradigma pencarian ke banyak sumber data secara real time. Meta
search engine menyediakan akses tunggal ke
berbagai search engine dan mengkombinasikan h a s i l p e n e l u s u r a n y a n g k e m u d i a n d i -g a b u n -g k a n dan ditampilkan berdasarkan peringkat. Meta search engine dirancang untuk dapat situs-situs yang sulit ditemukan (deep
web). Hal ini didasari fakta bahwa pesatnya
pertumbuhan web menyebabkan efektivitas pencarian search engine semakin berkurang.
Dengan demikian, meta search engine beroperasi berdasarkan premis bahwa dunia
web terlalu besar bagi satu search engine
Pengembangan meta search-engine secara konsisten terus dilakukan dengan tujuan, antara lain, meningkatkan cakupan pencarian
web, memfasilitasi pencarian informasi ke
banyak search engine, mengatasi skalabilitas penelusuran web, dan meningkatkan efektivitas temu kembali informasi (Meng, Yu, dan Liu 2002). Sementara itu, Dreiliner (1996) dalam tesisnya menyebutkan setidaknya ada 3 (tiga) komponen utama dalam arsitektur dasar meta
search engine, pertama, mekanisme pengiriman query (disptach mechanism), penghubung
antarmuka (interface agent), dan mekanisme display hasil pencarian (display mechanism)
Meta search engine bekerja dengan melakukan
skema penggabungan (fusion) search engine sehingga dapat menjangkau
database-data-base besar serta meningkatkan nilai relative recall dan precision.
Tiga kelebihan meta search engine lainnya antara lain :
Pertama, performa meta search engine lebih konsisten karena mampu mengkombinasi-kan kekuatan dan kelemahan yang ada pada masing-masing search engine.
Kedua, meta search engine dapat mengatasi problem arsitektur modular search engine dalam proses pencarian informasi seperti frekuensi kata dan frase, struktur tekstual dokumen, dan struktur hyperlink antar dokumen.
Ketiga, meta search engine menggunakan model algoritma pemeringkatan yang terfokus sehingga dapat menghasilkan informasi yang lebih spesifik.
Meskipun meta search engine dapat mengatasi beberapa kekurangan search engine biasa, adakalanya nilai precision yang dihasilkan rendah karena heteroginitas search
engine-search engine yang mendasarinya. Dengan
kata lain, query yang digunakan untuk men-dapatkan informasi yang dimaksud secara optimal dapat berbeda-beda antara satu search engine dengan yang lainnya.
Metodologi dan Test Environment
Lima meta search engine dipilih secara acak untuk diuji efektivitas hasil pencarian-nya. Kelima search engine tersebut adalah
Sperse, Ixquick, Meta Search Engine, Clusty, dan Polymeta. Lima belas istilah yang
me-wakili topik dibidang Ilmu Informasi dan Perpustakaan dipilih yang kemudian diklasifi kasi menjadi konsep tunggal (annotation, bibliography,
monograph, librarianship, cataloguing),
konsep majemuk (controlled vocabulary,
digital library, special libraries, resource description and access,MARC format), dan
konsep kompleks (evaluation of library
collection, library and censorship, biblio-metrics research method, library metadata standards, information literacy and libraries).
Penulis membatasi penelitian pada sepuluh website hasil penelusuran yang muncul pada halaman pertama saja. Hal ini sejalan dengan penelitian yang dilakukan Google bahwa hampir 85% pengguna hanya melihat hasil penelusuran pada halaman pertama saja.
Masing-masing istilah yang mewakili konsep tunggal, gabungan, dan kompleks kemudian diujikan pada lima meta search engine. P e n g u j i a n k u e r i p a d a l i m a m e t a s e a rc h
engine menggunakan advanced mode dengan
metode “exact phrase”. Metode ini dipilih agar penjaringan informasi menghasilkan tingkat precision yang lebih tinggi dan dikontrol dengan hanya menggunakan bahasa Inggris agar pengukuran tingkat relevansi lebih mudah dilakukan. Pengujian dilakukan pada waktu yang berdekatan untuk meminimalisasi variasi temporal system dan pemutakhiran
indeks meta search engine.
Nilai precision dilihat dari seberapa baik kualitas sistem dalam menampilkan hasil pencarian secara benar dan akurat. Pada pe-nelitian ini, hasil penelusuran meta search
engine dikategorikan sebagai “lebih relevan”,
“kurang relevan”, “tidak relevan”, “links”, dan “situs tidak bisa diakses” dengan kriteria dasar masing-masing sebagai berikut:
Jika isi halaman web sesuai dengan pokok subjek yang dimaksud dalam istilah pencarian dan menampilkan dokumen-dokumen makalah penelitian, prosiding seminar/konferensi, paten, dan standar, m a k a d i k a t e g o r i k a n s e b a g a i “ l e b i h r e l e v a n ” d e n g a n n i l a i s k o r 2 .
Jika isi halaman web tidak berkaitan dengan pokok subjek yang dimaksud dalam istilah pencarian namun terdapat beberapa aspek relevan dengan pokok subjek, termasuk didalamnya kamus, ensiklopedi, organisasi, blog, maka dikategorikan sebagai “kurang relevan” dengan nilai skor 1.
Jika isi halaman web hanya menampil-kan kumpulan tautan atau links maka dikategorikan sebagai “tautan” dengan nilai skor 0.5, dengan catatan terdapat satu atau dua tautan terbukti relevan Jika isi halaman web tidak berkaitan sama
sekali dengan pokok subjek yang maksud dalam istilah pencarian maka di-kategorikan sebagai “tidak relevan” dengan nilai skor 0.
Jika alamat website tidak bisa diakses setelah dicek berulang-ulang maka kategorikan sebagai “situs tidak bisa di-akses” dengan nilai skor 0.
Kriteria-kriteria tersebut digunakan untuk mengkalkulasi nilai relative recall dan precision masing-masing meta search engine dengan formula sebagai berikut:
Precision = J u m l a h s k o r s i t u s y a n g ditemukan, Jumlah total
situs yang di evaluasi
Relative recall = J u m l a h t o t a l s i t u s y a n g
ditemukan satu meta search
engine Jumlah total situs
yang ditemukan lima meta
search engine
Relative Recall & precision
Dari hasil pengujian lima meta search
engine, maka diperoleh nilai tengah relative recall and precision sebagai berikut:
Istilah “recall” mengacu pada
ke-mampuan sistem temu kembali informasi untuk menjaring seluruh atau sebagian besar dokumen-dokumen relevan dalam sistem. Pada tabel di atas Polymeta memiliki nilai tengah relative recall tertinggi (0.47), diikuti
Clusty (0.27), Meta search engine (0.12), Sperse (0.10), dan Ixquick (0.02). Variasi nilai
tengah relative recall sangat dipengaruhi oleh bagaimana meta search engine mengirimkan
q u e r y k e b e b e r a p a s e a rc h e n g i n e d a n
k e t e r h u b u n g a n n y a dengan search engine. dan bagaimana meta search engine kombinasikan hasil pencarian dengan meng-hindari redundancy hasil pencarian.
Sedangkan untuk nilai tengah precision,
Sperse mendapat skor tertinggi (1.21) diikuti Meta Search Engine (1.16), Clusty (1.13), Polymeta (1.10), dan Ixquick (1.01). Dalam
hal precision, perbedaan nilai tengah tidak jauh berbeda karena pada dasarnya meta
search engine tidak menjaring langsung
informasi dan membangun indeks dokumen
website. Fungsi utama meta search engine
adalah mendiversifikasi hasil pencarian yang diperoleh dari masing-masing search engine
dan menampilkannya kepada user berdasar-kan peringkat yang juga diperoleh dari masing-masing search engine. Namun demikian, meta
search engine tetap menyaring peringkat hasil
pencarian teratas secara real time.
Kesimpulan
Skema penggabungan hasil pencarian diterapkan pada sistem pengindeksan meta
search engine merupakan metodologi baru
dalam dunia temu kembali informasi y a n g m e m b a n t u u s e r m e m p e r o l e h s e b a n y a k mungkin dokumen relevan. Efektivitas kinerja meta search engine berkaitan erat dengan algoritma homogen yang digunakan untuk menggabungkan hasil pencarian yang diperoleh dari search engine tunggal. Penelitian ini memperlihatkan bahwa nilai tengah relative
recall dan precision lima meta search engine
tidak memiliki gap yang signifikan. Dalam observasi juga ditemukan, bahwa secara keseluruhan nilai precision meta search
engine masih lebih baik dari search engine
tunggal, tetapi untuk relative recall, perolehan dokumen meta search engine berada di bawah level search engine tunggal.
Daftar Pustaka
Dujmovic, Jozo and Bai, Haishi, Evaluation and
comparison of search engines using the LSP method, ComSIS, 3 (2) (2006), Available at
http://www.doiserbia.nb.rs/img/doi/1820-0 2 1 4 / 2 http://www.doiserbia.nb.rs/img/doi/1820-0 http://www.doiserbia.nb.rs/img/doi/1820-0 6 / 1 8 2 http://www.doiserbia.nb.rs/img/doi/1820-0 - http://www.doiserbia.nb.rs/img/doi/1820-0 2 1 4 http://www.doiserbia.nb.rs/img/doi/1820-0 6 http://www.doiserbia.nb.rs/img/doi/1820-0 2 http://www.doiserbia.nb.rs/img/doi/1820-0 3 1 D . p d f (Diakses 20 September 2012).
Hardi, Wishnu, Evaluasi aplikasi DNS se-bagai search engine untuk pencarian nama domain best universities dan top leading banks di Indonesia (2007), available at http://eprints.rclis.org/ bitstream/10760/10422/1/Artikel_Evalu- asi_Aplikasi_DNS_Sebagai_Search_En-gine.pdf (Diakses tanggal 21 September 2012).
Hardi, Wishnu, Mengukur kinerja search engine:
sebuah eksperimentasi penilaian preci-sion and recall untuk informasi ilmiah bidang Ilmu Perpustakaan dan Informa-si, Visi Pustaka, 8 (1) (2006), available at
http://www.pnri.go.id/MajalahOnlineAdd. aspx?id=31 (Diakses tanggal 21 September 2012).
Kumar, B.T. Sampath and Pavithra, S.M.,
Evaluating the searching capabilities of search engines and meta search engines: a comparative study, Annals of Library and Information Studies, 57 (June) 2010,
available at http://nopr.niscair.res.in/ bitstream/123456789/9745/1/ALIS%20 57%282%29%2087-97.pdf (Diakses tang-gal 20 September 2012).
Lu, Yiyao, Meng, W., Shu, L., Yu, C., and Liu, K., Evaluation of result merging strategies
for meta search engines (2005), available
at http://www.cs.binghamton.edu/~ylu0/ papers/Lu_p211.pdf (Diakses tanggal 20 September 2012).
Mahabhashyam, Mahathi S. And Singitham, Pavan, Tadpole: a meta search engine
evaluation of meta search ranking strat-egis, available at http://www.provesearch.
com/doc/1280/tadpole-a-meta-search-en-gine-and-evaluation-of-ranking-strategies (Diakses tanggal 2 Oktober 2012).
Meng, W., Yu C., and Liu, K., Building
ef-ficient and effective meta search en-gines, Journal ACM Computing Surveys (CSUR), 34 (1) 2002, available at http://
dl.acm.org/citation.cfm?id=505284 (Di-akses tanggal 28 September 2012).
Netcraft, March 2012 web server survey, available at http://news.netcraft.com/ archives/2012/03/05/march-2012-web-server-survey.html (Diakses tanggal 21 September 2012).
Srinivas, K., Srinivas, P.V.S., and Govard-han, A., A survey on the performance
evaluation of various meta search en-gines, IJCSI International Journal of Computer Science Issues, 8 (2) 2011,
available at http://www.doaj.org/
doaj?func=abstract&id=807884 (Diakses tanggal 20 September 2012).
Sutter, John D., How many pages are on the internet?, CNN Tech, available at http:// articles.cnn.com/2011-09-12/tech/web. index_1_internet-neurons-human-brain?_ s=PM:TECH (Diakses tanggal 21 Sep-tember 2012).
Taksa, Isak and Spink, Amanda, Evaluating
usability of a long query meta search engine, Proceedings of the 40th Hawaii International Conference on System Sci-ences, (2007), available at http://eprints.
qut.edu.au/14297/1/14297.pdf (Diakases tanggal 20 September 2012).