• Tidak ada hasil yang ditemukan

MENGUJI EFEKTIVITAS ALGORITMA PENGINDEKSAN META SEARCH ENGINE DENGAN METODE PENILAIAN RELATIVE RECALL & PRECISION

N/A
N/A
Protected

Academic year: 2021

Membagikan "MENGUJI EFEKTIVITAS ALGORITMA PENGINDEKSAN META SEARCH ENGINE DENGAN METODE PENILAIAN RELATIVE RECALL & PRECISION"

Copied!
6
0
0

Teks penuh

(1)

A. Pendahuluan

Search engine mulai diperkenalkan pada

tahun 1993 dan berbagai teknik untuk mengevaluasi performa search engine dipublikasikan tahun 1996. Selama periode 10 tahun terakhir sejak kemunculannya, teknologi search engine mengalami kemajuan yang sangat dramatis. Saat ini search engine merupakan perangkat

web yang paling berpengaruh karena

peranan-nya dalam proses temu kembali informasi. Pesatnya perkembangan teknologi search

engine dan proliferasi website menciptakan

tantangan-tantangan baru dalam dunia temu kembali informasi. Menurut survey yang di-lakukan Situs Netcraft jumlah website yang ada di dunia sejak tahun 1995 hingga Maret 2012 telah mencapai 644,275,754 website. S e m e n t a r a i t u , K e v i n K e l l y, p e n d i r i m a j a l a h Wi r e d ¸ seperti yang dikutip oleh Sutter (2011), kolumnis CNN Tech, menulis bahwa saat ini di dunia terdapat lebih dari satu triliun halaman web. Dari jumlah tersebut, hanya sekitar 1% saja yang berada ‘per-mukaan’ dan mudah ditemukan.

Kini, proses mencari informasi relevan menjadi semakin rumit dan memakan waktu.

MENGUJI EFEKTIVITAS ALGORITMA PENGINDEKSAN META SEARCH ENGINE

DENGAN METODE PENILAIAN RELATIVE RECALL & PRECISION UNTUK HASIL

PENCARIAN ORGANIK BIDANG ILMU PERPUSTAKAAN DAN INFORMASI

Wishnu Hardi*

* Pegawai pada National Library of Australia Jakarta Offi ce

Pengguna sering menemui kesulitan ketika mengkonversi bahasa alami menjadi konsep atau istilah yang dikenal oleh search engine. Sifat ambiguitas bahasa alami menyebabkan satu kata bisa memiliki lebih dari satu makna, di sisi lain, beberapa kata dapat mengekspresi-kan konsep yang sama. Efektivitas search

engine untuk penelusuran query yang bersifat

luas atau ambigu masih dipertanyakan oleh karena hasil penelusuran masih mencampur adukan beragam subtopik atau k o n s e p dengan informasi yang kurang relevan. Kendala bahasa (language barrier) akan terus menjadi tantangan yang mendorong pengem-bangan model search engine yang lebih baik lagi.

Diskusi mengenai efektivitas kinerja dari sebuah search engine selalu dikaitkan dengan tingkat relevansi hasil pencarian. Meski-pun demikian, definisi konsep relevansi telah menjadi perdebatan bertahun-tahun d a l a m Ilmu Perpustakaan dan Informasi. Artikel ini mengevaluasi efektivitas algoritma pengindeksan lima meta search engine untuk temu kembali informasi ilmiah untuk bidang Ilmu Perpustakaan dan Informasi.

Pengujian dilakukan dengan mengukur tingkat relative recall dan precision pada

Abstrak

Makalah ini menguji efektivitas algoritma pengindeksan lima meta search engine yaitu Speres,

Ixquick, Meta Search Engine, Clusty dan Polymeta. Ada lima belas pertanyaan yang dipilih terkait istilah

Ilmu Perpustakaan dan Informasi. Setiap pertanyaan kemudian dikirim ke semua meta search engine tersebut. Hasil dari percobaan ini lalu dievaluasi dan dibandingkan dengan cara penilaian relative recall dan precision. Hasil dari penelitian ini menunjukkan bahwa masalah yang dihasilkan tetap menjadi tantangan dalam membangun meta search engine yang baik.

(2)

masing-masing meta search engine. Precision adalah proporsi hasil pencarian dari suatu

query yang benar-benar relevan. Dalam hal

ini, precision mengukur tingkat “gangguan” dari akurasi informasi yang ditampilkan. Sedangkan, relative recall adalah proporsi seluruh hasil pencarian relevan yang ditemu-kan oleh sistem.

Studi Literatur

Kajian mengenai meta search engine telah dimulai sejak tahun 90-an seiring perkembangan search engine yang kian pesat. Dreiliner (1996) dalam tesisnya mengevaluasi efektivitas meta search engine dalam memilah dan memberikan peringkat hasil pencarian dengan menguji algoritma

meta indeks. Meng, Yu, dan Liu (2002) men-survey berbagai teknik yang sering digunakan

untuk mengatasi masalah mendasar dalam membangun meta search engine yang baik.

Namun, penelitian ini belum dapat dika-takan berhasil menemukan solusi untuk tiga masalah utama meta search engine, yakni pe-nyeleksian database, pepe-nyeleksian dokumen, dan penggabungan hasil, oleh karena masih memerlukan informasi lebih jauh mengenai komponen search engine yang diteliti.

Lu, Meng, Shu, dan Yu (2005) meng-investigasi variasi algoritma penggabungan hasil pencarian meta search engine. Dujmovic dan Bai (2006) melakukan evaluasi dan perbandingan search engine dengan metode

Logic Scoring of Preference (LSP). Model

pen-dekatan kuantitatif ini cukup efektif mengukur fungsionalitas, penggunaan, dan performa

search engine karena menggunakan mekanisme

struktur dekomposisi yang meliputi keseluruhan atribut sistem yang berpengaruh terhadap

search engine yang sedang dievaluasi.

Taksa dan Spink (2007) menganalisis

pemakaian query yang bersifat kompleks pada meta search engine dengan mengukur efektivitas, efisiensi, dan tingkat kepuasan.

Kumar dan Pavithra (2010) menguji kapabilitas meta search engine dengan melaku-kan perbandingan dengan search engine. Pe-nelitian ini membuktikan bahwa meta search

engine mampu menghasilkan nilai precision

yang lebih baik dari search engine. Sebaliknya, nilai relative recall meta search engine masih rendah meskipun memiliki berbagai keunggulan

teoretis dalam hal pencarian ke database-data-base tunggal.

Srinivas, Srinivas, dan Govardhan (2011) melakukan survey komprehensif meta search

engine dengan menggunakan paramater,

antara lain, keterhubungan meta search engine dengan search engine lokal, waktu respon, dan algoritma pemeringkatan. Hasil studi membuktikan bahwa meta search engine me-miliki superioritas dibandingkan search engine biasa dalam hal relative recall and precision.

Mahabhashyam dan Singitham (2012) mengevaluasi strategi pemeringkatan meta

search engine. Dari hasil evaluasi ditemukan

bahwa kompleksitas komputasional dari algoritma pemeringkatan dan performa meta

search engine adalah parameter yang saling

bertentangan.

Meta search engine

Istilah meta search engine digunakan untuk menjelaskan paradigma pencarian ke banyak sumber data secara real time. Meta

search engine menyediakan akses tunggal ke

berbagai search engine dan mengkombinasikan h a s i l p e n e l u s u r a n y a n g k e m u d i a n d i -g a b u n -g k a n dan ditampilkan berdasarkan peringkat. Meta search engine dirancang untuk dapat situs-situs yang sulit ditemukan (deep

web). Hal ini didasari fakta bahwa pesatnya

pertumbuhan web menyebabkan efektivitas pencarian search engine semakin berkurang.

Dengan demikian, meta search engine beroperasi berdasarkan premis bahwa dunia

web terlalu besar bagi satu search engine

(3)

Pengembangan meta search-engine secara konsisten terus dilakukan dengan tujuan, antara lain, meningkatkan cakupan pencarian

web, memfasilitasi pencarian informasi ke

banyak search engine, mengatasi skalabilitas penelusuran web, dan meningkatkan efektivitas temu kembali informasi (Meng, Yu, dan Liu 2002). Sementara itu, Dreiliner (1996) dalam tesisnya menyebutkan setidaknya ada 3 (tiga) komponen utama dalam arsitektur dasar meta

search engine, pertama, mekanisme pengiriman query (disptach mechanism), penghubung

antarmuka (interface agent), dan mekanisme display hasil pencarian (display mechanism)

Meta search engine bekerja dengan melakukan

skema penggabungan (fusion) search engine sehingga dapat menjangkau

database-data-base besar serta meningkatkan nilai relative recall dan precision.

Tiga kelebihan meta search engine lainnya antara lain :

Pertama, performa meta search engine lebih konsisten karena mampu mengkombinasi-kan kekuatan dan kelemahan yang ada pada masing-masing search engine.

Kedua, meta search engine dapat mengatasi problem arsitektur modular search engine dalam proses pencarian informasi seperti frekuensi kata dan frase, struktur tekstual dokumen, dan struktur hyperlink antar dokumen.

Ketiga, meta search engine menggunakan model algoritma pemeringkatan yang terfokus sehingga dapat menghasilkan informasi yang lebih spesifik.

Meskipun meta search engine dapat mengatasi beberapa kekurangan search engine biasa, adakalanya nilai precision yang dihasilkan rendah karena heteroginitas search

engine-search engine yang mendasarinya. Dengan

kata lain, query yang digunakan untuk men-dapatkan informasi yang dimaksud secara optimal dapat berbeda-beda antara satu search engine dengan yang lainnya.

Metodologi dan Test Environment

Lima meta search engine dipilih secara acak untuk diuji efektivitas hasil pencarian-nya. Kelima search engine tersebut adalah

Sperse, Ixquick, Meta Search Engine, Clusty, dan Polymeta. Lima belas istilah yang

me-wakili topik dibidang Ilmu Informasi dan Perpustakaan dipilih yang kemudian diklasifi kasi menjadi konsep tunggal (annotation, bibliography,

monograph, librarianship, cataloguing),

konsep majemuk (controlled vocabulary,

digital library, special libraries, resource description and access,MARC format), dan

konsep kompleks (evaluation of library

collection, library and censorship, biblio-metrics research method, library metadata standards, information literacy and libraries).

Penulis membatasi penelitian pada sepuluh website hasil penelusuran yang muncul pada halaman pertama saja. Hal ini sejalan dengan penelitian yang dilakukan Google bahwa hampir 85% pengguna hanya melihat hasil penelusuran pada halaman pertama saja.

Masing-masing istilah yang mewakili konsep tunggal, gabungan, dan kompleks kemudian diujikan pada lima meta search engine. P e n g u j i a n k u e r i p a d a l i m a m e t a s e a rc h

engine menggunakan advanced mode dengan

metode “exact phrase”. Metode ini dipilih agar penjaringan informasi menghasilkan tingkat precision yang lebih tinggi dan dikontrol dengan hanya menggunakan bahasa Inggris agar pengukuran tingkat relevansi lebih mudah dilakukan. Pengujian dilakukan pada waktu yang berdekatan untuk meminimalisasi variasi temporal system dan pemutakhiran

indeks meta search engine.

Nilai precision dilihat dari seberapa baik kualitas sistem dalam menampilkan hasil pencarian secara benar dan akurat. Pada pe-nelitian ini, hasil penelusuran meta search

engine dikategorikan sebagai “lebih relevan”,

“kurang relevan”, “tidak relevan”, “links”, dan “situs tidak bisa diakses” dengan kriteria dasar masing-masing sebagai berikut:

(4)

ƒ Jika isi halaman web sesuai dengan pokok subjek yang dimaksud dalam istilah pencarian dan menampilkan dokumen-dokumen makalah penelitian, prosiding seminar/konferensi, paten, dan standar, m a k a d i k a t e g o r i k a n s e b a g a i “ l e b i h r e l e v a n ” d e n g a n n i l a i s k o r 2 .

ƒ Jika isi halaman web tidak berkaitan dengan pokok subjek yang dimaksud dalam istilah pencarian namun terdapat beberapa aspek relevan dengan pokok subjek, termasuk didalamnya kamus, ensiklopedi, organisasi, blog, maka dikategorikan sebagai “kurang relevan” dengan nilai skor 1.

ƒ Jika isi halaman web hanya menampil-kan kumpulan tautan atau links maka dikategorikan sebagai “tautan” dengan nilai skor 0.5, dengan catatan terdapat satu atau dua tautan terbukti relevan ƒ Jika isi halaman web tidak berkaitan sama

sekali dengan pokok subjek yang maksud dalam istilah pencarian maka di-kategorikan sebagai “tidak relevan” dengan nilai skor 0.

ƒ Jika alamat website tidak bisa diakses setelah dicek berulang-ulang maka kategorikan sebagai “situs tidak bisa di-akses” dengan nilai skor 0.

Kriteria-kriteria tersebut digunakan untuk mengkalkulasi nilai relative recall dan precision masing-masing meta search engine dengan formula sebagai berikut:

Precision = J u m l a h s k o r s i t u s y a n g ditemukan, Jumlah total

situs yang di evaluasi

Relative recall = J u m l a h t o t a l s i t u s y a n g

ditemukan satu meta search

engine Jumlah total situs

yang ditemukan lima meta

search engine

Relative Recall & precision

Dari hasil pengujian lima meta search

engine, maka diperoleh nilai tengah relative recall and precision sebagai berikut:

Istilah “recall” mengacu pada

ke-mampuan sistem temu kembali informasi untuk menjaring seluruh atau sebagian besar dokumen-dokumen relevan dalam sistem. Pada tabel di atas Polymeta memiliki nilai tengah relative recall tertinggi (0.47), diikuti

Clusty (0.27), Meta search engine (0.12), Sperse (0.10), dan Ixquick (0.02). Variasi nilai

tengah relative recall sangat dipengaruhi oleh bagaimana meta search engine mengirimkan

q u e r y k e b e b e r a p a s e a rc h e n g i n e d a n

k e t e r h u b u n g a n n y a dengan search engine. dan bagaimana meta search engine kombinasikan hasil pencarian dengan meng-hindari redundancy hasil pencarian.

Sedangkan untuk nilai tengah precision,

Sperse mendapat skor tertinggi (1.21) diikuti Meta Search Engine (1.16), Clusty (1.13), Polymeta (1.10), dan Ixquick (1.01). Dalam

hal precision, perbedaan nilai tengah tidak jauh berbeda karena pada dasarnya meta

search engine tidak menjaring langsung

informasi dan membangun indeks dokumen

website. Fungsi utama meta search engine

adalah mendiversifikasi hasil pencarian yang diperoleh dari masing-masing search engine

(5)

dan menampilkannya kepada user berdasar-kan peringkat yang juga diperoleh dari masing-masing search engine. Namun demikian, meta

search engine tetap menyaring peringkat hasil

pencarian teratas secara real time.

Kesimpulan

Skema penggabungan hasil pencarian diterapkan pada sistem pengindeksan meta

search engine merupakan metodologi baru

dalam dunia temu kembali informasi y a n g m e m b a n t u u s e r m e m p e r o l e h s e b a n y a k mungkin dokumen relevan. Efektivitas kinerja meta search engine berkaitan erat dengan algoritma homogen yang digunakan untuk menggabungkan hasil pencarian yang diperoleh dari search engine tunggal. Penelitian ini memperlihatkan bahwa nilai tengah relative

recall dan precision lima meta search engine

tidak memiliki gap yang signifikan. Dalam observasi juga ditemukan, bahwa secara keseluruhan nilai precision meta search

engine masih lebih baik dari search engine

tunggal, tetapi untuk relative recall, perolehan dokumen meta search engine berada di bawah level search engine tunggal.

Daftar Pustaka

Dujmovic, Jozo and Bai, Haishi, Evaluation and

comparison of search engines using the LSP method, ComSIS, 3 (2) (2006), Available at

http://www.doiserbia.nb.rs/img/doi/1820-0 2 1 4 / 2 http://www.doiserbia.nb.rs/img/doi/1820-0 http://www.doiserbia.nb.rs/img/doi/1820-0 6 / 1 8 2 http://www.doiserbia.nb.rs/img/doi/1820-0 - http://www.doiserbia.nb.rs/img/doi/1820-0 2 1 4 http://www.doiserbia.nb.rs/img/doi/1820-0 6 http://www.doiserbia.nb.rs/img/doi/1820-0 2 http://www.doiserbia.nb.rs/img/doi/1820-0 3 1 D . p d f (Diakses 20 September 2012).

Hardi, Wishnu, Evaluasi aplikasi DNS se-bagai search engine untuk pencarian nama domain best universities dan top leading banks di Indonesia (2007), available at http://eprints.rclis.org/ bitstream/10760/10422/1/Artikel_Evalu- asi_Aplikasi_DNS_Sebagai_Search_En-gine.pdf (Diakses tanggal 21 September 2012).

Hardi, Wishnu, Mengukur kinerja search engine:

sebuah eksperimentasi penilaian preci-sion and recall untuk informasi ilmiah bidang Ilmu Perpustakaan dan Informa-si, Visi Pustaka, 8 (1) (2006), available at

http://www.pnri.go.id/MajalahOnlineAdd. aspx?id=31 (Diakses tanggal 21 September 2012).

Kumar, B.T. Sampath and Pavithra, S.M.,

Evaluating the searching capabilities of search engines and meta search engines: a comparative study, Annals of Library and Information Studies, 57 (June) 2010,

available at http://nopr.niscair.res.in/ bitstream/123456789/9745/1/ALIS%20 57%282%29%2087-97.pdf (Diakses tang-gal 20 September 2012).

Lu, Yiyao, Meng, W., Shu, L., Yu, C., and Liu, K., Evaluation of result merging strategies

for meta search engines (2005), available

at http://www.cs.binghamton.edu/~ylu0/ papers/Lu_p211.pdf (Diakses tanggal 20 September 2012).

Mahabhashyam, Mahathi S. And Singitham, Pavan, Tadpole: a meta search engine

evaluation of meta search ranking strat-egis, available at http://www.provesearch.

com/doc/1280/tadpole-a-meta-search-en-gine-and-evaluation-of-ranking-strategies (Diakses tanggal 2 Oktober 2012).

(6)

Meng, W., Yu C., and Liu, K., Building

ef-ficient and effective meta search en-gines, Journal ACM Computing Surveys (CSUR), 34 (1) 2002, available at http://

dl.acm.org/citation.cfm?id=505284 (Di-akses tanggal 28 September 2012).

Netcraft, March 2012 web server survey, available at http://news.netcraft.com/ archives/2012/03/05/march-2012-web-server-survey.html (Diakses tanggal 21 September 2012).

Srinivas, K., Srinivas, P.V.S., and Govard-han, A., A survey on the performance

evaluation of various meta search en-gines, IJCSI International Journal of Computer Science Issues, 8 (2) 2011,

available at http://www.doaj.org/

doaj?func=abstract&id=807884 (Diakses tanggal 20 September 2012).

Sutter, John D., How many pages are on the internet?, CNN Tech, available at http:// articles.cnn.com/2011-09-12/tech/web. index_1_internet-neurons-human-brain?_ s=PM:TECH (Diakses tanggal 21 Sep-tember 2012).

Taksa, Isak and Spink, Amanda, Evaluating

usability of a long query meta search engine, Proceedings of the 40th Hawaii International Conference on System Sci-ences, (2007), available at http://eprints.

qut.edu.au/14297/1/14297.pdf (Diakases tanggal 20 September 2012).

Referensi

Dokumen terkait