Search Engine
Asep Herman Suyanto info@bambutechno.com http://www.bambutechno.comBeberapa search engine adalah untuk general-purpose pencarian. General-purpose search engines ini bisa lebih lanjut dibagi menjadi dua sub-categories: langsung atau pun tidak. Search engine langsung yang mempunyai database dan index halaman web mereka sendiri. Sedangkan
search engine tidak langsung, juga disebut meta search engine, pada umumnya tidak mempunyai
database mereka sendiri, tetapi mengirimkan query kepada beberapa search engine langsung sebelum menggabungkan hasil (Li et al., 2001).
1. Sistem Kerja Search Engine
Sistem kerja search engine pada WWW, secara umum terdiri dari tiga subsistem, antara lain: crawler, indexer, dan searcher. Crawler merupakan program yang mengambil (fetch/retrieve) halaman-halaman web, yang akan digunakan oleh search engine atau web cache. Langkah kerja
crawler diawali dengan sebuah URL dari halaman web. Crawler mengambil halaman web tersebut, kemudian melakukan ekstraksi terhadap URL yang ada di dalamnya, dan memasukkan URL-URL tersebut ke dalam daftar antrian URL-URL yang akan diperiksa (scan) dan diambil. Setelah selesai,
crawler melihat ke dalam daftar antrian untuk mengambil URL yang akan diambil (proses pengambilan itu berdasar pada urutan tertentu). Selanjutnya crawler mengulangi proses tersebut hingga semua URL yang ada di dalam daftar antrian selesai diambil atau sampai proses tersebut dihentikan oleh sistem (Cho, 1998).
Halaman web yang telah diambil, diberikan kepada klien yang akan menyimpan halaman-halaman web tersebut. Sesudah semua halaman web terkumpul dan tersimpan, selanjutnya dilakukan proses pembuatan index untuk halaman-halaman. Selain pembuatan index, pada subsistem ini juga dilakukan pembuatan rangkuman dan analisis terhadap isi halaman web. Pada beberapa search engine yang juga memasukkan kriteria struktur link untuk sistemnya, dalam tahap
ini juga dilakukan pembuatan rangkuman dan analisis terhadap struktur link tersebut. Kemudian, semua hasil dari pembuatan rangkuman dan analisis itu ikut disimpan dalam database. Keseluruhan proses di atas dikerjakan oleh subsistem indexer (Fatwanto,2004).
Sementara itu, subsistem searcher berfungsi sebagai antarmuka (interface) antara user (user) dengan keseluruhan sistem. Subsistem searcher menangani masukan query dari user kemudian melakukan pencarian terhadap isi index untuk mencari halaman-halaman web yang cocok dengan query yang dimasukkan. Hasil yang diperoleh dari proses pencarian kemudian diberi bobot untuk beberapa kategori, baik untuk bobot yang berbasis isi atau teks halaman web, maupun untuk bobot yang berbasis struktur link antar halaman web. Setelah bobot untuk masing-masing kategori dihitung, hasilnya digabung dengan rumusan yang telah ditentukan, sehingga akan diperoleh bobot akhir atau bobot total untuk masing-masing halaman web hasil pencarian. Berdasarkan bobot total tersebut, dilakukan pengurutan (sorting) bobot dari nilai yang besar ke nilai yang kecil (descending), sehingga urutan halaman web hasil pencarian ditampilkan berdasarkan hasil pengurutan bobot total tersebut (Fatwanto,2004).
Secara umum arsitektur untuk search engine yang standar diperlihatkan pada Gambar 2.1, seperti berikut :
Gambar 2.1 Standar Arsitektur Search Engine 2. Ukuran Index Search Engine
Web begitu pesat berkembang dalam jumlah dan ukurannya. Maka ukuran index search engine juga menjadi meningkat. Bagaimanapun, index yang besar dapat membantu user mencari
yang tidak biasa atau sangat mendalam untuk pencarian informasi. Sebagai konsekwensi, ketika
user mencari akan terkaburkan, karena penggunaan search engine dengan index besar.
Gambar 2.2 menunjukkan bagaimana banyak dokumen teks telah di-index, yang meliputi
file HTML, document text, file PDF, Microsoft Office dan file serupa lain. File image dan multimedia tidak dimasukkan. Tidak pula menempatkan diskusi Google Groups. Gambar tersebut menunjukkan bagaimana ukuran search engine dalam skala milyar dokumen yang telah di-index. Telah berubah tiap tahun, dari Desember 1995 sampai September 2003. Hanya search engine yang masih merayap web ditunjukkan pada Grafik. Seperti, Northern Light, Excite, Infoseek dan yang lain, yang tidak lagi merayap tidak dipertunjukkan. (Sullivan, 28 Januari 2005).
Key : GG : Google, ATW : AllTheWeb, INK : Inktomi, TMA : Teoma, AV : AltaVista Gambar 2.2 Perkembangan Ukuran Search Engine
3. Search Engine Ratings 1. Nielsen NetRatings
Nielsen NetRatings MegaView Search melaporkan service pengukur perilaku pencarian kira-kira 500,000 orang-orang di seluruh dunia. Web surfer ini mempunyai real-time meter pada komputer mereka yang memonitor site yang mereka kunjungi. Informasi yang diukur ini di-compile
untuk menghasilkan hasil Netratings. Di bawah adalah statistik tentang pencarian dari Netratings yang dilakukan bulan Juli 2006.
Gambar 2.3 menunjukkan persentase dari pencarian online yang dilakukan di rumah yang ada di AS dan kerjaan web surfers pada bulan Juli 2006 yang dilakukan pada search engine
tertentu. Pencarian internal site, seperti untuk temukan material di dalam web site tertentu, tidak dihitung di total ini. Aktivitas pada lebih dari 60 site pencari menyusun total volume pencarian atas
persentase yang didasarkan-- 5.6 milyar pencarian di dalam bulan Juli 2006. (Sullivan, 22 Agustus 2006) Nielsen NetRatings Google 49.20% Yahoo 23.80% MSN 9.60% AOL 6.30% Ask 2.60% Others 8.50% Google Yahoo MSN AOL Ask Others
Gambar 2.3 Nielsen NetRatings : Juli 2006 2. comScore Media Metrix
ComScore Media Metrix qSearch service mengukur pencarian sepesifik lalu lintas pada
internet. qSearch data dikumpulkan dengan memonitor aktivitas web 1.5 juta English-Speakers di seluruh dunia (1 juta di AS) via proxy metering. Proxy metering mengijinkan comScore untuk melihat secara pasti bagaimana di dalam panel-nya telah men-surf web. Dari data ini, perusahaan kemudian menyadap aktivitas dianggap secara spesifik terkait dengan pencarian. Gambar 2.4 memperlihatkan hasil tentang perhitungan pencarian dari qSearch yang diluncurkan ke masyarakat. Ini menunjukkan persentase dari pencarian yang dilaksanakan oleh web surfers AS, kerjaan dan di universitas pada bulan Juli 2006. Itu dilakukan pada web site tertentu atau jaringan web site. (Sullivan, 21 Agustus 2006).
comScore Media Metrix Google 43.70% Yahoo 28.80% MSN 12.80% AOL 5.90% Ask 5.40% Others 3.40% Google Yahoo MSN AOL Ask Others
Gambar 2.4 comScore Media Metrix: Juli 2006 3. Hitwise
Hitwise menggunakan penggabungan data surfing web tanpa nama yang disajikan oleh ISP dalam berbagai negara dan pengukuran berdasarkan panel sendiri untuk menentukan site yang paling populer pada web. Data meliputi aktivitas surfing 25 juta orang, di seluruh dunia.
Tabel 2.1 menunjukkan persentase pencarian masing-masing search engine yang ditangani dari semua pencarian di AS. Bulan ditunjukkan di atas kolom dan akhir per tanggal ditunjukkan di bawah. Pencarian dilakukan pada 57 search engine yang terukur oleh Hitwise. (Sullivan, 23 Agustus 2006).
4. Searches Per Day
Tabel 2.2 menunjukkan gambaran banyaknya pencarian dilakukan tiap hari yang terjadi di dalam Amerika Serikat pada Maret 2006, yang didasarkan pada jumlah comScore. (Sullivan, 20 April 2006).
Tabel 2.1 Hitwise: Maret-Juli 2006 Search Engine Domain 3/06 4/06 5/06 6/06 7/06 Google www.google.com 58.3% 58.6% 59.3% 59.8% 60.2% Yahoo search.yahoo.com 22.3% 22.2% 22.0% 22.3% 22.5% MSN search.msn.com 13.1% 12.6% 12.1% 12.1% 11.8% Ask www.ask.com 4.0% 4.2% 4.4% 3.6% 3.3% AOL search.aol.com 1.0% 1.0% 0.9% 1.1% 1.0% Others n/a 1.3% 1.2% 1.2% 1.1% 1.0%
Tabel 2.2 Pencarian Per Hari Searches Per Day
(Millions) Per Month (Millions) Google 91 2,733 Yahoo 60 1,792 MSN 28 845 AOL 16 486 Ask 13 378 Others 6 166 Total 213 6,400