Institutional Repository | Satya Wacana Christian University: Penerapan Web Crawlerdalam pencarian E-Book T1 672007230 BAB II

(1)

6

Bab 2

Tinjauan Pustaka

2.1 Penelitian Terdahulu

Penerapan Web Crawler dalam Pencarian e-Book ini merupakan hasil pengembangan dari penelitian terhadap Web Crawler yang sudah ada. Penelitian terdahulu yang mengembangkan Web Crawler adalah aplikasi Web crawler

berdasarkan Breadth First Search dan Back-Link, Dalam penelitian ini telah diteliti tantangan bagaimana memprioritaskan

antrian URL untuk menelusuri halaman yang lebih relevan

berdasarkan Breadth First Search dan banyaknya Back-link. Pengembangnya adalah mahasiswa Fakultas Teknologi

Informasi, Universitas Stikubank Semarang (Sulastri dan

Zuliarso, 2010).

Penelitian terhadap penggunaan Internet menunjukkan beberapa hal yang menarik antara lain, hampir 80 persen

pengguna Internet menggunakan search engine, lebih dari 52 persen pengguna Internet menggunakan search engine yang sama setiap kali menggunakan search engine, dan kurang dari 46 persen pengguna merasa selalu berhasil mendapatkan apa yang

dicarinya dengan menggunakan search engine tersebut. Hal ini menunjukkan pentingnya peranan Internet search engine bagi

(2)

2.2

Web Crawler

Web Crawler adalah program yang melintasi Internet

secara otomatis dengan mengambil sebuah halaman web dan kemudian secara rekursif mengambil semua halaman–halaman

terkait (Mayocchi, 2001; Boldi, Codenotti, Santini & Vigna,

2002) .

2.2.1 Fungsi utama Web Crawler

Fungsi utama Web Crawler adalah untuk melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di

Internet. Hasil pengumpulan situs web selanjutnya akan diindeks oleh mesin pencari sehingga mempermudah pencarian informasi

di Internet.

Secara umum sebuah mesin pencari web terdiri dari tiga bagian, yaitu:

1. Spider atau crawler atau link finder: Program komputer yang menelusuri link dari sebuah halaman web ke halaman web yang lain di Internet.

2. Index: Database yang terorganisir dan dapat dicari isinya, merupakan penyimpanan hasil penelusuran

crawler.

3. Mekanisme pencarian dan pengambilan informasi:

perangkat lunak yang dipakai oleh pemakai untuk

(3)

tertentu). Bagian ketiga ini sering disebut “search engine”.

Web Crawler melakukan proses validasi terhadap code

HTML dan tautan yang ditemukan pada situs yang dikunjungi.

Setelah melakukan validasi, halaman web dan tautan tersebut diunduh kemudian diuraikan ke dalam tempat penyimpanan

utama. Data yang dibawa oleh Web Crawler secara sederhana hanya berupa text dan metadata. Sedangkan data tautan yang ditemukan pada halaman web yang dikunjungi akan ditempatkan pada seeds (tempat penyimpanan data URL) masuk ke dalam antrian kunjungan selanjutnya Web Crawler. Secara simultan

WebCrawler mengunjungi situs-situs yang alamatnya terdapat di dalam antrian sampai data URL habis atau dihentikan oleh

administrator.

2.2.2 Dasar Web Crawler

Walaupun banyak aplikasi Web Crawler, pada intinya semuanya secara fundamental sama dan tidak berbeda jauh.

Berikut ini proses yang dilakukan Web Crawler pada saat berkerja (Sulastri dan Zuliarso, 2010):

1. Mengunduh halaman web.

2. Menguraikan halaman yang diunduh dan mengambil

semua link.

(4)

Web Crawler mengambil URL dan mengunduh halaman dari Internet berdasarkan URL yang diberikan. Tahap kedua, Web crawler menguraikan keseluruhan halaman yang diunduh dan mengambil link dari halaman lain. Tiap link dalam halaman didefinisikan dengan sebuah penanda HTML. Langkah ketiga

dari Web Crawler adalah mengulangi proses. Semua crawler

bekerja dengan rekursif atau bentuk perulangan, tetapi ada dua

cara berbeda untuk menanganinya. Link dapat di-crawling dalam cara depth-first atau breadth-first (Sulastri dan Zuliarso, 2010).

Breadth-first crawling adalah algoritma yang melakukan pencarian secara melebar yang mengunjungi link secara preorder

yaitu mengunjungi suatu link kemudian mengunjungi semua link

yang bertetangga dengan link tersebut terlebih dahulu. Selanjutnya, link yang belum dikunjungi dan bertetangga dengan

link yang tadi dikunjungi, demikian seterusnya (kustanto, mutia, Viqarunnisa, 2005). dikunjungi (Menczer, Pant, Srinivasan and Ruiz, 2001;

Chakrabarti, van den Berg, Domc, 1999; Angkawattanawit,

(5)

Gambar 2.1 Breadth-first crawling (Gozali & Faezal. 2004).

Alternatif lainnya adalah Depth first crawling. Dalam hal ini. Crawling atau spider akan menelusuri halaman web dengan mengikuti link mulai dari link pertama pada halaman awal level 0 dilanjutkan pada link pertama pada level 1 dan begitu seterusnya sampai akhir dari link tersebut. Selanjutnya proses secara

(6)

Gambar 2.2 Depth first crawling (Gozali & Faezal, 2004).

Dalam mengikuti link pada sebuah alamat situs web yang dikunjungi, seberapa jauh kedalaman level yang diikuti spider

tersebut diatur sendiri oleh pembuatnya. Ada spider yang mengindeks sebuah alamat situs web secara tuntas, ada yang mengikuti link tanpa menghiraukan letak dari halaman tersebut.

Beberapa search engine bahkan membatasi kedalaman

spidering mereka untuk menghemat tempat penyimpanan yang dibutuhkan dan untuk menghindari loop yang terjadi pada sebuah situs web. Kecepatan dan banyaknya informasi yang diperoleh

spider juga dipengaruhi oleh kedalaman ini. (Gozali & Faezal, 2004).

Keberadaan Internet khususnya web menimbulkan tantangan baru didalam teknologi penelusuran informasi atau

information retrieval. Jumlah informasi yang ada di web

(7)

terdapat lebih dari 350 juta halaman web dan bertambah hampir sejuta halaman setiap hari, bahkan dari hasil penelitian

diperkirakan lebih dari 600 Giga byte data halaman web yang berubah setiap bulannya. Kecepatan pertumbuhan informasi pada

halaman web ini menyebabkan terbatasnya kemampuan dari

search engine yang menggunakan kedua cara spidering tersebut diatas (Ozsoyoglu & Alhamdani, 2003).

Untuk mempercepat proses spidering serta memperbanyak informasi yang dimiliki pada database, beberapa situs bahkan memiliki lebih dari satu spider, misalnya, google.com memiliki beberapa spider yang bekerja sangat cepat dalam mengumpulkan data tentang halaman situs web. Cara ini disebut multi-threaded spidering.

Setiap spider dapat membuka lebih dari 300 koneksi halaman web dalam waktu yang bersamaan. Pada performa terbaiknya, sebuah spider dapat membuka ratusan bahkan ribuan halaman web perdetik dan mengumpulkan sekitar 600 KByte data perdetik (Bharat & Broder,1998).

2.2.3 Desain Web Crawler

Penerapan Crawler pertama dilakukan oleh Mathew Gray’s Wanderer pada musim semi 1993 yang bertepatan dengan

diluncurkan MOSAIC NCSA yaitu sebuah penjelajah web

(8)

Windows dan UNIX (berbasis Motif). Peramban web tersebut dinamai MOSAIC.

Gambar 2.3 Arsitektur Web Crawler (Heydon & Narajork, 1999)

 Manager Crawler

Mengambil satu set URL dari link Extractor dan mengirim URL selanjutnya ke DNS resolver untuk mendapatkan alamat IP-nya. Hal ini dapat menghemat banyak waktu karena spider tidak harus setiap waktu mengirimkan permintaan DNS setiap kali

ingin menggunduh halaman.

 File Robot.txt

Robot.txt adalah sarana dimana pembuat web (web author)

menunjukkan halaman mana yang ingin web crawler hindari.

Crawler juga harus menghormati keinginan para author.

 Spider

Download robot.txt file dan halaman lain yang diminta oleh manager crawler dan diijinkan oleh web author. File-file robot.txt dikirimkan ke manager crawler untuk processing dan

(9)

 Link Extractor

Link extractor ini digunakan untuk melihat halaman yang diunduh oleh spiders, extract URL dari link pada halaman tersebut dan mengirim URL ke manager crawler untuk diunduh.

Setiap Crawler harus memenuhi dua syarat berikut (Suel dan Shkapenyuk, 2002):

1. Crawler harus memiliki rancangan strategi yang baik. 2. Mempunyai sistem arsitektur yang sangat optimal

sehingga dapat mengunduh halaman dalam jumlah

banyak tiap detiknya.

Kebanyakan search engines menggunakan lebih dari satu

crawler dan mengendalikannya dalam sebuah metode distribusi.

Search engines mempunyai beberapa kelebihan: 1. Meningkatkan pemanfaatan sumber daya.

2. Pendistribusian tugas crawling menjadi lebih efektif tanpa hambatan.

(10)

2.3

E-Book

E-Book sendiri merupakan buku atau dokumen/artikel dalam format elektronik yang mempunyai banyak manfaat antara

lain :

1. Ukuran fisik yang kecil.

2. Tidak lapuk.

3. Mudah diproses.

4. Mudah dibawa.

5. Mudah didistribusikan.

6. Penggandaan ( duplikasi, copying ) e-Book sangat murah dan mudah.

E-Book adalah singkatan dari Electronic Book atau buku elektronik. e-Book tidak lain adalah sebuah bentuk buku yang dapat dibuka secara elektronis melalui komputer. e-Book ini berupa file dengan format bermacam-macam,

ada yang berupa PDF (portable document format) yang dapat dibuka dengan program Acrobat Reader atau sejenisnya. Ada juga yang dengan bentuk format HTML, yang dapat dibuka