6
Bab 2
Tinjauan Pustaka
2.1
Penelitian Terdahulu
Penerapan Web Crawler dalam Pencarian e-Book ini merupakan hasil pengembangan dari penelitian terhadap Web Crawler yang sudah ada. Penelitian terdahulu yang mengembangkan Web Crawler adalah aplikasi Web crawler
berdasarkan Breadth First Search dan Back-Link, Dalam penelitian ini telah diteliti tantangan bagaimana memprioritaskan
antrian URL untuk menelusuri halaman yang lebih relevan
berdasarkan Breadth First Search dan banyaknya Back-link. Pengembangnya adalah mahasiswa Fakultas Teknologi
Informasi, Universitas Stikubank Semarang (Sulastri dan
Zuliarso, 2010).
Penelitian terhadap penggunaan Internet menunjukkan beberapa hal yang menarik antara lain, hampir 80 persen
pengguna Internet menggunakan search engine, lebih dari 52 persen pengguna Internet menggunakan search engine yang sama setiap kali menggunakan search engine, dan kurang dari 46 persen pengguna merasa selalu berhasil mendapatkan apa yang
dicarinya dengan menggunakan search engine tersebut. Hal ini menunjukkan pentingnya peranan Internet search engine bagi
2.2
Web CrawlerWeb Crawler adalah program yang melintasi Internet
secara otomatis dengan mengambil sebuah halaman web dan kemudian secara rekursif mengambil semua halaman–halaman
terkait (Mayocchi, 2001; Boldi, Codenotti, Santini & Vigna,
2002) .
2.2.1 Fungsi utama Web Crawler
Fungsi utama Web Crawler adalah untuk melakukan penjelajahan dan pengambilan halaman-halaman web yang ada di
Internet. Hasil pengumpulan situs web selanjutnya akan diindeks oleh mesin pencari sehingga mempermudah pencarian informasi
di Internet.
Secara umum sebuah mesin pencari web terdiri dari tiga bagian, yaitu:
1. Spider atau crawler atau link finder: Program komputer yang menelusuri link dari sebuah halaman web ke halaman web yang lain di Internet.
2. Index: Database yang terorganisir dan dapat dicari isinya, merupakan penyimpanan hasil penelusuran
crawler.
3. Mekanisme pencarian dan pengambilan informasi:
perangkat lunak yang dipakai oleh pemakai untuk
tertentu). Bagian ketiga ini sering disebut “search engine”.
Web Crawler melakukan proses validasi terhadap code
HTML dan tautan yang ditemukan pada situs yang dikunjungi.
Setelah melakukan validasi, halaman web dan tautan tersebut diunduh kemudian diuraikan ke dalam tempat penyimpanan
utama. Data yang dibawa oleh Web Crawler secara sederhana hanya berupa text dan metadata. Sedangkan data tautan yang ditemukan pada halaman web yang dikunjungi akan ditempatkan pada seeds (tempat penyimpanan data URL) masuk ke dalam antrian kunjungan selanjutnya Web Crawler. Secara simultan
WebCrawler mengunjungi situs-situs yang alamatnya terdapat di dalam antrian sampai data URL habis atau dihentikan oleh
administrator.
2.2.2 Dasar Web Crawler
Walaupun banyak aplikasi Web Crawler, pada intinya semuanya secara fundamental sama dan tidak berbeda jauh.
Berikut ini proses yang dilakukan Web Crawler pada saat berkerja (Sulastri dan Zuliarso, 2010):
1. Mengunduh halaman web.
2. Menguraikan halaman yang diunduh dan mengambil
semua link.
Web Crawler mengambil URL dan mengunduh halaman dari Internet berdasarkan URL yang diberikan. Tahap kedua, Web crawler menguraikan keseluruhan halaman yang diunduh dan mengambil link dari halaman lain. Tiap link dalam halaman didefinisikan dengan sebuah penanda HTML. Langkah ketiga
dari Web Crawler adalah mengulangi proses. Semua crawler
bekerja dengan rekursif atau bentuk perulangan, tetapi ada dua
cara berbeda untuk menanganinya. Link dapat di-crawling dalam cara depth-first atau breadth-first (Sulastri dan Zuliarso, 2010).
Breadth-first crawling adalah algoritma yang melakukan pencarian secara melebar yang mengunjungi link secara preorder
yaitu mengunjungi suatu link kemudian mengunjungi semua link
yang bertetangga dengan link tersebut terlebih dahulu. Selanjutnya, link yang belum dikunjungi dan bertetangga dengan
link yang tadi dikunjungi, demikian seterusnya (kustanto, mutia, Viqarunnisa, 2005). dikunjungi (Menczer, Pant, Srinivasan and Ruiz, 2001;
Chakrabarti, van den Berg, Domc, 1999; Angkawattanawit,
Gambar 2.1 Breadth-first crawling (Gozali & Faezal. 2004).
Alternatif lainnya adalah Depth first crawling. Dalam hal ini. Crawling atau spider akan menelusuri halaman web dengan mengikuti link mulai dari link pertama pada halaman awal level 0 dilanjutkan pada link pertama pada level 1 dan begitu seterusnya sampai akhir dari link tersebut. Selanjutnya proses secara
Gambar 2.2 Depth first crawling (Gozali & Faezal, 2004).
Dalam mengikuti link pada sebuah alamat situs web yang dikunjungi, seberapa jauh kedalaman level yang diikuti spider
tersebut diatur sendiri oleh pembuatnya. Ada spider yang mengindeks sebuah alamat situs web secara tuntas, ada yang mengikuti link tanpa menghiraukan letak dari halaman tersebut.
Beberapa search engine bahkan membatasi kedalaman
spidering mereka untuk menghemat tempat penyimpanan yang dibutuhkan dan untuk menghindari loop yang terjadi pada sebuah situs web. Kecepatan dan banyaknya informasi yang diperoleh
spider juga dipengaruhi oleh kedalaman ini. (Gozali & Faezal, 2004).
Keberadaan Internet khususnya web menimbulkan tantangan baru didalam teknologi penelusuran informasi atau
information retrieval. Jumlah informasi yang ada di web
terdapat lebih dari 350 juta halaman web dan bertambah hampir sejuta halaman setiap hari, bahkan dari hasil penelitian
diperkirakan lebih dari 600 Giga byte data halaman web yang berubah setiap bulannya. Kecepatan pertumbuhan informasi pada
halaman web ini menyebabkan terbatasnya kemampuan dari
search engine yang menggunakan kedua cara spidering tersebut diatas (Ozsoyoglu & Alhamdani, 2003).
Untuk mempercepat proses spidering serta memperbanyak informasi yang dimiliki pada database, beberapa situs bahkan memiliki lebih dari satu spider, misalnya, google.com memiliki beberapa spider yang bekerja sangat cepat dalam mengumpulkan data tentang halaman situs web. Cara ini disebut multi-threaded spidering.
Setiap spider dapat membuka lebih dari 300 koneksi halaman web dalam waktu yang bersamaan. Pada performa terbaiknya, sebuah spider dapat membuka ratusan bahkan ribuan halaman web perdetik dan mengumpulkan sekitar 600 KByte data perdetik (Bharat & Broder,1998).
2.2.3 Desain Web Crawler
Penerapan Crawler pertama dilakukan oleh Mathew Gray’s Wanderer pada musim semi 1993 yang bertepatan dengan
diluncurkan MOSAIC NCSA yaitu sebuah penjelajah web
Windows dan UNIX (berbasis Motif). Peramban web tersebut dinamai MOSAIC.
Gambar 2.3 Arsitektur Web Crawler (Heydon & Narajork, 1999)
Manager Crawler
Mengambil satu set URL dari link Extractor dan mengirim URL selanjutnya ke DNS resolver untuk mendapatkan alamat IP-nya. Hal ini dapat menghemat banyak waktu karena spider tidak harus setiap waktu mengirimkan permintaan DNS setiap kali
ingin menggunduh halaman.
File Robot.txt
Robot.txt adalah sarana dimana pembuat web (web author)
menunjukkan halaman mana yang ingin web crawler hindari.
Crawler juga harus menghormati keinginan para author.
Spider
Download robot.txt file dan halaman lain yang diminta oleh manager crawler dan diijinkan oleh web author. File-file robot.txt dikirimkan ke manager crawler untuk processing dan
Link Extractor
Link extractor ini digunakan untuk melihat halaman yang diunduh oleh spiders, extract URL dari link pada halaman tersebut dan mengirim URL ke manager crawler untuk diunduh.
Setiap Crawler harus memenuhi dua syarat berikut (Suel dan Shkapenyuk, 2002):
1. Crawler harus memiliki rancangan strategi yang baik. 2. Mempunyai sistem arsitektur yang sangat optimal
sehingga dapat mengunduh halaman dalam jumlah
banyak tiap detiknya.
Kebanyakan search engines menggunakan lebih dari satu
crawler dan mengendalikannya dalam sebuah metode distribusi.
Search engines mempunyai beberapa kelebihan: 1. Meningkatkan pemanfaatan sumber daya.
2. Pendistribusian tugas crawling menjadi lebih efektif tanpa hambatan.
2.3
E-BookE-Book sendiri merupakan buku atau dokumen/artikel dalam format elektronik yang mempunyai banyak manfaat antara
lain :
1. Ukuran fisik yang kecil.
2. Tidak lapuk.
3. Mudah diproses.
4. Mudah dibawa.
5. Mudah didistribusikan.
6. Penggandaan ( duplikasi, copying ) e-Book sangat murah dan mudah.
E-Book adalah singkatan dari Electronic Book atau buku elektronik. e-Book tidak lain adalah sebuah bentuk buku yang dapat dibuka secara elektronis melalui komputer. e-Book ini berupa file dengan format bermacam-macam,
ada yang berupa PDF (portable document format) yang dapat dibuka dengan program Acrobat Reader atau sejenisnya. Ada juga yang dengan bentuk format HTML, yang dapat dibuka