Focused Web Crawler Dengan Sistem Terdistribusi

(1)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Perkembangan internet yang semakin pesat membuat masyarakat dapat memperoleh informasi dengan cepat. Informasi yang disajikan pun beragam jenis, seperti kesehatan, keuangan, teknologi dan lain sebagainya. Pemanfaatan informasi dari internet sangat tepat di terapkan di Indonesia, karena masyarakat indonesia yang sudah terbiasa dengan internet. Dimana menurut siaran pers yang dikemukakan oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII), di Tahun 2014 pengguna internet di Indonesia mencapai 88,1 juta atau setara dengan 34,9% dari jumlah penduduk Indonesia (APJII, 2015).

Salah satu pemanfaatan informasi dari internet yang dapat diterapkan di Indonesia adalah sebagai salah satu sumber informasi kesehatan. Dengan jumlah artikel kesehatan di internet yang terus meningkat, maka internet dapat menjadi sumber informasi kesehatan yang cost effective atau berbiaya murah.

Mengingat beragamnya jenis informasi yang terdapat di situs-situs di internet, maka dibutuhkan suatu mekanisme mengumpulkan informasi kesehatan yang akurat dan efisien.

(2)

kecil daripada yang lain. Focused Crawling algorithm adalah algoritma Crawler yang akan mengambil data dengan spesifikasi tertentu, misalkan dengan topik ‘kesehatan’, maka crawler hanya akan mengambil halaman web yang hanya berhubungan dengan topik kesehatan. Algoritma ini akan mencari kesamaan dari halaman yang sedang di-crawl dengan query yang diberikan (Chakrabarti, et al., 1999). Pemilihan urutan alamat

situs atau page ordering juga mempengaruhi performa dari suatu web crawler. Dimana pada penelitian yang dilakukan oleh Ricardo Baeza-Yates, Mauricio Marin, Carlos Castillo, Andrea Rodriguez pada tahun 2005 mengungkapkan metode Larger-Sites-First terbukti mempunyai performa yang lebih baik dari algoritma lainnya. Algoritma

ini mengurutkan website yang akan di-crawl berdasarkan halaman yang dimiliki dari terbanyak sampai yang terkecil.

Berdasarkan hal ini, penerapan algoritma focused crawling dengan metode Larger Sites First untuk page ordering dapat diterapkan untuk pengumpulan artikel kesehatan

dari internet dengan response time lebih baik. Tahapan pengumpulan artikel kesehatan dengan algoritma focused crawler juga meliputi algoritma ekstraksi dan pengklasifikasian artikel. Ekstraksi artikel dilakukan untuk dapat mengetahui isi kandungan artikel sehingga artikel dapat di klasifikasikan apakah termasuk artikel kesehatan atau bukan. Algoritma klasifikasi yang digunakan yaitu algoritma Naive Bayes Classifier.

Peningkatan performa mesin crawler juga dapat dilakukan dengan cara perancangan mesin crawler terdistribusi dan juga memanfaatkan penggunaan multithread. Beberapa penelitian terdahulu telah membuktikan bahwa sistem

terdistribusi dapat meningkatkan performa dari suatu mesin crawler dan penggunaan thread dengan jumlah tertentu juga dapat meningkatkan efisiensi waktu pengumpulan.

(3)

1.2. Rumusan Masalah

Adapun rumusan masalah pada penelitian ini adalah:

 Bagaimana cara mesin crawler mengumpulkan artikel khusus di bidang kesehatan?  Bagaimana cara meningkatkan kecepatan pengambilan data dari web crawler

dengan sistem terdistribusi?

1.3. Tujuan Penelitian

Tujuan utama yang ingin dicapai pada penelitian ini adalah menghasilkan focused web crawler terdistribusi untuk mengumpulkan artikel kesehatan.

1.4. Batasan Masalah

Dalam melakukan penelitian ini, peneliti membatasi ruang masalah yang akan diteliti. Batasan-batasan masalah yang digunakan adalah :

1. Seeds awal yang digunakan sebanyak 32 URL yang merupakan situs berbahasa Indonesia

2. Topik yang digunakan adalah kesehatan. 3. Konten yang diambil merupakan artikel.

4. Dataset kesehatan untuk klasifikasi diacu dari www.idai.or.id, www.depkes.go.id dan www.kateglo.com.

5. Crawler tidak akan meng-crawl external link dari URL seeds.

6. Jumlah node yang digunakan untuk sistem terdistribusi adalah satu master dan 4 slaves.

1.5. Manfaat Penelitian

Manfaat yang diperoleh dari penelitian ini adalah:

1. Menghasilkan suatu metode untuk pengumpulan artikel kesehatan berbahasa indonesia.

(4)

1.6. Metodologi Penelitian

Tahapan-tahapan yang akan dilakukan dalam pelaksanaan penelitian ini adalah sebagai berikut :

1. Studi Literatur

Tahap ini dilaksanakan untuk mengumpulkan dan mempelajari informasi-informasi yang diperoleh dari buku, jurnal dan berbagai sumber referensi lain yang berkaitan dengan penelitian seperti focused web crawler, Naive Bayyes Classifier, Sistem Terditribusi, Multi Thread, Larger Sites First.

2. Analisis Permasalahan

Pada tahap ini dilakukan analisis terhadap berbagai informasi yang telah diperoleh dari berbagai sumber yang terkait dengan penelitian agar didapatkan metode yang tepat untuk menyelesaikan masalah dalam penelitian ini.

3. Perancangan Sistem

Tahap ini dilakukan perancangan sistem untuk menyelesaikan permasalahan yang terdapat di dalam tahap analisis. Kemudian dilanjutkan dengan mengimplementasikan hasil analisis dan perancangan ke dalam sistem.

4. Implementasi dan Pengujian

Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya. Dan dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi.

5. Analisis dan Pengambilan Kesimpulan

Pada tahap ini dilakukan analisis data yang didapatkan dari implementasi algoritma Larger Sites First dan Naive Bayes Classifier dalam Focused Crawler terdistribusi dan

menyipulkan hasil analisis tersebut.

1.7. Sistematika Penulisan

(5)

Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan Web Crawler, Focused Crawling Algorithm, Larger Site-First, Multithreading, Naive Bayes Classifierdan

sistem terdistribusi akan dibahas pada bab ini.

Bab 3: Analisis dan Perancangan

Bab ini menjelaskan tentang analisis dan perancangan sistem yang bangun untuk focused crawler dengan sistem terdistribusi. Adapun dua tahapan yang dibahas pada

bab ini yaitu tahap analisis dan tahap perancangan sistem. Pada analisis sistem meliputi kebutuhan perangkat lunak dan perangkat kerasdan pada perancangan sistem meliputi tahapan untuk perancangan sistem terdistribusi dan juga tahapan percobaan yang dilakukan.

Bab 4: Implementasi dan Pengujian

Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada penelitian juga dijabarkan pada bab ini.

Bab 5: Kesimpulan dan Saran