• Tidak ada hasil yang ditemukan

Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4, serta pada bagian akhir bab ini akan berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.

Universitas Sumatera Utara

BAB 2

LANDASAN TEORI

2.1. Temu Kembali Informasi

Temu kembali informasi (information retrieval) yaitu mencari bahan (biasanya dokumen) yang bersifat tidak terstruktur (biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi dokumen yang besar tersimpan dalam komputer. (Manning et al., 2009).

2.2. Search Engine

Search engine (mesin pencari) merupakan fasilitas yang digunakan untuk mengeksplorasi berbagai data, informasi, dan pengetahuan yang ada di internet.

Search engine adalah sebuah program yang dapat diakses melalui internet yang berfungsi untuk membantu pengguna komputer dalam mencari berbagai hal yang ingin diketahuinya. (Indrajit R.E, 2013).

2.3. Cara Kerja Search Engine

Pencarian oleh search engine dilakukan dalam database yang menyimpan text dari masing-masing halaman. Text dari halaman demi halaman disimpan ke dalam server database. Ketika melakukan pencarian, search engine akan melakukan pencarian salinan halaman yang disimpan pada database yang berisi salinan halaman pada saat terakhir dikunjungi. Ketika link yang disediakan diklik maka alamat akan diberikan dari server search engine. Database yang ada pada search engine dipilih dan dijaring oleh program robot yang disebut spider.

Search engine menggunakan web crawl untuk mengumpulkan informasi, dan untuk menentukan halaman potensial, search engine mengacu pada link yang terdapat pada halaman yang telah disimpan di dalam database. (Chyntia Arilla Sembiring, 2014).

Universitas Sumatera Utara

2.4. Focused Web Crawling

2.4.1. Pengertian Focused Web Crawling

Pada tahun 1999, Soumen Chakrabarti memperkenalkan focused web crawling. Web crawling juga sering disebut sebagai web spider atau web robot, yaitu suatu proses untuk melakuan crawl atau merayapi suatu laman informasi dari suatu website. Tidak hanya merayapi, web crawler juga dapat mengambil halaman informasi dari website tersebut. Dengan focused web crawling memungkinkan crawler menyeleksi halaman- halaman web yang relevan dengan topik tertentu yang telah didefinisikan sebelumnya sehingga crawler tidak mencari seluruh web secara mendalam. Focused crawling memanfaatkan aturan-aturan keputusan berdasarkan pada analisis isi, struktur link dan teks, untuk menjaga agar crawler fokus pada topik tertentu.

2.4.2. Kegunaan Focused Web Crawling

Penerapan focused web crawling digunakan agar proses penelurusan dapat terfokus.

Artinya pada saat proses penelurusan program crawling hanya akan menelusuri link yang terkait dengan halaman konten berita. Sebagai contoh dalam suatu halaman terdapat banyak sekali link, seperti link untuk ke halaman home, link untuk pindah ke kategori lainnya, link konten berita, dsb. Dengan menggunakan focused web crawling, link-link tersebut tidak akan ditelusuri semua, hanya link yang terkait halaman konten berita sasaran (Aad et al., 2016).

2.4.3. Cara Kerja Focused Web Crawling

Focused web crawling menjelajah halaman web khusus untuk topik sasaran. Satu- satunya perbedaan focused web crawling dibandingkan dengan web crawling biasa adalah spesifikasi topik atau topic filtering, yaitu focused web crawling hanya mengambil url pada web page yang berhubungan pada topik sasaran, hal itu membuat focused web crawling akan menghasilkan informasi yang lebih tepat. Jika web page tersebut sesuai dengan topik sasaran, maka link tersebut ditambahkan ke dalam url queue. Jika tidak maka halaman tersebut tidak dilanjutkan (Bhatt et al., 2015).

Universitas Sumatera Utara

7

Gambar 2.1 Struktur Focused Web Crawling (Bhatt et al., 2015)

a. Seed Url

Proses Focused Web Crawling dimulai dengan me-list daftar url yang akan dikunjungi, yang disebut dengan seed urls (bibit url). Seed url pada sistem ini adalah website lowongan pekerjaan indonesia yaitu loker.id, urbanhire.id dan lokerindonesia.com.

include("seed 1");

include("seed 2");

include("seed 3");

b. Url Queue

Selanjutnya url tersebut masuk ke antrian (url queue). Url akan dihapus jika proses crawling selesai. Proses ini berlanjut hingga url queue kosong.

c. Download

Lalu crawler akan mengunjungi url yang ada di didaftar dan mengidentifikasi semua url dihalaman web. Kemudian url tersebut diambil/didownload oleh web page downloader.

d. Page Parsing

Kemudian yang tersimpan selanjutnya mengalami proses penguraian (parsing).

e. Extract

Kemudian links diextract untuk selanjutnya dilakukan proses topic filtering.

f. Topic Filtering

Selanjutnya adalah topic filtering. Filtering dilakukan untuk mendapatkan relevansi suatu halaman agar hasil terfokus. Berbeda dengan web crawling biasa, proses focused web crawling hanya menelusuri link yang mengarah pada page target dan menghindari link yang tidak mengarah pada page target (Maimunah & Kuspriyanto, 2008). Pada focused web crawling target didefenisikan sehingga crawler tidak mencari seluruh web secara mendalam yang tidak diperlukan dan konten yang didapat disimpan secara dinamis untuk ditampilkan.

Universitas Sumatera Utara

Proses mendapati konten target yaitu berdasarkan keberadaan link-link code html pada masing-masing website yang disebut dengan title tags links, yang dimaksudkan kemana link yang ada pada halaman web terkolerasi dan kata yang digunakan untuk mendeskripsikan linked-to-page. Hal tersebut akan menghasilkan informasi yang hanya mengarah pada page target dan terhindar dari link yang tidak mengarah pada page target. Hasil informasi yang didapatkan nantinya adalah hasil focused crawling berdasarkan informasi lowongan pekerjaan yang tersedia pada website yang berada pada seed, yaitu loker.id, urbanhire.id dan lokerindonesia.com. Selanjutnya dilakukan proses string matching untuk mendapatkan informasi yang sesuai dengan query user yaitu berdasarkan kecocokan keywords lowongan pekerjaan yang diinput oleh user. Bila hasilnya relevance dengan inputan user maka proses akan mengulang kembali ke antrian (url queue) untuk mendapatkan hasil relevance lainnya.

Jika tidak, maka proses tidak dilanjutkan (stop).

2.5.Algoritma Insertion Sort

Insertion sort adalah sebuah algoritma pengurutan yang membandingkan dua elemen data pertama, mengurutkannya, kemudian mengecek elemen data berikutnya satu persatu dan membandingkannya dengan elemen data yang telah diurutkan. Penggunaan Algoritma Insertion Sort pada penelitian ini adalah untuk mengurutkan hasil posisi pekerjaan yang didapat setelah proses crawling dilakukan.

Insertion Sort Algorithm // Sort an arr[] of size n insertionSort(arr, n) Loop from i = 1 to n-1.

……a) Pick element arr[i] and insert it into sorted sequence arr[0…i-1]

Proses pengurutan dengan menggunakan algoritma Insertion Sort dilakukan dengan cara membandingkan data ke-i (dimana i dimulai dari data ke-2 sampai dengan data terakhir) dengan data berikutnya. Jika ditemukan data yang lebih kecil maka data tersebut disisipkan ke depan sesuai dengan posisi yang seharusnya.

Universitas Sumatera Utara

9

Contoh insertion sort :

Gambar 2.2 Contoh Algoritma Insertion Sort

;4, 3, 2, 10, 12, 1, 5, 6 Loop from i = 1 to n-1.

i = 1. karena angka 3 lebih kecil dari 4, maka angka 3 dipindahkan ke sebelum 4. Yaitu : 3, 4, 2, 10, 12, 1, 5, 6

i = 2. angka 2 akan berpindah ke paling kiri karena angka 2 lebih kecil dari angka sebelumnya/kiri nya, yaitu 3 dan 4. Yaitu : 2, 3, 4, 10, 12, 1, 5, 6

i = 3. angka 10 tetap pada posisi nya karena angka-angka sebelumnya/kirinya lebih kecil dari dirinya.Yaitu : 2, 3, 4, 10, 12, 1, 5, 6

i = 4. angka 12 tetap pada posisi nya karena angka-angka sebelumnya/kirinya lebih kecil dari dirinya.Yaitu : 2, 3, 4, 10, 12, 1, 5, 6

i = 5. angka 1 akan berpindah ke paling kiri karena angka 1 adalah angka paling kecil dari keseluruhan angka diatas.Yaitu : 1, 2, 3, 4, 10, 12, 5, 6

i = 6. angka 5 akan berpindah ke angka setelah 4.Yaitu : 1, 2, 3, 4, 5, 10, 12, 6 i = 7. angka 6 akan berpindah ke angka setelah 5. Yaitu : 1, 2, 3, 4, 5, 6, 10, 12

Universitas Sumatera Utara

2.6. Penelitian Terdahulu

Berikut ini beberapa penelitian yang berkaitan dengan algoritma focused crawling :

1. Penelitian yang telah dilakukan oleh Maimunah & Kuspriyanto pada tahun 2008, yaitu berjudul “reinforcement learning dalam proses pembelajaran penentuan strategi penelusuran pada focused crawler”. Penelitian ini mengeksploitasi berbagai strategi dan knowledge base yang ada untuk dapat mengoptimalkan proses penelusuran dan memiliki kemampuan yang lebih bagus dalam mengeksplorasi jalur-jalur menuju page yang relevan.

2. Penelitian yang telah dilakukan oleh Rashmi Janbandhu, Prashant Dahiwale dan M.M.Raghuwanshi pada tahun 2014, yang berjudul “Analysis of Web Crawling Algorithms”. Penelitian ini menunjukkan bahwa focused crawling algorithm mempunyai kelebihan daripada algoritma yang lainnya, dimana algoritma ini mempunyai response time yang paling kecil daripada yang lain.

3. Penelitian yang telah dilakukan oleh Chakrabarti, et al pada tahun 1999 berjudul “1999.

Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. Computer Networks “, yaitu focused crawling algoritma akan mencari kesamaan dari halaman yang sedang dicrawl dengan query yang diberikan sehingga proses pencarian terfokus dan menghasilkan url yang lebih relevan.

4. Penelitian yang dilakukan oleh Aad et al., 2016. Berjudul “Penerapan Focused Crawling Pada Situs Berita Online “, yaitu penerapan focused web crawling digunakan agar proses penelusuran terfokus karena focused web crawling hanya menelusuri link yang terkait berita sasaran.

5. Penelitian yang dilakukan oleh Bhatt et al., 2015 berjudul “Focused Web Crawler”, yaitu focused web crawling hanya mengambil url yang berhubungan dengan topik sasaran dan menambahkannya ke url queue.

Universitas Sumatera Utara

11 BAB 3

ANALISIS DAN PERANCANGAN SISTEM

Bab ini menjelaskan tentang analisis dan perancangan sistem yang dilakukan, yaitu merupakan analisis perangkat lunak, analisis program dan model yang akan dibuat. Perancangan sistem dilakukan untuk mendapatkan gambaran jelas mengenai apa yang harus dikerjakan.

3.1. Analisis Sistem

Analisis sistem merupakan bagian yang berfungsi untuk menguraikan seluruh rancangan sistem yang berkaitan dengan penelitian penulis. Analisisnya berupa analisis permasalahan dalam sistem penelitian, analisis proses, model sistem yang akan digunakan, pseudocode dari program yang telah buat, flowchart sistem serta desain antarmuka yang akan dibuat pada sistem penelitian ini. Dengan adanya analisis ini, maka tahapan yang akan dilakukan menjadi jelas dan mudah dipahami untuk membuat implementasi dari sistem yang sudah ada.

3.2. Analisis Masalah

Dari latar belakang yang sudah dijelaskan pada bab sebelumnya bahwa permasalahan yang akan dibahas pada penelitian ini adalah tentang sulitnya user/seseorang untuk menemukan situs lowongan pekerjaan yang akurat serta efisien sesuai dengan yang dicari. Sering kali ketika user mencari informasi lowongan pekerjaan di internet umumnya harus mensortir kembali satu-satu informasi mana yang benar-benar tepat dia cari dan butuhkan, dimana hal tersebut sangat membuang waktu.

Universitas Sumatera Utara

Gambar 3.1. merupakan gambaran umum dari permasalahan penelitian yang dijelaskan pada Ishikawa diagram (fishbone) :

Gambar 3.1 Diagram Analisis Masalah

Pada gambar 3.1 dijelaskan aspek-aspek atau masalah terkait sebuah sistem penelitian, yaitu aspek mesin, aspek manusia, aspek material dan aspek metode.

Pada Aspek mesin membahas tentang hasil pencarian tidak memberikan informasi yang tepat sesuai yg input user. Aspek user membahas dimana user harus mensortir kembali hasil informasi yang dia dapatkan satu persatu. Aspek material membahas tentang permasalahan dimana beragamnya jenis informasi lowongan pekerjaan yang tersedia, dan informasi tidak akurat serta efisien sesuai inputan user. Aspek metode membahas permasalahan yang terjadi yaitu hasil penelusuran tidak selalu relevan dengan yang dicari, misal user menginputkan query untuk mencari informasi lowongan pekerjaan “guru di medan”, maka penelusuran pada umumnya bisa menampilkan informasi mengenai lowongan pekerjaan admin di medan. Yang informasi tersebut tidak sesuai dengan yang user cari dan butuhkan.

3.3. Analisis Kebutuhan

Analisis masalah pada dasarnya memiliki dua bagian, yaitu analisis kebutuhan fungsional dan analisis nonfungsional. Analisis fungsional membahas tentang fitur (aktivitas) yang harus ada pada suatu sistem penelitian. Sedangkan analisis nonfungsional bertugas untuk membahas terkait fitur (aktivitas) lainnya pada sistem penelitian ini.

Universitas Sumatera Utara

13

3.3.1. Analisis Kebutuhan Fungsional

Analisis kebutuhan fungsional yang terdapat pada sistem penelitian ini adalah yaitu sistem menerima inputan dari user yaitu kata pencarian dan lokasi.

3.3.2.Analisis Kebutuhan Nonfungsional

Analisis kebutuhan nonfungsional yang terdapat pada sistem penelitian ini adalah:

a. Performa

Sistem focused web crawling dibuat dengan algoritma focused web crawling dan algoritma Insertion sort sehingga yang akan menghasilkan crawling/hasil penelusuran yang terfokus dan efisien.

b. Kontrol

Sistem focused web crawling pada penelitian ini dibuat dengan menampilkan hasil penelusuran berdasarkan query inputan user.

c. Manajemen Kualitas

Pada sistem focused web crawling ini user mendapatkan infromasi lebih dari 1 website lowongan pekerjaan tanpa harus membaca satu per satu dan memilah kembali hasil informasi yang tidak sesuai dengan yang dicarinya dari website-website lowongan pekerjaan diinternet.

d. Pelayanan

Sistem focused web crawling ini dibuat dengan kondisi user friendly, artinya pengguna dapat mengerti bagaimana cara menjalankan sistem penelitian yang telah dibuat.

3.4. Permodelan Sistem

Permodelan sistem dibuat bertujuan untuk dapat memberikan informasi dalam beberapa model terkait dengan ruang lingkup penelitian dalam bentuk interaksi sistem penelitian. Beberapa jenis permodelan sistem yang digunakan dalam pada berbagai sistem penelitian adalah use case diagram, activity diagram serta sequence diagram

Universitas Sumatera Utara

3.4.1. Diagram Umum Sistem

Gambar 3.2 Diagram Umum Sistem Keterangan Gambar 3.2 :

Sistem terdiri dari 3 bagian penting yaitu bagian input, bagian focused web crawling dan bagian insertion sort (pengurutan) sebagai berikut :

Input Keyword

Proses Focused Web Crawling dimulai dengan me-list daftar url yang akan

dikunjungi, yang disebut dengan seed urls (bibit url). Seed url pada sistem ini adalah website lowongan pekerjaan indonesia yaitu loker.id, urbanhire.id dan

lokerindonesia.com.

b. Url Queue

Selanjutnya url tersebut masuk ke antrian (url queue).

c. Download

Lalu crawler akan mengunjungi url yang ada di didaftar dan mengidentifikasi semua url dihalaman web. Kemudian url tersebut diambil/didownload.

Universitas Sumatera Utara

15

d. Page Parsing

Kemudian yang tersimpan selanjutnya mengalami proses penguraian (parsing).

e. Extract

Setelah itu url di extract kemudian di masuk ke proses topic filtering.

f. Topic Filtering

Setelah diextract, selanjutnya adalah topic filtering yaitu bila hasilnya relevance dengan inputan user maka proses akan mengulang kembali ke antrian (url queue) untuk mendapatkan hasil relevance lainnya. Jika tidak, maka proses tidak dilanjutkan (stop).

Insertion Sort

Setelah dari proses focused web crawling, hasil yang didapat akan diurutkan dengan insertion sort, dimana parameter penentuan suatu url-nya lebih tinggi rangking pengurutannya dibanding yang lain adalah berdasarkan alfabet pada judul kata pencarian atau judul posisi pekerjaan. Saat hasil dari proses focused web crawling didapatkan, maka judul posisi pekerjaan dengan alfabet tertinggi (A-Z) akan muncul paling atas dan seterusnya berurutan sesuai alfabet.

3.4.2. Use Case Diagram

Use case merupakan suatu gambaran fungsionalitas dari suatu sistem, sehingga user atau pengguna sistem bisa memahami mengenai kegunaan sistem yang akan dibangun. Pada penelitian ini use case diagram digambarkan pada gambar 3.3 :

Gambar 3.3 Use Case Diagram fungsional system Pada gambar 3.3 menunjukkan interaksi antara pengguna sistem (user) dalam menjalankan sebuah sistem yang telah dibangun pada penelitian ini.

Universitas Sumatera Utara

Untuk uraian yang lebih lengkap dari use case diagram akan dijelaskan pada tabel 3.1:

Tabel 3.1 Narasi input (kata pencarian dan lokasi)

Use case diagram meng-input keywords (kata pencarian dan lokasi) bertujuan untuk mendapatkan hasil penelusuran. Setelah user meng-input keywords, selanjutnya akan mendapatkan hasil penelusuran.

Nama Use Case Input Kata pencarian dan lokasi

Aktor User

Dekripsi

User menginputkan query kata pencarian dan lokasi untuk ditelusuri

Pre-Condition User masuk kedalam sistem yang telah dibuat, yaitu halaman utama

Typical course of event Aktivias User Respon Sistem User meng-input

Post Condition Tampil hasil pencarian

Universitas Sumatera Utara

17 3.4.3. Activity Diagram

Activity diagram adalah diagram yang menggambarkan aktivitas dalam sebuah sistem yang sedang berjalan. Activity diagram dari sistem yang akan dibangun dapat ditunjukkan pada Gambar 3.4 sebagai berikut :

Gambar 3.4 Activity Diagram Fungsional Sistem

Didalam Activity diagram dapat dijelaskan bahwa pengguna masuk ke halaman utama, lalu harus menginputkan keywords yaitu kata pencarian dan lokasi terlebih dahulu. Kemudian pada system, proses focused web crawling terjadi, selanjutnya hasil dari proses crawling akan disorting dengan algoritma insertion sort. Setelah itu hasil informasi lowongan pekerjaan akan tampil beserta link website-nya dan untuk melihat informasi lebih lanjut mengenai loker tersebut, pengguna dapat memilih link dan informasi lowongan pekerjaan akan tampil.

Universitas Sumatera Utara

3.4.4. Sequence Diagram

Sequence diagram mengilustrasikan bagaimana pesan dikirim dan diterima diantara objek, dan berada diurutan yang mana. Selain itu, sequence diagram membantu untuk menggambarkan data yang masuk dan keluar dari sebuah sistem penelitian. Gambar 3.4 akan mengilustrasikan sequence diagram dari sistem penelitian ini :

Gambar 3.5 Sequence Diagram Perancangan Analisis Sistem

Pada Gambar 3.5 yang dilakukan user adalah menginputkan keywords terlebih dahulu pada halaman awal. Setelah user input keywords dan klik button cari, maka proses focused web crawling terjadi. Setelah itu hasil crawling akan disorting dengan alogoritma insertion sort, Kemudian menampilkan respon kepada user.

Universitas Sumatera Utara

19

3.4.5 Flowchart Sistem

Pada tahap ini, akan digambarkan bagaimana proses algoritma penelitian. Proses lengkapnya dapat dilihat pada alur flowchart berikut ini :

Gambar 3.6 Flowchart Perancangan Sistem Penelitian Keterangan Gambar 3.6 :

Flowchart diatas menunjukkan gambaran dari proses penelitian antara lain : 1.Pada halaman Lowongan, user menginputkan kata pencarian dan lokasi

untuk mencari informasi perkerjaan.

2. Selanjutnya data akan diambil melalui proses focused web crawling.

3. Kemudian hasil crawling yang didapat akan diurutkan dengan algoritma insertion sort.

4. Lalu hasil ditampilkan.

5. Kemudian proses selesai.

Universitas Sumatera Utara

3.5. Perancangan Sistem

3.5.1. Rancangan Halaman Utama

Pada saat membuka aplikasi sistem, tampilan pertama kali adalah halaman utama website.

Gambar 3.7 Rancangan Tampilan Awal Sistem

Keterangan Gambar 3.7 : 1. Judul Website.

2. Menu “cari” berisi halaman beranda mengenai info lowongan pekerjaan yang tersedia dan user dapat menginputkan keywords untuk mencari info lowongan pekerjaan.

3. Tempat user menginputkan “kata pencarian” berupa posisi pekerjaan untuk mecari info loker.

4. Tempat user menginputkan “lokasi” untuk mencari info loker.

5. Button “cari”.

6. Tampilan informasi loker.

7. Footer website.

Halaman utama adalah halaman dimana user menginputkan querynya untuk mendapatkan informasi lowongan pekerjaan, selain itu user juga dapat melihat lowongan pekerjaan yang tersedia pada halaman utama ini.

Universitas Sumatera Utara

21

3.5.2. Rancangan Halaman Hasil Pencarian

Halaman hasil pencarian adalah halaman dimana hasil informasi lowongan pekerjaan yang telah dicari oleh user dengan menginputkan query yaitu posisi pekerjaan dan lokasi pekerjaan ditampilkan.

Gambar 3.8 Rancangan Tampilan Halaman Hasil Pencarian

Keterangan Gambar 3.8 : 1. Logo Perusahaan 2. Nama Perusahaan 3. Lokasi Pekerjaan 4. Posisi Pekerjaan

5. Deskripsi singkat mengenai pekerjaan.

6. Button lihat selengkapnya.

Universitas Sumatera Utara

BAB 4

IMPLEMENTASI DAN PENGUJIAN

4.1 Implementasi Sistem

Implementasi Sistem merupakan tampilkan hasil berdasarkan perancangan dari Bab 3, yaitu bentuk jadi dari semua rencana terkait rancangan sistem aplikasi yang akan dibangun pada sistem penelitian ini, Pada tahapan ini, sistem aplikasi yang sudah direncanakan diawal akan dibangun dengan memiliki kesesuaian dengan rancangan sistem aplikasi yang telah dibahas pada bab sebelumnya.

Pada bab ini akan membahas mengenai hasil informasi lowongan pekerjaan indonesia berbasis website yang didapat dengan mengunakan implementasi focused web crawling algorithm, yang kemudian hasil dari proses crawling yang diperoleh diurutkan dengan algoritma insertion sort, sesuai dengan analisis dan perancangan yang telah dibahas pada Bab 3.

Aplikasi yang dibangun pada sistem penelitian ini berbasis website yang dapat diakses dari desktop maupun di platform mobile lainnya. Web hosting pada penelitian ini memakai web hosting dari dewabiz, dengan nama domain yaitu lowonganku.xyz. Dan bahasa pemrograman pada sistem penelitian ini adalah PHP (Hypertext Preprocessor) menggunakan Aplikasi Notepad++ dan Xampp. urls seed pada penelitian ini adalah loker.id, urbanhire.id, dan lokerindonesia.com.

4.2 Proses Implementasi Sistem

Berdasarkan perancangan pada bab 3, proses implementasi sistem adalah sebagai berikut : 1. Proses User Input

Proses dimulai dengan user menginput keyword pada kolom pencarian, yaitu berupa judul posisi pekerjaan atau disebut sebagai kata pencarian, dan lokasi.

Gambar 4.1 Tampilan Proses User Input

Universitas Sumatera Utara

23

2. Proses Focused Web Crawling

Selanjutnya proses focused web crawling dilakukan, prosesnya terdiri dari beberapa tahap yaitu sebagai berikut :

a. Seed Url

Proses Focused Web Crawling dimulai dengan me-list daftar url yang akan dikunjungi, yang disebut dengan seed urls (bibit url). Seed url pada sistem ini adalah website lowongan pekerjaan indonesia yaitu loker.id, urbanhire.id dan lokerindonesia.com.

include("lokerid.php");

include("urbanhirecom.php");

include("lokerindonesiacom.php");

lalu masing-masing seed diinisialisasi pada masing-masing website untuk mendapatkan konten target yang dibutuhkan.

b. Url Queue

Selanjutnya url tersebut masuk ke antrian (url queue). Url akan dihapus jika proses crawling selesai. Proses ini berlanjut hingga url queue kosong.

c. Download

Lalu crawler akan mengunjungi url yang ada di didaftar dan mengidentifikasi semua url dihalaman web. Kemudian url tersebut diambil/didownload oleh web page downloader.

d. Page Parsing

Kemudian yang tersimpan selanjutnya mengalami proses penguraian (parsing).

e. Extract

Kemudian links diextract untuk selanjutnya dilakukan proses topic filtering.

f. Topic Filtering

Selanjutnya adalah topic filtering. Filtering dilakukan untuk mendapatkan relevansi suatu halaman agar hasil terfokus. Berbeda dengan web crawling biasa, proses focused web crawling hanya menelusuri link yang mengarah pada page target dan menghindari link yang tidak mengarah pada page target (Maimunah & Kuspriyanto, 2008). Pada focused web crawling target didefenisikan sehingga crawler tidak mencari seluruh web secara mendalam yang tidak

Selanjutnya adalah topic filtering. Filtering dilakukan untuk mendapatkan relevansi suatu halaman agar hasil terfokus. Berbeda dengan web crawling biasa, proses focused web crawling hanya menelusuri link yang mengarah pada page target dan menghindari link yang tidak mengarah pada page target (Maimunah & Kuspriyanto, 2008). Pada focused web crawling target didefenisikan sehingga crawler tidak mencari seluruh web secara mendalam yang tidak

Dokumen terkait