FOCUSED CRAWLER
UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN
METODE PORTER STEMMER
SKRIPSI
CYNTHIA ARILLA SEMBIRING 091402124
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
FOCUSED CRAWLER
UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN
METODE PORTER
STEMMER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
CYNTHIA ARILLA SEMBIRING
091402124
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGIINFORMASI UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : FOCUSED CRAWLER UNTUK
MENGOPTIMALKAN PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER
Kategori : SKRIPSI
Nama : CYNTHIA ARILLA SEMBIRING Nomor Induk Mahasiswa : 091402124
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA
Diluluskan di
Medan, 29 Agustus 2014
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dani Gunawan, S.T., M.T. M. Andri Budiman,ST.,M.Comp.Sc., M.E.M. NIP 198209152012121002 NIP 197510082008011011
Diketahui/Disetujui oleh
Program Studi S1 Teknologi Informasi Ketua,
PERNYATAAN
FOCUSED CRAWLER UNTUK MENGOPTIMALKAN
PENCARIAN JURNAL MENGGUNAKAN METODE PORTER STEMMER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 29 Agustus 2014
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Tuhan Yesus Kristus yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh ijazah Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara. Untuk itu penulis mengucapkan terima kasih kepada:
1. Skripsi ini penulis persembahkan untuk kedua orang tua dan keluarga penulis yang telah memberikan dukungan dan motivasi, ayah penulis Drs. Pancaria Sembiring, M.BA dan ibu penulis Lasmaria Sitorus yang selalu sabar dalam mendidik dan membesarkan penulis. Adik penulis Yudhistira Sembiring dan Yudhawira Sembiring yang selalu memberikan dorongan dan dukungan kepada penulis.
2. Bapak M. Andri Budiman, ST., M.Comp.Sc., M.E.M. dan Bapak Dani Gunawan, S.T., M.T. selaku dosen pembimbing penulis yang telah meluangkan waktu, pikiran, saran, dan kritiknya untuk penulis dalam menyelesaikan skripsi ini.
3. Bapak Dedy Arisandi, S.T., M.Kom. dan Ibu Sarah Purnamawati, S.T., M.Sc. yang telah bersedia menjadi dosen penguji dan memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini.
4. Ketua dan Sekretaris Program Studi S1 Teknologi Informasi, Bapak M. Anggia Muchtar, S.T., MM.IT. dan Bapak Mohammad Fadly Syahputra, B.Sc., M.Sc.IT.
5. Seluruh dosen Departemen Teknologi Informasi dan Ilmu Komputer USU yang telah memberikan ilmu, dukungan, arahan dan bantuannya selama proses perkuliahan, serta Ibu Delima dan Bang Faisal, sebagai staf Tata Usaha Program Studi Teknologi Informasi Universitas Sumatera Utara.
6. Erwin Sitorus yang telah memberikan dukungan kepada penulis selama ini. 7. Sahabat-sahabat yang selalu mendukung dan memberi semangat kepada
penulis, Fida Elvi Anderia Sebayang, S.TI., Stella Maris Harefa, S.TI., Ade Chania Sion Sagala, S.TI., Riska Vinesia Butarbutar, S.TI., Jihan Meutia Fauzen, S.TI., Annifa Iqramitha, S.TI., dan semua teman angkatan 2009. 8. Sahabat penulis Yustira Sinaga, S.E., Rotua Panjaitan, S.E. dan Venta Sitorus
S.E., yang selalu mendoakan dan memberi semangat.
9. Seluruh rekan kuliah sejawat yang tidak dapat disebutkan satu persatu.
ABSTRAK
Maraknya perkembangan media online seperti jurnal ilmiah membuat seseorang sulit untuk menemukan jurnal yang sesuai dengan yang diinginkan. Oleh sebab itu, dibutuhkan sebuah aplikasi pencarian jurnal dengan menampilkan jurnal terkait (related post) dari jurnal yang dicari sehingga dapat mengoptimalkan pencarian jurnal. Penelitian ini menggunakan teknik focused crawler yaitu teknik untuk mengunduh url dan konten yang ada pada suatu halaman website tertentu dan algoritma Porter stemmer untuk mengubah kata berimbuhan ke bentuk kata dasar. Focused crawler juga digunakan untuk menghitung nilai bobot dan relevansi. Nilai relevansi dibutuhkan agar dapat diketahui jurnal yang memiliki nilai terdekat dengan jurnal yang lainnya (related post). Hasil Pengujian menyimpulkan bahwa semakin banyak data jurnal maka akan semakin dekat nilai relevansi masing-masing jurnal, sehingga dapat mengoptimalkan pencarian jurnal.
FOCUSED CRAWLER TO OPTIMIZE SEARCHING OF JOURNAL USING PORTER STEMMER ALGORITHM
ABSTRACT
The plethora of online media such as scientific journals, can make people really get difficulties to find the appropriate journals as they need. Therefore, an application of journal searching which searching related journal or related post is needed. This research uses focused crawler technique as a technique to download url and content in certain pages of a website and the Porter stemmer algorithm to transmute the affix word to become basic words. Focused crawler technique is also used to the weight of the stemmed word and its relevancy. Relevant value is needed to know the closest journal which has the closest values to the other journals (related post). The result of the research concludes that more journals are searched the more relevant the value we get and thus the search is optimized.
DAFTAR ISI
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
1.6. Metodologi Penelitian 3
1.7. Sistematika Penulisan 4
BAB 2 TINJAUAN PUSTAKA 5
2.1. Search Engine 5
2.1.1. Sejarah Search Engine 5 2.1.2. Prinsip Umum Search Engine 6 2.1.3. Cara Kerja Search Engine 7 2.1.4. Sifat Search Engine 8 2.1.5. Algoritma Umum dalam Search Engine 9
2.2. Focused Crawler 10
2.3. Algoritma Porter Stemmer 12 2.4. Bahasa Pemrograman PHP 17
2.5. DatabaseMySQL 18
2.6. Penelitian Terdahulu 18
BAB 3 ANALISIS DAN PERANCANGAN SISTEM 21
3.1. Analisis Data 21
3.1.1. Data Konten (Data Jurnal) 21
3.1.2. Tabel_Keyword 22
3.1.3. Tabel_Relevansi 23
3.2. Analisis Sistem 23
3.2.1. Admin 23
3.2.1.1. Text Preprocessing 25 3.2.1.2. Penghapusan Stopwords 26 3.2.1.3. StemmingPorter Stemmer 27 3.2.1.4. Focused Crawler 30
3.2.2. User 39
3.3.1. DiagramUse Case 40
3.3.2. Definisi Use Case 40
3.3.3. General Architecture 42
BAB 4 IMPLEMENTASI DAN PENGUJIAN 43
4.1. Implementasi Sistem 43
4.1.1. Spesifikasi Perangkat Keras dan 43 Perangkat Lunak yang Digunakan
4.1.2. Tampilan Halaman Utama User 43 4.1.3. Tampilan Halaman Pencarian 44 4.1.4. Tampilan Halaman Baca 45 4.1.5. Tampilan Halaman Proses Crawling 45 4.1.6. Tampilan Halaman Stemming 46 4.1.7. Tampilan Halaman Bobot dan Normalisasi 46 4.1.8. Tampilan Halaman Tabel Relevansi 47
4.2. Pengujian Sistem 47
4.2.1. Pengujian Sistem Tahap Crawling 47 4.2.2. Hasil Pengujian Proses Stemming 48 4.2.3. Hasil Pengujian Bobot dan Normalisasi 49 4.2.4. Hasil Pengujian Nilai Relevansi 49 4.2.5. Hasil Pengujian Pencarian 50
BAB 5 KESIMPULAN DAN SARAN 55
5.1. Kesimpulan 55
5.2. Saran 55
DAFTAR TABEL
Halaman Tabel 2.1.Aturan Stemming Step 1a 13 Tabel 2.2.Aturan Stemming Step 1b 14 Tabel 2.3.Continued for –ed and –ing rules 14 Tabel 2.4.Aturan Stemming Step 1c 15 Tabel 2.5.Aturan Stemming Step 2 15 Tabel 2.6. Aturan Stemming Step 3 16 Tabel 2.7. Aturan Stemming Step 4 16 Tabel 2.8. Aturan Stemming Step 5a 17 Tabel 2.9. Aturan Stemming Step 5b 17 Tabel 2.10. Penelitian Terdahulu 20
Tabel 3.1. Tabel_Konten 21
Tabel 3.2. Tabel_Keyword 22
Tabel 3.3. Tabel_Relevansi 23
Tabel 3.4. Proses Normalisasi 32
Tabel 3.5. Tabel Menentukan Nilai relevansi 34
Tabel 3.6. Nilai Relevansi = 0 37
Tabel 3.7. Definisi Use case 41
DAFTAR GAMBAR
Halaman
Gambar 2.1. Tampilan dari Arhie 5
Gambar 2.2. Hasil Pencarian dari Archie 6 Gambar 2.3. Arsitektur Search Engine 8 Gambar 2.4. Arsitektur Focused Crawler 10
Gambar 3.1. Flowchart Sistem 24
Gambar 3.2. Flowchart Text Preprocessing 25 Gambar 3.3. Flowchart Proses Stopwords 26 Gambar 3.4. Flowchart Proses Stemming 28 Gambar 3.5. Flowchart Proses Normalisasi 31 Gambar 3.6. Flowchart Menghitung Relevansi 33 Gambar 3.7. Flowchart Pencarian 39
Gambar 3.8. Diagam Use case 40