PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM
ALGORITMA GENETIKA UNTUK MENEMUKAN
DOKUMEN YANG MIRIP
TESIS
Oleh
VERA WIJAYA
097038003/TINF
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA
PROGRAM PASCASARJANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM
ALGORITMA GENETIKA UNTUK MENEMUKAN
DOKUMEN YANG MIRIP
TESIS
Oleh
VERA WIJAYA
097038003/TINF
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA
PROGRAM PASCASARJANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM
ALGORITMA GENETIKA UNTUK MENEMUKAN
DOKUMEN YANG MIRIP
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer dalam Program Studi
Magister Teknik Informatika pada Program Pascasarjana
Fakultas MIPA Universitas Sumatera Utara
Oleh
VERA WIJAYA
097038003/TINF
PROGRAM PASCASARJANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA
MEDAN
2011
PENGESAHAN TESIS
Judul Tesis :PENGGUNAAN FAKTOR HSINCHUN
CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP
Nama Mahasiswa : Vera Wijaya Nomor Induk Mahasiswa : 09 70 38 003
Program Studi : Magister Teknik Informatika
Fakultas : Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara
Menyetujui Komisi Pembimbing
Dr. Erna Budhiarti Nababan, MIT Dr. Poltak Sihombing, M.Kom
Pembimbing Anggota Pembimbing Utama
Ketua Program Studi, D e k a n,
Prof. Dr. Muhammad Zarlis
NIP.19570701198601 1003 NIP. 19631026199103 1001 Dr.Sutarman, M.Sc
PERNYATAAN ORISINALITAS
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP
T E S I S
Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan telah di jelaskan sumbernya dengan benar.
Medan, 13 Juni 2011
Vera Wijaya
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang telah bertanda tangan di bawah ini :
Nama : Vera Wijaya
NIM : 097038003
Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas Tesis saya yang berjudul :
Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip
beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 13 Juni 2011
Telah diuji pada Tanggal : 28 Juli 2011
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Opim Salim Sitompul Anggota : 1. Prof. Dr. Muhammad Zarlis
2. Syahril Effendi, S.Si, MIT 3. Dr. Poltak Sihombing, M.Kom 4. Dr. Erna Budhiarti Nababan
RIWAYAT HIDUP
DATA PRIBADI
Nama lengkap berikut gelar : Vera Wijaya, S.Kom
Tempat dan Tanggal Lahir : Pematang Siantar, 2 Agustus 1983 Alamat Rumah : Kompleks Cemara Asri
Jl. Bungur No.120, Medan Telepon/Faks/HP : 085261726988/
e-mail : [email protected]
Instansi Tempat Bekerja : STMIK Kristenn Neumann Medan Alamat Kantor : Jl. Jamin Ginting Km. 10,5 Medan
Telepon/Faks/HP :
DATA PENDIDIKAN
SD : Perguruan Kristen Methodist, P.Siantar Tamat : 1995 SMP : Perguruan Kristen Methodist, P.Siantar Tamat : 1998 SMA : Perguruan Kristen Methodist, P.Siantar Tamat : 2001 Strata-1 : Program Studi Sistem Informasi,
Universitas Bina Nusantara, Jakarta.
KATA PENGANTAR
Pertama-tama saya panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmadnya dan karunia-Nya sehingga tesis ini dapat diselesaikan.
Dengan selesainya tesis ini, perkenankanlah saya mengucapkan terima kasih yang sebesar-besarnya kepada yang terhormat :
• Rektor Universitas Sumatera Utara, Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H (CTM), Sp. A(K) atas kesempatan yang diberikan kepada kami untuk mengikuti dan menyelesaikan pendidikan Program Magister.
• Dekan Fakultas MIPA Universitas Sumatera Utara, Bapak Dr. Sutarman, M.Sc atas kesempatan menjadi mahasiswa Program Magister pada Program Pascasarjana FMIPA Universitas Sumatera Utara.
• Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister Teknik Informatika, Bapak M.Andri Budiman, ST, M.Comp. Sc. MEM beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Bapak Dr. Poltak Sihombing, M.Kom selaku Promotor/Pembimbing Utama yang dengan penuh perhatian dan telah memberikan dorongan, bimbingan dan tuntunan, demikian juga kepada Ibu Dr. Erna Budhiarti Nababan, MIT selaku Co. Promotor/Pembimbing Lapangan yang penuh kesabaran menuntun dan membimbing kami hingga selesainya penelitian ini.
Kepada Ayah Tukijan Sukardy dan Bunda Po Ing serta anakku terkasih Jasslyn. Terima kasih atas segala pergorbanan kalian baik berupa moril maupun materil, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa.
PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP
ABSTRAK
Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled.
Kata Kunci : hsinchun chen, algoritma genetika, nilai kemiripan, penemuan kembali
THE USE OF HSINCHUN CHEN FACTORS IN GENETIC
ALGORITHM TO RETRIEVE SIMILAR DOCUMENT
ABSTRACT
The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity.
DAFTAR ISI
Halaman KATA PENGANTAR i ABSTRAK ii ABSTRACT iii DAFTAR ISI iv DAFTAR TABEL viDAFTAR GAMBAR viii
DAFTAR LAMPIRAN ix BAB I PENDAHULUAN 1 1.1 Latar Belakang 1 1.2 Perumusan Masalah 3 1.3 Tujuan Penelitian 3 1.4 Manfaat Penelitian 4 1.5 Batasan Masalah 4
BAB II TINJAUAN PUSTAKA 6
2.1 Information Retrieval 6
2.2 Similarity (Kemiripan) 8
2.3 Similarity Measure (Ukuran Kemiripan) 9
2.4 Algoritma Genetika 10
2.4.1 Struktur Umum Algoritma Genetika 11 2.4.2 Pengkodean Algoritma Genetika 13
2.4.3 Operator Genetika 14
2.5 Teknik Yang Digunakan Sebelumnya 19
2.5.1 Pendekatan Jaringan Syaraf Tiruan untuk Temu Kembali Informasi
19
Kembali Informasi
2.5.3 Pendekatan Bibliometrik untuk Temu Kembali Informasi
22
BAB III METODE PENELITIAN 26
3.1 Data Penelitian 26
3.2 Keyword 27
3.3 Teknik Penelitian 27
3.3.1 Text Preprocessing 28
3.3.2 Ukuran Kemiripan Hsinchun Chen 30 3.3.3 Implementasi Faktor Hsinchun Chen dalam
Algoritma Genetika
31
3.4 Perancangan Sistem 36
3.4.1 Deskripsi Sistem 37
3.4.2 Perancangan Database 37
3.4.3 Perancangan Perangkat Lunak 40
BAB IV HASIL DAN PEMBAHASAN 44
4.1 Penggunaan Hsinchun Chen dalam Algoritma Genetika untuk Menemukan Kembali Dokumen yang Mirip
44
4.1.1 Hasil Tahapan Text Preprocessing 44 4.1.2 Pencarian Kemiripan Dokumen dengan Algoritma
Genetika
45
4.2 Perbandingan Hasil Pencarian Kembali Dokumen Menggunakan Algoritma Genetika dengan Jaringan Syaraf Tiruan
58
BAB V KESIMPULAN DAN SARAN 67
5.1 Kesimpulan 67
5.2 Saran 68
DAFTAR PUSTAKA 70
DAFTAR TABEL
Nomor
Tabel
Judul
Halaman
2.1 Probabilitas Seleksi dan Nilai Fitness 15
2.2 Perbandingan Teknik dalam Sistem Temu Kembali Informasi
24
3.1 Rancangan Halaman Perangkat Lunak 41
4.1 Hasil Tahapan Text Processing 47
4.2 Pemodelan Kromosom Solusi 47
4.3 Pembangkitan Populasi Awal 48
4.4.a Hasil Text Processing Dokumen Populasi Awal 49 4.4.b Hasil Text Processing Dokumen Populasi Awal 49 4.5 Hasil Perbandingan Keyword Query dengan Keyword
Populasi Awal
50
4.6 Hasil Pengkodean Kromosom Populasi 51
4.7 Hasil Perhitungan Nilai Fitness 52
4.8 Hasil Seleksi Kromosom 52
4.9 Populasi untuk Generasi Selanjutnya 54
4.10.a Hasil Tahapan Text Processing Generasi Selanjutnya 54 4.10.b Hasil Tahapan Text Processing Generasi Selanjutnya 55 4.11 Hasil Perbandingan Keyword Generasi Selanjutnya 55 4.12 Evaluasi Nilai Fitness Generasi Selanjutnya 56
4.13 Hasil Seleksi Generasi Selanjutnya 57
4.14 Hasil Perhitungan Kemiripan Dokumen 58
4.15 Hasil Pencarian Dokumen dengan Algoritma Genetika 58 4.16 Nilai Kemiripan Dokumen dengan Jaringan Syaraf
Tiruan (JST)
4.17 Nilai Kemiripan Dokumen dengan Algoritma Genetika 60
4.18 Kueri Jaringan Syaraf Tiruan 61
4.19 Kueri Algoritma Genetika 62
4.20 Hasil Kueri Algoritma Genetika 63
4.21 Hasil Perbandingan Nilai Kemiripan Dokumen
Menggunakan Algoritma Genetika dan Jaringan Syaraf Tiruan
63
DAFTAR GAMBAR
Nomor
Gambar
Judul
Halaman
2.1 Diagram Alir Algoritma Genetika 12
2.2 Seleksi Roda Roulette 16
2.3.a Kueri dan Istilah Teraktivasi 20
2.3.b Dokumen Memuat Istilah Teraktivasi dan Kumpulan Dokumen
20
3.1 Bagan Alir Teknik Pencarian Kembali Dokumen 28
3.2 Bagan Alir Tahapan Text Preprocessing 32
3.3 Bagan Alir Pencarian Kembali Dokumen dengan Algoritma Genetika
35
3.4 Pseudocode Penerapan Algoritma Genetika dalam Sistem Pencarian Kembali Dokumen
36
3.5 Rancangan Diagram ERD 40
3.6 Navigation Diagram Perancangan Perangkat Lunak 42
4.1 Perbandingan Jumlah Dokumen Pencarian 65
DAFTAR LAMPIRAN
Nomor
Lampiran
Judul
Halaman
A Hasil Perhitungan Nilai Fitness Algoritma Genetika L1
B Hasil Pencarian Nilai Kemiripan Dokumen
Menggunakan Algoritma Genetika
L2
C Hasil Pencarian Dokumen Menggunakan Jaringan Syaraf Tiruan
L4
D Hasil Pencarian Dokumen Menggunakan Algoritma Genetika
L8
E Perbandingan Nilai Kemiripan Algoritma Genetika dengan Jaringan syaraf Tiruan
L12
F Daftar Keyword Hasil Tahapan Text Processing L13
G Daftar Stemming L14
H Daftar Stop Word L19
I Data Dokumen Penelitian L24