PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP TESIS. Oleh VERA WIJAYA /TINF

(1)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(2)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(3)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar

Magister Ilmu Komputer dalam Program Studi

Magister Teknik Informatika pada Program Pascasarjana

Fakultas MIPA Universitas Sumatera Utara

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(4)

PENGESAHAN TESIS

Judul Tesis :PENGGUNAAN FAKTOR HSINCHUN

CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

Nama Mahasiswa : Vera Wijaya Nomor Induk Mahasiswa : 09 70 38 003

Program Studi : Magister Teknik Informatika

Fakultas : Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara

Menyetujui Komisi Pembimbing

Dr. Erna Budhiarti Nababan, MIT Dr. Poltak Sihombing, M.Kom

Pembimbing Anggota Pembimbing Utama

Ketua Program Studi, D e k a n,

Prof. Dr. Muhammad Zarlis

NIP.19570701198601 1003 NIP. 19631026199103 1001 Dr.Sutarman, M.Sc

(5)

PERNYATAAN ORISINALITAS

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

T E S I S

Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan telah di jelaskan sumbernya dengan benar.

Medan, 13 Juni 2011

Vera Wijaya

(6)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang telah bertanda tangan di bawah ini :

Nama : Vera Wijaya

NIM : 097038003

Program Studi : Magister Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas Tesis saya yang berjudul :

Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip

beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 13 Juni 2011

(7)

Telah diuji pada Tanggal : 28 Juli 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Opim Salim Sitompul Anggota : 1. Prof. Dr. Muhammad Zarlis

2. Syahril Effendi, S.Si, MIT 3. Dr. Poltak Sihombing, M.Kom 4. Dr. Erna Budhiarti Nababan

(8)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Vera Wijaya, S.Kom

Tempat dan Tanggal Lahir : Pematang Siantar, 2 Agustus 1983 Alamat Rumah : Kompleks Cemara Asri

Jl. Bungur No.120, Medan Telepon/Faks/HP : 085261726988/

e-mail : [email protected]

Instansi Tempat Bekerja : STMIK Kristenn Neumann Medan Alamat Kantor : Jl. Jamin Ginting Km. 10,5 Medan

Telepon/Faks/HP :

DATA PENDIDIKAN

SD : Perguruan Kristen Methodist, P.Siantar Tamat : 1995 SMP : Perguruan Kristen Methodist, P.Siantar Tamat : 1998 SMA : Perguruan Kristen Methodist, P.Siantar Tamat : 2001 Strata-1 : Program Studi Sistem Informasi,

Universitas Bina Nusantara, Jakarta.

(9)

KATA PENGANTAR

Pertama-tama saya panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmadnya dan karunia-Nya sehingga tesis ini dapat diselesaikan.

Dengan selesainya tesis ini, perkenankanlah saya mengucapkan terima kasih yang sebesar-besarnya kepada yang terhormat :

• Rektor Universitas Sumatera Utara, Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H (CTM), Sp. A(K) atas kesempatan yang diberikan kepada kami untuk mengikuti dan menyelesaikan pendidikan Program Magister.

• Dekan Fakultas MIPA Universitas Sumatera Utara, Bapak Dr. Sutarman, M.Sc atas kesempatan menjadi mahasiswa Program Magister pada Program Pascasarjana FMIPA Universitas Sumatera Utara.

• Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister Teknik Informatika, Bapak M.Andri Budiman, ST, M.Comp. Sc. MEM beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Bapak Dr. Poltak Sihombing, M.Kom selaku Promotor/Pembimbing Utama yang dengan penuh perhatian dan telah memberikan dorongan, bimbingan dan tuntunan, demikian juga kepada Ibu Dr. Erna Budhiarti Nababan, MIT selaku Co. Promotor/Pembimbing Lapangan yang penuh kesabaran menuntun dan membimbing kami hingga selesainya penelitian ini.

Kepada Ayah Tukijan Sukardy dan Bunda Po Ing serta anakku terkasih Jasslyn. Terima kasih atas segala pergorbanan kalian baik berupa moril maupun materil, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa.

(10)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

ABSTRAK

Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled.

Kata Kunci : hsinchun chen, algoritma genetika, nilai kemiripan, penemuan kembali

(11)

THE USE OF HSINCHUN CHEN FACTORS IN GENETIC

ALGORITHM TO RETRIEVE SIMILAR DOCUMENT

ABSTRACT

The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity.

(12)

DAFTAR ISI

Halaman KATA PENGANTAR i ABSTRAK ii ABSTRACT iii DAFTAR ISI iv DAFTAR TABEL vi

DAFTAR GAMBAR viii

DAFTAR LAMPIRAN ix BAB I PENDAHULUAN 1 1.1 Latar Belakang 1 1.2 Perumusan Masalah 3 1.3 Tujuan Penelitian 3 1.4 Manfaat Penelitian 4 1.5 Batasan Masalah 4

BAB II TINJAUAN PUSTAKA 6

2.1 Information Retrieval 6

2.2 Similarity (Kemiripan) 8

2.3 Similarity Measure (Ukuran Kemiripan) 9

2.4 Algoritma Genetika 10

2.4.1 Struktur Umum Algoritma Genetika 11 2.4.2 Pengkodean Algoritma Genetika 13

2.4.3 Operator Genetika 14

2.5 Teknik Yang Digunakan Sebelumnya 19

2.5.1 Pendekatan Jaringan Syaraf Tiruan untuk Temu Kembali Informasi

19

(13)

Kembali Informasi

2.5.3 Pendekatan Bibliometrik untuk Temu Kembali Informasi

22

BAB III METODE PENELITIAN 26

3.1 Data Penelitian 26

3.2 Keyword 27

3.3 Teknik Penelitian 27

3.3.1 Text Preprocessing 28

3.3.2 Ukuran Kemiripan Hsinchun Chen 30 3.3.3 Implementasi Faktor Hsinchun Chen dalam

Algoritma Genetika

31

3.4 Perancangan Sistem 36

3.4.1 Deskripsi Sistem 37

3.4.2 Perancangan Database 37

3.4.3 Perancangan Perangkat Lunak 40

BAB IV HASIL DAN PEMBAHASAN 44

4.1 Penggunaan Hsinchun Chen dalam Algoritma Genetika untuk Menemukan Kembali Dokumen yang Mirip

44

4.1.1 Hasil Tahapan Text Preprocessing 44 4.1.2 Pencarian Kemiripan Dokumen dengan Algoritma

Genetika

45

4.2 Perbandingan Hasil Pencarian Kembali Dokumen Menggunakan Algoritma Genetika dengan Jaringan Syaraf Tiruan

58

BAB V KESIMPULAN DAN SARAN 67

5.1 Kesimpulan 67

5.2 Saran 68

DAFTAR PUSTAKA 70

(14)

DAFTAR TABEL

Nomor

Tabel

Judul

Halaman

2.1 Probabilitas Seleksi dan Nilai Fitness 15

2.2 Perbandingan Teknik dalam Sistem Temu Kembali Informasi

24

3.1 Rancangan Halaman Perangkat Lunak 41

4.1 Hasil Tahapan Text Processing 47

4.2 Pemodelan Kromosom Solusi 47

4.3 Pembangkitan Populasi Awal 48

4.4.a Hasil Text Processing Dokumen Populasi Awal 49 4.4.b Hasil Text Processing Dokumen Populasi Awal 49 4.5 Hasil Perbandingan Keyword Query dengan Keyword

Populasi Awal

50

4.6 Hasil Pengkodean Kromosom Populasi 51

4.7 Hasil Perhitungan Nilai Fitness 52

4.8 Hasil Seleksi Kromosom 52

4.9 Populasi untuk Generasi Selanjutnya 54

4.10.a Hasil Tahapan Text Processing Generasi Selanjutnya 54 4.10.b Hasil Tahapan Text Processing Generasi Selanjutnya 55 4.11 Hasil Perbandingan Keyword Generasi Selanjutnya 55 4.12 Evaluasi Nilai Fitness Generasi Selanjutnya 56

4.13 Hasil Seleksi Generasi Selanjutnya 57

4.14 Hasil Perhitungan Kemiripan Dokumen 58

4.15 Hasil Pencarian Dokumen dengan Algoritma Genetika 58 4.16 Nilai Kemiripan Dokumen dengan Jaringan Syaraf

Tiruan (JST)

(15)

4.17 Nilai Kemiripan Dokumen dengan Algoritma Genetika 60

4.18 Kueri Jaringan Syaraf Tiruan 61

4.19 Kueri Algoritma Genetika 62

4.20 Hasil Kueri Algoritma Genetika 63

4.21 Hasil Perbandingan Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika dan Jaringan Syaraf Tiruan

63

(16)

DAFTAR GAMBAR

Nomor

Gambar

Judul

Halaman

2.1 Diagram Alir Algoritma Genetika 12

2.2 Seleksi Roda Roulette 16

2.3.a Kueri dan Istilah Teraktivasi 20

2.3.b Dokumen Memuat Istilah Teraktivasi dan Kumpulan Dokumen

20

3.1 Bagan Alir Teknik Pencarian Kembali Dokumen 28

3.2 Bagan Alir Tahapan Text Preprocessing 32

3.3 Bagan Alir Pencarian Kembali Dokumen dengan Algoritma Genetika

35

3.4 Pseudocode Penerapan Algoritma Genetika dalam Sistem Pencarian Kembali Dokumen

36

3.5 Rancangan Diagram ERD 40

3.6 Navigation Diagram Perancangan Perangkat Lunak 42

4.1 Perbandingan Jumlah Dokumen Pencarian 65

(17)

DAFTAR LAMPIRAN

Nomor

Lampiran

Judul

Halaman

A Hasil Perhitungan Nilai Fitness Algoritma Genetika L1

B Hasil Pencarian Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika

L2

C Hasil Pencarian Dokumen Menggunakan Jaringan Syaraf Tiruan

L4

D Hasil Pencarian Dokumen Menggunakan Algoritma Genetika

L8

E Perbandingan Nilai Kemiripan Algoritma Genetika dengan Jaringan syaraf Tiruan

L12

F Daftar Keyword Hasil Tahapan Text Processing L13

G Daftar Stemming L14

H Daftar Stop Word L19

I Data Dokumen Penelitian L24