Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip

(1)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SUMATERA UTARA

(2)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Oleh

VERA WIJAYA

097038003/TINF

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

(3)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM

ALGORITMA GENETIKA UNTUK MENEMUKAN

DOKUMEN YANG MIRIP

TESIS

Diajukan sebagai salah satu syarat untuk memperoleh gelar

Magister Ilmu Komputer dalam Program Studi

Magister Teknik Informatika pada Program Pascasarjana

Fakultas MIPA Universitas Sumatera Utara

Oleh

VERA WIJAYA

097038003/TINF

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

(4)

PENGESAHAN TESIS

Judul Tesis :PENGGUNAAN FAKTOR HSINCHUN

CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

Nama Mahasiswa : Vera Wijaya

Nomor Induk Mahasiswa : 09 70 38 003

Program Studi : Magister Teknik Informatika

Fakultas : Matematika dan Ilmu Pengetahuan Alam

Universitas Sumatera Utara

Menyetujui Komisi Pembimbing

Dr. Erna Budhiarti Nababan, MIT Dr. Poltak Sihombing, M.Kom

Pembimbing Anggota Pembimbing Utama

Ketua Program Studi, D e k a n,

Prof. Dr. Muhammad Zarlis

NIP.19570701198601 1003 NIP. 19631026199103 1001

(5)

PERNYATAAN ORISINALITAS

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

T E S I S

Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil

kerja saya sendiri kecuali kutipan dan ringkasan telah di jelaskan sumbernya

dengan benar.

Medan, 13 Juni 2011

Vera Wijaya

(6)

PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang telah bertanda

tangan di bawah ini :

Nama : Vera Wijaya

NIM : 097038003

Program Studi : Magister Teknik Informatika

Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive

Royalty Free Right) atas Tesis saya yang berjudul :

Penggunaan Faktor Hsinchun Chen Dalam Algoritma Genetika Untuk Menemukan Dokumen Yang Mirip

beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti

Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,

memformat, mengelola dalam bentuk data-base, merawat dan mempublikasikan

Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya

sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 13 Juni 2011

(7)

Telah diuji pada Tanggal : 28 Juli 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Opim Salim Sitompul Anggota : 1. Prof. Dr. Muhammad Zarlis

(8)

RIWAYAT HIDUP

DATA PRIBADI

Nama lengkap berikut gelar : Vera Wijaya, S.Kom

Tempat dan Tanggal Lahir : Pematang Siantar, 2 Agustus 1983

Alamat Rumah : Kompleks Cemara Asri

Jl. Bungur No.120, Medan

Telepon/Faks/HP : 085261726988/

e-mail

Instansi Tempat Bekerja : STMIK Kristenn Neumann Medan

Alamat Kantor : Jl. Jamin Ginting Km. 10,5 Medan

Telepon/Faks/HP :

DATA PENDIDIKAN

SD : Perguruan Kristen Methodist, P.Siantar Tamat : 1995

SMP : Perguruan Kristen Methodist, P.Siantar Tamat : 1998

SMA : Perguruan Kristen Methodist, P.Siantar Tamat : 2001

Strata-1 : Program Studi Sistem Informasi,

Universitas Bina Nusantara, Jakarta.

(9)

KATA PENGANTAR

Pertama-tama saya panjatkan puji syukur kehadirat Tuhan Yang Maha Esa atas segala limpahan rakhmadnya dan karunia-Nya sehingga tesis ini dapat diselesaikan.

Dengan selesainya tesis ini, perkenankanlah saya mengucapkan terima kasih yang sebesar-besarnya kepada yang terhormat :

• Rektor Universitas Sumatera Utara, Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H (CTM), Sp. A(K) atas kesempatan yang diberikan kepada kami untuk mengikuti dan menyelesaikan pendidikan Program Magister.

• Dekan Fakultas MIPA Universitas Sumatera Utara, Bapak Dr. Sutarman, M.Sc atas kesempatan menjadi mahasiswa Program Magister pada Program Pascasarjana FMIPA Universitas Sumatera Utara.

• Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis, Sekretaris Program Studi Magister Teknik Informatika, Bapak M.Andri Budiman, ST, M.Comp. Sc. MEM beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera Utara.

Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Bapak Dr. Poltak Sihombing, M.Kom selaku Promotor/Pembimbing Utama yang dengan penuh perhatian dan telah memberikan dorongan, bimbingan dan tuntunan, demikian juga kepada Ibu Dr. Erna Budhiarti Nababan, MIT selaku Co. Promotor/Pembimbing Lapangan yang penuh kesabaran menuntun dan membimbing kami hingga selesainya penelitian ini.

Kepada Ayah Tukijan Sukardy dan Bunda Po Ing serta anakku terkasih Jasslyn. Terima kasih atas segala pergorbanan kalian baik berupa moril maupun materil, budi baik ini tidak dapat dibalas hanya diserahkan kepada Tuhan Yang Maha Esa.

(10)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

ABSTRAK

Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled.

(11)

THE USE OF HSINCHUN CHEN FACTORS IN GENETIC

ALGORITHM TO RETRIEVE SIMILAR DOCUMENT

ABSTRACT

The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity.

(12)

DAFTAR ISI

Halaman

KATA PENGANTAR i

ABSTRAK ii

ABSTRACT iii

DAFTAR ISI iv

DAFTAR TABEL vi

DAFTAR GAMBAR viii

DAFTAR LAMPIRAN ix

BAB I PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 3

1.3 Tujuan Penelitian 3

1.4 Manfaat Penelitian 4

1.5 Batasan Masalah 4

BAB II TINJAUAN PUSTAKA 6

2.1 Information Retrieval 6

2.2 Similarity (Kemiripan) 8

2.3 Similarity Measure (Ukuran Kemiripan) 9

2.4 Algoritma Genetika 10

2.4.1 Struktur Umum Algoritma Genetika 11

2.4.2 Pengkodean Algoritma Genetika 13

2.4.3 Operator Genetika 14

2.5 Teknik Yang Digunakan Sebelumnya 19

2.5.1 Pendekatan Jaringan Syaraf Tiruan untuk Temu

Kembali Informasi

19

(13)

Kembali Informasi

2.5.3 Pendekatan Bibliometrik untuk Temu Kembali

Informasi

22

BAB III METODE PENELITIAN 26

3.1 Data Penelitian 26

3.2 Keyword 27

3.3 Teknik Penelitian 27

3.3.1 Text Preprocessing 28

3.3.2 Ukuran Kemiripan Hsinchun Chen 30

3.3.3 Implementasi Faktor Hsinchun Chen dalam

Algoritma Genetika

31

3.4 Perancangan Sistem 36

3.4.1 Deskripsi Sistem 37

3.4.2 Perancangan Database 37

3.4.3 Perancangan Perangkat Lunak 40

BAB IV HASIL DAN PEMBAHASAN 44

4.1 Penggunaan Hsinchun Chen dalam Algoritma Genetika

untuk Menemukan Kembali Dokumen yang Mirip

44

4.1.1 Hasil Tahapan Text Preprocessing 44

4.1.2 Pencarian Kemiripan Dokumen dengan Algoritma

Genetika

45

4.2 Perbandingan Hasil Pencarian Kembali Dokumen

Menggunakan Algoritma Genetika dengan Jaringan

Syaraf Tiruan

58

BAB V KESIMPULAN DAN SARAN 67

5.1 Kesimpulan 67

5.2 Saran 68

DAFTAR PUSTAKA 70

(14)

DAFTAR TABEL

Nomor

Tabel

Judul

Halaman

2.1 Probabilitas Seleksi dan Nilai Fitness 15

2.2 Perbandingan Teknik dalam Sistem Temu Kembali

Informasi

24

3.1 Rancangan Halaman Perangkat Lunak 41

4.1 Hasil Tahapan Text Processing 47

4.2 Pemodelan Kromosom Solusi 47

4.3 Pembangkitan Populasi Awal 48

4.4.a Hasil Text Processing Dokumen Populasi Awal 49

4.4.b Hasil Text Processing Dokumen Populasi Awal 49

4.5 Hasil Perbandingan Keyword Query dengan Keyword

Populasi Awal

50

4.6 Hasil Pengkodean Kromosom Populasi 51

4.7 Hasil Perhitungan Nilai Fitness 52

4.8 Hasil Seleksi Kromosom 52

4.9 Populasi untuk Generasi Selanjutnya 54

4.10.a Hasil Tahapan Text Processing Generasi Selanjutnya 54

4.10.b Hasil Tahapan Text Processing Generasi Selanjutnya 55

4.11 Hasil Perbandingan Keyword Generasi Selanjutnya 55

4.12 Evaluasi Nilai Fitness Generasi Selanjutnya 56

4.13 Hasil Seleksi Generasi Selanjutnya 57

4.14 Hasil Perhitungan Kemiripan Dokumen 58

4.15 Hasil Pencarian Dokumen dengan Algoritma Genetika 58

4.16 Nilai Kemiripan Dokumen dengan Jaringan Syaraf

Tiruan (JST)

(15)

4.17 Nilai Kemiripan Dokumen dengan Algoritma Genetika 60

4.18 Kueri Jaringan Syaraf Tiruan 61

4.19 Kueri Algoritma Genetika 62

4.20 Hasil Kueri Algoritma Genetika 63

4.21 Hasil Perbandingan Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika dan Jaringan Syaraf

Tiruan

63

(16)

DAFTAR GAMBAR

Nomor

Gambar

Judul

Halaman

2.1 Diagram Alir Algoritma Genetika 12

2.2 Seleksi Roda Roulette 16

2.3.a Kueri dan Istilah Teraktivasi 20

2.3.b Dokumen Memuat Istilah Teraktivasi dan Kumpulan

Dokumen

20

3.1 Bagan Alir Teknik Pencarian Kembali Dokumen 28

3.2 Bagan Alir Tahapan Text Preprocessing 32

3.3 Bagan Alir Pencarian Kembali Dokumen dengan

Algoritma Genetika

35

3.4 Pseudocode Penerapan Algoritma Genetika dalam

Sistem Pencarian Kembali Dokumen

36

3.5 Rancangan Diagram ERD 40

3.6 Navigation Diagram Perancangan Perangkat Lunak 42

4.1 Perbandingan Jumlah Dokumen Pencarian 65

(17)

DAFTAR LAMPIRAN

Nomor

Lampiran

Judul

Halaman

A Hasil Perhitungan Nilai Fitness Algoritma Genetika L1

B Hasil Pencarian Nilai Kemiripan Dokumen

Menggunakan Algoritma Genetika

L2

C Hasil Pencarian Dokumen Menggunakan Jaringan

Syaraf Tiruan

L4

D Hasil Pencarian Dokumen Menggunakan Algoritma

Genetika

L8

E Perbandingan Nilai Kemiripan Algoritma Genetika

dengan Jaringan syaraf Tiruan

L12

F Daftar Keyword Hasil Tahapan Text Processing L13

G Daftar Stemming L14

H Daftar Stop Word L19

I Data Dokumen Penelitian L24

(18)

PENGGUNAAN FAKTOR HSINCHUN CHEN DALAM ALGORITMA GENETIKA UNTUK MENEMUKAN DOKUMEN YANG MIRIP

ABSTRAK

Kecepatan pertumbuhan data dalam database sering menyebabkan data atau dokumen sulit ditemukan kembali. Hal ini berakibat pada dokumen yang ditemukan oleh suatu search engine tidak relevan (mirip) dengan kueri yang diberikan pada sistem. Tujuan penelitian ini mencoba untuk menjawab kebutuhan diatas dengan mengimplementasikan dan mengkaji penggunaan faktor Hsinchun chen dalam algoritma genetika untuk menemukan kembali dokumen yang diharapkan relevan dengan kueri yang diberikan oleh user. Teknik memanfaatkan faktor kemiripan Hsinchun chen untuk penemuan kembali dokumen dari suatu database. Metode penelitian ini secara garis besar terdiri dari 2 tahapan, yaitu tahapan text preprocessing secara offline kemudian tahapan mengukur nilai kemiripan dokumen dengan faktor hsinchun chen dalam algoritma genetika dan meretrieve dokumen tersebut. Hasil dari penelitian ini akan dibandingkan dengan sistem temu kembali jaringan syaraf tiruan metode Hopfiled dengan menggunakan dataset yang sama yang terdiri dari 600 dokumen sebagai ujicoba. Hasil pengujian nilai kemiripan dengan Hsinchun chen ini lebih tinggi jika dibandingkan dengan nilai kemiripan jaringan syaraf tiruan Hopfiled.

(19)

THE USE OF HSINCHUN CHEN FACTORS IN GENETIC

ALGORITHM TO RETRIEVE SIMILAR DOCUMENT

ABSTRACT

The speed of growth data in the database often cause data or documents hard to find again. This resulted in a document found by a search engine is not relevant (similar) with a given query on the system. The purpose of this study tries to answer the above needs by implementing and reviewing the use Hsinchun chen factor in the genetic algorithm to find the expected return of documents relevant to the query given by the user. Techniques take advantage of the similarity factor Hsinchun chen to the rediscovery of documents from a database. This research method largely consists of two phases, namely preprocessing stage of the text it offline later stages of document similarity measure value by a factor Hsinchun chen in genetic algorithms and retrieve document. The results of this study will be compared with the retrieval system Hopfiled neural network method using the same dataset consisting of 600 documents as testing. Test results by Hsinchun chen similarity value is higher if compared with the value of artificial neural networks Hopfiled similarity.

(20)

BAB I

PENDAHULUAN

Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan penelitian, manfaat penelitian dan batasan masalah.

1.1

LATAR BELAKANG

Perkembangan penggunaan informasi yang cukup tinggi khususnya informasi dalam bentuk teks dokumen menyebabkan kesulitan dalam proses menemukan kembali informasi, sehingga diperlukan suatu cara pendeteksian kemiripan dokumen untuk mendapatkan dokumen yang relevan dan sesuai dengan permintaan pengguna. Proses pendeteksian kemiripan dokumen merupakan pencarian kesamaan beberapa dokumen dengan membandingkan isi dokumen sehingga menghasilkan bobot atau nilai kemiripan dari dokumen yang dibandingkan. Salah satu kegunaan perbandingan isi dokumen adalah untuk membantu pengguna dalam pengelompokan dokumen dan juga memungkinkan pengguna mengetahui apakah isi dokumen yang satu merupakan dokumen yang pada dasarnya sama dengan dokumen yang lain. Menurut Rahman [25], pendeteksian kemiripan dokumen ini dapat dilakukan dengan beberapa teknik, misalnya teknik pencarian informasi (information retrieval), teknik penghitungan statistik, atau dengan menggunakan informasi sintaktik dari kalimat per kalimatnya.

(21)

antara lain Osinki [22], Prakasa [23], dan Widyantoro [34] pada hasil pencarian. Selain dari clustering dokumen yang telah dijelaskan sebelumnya, terdapat beberapa metode yang digunakan untuk pencarian kembali dokumen yaitu :

a. Proses parsing dokumen yaitu pengambilan kata-kata dari dokumen.

b. Proses stoplist yaitu pembuangan kata yang tidak mewakili isi dokumen

sehingga tidak dapat dijadikan sebagai indeks.

c. Proses steming kata yaitu proses penghilangan imbuhan yang tidak perlu

dari suatu kata turunan (berimbuhan).

d. Proses indexing yaitu pemilihan istilah (indeks) dilakukan oleh Tata[30].

e. Proses mencari hubungan antar dua istilah (similarity of terms).

f. Operasi Boolean terhadap istilah-istilah dalam kueri untuk penemuan

kembali dokumen yang diinginkan, dilakukan oleh Hasibuan dan Andri

[11].

Sihombing[27] telah melakukan penelitian pendeteksian kemiripan dokumen dengan menggunakan Jaringan Saraf Tiruan Hopfiled dengan memanfaatkan similarity measure Hsinchun Chen untuk mendapatkan nilai kemiripan dokumen yang dihasilkan dengan query yang diberikan.

Terdapat sejumlah metode untuk menghitung kesamaan antar dokumen, salah satunya dengan menggunakan ukuran kemiripan (similarity measure) Hsinchun Chen diperkenalkan oleh Chen et al [4]. Hsinchun Chen adalah seorang peneliti di bidang IT, pada tahun 1994 Chen dan teman-temannya melakukan penelitian sistem temu kembali dokumen dan menghasikan suatu formulasi pengukuran kemiripan dokumen, rumus ini dikenal dengan ukuran kemiripan (similarity measure) Hsinchun Chen.

Algoritma genetika adalah suatu algoritma pencarian yang berbasis pada mekanisme seleksi alam dan genetika. Masalah yang dapat diselesaikan dengan algoritma genetika adalah masalah yang mempunyai kemungkinan solusi yang jumlahnya tak berhingga. Pada sistem pencarian kembali dokumen, masalah yang dihadapi adalah tantangan meledaknya jumlah informasi, sehingga memungkinkan pemberian informasi sesuai kebutuhan semakin rumit.

(22)

Tiruan .

1.2 PERUMUSAN MASALAH

Berdasarkan latar belakang permasalahan yang telah dikemukakan di atas, maka perumusan masalah penelitian ini adalah :

• Bagaimana mendapatkan nilai kemiripan dokumen yang lebih tinggi dengan kueri yang diberikan?

• Bagaimana hasil nilai kemiripan dokumen yang diperoleh dalam penelitian ini jika dibandingkan dengan penelitian Sihombing [27]

dengan menggunakan jaringan syaraf tiruan ?

1.3 TUJUAN PENELITIAN

Tujuan yang akan dicapai dari penelitian ini adalah :

Mendapatkan nilai kemiripan dokumen dengan penerapan faktor Hsinchun Chen dalam algoritma genetika.

Objektif dari penelitian ini adalah :

a. Menjelaskan mekanisme sistem pencarian dokumen dengan mengunakan

algoritma genetika.

b. Membangun sebuah perancangan sistem temu kembali dokumen dengan

query yang diberikan.

c. Mendapatkan hasil perbandingan nilai kemiripan dokumen menggunakan

(23)

1.4 MANFAAT PENELITIAN

Manfaat dari penelitian ini adalah :

a. Memahami hal-hal yang perlu dilakukan dalam mengaplikasikan algoritma

genetika dalam mencari nilai kemiripan dokumen.

b. Memahami teknik yang dapat diterapkan dalam mencari nilai kemiripan

dokumen

c. Menjadi rujukan bagi peneliti yang lain sebagai teknik untuk melakukan

browsing guna menemukan dokumen yang relevan.

1.5 BATASAN MASALAH

Untuk mencegah pembahasan yang terlalu luas maka penulis membatasi ruang lingkup masalah pada penelitian ini adalah sebagai berikut :

a. Batasan model yaitu model algoritma genetika dengan faktor kemiripan

yang digunakan adalah Hsinchun Chen.

b. Penelitian ini berfokus pada implementasi algoritma genetika dalam

pencarian kembali dokumen, dimana bagian dokumen yang digunakan

adalah judul dari setiap dokumen.

c. Bagian dari dokumen yang digunakan untuk penerapan algoritma genetika

adalah keyword (kata kunci), dimana keyword tersebut diperoleh dari judul

setiap dokumen yang telah mengalami tahapan text preprocessing secara

sederhana.

d. Membandingkan nilai kemiripan dokumen yang didapatkan dengan

algoritma genetika dan algoritma jaringan syaraf tiruan Hopfield.

e. Dataset yang digunakan berjumlah 600 dokumen, dimana dokumen tersebut

berbentuk jurnal, makalah atau penelitian dalam Bahasa Indonesia, dimana

dataset tersebut merupakan data yang sama digunakan oleh peneliti

sebelumnya Sihombing[27], sehingga dapat dilakukan perbandingan nilai

kemiripan dokumen terhadap penelitian yang dilakukan sebelumnya dan

(24)

untuk penelitian di Universitas Indonesia (UI).

(25)

BAB II

TINJAUAN PUSTAKA

Pada bab ini akan dibahas mengenai information retrieval, similarity (kemiripan), similarity measure (ukuran kemiripan), algoritma genetika kemudian dilanjutkan dengan teknik-teknik yang telah digunakan sebelumnya.

2.1 INFORMATION RETRIEVAL

Rahman [25] mendefinisikan Information Retrieval (IR) sebagai tindakan, metode

dan prosedur untuk menemukan kembali data yang tersimpan, dan selanjutnya

menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut

mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup

teks, tabel, gambar, ucapan, dan video. Informasi yang ditemukan adalah

merupakan pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian

masalah dan akuisisi pengetahuan [7].

Sistem Temu Kembali Informasi merupakan sistem yang berfungsi untuk

menemukan informasi yang relevan dengan kebutuhan pemakai. Salah satu hal

yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam

sebuah dokumen yang bersifat tekstual. Dalam konteks ini, temu kembali

informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap

dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan

(26)

query. Pengguna Sistem Temu Kembali informasi sangat bervariasi dengan kebutuhan informasi yang berbeda-beda.

Tujuan dari sistem IR (Information Retrieval) adalah memenuhi kebutuhan

informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan,

pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tak-relevan.

Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi

merupakan sumber informasi. Dokumen biasanya dinyatakan dalam bentuk

indeks atau kata kunci. Kata kunci dapat diekstrak secara langsung dari teks

dokumen atau ditentukan secara khusus oleh spesialis subjek dalam proses

pengindeksan yang pada dasarnya terdiri dari proses analisis dan representasi

dokumen. Pengindeksan dilakukan dengan menggunakan sistem pengindeksan

tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai bahasa indeks

sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian diawali

dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu

Kembali Informasi berfungsi untuk menganalisis pertanyaan (query) pengguna

yang merupakan representasi dari kebutuhan informasi untuk mendapatkan

pernyataan-pernyataan pencarian yang tepat. Selanjutnya pernyataan-pernyataan

pencarian tersebut dipertemukan dengan informasi yang telah terorganisasi

dengan suatu fungsi penyesuaian (matching function) tertentu sehingga ditemukan

dokumen atau sekumpulan dokumen.

Menurut Grossman and Ophir [10], sistem ini menggunakan fungsi

heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan query

pengguna. Sistem IR yang baik memungkinkan pengguna menentukan secara

cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya.

Dengan tujuan dokumen lebih baik dan lebih representasi, maka

dokumen-dokumen tersebut dikelompokkan secara bersama yang sesuai dengan topiknya

atau isi yang mirip dikelompokkan.

Menurut Frakes and Baeza-Yates [7], ada dua pekerjaan yang ditangani

oleh sistem ini, yaitu melakukan pre-processing terhadap database dan kemudian

menerapkan metode tertentu untuk menghitung kedekatan (relevansi atau

(27)

query pengguna. Pada tahapan preprocessing, sistem yang berurusan dengan dokumen semi-structured biasanya memberikan tag tertentu pada term-term atau

bagian dari dokumen; sedangkan pada dokumen tidak terstruktur proses ini

dilewati dan membiarkan term tanpa imbuhan tag.

Query yang dimasukkan oleh pengguna dikonversi sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan term-term yang

sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query

dan dokumen berdasarkan pada term-term tersebut [24]. Sebagai hasilnya, sistem

mengembalikan suatu daftar dokumen terurut descending (ranking) sesuai nilai

kemiripannya dengan query pengguna [18].

Menurut Tata [30], setiap dokumen (termasuk query) direpresentasikan

menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di

dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen

ditransformasi ke dalam suatu “tas“ berisi kata-kata independen. Term disimpan

dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index.

Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana

kata-kata tersebut muncul.

2.2 SIMILARITY (KEMIRIPAN)

Menurut Guo [13], definisi dari similarity adalah sesuatu yang penting dan

merupakan konsep yang digunakan secara luas. Similarity mempunyai beberapa

pendekatan, yaitu:

a. Perkiraan 1: kesamaan antara A dan B adalah berhubungan dengan

kesamaannya secara umum. Semakin banyak kesamaan umum yang

(28)

b. Perkiraan 2: kesamaan antara A dan B adalah berhubungan dengan

perbedaan-perbedaan yang dimilikinya. Semakin banyak perbedaan yang

dimiliki, semakin kecil tingkat kemiripannya.

c. Perkiraan 3: kesamaan maksimum antara A dan B akan tercapai ketika A

dan B adalah serupa atau identik, berapa banyak kesamaan umum yang

mereka bagikan tidak berpengaruh.

2.3 SIMILARITY MEASURE ( UKURAN KEMIRIPAN)

Menurut Salton [26], model ruang vektor dan pembobotan tf-idf digunakan untuk

merepresentasikan nilai numerik dokumen sehingga kemudian dapat dihitung

kedekatan antar dokumen. Semakin dekat dua vektor di dalam suatu ruang vektor

maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan

antar dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity

measure). Ukuran ini memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah dokumen diranking, sejumlah

tetap dokumen top-scoring dikembalikan kepada pengguna.

Alternatifnya, suatu threshold dapat digunakan untuk memutuskan berapa

banyak dokumen akan dikembalikan. Threshold dapat digunakan untuk

mengontrol tarik-ulur antara presisi dan recall. Nilai threshold tinggi biasanya

akan menghasilkan presisi tinggi dan recall rendah.

Ada beberapa metode pengukuran kemiripan yaitu cosine, dice, hsinchun

chen, dan jaccard. Metode yang sering digunakan untuk pengukuran kemiripan adalah ukuran kemiripan (similarity measure) cosine.

Salah satu ukuran kemiripan dokumen adalah faktor Hsinchun Chen [32].

Menurut Chen et al [4] ukuran kemiripan dengan Hsinchun Chen adalah setiap

istilah dapat diwakili oleh satu simpul (node), dimana hubungan antar istilah ini

dapat dihitung dengan menggunakan rumusan yang diajukannya seperti pada

(29)

... (2.1)

Dengan

di

jk bernilai 1 (satu) apabila dokumen ke-i memuat istilah j dan

istilah k bersama-sama, dan bernilai 0 (nol) pada kasus lainnya. Nilai

di

j bernilai 1

apabila dokumen ke-i memuat istilah j, dan 0 apabila dokumen ke-i tidak memuat

istilah j.

Rumus di atas menyatakan kemiripan antara istilah j dan istilah k yaitu

perbandingan antara jumlah dokumen yang memuat istilah j dan istilah k

bersama-sama, dengan jumlah dokumen yang memuat istilah j saja. Nilai n adalah jumlah

keseluruhan dokumen yang ada dalam koleksi.

Nilai kemiripan (Tj, Tk) mungkin berbeda dengan nilai kemiripan (Tk, Tj),

karena nilai pembagi dalam rumus di atas untuk kemiripan (Tk, Tj) adalah jumlah

dokumen yang memuat istilah k saja (dik). Ini berarti ada perbedaan nilai

keterhubungan dari istilah k ke istilah j dengan nilai keterhubungan dari istilah j

ke istilah k.

2.4 ALGORITMA GENETIKA

Menurut Kusumadewi [16] menyatakan bahwa algoritma genetika (AG) adalah

suatu algoritma pencarian yang berbasis pada mekanisme seleksi alam dan

genetika. Algoritma genetika merupakan salah satu algoritma yang sangat tepat

digunakan dalam menyelesaikan masalah optimasi kompleks, yang sulit dilakukan

oleh metode konvensional.

Menurut Desiani dan Arhami [6], sifat algoritma genetika adalah mencari

kemungkinan-kemungkinan dari calon solusi untuk mendapatkan yang optimal

(30)

(feasible), yaitu objek-objek diantara solusi yang sesuai, dinamakan ruang

pencarian (search space). Tiap titik dalam ruang pencarian merepresentasikan

satu solusi yang layak. Tiap solusi yang layak ditandai dengan nilai fitness-nya

bagi masalah.

Ciri-ciri permasalahan yang dapat dikerjakan dengan menggunakan

algoritma genetika adalah [1]:

• Mempunyai fungsi tujuan optimalisasi non linear dengan banyak kendala yang juga non linear.

• Mempunyai kemungkinan solusi yang jumlahnya tak berhingga.

• Membutuhkan solusi “real-time” dalam arti solusi bisa didapatkan dengan cepat sehingga dapat diimplementasikan untuk permasalahan yang

mempunyai perubahan yang cepat seperti optimasi pada pembebanan

kanal pada komunikasi seluller.

• Mempunyai multi-objective dan multi-criteria, sehingga diperlukan solusi yang dapat secara bijak diterima oleh semua pihak.

2.4.1 Struktur Umum Algoritma Genetika

Goldberg [9] mengemukakan bahwa algoritma genetika mempunyai

karakteristik-karakteristik yang perlu diketahui sehingga dapat terbedakan dari prosedur

pencarian atau optimasi yang lain, yaitu :

1. Algoritma genetika bekerja dengan pengkodean dari himpunan solusi

permasalahan berdasarkan parameter yang telah ditetapkan dan bukan

parameter itu sendiri.

2. Algoritma genetika melakukan pencarian pada sebuah populasi dari

sejumlah individu-individu yang merupakan solusi permasalahan bukan

(31)

3. Algoritma genetika merupakan informasi fungsi objektif(fitness), sebagai

cara untuk mengevaluasi individu yang mempunyai solusi terbaik bukan

turunan dari suatu fungsi.

Algoritma genetika secara umum dapat diilustrasikan dalam diagram alir gambar

[image:31.595.115.459.223.545.2]

2.1 berikut :

Gambar 2.1. Diagram Alir Algoritma Genetika

Kusumadewi dan Purnomo [17] menyatakan variabel dan parameter yang

digunakan pada algoritma genetika adalah :

1. Fungsi fitness (fungsi tujuan) yang dimiliki oleh masing-masing individu

untuk menentukan tingkat kesesuaian individu tersebut dengan kriteria

yang ingin dicapai.

(32)

3. Probabilitas terjadinya persilangan (crossover) pada suatu generasi.

4. Probabilitas terjadinya mutasi pada setiap individu

5. Jumlah generasi yang akan dibentuk menentukan lama penerapan

algoritma genetika.

Secara umum, Thiang et al. [31] mengemukakan bahwa struktur dari

suatu algoritma genetika dapat didefenisikan dengan langkah-langkah sebagai

berikut :

1. Membangkitkan populasi awal

Populasi awal ini dibangkitkan secara random sehingga didapatkan solusi

awal. Populasi ini sendiri terdiri atas sejumlah kromosom untuk

merepresentasikan solusi yang diinginkan.

2. Membentuk generasi baru

Untuk membentuk generasi baru, digunakan operator reproduksi/seleksi,

crossover dan mutasi. Proses ini dilakukan berulang-ulang sehingga didapatkan sejumlah kromosom yang cukup untuk membentuk generasi

baru di mana generasi baru ini merupakan representasi dari solusi baru.

Generasi baru in dikenal dengan istilah anak (offspring).

3. Evaluasi solusi

Pada tiap generasi, kromosom akan melalui proses evaluasi dengan

menggunakan alat ukur yang dinamakan fitness. Nilai fitness suatu

kromosom menggambarkan kualitas kromosom dalam populasi tersebut.

Proses ini mengevaluasi setiap populasi dengan menghitung nilai fitness

setiap kromosom dan mengevaluasinya dampai terpenuhi kriteria berhenti.

Bila kriteria berhenti belum terpenuhi maka akan dibentuk lagi generasi

baru dengan mengulang langkah 2. Beberapa kriteria berhenti yang sering

digunakan antara lain: berhenti pada generasi tertentu, berhenti setelah

(33)

tidak berubah, berhenti bila dalam n generasi berikut tidak didapatkan nilai

fitness yang lebih tinggi.

2.4.2 Pengkodean Algoritma Genetika

Pengkodean adalah suatu teknik untuk menyatakan populasi awal sebagai calon

solusi suatu masalah ke dalam suatu kromosom [8] sebagai suatu kunci pokok

persoalan ketika menggunakan algoritma genetika.

Berdasarkan jenis simbol yang digunakan sebagai nilai suatu gen, metode

pengkodean dapat diklasifikasikan sebagai berikut: pengkodean biner, bilangan

riil, bilangan bulat dan struktur data [8].

Pengkodean biner merupakan cara pengkodean yang paling umum

digunakan karena adalah yang pertama kali digunakan dalam algoritma genetika

oleh Holland. Keuntungan pengkodean ini adalah sederhana untuk diciptakan dan

mudah dimanipulasi.

Pengkodean biner memberikan banyak kemungkinan untuk kromosom

walaupun dengan jumlah nilai-nilai yang mungkin terjadi pada suatu gen yang

sedikit (0 atau 1). Di pihak lain, pengkodean biner ini sering tidak sesuai untuk

banyak masalah dan kadang pengkoreksian harus dilakukan setelah operasi

crossover dan mutasi.

Pengkodean bilangan riil adalah suatu pengkodean bilangan dalam bentuk

riil. Masalah optimasi fungsi dan optimalisasi kendala lebih tepat diselesaikan

dengan pengkodean bilangan riil karena struktur topologi ruang genotif untuk

pengkodean bilangan riil identik dengan ruang fenotifnya, sehingga mudah

membentuk operator genetika yang efektif dengan cara memakai teknik yang

(34)

Pengkodean bilangan bulat merupakan metode yang mengodekan bilangan

dalam bentuk bilangan bulat. Pengkodean ini baik digunakan untuk masalah

optimasi kombinational [8].

Pengkodean struktur data adalah model pengkodean yang menggunakan

struktur data. Pengkodean ini digunakan untuk masalah kehidupan yang lebih

kompleks seperti perencanaan jalur robot dan masalah pewarnaan grap [6].

2.4.3 Operator Genetika

Algoritma genetika merupakan proses pencarian yang heuristik dan acak sehingga

penekanan pemilihan operator yang digunakan sangat menentukan keberhasilan

algoritma genetika dalam menemukan solusi optimum suatu masalah yang

diberikan.

Operator genetika digunakan setelah proses evaluasi tahap pertama untuk

membentuk suatu populasi baru dari generasi sekarang. Operator-operator

tersebut adalah operator seleksi, crossover dan mutasi.

1. Seleksi

Seleksi bertujuan untuk memberikan kesempatan reproduksi yang lebih besar bagi

anggota populasi yang paling fit. Langkah pertama dalam seleksi ini adalah

pencarian nilai fitness. Masing-masing individu dalam wadah seleksi akan

menerima probailitas reproduksi yang bergantung pada nilai objektif dirinya

sendiri terhadap nilai objektif dari semua individu dalam wadah seleksi tersebut.

Nilai fitness inilah yang nantinya akan digunakan pada tahap-tahap seleksi

berikutnya [16].

(35)

a. Rank-based Fitness

Pada rank-based fitness, populasi diurutkan menurut nilai objektifnya.

Nilai fitness tiap-tiap individu hanya tergantung pada posisi individu

tersebut dalam urutan, dan tidak dipengaruhi oleh nilai objektifnya.

b. Seleksi Roda Roulette (Roulette Wheel Selection)

Pada metode ini, individu-individu dipetakan dalam sebuah segmen garis

secara berurutan sedemikian sehingga tiap-tiap segmen individu memiliki

ukuran yang sama dengan ukuran fitness-nya. Sebuah bilangan random

dibangkitkan dan individu yang memiliki segmen dalam kawasan bilangan

random tersebut akan terseleksi. Proses ini diulang hingga diperoleh sejumlah individu yang diharapkan. Pada tabel 2.1 dan gambar 2.2

menunjukkan probabilitas seleksi dari 11 individu. Individu pertama

memiliki fitness terbesar, dengan demikian dia juga memiliki individu

[image:35.595.117.544.484.676.2]

terbesar. Sedangkan individu ke-10 memiliki fitness terkecil kedua.

Tabel 2.1 Probabilitas Seleksi Dan Nilai Fitness

Individu ke- 1 2 3 4 5 6 7 8 9 10 11

Nilai Fitness 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0

Probabilitas

Seleksi

0.18 0.16 0.15 0.13 0.11 0.09 0.07 0.06 0.03 0.02 0.0

(36)

Setelah dilakukan seleksi, maka individu-individu yang terpilih adalah:

1 2 3 5 6 9

c. Stochastic universal sampling

Pada metode ini, individu-individu dipetakan dalam suatu segmen garis

secara berurutan sedemikian hingga tiap-tiap segmen individu memiliki

ukuran yang sama dengan ukuran fitnessnya seperti halnya pada seleksi

roda roulette. Kemudian diberikan sejumlah pointer sebanyak individu

yang ingin diseleksi pada garis tersebut. Andaikan N adalah jumlah

individu yang akan diseleksi, maka jarak antar pointer adalah 1/N, dan

posisi pointer pertama diberikan secara acak pada range [1,1/N].

d. Seleksi dengan pemotongan (Truncation selection)

Seleksi ini biasanya digunakan oleh populasi yang jumlahnya sangat besar.

Pada metode ini, individu-individu diurutkan berdasarkan nilai fitnessnya.

Hanya individu-individu yang terbaik saja yang akan diseleksi sebagai

induk. Parameter yang digunakan dalam metode ini adalah suatu nilai

ambang trunc yang mengindikasikan ukuran populasi yang akan diseleksi

sebagai induk yang berkisar antara 50%-10%. Individu-individu yang ada

di bawah nilai ambang ini tidak akan menghsilkan keturunan.

e. Seleksi dengan turnamen (Turnament Selection)

Pada metode seleksi dengan turnamen ini, akan ditetapkan suatu nilai tour

untuk individu-individu yang dipilih secara random dari suatu populasi.

Individu-individu yang terbaik dalam kelompok ini akan diseleksi sebagai

induk. Parameter yang digunakan pada metode ini adalah ukuran tour

yang bernilai 2 sampai N (jumlah individu dalam suatu populasi).

2. Crossover

Operator persilangan merupakan operasi yang bekerja untuk menggabungan dua

(37)

kromosom mengalami persilangan. Jumlah kromosom dalam populasi yang

mengalami persilangan ditentukan oleh paramater yang disebut dengan crossover

rate (probabilitas persilangan) .

Beberapa jenis crossover tersebut adalah

a. Crossover satu titik

Proses crossover dilakukan dengan memisahkan suatu string menjadi dua

bagian dan selanjutnya salah satu bagian dipertukarkan dengan salah satu

bagian dari string yang lain yang telah dipisahkan dengan cara yang sama.

Misalkan ada 2 kromosom dengan panjang 12 :

Induk 1 : 0 1 1 1 0 | 0 1 0 1 1 1 0

Induk 2 : 1 1 0 1 0 | 0 0 0 1 1 0 1

Posisi yang dipilih : 5

Kromosom baru yang terbetuk:

Anak 1 : 0 1 1 1 0 | 0 0 0 1 1 0 1

Anak 2 : 1 1 0 1 0 | 0 1 0 1 1 1 0

b. Crossover banyak titik

Proses crossover ini dilakukan dengan memisahkan suatu string menjadi

beberapa bagian dan selanjutnya dipertukarkan dengan bagian dari string

yang lain yang telah dipisahkan dengan cara yang sama sesuai dengan

urutannya.

Misalkan ada 2 kromosom dengan panjang 12 :

Induk 1 : 0 1 | 1 1 0 0 | 1 0 1 1 | 1 0

Induk 2 : 1 1 | 0 1 0 0 | 0 0 1 1 | 0 1

(38)

Kromosom baru yang terbetuk:

Anak 1 : 0 1 | 0 1 0 0 | 1 0 1 1 | 0 1

Anak 2 : 1 1 | 1 1 0 0 | 0 0 1 1 | 1 0

c. Crossover seragam

Kromosom seragam menghasilkan kromosom keturunan dengan menyalin

bit-bit secara acak dari kedua orang tuanya.

Misalkan ada 2 kromosom dengan panjang 12

Induk 1 : 0 1 1 1 0 0 1 0 1 1 1 0

Induk 2 : 1 1 0 1 0 0 0 0 1 1 0 1

Kromosom baru yang terbentuk:

Anak 1 : 0 1 0 1 0 0 0 0 1 1 1 0

Anak 2 : 1 1 1 1 0 0 1 0 1 1 0 1

3. Mutasi

Mutasi merupakan proses mengubah nilai dari satu atau beberapa gen dalam suatu

kromosom. Beberapa cara operasi mutasi diterapkan dalam algoritma genetika

menurut jenis pengkodean terhadap phenotype, antara lain:

a. Mutasi dalam pengkodean biner

Mutasi pada pengkodean biner merupakan operasi yang sangat sederhana.

Proses yang dilakukan adalah menginversi nilai bit pada posisi tertentu

yang dipilih secara acak (atau dengan menggunakan skema tertentu ) pada

kromosom, yang disebut inversi bit.

(39)

Kromosom sebelum mutasi : 1 0 0 1 0 1 1 1

Kromosom sesudah mutasi : 1 0 0 1 0 0 1 1

b. Mutasi dalam pengkodean permutasi

Proses mutasi yang dilakukan dalam pengkodean biner dengan mengubah

langsung bit-bit pada pada kromosom tidak dapat dilakukan pada

pengkodean permutasi karena konsistensi urutan permutasi harus

diperhatikan. Salah satu cara yang dapat dilakukan adalah dengan memilih

dua posisi (locus) dari kromosom dan kemudian nilainya saling

dipertukarkan.

Contoh mutasi dalam pengkodean permutasi

Kromosom sebelum mutasi : 1 2 3 4 6 5 8 7 9

Kromosom sesudah mutasi : 1 2 7 4 6 5 8 3 9

c. Mutasi dalam pengkodean nilai

Proses mutasi dalam pengkodean nilai dapat dilakukan dengan berbagai

cara, salah satunya yaitu dengan memilih sembarang posisi gen pada

kromosom, nilai yang ada tersebut kemudian ditambahkan atau

dikurangkan dengan suatu nilai kecil tertentu yang diambil secara acak.

Contoh mutasi dalam pengkodean nilai riil dengan nilai yang ditambahkan

atau dikurangkan adalah 0,1

Kromosom sebelum mutasi : 1,43 1,09 4,51 9,11 6,94

(40)

2.5 TEKNIK YANG DIGUNAKAN SEBELUMNYA

Terdapat beberapa teknik yang telah dikembangkan oleh para peneliti sebelumnya

untuk menyelesaikan permasalahan dalam sistem pencarian kembali dokumen.

Beberapa teknik yang telah dipergunakan sebelumnya adalah:

• Pendekatan jaringan syaraf tiruan untuk temu kembali informasi. • Pendekatan operator boolean untuk temu kembali informasi • Pendekatan bibliometrik untuk temu kembali informasi.

2.5.1 Pendekatan Jaringan Syaraf Tiruan Untuk Temu-Kembali Informasi

Jaringan syaraf tiruan terinspirasi dari sistem pengorganisasian otak manusia yang

terdiri dari beratus milyar sel syaraf dengan tipe yang bervariasi.

Sihombing [27,28] menerapkan jaringan syaraf tiruan untuk temu kembali

informasi dengan menggunakan beberapa ukuran kemiripan. Dalam terminologi

dan konsep jaringan syaraf tiruan untuk sistem temu kembali informasi, dibangun

node-node (neuron-neuron) yang merepresentasikan objek-objek dan links yang merepresentasikan hubungan objek-objek tersebut. Pendekatan sifat struktur JST

dibangun didasarkan pada pengertian sebagai berikut :

a. Objek: adalah sesuatu yang memiliki identitas atau entity konseptual untuk sistem temu kembali informasi.

b. Connection: menyatakan hubungan diantara dua objek, dimana keterhubungan ini dapat memiliki bobot, yang menentukan kekuatan

(kemiripan) hubungan diantara objek tersebut .

Pendekatan pada pengertian dasar struktur ini dapat dilihat pada gambar 2.3

(41)

Gambar 2.3 (a) kueri dan istilah aktivasi.

(b) dokumen memuat istilah teraktivasi dan kumpulan dokumen

Crestani and Rijsbergen [5]

Pada gambar 2.3 ditunjukkan bahwa dalam jaringan syaraf tiruan suatu

kueri ( ) bisa mengaktivasi beberapa istilah lain menjadi istilah teraktivasi ( ),

dan kueri yang berbeda dapat mengaktivasi istilah yang sama. Pada beberapa

dokumen yang memuat istilah teraktivasi, dapat memiliki persamaan dengan

suatu dokumen dari kumpulan dokumen.

Pendekatan jaringan syaraf tiruan dapat memformulasikan suatu istilah (j)

yang diwakili oleh suatu simpul (node atau neuron), dan hubungan antar istilah

diantara istilah (j) dengan istilah lain (k) dalam kumpulan dokumen yang dihitung

dengan menggunakan ukuran kemiripan (similarity measure).

Hasil dari penerapan jaringan syaraf tiruan pada sistem temu kembali

informasi adalah jaringan syaraf tiruan mampu mengakomodir istilah lain yang

tidak disajikan kueri dan dapat mengatasi kekakuan sistem kueri Boolean.

Dokumen yang diperoleh adalah dokumen yang sebagian relevan yang memuat

kueri dan yang memuat istilah teraktivasi yang terurut berdasarkan bobotnya.

Jumlah istilah teraktivasi berbanding lurus dengan dokumen yang memuat

(42)

pada peringkat atas, juga tetap berada pada range tersebut pada pengukuran

kemiripan lainnya, walaupun ada perubahan bobot.

2.5.2 Pendekatan Operator Boolean Untuk Kembali Informasi

Mustangimah [21] melakukan penelitian menggunakan operator boolean untuk

mengetahui efektivitas pencarian kembali dokumen, dengan cara mengajukan

pertanyaan-pertanyaan. Metode yang paling banyak digunakan dalam mengajukan

pertanyaan adalah logika aljabar Boole yaitu dengan melakukan operasi dengan

operator AND, OR, dan NOT. Kesederhanaan pengolahan data dan

kemampuannya dalam membangun konsep dari beberapa istilah merupakan

alasan dalam penggunaan logika Boole.

Salton [26] menjelaskan operasi dengan operator AND antara dua

himpunan atau lebih menghasilkan hasil logis (logical product), irisan

(intersection) atau disjungsi (disjunction) antara himpunan-himpunan

sebelumnya. Operasi dengan operator OR antara dua himpunan atau lebih

menghasilkan jumlah logis (logical sum), gabungan (union), atau konjungsi

(conjunction) antara himpunan-himpunan sebelumnya, sedangkan operasi dengan

operator NOT antara dua himpunan menghasilkan perbedaan logis (logical

difference) antara kedua himpunan sebelumnya.

Dalam proses temu-kembali informasi operator Boole digunakan untuk

membantu pembentukan konsep pencarian dari beberapa istilah pencarian. Namun

menunjukkan bahwa penggunaan operator AND, OR, dan NOT bervariasi antara

pemakai yang satu dengan yang lainnya. Ditemukan bahwa operator AND hampir

hanya sekali digunakan oleh pemakai, OR sangat banyak digunakan, dan NOT

hampir tidak pernah digunakan.

Mustangimah [21] menggunakan operator boolean untuk menggabungkan

(43)

pembentukan konsep pencarian, penggabungan istilah-istilah yang

menggambarkan konsep yang sama dilakukan dengan operator OR. Sedang

penggabungan istilah-istilah yang menggambarkan konsep yang berbeda

dilakukan dengan operator AND dan NOT.

Proses pencarian harus dilakukan dengan strategi tertentu yang

disesuaikan dengan fasilitas yang disediakan oleh sistem. Strategi pencarian

merupakan himpunan keputusan atau tindakan yang dilakukan dalam proses

pencarian, dengan tujuan untuk menemukan sejumlah cantuman yang relevan,

menghindari ditemukannya cantuman yang tidak relevan, menghindari

ditemukannya jumlah cantuman yang terlalu banyak, dan menghindari

ditemukannya jumlah cantuman yang terlalu sedikit atau tidak ditemukan

cantuman sama sekali. Dalam pencarian berbasis logika boolean, strategi

pencarian dibangun berdasarkan istilah pencarian yang telah dipilih yang

dikoordinasikan dengan AND, OR, atau NOT.

Pendekatan ini telah dikembangkan oleh peneliti lainnya seperti Hasibuan

dan Andri [11] dengan melakukan penerapan berbagai teknik sistem

temu-kembali informasi berbasis hiperteks seperti teknik Boolean biasa, teknik Boolean

berperingkat dan teknik Extended Boolean.

2.5.3. Pendekatan Bibiometrik Untuk Temu Kembali Informasi

Bibliometrika merupakan studi mengenai produksi dan penyebaran informasi

yang secara operasional dikaji melalui produksi dan penyebaran media yang

merekam informasi untuk disimpan dan disebarluaskan. Bibliometrik merupakan

bagian dari informatika yang mengkaji aspek kuantitatif informasi terekam

(recorded) dengan tujuan untuk mencari bentuk-bentuk keteraturan dalam proses

(44)

Metode bibliometrik banyak digunakan untuk mengukur kesamaan atau

hubungan antara pasangan dokumen. Menurut Ikpaahindi [14] metode

bibliometrik dapat dilakukan dengan cara perhitungan sitiran langsung (direct

citation counting), pasangan bibliografi (bibliograhic coupling), dan analisis ko-sitiran (co-citation analysis). Metode tersebut didasarkan pada hubungan antara

dokumen yang disisir dengan dokumen yang menyitir.

Hubungan antara dokumen yang disisr dengan dokumen yang menyitir

dapat ditelusuri melalui motivasi, tujuan, dan fungsi sitiran dalam berbagai jenis

ilmu. Liu [20] mengemukakan bahwa fungsi sitiran dalam bidang humaniora

dapat diklasifikasikan sebagai dokumentasi sumber primer dan sekunder untuk

baik di dalam maupun di luar topik dokumen yang menyitir, untuk menyatakan

kesetujuan atau ketidaksetujuan pengarang yang menyitir terhadap dokumen yang

disitir, dan untuk menyediakan informasi bibliografi.

Liu [20] mengidentifikasi indikator hubungan antara dokumen yang disitir

dengan dokumen yang menyitir yaitu sebagai penjelasan, memberikan informasi

umum, hubungan historis, hubungan “saudara kandung”, hubungan oposisional,

hubungan koroboratif, memberikan informasi spesifik, dokumentasi, hubungann

metodologis, dan hubungan korektif.

Menurut Liu [20] bahwa antara dokumen yang disitir dan dokumen yang

menyitir terdapat hubungan subjek pada tingkat tertentu. Berdasarkan hubungan

tersebut maka dapat dicari hubungan antara 2 (dua) dokumen yang menyitir

dokumen yang sama. Menurut Grosman and Ophir [10] bahwa hubungan dua

dokumen berdasarkan bibliografi yang digunakan bersama oleh kedua dokumen

dengan menggunakan konsep pasangan bibliografi (bibliographic coupling). Bila

2 dokumen menyitir paling sedikit satu dokumen yang sama, maka kedua

dokumen tersebut berpasangan secara bibliografi dengan pengindeksan subjek

diperoleh kesimpulan bahwa ada hubungan yang nyata antara pasangan

(45)

Banyaknya dokumen yang disitir secara bersama oleh pasangan dokumen

disebut sebagai frekuensi pasangan atau kekuatan pasangan (coupling strength).

Beberapa penelitian menunjukkan adanya hubungan antara kekuatan pasangan

dengan keterhubungan subjek.

Adanya hubungan antara pasangan pasangan bibliografi dengan

keterhubungan subjek dimanfaatkan untuk memperbaiki efektivitas temu kembali

informasi. Ditemukan bahwa efektivitas temu kembali informasi meningkat

dengan menggunakan pencarian berdasarkan kata kunci atau indeks dan pencarian

berdasarkan sitasi.

Dari uraian sebelumnya mengenai beberapa pendekatan dalam sistem

temu kembali informasi, maka dapat disimpulkan seperti tabel 2.2 di bawah ini:

Tabel 2.2 Perbandingan Teknik dalam Sistem Temu Kembali Informasi

Pendekatan Sistem Temu Kembali Informasi

Jaringan Syaraf Tiruan Operator Boolean Bibliometrik

•Sistem

memformulasikan

suatu istilah (j) yang

diwakili oleh suatu

simpul, dan hubungan

antar istilah

direpresentasikan oleh

neural network links.

• Sistem diformulasikan dengan mengajukan pertanyaan- pertanyaan, baik pertanyaan sederhana maupun pertanyaan kompleks.

• Sistem melakukan

perhitungan sitiran

langsung, pasangan

bibliografi, dan analisis

ko-sitiran, dan

didasarkan pada

hubungan antara

dokumen yang disitir

dengan dokumen yang

menyitir.

(46)

•Sistem yang diimplementasikan

mampu mengaktivasi

istilah-istilah lainnya

yang tidak dijadikan

kueri oleh pemakai.

• Hasil dari sistem adalah dokumen

yang memuat kueri

dan dokumen yang

memuat istilah

teraktivasi, dan

memuat nilai

ketepatan lebih baik

dari operator bolean.

• Sistem

menggunakan logika

aljabar boolean

dengan operator

AND,OR dan NOT

yang mampu

membantu

pembentukan

konsep pencarian

dari beberapa istilah

pencarian

• Hasil dari sistem adalah dokumen

memuat kueri

dengan nilai

ketepatan di atas 50

%, baik dengan

pertanyaan sederhana maupun kompleks diimplementasikan melalui pasangan bibliografi yang memberikan indikasi

hubungan antara dua

dokumen, bukan dalam

bentuk keterhubungan

subjek.

• Hasil dari sistem adalah dokumen yang memiliki

hubungan pasangan

bibliografi, sehingga

memberikan kontribusi

yang lemah terhadap

pemasangan dokumen

karena tidak berdasarkan

subjek dokumen.

Menurut Grossman and Ophir [10], sistem temu kembali informasi

menggunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang

relevan dengan query pengguna. Kekäläinen [15] melakukan penelitian pencarian

(47)

Penulis mencoba melakukan penelitian pencarian kembali dokumen

dengan salah satu metode optimasi heuristik yaitu algoritma genetika dan

memanfaatkan binary untuk pengkodean kromosom, dengan tujuan mampu

memberikan hasil yang efektif dalam pencarian kembali dokumen selain

pendekatan-pendekatan sistem temu kembali dokumen yang diuraikan

sebelumnya.

Pada bab selanjutnya akan dijelaskan tentang metode penelitian dari

pencarian kembali dokumen menggunakan algoritma genetika dengan

(48)

BAB III

METODE PENELITIAN

Pada bab ketiga ini dibahas metode penelitian yang mencakup data yang

digunakan dan teknik penelitian serta perancangan sistem dalam penggunaan

faktor hsinchun chen dalam algoritma genetika untuk penentuan nilai kemiripan

dokumen.

3.1 DATA PENELITIAN

Data penelitian dalam pencarian nilai kemiripan dokumen berbentuk teks koleksi

dokumen dan bersumber dari penelitian Sihombing [27]. Koleksi dokumen yang

digunakan adalah kumpulan dokumen abstrak penelitian dan karya ilmiah dalam

bidang sains dan teknologi nuklir yang dihasilkan oleh Badan Tenaga Atom

Nasional (BATAN), dan data penelitian yang digunakan merupakan data standard

penelitian di Universitas Indonesia. Naskah lengkap dokumen tersebut dimuat

dalam Majalah BATAN volume XIV tahun 1981 sampai dengan XXVII tahun

1995 dan Prosiding Pertemuan dan Presentasi Ilmiah Bahan Murni dan

Instrumentasi Nuklir tahun 1985, 1986, 1988, 1989, dan 1991. Pangkalan data ini

terdiri dari 600 dokumen yang terdiri dari Nomor dokumen (DOC), Judul (TIT).

(49)

Penelitian ini berfokus pada judul dari data dokumen, sehingga bagian dari

data yang diterapkan pada teknik pencarian kembali dokumen adalah judul dari

setiap dokumen.

3.2 KEYWORD (KATA KUNCI)

Menurut Trunojono[33], keyword adalah nama untuk term-term dalam word list

yang menginterpretasikan content (isi) dari item-item informasi. Keyword

biasanya disimpan dalam indeks pencarian, kata-kata umum dalam dokumen

(seperti suatu dan sebuah) dan konjungsi ( seperti dan, atau, dan tetapi) tidak

diperlukan sebagai kata kunci karena itu tidak efisien untuk melakukan pencarian

dokumen. Bahasa keyword adalah bahasa yang digunakan untuk menggambarkan

dokumen dan permintaan. Elemen dari keyword adalah istilah yang mungkin

berasal dari teks dokumen dan bersifat independen.

Masalah dalam pencarian keyword ada 2 yaitu :

1. Mungkin tidak meretrieve dokumen relevan yang menyertakan

synonymous terms (mempunyai pengertian yang sama). – “restaurant” vs. “café”

– “NDHU” vs. “National Dong Hwa University”

2. Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous

terms.

– “bat” (baseball vs. mamalia)

– “Apple” (perusahaan vs. buah-buahan)

(50)

Penelitian ini berfokus pada keyword dokumen untuk penentuan kemiripan

dokumen, tetapi data penelitian keyword belum tersedia sehingga memerlukan

metode pencarian keyword. Metode pencarian keyword dokumen yang digunakan

adalah text preprocessing.

3.3 TEKNIK PENELITIAN

Teknik penelitian dalam sistem pencarian kembali dokumen adalah pemanfaatan

nilai kemiripan Hsinchun Chen dalam algoritma genetika , dengan tujuan untuk

menghasilkan dokumen yang relevan dengan dokumen kueri. Berikut adalah

[image:50.595.112.381.359.718.2]

diagram alir teknik penelitian pada gambar 3.1 :

(51)

Pada gambar 3.1 menunjukkan bahwa secara garis besar sistem pencarian

kembali dokumen terdiri dari 2 tahapan besar yaitu : text preprocessing dan

tahap mengukur kemiripan dokumen menggunakan ukuran kemiripan Hsinchun

Chen dan algoritma genetika.

3.3.1 Text Preprocessing

Pada tahapan text preprocessing, terdiri dari 6 proses yang dijalankan secara

offline, yaitu :

1. Menghilangkan tanda baca (case folding) dan mengubah judul setiap

dokumen menjadi huruf kecil.

Proses pertama dalam tahapan ini adalah menghilangkan tanda baca (case

folding), tanda baca yang akan dihilangkan dalam dokumen adalah

spasi. Selanjutnya akan melakukan proses lower yaitu mengubah seluruh

isi judul dokumen menjadi huruf kecil.

2. Menghilangkan stop word

Stop Word adalah kata yang sering muncul namun kata tersebut tidak relevan dengan sebuah artikel atau dokumen. Kata-kata tersebut

diantaranya kata sambung dan kata tanya. Dengan menghapus stop word,

hasil preprocessing dapat lebih baik karena proses perhitungan jumlah

kata tidak tecampur dengan jumlah dari stop word yang ada pada suatu

dokumen. Penyusunan daftar stop word ini dilakukan secara manual

dengan memperhatikan judul yang terdapat pada dokumen. Dalam

penelitian ini stop word yang digunakan sebanyak 144 kata. (data

terlampir pada lampiran H.)

3. Stemming

(52)

sebuah kata. Karena stemming menghilangkan imbuhan dari sebuah kata

dan tiap bahasa memiliki cara tersendiri dalam menambahkan imbuhan

didalamnya, sehingga jumlah ragam kata yang ada di dalam dokumen

dapat berkurang dan dapat mengoptimalkan text preprocessing. Proses

stemming ini bukan merupakan kajian utama dalam penelitian ini dan

dilakukan secara manual yaitu dengan mendaftarkan kata-kata berimbuhan

dan menggantinya dengan kata dasar dari kata berimbuhan tersebut.

Dalam penelitian ini kata berimbuhan yang digunakan sebanyak 353 kata.

(data terlampir pada lampiran G)

4. Update Istilah

Terdapat berbagai istilah kimia didalam data dokumen penelitian ini

karena data penelitian yang digunakan adalah dokumen dari BATAN dan

penulisan istilah kimia dalam dokumen tidak konsisten (ada judul

dokumen yang menggunakan simbol kimia dan ada yang menggunakan

nama kimia), maka memerlukan proses update istilah untuk mengatasi

masalah pada keyword yaitu term-term yang mempunyai pengertian yang

sama (synonymous terms).

Proses ini akan mendaftar istilah-istilah kimia ( unsur dan senyawa kimia),

sehingga apabila terdapat simbol-simbol kimia didalam dokumen akan

diganti menjadi nama kimia dari simbol yang ditemukan.

5. Remove kata yang mengandung 1 huruf dan angka

Proses ini akan menghapus kata-kata yang mengandung 1 huruf, karena

kata tersebut kurang efisien dijadikan sebagai keyword sebab

mengundung makna yang ambigu. Demikian halnya terhadap angka,

angka di dalam dokumen juga akan dihapus sebab mengandung makna

(53)

6. Tokenisasi

Tokenisasi merupakan proses terakhir pada tahapan text preprocessing dan

proses memecah dokumen menjadi kumpulan kecil, dengan mendapatkan

keyword-keyword dari setiap dokumen yang tersedia, keyword-keyword tersebut akan disimpan pada sebuah pangkalan data daftar keyword.

Keyword-keyword dokumen yang tersimpan pada daftar keyword akan

menjadi input dalam tahapan pencarian kembali dokumen selanjutnya

yaitu algoritma genetika.

Dari proses-proses tahapan text preprocessing yang telah dijelaskan sebelumnya,

[image:53.595.119.317.319.720.2]

dapat disimpulkan dengan bagan alir (flowchart) pada gambar 3.2.

(54)

3.3.2 Ukuran Kemiripan Hsinchun Chen

Sihombing et al. (2005), melakukan penelitian menggunakan algoritma genetika

dan memanfaatkan ukuran kemiripan (similarity measure) Jaccard, untuk

pencarian kembali dokumen, dengan kesimpulan dari penelitian tersebut adalah

ukuran kemiripan Jaccard dapat memberikan hasil nilai kemiripan yang cukup

tinggi terhadap kueri.

Pada penelitian ini, sistem pencarian kembali dokumen yang dibangun

mencoba menerapkan ukuran kemiripan Hsinchun Chen dalam algoritma genetika

dengan harapan dapat menghasilkan nilai kemiripan dokumen yang optimal. Cara

implementasi dari ukuran kemiripan Hsinchun Chen dalam algoritma genetika

adalah rumus relevansi ukuran kemiripan Hsinchun Chen akan menjadi fungsi

fitness, dimana proses menghitung fungsi fitness merupakan salah satu tahapan

dari algoritma genetika. Keunggulan dari penerapan ini adalah nilai kemiripan

suatu dokumen terhadap kueri dapat diketahui pada tahapan perhitungan nilai

fitness. Ukuran kemiripan (similarity measure) dengan Hsinchun Chen yang

diterapkan dalam fungsi fitness seperti berikut ini :

...merujuk ke rumus (2.1)

Dari persamaan(1), menyatakan bahwa

di

jk bernilai 1 (satu) apabila dokumen ke-i

memuat istilah j dan istilah k bersama-sama, dan bernilai 0 (nol) pada kasus

lainnya. Nilai

di

j bernilai 1 apabila dokumen ke-i memuat istilah j, dan 0 apabila

dokumen ke-i tidak memuat istilah j.

3.3.3 Mengukur Kemiripan Dokumen Menggunakan Ukuran Kemiripan Hsinchun Chen Dalam Algoritma Genetika

Setelah menjalankan tahapan text preprocessing secara offline, akan diterapkan

(55)

adalah kueri dokumen dari user, dimana kueri dokumen tersebut berupa judul dari

dokumen. Pada tahapan ini terdiri dari proses sebagai berikut :

1. Pengkodean kromosom solusi

Pengkodean kromosom yang digunakan dalam penelitian ini adalah

pengkodean biner, gen yang digunakan menggunakan bit (0 dan 1). Pada

saat menerima input suatu kueri, akan dilakukan pencarian keyword

terhadap dokumen kueri. Setiap keyword yang didapatkan akan

diidentifikasikan dengan bit untuk inisial populasi.

2. Membangkitkan populasi awal

Pada proses populasi awal akan dipilih 10 dokumen dari database secara

acak dengan pertimbangan kinerja lebih efektif dibandingkan pemilihan

jumlah dokumen yang lebih kecil dari 10, dengan alasan jumlah

pengulangan generasi untuk pembangkitan populasi awal menjadi semakin

banyak. Sementara terdapat banyak jumlah dokumen dalam database yang

akan menjadi populasi awal untuk generasi selanjutnya.

Kemudian sistem akan mendapatkan keyword-keyword

masing-masing dokumen yang dipilh pada populasi awal. Keyword dari dokumen

kueri akan dibandingkan dengan keyword pada dokumen populasi awal

yang terpilih sebelumnya.

Setiap bit merepresentasikan secara unik untuk proses pencarian

dengan algoritma genetika. Ketika suatu keyword pada dokumen populasi

awal terdapat pada keyword dokumen query maka bit akan

direpresentasikan menjadi 1. Ketika keyword tersebut tidak terdapat maka

bit akan direpresentasikan menjadi 0, sehingga output dari proses ini

(56)

3. Menghitung nilai fitness dengan Hsinchun Chen

Proses ini merupakan implementasi ukuran kemiripan Hsinchun Chen

sebagai rumus relevansi perhitungan nilai fitness. Penerapan rumus nilai

kemiripan dokumen Hsinchun Chen dalam fungsi fitness sebagai berikut:

• dij : gen dari kromosom solusi yang direpresentasikan dengan

nilai 1

• ∑ dij : total perjumlahan gen pada kromosom solusi yang

bernilai 1.

• dijk : gen dari kromosom populasi yang bernilai 1 pada

pengkodean kromosom populasi

• ∑ dijk : total penjumlahan nilai 1 pada gen dari kromosom

populasi.

Sebagai contohnya dapat diilustarikan sebagai berikut Kromosom Solusi : 111111 ∑ dij = 6

Kromosom Populasi : 000101 ∑ dijk = 2

Sehingga dari ilustarsi diatas, nilai fitness hasil penerapan rumus Hsinchun

Chen adalah 0,25 (∑ dijk / ∑ dij artinya 2/6)

4. Seleksi

Dalam tahap seleksi ini akan memilih 2 kromosom dari populasi awal

untuk setiap generasi dengan nilai fitness paling besar. Nilai kromosom

yang lebih kecil akan diabaikan untuk proses pencarian kemiripan

dokumen.

5. Crossover

Metode crossover yang digunakan adalah crossover satu titik. Kromosom

dengan nilai fitness tertinggi hasil dari tahapan seleksi yang akan

(57)

total gen pada kromosom dengan pembulatan keatas, seperti pada contoh

dibawah ini :

Sebelum Crossover :

1011010100

0010010010 Posisi : 9 /2 = 5

Sesudah Crossover :

1011010010

0010010100

Kemudian akan dilakukan perhitungan nilai fitness, kromosom nilai

fitness terbesar yang akan mengalami tahapan mutasi.

6. Mutasi

Metode mutasi yang digunakan adalah mutasi pengkodean biner, dimana

kromosom yang akan dimutasi adalah kromosom dengan nilai fitness

tertinggi dari tahapan crossover. Posisi yang dipilih untuk mutasi adalah

median dari total gen pada kromosom dengan pembulatan keatas, seperti

pada contoh yang diuraikan di bawah ini :

Sebelum Mutasi :1011010010 <