PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI

(1)

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA

FUZZY CLUSTERING

AHMAD IRFANI

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(2)

SURAT PERNYATAAN

Saya menyatakan dengan sebenar-benarnya bahwa segala pernyataan dalam tesis saya yang berjudul :

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING

merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada program sejenis di perguruan tinggi lain. Semua data dan informasi yang digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.

Bogor, Januari 2007 Yang Membuat Pernyataan

AHMAD IRFANI .

(3)

ABSTRACT

AHMAD IRFANI. Design of Information Retrieval System Prototype Using Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.

Today, information retrieval plays a large part of our everyday lives – especially with the advent of the World Wide Web. During the last 10 years, the amount of information available in electronic form on the Web has grown exponentially. However, this development has introduced problems of its own; finding useful information is increasingly becoming a hit-or-miss experience that often ends in information overload.

This thesis analyzes the suitability of fuzzy clustering methods for the discovery of relevant document relationships. The performance evaluation of three fuzzy clustering algorithms (Fuzzy Means, Hyperspherical Fuzzy C-Means and Fuzzy Substractive Clustering) on document written in bahasa Indonesia and English. Comparison of three different document representation formula (Term Frequency, Term Frequency Inverse Document Frequency and Salton) using various reduction of matrix dimension are also carried out. Clustering precision and recall are applied as quantitative evaluation measures of the clustering results.

The experiments using document sets with various topic have shown that Hyperspherical Fuzzy C-Means algorithm perform better than Fuzzy C-Means and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is able to give the ‘right’ document representation to the clustering algorithm as Tf and Tf-Idf are failed.

Key Words : information retrieval, fuzzy clustering, fuzzy c-means, hyperspherical fuzzy c-means, fuzzy subtractive clustering

(4)

RINGKASAN

AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan IRMAN HERMADI.

Perkembangan teknologi informasi, khususnya teknologi Internet menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster.

Untuk mengelompokkan dokumen, diperlukan algoritma clustering. Saat ini sudah banyak algoritma clustering, antara lain K-Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means (H-FCM), ε-Insentive Fuzzy C-Means (ε-FCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC).

Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja algoritma fuzzy clustering (Fuzzy C-Means, Hyperspherical Fuzzy C-Means & Fuzzy Subtractive Clustering) untuk document clustering (2) formula representasi dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (Tf-Idf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma, yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik). Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh dokumen yang relevan. Algoritma dan formula representasi terbaik diimplementasikan pada prototipe sistem temu kembali informasi.

(5)

Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1) mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam basisdata 3) membuat matriks representasi dengan menggunakan tiga formula (Tf,Tf-Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks output clustering.

Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada dokumen berbahasa Indonesia menunjukkan bahwa algoritma H-FCM memiliki akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas terbaik 0.92. Pada bahasa Inggris, algoritma H-FCM tetap unggul dengan akurasi 0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya formula Salton yang dapat memberikan input yang lebih baik dibandingkan formula Tf dan Tf-Idf pada algoritma clustering. Akan tetapi algoritma H-FCM memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih algoritma terbaik, kami menggunakan Teknik Perbandingan Kinerja (Comparative Performance Index, CPI). Hasilnya, tetap algoritma H-FCM yang terbaik. Oleh karena itu kami menggunakan algoritma H-FCM dan formula Salton dalam prototipe sistem pencari.

Validasi prototipe dilakukan dengan memasukkan beberapa query ke prototipe. Hasilnya menunjukkan prototipe memiliki rata-rata akurasi 0.85 dan kolektifitas 0.52.

Kata Kunci : sistem temu kembali informasi, fuzzy clustering, fuzzy c-means, hyperspherical-fuzzy c-means, fuzzy substractive clustering, term frequency, term frequency-inverse df dan salton.

(6)

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI G651040154 Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Derpartemen Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(7)

Judul Tesis : Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering

Nama : Ahmad Irfani NRP : G651040154 Program Studi : Ilmu Komputer

Menyetujui, Komisi Pembimbing

Prof. Dr. Ir. Marimin, M.Sc Ketua

Irman Hermadi, S.Kom, MS Anggota

Mengetahui,

Ketua Program Studi Ilmu Komputer Dekan Sekolah Pasca Sarjana

Dr. Sugi Guritman Prof. Dr. Ir. Khairil Anwar Notodiputro, MS

(8)

KATA PENGANTAR

Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering.

Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc. dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada:

1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi kelancaran masa studi Penulis.

2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini.

3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak memberikan dukungan dan semangat selama masa kuliah

4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak membantu Penulis dalam penyusunan skripsi ini.

Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi ini yang tidak bisa disebutkan satu per satu, terima kasih.

Semoga penelitian ini dapat memberikan manfaat, Amien.

Bogor, Januari 2007 Ahmad Irfani

(9)

RIWAYAT HIDUP

Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H. A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang, menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1 Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun 2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan, penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology, sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution Consultant.

(10)

DAFTAR ISI

DAFTAR ISI... i

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

1. PENDAHULUAN ... 1

A. LATAR BELAKANG... 1

B. TUJUAN DAN MANFAAT... 4

C. RUANG LINGKUP... 5

2. TINJAUAN PUSTAKA ... 6

A. TEMU KEMBALI INFORMASI... 6

B. DOKUMEN BERBAHASA INDONESIA... 8

C. CLUSTERING... 10

D. SISTEM FUZZY... 28

E. FUZZY CLUSTERING... 33

1. Fuzzy C-Means (FCM)... 34

2. Hyperspherical Fuzzy C-Means ... 36

3. Fuzzy Substractive Clustering (FSC)... 39

F. CLUSTERING DALAM SISTEM TEMU KEMBALI INFORMASI... 45

G. PENILAIAN KINERJA... 50

3. METODOLOGI ... 52

A. KERANGKA PEMIKIRAN... 52

B. BAHAN DAN ALAT... 53

(11)

1. Tahap Persiapan... 53

2. Evaluasi Algoritma Fuzzy Clustering ... 55

3. Pengembangan Prototipe Sistem ... 56

4. PERANCANGAN & IMPLEMENTASI SISTEM... 61

A. DISAIN DATA... 61

1. File Dokumen... 61

2. Tabel Dokumen dalam Basisdata ... 61

3. Matriks Representasi Dokumen (MRD) ... 62

4. Matriks Keanggotaan (MK) ... 63

5. Data Cluster ... 63

B. DISAIN ARSITEKTUR DAN KOMPONEN... 63

1. Modul Penyimpanan ... 65

2. Modul Matriks ... 65

3. Modul Clustering ... 66

4. Modul Evaluasi ... 67

5. Modul Representasi Hasil ... 67

C. DISAIN ANTARMUKA... 67

5. EVALUASI SISTEM ... 69

A. KARAKTERISTIK DOKUMEN INPUT... 69

B. PROSES EVALUASI... 69

1. Pembentukan Matriks Representasi Dokumen ... 70

2. Pembentukan Matriks Keanggotaan... 71

C. EVALUASI KINERJA... 71

(12)

E. VALIDASI SISTEM... 81

F. IMPLIKASI &KEBIJAKAN MANAJEMEN... 81

6. KESIMPULAN DAN SARAN... 85

A. KESIMPULAN... 85

B. SARAN... 86

DAFTAR PUSTAKA... 88

(13)

DAFTAR TABEL

Tabel 2.1 Penelitian tentang document clustering ... 47

Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu-kembali informasi ... 51

Tabel 4.1 Struktur Tabel Dokumen pada Basisdata... 62

Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster... 66

Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ... 69

Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%... 70

Tabel 5.3 MRD hasil algoritma H-FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ... 71

Tabel 5.4 Jumlah iterasi algoritma FCM, H-FCM dan FSC ... 75

Tabel 5.5 Waktu eksekusi algoritma FCM, H-FCM dan FSC (detik) ... 75

Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM ... 77

Tabel 5.7 Akurasi dan Kolektifitas Algoritma H-FCM ... 77

Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC... 77

Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia... 77

Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H-FCM pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik ... 78

(14)

DAFTAR GAMBAR

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)... 3

Gambar 2.1 Representasi dokumen dan query dalam ruang vektor ... 13

Gambar 2.2 Matriks Representasi Dokumen... 14

Gambar 2.3 Representasi grafis sudut antara ... 16

Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). ... 22

Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999)... 25

Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999). ... 27

Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan... 28

Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ... 28

Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 ... 30

Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8... 30

Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 ... 31

Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5 ... 31

Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, ... 32

Gambar 2.14 Kurva S untuk a=1 dan b=8... 33

Gambar 2.15 Sebaran data pada dimensi tunggal ... 38

Gambar 2.13 Kurva S untuk a=1 dan b=8... 38

Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM... 39

Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ... 45

Gambar 3.1 Kerangka Pemikiran Penelitian ... 52

Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi... 53

Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ... 54

Gambar 3.4 Tata Laksana Evaluasi... 55

Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu... 57

Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi ... 64

Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ... 64

Gambar 4.3. Disain antarmuka sistem ... 68

Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM... 72

Gambar 5.2 Akurasi dan Kolektifitas Algoritma H-FCM... 73

(15)

Gambar 5.4 Perbandingan Akurasi algoritma FCM, H-FCM dan FSC ... 74

Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H-FCM dan FSC ... 74

Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ... 76

Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC... 76

Gambar 5.8 Form input kata kunci dan jumlah cluster... 80

Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian... 80

(16)

DAFTAR LAMPIRAN

Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat

Lunak... 93

Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ... 94

Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ... 96

Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ... 98

Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ... 99

Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata ... 100

Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem... 101

Lampiran 11 Akurasi dan cluster hasil algoritma H-FCM dengan PK 5%... 102

Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 10% ... 103

Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% .... 106

Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10%... 107

Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5%... 110

Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10%.... 111

Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15%.... 112