PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA
FUZZY CLUSTERING
AHMAD IRFANI
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2007
SURAT PERNYATAAN
Saya menyatakan dengan sebenar-benarnya bahwa segala pernyataan dalam tesis saya yang berjudul :
PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING
merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada program sejenis di perguruan tinggi lain. Semua data dan informasi yang digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.
Bogor, Januari 2007 Yang Membuat Pernyataan
AHMAD IRFANI .
ABSTRACT
AHMAD IRFANI. Design of Information Retrieval System Prototype Using Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.
Today, information retrieval plays a large part of our everyday lives – especially with the advent of the World Wide Web. During the last 10 years, the amount of information available in electronic form on the Web has grown exponentially. However, this development has introduced problems of its own; finding useful information is increasingly becoming a hit-or-miss experience that often ends in information overload.
This thesis analyzes the suitability of fuzzy clustering methods for the discovery of relevant document relationships. The performance evaluation of three fuzzy clustering algorithms (Fuzzy Means, Hyperspherical Fuzzy C-Means and Fuzzy Substractive Clustering) on document written in bahasa Indonesia and English. Comparison of three different document representation formula (Term Frequency, Term Frequency Inverse Document Frequency and Salton) using various reduction of matrix dimension are also carried out. Clustering precision and recall are applied as quantitative evaluation measures of the clustering results.
The experiments using document sets with various topic have shown that Hyperspherical Fuzzy C-Means algorithm perform better than Fuzzy C-Means and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is able to give the ‘right’ document representation to the clustering algorithm as Tf and Tf-Idf are failed.
Key Words : information retrieval, fuzzy clustering, fuzzy c-means, hyperspherical fuzzy c-means, fuzzy subtractive clustering
RINGKASAN
AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan IRMAN HERMADI.
Perkembangan teknologi informasi, khususnya teknologi Internet menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster.
Untuk mengelompokkan dokumen, diperlukan algoritma clustering. Saat ini sudah banyak algoritma clustering, antara lain K-Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means (H-FCM), ε-Insentive Fuzzy C-Means (ε-FCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC).
Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja algoritma fuzzy clustering (Fuzzy C-Means, Hyperspherical Fuzzy C-Means & Fuzzy Subtractive Clustering) untuk document clustering (2) formula representasi dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (Tf-Idf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma, yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik). Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh dokumen yang relevan. Algoritma dan formula representasi terbaik diimplementasikan pada prototipe sistem temu kembali informasi.
Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1) mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam basisdata 3) membuat matriks representasi dengan menggunakan tiga formula (Tf,Tf-Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks output clustering.
Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada dokumen berbahasa Indonesia menunjukkan bahwa algoritma H-FCM memiliki akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas terbaik 0.92. Pada bahasa Inggris, algoritma H-FCM tetap unggul dengan akurasi 0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya formula Salton yang dapat memberikan input yang lebih baik dibandingkan formula Tf dan Tf-Idf pada algoritma clustering. Akan tetapi algoritma H-FCM memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih algoritma terbaik, kami menggunakan Teknik Perbandingan Kinerja (Comparative Performance Index, CPI). Hasilnya, tetap algoritma H-FCM yang terbaik. Oleh karena itu kami menggunakan algoritma H-FCM dan formula Salton dalam prototipe sistem pencari.
Validasi prototipe dilakukan dengan memasukkan beberapa query ke prototipe. Hasilnya menunjukkan prototipe memiliki rata-rata akurasi 0.85 dan kolektifitas 0.52.
Kata Kunci : sistem temu kembali informasi, fuzzy clustering, fuzzy c-means, hyperspherical-fuzzy c-means, fuzzy substractive clustering, term frequency, term frequency-inverse df dan salton.
PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI G651040154 Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Derpartemen Ilmu Komputer
SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2007
Judul Tesis : Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering
Nama : Ahmad Irfani NRP : G651040154 Program Studi : Ilmu Komputer
Menyetujui, Komisi Pembimbing
Prof. Dr. Ir. Marimin, M.Sc Ketua
Irman Hermadi, S.Kom, MS Anggota
Mengetahui,
Ketua Program Studi Ilmu Komputer Dekan Sekolah Pasca Sarjana
Dr. Sugi Guritman Prof. Dr. Ir. Khairil Anwar Notodiputro, MS
KATA PENGANTAR
Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering.
Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc. dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada:
1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi kelancaran masa studi Penulis.
2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini.
3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak memberikan dukungan dan semangat selama masa kuliah
4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak membantu Penulis dalam penyusunan skripsi ini.
Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi ini yang tidak bisa disebutkan satu per satu, terima kasih.
Semoga penelitian ini dapat memberikan manfaat, Amien.
Bogor, Januari 2007 Ahmad Irfani
RIWAYAT HIDUP
Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H. A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang, menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1 Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun 2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan, penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology, sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution Consultant.
DAFTAR ISI
DAFTAR ISI... i
DAFTAR TABEL ... xii
DAFTAR GAMBAR ... xiii
1. PENDAHULUAN ... 1
A. LATAR BELAKANG... 1
B. TUJUAN DAN MANFAAT... 4
C. RUANG LINGKUP... 5
2. TINJAUAN PUSTAKA ... 6
A. TEMU KEMBALI INFORMASI... 6
B. DOKUMEN BERBAHASA INDONESIA... 8
C. CLUSTERING... 10
D. SISTEM FUZZY... 28
E. FUZZY CLUSTERING... 33
1. Fuzzy C-Means (FCM)... 34
2. Hyperspherical Fuzzy C-Means ... 36
3. Fuzzy Substractive Clustering (FSC)... 39
F. CLUSTERING DALAM SISTEM TEMU KEMBALI INFORMASI... 45
G. PENILAIAN KINERJA... 50
3. METODOLOGI ... 52
A. KERANGKA PEMIKIRAN... 52
B. BAHAN DAN ALAT... 53
1. Tahap Persiapan... 53
2. Evaluasi Algoritma Fuzzy Clustering ... 55
3. Pengembangan Prototipe Sistem ... 56
4. PERANCANGAN & IMPLEMENTASI SISTEM... 61
A. DISAIN DATA... 61
1. File Dokumen... 61
2. Tabel Dokumen dalam Basisdata ... 61
3. Matriks Representasi Dokumen (MRD) ... 62
4. Matriks Keanggotaan (MK) ... 63
5. Data Cluster ... 63
B. DISAIN ARSITEKTUR DAN KOMPONEN... 63
1. Modul Penyimpanan ... 65
2. Modul Matriks ... 65
3. Modul Clustering ... 66
4. Modul Evaluasi ... 67
5. Modul Representasi Hasil ... 67
C. DISAIN ANTARMUKA... 67
5. EVALUASI SISTEM ... 69
A. KARAKTERISTIK DOKUMEN INPUT... 69
B. PROSES EVALUASI... 69
1. Pembentukan Matriks Representasi Dokumen ... 70
2. Pembentukan Matriks Keanggotaan... 71
C. EVALUASI KINERJA... 71
E. VALIDASI SISTEM... 81
F. IMPLIKASI &KEBIJAKAN MANAJEMEN... 81
6. KESIMPULAN DAN SARAN... 85
A. KESIMPULAN... 85
B. SARAN... 86
DAFTAR PUSTAKA... 88
DAFTAR TABEL
Tabel 2.1 Penelitian tentang document clustering ... 47
Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu-kembali informasi ... 51
Tabel 4.1 Struktur Tabel Dokumen pada Basisdata... 62
Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster... 66
Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ... 69
Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%... 70
Tabel 5.3 MRD hasil algoritma H-FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ... 71
Tabel 5.4 Jumlah iterasi algoritma FCM, H-FCM dan FSC ... 75
Tabel 5.5 Waktu eksekusi algoritma FCM, H-FCM dan FSC (detik) ... 75
Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM ... 77
Tabel 5.7 Akurasi dan Kolektifitas Algoritma H-FCM ... 77
Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC... 77
Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia... 77
Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H-FCM pada dokumen berbahasa Inggris dan Indonesia... 78
Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia... 78
Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik ... 78
DAFTAR GAMBAR
Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)... 3
Gambar 2.1 Representasi dokumen dan query dalam ruang vektor ... 13
Gambar 2.2 Matriks Representasi Dokumen... 14
Gambar 2.3 Representasi grafis sudut antara ... 16
Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). ... 22
Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999)... 25
Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999). ... 27
Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan... 28
Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ... 28
Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 ... 30
Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8... 30
Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 ... 31
Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5 ... 31
Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, ... 32
Gambar 2.14 Kurva S untuk a=1 dan b=8... 33
Gambar 2.15 Sebaran data pada dimensi tunggal ... 38
Gambar 2.13 Kurva S untuk a=1 dan b=8... 38
Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM... 39
Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ... 45
Gambar 3.1 Kerangka Pemikiran Penelitian ... 52
Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi... 53
Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ... 54
Gambar 3.4 Tata Laksana Evaluasi... 55
Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu... 57
Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi ... 64
Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ... 64
Gambar 4.3. Disain antarmuka sistem ... 68
Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM... 72
Gambar 5.2 Akurasi dan Kolektifitas Algoritma H-FCM... 73
Gambar 5.4 Perbandingan Akurasi algoritma FCM, H-FCM dan FSC ... 74
Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H-FCM dan FSC ... 74
Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ... 76
Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC... 76
Gambar 5.8 Form input kata kunci dan jumlah cluster... 80
Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian... 80
DAFTAR LAMPIRAN
Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat
Lunak... 93
Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ... 94
Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191) ... 95
Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83) ... 95
Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34) ... 95
Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ... 96
Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ... 98
Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ... 99
Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata ... 100
Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem... 101
Lampiran 11 Akurasi dan cluster hasil algoritma H-FCM dengan PK 5%... 102
Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 10% ... 103
Lampiran 13 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 15% ... 104
Lampiran 14 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 20% ... 105
Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% .... 106
Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10%... 107
Lampiran 17 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 15%... 108
Lampiran 18 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 20%... 109
Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5%... 110
Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10%.... 111
Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15%.... 112