• Tidak ada hasil yang ditemukan

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI

N/A
N/A
Protected

Academic year: 2021

Membagikan "PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI"

Copied!
129
0
0

Teks penuh

(1)

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA

FUZZY CLUSTERING

AHMAD IRFANI

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

SURAT PERNYATAAN

Saya menyatakan dengan sebenar-benarnya bahwa segala pernyataan dalam tesis saya yang berjudul :

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING

merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada program sejenis di perguruan tinggi lain. Semua data dan informasi yang digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.

Bogor, Januari 2007 Yang Membuat Pernyataan

AHMAD IRFANI .

(3)

ABSTRACT

AHMAD IRFANI. Design of Information Retrieval System Prototype Using Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.

Today, information retrieval plays a large part of our everyday lives – especially with the advent of the World Wide Web. During the last 10 years, the amount of information available in electronic form on the Web has grown exponentially. However, this development has introduced problems of its own; finding useful information is increasingly becoming a hit-or-miss experience that often ends in information overload.

This thesis analyzes the suitability of fuzzy clustering methods for the discovery of relevant document relationships. The performance evaluation of three fuzzy clustering algorithms (Fuzzy Means, Hyperspherical Fuzzy C-Means and Fuzzy Substractive Clustering) on document written in bahasa Indonesia and English. Comparison of three different document representation formula (Term Frequency, Term Frequency Inverse Document Frequency and Salton) using various reduction of matrix dimension are also carried out. Clustering precision and recall are applied as quantitative evaluation measures of the clustering results.

The experiments using document sets with various topic have shown that Hyperspherical Fuzzy C-Means algorithm perform better than Fuzzy C-Means and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is able to give the ‘right’ document representation to the clustering algorithm as Tf and Tf-Idf are failed.

Key Words : information retrieval, fuzzy clustering, fuzzy c-means, hyperspherical fuzzy c-means, fuzzy subtractive clustering

(4)

RINGKASAN

AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan IRMAN HERMADI.

Perkembangan teknologi informasi, khususnya teknologi Internet menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster.

Untuk mengelompokkan dokumen, diperlukan algoritma clustering. Saat ini sudah banyak algoritma clustering, antara lain K-Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means (H-FCM), ε-Insentive Fuzzy C-Means (ε-FCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC).

Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja algoritma fuzzy clustering (Fuzzy C-Means, Hyperspherical Fuzzy C-Means & Fuzzy Subtractive Clustering) untuk document clustering (2) formula representasi dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (Tf-Idf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma, yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik). Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh dokumen yang relevan. Algoritma dan formula representasi terbaik diimplementasikan pada prototipe sistem temu kembali informasi.

(5)

Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1) mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam basisdata 3) membuat matriks representasi dengan menggunakan tiga formula (Tf,Tf-Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks output clustering.

Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada dokumen berbahasa Indonesia menunjukkan bahwa algoritma H-FCM memiliki akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas terbaik 0.92. Pada bahasa Inggris, algoritma H-FCM tetap unggul dengan akurasi 0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya formula Salton yang dapat memberikan input yang lebih baik dibandingkan formula Tf dan Tf-Idf pada algoritma clustering. Akan tetapi algoritma H-FCM memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih algoritma terbaik, kami menggunakan Teknik Perbandingan Kinerja (Comparative Performance Index, CPI). Hasilnya, tetap algoritma H-FCM yang terbaik. Oleh karena itu kami menggunakan algoritma H-FCM dan formula Salton dalam prototipe sistem pencari.

Validasi prototipe dilakukan dengan memasukkan beberapa query ke prototipe. Hasilnya menunjukkan prototipe memiliki rata-rata akurasi 0.85 dan kolektifitas 0.52.

Kata Kunci : sistem temu kembali informasi, fuzzy clustering, fuzzy c-means, hyperspherical-fuzzy c-means, fuzzy substractive clustering, term frequency, term frequency-inverse df dan salton.

(6)

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI MENGGUNAKAN ALGORITMA FUZZY CLUSTERING AHMAD IRFANI G651040154 Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Derpartemen Ilmu Komputer

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

BOGOR

2007

(7)

Judul Tesis : Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering

Nama : Ahmad Irfani

NRP : G651040154

Program Studi : Ilmu Komputer

Menyetujui, Komisi Pembimbing

Prof. Dr. Ir. Marimin, M.Sc Ketua

Irman Hermadi, S.Kom, MS Anggota

Mengetahui,

Ketua Program Studi Ilmu Komputer Dekan Sekolah Pasca Sarjana

(8)

KATA PENGANTAR

Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering.

Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc. dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada:

1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi kelancaran masa studi Penulis.

2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini.

3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak memberikan dukungan dan semangat selama masa kuliah

4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak membantu Penulis dalam penyusunan skripsi ini.

Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi ini yang tidak bisa disebutkan satu per satu, terima kasih.

Semoga penelitian ini dapat memberikan manfaat, Amien.

Bogor, Januari 2007

(9)

RIWAYAT HIDUP

Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H. A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang, menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1 Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun 2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan, penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology, sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution Consultant.

(10)

DAFTAR ISI

DAFTAR ISI... i

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

1. PENDAHULUAN ... 1

A. LATAR BELAKANG... 1

B. TUJUAN DAN MANFAAT... 4

C. RUANG LINGKUP... 5

2. TINJAUAN PUSTAKA ... 6

A. TEMU KEMBALI INFORMASI... 6

B. DOKUMEN BERBAHASA INDONESIA... 8

C. CLUSTERING... 10

D. SISTEM FUZZY... 28

E. FUZZY CLUSTERING... 33

1. Fuzzy C-Means (FCM)... 34

2. Hyperspherical Fuzzy C-Means ... 36

3. Fuzzy Substractive Clustering (FSC)... 39

F. CLUSTERING DALAM SISTEM TEMU KEMBALI INFORMASI... 45

G. PENILAIAN KINERJA... 50

3. METODOLOGI ... 52

A. KERANGKA PEMIKIRAN... 52

B. BAHAN DAN ALAT... 53

(11)

1. Tahap Persiapan... 53

2. Evaluasi Algoritma Fuzzy Clustering ... 55

3. Pengembangan Prototipe Sistem ... 56

4. PERANCANGAN & IMPLEMENTASI SISTEM... 61

A. DISAIN DATA... 61

1. File Dokumen... 61

2. Tabel Dokumen dalam Basisdata ... 61

3. Matriks Representasi Dokumen (MRD) ... 62

4. Matriks Keanggotaan (MK) ... 63

5. Data Cluster ... 63

B. DISAIN ARSITEKTUR DAN KOMPONEN... 63

1. Modul Penyimpanan ... 65

2. Modul Matriks ... 65

3. Modul Clustering ... 66

4. Modul Evaluasi ... 67

5. Modul Representasi Hasil ... 67

C. DISAIN ANTARMUKA... 67

5. EVALUASI SISTEM ... 69

A. KARAKTERISTIK DOKUMEN INPUT... 69

B. PROSES EVALUASI... 69

1. Pembentukan Matriks Representasi Dokumen ... 70

2. Pembentukan Matriks Keanggotaan... 71

C. EVALUASI KINERJA... 71

(12)

E. VALIDASI SISTEM... 81

F. IMPLIKASI &KEBIJAKAN MANAJEMEN... 81

6. KESIMPULAN DAN SARAN... 85

A. KESIMPULAN... 85

B. SARAN... 86

DAFTAR PUSTAKA... 88

(13)

DAFTAR TABEL

Tabel 2.1 Penelitian tentang document clustering ... 47

Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu-kembali informasi ... 51

Tabel 4.1 Struktur Tabel Dokumen pada Basisdata... 62

Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap k cluster... 66

Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ... 69

Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%... 70

Tabel 5.3 MRD hasil algoritma H-FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ... 71

Tabel 5.4 Jumlah iterasi algoritma FCM, H-FCM dan FSC ... 75

Tabel 5.5 Waktu eksekusi algoritma FCM, H-FCM dan FSC (detik) ... 75

Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM ... 77

Tabel 5.7 Akurasi dan Kolektifitas Algoritma H-FCM ... 77

Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC... 77

Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia... 77

Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H-FCM pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik ... 78

(14)

DAFTAR GAMBAR

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)... 3

Gambar 2.1 Representasi dokumen dan query dalam ruang vektor ... 13

Gambar 2.2 Matriks Representasi Dokumen... 14

Gambar 2.3 Representasi grafis sudut antara ... 16

Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999). ... 22

Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999)... 25

Gambar 2.6 Representasi cluster menggunakan titik (Jain et. al., 1999). ... 27

Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan... 28

Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ... 28

Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8 ... 30

Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8... 30

Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 ... 31

Gambar 2.12 Kurva Gaussian untuk σ=2 dan c=5 ... 31

Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, ... 32

Gambar 2.14 Kurva S untuk a=1 dan b=8... 33

Gambar 2.15 Sebaran data pada dimensi tunggal ... 38

Gambar 2.13 Kurva S untuk a=1 dan b=8... 38

Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM... 39

Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ... 45

Gambar 3.1 Kerangka Pemikiran Penelitian ... 52

Gambar 3.2 Cara Kerja Prototipe Sistem Temu-Kembali Informasi... 53

Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ... 54

Gambar 3.4 Tata Laksana Evaluasi... 55

Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu... 57

Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi ... 64

Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ... 64

Gambar 4.3. Disain antarmuka sistem ... 68

Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM... 72

Gambar 5.2 Akurasi dan Kolektifitas Algoritma H-FCM... 73

(15)

Gambar 5.4 Perbandingan Akurasi algoritma FCM, H-FCM dan FSC ... 74

Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H-FCM dan FSC ... 74

Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ... 76

Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC... 76

Gambar 5.8 Form input kata kunci dan jumlah cluster... 80

Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian... 80

(16)

DAFTAR LAMPIRAN

Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat

Lunak... 93

Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ... 94

Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191) ... 95

Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83) ... 95

Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34) ... 95

Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ... 96

Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ... 98

Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ... 99

Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata ... 100

Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem... 101

Lampiran 11 Akurasi dan cluster hasil algoritma H-FCM dengan PK 5%... 102

Lampiran 12 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 10% ... 103

Lampiran 13 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 15% ... 104

Lampiran 14 Akurasi dan Kolektifitas cluster hasil algoritma H-FCM dengan PK 20% ... 105

Lampiran 15 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 5% .... 106

Lampiran 16 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 10%... 107

Lampiran 17 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 15%... 108

Lampiran 18 Akurasi dan Kolektifitas cluster hasil algoritma FCM dengan PK 20%... 109

Lampiran 19 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 5%... 110

Lampiran 20 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 10%.... 111

Lampiran 21 Akurasi dan Kolektifitas cluster hasil algoritma FSC dengan PK 15%.... 112

(17)

1. PENDAHULUAN

A. Latar Belakang

Perkembangan teknologi informasi, khususnya teknologi Internet sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya informasi di satu sisi semakin memudahkan kita untuk mengakses informasi. Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan laju pertambahan informasi yang dihasilkan saat ini telah melebihi kemampuan manusia untuk melakukan organisasi, menelusuri dan memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).

Untuk memudahkan penelusuran informasi diperlukan mesin pencari. Mesin pencari menerima input query atau kata kunci dari pengguna dan menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet yang menyimpan dokumen).

Pada saat ini sudah banyak mesin pencari informasi pada Internet yang dapat digunakan secara cuma-cuma, antara lain : google (www.google.com), yahoo (www.yahoo.com) dan altavista (www.altavista.com). Ketika menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):

(18)

2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk istilah pada domain pengetahuan yang memiliki terminologi-terminologi tertentu)

3. Kurang memahami cara penggunaan sintaks bahasa query, seperti Operator Boolean

4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit sehingga mengurangi daya jelajah pada ruang informasi

5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun kurang atau tidak relevan sama sekali

Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik representasi peringkat dengan menampilkan seluruh link menuju halaman hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari kata java untuk pulau jawa dengan menggunakan google (www.google.co.id), akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link yang mempunyai keterangan tentang pulau java (Gambar 1.1).

Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau cluster (Borodavkina, 2000).

(19)

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)

Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu-kembali informasi untuk meningkatkan efektifitas pencarian, antara lain (Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks, 2003). Pada aplikasi komersial, dokumen clustering antara lain telah digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan algoritma Hierarchical Fuzzy Clustering.

Algoritma Hierarchical Fuzzy Clustering merupakan salah satu algoritma algoritma clustering. Algoritma clustering lainnya antara lain K-Means, Buckshot, Fuzzy C-K-Means, Hyperspherical Fuzzy c-K-Means, ε-Insentive Fuzzy C-Means (ε-FCM), Competitive Clustering by Learning

(20)

(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering (FSC).

Algoritma tersebut masing-masing memiliki karakter yang berbeda, sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat untuk document clustering. Perbandingan kinerja algoritma untuk document clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003) yang menggunakan algoritma H-FCM untuk document clustering dan membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy).

Penelitian ini bertujuan untuk mengembangkan penelitian Mendes & Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM merupakan algoritma fuzzy clustering yang paling populer, sedangkan algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk document clustering. Penelitian ini juga akan membuat prototipe sistem temu-kembali informasi yang menggunakan satu algoritma clustering terbaik di antara algoritma tersebut.

B. Tujuan dan Manfaat

Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen dari situs Internet (2) melakukan evaluasi kecocokan formula representasi dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)

(21)

mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.

Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi berbahasa Indonesia.

C. Ruang Lingkup

Penelitian ini memiliki ruang lingkup sebagai berikut :

1 Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering (FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan algoritma Fuzzy Subtractive Clustering (FSC) .

2 Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh dari situs Internet.

3 Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1 4 Prototipe sistem dikembangkan dengan menggunakan algoritma clustering

terpilih

5 Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata MySQL versi 5.0.18 dan web server Apache versi 2.2.0.

(22)

2. TINJAUAN PUSTAKA

A. Temu Kembali Informasi

Temu kembali informasi merupakan disiplin ilmu yang mempelajari teori, model dan teknik yang terkait dengan representasi, penyimpanan, organisasi dan pengambilan informasi sehingga dapat bermanfaat bagi manusia (Taylor, 1999).

Sejak tahun 1940-an, masalah pada penyimpanan dan temu-kembali informasi mendapat banyak perhatian. Permasalahannya sederhana, limpahan informasi menyebabkan kecepatan dan akurasi akses menjadi lebih sulit. Hal ini menyebabkan relevansi informasi menjadi kurang terungkap dan akibatnya banyak duplikasi pekerjaan. Dengan adanya komputer, muncullah pemikiran-pemikiran untuk membuat sistem pengambilan informasi yang cerdas dan cepat dengan memanfaatkan kemampuan komputer (Rijsbergen, 1979).

Proses penyimpanan dan pengambilan informasi pada prinsipnya sederhana. Misalkan ada koleksi dokumen dan pengguna koleksi yang memformulasikan pertanyaan (permintaan atau query) dengan jawaban berupa satu set dokumen yang memenuhi kebutuhan informasi. Pencari informasi dapat memperoleh jawaban dengan membaca seluruh koleksi dokumen satu-per-satu, menyimpan informasi yang relevan dan mengabaikan yang lainnya. Secara naluri, hal tersebut merupakan proses pengambilan informasi yang sempurna, akan tetapi tidak praktis. Pencari informasi tentu tidak punya cukup waktu atau tidak ingin menghabiskan waktu dengan membaca seluruh koleksi dokumen dan secara fisik hal tersebut tidak mungkin dilakukan.

(23)

Ketika komputer berkecepatan tinggi tersedia untuk pekerjaan non-numerik, banyak yang meramalkan bahwa komputer akan mampu menyamai kemampuan manusia dalam membaca seluruh koleksi dokumen dan mengekstrak dokumen yang relevan. Seiring dengan waktu, lambat laun terlihat bahwa proses pembacaan dan ekstraksi dokumen tidak hanya melibatkan proses penyimpanan dan pencarian, tetapi juga proses karakterisasi isi dokumen yang jauh lebih rumit.

Proses karakterisasi dokumen secara otomatis oleh perangkat lunak yang coba didekati dengan meniru cara manusia membaca masih sulit sulit dilakukan. Membaca melibatkan proses ekstraksi informasi (secara sintaks dan semantik) dari teks dan menggunakannya untuk menentukan apakah dokumen relevan atau tidak dengan permintaan. Kesulitan bukan hanya pada ekstraksi dokumen, tetapi juga pada proses penentuan relevansi dokumen.

Tujuan dari strategi temu-kembali informasi otomatis adalah menemukan semua dokumen yang relevan dan pada saat yang bersamaan mengurangi jumlah dokumen terambil yang tidak-relevan semaksimal mungkin.

Bagi manusia, membuat keterkaitan dokumen dengan query dapat dengan mudah dilakukan. Tetapi kalau mau dilakukan oleh komputer, kita harus membangun model matematika yang dapat menghitung relevansi dokumen dan banyak riset pada temu kembali informasi berkonsentrasi pada aspek ini.

Sistem temu-kembali informasi memiliki dua fungsi utama : menilai tingkat relevansi dokumen-dokumen dengan query pengguna dan

(24)

menampilkan dokumen yang dinilai “memuaskan”. Untuk mendapatkan hasil yang baik, query harus tepat menangkap keinginan pengguna (Horng et. al., 2005). Untuk mencapai hal tersebut, beberapa alternatif pendekatan dalam melakukan organisasi dokumen telah dikembangkan beberapa tahun belakangan ini. Kebanyakan pendekatan dilakukan berdasarkan visualisasi dan presentasi dari keterkaitan antar dokumen, istilah (term) dan query pengguna. Salah satu pendekatan adalah document clustering (Leuski, 2001).

B. Dokumen Berbahasa Indonesia

Bahasa Indonesia secara historis merupakan varian bahasa melayu yang kini juga digunakan di wilayah yang luas meliputi Indonesia, Singapura, Brunei Darussalam, Malaysia, bagian selatan Thailand, bagian selatan Filipina, dan beberapa tempat di Afrika Selatan. Bahasa melayu diangkat menjadi bahasa persatuan di Indonesia pada 28 Oktober 1928 dalam peristiwa yang disebut Sumpah Pemuda. Sejak saat itu, bahasa melayu yang digunakan di wilayah Indonesia sekarang mulai dinamai Bahasa Indonesia. Namun, secara resmi penyebutan bahasa Indonesia sebagai bahasa resmi di Indonesia baru muncul pada 18 Agustus 1945 ketika konstitusi Indonesia diresmikan.

Saat ini bahasa Indonesia mengalami perkembangan yang sangat luas. secara sosial, jumlah penutur bahasa Indonesia saat ini telah mencapai +- 210 juta jiwa. Secara fungsional bahasa Indonesia telah digunakan di lingkungan baik secara lisan maupun tulisan di masyarakat luas, secara formal dan informal di institusi pemerintahan dan swasta. Dokumen berbahasa Indonesia digunakan secara luas dibidang pemerintahan, perekonomian, hukum, pendidikan, iptek, seni budaya dan lain-lain (Arifin & Tasai, 2004). Oleh

(25)

karena itu, dokumen berbahasa Indonesia sangat banyak jumlahnya. Untuk menemukan dokumen dalam bahasa Indonesia, mesin pencari memegang peranan sangat penting.

Penelitian dalam sistem temu kembali informasi banyak dilakukan pada dokumen bahasa Inggris. Walaupun sama-sama menggunakan huruf latin, bahasa Indonesia memiliki tata bahasa yang berbeda dengan bahasa Inggris. Sehingga perlu dilakukan penelitian yang lebih mengkhususkan pada bahasa Indoenesia. Penelitian sistem temu kembali informasi dalam bahasa Indonesia sudah banyak dilakukan, antara lain :

Arifin (2002)

Jika pada riset IR banyak yang fokus pada algoritma untuk mengklasifikasikan dokumen, Arifin melakukan penelitian pada upaya penghematan memori dan waktu dalam proses pembobotan dokumen. Dalam hal ini, Arifin menerapkan algoritma Digital Tree Hibrida pada algoritma pembobotan Tf-Idf yang ternyata berhasil mengurangi waktu pembobotan.

Arifin & Setiono (2002)

Arifin & Setiono membahas penggunaan algoritma Single Pass Clustering dalam bahasa Indonesia. Berdasarkan hasil perocobaan, algoritma Single-Pass ternyata cukup handal untuk mengelompokkan berita kejadian (event) dalam bahasa Indonesia. Penelitian sudah menggunakan algoritma Porter untuk steming, hanya tidak dilakukan perbandingan dengan algoritma lainnya. Tala (2003)

(26)

temu kembali informasi. Hasil penelitian menemukan adanya beberapa masalah dalam penerapan algoritma Porter dalam bahasa Indonesia yang ditimbulkan karena ambiguitas beberapa kata dalam bahasa Indonesia. Selain itu, ditemukan bukti bahwa stemming tidak meningkatkan kinerja (precision & recall) temu kembali informasi. Tala juga membuat daftar kata buangan (stop list) yang disusun berdasarkan hasil analisa frekuensi kemunculan kata dalam bahasa Indonesia.

Fahmi (2004)

Penelitian yang dilakukan Fahmi bertujuan untuk mengetahui apakah Machine Learning cocok digunakan pada dokumen berbahasa Indonesia. Fahmi membandingkan 3 algoritma Pembelajaran Mesin (Machine Learning) untuk mengklasifikasikan dokumen. Adapun algoritma yang dibandingkan adalah ID3, Instance Based Learning dan Naïve Bayes. Hasil penelitian menunjukkan algoritma Instance Based memiliki kinerja yang paling baik.

C. Clustering

Clustering adalah proses pengelompokan data ke dalam cluster berdasarkan parameter tertentu sehingga obyek-obyek dalam sebuah cluster memiliki tingkat kemiripan yang tinggi satu sama lain dan sangat tidak mirip dengan obyek lain pada cluster yang berbeda (Kantardzic, 2001).

Berbeda dengan klasifikasi, clustering tidak memerlukan kelas yang telah didefinisikan sebelumnya atau kelas hasil training, dengan demikian clustering dinyatakan sebagai bentuk pembelajaran berdasarkan observasi dan bukan berdasarkan contoh (Jiawei & Kamber, 2001).

(27)

Tahapan Clustering

Clustering secara umum memiliki tahapan sebagai berikut (Jain et. al, 1999) :

1. Representasi Pola

2. Pengukuran Kedekatan Pola (Pattern Proximity) 3. Clustering

4. Abstraksi Data (jika dibutuhkan) 5. Penilaian Output (jika dibutuhkan).

Adapun penjelasan dari tahapan-tahapan di atas adalah sebagai berikut : 1. Representasi Pola

Ada beberapa model yang dapat digunakan untuk merepresentasikan dokumen dan secara umum dibagi menjadi dua kelompok, yaitu model klasik dan model alternatif. Model klasik terdiri dari model Boolean, model Ruang Vektor dan model Probabilistik. Model alternatif yang merupakan pengembangan dari model klasik, terdiri atas : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999). Pada penelitian ini, digunakan dua model representasi, yaitu model Boolean untuk menemukan dokumen dan model Ruang Vektor untuk representasi dokumen.

a. Model Boolean

Model boolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi

(28)

boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan.

Kekurangan dari model boolean ini antara lain :

1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat dikenali dokumen-dokumen yang paling relevan atau agak relevan (partial match).

2. Query dalam ekspresi boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean.

Walaupun demikian, karena sifatnya yang sederhana, hingga saat ini model Boolean masih dipergunakan oleh sistem temu kembali informasi modern, antara lain oleh www.google.com (Dominich, 2003). Kekurangan dari model boolean diperbaiki oleh model ruang vektor yang mampu menghasilkan dokumen-dokumen terurut berdasarkan kesesuaian dengan query. Selain itu, pada model ruang vektor query dapat berupa sekumpulan kata-kata dari penguna dalam ekspresi bebas.

b. Model Ruang Vektor

Pada Model Ruang Vektor, teks direpresentasikan oleh vektor dari term (kata atau frase). Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms

(29)

dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :

D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3

Maka representasi grafis dari ketiga vektor ini adalah :

Gambar 2.1 Representasi dokumen dan query dalam ruang vektor

Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai matriks kata dokumen (terms-documents matrix). Nilai dari elemen matriks wij adalah bobot kata idalam dokumen j

(30)

Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T = (T1, T2, … , Tn) dan sekumpulan dokumen D sejumlah m, yaitu D = (D1, D2, … , Dm) serta wi j adalah bobot kata i pada dokumen j (Gambar 2).

Gambar 2.2 Matriks Representasi Dokumen

Untuk memberikan bobot numerik terhadap dokumen yang diquery, model mengukur vektor query dan vektor dokumen. Ada beberapa teknik untuk menghitung bobot. Yang paling banyak digunakan adalah Term Frekuensi (TF), Term Frekuensi Inverse Document Frequency (TFIDF) dan Salton. Pada Tf, bobot kata dinyatakan sebagai nilai log dari frekuensi kata pada dokumen.

Tfd = log (1 + td), (1)

Tfd = Nilai kata t pada dokumen d

td = frekuensi kata t pada dokumen d.

Tf-Idf merupakan pengembangan dari formula Tf, dengan memasukkan unsur frekuensi dokumen. Frekuensi dokumen adalah jumlah dokumen yang memiliki term t minimal 1. Formula Tf-Idf adalah :

(31)

dft N Tf

TfIdf = log (2)

N = Jumlah seluruh dokumen

dft = Jumlah dokumen yang memiliki kata t

Dibandingkan Tf dan TfIdf, formula Salton merupakan formula yang memiliki unsur paling lengkap. Selain nilai frekuensi dan dokumen frekuensi kata, Salton juga memasukkan jumlah kata pada dokumen dan nilai frekuensi maksimum kata pada dokumen. Secara lengkap, formula Salton dinyatakan sebagai :

                +         + = = = = fj ki L k ji L k ft ki L k ti i d N f Max f Max d N f Max f d t doc term w log 5 . 0 5 . 0 log 5 . 0 5 . 0 ) , ( _ _ ,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 (3)

fit = frekuensi kemunculan istilah t pada dokumen di dft = jumlah dokumen yang mengandung istilah t L = jumlah istilah yang terdapat pada dokumen di N = jumlah dokumen

Semakin besar nilai w_term_doc(t,di), semakin penting istilah t

pada dokumen di. Nilai w_term_doc(t,di) dinormalkan sehingga

bernilai antara 0 dan 1. Setelah bobot istilah pada setiap dokumen dihitung, dokumen di dapat direpresentasikan sebagai vektor

dokumen : dimana wij = w_term_doc(tj, di)

merupakan bobot istilah tj pada dokumen di (0≤wij ≤1) dan s

adalah jumlah istilah dari semua dokumen. Sehingga akhirnya kita is

i i

i w w w

(32)

memiliki matriks U berukuran n x s dimana n adalah jumlah dokumen.

Penentuan relevansi dokumen dengan query dipandang sebagai pengukuran kesamaan (similarity measure) antara vektor dokumen dengan vektor query. Semakin “sama” suatu vektor dokumen dengan vektor query maka dokumen dapat dipandang semakin relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah dengan memperhatikan perbedaan arah (direction difference) dari kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor.

Gambar 3 mengilustrasikan kesamaan antara dokumen D1dan

D2 dengan query Q. Sudut

θ

1 menggambarkan kesamaan dokumen

D1 dengan query sedangkan sudut

θ

2 mengambarkan kesamaan

dokumen D2 dengan query.

Gambar 2.3 Representasi grafis sudut antara vektor dokumen dan query

(33)

Jika Q adalah vektor query dan D adalah vektor dokumen, yang

merupakan dua buah vektor dalam ruang berdimensi-n, dan

θ

adalah

sudut yang dibentuk oleh kedua vektor tersebut. Maka

Q • D = |Q| |D| cos

θ

2

Q • D adalah hasil perkalian dalam (inner product) kedua vektor,

= = n i Di D 1 2 | | dan

= = n i Qi Q 1 2 |

| merupakan panjang vektor atau

jarak Euclidean suatu vektor dengan titik nol. Perhitungan kesamaan kedua vektor adalah sebagai berikut :

Sim(Q,D) = cos(Q,D) = | || |Q D D Q • =

= • n i Di Qi D Q|| | 1 | 1

Metode pengukuran kesesuaian ini memiliki beberapa keuntungan, yaitu adanya normalisasi terhadap panjang dokumen. Hal ini memperkecil pengaruh panjang dokumen. Jarak Euclidean (panjang) kedua vektor digunakan sebagai faktor normalisasi. Hal ini diperlukan karena dokumen yang panjang cenderung mendapatkan nilai yang besar dibandingkan dengan dokumen yang lebih pendek.

Proses pemeringkatan dokumen dapat dianggap sebagai proses pengukuran vektor dokumen terhadap vektor query, ukuran kedekatan ditentukan oleh kosinus sudut yang dibentuk. Semakin besar nilai kosinus, maka dokumen dianggap semakin sesuai query. Nilai kosinus sama dengan 1 mengindikasikan dokumen sesuai dengan dengan query.

(34)

Model Ruang Vektor memiliki keunggulan antara lain : (1) skema pembobotan term dapat meningkatkan kinerja pengambilan (2) strategi partial matching memungkinkan penemuan dokumen yang mendekati query (3) formula kosinus dapat memberikan peringkat dokumen yang terambil berdasarkan kemiripan dengan query.

Adapun kekurangan dari model ini adalah belum menangani term yang memiliki relasi dan proses perhitungan terhadap seluruh koleksi dokumen dapat memperlambat proses pencarian.

c. Model Probabilistik

Model probabilistik mencoba menangkap masalah IR melalui prinsip peluang. Jika ada query q dan sebuah dokumen dj pada koleksi, model probabilistik mencoba menduga peluang pengguna menemukan dokumen dj yang dicari. Model berasumsi bahwa peluang relevansi hanya ditentukan oleh query dan representasi dokumen. Selanjutnya, model berasumsi bahwa ada subset himpunan dokumen yang pengguna lebih pilih sebagai jawaban query q. Jawaban ideal ini diberi label R dan bernilai maksimum diantara keseluruhan peluang relevansi dokumen. Dokumen pada R diduga relevan dan yang selainnya disebut tidak relevan.

Nilai kemiripan sebauh dokumen dj terhadap query q dinyatakan dalam : Sim(dj,q)         + − ≈

= ( | ) ) | ( 1 log ) | ( 1 ) | ( log _ _ 1 , , R k P R k P R k P R k P x xw w i i i i t i j i q i

(35)

) | (k R

P i merupakan peluang term ki ada pada dokumen yang

dipilih secara acak dari himpunan R. Karena pada awalnya kita tidak mengetahui himpunan R, maka dibutuhkan sebuah metode untuk

menentukan nilai awal P(ki|R) dan ( | )

_

R k

P i . Pada saat permulaan

sekali, diasumsikan nilai P(ki|R) = 0.5 dan

N n R k P i i | )= ( _ dengan

ni = jumlah dokumen yang mengandung term ki dan N adalah total seluruh dokumen.

Selanjutnya nilai peringkat dapat diperbaiki menjadi :

V V R k P i i| )= ( dan V N V n R k P i i i − = ) | ( _

Formula terakhir untuk P(ki|R) dan ( | )

_

R k

P i untuk nilai Vi

dan V yang sangat kecil (misalkan V = 1 dan Vi = 0) adalah :

1 ) | ( + + = V N n V R k P i i i dan 1 ) | ( _ + − + − = V N N n V n R k P i i i i

Model probabilistik memiliki keunggulan : dokumen dapat diberikan peringkat secara menurun berdasarkan peluang sebuah dokumen relevan terhadap query. Adapun kekurangannya adalah (1) perlu menduga pembagian awal dokumen terhadap himpunan yang relevan dan non-relevan. (2) tidak memperhitungkan frekuensi term pada dokumen (3) asumis bahwa term saling independen satu sama

(36)

d. Model Alternatif

Ketiga model tersebut di atas merupakan model klasik yang sudah cukup lama dikembangkan. Selain model tersebut, juga terdapat model alternatif yang merupakan pengembangan dari model klasik, antara lain : Model Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan Jaringan Bayes (Baeza-Yates & Ribeiro-Neto, 1999).

2. Pengukuran Kedekatan Pola (Pattern proximity)

Kedekatan pola diukur berdasarkan fungsi jarak antara dua ciri. Jarak digunakan untuk mengukur ke(tidak)miripan antara dua obyek data. Kemiripan merupakan salah satu landasan dari definisi cluster. Ada banyak cara untuk menghitung jarak, namun pada tesis ini hanya akan dibahas tiga jarak yang paling banyak digunakan. Dan diantara ketiga jarak tersebut, yang paling populer adalah jarak Euclid.

a. Jarak Minkowski Didefinisikan sebagai :

( )

q

(

q

)

jp ip q j i q j i x x x x x x j i d , = 11 + 22 +...+ − (4)

dengan d(i,j) = jarak Minkowski antara data ke-i dan data ke-j, x = obyek data, p = banyaknya atribut data, dan q adalah bilangan bulat positif,

b. Jarak Manhattan

(37)

( )

i j xi xj xi xj xip xjp

d , = 11 + 22 +...+ − , (5)

c. Jarak Euclid

Sama seperti Jarak Manhattan, jarak Euclid merupakan kasus khusus dari jarak Minkowsi dengan q=2

( )

(

2 2

)

2 2 2 1 1 ... ,j xi xj xi xj xip xjp i d = − + − + + − . (6) 3. Clustering

Dilihat dari struktur data yang dihasilkan, metode clustering dapat dikelompokkan menjadi berjenjang (hierarcy) dan partisi (partition). Algoritma clustering berjenjang dibagi dua, agglomerative (bottom-up) dan divisive (top-down). Algoritma aglomerative (Agglomerative Hierarchical Clustering (AHC) merupakan salah satu algoritma berjenjang yang banyak dipakai untuk document clustering (Mendes & Sacks, 2003). Pembagian metode clustering selengkapnya dapat dilihat pada Gambar 2.1. Pada level yang paling atas, ada pendekatan hirarki dan partisi (metode hirarki menghasilkan partisi yang bertingkat, sedangkan metode partisi hanya menghasilkan satu tingkat).

(38)

Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999).

3.1 Algoritma Clustering Hirarki

Kebanyakan algoritma clustering hirarki merupakan variasi dari algoritma Single-Link dan Complete-Link. Kedua algoritma ini memiliki perbedaan pada cara menentukan jarak antara dua cluster. Pada metode single-link, jarak antara dua cluster adalah jarak minimum antara sepasang pola (satu pola dari satu cluster dan lainnya dari cluster kedua). Pada algoritma complete-link, jarak antara dua cluster adalah jarak maksimum antara sepasang pola pada dua cluster. Algoritma Clustering Agglomerative Hirarki :

1. Jadikan setiap dokumen sebagai cluster, sehingga jika ada n data, akan dihasilkan cluster sebanyak n.

2. Gabungkan dua cluster yang memiliki derajat kemiripan paling besar (jarak terkecil) menjadi satu cluster

3. Jika derajat kemiripan antara dua cluster kurang dari ambang batas α, dengan nilai α ∈ [0,1] maka berhenti , bila tidak maka kembali

ke langkah 2 Clustering Teori Graf Complete Link Single Link Partisi Hirarki Error Kuadrat Mixture Resolving Expectation Maximation Mode Seeking K-means

(39)

3.2 Algoritma Clustering Partisi

Algoritma clustering partisi menghasilkan partisi satu level dan bukan struktur cluster berjenjang seperti Dendogram yang dihasilkan oleh algoritma hirarki. Metode partisi memiliki keunggulan pada aplikasi yang melibatkan data yang sangat besar yang apabila menggunakan Dendogram sangat memakan waktu komputasi. Masalah yang muncul pada saat menggunakan algoritma clustering adalah menentukan jumlah cluster yang diinginkan. Metode partisi biasanya menghasilkan cluster dengan mengoptimalkan fungsi kriteria yang didefinisikan secara lokal (pada sub pola) atau secara global (pada seluruh pola).

a. Error Kuadrat

Fungsi kriteria yang paling sering digunakan pada metode clustering partisi adalah fungsi error kuadrat (e2). Tujuan dari algoritma ini adalah meminimalkan fungsi error kuadrat :

2 1 1 2

= = − = j n i j j i K j c x e , (7)

dengan x adalah pola i pada cluster j dan cij j adalah pusat

(centroid) cluster j.

K-Means adalah algoritma yang menerapkan fungsi error kuadrat yang paling sederhana dan paling banyak dipakai. Algoritma K-Mean populer karena : (a) implementasinya mudah (b) kompleksitas waktunya adalah O(n), dengan n adalah jumlah pola dan (c) kompleksitas ruang memori adalah O(k+n).

(40)

Permasalahan pada algoritma ini adalah sangat peka terhadap partisi awal (inisial) dan jika partisi inisial tidak dipilih secara tepat, algoritma dapat konvergen pada lokal minimum.

Kekurangan Algoritma K-Means lainnya adalah (a) hanya bisa diterapkan jika rataan (mean) dapat didefinisikan, (b) perlu menentukan nilai k (jumlah cluster) dan (c) tidak dapat menangani data yang noisy dan pencilan.

Algoritma K-Means :

1. Pilih titik sebanyak K sebagai pusat inisial (K = jumlah cluster)

2. Letakkan semua titik pada pusat terdekat 3. Tentukan kembali pusat pada setiap cluster

4. Ulangi langkah 2 dan 3 hingga centroid tidak berubah

b. Teori Graf

Algoritma clustering teori graf dibangun berdasarkan pembentukan Minimum Spanning Tree (MST) data dan cluster dibentuk dengan memutus rusuk MST dengan panjang terbesar. Gambar 2.2 menggambarkan MST yang dihasilkan dari 9 titik berdimensi dua. Dengan memutus link CD dengan panjang 6 unit (rusuk dengan jarak Euclid terbesar) akan diperoleh dua cluster ({A,B,C}) dan {D,E,F,G,H,I}). Cluster kedua, selanjutnya dapat dibagi lagi menjadi dua cluster dengan memutus rusuk EF, yang memiliki panjang 5 unit. Algoritma clustering teori graf termasuk algoritma divisive.

(41)

A B C D E F G H I 2 1 2 2.3 2 5 6 1

Rusuk dengan panjang maksimum

Gambar 2.5 Penggunaan MST untuk membentuk cluster (Jain et al, 1999). c. Mixture Resolving

Pendekatan Mixture-Resolving untuk clustering memiliki asumsi bahwa pola yang akan dijadikan cluster berasal dari satu atau beberapa sebaran (Normal, Poisson dan (paling banyak) Gaussian). Tujuan dari algoritma ini adalah untuk mengidentifikasi parameter-parameter dari sebaran-sebaran ini. (Grira et. al., 2004).

Taksonomi clustering (Gambar 2.1) juga memerlukan pembahasan aspek-aspek lain yang dapat mempengaruhi metode-metode clustering tanpa memperhatikan posisi metode clustering pada taksonomi (Jain et. al., 1999). Antara lain :

a. Agglomerative vs divisive: Aspek ini berkaitan dengan struktur algoritma dan operasi. Pendekatan agglomerative diawali dengan menjadikan setiap pola sebagai sebuah cluster dan terus-menerus menggabungkan cluster hingga kriteria pemberhentian terpenuhi. Metode divisive diawali dengan menggabungkan semua pola sebagai

(42)

satu cluster dan dilakukan pemecahan hingga kriteria pemberhentian terpenuhi.

b. Monothetic vs polythetic: aspek ini berkaitan dengan penggunaan ciri pada proses clustering secara bersamaan atau satu persatu. Kebanyakan algoritma bersifat polythetic, artinya semua ciri dimasukkan dalam perhitungan jarak antara pola dan keputusan diambil berdasarkan jarak tersebut. Sedangkan monothetic, ciri diambil satu persatu untuk membentuk cluster. Masalah utama dengan algoritma ini adalah ia menghasilkan 2d cluster (d adalah dimensi pola). Pada aplikasi temu-kembali informasi, untuk nilai d yang besar (d > 100), jumlah cluster yang dihasilkan oleh algoritma monothetic sangat banyak sehingga data terpecah menjadi cluster yang kecil. c. Hard vs fuzzy: algoritma clustering tegas menempatkan setiap pola

pada sebuah cluster baik selama proses maupun sebagai hasil akhir. Metode fuzzy clustering memberikan pola derajat keanggotaan pada beberapa cluster. Metode fuzzy clustering dapat diubah menjadi clustering yang tegas dengan menjadikan pola sebagai anggota sebuah cluster yang memiliki derajat keanggotaan terbesar.

d. Supervised vs unsupervised: Aspek ini penentuan jumlah cluster. Algoritma terawasi (supervised) adalah algoritma clustering yang jumlah cluster yang akan dihasilkan sudah ditentukan sebelumnya (melalui input manual). Sedangkan algoritma tak-terawasi (unsupervised), banyaknya cluster tidak ditentukan (algoritma yang menentukan).

(43)

X2

X1

Dengan Centroid Dengan tiga titik berjauhan

e. Incremental vs non-incremental: isu ini muncul ketika pola yang akan dikelompokan sangat besar ukurannya dan ada pembatasan waktu eksekusi atau ruang memori yang mempengaruhi arsitektur algoritma.

4. Representasi Cluster

Merupakan proses deskripsi atau pemberian nama kepada cluster yang dihasilkan. Ada tiga cara atau skema representasi cluster : (a) representasi cluster dengan pusat (centroid) cluster atau sejumlah titik yang berjauhan pada cluster (Gambar 2.3), (b) representasi cluster menggunakan nodes pada pohon klasifikasi dan (c) Representasi cluster menggunakan ekspresi logika conjunctive (Gambar 2.4). Dari ketiga skema representasi cluster, penggunaan centroid merupakan teknik yang paling populer (Michalski et. al., 1981).

Representasi cluster memiliki fungsi antara lain untuk : (a) memberikan deskripsi cluster yang sederhana dan intuitive sehingga memudahkan pemahaman manusia, (b) membantu kompresi data yang dapat dieksploitasi oleh komputer (c) meningkatkan efisiensi pengambilan keputusan (Jain et. al., 1999).

(44)

Gambar 2.7 (a) Representasi cluster menggunakan Pohon Klasifikasi dan (b) Pernyataan Conjunctive (Jain et. al., 1999).

D. Sistem Fuzzy 1. Gugus Fuzzy

Gugus Fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Berkley pada tahun 1965. Pada 10 tahun pertama. Gugus fuzzy merupakan pengembangan dari gugus biasa. Rerpresentasi abstrak dari sebuah gugus universal tampak seperti pada Gambar 2.5.

X

Gambar 2.8 Anak Gugus Fuzzy (Marimin, 2005)

Bingkai persegi panjang merepresentasikan gugus universal X, dan lingkaran yang terputus-putus menggambarkan batas ambigous dari elemen yang terdapat di dalam atau diluar X, sedangkan A adalah gugus fuzzy dalam X.

(45)

Teori gugus fuzzy mendefinisikan derajat di mana elemen x dari gugus univerasal X berada (tercakup) di dalam gugus fuzzy A. Fungsi yang memberikan derajat terhadap sebuah elemen mengenai keberadaannya dalam sebuah gugus disebut fungsi keanggotaan. Dalam kasus ini, anggota dari gugus X adalah elemen x. Sebagai contoh, derajat keanggotaan dari elemen x dalam area A diekspresikan oleh :

µ

A (x1) = 1,

µ

A (x2) = 0.8

µ

A (x3) = 0.3,

µ

A (x4) = 0

µ

A adalah fungsi keanggotaan yang memberikan derajat keanggotaan

yang berada pada suatu selang tertentu, yaitu selang [0,1]. Tulisan subscript di sebelah

µ

, yaitu A, menunjukkan bahwa

µ

A adalah fungsi keanggotaan dari A (Marimin, 2005).

2. Fungsi Keanggotaan

Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah dengan melalui pendekatan fungsi. Beberapa fungsi

yang dapat digunakan adalah sebagai berikut (Kusumadewi, 2003): a. Kurva Triangular

Fungsi keanggotaan dari kurva triangular adalah seperti pada persamaan (6) dan gambar kurvanya seperti pada Gambar 2.6.

[ ]

(

) (

)

(

) (

)

     ≤ ≤ − − ≤ ≤ − − ≥ ≤ = c x b b c x c b x a a b a x c x atau a x x , / , / , 0 µ (8)

(46)

Gambar 2.9 Kurva triangular untuk a=3, b=6, dan c=8

b. Kurva Trapezoidal

Kurva trapezoidal mempunyai fungsi keanggotaan sebagai berikut:

[ ]

(

)

(

)

(

)

(

)

           ≤ ≤ − − ≤ ≤ ≤ ≤ − − ≥ ≤ = d x c c d x d c x b b x a a b a x d x atau a x x , , 1 , , 0 µ (9)

Gambar 2.10 Kurva trapezoidal untuk a=1, b=5, c=7, dan d=8 c. Kurva Generalizzed bell

(47)

[ ]

b a c x x 2 1 1 − + = µ (10)

Gambar 2.11 Kurva Generalizzed bell untuk a=2 , b=4 , dan c=6 d. Kurva Gaussian

Fungsi keanggotaan Gaussion seperti terlihat pada persamaan (9) dengan gambar kurva seperti terlihat pada Gambar 2.9.

[ ]

( 2) 2 2σ µ c x e x − − = (11)

(48)

e. Kurva Two-sided Gaussian

Kurva Two-sided Gaussian mempunyai fungsi keanggotaan seperti pada persamaan (10) dan gambar kurva seperti pada Gambar 2.10.

[ ]

( 2) 2 2σ µ c x e x − − = (12)

Fungsi Two-sided Gaussian merupakan kombinasi dua kurva

Gaussian. Kurva pertama dengan parameter σ1 dan c1 berada disebelah kiri. Kurva kedua ada dengan parameter σ2 dan c2 berada

disebelah kanan. Daerah antara c1 dan c2 harus bernilai 1.

Gambar 2.13 Kurva Two-sided Gaussian untuk σ1=2, c1=4 dan σ2=1, c2=8

f. Kurva S

Kurva S mempunyai fungsi keanggotaan seperti pada persamaan (11) dengan gambar kurva pada Gambar 2.11.

(49)

[ ]

            ≥ ≤ ≤ +       − − − + ≤ ≤       − − ≤ = b x b x b a a b x b b a x a a b a x a x x , 1 2 , 2 1 2 , 2 , 0 2 2 µ (13)

Gambar 2.14 Kurva S untuk a=1 dan b=8 E. Fuzzy Clustering

Proses clustering pada dasarnya merupakan proses pembuatan gugus atau himpunan yang memiliki anggota elemen-elemen yang akan dicluster. Pada algoritma clustering non-fuzzy, nilai keanggotaan suatu elemen terhadap gugus atau cluster dinyatakan sebagai 0 atau 1, artinya setiap dokumen hanya bisa menjadi anggota satu cluster (1 sebagai anggota dan 0 bukan anggota). Padahal, pada temu kembali informasi, dokumen dapat memiliki informasi yang relevan (dengan derajat tertentu) dengan beberapa cluster yang berbeda. Dengan fuzzy clustering, dokumen dapat menjadi anggota beberapa cluster sekaligus. Algoritma fuzzy clustering untuk document clustering masih menjadi salah satu topik yang menarik untuk dieksplorasi.

(50)

1. Fuzzy C-Means (FCM)

Ada beberapa algoritma fuzzy clustering, salah satu diantaranya adalah Algoritma Fuzzy C-Means (FCM). FCM adalah suatu teknik clustering data dengan keberadaan setiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek (Bezdek, 1981).

Algoritma FCM diawali dengan menentukan derajat keanggotaan (secara acak) setiap titik data terhadap cluster. Berdasarkan derajat keanggotaan, kemudian ditentukan pusat cluster. Pada kondisi awal, pusat cluster tentu saja masih belum akurat. Derajat keanggotaan selanjutnya diperbaiki berdasarkan fungsi jarak antara titik data dengan pusat cluster (Nascimento et. al., 2003).

Dengan memperbaiki pusat cluster dan derajat keanggotaan tiap titik data secara berulang dan terus menerus, maka pusat cluster akan bergeser ke titik yang tepat (dengan kondisi total jarak antara titik data dengan pusat cluster telah mencapai nilai yang diinginkan). Output FCM adalah deretan pusat cluster dan derajat keanggotaan data terhadap setiap cluster (Kusumadewi dan Purnomo, 2004).

Algoritma FCM

Algoritma FCM adalah sebagai berikut (Kusumadewi & Purnomo, 2004) :

1 Tentukan X sebagai input data yang akan dijadikan cluster dalam bentuk matriks berukuran n x m; dimana n = jumlah sampel data dan

(51)

(

)

(

)

∑ ∑

= − − = − − =       −         − = c m w kj ij w m j kj ij ik V X V X 1 1 2 1 1 2 1 µ

m = jumlah atribut setiap data. Xij = data sample ke-i (i= 1,2,3 …, n),

atribut ke-j (j = 1,2,3,…,m). 2 Tentukan :

- Jumlah cluster = c;

- Pangkat = w;

- Maksimum iterasi = MaxIter;

- Error terkecil yang diinginkan = ξ ; - Fungsi obyektif awal = P0 = 0;

- Iterasi awal = t = 1;

3 Bangkitkan bilangan random uik, i = 1,2,..,n; k=1,2,...,c; sebagai

elemen-elemen matriks partisi awal U. Hitung jumlah setiap kolom (atribut) :

j=1,2,…,m (14)

Kemudian hitung : (15)

4 Hitung pusat cluster ke-k : Vkj, dengan k=1,2,…,c; dan j=1,2,…,m.

(16)

5 Hitung fungsi keanggotaan pada iterasi ke-t, Pt :

(17)

=

=

c k ik j

u

Q

1 j ik ik

Q

u

=

µ

( )

(

)

( )

= = = n i w ik n i ij w ik kj X V 1 1 *

µ

µ

(52)

6 Hitung perubahan matriks partisi :

(18) dengan: i=1,2,...,n; dan k=1,2,...,c.

7 Periksa kondisi berhenti :

- Jika: ( | Pt – Pt-1 | < ξ) atau (t > maxIter) maka berhenti; - Jika tidak: t = t + 1, ulangi langkah ke-4

2. Hyperspherical Fuzzy C-Means

Jarak Euclid yang sering digunakan pada algoritma FCM, ternyata bukan merupakan ukuran yang paling cocok untuk membandingkan vector dokumen. Adapun penjelasannya adalah sebagai berikut : misalkan ada dua dokumen XA dan XB yang terdiri dari set term T sebanyak k dengan

asumsi kebanyakan term pada T (k’) tidak muncul pada XA dan XB.

Diasumsikan juga vektor XA dan XB tidak memiliki term yang sama.

Sehingga XA dan XB memiliki banyak memiliki nilai 0 dan jarak Euclid

antara keduanya relatif kecil. XA dan XB dinyatakan mirip, padahal yang sesungguhnya tidak.

Masalah pada fungsi Euclid adalah ketiadaan term pada dua dokumen dianggap sama dengan kehadiran term yang sama pada dua dokumen. Oleh karena itu, perlu dipikirkan cara atau metode lain yang lebih baik dari jarak Euclid. Mendez & Sacks (2003), mencoba menggunakan Ukuran Kemiripan Kosinus (Cosine Similarity) untuk menggantikan jarak Euclid.

Ukuran Kosinus ( ) adalah inner product dari vektor ( dan )

(

)

( )

             − =

= = = w ik m j kj ij c k n i t X V P µ 1 2 1 1

(53)

setelah dinormalisasi ( ). Semakin tinggi nilai kosinus, semakin tinggi derajat kemiripan antar dokumen.

(19) memiliki sifat : dan

Dengan transformasi sederhana, diperoleh ukuran ketidakmiripan :

(20)

dan

Berdasarkan eksperimen, Mendes & Sacks (2003) berhasil membuktikan bahwa Ukuran Kemiripan Kosinus menghasilkan hasil cluster yang lebih baik dibandingkan dengan Jarak Euclid. Adapun fungsi obyektif yang digunakan adalah :

(21)

Karena tidak mencerminkan derajat keanggotaan ( ), maka perlu dihitung dengan menggunakan rumus :

(54)

Fungsi Keanggotaan FCM dan H-FCM

Data menjadi anggota sebuah cluster berdasarkan fungsi keanggotaan. Sebagai contoh, diberikan sekelompok data berdimensi tunggal (Gambar 2.12),

Gambar 2.15 Sebaran data pada dimensi tunggal

Misalkan teridentifikasi dua cluster (A dan B). Pada algoritma K-Means, fungsi keanggotaan menjadi :

Gambar 2.16 Kurva S untuk a=1 dan b=8

Pada algoritma FCM & H-FCM, sebuah data tidak secara eksklusif menjadi anggota sebuah cluster. Dalam hal ini, kurva fungsi keanggotaan berbentuk sigmoid untuk menyatakan bahwa setiap data dapat menjadi anggota beberapa cluster dengan derajat keanggotaan yang berbeda (Gambar 2.14).

(55)

Gambar 2.17 Fungsi keanggotaan algoritma FCM & H-FCM

3. Fuzzy Substractive Clustering (FSC)

FCM adalah algoritma clustering yang terawasi, sebab pada FCM kita harus terlebih dahulu menentukan banyaknya cluster yang akan dibentuk. Menentukan banyaknya cluster yang tepat merupakan permasalahan utama dalam pendekatan ini (Geva, 1999). Apabila banyaknya cluster belum diketahui, maka kita harus menggunakan algoritma yang tak-terawasi (banyaknya cluster ditentukan oleh algoritma). FSC merupakan algoritma clustering yang tak-terawasiyang diperkenalkan pertama kali oleh Chiu pada tahun 1994 (Chiu, 1994).

Algoritma Subtractive Clustering dibangun berdasarkan ukuran kepadatan (density) titik data dalam suatu ruang (peubah). Konsep dasar subtractive clustering adalah menentukan daerah peubah yang memiliki kepadatan data yang tinggi. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat cluster. Titik yang terpilih akan dikurangi tingkat

(56)

tingkat kepadatan tertinggi lainnya untuk dijadikan sebagai pusat cluster yang lain (Kusumadewi & Purnomo, 2004).

Apabila terdapat N buah data: X1, X2, .., Xn dan dengan menganggap

data sudah dalam keadaan normal, maka densitas titik Xk dapat dihitung

sebagai :

( )

=         − − = N j j k k r X X D 1 2 2 exp (23)

Dengan X −k Xj adalah jarak antara Xk dengan Xj, dan r adalah

konstanta positif yang kemudian akan dikenal dengan nama jari-jari (influence range) r. Jari-jari adalah vektor yang akan menentukan seberapa besar pengaruh pusat cluster pada tiap-tiap variabel. Dengan demikian, suatu titik data akan memiliki nilai kepadatan yang besar jika dia memiliki banyak tetangga didekatnya.

Setelah menghitung nilai kepadatan setiap titik, maka titik dengan kepadatan tertinggi akan dipilih sebagai pusat cluster. Misalkan Xc1 adalah

titik yang terpilih sebagai pusat cluster, sedangkan Dc1 adalah ukuran

kepekatannya. Selanjutnya kepekatan dari titik-titik disekitarnya akan dikurangi menjadi

(

)

      − − ∗ − = 21 1 2 exp b c k c k k r X X D D D (24)

dengan rb = q*ra (biasanya squash factor (q) = 1.5). Artinya

titik-titik yang ada dekat dengan cluster Xc1 akan mengalami pengurangan

(57)

menjadi pusat cluster berikutnya. Biasanya nilai rb bernilai lebih besar

dari jari-jari (r).

Setelah kepekatan tiap titik disesuaikan, maka selanjutnya akan dicari pusat cluster yang kedua, yaitu Xc2. Sesudah Xc2 didapat, ukuran

kepekatan tiap titik disekitarnya disesuaikan kembali, demikian seterusnya.

Penerimaan dan penolakan suatu titik data menjadi pusat cluster ditentukan oleh nilai Rasio, Rasio Terima dan Rasio Tolak. Rasio adalah perbandingan nilai kepekatan suatu data pada perulangan ke-i (i > 1) dengan nilai kepekatan data pada perulangan pertama (i=1). RasioTerima dan RasioTolak merupakan konstanta bernilai antara 0 dan 1 yang digunakan sebagai ukuran untuk menerima dan menolak sebuah titik data kandidat pusat cluster menjadi pusat cluster.

Ada 3 kondisi yang mungkin terjadi:

a. Jika Rasio > RasioTerima, maka titik data tersebut diterima sebagai pusat cluster baru

b. Jika RasioTolak < Rasio < RasioTerima, maka kandidat dapat diterima sebagai pusat cluster jika kandidat memiliki jarak yang cukup jauh dengan pusat cluster terdekat (rasio + jarak dengan pusat cluster terdekat ≥ 1). Sebaliknya jika rasio + jarak dengan pusat data terdekat < 1, maka dia ditolak sebagai pusat cluster.

c. Jika Rasio ≤ RasioTolak, maka sudah tidak ada lagi titik data yang akan dipertimbankan sebagai kandidat pusat cluster, perulangan dihentikan.

(58)

Algoritma Fuzzy Subtractive Clustering

Algoritma Fuzzy Subtractive Clustering adalah sebagai berikut (Kusumadewi & Purnomo, 2004) :

1 Tentukan Xij sebagai input data yang akan dicluster i=1,2,...,n;

j=1,2,...,m (n = jumlah sampel data dan m = jumlah atribut setiap data) 2 Tetapkan nilai :

a. rj (jari-jari setiap atribut data); j=1,2,...,m

b. q (squash factor); c. Accept ratio d. Reject Ratio

e. XMin (minimum data diperbolehkan) f. XMax (maksimum data diperbolehkan). 3 Normalisasi : j j j ij ij XMin XMax XMin X X − − = , i = 1,2,...,n; j=1,2,...,m; (25)

4 Tentukan potensi awal setiap titik data a. i = 1; b. Kerjakan hingga i = n : • Ti = Xij j=1,2,...,m • Hitung :       − = r X T Distkj j kj j=1,2,...,m; k=1,2,...,n; (26) • Potensi awal : Jika m = 1, maka

(59)

(

)

= −

=

n k Distk

e

D

1 4 1 2 1 (27) Jika m > 1, maka

(

)

= −

=

n k Dist i kj

e

D

1 4 2 (28) i = i + 1

4 Cari titik dengan potensi tertinggi a. M = max[Di | i=1,2,...,n]

b. H = i, sedemikian sehingga Di = M;

5 Tentukan pusat cluster dan kurangi potensinya terhadap titik-titik di sekitarnya a. Center =[] b. Vj = Xhj; j=1,2,...,m c. C = 0 (jumlah cluster) d. Kondisi = 1; e. Z = m

f. Kerjakan jika (kondisi≠1) dan (z≠0) • Rasio = z/M

• Jika Rasio > accept_ratio :

- Md = -1;

- Kerjakan untuk i=1 sampai i = C:

i. r Center V Gij = j − ij j=1,2,...,m (29) ii. =

( )

m G Sd 2 (30)

(60)

iii. Jika (Md < 0) atau (Sd < Md), maka Md = Sd;

- Smd = Md

- Jika rasio + Smd ≥ 1, maka kondisi = 1; (Data diterima sebagai pusat cluster)

- Jika rasio + Smd < 1, maka kondisi = 2; (Data tidak akan dipertimbangkan kembali sebagai pusat cluster).

• Jika Kondisi = 1 lakukan :

- C = C + 1; - Centerc = V;

- Kurangi potensi dari titik-titik dekat pusat cluster :

q j ij j ij r X V S * − = ; j=1,2,...,m; i=1,2,...,n; (31)

( )

        −

=

= m j ij S ci

M

e

D

1 2 4

*

i=1,2,...,n (32) i. Dci = M *e ; i=1,2,...,n. (33) ii. D = D – Dc (34)

iii. Jika Di ≤ 0, maka Di = 0; i =1,2,...,n.

iv. Z = max[Di |i=1,2,...,n]

v. Pilih h = 1, sedemikian sehingga Di=Z • Jika kondisi = 2

- Dh = 0;

- Z = max[Di |i=1,2,...,n]

- Pilih h = i, sedemikian sehingga Di=Z;

Gambar

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)
Gambar 2.1 Representasi dokumen dan query dalam ruang vektor
Gambar  3  mengilustrasikan  kesamaan  antara  dokumen  D1dan  D2  dengan  query  Q.  Sudut  θ 1   menggambarkan  kesamaan  dokumen  D1  dengan  query  sedangkan  sudut  θ 2   mengambarkan  kesamaan  dokumen D2 dengan query
Gambar 2.4 Taksonomi Metode Clustering (Jain et. al., 1999).
+7

Referensi

Dokumen terkait

Salah satu aplikasi yang dibutuhkan untuk menangani masalah ini adalah pencarian sarana kesehatan dengan metode sistem temu kembali yang dikenal dengan retrieval

Kombinasi haar wavelet transform, F-Norm, dan progressive retrieval strategy dapat digunakan sebagai metode temu kembali citra berbasis konten yang menghasilkan hasil

Berdasarkan pada hasil penelitian menerapkan Query Expansion pada sistem temu kembali informasi berbahasa indonesia dengan metode pembobotan tf-idf dan algoritma Cosine

Dari penelitian ini diharapkan dapat dirancang suatu sistem temu kembali informasi yang memiliki kinerja yang lebih baik dibandingkan dengan pendekatan berbasis kata

Artificial Bee Colony – Fuzzy Clustering dapat diimplementasikan dengan baik untuk pengelompokan dokumen berbahasa Indonesia, dengan sedikit modifikasi pada fase

Gambar 3.4 adalah use-case diagram untuk proses temu kembali informasi di mana pengguna yang akan melakukan pencarian dokumen harus memasukkan kata kunci lokasi

Penulis kemudian melakukan perhitungan sistem temu kembali bahan masakan tradisional Indonesia berbahasa inggris dengan menggunakan algoritma knn yang menghasilkan akurasi sebesar 80%

Untuk menemukan citra yang dibutuhkan dalam basis data citra skala besar, digunakan metode temu kembali citra berbasis fitur menggunakan algoritma SIFT dan SURF [8].. Algoritma SIFT