Perancangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering

(1)

(2)

Saya menyatakan dengan sebenar benarnya bahwa segala pernyataan dalam tesis

saya yang berjudul :

PERANCANGAN PROTOTIPE SISTEM TEMU KEMBALI INFORMASI

MENGGUNAKAN ALGORITMA FUZZY CLUSTERING

merupakan gagasan atau hasil penelitian saya sendiri, dengan arahan Komisi

Pembimbing, kecuali yang dengan jelas ditunjukkan rujukannya. Tesis ini belum

pernah diajukan untuk memperoleh gelar atau capaian akademik lainnya pada

program sejenis di perguruan tinggi lain. Semua data dan informasi yang

digunakan telah dinyatakan secara jelas dan dapat diperiksa kebenarannya.

Bogor, Januari 2007

Yang Membuat Pernyataan

(3)

AHMAD IRFANI. Design of Information Retrieval System Prototype Using Fuzzy Clustering Algorithm. Supervised By MARIMIN and IRMAN HERMADI.

Today, information retrieval plays a large part of our everyday lives –

especially with the advent of the World Wide Web. During the last 10 years, the

amount of information available in electronic form on the Web has grown

exponentially. However, this development has introduced problems of its own;

finding useful information is increasingly becoming a hit or miss experience that

often ends in information overload.

This thesis analyzes the suitability of fuzzy clustering methods for the

discovery of relevant document relationships. The performance evaluation of

three fuzzy clustering algorithms (Fuzzy C Means, Hyperspherical Fuzzy C

Means and Fuzzy Substractive Clustering) on document written in bahasa

Indonesia and English. Comparison of three different document representation

formula (Term Frequency, Term Frequency Inverse Document Frequency and

Salton) using various reduction of matrix dimension are also carried out.

Clustering precision and recall are applied as quantitative evaluation measures of

the clustering results.

The experiments using document sets with various topic have shown that

Hyperspherical Fuzzy C Means algorithm perform better than Fuzzy C Means

and Fuzzy Substractive Clustering algorithm. Also found that Salton formula is

able to give the ‘right’ document representation to the clustering algorithm as Tf

and Tf Idf are failed.

Key Words : information retrieval, fuzzy clustering, fuzzy c means,

(4)

AHMAD IRFANI. Pengembangan Prototipe Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering. Di Bawah bimbingan MARIMIN dan IRMAN HERMADI.

Perkembangan teknologi informasi, khususnya teknologi Internet

menyebabkan limpahan informasi, hal ini menjadikan mesin pencari sebagai

perangkat yang memainkan peranan sangat penting. Pada saat ini kebanyakan

mesin pencari Internet menggunakan teknik representasi peringkat. Masalah pada

teknik representasi peringkat muncul bila hasil pencarian yang diperoleh terlalu

banyak. Untuk membantu pengguna dalam mengatasi masalah ini, perlu

dipikirkan suatu teknik representasi lain. Salah satu cara adalah dengan

mengelompokkan dokumen hasil query yang memiliki kemiripan, misalkan

dokumen dokumen yang memiliki kesamaan subyek dapat dimasukkan dalam

satu kelompok ataucluster.

Untuk mengelompokkan dokumen, diperlukan algoritmaclustering. Saat ini

sudah banyak algoritma clustering, antara lain K Means, Buckshot, Fuzzy C

Means, Hyperspherical Fuzzy c Means (H FCM), ε Insentive Fuzzy C Means (ε

FCM), Competitive Clustering by Learning (CCL), Fuzzy CCL (FCCL) serta

algoritmaFuzzy Subtractive Clustering(FSC).

Penelitian ini bertujuan untuk melakukan evaluasi terhadap (1) kinerja

algoritma fuzzy clustering (Fuzzy C Means, Hyperspherical Fuzzy C Means &

Fuzzy Subtractive Clustering) untukdocument clustering(2) formula representasi

dokumen Term Frekuensi (Tf), Term Frekuensi Inverse Document Frequency (Tf

Idf) dan Salton. Ada tiga parameter yang digunakan untuk menilai algoritma,

yakni Akurasi (Precision), Kolektifitas (Recall) dan waktu eksekusi (detik).

Akurasi merupakan rasio antara jumlah dokumen relevan yang terambil dengan

seluruh jumlah dokumen yang terambil. Kolektifitas adalah adalah rasio antara

jumlah dokumen yang terambil pada suatu pencarian dengan jumlah seluruh

dokumen yang relevan. Algoritma dan formula representasi terbaik

(5)

Penelitian dibagi menjadi dua tahap, tahap Evaluasi dan tahap

Pengembangan Prototipe. Tahap evaluasi dibagi menjadi 5 langkah, yaitu : (1)

mengumpulkan dokumen dari situs internet (2) menyimpan dokumen ke dalam

basisdata 3) membuat matriks representasi dengan menggunakan tiga formula

(Tf,Tf Idf dan Salton) (4) menjalankan tiga algoritma clustering yang akan

dibandingkan (4) menghitung kinerja setiap algoritma menggunakan matriks

output clustering.

Tahap evaluasi dilakukan dengan Matlab 7.1 dan pengembangan prototipe

dilakukan dengan bahasa PHP 5.0, basisdata MySQL 5.0.18 dan Web Server

Apache 2.2.0. Penelitian ini diharapkan dapat menjadi suatu model implementasi

algoritma fuzzy clustering dalam temu kembali informasi. Hasil evaluasi pada

dokumen berbahasa Indonesia menunjukkan bahwa algoritma H FCM memiliki

akurasi terbaik pada persentasi kata 10 % dengan akurasi 0.93 dan kolektifitas

terbaik 0.92. Pada bahasa Inggris, algoritma H FCM tetap unggul dengan akurasi

0.96 dan kolektifitas 0.95 pada persentasi kata 5 %. Pada kedua bahasa, hanya

formula Salton yang dapat memberikan input yang lebih baik dibandingkan

formula Tf dan Tf Idf pada algoritma clustering. Akan tetapi algoritma H FCM

memiliki waktu eksekusi yang paling lama. Oleh karena itu, untuk memilih

algoritma terbaik, kami menggunakan Teknik Perbandingan Kinerja

(Comparative Performance Index, CPI). Hasilnya, tetap algoritma H FCM yang

terbaik. Oleh karena itu kami menggunakan algoritma H FCM dan formula Salton

dalam prototipe sistem pencari.

Validasi prototipe dilakukan dengan memasukkan beberapa query ke

prototipe. Hasilnya menunjukkan prototipe memiliki rata rata akurasi 0.85 dan

kolektifitas 0.52.

sistem temu kembali informasi, fuzzy clustering, fuzzy c means,

hyperspherical fuzzy c means, fuzzy substractive clustering, term frequency, term

(6)

G651040154

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

(7)

Judul Tesis : Perancangan Prototipe Sistem Temu Kembali Informasi

Menggunakan Algoritma Fuzzy Clustering

Nama : Ahmad Irfani

NRP : G651040154

Program Studi : Ilmu Komputer

Menyetujui,

Komisi Pembimbing

Prof. Dr. Ir. Marimin, M.Sc Ketua

Irman Hermadi, S.Kom, MS Anggota

Mengetahui,

Ketua Program Studi Ilmu Komputer Dekan Sekolah Pasca Sarjana

Dr. Sugi Guritman Prof. Dr. Ir. Khairil Anwar Notodiputro, MS

(8)

Alhamdulillahirabbil ‘alamin, Penulis panjatkan puji dan syukur ke

hadirat Allah SWT yang telah memberikan rahmat, hidayah, serta karuniaNya

sehingga Penulis dapat menyelesaikan tesis yang berjudul Perancangan Prototipe

Sistem Temu Kembali Informasi Menggunakan Algoritma Fuzzy Clustering.

Penulis mengucapkan terima kasih kepada Bapak Prof. Dr. Ir. Marimin, M.Sc.

dan Bapak Irman Hermadi selaku pembimbing I dan 2 yang telah memberikan

banyak masukan kepada Penulis dalam penyusunan tesis ini. Ucapan terimakasih

juga Penulis sampaikan kepada Ibu Yeni Herdiayani SKom, MKom sebagai dosen

penguji. Selanjutnya Penulis ingin mengucapkan terima kasih kepada:

1. Papah dan Mamah yang selama ini selalu mendukung dan berdoa demi

kelancaran masa studi Penulis.

2. Anna Yuliarti Khodijat ST. MM yang banyak memberikan fasilitas dan

semangat kepada Penulis pada saat kuliah dan penyusunan tesis ini.

3. Alm. Drs. H. Lukman Dendawijaya, MM beserta keluarga yang banyak

memberikan dukungan dan semangat selama masa kuliah

4. Departemen Ilmu Komputer beserta dosen dan staf yang telah banyak

membantu Penulis dalam penyusunan skripsi ini.

Kepada semua pihak yang telah membantu Penulis dalam penyusunan skripsi

ini yang tidak bisa disebutkan satu per satu, terima kasih.

Semoga penelitian ini dapat memberikan manfaat, Amien.

Bogor, Januari 2007

(9)

&

Penulis dilahirkan di Cikarang pada tanggal 6 Agustus 1977 dari ayah H.

A. Baedhowi H.S dan R. Hj. Faiqoh. Penulis merupakan putra ke empat dari

sembilan bersaudara. Pendidikan sekolah dasar ditempuh di SDN 1 Cikarang,

menengah pertama di SMPN 1 Cikarang dan menengah atas di SMAN 1

Cikarang. Pendidikan sarjana ditempuh di Institut Pertanian Bogor, Jurusan Ilmu

Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, lulus pada tahun

2000. Pada tahun 2004, penulis melanjutkan kuliah di Sekolah Pasca Sarjana IPB

dan mengambil Program Studi Ilmu Komputer. Selama mengikuti perkuliahan,

penulis aktif bekerja sebagai Senior System Engineer pada PT Hanoman Cendikia

Interaktif. Pada tahun 2006 penulis bergabung dengan GrahamTechnology,

sebuah perusahaan multinasional berbasis di Inggris, sebagai Business Solution

(10)

DAFTAR ISI... i

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

1. PENDAHULUAN ... 1

A.LATARBELAKANG... 1

B.TUJUAN DANMANFAAT... 4

C.RUANGLINGKUP... 5

2. TINJAUAN PUSTAKA ... 6

A.TEMUKEMBALIINFORMASI... 6

B.DOKUMENBERBAHASAINDONESIA... 8

C.CLUSTERING... 10

D.SISTEMFUZZY... 28

E. FUZZYCLUSTERING... 33

1. Fuzzy C+Means (FCM)... 34

2. Hyperspherical Fuzzy C+Means ... 36

3. Fuzzy Substractive Clustering (FSC)... 39

F.CLUSTERINGDALAMSISTEMTEMUKEMBALIINFORMASI... 45

G.PENILAIANKINERJA... 50

3. METODOLOGI ... 52

A.KERANGKAPEMIKIRAN... 52

B.BAHAN DANALAT... 53

(11)

1. Tahap Persiapan... 53

2. Evaluasi Algoritma Fuzzy Clustering ... 55

3. Pengembangan Prototipe Sistem ... 56

4. PERANCANGAN & IMPLEMENTASI SISTEM... 61

A.DISAINDATA... 61

1. File Dokumen... 61

2. Tabel Dokumen dalam Basisdata ... 61

3. Matriks Representasi Dokumen (MRD) ... 62

4. Matriks Keanggotaan (MK) ... 63

5. Data Cluster ... 63

B.DISAINARSITEKTUR DANKOMPONEN... 63

1. Modul Penyimpanan ... 65

2. Modul Matriks ... 65

3. Modul Clustering ... 66

4. Modul Evaluasi ... 67

5. Modul Representasi Hasil ... 67

C.DISAINANTARMUKA... 67

5. EVALUASI SISTEM ... 69

A.KARAKTERISTIKDOKUMENINPUT... 69

B.PROSESEVALUASI... 69

1. Pembentukan Matriks Representasi Dokumen ... 70

2. Pembentukan Matriks Keanggotaan... 71

C.EVALUASIKINERJA... 71

(12)

E. VALIDASISISTEM... 81

F. IMPLIKASI& KEBIJAKANMANAJEMEN... 81

6. KESIMPULAN DAN SARAN... 85

A.KESIMPULAN... 85

B.SARAN... 86

DAFTAR PUSTAKA... 88

(13)

Tabel 2.1 Penelitian tentangdocument clustering... 47

Tabel 2.2 Relevansi & kolektifitas dokumen pada sistem temu kembali informasi ... 51

Tabel 4.1 Struktur Tabel Dokumen pada Basisdata... 62

Tabel 4.2 Matriks keanggotaan (U) n dokumen terhadap kcluster... 66

Tabel 5.1 Kelompok, topik, jumlah dan sumber dokumen ... 69

Tabel 5.2 Dimensi MRD dengan PK 0%, 5%, 10%, 15% dan 20%... 70

Tabel 5.3 MRD hasil algoritma H FCM dengan PK 5% (ID = ID dokumen, C = Cluster) ... 71

Tabel 5.4 Jumlah iterasi algoritma FCM, H FCM dan FSC ... 75

Tabel 5.5 Waktu eksekusi algoritma FCM, H FCM dan FSC (detik) ... 75

Tabel 5.6 Akurasi dan Kolektifitas Algoritma FCM ... 77

Tabel 5.7 Akurasi dan Kolektifitas Algoritma H FCM ... 77

Tabel 5.8 Akurasi dan Kolektifitas Algoritma FSC... 77

Tabel 5.9 Perbandingan Akurasi dan Kolektifitas algoritma FCM pada dokumen berbahasa Inggris dan Indonesia... 77

Tabel 5.10 Perbandingan Akurasi dan Kolektifitas algoritma H FCM pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.11 Perbandingan Akurasi dan Kolektifitas algoritma FSC pada dokumen berbahasa Inggris dan Indonesia... 78

Tabel 5.12 Matriks awal penilaian alternatif pemilihan algoritma terbaik ... 78

(14)

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)... 3

Gambar 2.1 Representasi dokumen dan query dalam ruang vektor ... 13

Gambar 2.2 Matriks Representasi Dokumen... 14

Gambar 2.3 Representasi grafis sudut antara ... 16

Gambar 2.4 Taksonomi MetodeClustering(Jain et. al., 1999). ... 22

Gambar 2.5 Penggunaan MST untuk membentukcluster(Jain et al, 1999)... 25

Gambar 2.6 Representasiclustermenggunakan titik (Jain et. al., 1999). ... 27

Gambar 2.7 (a) Representasiclustermenggunakan Pohon Klasifikasi dan... 28

Gambar 2.5 Anak Gugus Fuzzy (Marimin, 2005) ... 28

Gambar 2.9 Kurvatriangularuntuka=3,b=6, danc=8 ... 30

Gambar 2.10 Kurvatrapezoidaluntuka=1,b=5,c=7, dand=8... 30

Gambar 2.11 KurvaGeneralizzed belluntuka=2 ,b=4 , danc=6 ... 31

Gambar 2.12 Kurva Gaussian untukσ=2 danc=5 ... 31

Gambar 2.13 KurvaTwo+sidedGaussian untukσ1=2,c1=4 danσ2=1, ... 32

Gambar 2.14 Kurva S untuka=1 danb=8... 33

Gambar 2.15 Sebaran data pada dimensi tunggal ... 38

Gambar 2.13 Kurva S untuka=1 danb=8... 38

Gambar 2.17 Fungsi keanggotaan algoritma FCM & H FCM... 39

Gambar 2.18 Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004) ... 45

Gambar 3.1 Kerangka Pemikiran Penelitian ... 52

Gambar 3.2 Cara Kerja Prototipe Sistem Temu Kembali Informasi... 53

Gambar 3.3 Tata Laksana Persiapan dan Evaluasi ... 54

Gambar 3.4 Tata Laksana Evaluasi... 55

Gambar 3.5 Tata Laksana Pengembangan Prototipe Sistem Temu... 57

Gambar 4.1 Arsitektur Sistem pada Tahap Evaluasi ... 64

Gambar 4.2 Arsitektur Sistem pada tahap Pengembangan Prototipe ... 64

Gambar 4.3. Disain antarmuka sistem ... 68

Gambar 5.1 Akurasi dan Kolektifitas Algoritma FCM... 72

(15)

Gambar 5.4 Perbandingan Akurasi algoritma FCM, H FCM dan FSC ... 74

Gambar 5.5 Perbandingan Kolektifitas algoritma FCM, H FCM dan FSC ... 74

Gambar 5.6 Perbandingan jumlah iterasi algoritma FCM, HFCM dan FSC ... 76

Gambar 5.7 Perbandingan waktu eksekusi algoritma FCM, HFCM dan FSC... 76

Gambar 5.8 Form input kata kunci dan jumlahcluster... 80

Gambar 5.9 Tampilan halaman web yang menampilkan hasil pencarian... 80

(16)

Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat

Lunak... 93

Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624) ... 94

Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713) ... 96

Lampiran 7 Daftar kata MRD bahasa Inggris dengan PK = 10 % (Total 743) ... 98

Lampiran 8 Daftar kata MRD bahasa Inggris dengan PK = 15 % (Total 353) ... 99

Lampiran 9 Daftar kata MRD (bahasa Inggris) dengan PK = 20 % dan Total 196 kata ... 100

Lampiran 10 Akurasi dan Kolektifitas Query pada Prototipe Sistem... 101

Lampiran 11 Akurasi danclusterhasil algoritma H FCM dengan PK 5%... 102

Lampiran 12 Akurasi dan Kolektifitasclusterhasil algoritma H FCM dengan PK 10% ... 103

Lampiran 15 Akurasi dan Kolektifitasclusterhasil algoritma FCM dengan PK 5% .... 106

Lampiran 16 Akurasi dan Kolektifitasclusterhasil algoritma FCM dengan PK 10%... 107

Lampiran 19 Akurasi dan Kolektifitasclusterhasil algoritma FSC dengan PK 5%... 110

Lampiran 20 Akurasi dan Kolektifitasclusterhasil algoritma FSC dengan PK 10%.... 111

Lampiran 21 Akurasi dan Kolektifitasclusterhasil algoritma FSC dengan PK 15%.... 112

(17)

'(

( $ )* + ,

Perkembangan teknologi informasi, khususnya teknologi Internet

sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara

mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya

informasi di satu sisi semakin memudahkan kita untuk mengakses informasi.

Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan

pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan

laju pertambahan informasi yang dihasilkan saat ini telah melebihi

kemampuan manusia untuk melakukan organisasi, menelusuri dan

memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).

Untuk memudahkan penelusuran informasi diperlukan mesin pencari.

Mesin pencari menerima input query atau kata kunci dari pengguna dan

menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin

pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet

yang menyimpan dokumen).

Pada saat ini sudah banyak mesin pencari informasi pada Internet yang

dapat digunakan secara cuma cuma, antara lain : google (www.google.com),

yahoo (www.yahoo.com) dan altavista (www.altavista.com). Ketika

menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang

optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa

kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):

(18)

2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk

istilah pada domain pengetahuan yang memiliki terminologi terminologi

tertentu)

3. Kurang memahami cara penggunaan sintaks bahasa query, seperti

Operator Boolean

4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit

sehingga mengurangi daya jelajah pada ruang informasi

5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna

ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun

kurang atau tidak relevan sama sekali

Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada

atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik

representasi peringkat dengan menampilkan seluruh link menuju halaman

hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat

muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari

kata java untuk pulau jawa dengan menggunakan google (www.google.co.id),

akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata

java dan baru pada halaman ke 3 (link yang ke 31) kita bisa menemukan link

yang mempunyai keterangan tentang pulau java (Gambar 1.1).

Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan

suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan

dokumen hasil query yang memiliki kemiripan, misalkan dokumen dokumen

yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau

(19)

"- $ '('Contoh halaman hasil pencarian Google (www.google.com)

Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu

kembali informasi untuk meningkatkan efektifitas pencarian, antara lain

(Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks,

2003). Pada aplikasi komersial, dokumen clustering antara lain telah

digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika

digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang

ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan

pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan

algoritmaHierarchical Fuzzy Clustering.

Algoritma Hierarchical Fuzzy Clustering merupakan salah satu

algoritma algoritma clustering. Algoritma clustering lainnya antara lain K

Means, Buckshot, Fuzzy C Means, Hyperspherical Fuzzy c Means, ε

(20)

(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering

(FSC).

Algoritma tersebut masing masing memiliki karakter yang berbeda,

sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat

untuk document clustering. Perbandingan kinerja algoritma untuk document

clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003)

yang menggunakan algoritma H FCM untuk document clustering dan

membandingkannya dengan algoritma K Means. Hasilnya algoritma H FCM

memiliki kinerja lebih baik dibandingkan algoritma K Means (bukanfuzzy).

Penelitian ini bertujuan untuk mengembangkan penelitian Mendes &

Sacks (2003) dengan membandingkan kinerja algoritma H FCM dengan dua

algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM

merupakan algoritma fuzzy clustering yang paling populer, sedangkan

algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk

document clustering. Penelitian ini juga akan membuat prototipe sistem temu

kembali informasi yang menggunakan satu algoritma clustering terbaik di

antara algoritma tersebut.

( . # %

Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan

penggunaan algoritmafuzzy clusteringFCM, H FCM dan FSC pada dokumen

dari situs Internet (2) melakukan evaluasi kecocokan formula representasi

(21)

mengembangkan prototipe sistem temu kembali informasi (dokumen) yang

dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.

Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model

implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi

berbahasa Indonesia.

( , ,+ /

Penelitian ini memiliki ruang lingkup sebagai berikut :

1 Algoritma clustering yang diuji adalah : Fuzzy C+Means Clustering

(FCM), Hyperspherical Fuzzy C+Means Clustering (H FCM) dan

algoritmaFuzzy Subtractive Clustering(FSC) .

2 Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh

dari situs Internet.

3 Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1

4 Prototipe sistem dikembangkan dengan menggunakan algoritmaclustering

terpilih

5 Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata

(22)

(

( )" )"- * %0$" 1

Temu kembali informasi merupakan disiplin ilmu yang mempelajari

teori, model dan teknik yang terkait dengan representasi, penyimpanan,

organisasi dan pengambilan informasi sehingga dapat bermanfaat bagi

manusia (Taylor, 1999).

Sejak tahun 1940 an, masalah pada penyimpanan dan temu kembali

informasi mendapat banyak perhatian. Permasalahannya sederhana, limpahan

informasi menyebabkan kecepatan dan akurasi akses menjadi lebih sulit. Hal

ini menyebabkan relevansi informasi menjadi kurang terungkap dan akibatnya

banyak duplikasi pekerjaan. Dengan adanya komputer, muncullah pemikiran

pemikiran untuk membuat sistem pengambilan informasi yang cerdas dan

cepat dengan memanfaatkan kemampuan komputer (Rijsbergen, 1979).

Proses penyimpanan dan pengambilan informasi pada prinsipnya

sederhana. Misalkan ada koleksi dokumen dan pengguna koleksi yang

memformulasikan pertanyaan (permintaan atauquery) dengan jawaban berupa

satu set dokumen yang memenuhi kebutuhan informasi. Pencari informasi

dapat memperoleh jawaban dengan membaca seluruh koleksi dokumen satu

per satu, menyimpan informasi yang relevan dan mengabaikan yang lainnya.

Secara naluri, hal tersebut merupakan proses pengambilan informasi yang

sempurna, akan tetapi tidak praktis. Pencari informasi tentu tidak punya cukup

waktu atau tidak ingin menghabiskan waktu dengan membaca seluruh koleksi

(23)

Ketika komputer berkecepatan tinggi tersedia untuk pekerjaan non

numerik, banyak yang meramalkan bahwa komputer akan mampu menyamai

kemampuan manusia dalam membaca seluruh koleksi dokumen dan

mengekstrak dokumen yang relevan. Seiring dengan waktu, lambat laun

terlihat bahwa proses pembacaan dan ekstraksi dokumen tidak hanya

melibatkan proses penyimpanan dan pencarian, tetapi juga proses karakterisasi

isi dokumen yang jauh lebih rumit.

Proses karakterisasi dokumen secara otomatis oleh perangkat lunak yang

coba didekati dengan meniru cara manusia membaca masih sulit sulit

dilakukan. Membaca melibatkan proses ekstraksi informasi (secara sintaks

dan semantik) dari teks dan menggunakannya untuk menentukan apakah

dokumen relevan atau tidak dengan permintaan. Kesulitan bukan hanya pada

ekstraksi dokumen, tetapi juga pada proses penentuan relevansi dokumen.

Tujuan dari strategi temu kembali informasi otomatis adalah

menemukan semua dokumen yang relevan dan pada saat yang bersamaan

mengurangi jumlah dokumen terambil yang tidak relevan semaksimal

mungkin.

Bagi manusia, membuat keterkaitan dokumen dengan query dapat

dengan mudah dilakukan. Tetapi kalau mau dilakukan oleh komputer, kita

harus membangun model matematika yang dapat menghitung relevansi

dokumen dan banyak riset pada temu kembali informasi berkonsentrasi pada

aspek ini.

Sistem temu kembali informasi memiliki dua fungsi utama : menilai

(24)

menampilkan dokumen yang dinilai “memuaskan”. Untuk mendapatkan hasil

yang baik, query harus tepat menangkap keinginan pengguna (Horng et. al.,

2005). Untuk mencapai hal tersebut, beberapa alternatif pendekatan dalam

melakukan organisasi dokumen telah dikembangkan beberapa tahun

belakangan ini. Kebanyakan pendekatan dilakukan berdasarkan visualisasi dan

presentasi dari keterkaitan antar dokumen, istilah (term) danquery pengguna.

Salah satu pendekatan adalahdocument clustering(Leuski, 2001).

( 0+ ") )$- ! 1 #0 )1

Bahasa Indonesia secara historis merupakan varian bahasa melayu yang

kini juga digunakan di wilayah yang luas meliputi Indonesia, Singapura,

Brunei Darussalam, Malaysia, bagian selatan Thailand, bagian selatan

Filipina, dan beberapa tempat di Afrika Selatan. Bahasa melayu diangkat

menjadi bahasa persatuan di Indonesia pada 28 Oktober 1928 dalam peristiwa

yang disebut Sumpah Pemuda. Sejak saat itu, bahasa melayu yang digunakan

di wilayah Indonesia sekarang mulai dinamai Bahasa Indonesia. Namun,

secara resmi penyebutan bahasa Indonesia sebagai bahasa resmi di Indonesia

baru muncul pada 18 Agustus 1945 ketika konstitusi Indonesia diresmikan.

Saat ini bahasa Indonesia mengalami perkembangan yang sangat luas.

secara sosial, jumlah penutur bahasa Indonesia saat ini telah mencapai + 210

juta jiwa. Secara fungsional bahasa Indonesia telah digunakan di lingkungan

baik secara lisan maupun tulisan di masyarakat luas, secara formal dan

informal di institusi pemerintahan dan swasta. Dokumen berbahasa Indonesia

(25)

karena itu, dokumen berbahasa Indonesia sangat banyak jumlahnya. Untuk

menemukan dokumen dalam bahasa Indonesia, mesin pencari memegang

peranan sangat penting.

Penelitian dalam sistem temu kembali informasi banyak dilakukan pada

dokumen bahasa Inggris. Walaupun sama sama menggunakan huruf latin,

bahasa Indonesia memiliki tata bahasa yang berbeda dengan bahasa Inggris.

Sehingga perlu dilakukan penelitian yang lebih mengkhususkan pada bahasa

Indoenesia. Penelitian sistem temu kembali informasi dalam bahasa Indonesia

sudah banyak dilakukan, antara lain :

$ % 2 3

Jika pada riset IR banyak yang fokus pada algoritma untuk

mengklasifikasikan dokumen, Arifin melakukan penelitian pada upaya

penghematan memori dan waktu dalam proses pembobotan dokumen. Dalam

hal ini, Arifin menerapkan algoritma Digital Tree Hibrida pada algoritma

pembobotan Tf Idf yang ternyata berhasil mengurangi waktu pembobotan.

$ % 4 ) 0 0 2 3

Arifin & Setiono membahas penggunaan algoritma Single Pass Clustering

dalam bahasa Indonesia. Berdasarkan hasil perocobaan, algoritma Single Pass

ternyata cukup handal untuk mengelompokkan berita kejadian (event) dalam

bahasa Indonesia. Penelitian sudah menggunakan algoritma Porter untuk

steming, hanya tidak dilakukan perbandingan dengan algoritma lainnya.

* 2 53

Merupakan sebuah tesis membahas efektifitas penggunaan algoritma

(26)

temu kembali informasi. Hasil penelitian menemukan adanya beberapa

masalah dalam penerapan algoritma Porter dalam bahasa Indonesia yang

ditimbulkan karena ambiguitas beberapa kata dalam bahasa Indonesia. Selain

itu, ditemukan bukti bahwa stemming tidak meningkatkan kinerja (precision

& recall) temu kembali informasi. Tala juga membuat daftar kata buangan

(stop list) yang disusun berdasarkan hasil analisa frekuensi kemunculan kata

dalam bahasa Indonesia.

!" 2 63

Penelitian yang dilakukan Fahmi bertujuan untuk mengetahui apakah

Machine Learning cocok digunakan pada dokumen berbahasa Indonesia.

Fahmi membandingkan 3 algoritma Pembelajaran Mesin (Machine Learning)

untuk mengklasifikasikan dokumen. Adapun algoritma yang dibandingkan

adalah ID3, Instance Based Learning dan Naïve Bayes. Hasil penelitian

menunjukkan algoritma Instance Based memiliki kinerja yang paling baik.

Clustering adalah proses pengelompokan data ke dalam cluster

berdasarkan parameter tertentu sehingga obyek obyek dalam sebuah cluster

memiliki tingkat kemiripan yang tinggi satu sama lain dan sangat tidak mirip

dengan obyek lain padaclusteryang berbeda (Kantardzic, 2001).

Berbeda dengan klasifikasi, clustering tidak memerlukan kelas yang

telah didefinisikan sebelumnya atau kelas hasil training, dengan demikian

clusteringdinyatakan sebagai bentuk pembelajaran berdasarkan observasi dan

(27)

! /

Clustering secara umum memiliki tahapan sebagai berikut (Jain et. al,

1999) :

1. Representasi Pola

2. Pengukuran Kedekatan Pola (Pattern Proximity)

3. Clustering

4. Abstraksi Data (jika dibutuhkan)

5. Penilaian Output (jika dibutuhkan).

Adapun penjelasan dari tahapan tahapan di atas adalah sebagai berikut :

'( )/$)1) 1 0*

Ada beberapa model yang dapat digunakan untuk merepresentasikan

dokumen dan secara umum dibagi menjadi dua kelompok, yaitu model

klasik dan model alternatif. Model klasik terdiri dari model Boolean,

model Ruang Vektor dan model Probabilistik. Model alternatif yang

merupakan pengembangan dari model klasik, terdiri atas : Model

Himpunan Fuzzy, Extended Boolean, Model Ruang Vektor General dan

Jaringan Bayes (Baeza Yates & Ribeiro Neto, 1999). Pada penelitian ini,

digunakan dua model representasi, yaitu model Boolean untuk

menemukan dokumen dan model Ruang Vektor untuk representasi

dokumen.

( 0#)* 00*)

Model boolean merepresentasikan dokumen sebagai suatu

himpunan kata kunci (set of keywords). Sedangkan query

(28)

boolean merupakan kumpulan kata kunci yang saling dihubungkan

melalui operator boolean seperti AND, OR dan NOT serta

menggunakan tanda kurung untuk menentukanscopeoperator. Hasil

pencarian dokumen dari model boolean adalah himpunan dokumen

yang relevan.

Kekurangan dari modelbooleanini antara lain :

1. Hasil pencarian dokumen berupa himpunan, sehingga tidak dapat

dikenali dokumen dokumen yang paling relevan atau agak relevan

(partial match).

2.Query dalam ekspresi booleandapat menyulitkan pengguna yang

tidak mengerti tentang ekpresiboolean.

Walaupun demikian, karena sifatnya yang sederhana, hingga

saat ini model Boolean masih dipergunakan oleh sistem temu

kembali informasi modern, antara lain oleh www.google.com

(Dominich, 2003). Kekurangan dari model boolean diperbaiki oleh

model ruang vektor yang mampu menghasilkan dokumen dokumen

terurut berdasarkan kesesuaian denganquery. Selain itu, pada model

ruang vektorquerydapat berupa sekumpulan kata kata dari penguna

dalam ekspresi bebas.

-( 0#)* , 7)+ 0$

Pada Model Ruang Vektor, teks direpresentasikan oleh vektor

dari term (kata atau frase). Misalkan terdapat sejumlahn kata yang

(29)

dimensi sebesarn. Setiap kataidalam dokumen atauquerydiberikan

bobot sebesar wi. Baik dokumen maupun query direpresentasikan

sebagai vektor berdimensin.

Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah

dokumen (D1danD2) serta sebuahquery Q. Masing masing bernilai

:

D1= 2T1+3T2+5T3

D2= 3T1+7T2+0T3

Q= 0T1+0T2+2T3

Maka representasi grafis dari ketiga vektor ini adalah :

"- $ ('Representasi dokumen dan query dalam ruang vektor

Koleksi dokumen direpresentasi pula dalam ruang vektor sebagai

matriks kata dokumen (terms+documents matrix). Nilai dari elemen

(30)

Misalkan terdapat sekumpulan kata T sejumlah n, yaitu T =

(T1, T2, … ,Tn) dan sekumpulan dokumenDsejumlahm, yaituD=

(D1, D2, … , Dm) serta wi j adalah bobot kata i pada dokumen j

(Gambar 2).

"- $ ( Matriks Representasi Dokumen

Untuk memberikan bobot numerik terhadap dokumen yang

diquery, model mengukur vektor query dan vektor dokumen. Ada

beberapa teknik untuk menghitung bobot. Yang paling banyak

digunakan adalah Term Frekuensi (TF), Term Frekuensi Inverse

Document Frequency (TFIDF) dan Salton. Pada Tf, bobot kata

dinyatakan sebagai nilai log dari frekuensi kata pada dokumen.

Tfd= log (1 +td), (1)

Tfd=Nilai kata t pada dokumen d

td= frekuensi kata t pada dokumen d.

Tf Idf merupakan pengembangan dari formula Tf, dengan

memasukkan unsur frekuensi dokumen. Frekuensi dokumen adalah

jumlah dokumen yang memiliki term t minimal 1. Formula Tf Idf

(31)

dft N Tf

TfIdf = log (2)

N = Jumlah seluruh dokumen

dft = Jumlah dokumen yang memiliki kata t

Dibandingkan Tf dan TfIdf, formula Salton merupakan

formula yang memiliki unsur paling lengkap. Selain nilai frekuensi

dan dokumen frekuensi kata, Salton juga memasukkan jumlah kata

pada dokumen dan nilai frekuensi maksimum kata pada dokumen.

Secara lengkap, formula Salton dinyatakan sebagai :

                +         + = = = = fj ki L k ji L k ft ki L k ti i d N f Max f Max d N f Max f d t doc term w log 5 . 0 5 . 0 log 5 . 0 5 . 0 ) , ( _ _ ,..., 2 , 1 ,..., 2 , 1 ,..., 2 , 1 (3)

fit= frekuensi kemunculan istilah t pada dokumendi

dft= jumlah dokumen yang mengandung istilah t

L = jumlah istilah yang terdapat pada dokumendi

N = jumlah dokumen

Semakin besar nilaiw_term_doc(t,di), semakin penting istilaht

pada dokumen di. Nilai w_term_doc(t,di) dinormalkan sehingga

bernilai antara 0 dan 1. Setelah bobot istilah pada setiap dokumen

dihitung, dokumen di dapat direpresentasikan sebagai vektor

dokumen : dimana wij = w_term_doc(tj, di)

merupakan bobot istilah tj pada dokumen di (0≤wij ≤1) dan s

adalah jumlah istilah dari semua dokumen. Sehingga akhirnya kita is

i i

i w w w

(32)

memiliki matriks U berukuran n x s dimana n adalah jumlah

dokumen.

Penentuan relevansi dokumen denganquery dipandang sebagai

pengukuran kesamaan (similarity measure) antara vektor dokumen

dengan vektorquery. Semakin “sama” suatu vektor dokumen dengan

vektor query maka dokumen dapat dipandang semakin relevan

dengan query. Salah satu pengukuran kesesuaian yang baik adalah

dengan memperhatikan perbedaan arah (direction difference) dari

kedua vektor tersebut. Perbedaan arah kedua vektor dalam geometri

dapat dianggap sebagai sudut yang terbentuk oleh kedua vektor.

Gambar 3 mengilustrasikan kesamaan antara dokumen D1dan

D2dengan query Q. Sudut

θ

1 menggambarkan kesamaan dokumen

D1 dengan query sedangkan sudut

θ

2 mengambarkan kesamaan

dokumenD2denganquery.

[image:32.612.231.437.441.678.2]

(33)

JikaQadalah vektorquerydanDadalah vektor dokumen, yang

merupakan dua buah vektor dalam ruang berdimensin, dan

θ

adalah

sudut yang dibentuk oleh kedua vektor tersebut. Maka

Q•D= |Q||D| cos

θ

2

Q •D adalah hasil perkalian dalam (inner product) kedua vektor,

∑

= = n i Di D 1 2 |

| dan

∑

= = n i Qi Q 1 2 |

| merupakan panjang vektor atau

jarakEuclideansuatu vektor dengan titik nol. Perhitungan kesamaan

kedua vektor adalah sebagai berikut :

Sim(Q,D)=cos(Q,D)=

| ||

|Q D

D Q• =

∑

= • n i Di Qi D Q|| | 1 |

1

Metode pengukuran kesesuaian ini memiliki beberapa

keuntungan, yaitu adanya normalisasi terhadap panjang dokumen.

Hal ini memperkecil pengaruh panjang dokumen. Jarak Euclidean

(panjang) kedua vektor digunakan sebagai faktor normalisasi. Hal ini

diperlukan karena dokumen yang panjang cenderung mendapatkan

nilai yang besar dibandingkan dengan dokumen yang lebih pendek.

Proses pemeringkatan dokumen dapat dianggap sebagai proses

pengukuran vektor dokumen terhadap vektor query, ukuran

kedekatan ditentukan oleh kosinus sudut yang dibentuk. Semakin

besar nilai kosinus, maka dokumen dianggap semakin sesuai query.

Nilai kosinus sama dengan 1 mengindikasikan dokumen sesuai

(34)

Model Ruang Vektor memiliki keunggulan antara lain : (1)

skema pembobotan term dapat meningkatkan kinerja pengambilan

(2) strategi partial matching memungkinkan penemuan dokumen

yang mendekati query (3) formula kosinus dapat memberikan

peringkat dokumen yang terambil berdasarkan kemiripan dengan

query.

Adapun kekurangan dari model ini adalah belum menangani

term yang memiliki relasi dan proses perhitungan terhadap seluruh

koleksi dokumen dapat memperlambat proses pencarian.

( 0#)* $0- - * 1 +

Model probabilistik mencoba menangkap masalah IR melalui

prinsip peluang. Jika ada query q dan sebuah dokumen dj pada

koleksi, model probabilistik mencoba menduga peluang pengguna

menemukan dokumen dj yang dicari. Model berasumsi bahwa

peluang relevansi hanya ditentukan oleh query dan representasi

dokumen. Selanjutnya, model berasumsi bahwa ada subset himpunan

dokumen yang pengguna lebih pilih sebagai jawaban query q.

Jawaban ideal ini diberi label R dan bernilai maksimum diantara

keseluruhan peluang relevansi dokumen. Dokumen pada R diduga

relevan dan yang selainnya disebut tidak relevan.

Nilai kemiripan sebauh dokumen dj terhadap query q

dinyatakan dalam :

Sim(dj,q)

      ₋ + −

≈

∑

log1 ( | )

) | ( 1 ) | ( log _{_} _ , , R k P R k P R k P x xw

w i i

t

(35)

) |

(k R

P _i merupakan peluang term ki ada pada dokumen yang

dipilih secara acak dari himpunan R. Karena pada awalnya kita tidak

mengetahui himpunan R, maka dibutuhkan sebuah metode untuk

menentukan nilai awal P(k_i|R) dan ( | )

_

R k

P _i . Pada saat permulaan

sekali, diasumsikan nilai P(k_i|R) = 0.5 dan

N n R k

P i

i | )=

( _

dengan

ni = jumlah dokumen yang mengandung term ki dan N adalah total

seluruh dokumen.

Selanjutnya nilai peringkat dapat diperbaiki menjadi :

V V R k

P i

i| )=

( dan V N V n R k

P i i

i ₋ − = ) | ( _

Formula terakhir untuk P(k_i|R) dan ( | )

_

R k

P _i untuk nilai Vi

dan V yang sangat kecil (misalkan V = 1 dan Vi = 0) adalah :

1 ) | ( + + = V N n V R k P i i i dan 1 ) | ( _ + − + − = V N N n V n R k P i i i i

Model probabilistik memiliki keunggulan : dokumen dapat

diberikan peringkat secara menurun berdasarkan peluang sebuah

dokumen relevan terhadap query. Adapun kekurangannya adalah (1)

perlu menduga pembagian awal dokumen terhadap himpunan yang

relevan dan non relevan. (2) tidak memperhitungkan frekuensi term

pada dokumen (3) asumis bahwa term saling independen satu sama

(36)

#( 0#)* * )$ %

Ketiga model tersebut di atas merupakan model klasik yang

sudah cukup lama dikembangkan. Selain model tersebut, juga

terdapat model alternatif yang merupakan pengembangan dari model

klasik, antara lain : Model Himpunan Fuzzy, Extended Boolean,

Model Ruang Vektor General dan Jaringan Bayes (Baeza Yates &

Ribeiro Neto, 1999).

( ) , + $ )#)+ 0* 2 3

Kedekatan pola diukur berdasarkan fungsi jarak antara dua ciri. Jarak

digunakan untuk mengukur ke(tidak)miripan antara dua obyek data.

Kemiripan merupakan salah satu landasan dari definisi cluster. Ada

banyak cara untuk menghitung jarak, namun pada tesis ini hanya akan

dibahas tiga jarak yang paling banyak digunakan. Dan diantara ketiga

jarak tersebut, yang paling populer adalah jarak Euclid.

a. Jarak Minkowski

Didefinisikan sebagai :

( )

q

(

q

)

jp ip q

j i q j

i x x x x x

x j i

d , = ₁− ₁ + ₂ − ₂ +...+ − (4)

dengan d(i,j) = jarak Minkowski antara data ke i dan data ke j, x =

obyek data, p = banyaknya atribut data, dan q adalah bilangan bulat

positif,

b. Jarak Manhattan

(37)

( )

i j xi xj xi xj xip xjp

d , = ₁− ₁ + ₂ − ₂ +...+ − , (5)

c. Jarak Euclid

Sama seperti Jarak Manhattan, jarak Euclid merupakan kasus khusus

dari jarak Minkowsi denganq=2

( )

(

2 2

)

2 2 2

1

1 ...

,j x_i x_j x_i x_j x_ip x_jp

i

d = − + − + + − . (6)

Dilihat dari struktur data yang dihasilkan, metode clusteringdapat

dikelompokkan menjadi berjenjang (hierarcy) dan partisi (partition).

Algoritma clustering berjenjang dibagi dua, agglomerative (bottom+up)

dan divisive (top+down). Algoritma aglomerative (Agglomerative

HierarchicalClustering (AHC) merupakan salah satu algoritma berjenjang

yang banyak dipakai untukdocument clustering(Mendes & Sacks, 2003).

Pembagian metode clustering selengkapnya dapat dilihat pada

Gambar 2.1. Pada level yang paling atas, ada pendekatan hirarki dan

partisi (metode hirarki menghasilkan partisi yang bertingkat, sedangkan

(38)

"- $ (6Taksonomi MetodeClustering(Jain et. al., 1999).

5(' *,0$ " $ $+

Kebanyakan algoritmaclusteringhirarki merupakan variasi dari

algoritma Single+Link dan Complete+Link. Kedua algoritma ini

memiliki perbedaan pada cara menentukan jarak antara dua cluster.

Pada metode single+link, jarak antara dua cluster adalah jarak

minimum antara sepasang pola (satu pola dari satuclusterdan lainnya

dari cluster kedua). Pada algoritma complete+link, jarak antara dua

clusteradalah jarak maksimum antara sepasang pola pada duacluster.

AlgoritmaClustering AgglomerativeHirarki :

1. Jadikan setiap dokumen sebagaicluster, sehingga jika adan data,

akan dihasilkanclustersebanyakn.

2. Gabungkan dua cluster yang memiliki derajat kemiripan paling

besar (jarak terkecil) menjadi satucluster

3. Jika derajat kemiripan antara duaclusterkurang dari ambang batas

α, dengan nilaiα ∈[0,1] maka berhenti , bila tidak maka kembali

Clustering

Teori Graf

Complete Link Single

Link

Partisi

Hirarki

Error Kuadrat

Mode Seeking

(39)

5( *,0$ " $ 1

Algoritma clusteringpartisi menghasilkan partisi satu level dan

bukan struktur cluster berjenjang seperti Dendogram yang dihasilkan

oleh algoritma hirarki. Metode partisi memiliki keunggulan pada

aplikasi yang melibatkan data yang sangat besar yang apabila

menggunakan Dendogram sangat memakan waktu komputasi.

Masalah yang muncul pada saat menggunakan algoritma clustering

adalah menentukan jumlah cluster yang diinginkan. Metode partisi

biasanya menghasilkanclusterdengan mengoptimalkan fungsi kriteria

yang didefinisikan secara lokal (pada sub pola) atau secara global

(pada seluruh pola).

( $$0$ #$

Fungsi kriteria yang paling sering digunakan pada metode

clustering partisi adalah fungsi error kuadrat (e2). Tujuan dari

algoritma ini adalah meminimalkan fungsierrorkuadrat :

2

1 1

2

∑

= =

− =

j

n

i

j j i K

j

c x

e , (7)

dengan x_ijadalah pola i pada cluster j dan cj adalah pusat

(centroid)clusterj.

K Means adalah algoritma yang menerapkan fungsi error

kuadrat yang paling sederhana dan paling banyak dipakai.

Algoritma K Mean populer karena : (a) implementasinya mudah

(b) kompleksitas waktunya adalah O(n), dengan n adalah jumlah

(40)

Permasalahan pada algoritma ini adalah sangat peka terhadap

partisi awal (inisial) dan jika partisi inisial tidak dipilih secara

tepat, algoritma dapat konvergen pada lokal minimum.

Kekurangan Algoritma K Means lainnya adalah (a) hanya

bisa diterapkan jika rataan (mean) dapat didefinisikan, (b) perlu

menentukan nilai k (jumlahcluster) dan (c) tidak dapat menangani

data yangnoisydan pencilan.

Algoritma K Means :

1. Pilih titik sebanyak K sebagai pusat inisial (K = jumlah

cluster)

2. Letakkan semua titik pada pusat terdekat

3. Tentukan kembali pusat pada setiapcluster

4. Ulangi langkah 2 dan 3 hingga centroid tidak berubah

-( )0$ $ %

Algoritma clustering teori graf dibangun berdasarkan

pembentukan Minimum Spanning Tree (MST) data dan cluster

dibentuk dengan memutus rusuk MST dengan panjang terbesar.

"- $ ( menggambarkan MST yang dihasilkan dari 9 titik

berdimensi dua. Dengan memutus link CD dengan panjang 6 unit

(rusuk dengan jarak Euclid terbesar) akan diperoleh dua cluster

({A,B,C}) dan {D,E,F,G,H,I}). Cluster kedua, selanjutnya dapat

dibagi lagi menjadi dua cluster dengan memutus rusuk EF, yang

(41)

2

1 2 2.3

2

5

6

1

Rusuk dengan panjang maksimum

"- $ (8Penggunaan MST untuk membentukcluster(Jain et al, 1999).

( 9 $) )10*: ,

Pendekatan Mixture+Resolving untuk clustering memiliki

asumsi bahwa pola yang akan dijadikan cluster berasal dari satu

atau beberapa sebaran (Normal, Poisson dan (paling banyak)

Gaussian). Tujuan dari algoritma ini adalah untuk

mengidentifikasi parameter parameter dari sebaran sebaran ini.

(Grira et. al., 2004).

Taksonomi clustering (Gambar 2.1) juga memerlukan pembahasan

aspek aspek lain yang dapat mempengaruhi metode metode clustering

tanpa memperhatikan posisi metode clustering pada taksonomi (Jain et.

al., 1999). Antara lain :

a. Agglomerative vs divisive: Aspek ini berkaitan dengan struktur

algoritma dan operasi. Pendekatan agglomerative diawali dengan

menjadikan setiap pola sebagai sebuah cluster dan terus menerus

menggabungkan cluster hingga kriteria pemberhentian terpenuhi.

(42)

satu cluster dan dilakukan pemecahan hingga kriteria pemberhentian

terpenuhi.

b. Monothetic vs polythetic: aspek ini berkaitan dengan penggunaan ciri

pada proses clustering secara bersamaan atau satu persatu.

Kebanyakan algoritma bersifat polythetic, artinya semua ciri

dimasukkan dalam perhitungan jarak antara pola dan keputusan

diambil berdasarkan jarak tersebut. Sedangkan monothetic, ciri

diambil satu persatu untuk membentukcluster. Masalah utama dengan

algoritma ini adalah ia menghasilkan 2d cluster (d adalah dimensi

pola). Pada aplikasi temu kembali informasi, untuk nilai d yang besar

(d > 100), jumlah cluster yang dihasilkan oleh algoritma monothetic

sangat banyak sehingga data terpecah menjadiclusteryang kecil.

c. Hard vs fuzzy: algoritma clustering tegas menempatkan setiap pola

pada sebuah cluster baik selama proses maupun sebagai hasil akhir.

Metode fuzzy clustering memberikan pola derajat keanggotaan pada

beberapa cluster. Metode fuzzy clustering dapat diubah menjadi

clusteringyang tegas dengan menjadikan pola sebagai anggota sebuah

clusteryang memiliki derajat keanggotaan terbesar.

d. Supervised vs unsupervised: Aspek ini penentuan jumlah cluster.

Algoritma terawasi (supervised) adalah algoritma clustering yang

jumlah cluster yang akan dihasilkan sudah ditentukan sebelumnya

(melalui input manual). Sedangkan algoritma tak terawasi

(unsupervised), banyaknya cluster tidak ditentukan (algoritma yang

(43)

X2 X1

Dengan Centroid Dengan tiga titik berjauhan

e. Incremental vs non+incremental: isu ini muncul ketika pola yang akan

dikelompokan sangat besar ukurannya dan ada pembatasan waktu

eksekusi atau ruang memori yang mempengaruhi arsitektur algoritma.

6( )/$)1) 1

Merupakan proses deskripsi atau pemberian nama kepada cluster

yang dihasilkan. Ada tiga cara atau skema representasi cluster : (a)

representasi cluster dengan pusat (centroid) cluster atau sejumlah titik

yang berjauhan pada cluster ( "- $ (5), (b) representasi cluster

menggunakannodes pada pohon klasifikasi dan (c) Representasi cluster

menggunakan ekspresi logika conjunctive ( "- $ (6). Dari ketiga

skema representasi cluster, penggunaan centroid merupakan teknik yang

paling populer (Michalski et. al., 1981).

Representasi cluster memiliki fungsi antara lain untuk : (a)

memberikan deskripsi cluster yang sederhana dan intuitive sehingga

memudahkan pemahaman manusia, (b) membantu kompresi data yang

dapat dieksploitasi oleh komputer (c) meningkatkan efisiensi pengambilan

keputusan (Jain et. al., 1999).

(44)

"- $ ( (a) Representasiclustermenggunakan Pohon Klasifikasi dan (b) Pernyataan Conjunctive (Jain et. al., 1999).

( 1 )"

'( , 1 <<=

Gugus Fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari

Berkley pada tahun 1965. Pada 10 tahun pertama. Gugus fuzzy merupakan

pengembangan dari gugus biasa. Rerpresentasi abstrak dari sebuah gugus

universal tampak seperti pada Gambar 2.5.

X

"- $ (> Anak Gugus Fuzzy (Marimin, 2005)

Bingkai persegi panjang merepresentasikan gugus universal X, dan

lingkaran yang terputus putus menggambarkan batas ambigous dari

elemen yang terdapat di dalam atau diluar X, sedangkan A adalah gugus

(45)

Teori gugus fuzzy mendefinisikan derajat di mana elemen x dari gugus

univerasal X berada (tercakup) di dalam gugus fuzzy A. Fungsi yang

memberikan derajat terhadap sebuah elemen mengenai keberadaannya

dalam sebuah gugus disebut fungsi keanggotaan. Dalam kasus ini, anggota

dari gugus X adalah elemen x. Sebagai contoh, derajat keanggotaan dari

elemen x dalam area A diekspresikan oleh :

A (x1) = 1, A (x2) = 0.8

A (x3) = 0.3, A (x4) = 0

Aadalah fungsi keanggotaan yang memberikan derajat keanggotaan

yang berada pada suatu selang tertentu, yaitu selang [0,1]. Tulisan

subscript di sebelah , yaitu A, menunjukkan bahwa A adalah fungsi

keanggotaan dari A (Marimin, 2005).

( ,1 ) ,,0

Salah satu cara yang dapat digunakan untuk mendapatkan nilai

keanggotaan adalah dengan melalui pendekatan fungsi. Beberapa fungsi

yang dapat digunakan adalah sebagai berikut (Kusumadewi, 2003):

( $:

Fungsi keanggotaan dari kurva triangular adalah seperti pada

persamaan (6) dan gambar kurvanya seperti pada Gambar 2.6.

(46)

"- $ (? Kurvatriangularuntuka=3,b=6, danc=8

-( $:

Kurva trapezoidal mempunyai fungsi keanggotaan sebagai

berikut:

[ ]

(

)

(

)

(

)

(

)

           ≤ ≤ − − ≤ ≤ ≤ ≤ − − ≥ ≤ = d x c c d x d c x b b x a a b a x d x atau a x x , , 1 , , 0 (9)

"- $ (' Kurvatrapezoidaluntuka=1,b=5,c=7, dand=8

( $: !

(47)

[ ]

_b

a c x

x ₂

1 1

− +

= (10)

"- $ ('' KurvaGeneralizzed belluntuka=2 ,b=4 , danc=6

#( $: 11

Fungsi keanggotaan Gaussion seperti terlihat pada persamaan

(9) dengan gambar kurva seperti terlihat pada Gambar 2.9.

[ ]

( 2) 2

2σ

c x

e x

− −

= (11)

(48)

)( $: " # 11

Kurva Two+sided Gaussian mempunyai fungsi keanggotaan

seperti pada persamaan (10) dan gambar kurva seperti pada Gambar

2.10.

[ ]

( 2) 2

2σ c x

e x

− −

= (12)

Fungsi Two+sided Gaussian merupakan kombinasi dua kurva

Gaussian. Kurva pertama dengan parameter σ1 dan c1 berada

disebelah kiri. Kurva kedua ada dengan parameterσ2 dan c2 berada

disebelah kanan. Daerah antarac1 danc2 harus bernilai 1.

"- $ ('5 KurvaTwo+sidedGaussian untukσ1=2,c1=4 danσ2=1,

c2=8

%( $:

Kurva S mempunyai fungsi keanggotaan seperti pada

(49)

[ ]

            ≥ ≤ ≤ +       − − − + ≤ ≤       − − ≤ = b x b x b a a b x b b a x a a b a x a x x , 1 2 , 2 1 2 , 2 , 0 2 2 (13)

"- $ ('6 Kurva S untuka=1 danb=8

$

Proses clustering pada dasarnya merupakan proses pembuatan gugus atau

himpunan yang memiliki anggota elemen elemen yang akan dicluster. Pada

algoritma clustering non fuzzy, nilai keanggotaan suatu elemen terhadap

gugus atau cluster dinyatakan sebagai 0 atau 1, artinya setiap dokumen hanya

bisa menjadi anggota satu cluster (1 sebagai anggota dan 0 bukan anggota).

Padahal, pada temu kembali informasi, dokumen dapat memiliki informasi

yang relevan (dengan derajat tertentu) dengan beberapacluster yang berbeda.

Dengan fuzzy clustering, dokumen dapat menjadi anggota beberapa cluster

sekaligus. Algoritma fuzzy clustering untuk document clustering masih

(50)

'( # 2 3

Ada beberapa algoritma fuzzy clustering, salah satu diantaranya

adalah Algoritma Fuzzy C Means (FCM). FCM adalah suatu teknik

clustering data dengan keberadaan setiap titik data dalam suatu cluster

ditentukan oleh derajat keanggotaan. Teknik ini pertama kali

diperkenalkan oleh Jim Bezdek (Bezdek, 1981).

Algoritma FCM diawali dengan menentukan derajat keanggotaan

(secara acak) setiap titik data terhadap cluster. Berdasarkan derajat

keanggotaan, kemudian ditentukan pusatcluster. Pada kondisi awal, pusat

cluster tentu saja masih belum akurat. Derajat keanggotaan selanjutnya

diperbaiki berdasarkan fungsi jarak antara titik data dengan pusat cluster

(Nascimento et. al., 2003).

Dengan memperbaiki pusatclusterdan derajat keanggotaan tiap titik

data secara berulang dan terus menerus, maka pusatclusterakan bergeser

ke titik yang tepat (dengan kondisi total jarak antara titik data dengan

pusat cluster telah mencapai nilai yang diinginkan). Output FCM adalah

deretan pusatclusterdan derajat keanggotaan data terhadap setiap cluster

(Kusumadewi dan Purnomo, 2004).

*,0$ "

Algoritma FCM adalah sebagai berikut (Kusumadewi & Purnomo,

2004) :

1 Tentukan X sebagai input data yang akan dijadikan cluster dalam

(51)

(

)

(

)

∑ ∑

∑

= − − = − − =       −         − = c k w m j kj ij w m j kj ij ik V X V X 1 1 1 1 2 1 1 2 1

m = jumlah atribut setiap data. Xij= data sample ke i (i= 1,2,3 …, n),

atribut ke j (j = 1,2,3,…,m).

2 Tentukan :

Jumlahcluster =c;

Pangkat =w;

Maksimum iterasi =MaxIter;

Error terkecil yang diinginkan = ξ ;

Fungsi obyektif awal =P0= 0;

Iterasi awal =t = 1;

3 Bangkitkan bilangan random uik, i = 1,2,..,n; k=1,2,...,c; sebagai

elemen elemen matriks partisi awal U.

Hitung jumlah setiap kolom (atribut) :

j=1,2,…,m (14)

Kemudian hitung : (15)

4 Hitung pusatclusterke k : Vkj, dengank=1,2,…,c;danj=1,2,…,m.

(16)

5 Hitung fungsi keanggotaan pada iterasi ke t, Pt :

(52)

6 Hitung perubahan matriks partisi :

(18)

dengan: i=1,2,...,n; dan k=1,2,...,c.

7 Periksa kondisi berhenti :

Jika: (| Pt – Pt+1 | < ξ) atau (t > maxIter) maka berhenti;

Jika tidak:t = t + 1, ulangi langkah ke 4

( =/)$1/!)$ * <<= @ ) 1

Jarak Euclid yang sering digunakan pada algoritma FCM, ternyata

bukan merupakan ukuran yang paling cocok untuk membandingkan vector

dokumen. Adapun penjelasannya adalah sebagai berikut : misalkan ada

dua dokumen XA dan XB yang terdiri dari set term T sebanyak k dengan

asumsi kebanyakan term pada T (k’) tidak muncul pada XA dan XB.

Diasumsikan juga vektor XA dan XB tidak memiliki term yang sama.

Sehingga XA dan XBmemiliki banyak memiliki nilai 0 dan jarak Euclid

antara keduanya relatif kecil. XA dan XB dinyatakan mirip, padahal yang

sesungguhnya tidak.

Masalah pada fungsi Euclid adalah ketiadaan term pada dua dokumen

dianggap sama dengan kehadiran term yang sama pada dua dokumen.

Oleh karena itu, perlu dipikirkan cara atau metode lain yang lebih baik dari

jarak Euclid. Mendez & Sacks (2003), mencoba menggunakan Ukuran

Kemiripan Kosinus (Cosine Similarity) untuk menggantikan jarak Euclid.

Ukuran Kosinus ( ) adalah inner product dari vektor ( dan )

(

)

( )

_             − =

∑

= = = w ik m j kj ij c k n i

t X V

P

1

2

(53)

setelah dinormalisasi ( ). Semakin tinggi nilai kosinus,

semakin tinggi derajat kemiripan antar dokumen.

(19)

memiliki sifat : dan

Dengan transformasi sederhana, diperoleh ukuran ketidakmiripan :

(20)

dan

Berdasarkan eksperimen, Mendes & Sacks (2003) berhasil

membuktikan bahwa Ukuran Kemiripan Kosinus menghasilkan hasil

clusteryang lebih baik dibandingkan dengan Jarak Euclid. Adapun fungsi

obyektif yang digunakan adalah :

(21)

Karena tidak mencerminkan derajat keanggotaan ( ), maka

perlu dihitung dengan menggunakan rumus :

(54)

,1 ) ,,0 # @

Data menjadi anggota sebuah cluster berdasarkan fungsi keanggotaan.

Sebagai contoh, diberikan sekelompok data berdimensi tunggal (Gambar

2.12),

"- $ ('8 Sebaran data pada dimensi tunggal

Misalkan teridentifikasi dua cluster (A dan B). Pada algoritma K Means,

fungsi keanggotaan menjadi :

"- $ ('; Kurva S untuka=1 danb=8

Pada algoritma FCM & H FCM, sebuah data tidak secara eksklusif

menjadi anggota sebuah cluster. Dalam hal ini, kurva fungsi keanggotaan

berbentuk sigmoid untuk menyatakan bahwa setiap data dapat menjadi

anggota beberapa cluster dengan derajat keanggotaan yang berbeda

(55)

"- $ (' Fungsi keanggotaan algoritma FCM & H FCM

5( % ! & ' 2 3

FCM adalah algoritma clustering yang terawasi, sebab pada FCM

kita harus terlebih dahulu menentukan banyaknya cluster yang akan

dibentuk. Menentukan banyaknya cluster yang tepat merupakan

permasalahan utama dalam pendekatan ini (Geva, 1999). Apabila

banyaknya cluster belum diketahui, maka kita harus menggunakan

algoritma yang tak terawasi (banyaknya cluster ditentukan oleh

algoritma). FSC merupakan algoritma clustering yang tak terawasiyang

diperkenalkan pertama kali oleh Chiu pada tahun 1994 (Chiu, 1994).

Algoritma Subtractive Clustering dibangun berdasarkan ukuran

kepadatan (density) titik data dalam suatu ruang (peubah). Konsep dasar

subtractive clustering adalah menentukan daerah peubah yang memiliki

kepadatan data yang tinggi. Titik dengan jumlah tetangga terbanyak akan

dipilih sebagai pusat cluster. Titik yang terpilih akan dikurangi tingkat

(56)

tingkat kepadatan tertinggi lainnya untuk dijadikan sebagai pusat cluster

yang lain (Kusumadewi & Purnomo, 2004).

Apabila terdapatNbuah data:X1, X2, .., Xndan dengan menganggap

data sudah dalam keadaan normal, maka densitas titik Xk dapat dihitung

sebagai :

( )

∑

=         − − = N j j k k r X X D 1 2 2 exp (23)

Dengan X_k −X_j adalah jarak antara Xkdengan Xj, dan r adalah

konstanta positif yang kemudian akan dikenal dengan nama jari jari

(influence range) r. Jari jari adalah vektor yang akan menentukan

seberapa besar pengaruh pusat cluster pada tiap tiap variabel. Dengan

demikian, suatu titik data akan memiliki nilai kepadatan yang besar jika

dia memiliki banyak tetangga didekatnya.

Setelah menghitung nilai kepadatan setiap titik, maka titik dengan

kepadatan tertinggi akan dipilih sebagai pusatcluster. MisalkanXc1adalah

titik yang terpilih sebagai pusat cluster, sedangkan Dc1 adalah ukuran

kepekatannya. Selanjutnya kepekatan dari titik titik disekitarnya akan

dikurangi menjadi

(

)

_      − − ∗ −

= ₂1

1 2 exp b c k c k k r X X D D D (24)

dengan rb = q*ra (biasanya squash factor (q) = 1.5). Artinya titik

titik yang ada dekat dengan cluster Xc1 akan mengalami pengurangan

(57)

menjadi pusat cluster berikutnya. Biasanya nilai rb bernilai lebih besar

dari jari jari (r).

Setelah kepekatan tiap titik disesuaikan, maka selanjutnya akan

dicari pusat cluster yang kedua, yaitu Xc2. Sesudah Xc2 didapat, ukuran

kepekatan tiap titik disekitarnya disesuaikan kembali, demikian

seterusnya.

Penerimaan dan penolakan suatu titik data menjadi pusat cluster

ditentukan oleh nilai Rasio, Rasio Terima dan Rasio Tolak. Rasio adalah

perbandingan nilai kepekatan suatu data pada perulangan ke i (i > 1)

dengan nilai kepekatan data pada perulangan pertama (i=1). RasioTerima

dan RasioTolak merupakan konstanta bernilai antara 0 dan 1 yang

digunakan sebagai ukuran untuk menerima dan menolak sebuah titik data

kandidat pusatclustermenjadi pusatcluster.

Ada 3 kondisi yang mungkin terjadi:

a. Jika Rasio > RasioTerima, maka titik data tersebut diterima sebagai

pusatclusterbaru

b. Jika RasioTolak < Rasio < RasioTerima, maka kandidat dapat diterima

sebagai pusat cluster jika kandidat memiliki jarak yang cukup jauh

dengan pusat cluster terdekat (rasio + jarak dengan pusat cluster

terdekat ≥ 1). Sebaliknya jika rasio + jarak dengan pusat data terdekat

< 1, maka dia ditolak sebagai pusatcluster.

c. Jika Rasio ≤ RasioTolak, maka sudah tidak ada lagi titik data yang

akan dipertimbankan sebagai kandidat pusat cluster, perulangan

(58)

*,0$ " % ! & '

Algoritma Fuzzy Subtractive Clustering adalah sebagai berikut

(Kusumadewi & Purnomo, 2004) :

1 Tentukan Xij sebagai input data yang akan dicluster i=1,2,...,n;

j=1,2,...,m (n= jumlah sampel data danm= jumlah atribut setiap data)

2 Tetapkan nilai :

a. rj(jari jari setiap atribut data);j=1,2,...,m

b. q(squash factor);

c. Accept ratio

d. Reject Ratio

e. XMin (minimum data diperbolehkan)

f. XMax (maksimum data diperbolehkan).

3 Normalisasi :

j j

j ij

ij

XMin XMax

XMin X

X

− −

= , i = 1,2,...,n; j=1,2,...,m; (25)

4 Tentukan potensi awal setiap titik data

a. i= 1;

b. Kerjakan hinggai=n:

• Ti=Xij j=1,2,...,m

• Hitung :

   



 −

=

r X T

Dist_kj j kj j=1,2,...,m; k=1,2,...,n; (26)

• Potensi awal :

(59)

(

)

∑

= −

=

n k Distk

e

D

1 4 1 2 1 (27)

Jika m > 1, maka

(

)

∑

= −

=

n k Dist i kj

e

D

1 4 2 (28)

i = i + 1

4 Cari titik dengan potensi tertinggi

a. M = max[Di | i=1,2,...,n]

b. H = i, sedemikian sehingga Di = M;

5 Tentukan pusatclusterdan kurangi potensinya terhadap titik titik di

sekitarnya

a.Center =[]

b.Vj = Xhj; j=1,2,...,m

c.C = 0 (jumlahcluster)

d.Kondisi = 1;

e.Z = m

f. Kerjakan jika (kondisi≠1) dan (z≠0)

• Rasio = z/M

• Jika Rasio > accept_ratio :

Md = 1;

Kerjakan untuk i=1 sampai i = C:

i.

r Center V

G_ij = j − ij j=1,2,...,m (29)

ii.

∑

( )

=

= m _ij

i G

(60)

iii.Jika (Md < 0) atau (Sd < Md), maka Md = Sd;

Smd = Md

Jika rasio + Smd ≥1, maka kondisi = 1; (Data diterima

sebagai pusatcluster)

Jika rasio + Smd < 1, maka kondisi = 2; (Data tidak akan

dipertimbangkan kembali sebagai pusatcluster).

• Jika Kondisi = 1 lakukan :

C = C + 1;

Centerc = V;

Kurangi potensi dari titik titik dekat pusatcluster:

q j ij j ij r X V S * −

= ; j=1,2,...,m; i=1,2,...,n; (31)

( )

        −

∑

=

= m j ij S

ci

M

e

D

1

2

4

*

i=1,2,...,n (32)

i. Dci= M *e ;i=1,2,...,n. (33)

ii. D = D – Dc (34)

iii. JikaDi ≤0, makaDi= 0; i =1,2,...,n.

iv.Z= max[Di|i=1,2,...,n]

v. Pilihh = 1, sedemikian sehinggaDi=Z

• Jika kondisi = 2

Dh = 0;

Z = max[Di |i=1,2,...,n]

(61)

Centerij= Centerij* (Xmaxj– Xminj) + Xminj; (35)

7 Hitung nilai sigmacluster

8 / ) (

* _j _j

j

j =r XMax −XMin

σ (36)

Hasil dari algoritmaSubtractive Clusteringini adalah matriks pusat

cluster (C) dan sigma (

σ

) yang akan digunakan untuk menentukan nilai

parameter fungsi keanggotaan Gauss, seperti terlihat pada Gambar 2.12.

[ ]

x =0.5

c

σ σ

"- $ ('>Fungsi keanggotaan kurva Gauss (Kusumadewi & Purnomo, 2004)

Dengan kurva Gauss pada Gambar 2.12, maka derajat keanggotaan

titik dataXipadaclusterk dapat ditentukan sebagai :

(37)

( # * " 1 )" )" )"- * %0$" 1

Tujuan dari setiap algoritma clustering adalah untuk mengelompokkan

elemen data berdasarkan ukuran ke(tidak)miripan sehingga relasi dan struktur

data yang tidak terlihat dapat diungkapkan.Document clusteringuntuk temu

kembali informasi telah mulai dipelajari beberapa dekade yang lalu untuk

(

)

∑

=

− −

m

j j

kj ij C

x

ki

e

1

(62)

meningkatkan kinerja pencarian dan efisiensi pengambilan (Mendes dan

Sacks, 2003).

Penggunaan clustering didasarkan pada hipotesis cluster yaitu :

“dokumen yang relevan dengan query yang diberikan, cenderung mirip satu

sama lain dibandingkan dengan dokumen yang tidak relevan, oleh karena

dokumen yang relevan dapat dikelompokkan dalam cluster” (Rijsbergen,

1979). Selain itu, clustering juga dapat digunakan untuk browsing koleksi

dokumen yang sangat besar dan sebagai alat untuk mengatur senarai dokumen

hasilquerymenjadi kelompok kelompok yang memiliki makna (Cutting at. al,

1992). Penelitian Leuski juga berhasil menunjukkan bahwa ternyata metode

clustering lebih efektif dalam membantu pengguna untuk menemukan

informasi dibandingkan dengan metode senarai (Leuski, 2001).

Dilihat dari urutan pengerjaannya, clustering dalam temu kembali

informasi dibagi dua jenis, sebelum pencarian (static clustering) dan sesudah

pencarian (post+retrieval clustering) (Tombros, 2002).

) )* )$# ! *

Berdasarkan kajian literatur yang penulis lakukan, penelitian untuk

meningkatkan efektifitas temu kembali informasi kebanyakan menggunakan

model document clustering. Model clustering yang paling banyak digunakan

adalah model hirarki dan partisi ( -)* ').

1. Penelitian pada temu kembali informasi fuzzy yang lebih komprehensif

dilakukan oleh Horng et. al. (2005). Pertama kali, Horng et. al.

(63)

cluster dan pusat dokumen, dibangun aturan logika fuzzy logic. Terakhir,

mereka mengaplikasikan aturan logikafuzzyuntuk mengembangkanquery

pengguna untuk menemukan dokumen yang relevan dengan permintaan

pengguna. Implementasi aturan logika fuzzy pada query pengguna

menjadikan metode temu kembali informasi fuzzylebih efektif, fleksibel

dan cerdas.

-)* ('Penelitian tentangdocument clustering

! "#$ %%&

1 Horng et. al. 2005 Fuzzy Agglomerative Hierarchical Hirarki Ya

2 Lian et. al. 2004 S Grace Hirarki &

Graf

Tidak

3 Shyu et. al. 2004 PAM, Single , Group Average

& Complete

Partisi &

Hirarki

Tidak

4 Fung et. al. 2003

(FIHC)

Hirarki Tidak

5 Wallace et. al. 2003 Fuzzy Agglomerative Hierarchical Hirarki Ya 6 Mendes & Sacks.

2003

!! (H

FCM)

Partisi Ya

7 Leuski. 2001 ε Insentive Fuzzy C Means (ε

FCM)

Partisi Ya

8 Maarek et. al. 2000 Agglomerative Hierarchical Hirarki Tidak

9 Rüger & Gauch. 2000 Buckshot Partisi Tidak

2. Lian et. al. (2004) melakukan clusteringterhadap dokumen XML dengan

mengusulkan algoritma S Grace. Pada algoritma S Grace, digunakan

Teori Graf untuk mengukur jarak antara dokumen dengan sekelompok

dokumen. Walaupun masih sangat memakan waktu, algoritma S Grace