FUZZY PARTITIONING DAN FUZZY HIERARCHICAL UNTUK CLUSTERING DOKUMEN

(1)

Abstract

Document clustering is a task to find topic relations among documents and to group the documents with similar topic into the same cluster. The constraint that the topic in a document is not related to one domain can be handled by fuzzy-based clustering well.

This research conducts a study to two fuzzy clustering algorithms for document clustering, Hyper-Spherical Fuzzy C-Means (H-FCM) and Hierarchical-Spherical Fuzzy C-Means (H2-FCM). Both algorithms show different result. H-FCM produces flat/partitioning clusters and H2-FCM produces hierarchical clusters. H-FCM algorithm itself is a modification of Fuzzy C-Means Clustering Algorithm (FCM). H2-FCM is a hierarchical form of H-FCM algorithm thatt uses H-FCM algorithm.

Both algorithms are tested in Reuters-21578 for English dataset and New Testament Four Gospels (Matthew, Mark, Luke and John) in the Indonesian language. The accuracy of the test in Reuters-21578 dataset calculated based on F-Measure. However the test in four gospels is subjectively measured by examining if the similar pericopes from different gospels are grouped into same cluster. Note some parallel pericopes in four gospels refer to the same event in Jesus life.

1. PENDAHULUAN

Data mining adalah suatu proses ekstraksi pengetahuan dari data. Terdapat sejumlah task dalam data mining, salah satunya adalah: cluster analysis (analisa cluster).

Analisa cluster yang dilakukan untuk mengelompokkan sejumlah obyek ke beberapa cluster dilakukan dengan mengobservasi sejumlah properti atau karakteristik obyek [2], yang selanjutnya disebut fitur. Sebuah cluster adalah sekumpulan obyek data yang “mirip” satu sama lainnya dan “berbeda” dengan kumpulan obyek data lain yang terdapat pada cluster yang berbeda berdasarkan fitur-fitur yang dimilikinya.

Internet tidak dapat dipungkiri telah membawa penggunanya berhadapan langsung dengan milyaran dokumen teks yang tersedia, sehingga perangkat seperti search engine dan web directory menjadi kebutuhan yang tak dapat ditawar lagi. Namun demikian karena dokumen teks adalah unstructured data, pencarian dan pengelompokkannya akan

menjadi kesulitan tersendiri. Pengelompokkan sejumlah gigabyte dokumen secara manual dengan tenaga manusia menjadi mustahil. Inilah setidaknya yang menjadi salah satu perbedaan mendasar antara Yahoo dan Google dalam awal operasi mereka.

Prinsip mekanisme clustering pada dokumen teks sebenarnya tidaklah berbeda dengan structured data seperti clustering pada record-record table database, saat fitur dapat diekstrak dengan baik pada tahapan preprocessingnya. Untuk sebuah dokumen, topik atau kategori dokumen sering dipertimbangkan dari cluster tempat dokumen itu dikelompokkan.

Sebagian metode clustering dokumen merupakan modifikasi dari metode-metode clustering sebelumnya. Modifikasi yang berupa peningkatan performansi algoritma dilakukan karena clustering dokumen hamper selalu membutuhkan penanganan khusus dalam hal perolehan fiturnya, dimensi yang besar (jumlah fitur), dan ukuran dataset yang besar.

Tulisan ini akan membahas dua metode clustering dokumen teks yaitu Hyper-Spherical Fuzzy C-Means (H-FCM) dan Hierarchical Hyper-Spherical Fuzzy C-Means (H2-FCM) yang merupakan modifikasi dari algoritma clustering Fuzzy C-Means (FCM).

II. PARTITIONING DAN

HIERARCHI-CAL PADA FUZZY CLUSTERING

Berdasarkan mekanisme pengelompokkan data ke dalam cluster, secara sederhana metode clustering dapat dikategorikan ke dalam hard clustering dan fuzzy clustering. Sedangkan berdasarkan hasil cluster yang diperoleh, metode clustering dapat dikategorikan menjadi hierarchical clustering dan non-hierarchical clustering atau flat / partitioning clustering).

Pada algoritma hard clustering, seperti K-Means, setiap obyek inputnya hanya dapat masuk ke dalam satu cluster. Implikasi pada clustering dokumen adalah bahwa kategori ini akan mengabaikan kemungkinan suatu dokumen dapat memiliki lebih dari satu topic, yang selanjutnya kebutuhan ini dijawab melalui fuzzy clustering [1]. Satu contoh algoritma fuzzy clustering yang cukup terkenal adalah algoritma Fuzzy C-Means (FCM).

Hasil akhir dari algoritma partitioning clustering adalah berupa flat cluster, sedangkan algoritma hierarchical clustering akan menghasilkan struktur cluster yang disusun dalam bentuk hirarki. Algoritma K-Means dan FCM merupakan algoritma partitioning clustering, sedangkan Agglomerative

FUZZY PARTITIONING DAN FUZZY HIERARCHICAL

UNTUK CLUSTERING DOKUMEN

Gunawan

Sekolah Tinggi Teknik Surabaya

gunawan@stts.edu

(2)

Hierarchical Clustering (AHC) yang terkenal termasuk dalam kategori hierarchical clustering.

Dua algoritma clustering pada tulisan ini adalah H-FCM, algoritma fuzzy partitioning clustering yang menerapkan karakteristik fuzzy pada algoritma partitioning clustering, dan H2-FCM, algoritma fuzzy hierarchical clustering yang menerapkan fuzzy pada algoritma hierarchical clustering.

III. HYPER-SPHERICAL FUZZY

C-MEANS

Algoritma FCM (Fuzzy C-Means) merupakan algoritma fuzzy clustering yang cukup terkenal dan telah banyak digunakan dalam proses clustering data. Dalam mengukur dissimilarity jarak antara dua obyek, FCM menggunakan Euclidean distance. FCM banyak diterapkan pada data input dimensi kecil, 0-dimensi atau 1-dimensi.

Algoritma H-FCM

[Input:koleksi dokumen, c, m

Output:flat cluster, yang ditentukan dari matriks keanggotaan U].

1.[Inisialisasi]

J  0

uiα  random namun tetap dalam batas

lanjut  true

2.[Proses clustering dilakukan hingga selisih fungsi objektif ≤ threshold atau iterasi telah mencapai jumlah maximum yang ditentukan]

WHILE (lanjut)

vα  hitung centroid

cluster

Jtemp  J

D  matriks dissimilarity

J  hitung fungsi objektif

IF (|J-Jtemp| ≤ threshold) lanjut  false

ELSE

uiα  matriks keanggotaan baru

Pada clustering dokumen, sebuah dokumen sebagai obyek input direpresentasikan sebagai vektor-vektor data yang berdimensi tinggi k. Untuk dapat menangani data input yang berdimensi tinggi ini, algoritma FCM ini perlu dimodifikasi. Hasil modifikasi ini yang selanjutnya disebut H-FCM (Hyper-Spherical Fuzzy C-Means) karena pada algoritma baru tersebut dokumen sebagai sumber data dan pusat cluster (centroid) direpresentasikan sebagai vektor-vektor data yang terletak pada k dimensi pada unit radius hypersphere.

Pada prinsipnya, proses clustering dan langkah-langkah yang dilakukan dalam algoritma H-FCM adalah sama dengan proses clustering dan langkah-langkah yang dilakukan dengan menggunakan algoritma FCM. Sedangkan perbedaan yang paling menonjol dari kedua algoritma tersebut adalah

perbedaan fungsi dissimilarity yang dipakai dalam proses perhitungan ketidakmiripan obyek, yang disebabkan oleh perbedaan data set yang dipakai.

Pada H-FCM, ukuran similarity yang digunakan adalah cosine similarity, S(xA,xB), yang merupakan inner product dari vector k-dimensi (xA dan xB) yang telah dinormalisasi terhadap panjang unitnya.









k j Bj Aj B A

x

S

1

)

,

(

dengan batasan untuk cosine similarity:

B

A

x

S

(

_A

,

_B

)

1 ,

,

0 





A

x

S

(

A

,

A

)



1 ,



Dengan demikian, perhitungan fungsi dissimilarity yang digunakan dan batasan-batasannya adalah:















k j Bj Aj B A B A

x

S

x

D

1

1 )

,

(

1 )

,

(

B

A

x

D

(

_A

,

_B

)

1 ,

,

0 





A

x

D

(

_A

,

_A

)



0 ,



Hasil modifikasi fungsi obyektifnya mirip dengan fungsi obyektif pada FCM. Perbedaannya terletak pada perhitungan dissimilarity obyek data, dengan modifikasi fungsi obyektif sebagai berikut:





_

_

              N i c k j j ij m i N i c i m i mUV u D u x v J 1 1 1 1 1 1 ,      

Batasan nilai derajat keanggotaan uαi sama dengan batasan pada algoritma H-FCM. Perhitungan nilai derajat keanggotaan yang baru adalah:

1 1 ) 1 ( 1 1 1 1 1 ) 1 ( 1 1 1                                                            



c m k j j ij k j j ij c m i i i v x v x D D u       

Selain itu terdapat batasan baru yang harus dipenuhi oleh vector centroid cluster, yaitu:

     















 

,

1 )

,

(

1 2 1 k j j k j j j

v

S

Dengan demikian hasil modifikasi perhitungan nilai centroid cluster menjadi sebagai berikut:

2 / 1 2 1 1 1    































 

k j N i ij m i N i i m i

x

u

x

u

v

_ _ _

Sama seperti algoritma FCM, algoritma H-FCM dilakukan secara iteratif sampai nilai minimum selisih fungsi obyektif telah tercapai atau hingga jumlah maksimum iterasi terpenuhi.



   _k j j k j j j v v v v v S 1 1 ) , min( ) , (     

(3)

IV. HIERARCHICAL

HYPER-SPHER-ICAL FUZZY C-MEANS

Algoritma H2-FCM adalah bentuk hirarki dari algoritma H-FCM. Algoritma ini menggunakan algoritma H-FCM dan menghasilkan cluster hirarki dari cluster partitioning yang dihasilkan algoritma FCM, Hirarki dibentuk dari cluster-cluster H-FCM berdasar hubungan parent-child antar centroid cluster vectors. Algoritma ini dikembangkan karena dipandang bentuk cluster hirarki lebih mudah dijelajahi dalam eksplorasi dokumen, dibandingkan bila dilakukan pada bentuk cluster partitioning. Algoritma H2-FCM

[Input:koleksi dokumen, c, m, tND, tPCS Output: hirarki cluster, dengan memakai parent-child dari centroid H-FCM]. 1.[Pembentukkan flat cluster H-FCM]

1.1. Proses clustering dengan algoritma H-FCM

1.2. K  jumlah cluster dengan dokumen < tND, dengan threshold

keanggotaan α-cut.

1.3. Ulangi langkah 1.1 untuk c=c-K

1.4. uiα  matriks keanggotaan hasil

clustering dengan H-FCM 1.5. vαj  centroid cluster hasil

clustering dengan H-FCM

2.[Perhitungan asymmetric similarity] 2.1. Simαβ  nilai asymmetric

similarity dari cluster α dan β dengan memakai persamaan (5-1) 3.[Inisialisasi VH dan VF]

3.1. VF  Ø

3.2. VH  centroid cluster hasil

clustering H-FCM

4.[Pembentukkan Hirarki Cluster]

WHILE VF ≠ Ø

4.1. Pemilihan vektor kandidat

F

V

v

_



, yang memenuhi





F F

S

v

S

v

V

v











_

:

(

_

,

_

)

max

(

_

,

_

)

,

_

,

_

4.2. Ulangi kembali step 4.1 dan set

S(vα,vβ)=0,bila terdapat lebih

dari sebuah kandidat.

4.3. Terdapat beberapa kondisi dalam insert vektor kandidat vα ke

dalam hirarki, yaitu:

4.3.1.VH=Øvα menjadi cluster

root pada hirarki 4.3.2.

V

_P



V

_H, P PCS

v

t

v

S

(

_

,

_

)



,



_



 vα

menjadi cluster child dari vγ

4.3.3.VP = Ø  vα menjadi root

cluster pada hirarki 4.4. Hapus α dari VF dan tambahkan

pada VH.

5.[Hasil Proses Clustering]

RETURN Hirarki cluster, Matriks ke-anggotaan U, dan centroid cluster V.

Algoritma H2-FCM menggunakan konsep asymmetry untuk mendefinisikan hubungan parent-child antar vektor-vektor cluster H-FCM dalam pembentukan cluster hirarki. Dalam konteks hubungan parent-child yang mencakup konsep inheritance (pewarisan), maka child (anak) akan mewarisi semua atribut parent dengan tambahan beberapa atribut baru. Pada clustering dokumen, sebuah vektor child harus mengandung semua term-term dari vector parentnya dan beberapa term-term tambahan. Cluster α akan lebih sesuai menjadi cluster child dari cluster β dibanding menjadi parentnya, jika

S

(

v

_

,

v

_

)



S

(

v

_

,

v

_

)

, dimana:

Algoritma H2-FCM terdiri dari tiga tahap utama. Ketiga tahap tersebut adalah sebagai berikut: 1. Penerapan algoritma H-FCM untuk memperoleh

sejumlah besar cluster dokumen.

2. Mengambil setiap pasangan cluster dari tahap 1 dan menghitung tingkat asymmetry similarity yang dimiliki oleh pasangan cluster tersebut. 3. Membentuk atau menghubungkan

centroid-centroid cluster secara hirarki dengan menggunakan pendekatan top-to-bottom (top-down) untuk memperoleh suatu hirarki cluster.

V. EKSPERIMEN

Untuk melakukan uji coba diperlukan dataset input dan serangkaian preprocessing pada dataset yang digunakan. Kemudian pada bagian akhir akan ditunjukkan perbandingan hasil dari kedua algoritma pada dataset yang berbeda.

A. DATASET

Terdapat sepasang dataset yang digunakan dalam eksperimen ini, yaitu: dataset Reuters-21578 yang berbahasa Inggris dan dataset Alkitab yang menggunakan bahasa Indonesia. Untuk dataset Reuter-21578, dokumen yang digunakan adalah dokumen-dokumen yang memiliki topik tunggal acq, earn, dan trade. Sedangkan untuk dataset Alkitab, dokumen yang digunakan adalah semua perikop yang terdapat dalam empat Injil Perjanjian Baru, yaitu: Matius, Markus, Lukas dan Yohanes.

B. PREPROCESSING

Sebelum melakukan proses clustering, dataset-dataset yang digunakan perlu melalui beberapa tahap preprocessing. Tahapan pre-processing yang umum dilakukan adalah: penghilangan tag-tag HTML, penghapusan non-alphanumeric, casefolding (pengabaian upper dan lower case), stemming, eliminasi stopword dan commonword, termasuk pembentukkan vector model dengan tf. Selain itu, terdapat beberapa tambahan proses yang perlu dilakukan: filtering untuk menghilangkan kata-kata yang dianggap sebagai noise dan normalisasi.

(4)

C. HASIL EKSPERIMEN

Eksperimen dilakukan pada sepasang dataset. Dua ukuran populer yang sering digunakan untuk mengevaluasi performa sistem IR (Information Retrieval) adalah precision (P) dan recall (R). Pada clustering dokumen, setiap output cluster akan dianggap sebagai hasil dari sebuah query, sedangkan setiap class yang adalah topik sebenarnya yang telah didefinisikan sebelumnya. Sehingga precision akan merepresentasikan fraksi elemen dokumen class yang termasuk ke dalam suatu cluster. Sedangkan recall merepresentasikan fraksi elemen dokumen cluster yang termasuk ke dalam cluster

  

N

n

P

_



   



N

n

R

_ 

dimana nγΓ merupakan jumlah dokumen dari kelas Γ yang di-assign ke cluster γ, Nγ merupakan jumlah total dokumen pada cluster γ dan NΓ merupakan jumlah total dokumen yang terdapat pada class Γ. Range nilai dari kedua ukuran tersebut berkisar antara 0 sampai 1 ([0,1]). Hasil ukuran validitas semakin baik, bila kedua ukuran tersebut menunjukkan nilai yang setinggi-tingginya. Nilai 1 dari kedua ukuran tersebut menunjukkan bahwa hasil clustering mutlak benar sesuai dengan yang diharapkan

Kedua pengukur performa ini dapat dikombinasikan menjadi sebuah pengukur tunggal, F-measure, seperti yang didefinisikan pada persamaan (2-18). Ukuran F-measure ini merupakan suatu ukuran eksternal yang paling sering digunakan untuk mengevaluasi akurasi solusi clustering yang dihasilkan dan merupakan metode valuasi standar baik untuk struktur flat maupun struktur hierarchical clustering, terutama untuk clustering dokumen.

    









     



R

P

R

P

F

₂ 2

)

1 (

dimana ξ merupakan sebuah parameter yang mengatur bobot relatif dari precision dan recall (ξ=1, digunakan untuk konstribuasi yang sama). Fξ

γГ merepresentasikan kualitas cluster γ dalam mendeskripsikan class Г. Dalam menghitung FξγГ pada suatu struktur hirarki, semua dokumen yang terdapat dalam subtree γ akan dianggap sebagai dokumen-dokumen yang terdapat dalam cluster γ. Dan untuk memperoleh ukuran performa keseluruhan, F-measure (Fξ) total dihitung dari jumlah maksimum nilai F-measure dari semua kelas yang ada.



    

_



K C

F

N

F



max

_

{



}

dimana K mendenotasikan kumpulan kelas atau topik asli, C mendenotasikan semua cluster pada semua level, dan N mendenotasikan jumlah total

dokumen yang terdapat dalam dataset. Dengan mengambil nilai maksimum dari FξγГ, dapat dianggap sebagai memilih cluster terbaik yang dapat mendeskripsikan class tertentu, dan Fξ merupakan jumlah berbobot F-measure dari cluster-cluster terbaik tersebut. Range nilai Fξ adalah [0,1]. Semakin besar nilai Fξ menunjukkan semakin tinggi akurasi hasil clustering yang diperoleh.

Uji coba dilakukan dengan melakukan proses clustering dokumen pada dataset Reuters dengan algoritma H-FCM pada c=cREF=3, m=1.1, threshold iterasi=0.01, dan kombinasi threshold keanggotaan α-cut dari 0.1 sampai 0.9. Nilai F-Measure untuk setiap threshold keanggotaan tersebut dapat dilihat pada gambar 1. Pada gambar tersebut, terlihat bahwa nilai F-Measure pada α-cut = 0.1 mencapai sekitar 0.7. Dan semakin tinggi sedikit demi sedikit untuk α-cut antara 0.1 sampai 0.4, dengan puncak tertinggi pada α-cut antara 0.3 dan 0.4.

Nilai F-Measure untuk kombinasi a-cut

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 a-cut F -M e a s u r e m=1.1 Gambar 1

F-Measure Hasil Kombinasi α-cut Namun selanjutnya, nilai F-Measure mengalami penurunan yang cukup besar untuk α-cut antara 0.5 sampai 0.9. Hal ini semakin mempertegas pengaruh threshold keanggotaan dalam akurasi hasil clustering.

Perbandingan Nilai F-Measure untuk setiap α-cut dan m

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 a-cut F -M e a s u re m=1.1 m=1.2 m=1.3 m=1.4 m=1.5 Gambar 2

(5)

Pada gambar 2 dilakukan proses uji coba hasil clustering untuk nilai m berkisar antara 1.1 sampai 1.5 dengan kenaikan 0.1 dan nilai α-cut yang berkisar antara 0.1 sampai 0.9. Seperti yang tampak pada gambar 2 tersebut, dengan semakin meningkatnya nilai m, maka cluster menjadi semakin fuzzy dan kabur, dimana nilai derajat keanggotaan terhadap masing-masing cluster semakin merata. Akibatnya dengan kecilnya nilai α-cut, overlap akan semakin banyak terjadi dan dengan semakin meningkatnya α-cut, maka dokumen-dokumen yang menjadi anggota cluster menjadi semakin sedikit.

Nilai F-Measure untuk c=5-25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 5 10 15 20 25 30 Jumlah Cluster (c) F -M e a s u r e F-Measure Gambar 3

F-Measure untuk Jumlah Cluster c=5-30 Dari hasil uji coba pada gambar 3, dapat diketahui bahwa untuk hirarki cluster dengan CR cluster root (jumlah cluster root yang sama), maka semakin meningkatnya jumlah cluster tidak mempengaruhi nilai F-Measure. Nilai F-Measure hanya dipengaruhi oleh pengelompokkan dokumen sejenis ke dalam cluster yang sama. Dan semakin besar jumlah cluster akan mengakibatkan struktur hirarki dalam cluster root semakin besar. Yang berarti juga semakin detail pengelompokan yang dilakukan, dimana dokumen-dokumen dibagi menjadi sejumlah besar cluster berukuran kecil.

Sedangkan untuk dataset Alkitab, hasil clustering tidak dapat diukur dengan menggunakan F-Measure secara langsung, maka tingkat akurasi hasil clustering dilakukan dengan melihat hasil perbandingan secara subjektif. Perikop-perikop dalam dataset Alkitab ini dapat dibagi menjadi dua jenis, yaitu:

1. Perikop Berpararel, yaitu: perikop yang memiliki sekelompok perikop lain yang membahas topik yang serupa.

2. Perikop Tak Berpararel, yaitu: perikop tunggal yang membahas suatu topik yang tidak dibahas oleh perikop-perikop lainnya.

Daftar pararel perikop dan perikop-perikop yang tak berpararel diambil dari sumber Alkitab Program 2.40 versi Indonesia dan buku “Sinopsis Ketiga Injil” karya A.A.Sitompul. Dimana terdapat 107

kelompok pararel perikop dan 158 perikop tak berpararel. Eksperimen dilakukan dengan jumlah cluster adalah 265 cluster, dimana setiap cluster diharapkan dapat mewakili tepat satu perikop tak berpararel dan tepat satu kelompok pararel perikop lengkap yang membahas topik yang sama.

Tabel 1

Perbandingan H-FCM dengan Centroid Awal = c Data Pertama dan H-FCM dengan Centroid

Awal dari Matriks Keanggotaan Random Kategori Cluster H-FCM (c data pertama) H-FCM (random) Cluster dengan tepat

satu grup pararel perikop lengkap

18 53

Cluster dengan tepat satu perikop tak berpararel

83 98

Cluster dengan satu grup pararel perikop tak lengkap

115 67

Cluster dengan satu grup pararel perikop lengkap, tetapi ada perikop-perikop lain yang bukan anggotanya

20 7

Cluster dengan lebih dari satu grup pararel perikop lengkap

1 1

Cluster lain 28 39

TOTAL 265 265

Tampak pada tabel 1 bahwa hasil clustering untuk H-FCM dengan inisialisasi centroid awal yang menggunakan c data pertama lebih buruk dibandingkan dengan hasil clustering untuk H-FCM dengan inisialisasi matriks keanggotaan random. Analisa ini diperoleh dari karena pada hasil clustering yang kedua jumlah cluster kategori pertama dan kedua (yang palig baik) jauh lebih banyak dibandingkan dengan jumlah cluster yang diperoleh pada hasil clustering pertama. Walaupun jumlah cluster kategori keenam (yang paling buruk) juga lebih banyak dibanding hasil clustering pertama. Namun bila dibandingkan secara subjektif dari hasil yang tampak pada tabel 1, tentu saja hasil clustering untuk H-FCM dengan inisialisasi matriks keanggotaan random yang lebih baik.

Tabel 2

Perbandingan H-FCM dan H2-FCM dengan Centroid Awal = c Data Pertama Kategori Cluster H-FCM (c data pertama) H2-FCM (c data pertama) Cluster dengan tepat 18 48

(6)

satu grup pararel perikop lengkap Cluster dengan tepat satu perikop tak berpararel

83 81

Cluster dengan satu grup pararel perikop tak lengkap

115 80

Cluster dengan satu atau lebih grup pararel perikop lengkap, tetapi ada perikop-perikop lain yang bukan anggotanya

20 30

Cluster dengan lebih dari satu grup pararel perikop lengkap

1 1

Cluster lain 28 25

TOTAL 265 265

Untuk algoritma H2-FCM, uji coba akan dilakukan pada ujicoba H-FCM pertama (dengan centroid awal adalah c data pertama). Uji coba ini bertujuan untuk mencoba kembali mengelompokkan perikop-perikop pararel yang terpisah dalam cluster berbeda. Perbandingan hasil clustering antara H-FCM dan H2-FCM tersebut dapat dilihat pada tabel 2. Dari hasil perbandingan yang tampak pada tabel 2, tampak bahwa algoritma H2-FCM mampu mengelompokkan perikop-perikop tersebut dan menghubungkan cluster-cluster perikop yang memiliki topik yang berkaitan (berpararel), dan menghasilkan cluster yang lebih baik.

Analisa ini diperoleh dengan memperhatikan jumlah cluster yang dihasilkan kedua proses clustering untuk masing-masing kategori. Jumlah cluster kategori pertama pada H2-FCM jauh lebih banyak dibandingkan jumlah cluster yang dihasilkan oleh H-FCM. Jumlah cluster H2-FCM untuk setiap kategori sebagian besar mengalami perubahan dibanding jumlah cluster H-FCM. Hal ini disebabkan karena cluster tersebut telah menjadi cluster parent dari cluster-cluster lainnya, sehingga jumlah perikop yang dimilikinya adanya jumlah perikop unik dari seluruh perikop yang dimilikinya dan seluruh cluster anaknya. Dimana dari seluruh perikop yang ada tersebut akan memungkinkan cluster parent tersebut berubah kedudukannya dari kategori yang satu ke kategori lainnya.

Pemberian label pada cluster hasil clustering dapat dilakukan dengan menggunakan vector kata dari centroid tiap cluster tersebut.

VI. KESIMPULAN

Berdasarkan hasil eksperimen dan analisa yang telah dilakukan, dapat diambil beberapa kesimpulan mengenai algoritma H-FCM dan H2-FCM, yaitu sebagai berikut:

(1) Penggunaan fuzzy memiliki peranan penting dalam mempertimbangkan suatu obyek tergolong ke dalam cluster. Terutama dalam proses clustering dokumen, dimana dokumen terhubung ke dalam cluster-cluster yang bersangkutan.

(2) Algoritma H-FCM menghasilkan cluster-cluster yang cukup akurat, terbukti dari hasil uji coba yang dilakukan. Disamping itu pula, algoritma H-FCM mampu bersifat fleksibel. User dapat menentukan threshold minimum derajat keanggotaan obyek yang ingin dilihat, dan mampu menentukan seberapa fuzzy atau hard hasil clustering yang ingin dicapai.

(3) Hasil clustering dengan H2-FCM dalam bentuk hirarki lebih mudah di-browse dibanding dengan hasil H-FCM yang berbentuk partitioning.

(4) Hasil clustering H2-FCM dapat bersifat fleksibel. Dimana user dapat menentukan tingkat kemiripan cluster parent dan cluster child (akan mempengaruhi overlap cluster). User juga dapat menentukkan pula tingkat penyebaran struktur hirarki yang dinginkan.

(5) Pemberian label untuk cluster dilakukan secara otomatis dengan menggunakan vector data yang dimiliki masing-masing centroid cluster.

(6) Nilai F-Measure tidak bergantung pada banyaknya cluster yang dihasilkan, tetapi pada penyebaran dokumen dalam cluster-cluster. Semakin banyak dokumen-dokumen dengan class yang sama terdapat dalam cluster yang sama, dan semakin sedikit dokumen dengan class yang berbeda dalam cluster yang sama akan meningkatkan nilai F-Measure.

(7) F-measure yang tinggi tidak berarti struktur tree yang dihasilkan lebih baik. Tidak ada hubungan antara F-measure dengan struktur tree. F-measure hanya bertujuan untuk mengukur akurasi clustering, bukan mengukur bentuk struktur tree.

VII. DAFTAR PUSTAKA

[1] Albayrak, Songul, Fatih Amasyah, Fuzzy C-Means Clustering on Medical Diagnostic Systems, Istambul-Turkey: Yildiz Technical University.

[2] Fung, Benjamin Chin Ming, Hierarchical Document Clustering Using Frequentc Itemsets, Simon Fraser University, 2002.

[3] Kaya, Metin., A New Image Clustering and Compression Method Based On Fuzzy Hopfield Neural Network, IJCI Proceedings of International Conference on Signal Processing, ISSN 1304-2386, Volume:1, Number:2, 2003. [4] Rondrigues, M. E. S. Mendes dan L. Sacks,

Evaluating Fuzzy Clustering for Relevance-based Information Access, Torrington Place, London, WC1E 7JE, United Kingdom: Department of Electronic and Electrical Engineering, University College London.

(7)

[5] _______, A Scalable Hierarchical Fuzzy Clustering Algorithm for Text Mining, Torrington Place, London, WC1E 7JE, United Kingdom: Department of Electronic and Electrical Engineering, University College London.

[6] Tala, Fadillah Z., A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Netherland: Universiteit van Amsterdam, 2003.