ALGORITMA CLUSTERING BASED ON FREQUENT WORD SEQUENCES (CFWS)
Corry Monesty A¹, Yanuar Firdaus A.w.², Warih Maharani³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik menggunakan
representasi single-word item, merepresentasikan dokumen teks sebagai bag of words dimana suatu dokumen dipandang sebagai sekumpulan kata-kata. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain sehingga tidak tepatnya dalam pelabelan hasil cluster. Permasalahan-permasalahan diatas bisa ditangani dengan menggunakan Clustering Based On Frequent Word Sequences (CFWS). Data berdimensi tinggi dapat diatasi dengan mereduksi term-term yang tidak frequent. Pelabelan cluster dilakukan dengan cara menelusuri word sequences di tiap dokumen.
Hasil klasterisasi dengan algoritma ini divisualisasikan secara hirarki dalam bentuk tree. Berdasarkan pengujian, klaster yang dihasilkan oleh algoritma CFWS ini memiliki kualitas deskripsi klaster mewakili isi berita.
Kata Kunci : clustering, frequent word sequences, CFWS, F-Measure, purity.
Abstract
Currently being developed clustering techniques, such as techniques using single-word
representation of items, representing a text document as a "bag of words" in which a document is seen as a set of words. In this representation there is no order between words or sentences are considered because each word is considered stand alone without any connection to one another so not exactly in the cluster labeling results.
The above problems can be handled using Clustering Based On Frequent Word Sequences (CFWS). High dimensional data can be addressed by reducing the terms that are not frequent.Labeling of clusters was done by tracing "word sequences" in each document.
The result of this clustering algorithm is visualized in the form of a hierarchical tree. According to the experiments, clusters generated by the algorithm CFWS has represented cluster
description quality news content.
1.
Pendahuluan
1.1
Latar belakang
Pada zaman sekarang ini, volume jumlah dokumen teks melalui media digital makin berkembang pesat, pengelompokan dokumen teks secara otomatis menjadi suatu bidang penelitian yang sangat diminati. Dalam keilmuan ini terdapat dua
pendekatan yang berkembang yaitu supervised dan unsupervised classification.
Pada supervised classification atau sering disebut kategorisasi, dimana dokumen
teks sudah terdefinisi sebelumnya. Sedangkan pada unsupervised classification
atau clustering, dokumen akan dikelompokan menjadi clusters dimana dokumen
teks yang memiliki banyak persamaan akan berada dalam satu cluster dan
dokumen yang memiliki banyak perbedaan akan berada dalam cluster yang
berbeda. Pengelompokan dokumen teks dengan metode clustering ini biasa
disebut dengan document clustering.
Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik
menggunakan representasi vektor disebut vector space model sebagian besar dari
metode ini merepresentasikan dokumen teks sebagai “bag of words” dimana suatu dokumen dipandang sebagai sekumpulan kata-kata [5]. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain. Masalah utama
clustering menggunakan vector space model adalah tidak tepatnya dalam
pelabelan hasil cluster. Representasi dengan bag of words ini disebut juga dengan representasi dengan single-word terms [4].
Selain representasi dengan single-word terms, ada representasi lain yang
disebut multi-word terms [9]. Dalam representasi multi-word terms ini setiap
dokumen teks akan dipandang sebagai kumpulan frase atau rangkaian kata yang
memperhitungkan urutan kemunculan kata atau biasa disebut dengan sequence of
words [10]. Representasi ini dianggap dapat menangkap makna semantik dari
kata-kata dalam dokumen teks yang lebih baik [4]. Dengan memiliki arti semantik yang tetap terjaga maka informasi yang terkandung dalam dokumen akan lebih mudah didapatkan [13], informasi yang didapatkan tersebut akan dibuat sebagai
label pada hasil cluster. Salah atu alternatif metode clustering yang dapat
digunakan dengan memanfaatkan multi-word terms berupa sequences of words
adalah sequence of words adalah Clustering Based On Frequent Word Sequences
(CFWS). Fitur utama pada algoritma ini terletak pada representasi dokumennya yang menggunakan kata-kata yang sering muncul secara berurutan pada setiap dokumen atau frequent word sequences.
1.2
Perumusan masalah
Rumusan masalah dalam Tugas Akhir ini adalah :
1. Bagaimana mengelompokan dokumen berita menggunakan algoritma
2. Bagaimana cara memastikan bahwa nama cluster yang dihasilkan
mewakili isi berita, sehingga deskripsi cluster menjadi lebih mudah
dimengerti bagi enduser.
Batasan masalah pada Tugas Akhir ini adalah :
1. Tidak membahas masalah preprocessing data. Dokumen yang akan di
clusterisasi sudah mengalami preprocessing.
2. Data dokumen berita berbahasa indonesia yang digunakan adalah
dokumen berita offline.
3. Dataset yang digunakan adalah data yang telah berlabel.
4. Mengubah dataset menjadi frequent 2-word sequences sebelum diubah ke
frequent word sequences.
1.3
Tujuan
Tujuan Tugas Akhir ini adalah :
1. Membangun perangkat lunak yang dapat mengelompokan berita berbahasa
Indonesia dengan menerapkan algoritma Clustering based on frequent
word sequences (CFWS).
2. Melakukan analisis performansi sistem untuk mengetahui kualitas
pengelompokan dengan menggunakan F-measure, purity, dan waktu.
1.4
Metodologi penyelesaian masalah
Adapun metodologi yang digunakan dalam pembuatan Tugas Akhir ini adalah :
1. Studi Literatur
Tahap ini mempelajari literatur-literatur baik berupa jurnal, text book dan
artikel ilmiah maupun website yang berhubungan dengan text minning,
document clustering, algoritma CFWS, generalized suffix tree, frequent word sequences, association rules, k-mismatch. Serta pengumpulan artikel berita berbahasa Indonesia yang akan digunakan sebagai data pada Tugas Akhir ini.
2. Analisis dan Perancangan Perangkat Lunak
Pada tahap ini dilakukan analisis dan perancangan perangkat lunak dengan
metode Unified Modeling Language (UML)
3. Implementasi dan Pengujian Perangkat Lunak
Mengimplementasikan perancangan ke dalam pemograman komputer dengan menggunakan teknik pemograman berorientasi objek. Pengujian
perangkat lunak dengan parameter minimum support, nilai k, dan nilai
thershold untuk selanjutnya hasil cluster tersebut dianalisis dengan parameter F-measure.
4. Analisis Hasil Pengujian
Melakukan analisis terhadap hasil dari klusterisasi dokumen dengan
menganalisa hasil F-Measure, purity, dan waktu. Dari hasil tahap ini,
5.
Kesimpulan dan Saran
5.1
Kesimpulan
1. Hasil clustering sangat bergantung pada ketiga nilai parameter, yaitu
minimum support, nilai k dan nilai threshold sehingga perlu dilakukan
pemilihan ketiga nilai parameter tersebut secara tepat untuk mendapatkan hasil optimal.
2. Acuan pemilihan parameter yang tepat adalah Semakin kecil nilai
minimum support mengakibatkan jumlah cluster banyak dan overlap, serta waktu eksekusi yang lama. Semakin besar nilai K mengakibatkan semua dokumen akan cendrung tergabung ke dalam satu cluster saja, dan Nilai threshold mempengaruhi hasil cluster akhir yakni penggabungan cluster. Semakin besar nilai threshod maka tidak ada cluster yang di gabung.
3. Penamaan cluster label algoritma CFWS diambil dari kata terurut pada isi
dokumen sehingga kemungkinan besar label cluster mewakili isi berita.
4. Algoritma CFWS memungkinkan terjadinya overlapping pada hasil
cluster-nya sehingga satu dokumen terdapat lebih dari satu cluster. Overlapping tersebut membuat nilai f-measure menurun, nilai purity naik dan waktu eksekusi yang lama.
5. F-measure dan purity masih belum bisa menilai keseluruhan evaluasi
cluster algoritma CFWS ini.
5.2
Saran
1. Diperlukan teknik dalam mengolah data yang besar dalam menemukan
frequent 2-word sequences.
2. Diperlukan penelitian lebih lanjut dalam penentuan minimum support yang
Referensi
[1] Adiwijaya, Igg, Ph.D. 2006. Text Mining dan Knowledge Discovery.
Kolokium Bersama Komunitas Data Mining Indonesia & Soft-Computing Indonesia.
[2] Ahonen-Myka, Helena. 2005. Mining All Maximal Frequent Word
Sequences in a Set of Sentences. ACM
[3] Beil, Florian dkk. 2002. Frequent Term-based Text Clustering.
www.cs.sfu.ca/~ester/papers/KDD02.Clustering.final.pdf [20 Mei 2008]. Jerman: Muenchen University.
[4] Duocet, Antonie. 2005. Advanced Document Description, a Sequential
Approach. Academic Dissertation University of Helsinki.
[5] Een-Zohar, Yair.2002. Introduction to Text Mining. Automated Learning
Group, University of Illinois.
[6] Fung, Benjamin C.M, Ke Wang dan Martin Ester. 2002. Hierarchical
Document Clustering. www.cs.sfu.ca/~ester/papers/Encyclopedia.pdf
[5 Maret 2008]. Canada: Simon Fraser University.
[7] Gusfield, Dan. 1997. Algorithms on Strings, Trees and Sequences;
Computer Science and Computational Biology. Cambridge, UK: Cambridge University Press.
[8] Hotho, Andreas dan Gerd Stumme. 2003. Conceptual Clustering of Text
Clusters. http://www.aifb.unikarlsruhe.de/WBS/aho/pub/tc_fca_2002_sub
mit.pdf [24 April 2008]. Jerman : Institute of Applied Informatics an
and Formal Description Methods AIFB, University of Karlsruhe.
[9] Huang, Shen, Gui-Rong Xue, Ben-Yu Zhang, Zheng Chen, Yong Yu,
Wei-Ying Ma.2005. Multi-Type Features based Web Document Clustering. Shanghai Jiao Tong University.
[10] Jaillet,S., A.Laurent, M.Teisseire. 2004. Sequential Patterns for Text
Categorization. In LIRMM-CNRS-Universite Montpellier.
[11] Li, Yanjun, Soon M. Chung, John D. Holt. 2005. Text Document
Clustering Based on Frequent Word Meaning Sequences. Data &
Knowledge Engineering 64 (2008) 381-404.
[12] Wibisono, Yudi dan Masayu Leyla Khodra. 2005. Klastering Berita
Berbahasa Indonesia.
http://fpmipa.upi.edu/staff/yudi/KNSI_Clustering_yudi_masayu.pdf
[1 Mei 2008]. Bandung : Universitas Pendidikan Indonesia dan Institut
Teknologi Bandung.
[13] Zamir, Oren, Oren Etzioni. 1998. Web Document Clustering: A Feasibility
Demonstration. University of Washington.
[14] http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155870100. Diakses pada tanggal 27 Desember 2008.
[15] http://ilmukomputer.org/2008/11/25/pengantar-data-mining/. Diakses
pada tanggal 8 Januari 2009.