113078063 resume

(1)

ALGORITMA CLUSTERING BASED ON FREQUENT WORD SEQUENCES (CFWS)

Corry Monesty A¹, Yanuar Firdaus A.w.², Warih Maharani³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik menggunakan

representasi single-word item, merepresentasikan dokumen teks sebagai bag of words dimana suatu dokumen dipandang sebagai sekumpulan kata-kata. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain sehingga tidak tepatnya dalam pelabelan hasil cluster. Permasalahan-permasalahan diatas bisa ditangani dengan menggunakan Clustering Based On Frequent Word Sequences (CFWS). Data berdimensi tinggi dapat diatasi dengan mereduksi term-term yang tidak frequent. Pelabelan cluster dilakukan dengan cara menelusuri word sequences di tiap dokumen.

Hasil klasterisasi dengan algoritma ini divisualisasikan secara hirarki dalam bentuk tree. Berdasarkan pengujian, klaster yang dihasilkan oleh algoritma CFWS ini memiliki kualitas deskripsi klaster mewakili isi berita.

Kata Kunci : clustering, frequent word sequences, CFWS, F-Measure, purity.

Abstract

Currently being developed clustering techniques, such as techniques using single-word

representation of items, representing a text document as a "bag of words" in which a document is seen as a set of words. In this representation there is no order between words or sentences are considered because each word is considered stand alone without any connection to one another so not exactly in the cluster labeling results.

The above problems can be handled using Clustering Based On Frequent Word Sequences (CFWS). High dimensional data can be addressed by reducing the terms that are not frequent.Labeling of clusters was done by tracing "word sequences" in each document.

The result of this clustering algorithm is visualized in the form of a hierarchical tree. According to the experiments, clusters generated by the algorithm CFWS has represented cluster

description quality news content.

(2)

1. Pendahuluan

1.1 Latar belakang

Pada zaman sekarang ini, volume jumlah dokumen teks melalui media digital makin berkembang pesat, pengelompokan dokumen teks secara otomatis menjadi suatu bidang penelitian yang sangat diminati. Dalam keilmuan ini terdapat dua

pendekatan yang berkembang yaitu supervised dan unsupervised classification.

Pada supervised classification atau sering disebut kategorisasi, dimana dokumen

teks sudah terdefinisi sebelumnya. Sedangkan pada unsupervised classification

atau clustering, dokumen akan dikelompokan menjadi clusters dimana dokumen

teks yang memiliki banyak persamaan akan berada dalam satu cluster dan

dokumen yang memiliki banyak perbedaan akan berada dalam cluster yang

berbeda. Pengelompokan dokumen teks dengan metode clustering ini biasa

disebut dengan document clustering.

Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik

menggunakan representasi vektor disebut vector space model sebagian besar dari

metode ini merepresentasikan dokumen teks sebagai “bag of words” dimana suatu dokumen dipandang sebagai sekumpulan kata-kata [5]. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain. Masalah utama

clustering menggunakan vector space model adalah tidak tepatnya dalam

pelabelan hasil cluster. Representasi dengan bag of words ini disebut juga dengan representasi dengan single-word terms [4].

Selain representasi dengan single-word terms, ada representasi lain yang

disebut multi-word terms [9]. Dalam representasi multi-word terms ini setiap

dokumen teks akan dipandang sebagai kumpulan frase atau rangkaian kata yang

memperhitungkan urutan kemunculan kata atau biasa disebut dengan sequence of

words [10]. Representasi ini dianggap dapat menangkap makna semantik dari

kata-kata dalam dokumen teks yang lebih baik [4]. Dengan memiliki arti semantik yang tetap terjaga maka informasi yang terkandung dalam dokumen akan lebih mudah didapatkan [13], informasi yang didapatkan tersebut akan dibuat sebagai

label pada hasil cluster. Salah atu alternatif metode clustering yang dapat

digunakan dengan memanfaatkan multi-word terms berupa sequences of words

adalah sequence of words adalah Clustering Based On Frequent Word Sequences

(CFWS). Fitur utama pada algoritma ini terletak pada representasi dokumennya yang menggunakan kata-kata yang sering muncul secara berurutan pada setiap dokumen atau frequent word sequences.

1.2 Perumusan masalah

Rumusan masalah dalam Tugas Akhir ini adalah :

1. Bagaimana mengelompokan dokumen berita menggunakan algoritma

(3)

2. Bagaimana cara memastikan bahwa nama cluster yang dihasilkan

mewakili isi berita, sehingga deskripsi cluster menjadi lebih mudah

dimengerti bagi enduser.

Batasan masalah pada Tugas Akhir ini adalah :

1. Tidak membahas masalah preprocessing data. Dokumen yang akan di

clusterisasi sudah mengalami preprocessing.

2. Data dokumen berita berbahasa indonesia yang digunakan adalah

dokumen berita offline.

3. Dataset yang digunakan adalah data yang telah berlabel.

4. Mengubah dataset menjadi frequent 2-word sequences sebelum diubah ke

frequent word sequences.

1.3 Tujuan

Tujuan Tugas Akhir ini adalah :

1. Membangun perangkat lunak yang dapat mengelompokan berita berbahasa

Indonesia dengan menerapkan algoritma Clustering based on frequent

word sequences (CFWS).

2. Melakukan analisis performansi sistem untuk mengetahui kualitas

pengelompokan dengan menggunakan F-measure, purity, dan waktu.

1.4 Metodologi penyelesaian masalah

Adapun metodologi yang digunakan dalam pembuatan Tugas Akhir ini adalah :

1. Studi Literatur

Tahap ini mempelajari literatur-literatur baik berupa jurnal, text book dan

artikel ilmiah maupun website yang berhubungan dengan text minning,

document clustering, algoritma CFWS, generalized suffix tree, frequent word sequences, association rules, k-mismatch. Serta pengumpulan artikel berita berbahasa Indonesia yang akan digunakan sebagai data pada Tugas Akhir ini.

2. Analisis dan Perancangan Perangkat Lunak

Pada tahap ini dilakukan analisis dan perancangan perangkat lunak dengan

metode Unified Modeling Language (UML)

3. Implementasi dan Pengujian Perangkat Lunak

Mengimplementasikan perancangan ke dalam pemograman komputer dengan menggunakan teknik pemograman berorientasi objek. Pengujian

perangkat lunak dengan parameter minimum support, nilai k, dan nilai

thershold untuk selanjutnya hasil cluster tersebut dianalisis dengan parameter F-measure.

4. Analisis Hasil Pengujian

Melakukan analisis terhadap hasil dari klusterisasi dokumen dengan

menganalisa hasil F-Measure, purity, dan waktu. Dari hasil tahap ini,

(4)

5. Kesimpulan dan Saran

5.1 Kesimpulan

1. Hasil clustering sangat bergantung pada ketiga nilai parameter, yaitu

minimum support, nilai k dan nilai threshold sehingga perlu dilakukan

pemilihan ketiga nilai parameter tersebut secara tepat untuk mendapatkan hasil optimal.

2. Acuan pemilihan parameter yang tepat adalah Semakin kecil nilai

minimum support mengakibatkan jumlah cluster banyak dan overlap, serta waktu eksekusi yang lama. Semakin besar nilai K mengakibatkan semua dokumen akan cendrung tergabung ke dalam satu cluster saja, dan Nilai threshold mempengaruhi hasil cluster akhir yakni penggabungan cluster. Semakin besar nilai threshod maka tidak ada cluster yang di gabung.

3. Penamaan cluster label algoritma CFWS diambil dari kata terurut pada isi

dokumen sehingga kemungkinan besar label cluster mewakili isi berita.

4. Algoritma CFWS memungkinkan terjadinya overlapping pada hasil

cluster-nya sehingga satu dokumen terdapat lebih dari satu cluster. Overlapping tersebut membuat nilai f-measure menurun, nilai purity naik dan waktu eksekusi yang lama.

5. F-measure dan purity masih belum bisa menilai keseluruhan evaluasi

cluster algoritma CFWS ini.

5.2 Saran

1. Diperlukan teknik dalam mengolah data yang besar dalam menemukan

frequent 2-word sequences.

2. Diperlukan penelitian lebih lanjut dalam penentuan minimum support yang

(5)

Referensi

[1] Adiwijaya, Igg, Ph.D. 2006. Text Mining dan Knowledge Discovery.

Kolokium Bersama Komunitas Data Mining Indonesia & Soft-Computing Indonesia.

[2] Ahonen-Myka, Helena. 2005. Mining All Maximal Frequent Word

Sequences in a Set of Sentences. ACM

[3] Beil, Florian dkk. 2002. Frequent Term-based Text Clustering.

www.cs.sfu.ca/~ester/papers/KDD02.Clustering.final.pdf [20 Mei 2008]. Jerman: Muenchen University.

[4] Duocet, Antonie. 2005. Advanced Document Description, a Sequential

Approach. Academic Dissertation University of Helsinki.

[5] Een-Zohar, Yair.2002. Introduction to Text Mining. Automated Learning

Group, University of Illinois.

[6] Fung, Benjamin C.M, Ke Wang dan Martin Ester. 2002. Hierarchical

Document Clustering. www.cs.sfu.ca/~ester/papers/Encyclopedia.pdf

[5 Maret 2008]. Canada: Simon Fraser University.

[7] Gusfield, Dan. 1997. Algorithms on Strings, Trees and Sequences;

Computer Science and Computational Biology. Cambridge, UK: Cambridge University Press.

[8] Hotho, Andreas dan Gerd Stumme. 2003. Conceptual Clustering of Text

Clusters. http://www.aifb.unikarlsruhe.de/WBS/aho/pub/tc_fca_2002_sub

mit.pdf [24 April 2008]. Jerman : Institute of Applied Informatics an

and Formal Description Methods AIFB, University of Karlsruhe.

[9] Huang, Shen, Gui-Rong Xue, Ben-Yu Zhang, Zheng Chen, Yong Yu,

Wei-Ying Ma.2005. Multi-Type Features based Web Document Clustering. Shanghai Jiao Tong University.

[10] Jaillet,S., A.Laurent, M.Teisseire. 2004. Sequential Patterns for Text

Categorization. In LIRMM-CNRS-Universite Montpellier.

[11] Li, Yanjun, Soon M. Chung, John D. Holt. 2005. Text Document

Clustering Based on Frequent Word Meaning Sequences. Data &

Knowledge Engineering 64 (2008) 381-404.

[12] Wibisono, Yudi dan Masayu Leyla Khodra. 2005. Klastering Berita

Berbahasa Indonesia.

http://fpmipa.upi.edu/staff/yudi/KNSI_Clustering_yudi_masayu.pdf

[1 Mei 2008]. Bandung : Universitas Pendidikan Indonesia dan Institut

Teknologi Bandung.

[13] Zamir, Oren, Oren Etzioni. 1998. Web Document Clustering: A Feasibility

Demonstration. University of Washington.

[14] http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155870100. Diakses pada tanggal 27 Desember 2008.

[15] http://ilmukomputer.org/2008/11/25/pengantar-data-mining/. Diakses

pada tanggal 8 Januari 2009.