KLASTERISASI DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN FREQUENT AND INTERESTING PATTERN-BASED HIERARCHICAL
CLUSTERING (INSTANCE DRIVEN HIERARCHICAL CLUSTERING)
Yogy Arif Pratama¹, Adiwijawa², Angelina Prima Kurniati³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Menumpuknya data khususnya dokumen berita berbahasa Indonesia merupakan salah satu hal yang menyebabkan makin terkenalnya teknik klastering. Dengan teknik ini, dokumen berita berbahasa Indonesia tersebut bisa dengan mudah dikelompokkan walaupun class label belum diketahui. Ada banyak metode klasterisasi yang bisa digunakan, akan tetapi umumnya metode- metode tersebut belum bisa menangani data berdimensi tinggi, deskripsi klaster yang sulit dimengerti serta masih diizinkannya kondisi overlap (kondisi dimana satu dokumen bisa masuk ke dalam beberapa klaster). Permasalahan lain dari proses klasterisasi adalah penentuan kata kunci yang mewakili dokumen. Salah satu cara yang dilakukan dalam proses klasterisasi adalah dengan mencari kata yang menjadi inti dari dokumen. Sebagian besar algoritma klasterisasi menggunakan cara selected globally significant patterns, yaitu menemukan kombinasi kata yang mewakili sebagian besar dokumen yang diklasterisasi. Terkadang dalam proses ini muncul suatu permasalahan dimana ada n buah dokumen yang tidak mengandung kata-kata tersebut. Hasil klasterisasi bisa menjadi terlalu banyak karena n buah dokumen tersebut membuat klaster sendiri atau bahkan bisa menjadi terlalu sedikit karena pattern yang dianggap mewakili seluruh dokumen, tidak terdapat dalam n buah dokumen secara lokal, sehingga dokumen tersebut bisa masuk ke dalam klaster yang tidak tepat. Akibatnya, hasil klasterisasi menjadi tidak bagus.
Permasalahan-permasalahan di atas bisa ditangani dengan menggunakan Instance Driven Hierarchical Clustering (IDHC). Data berdimensi tinggi dan deskripsi klaster yang sulit
dimengerti dapat diatasi dengan mereduksi term-term yang tidak frequent. Sedangkan kondisi overlap dapat diatasi melalui duplicate pruning dan refinement cluster. Serta dengan adanya cara selected locally significant cluster , algoritma ini menjadi lebih bagus dalam memilih term yang bisa mewakili seluruh dokumen dalam suatu dataset. Sehingga, dalam kondisi yang buruk, performansi algoritma IDHC bisa lebih unggul dibanding algoritma FIHC dan HFTC. Dan berdasarkan pengujian, nilai F-Measure yang didapatkan jauh lebih stabil.
Kata Kunci : klasterisasi, overlap, IDHC, F-Measure
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
Abstract
Accumulated data, especially documents in Indonesian language article is one thing that causes even more famous clustering techniques. With this technique, the document in article of
Indonesian language can be easily categorized, although the class label is unknown. There are many clustering methods that can be used, but generally these methods can not handle high- dimensional data, descriptions of clusters are difficult to understand and still allowed overlap condition (condition in which document can be categorized into several clusters). Another
problem is the determination keywords representing the document. One way is done in clustering process is to find words that became the core of the document. Most of the clustering algorithms selected use patterns globally significant, that its purpose is to find combinations of words that represent the majority of dataset documents. Sometimes in this process happened a problem where there are n pieces of documents that do not contain those words. Clustering results can be too much for n pieces the document to make their own cluster or could even be too small because the pattern that is considered to represent the whole document, not included in n pieces of documents locally, so the document can be entered into the cluster that is not appropriate.
Consequently, the results of clustering are not good. The problems above can be handled by using Instance Driven Hierarchical Clustering (IDHC).
High-dimensional data and cluster descriptions are difficult to understand, can be overcome by reducing terms that are not frequent. While overlap condition happen, it can be overcome
through pruning and refinement duplicate cluster. And the existence of selection ways of clusters that significant locally, this algorithm becomes better in selecting terms that can represent all the documents in a dataset. Thus, in poor condition, the algorithm performance make IDHC more better than FIHC and HFTC algorithm. And based on the test, the F-Measure values obtained much more stable.
Keywords : clustering, overlap, IDHC, F-Measure
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
Pendahuluan
1.1 Latar belakang
Banyak sekali informasi yang didapatkan dengan berkembangnya dunia internet.
Seseorang bisa dengan cepat mencari informasi yang diinginkan melalui internet.
Informasi yang dicari sebagian besar sumber utamanya didapatkan dari dokumen atau artikel. Dengan cabang ilmu yang ada pada data mining, yaitu text mining, informasi tersebut diolah untuk mendapatkan kata-kata yang mewakili isi dari dokumen sehingga dapat dilihat keterhubungan antar dokumen tersebut. Dengan data mining, dokumen tersebut bisa dikelompokkan. Salah satu teknik pengelompokan dokumen pada data mining adalah clustering. Banyak sekali metode yang dikembangkan untuk menerapkan teknik klasterisasi ini.
Salah satu permasalahan dalam teknik klasterisasi adalah mendapatkan jumlah klaster yang telah terbentuk dan tepat. Dalam algoritma flat clustering (seperti k-means clustering), algoritma meminta user untuk menentukan berapa jumlah klaster yang ingin dibentuk (nilai k). Akibatnya, jika jumlah klaster (nilai k) yang ditentukan tidak tepat, maka proses klasterisasi menjadi tidak baik. Permasalahan lain dari proses klasterisasi adalah penentuan kata kunci yang mewakili dokumen. Salah satu cara yang dilakukan dalam proses klasterisasi adalah dengan mencari kata yang menjadi inti dari dokumen.
Sebagian besar algoritma klasterisasi menggunakan cara selected globally significant patterns, yaitu menemukan kombinasi kata yang mewakili sebagian besar dokumen yang diklasterisasi. Terkadang dalam proses ini muncul suatu permasalahan dimana ada n buah dokumen yang tidak mengandung kata-kata tersebut. Hasil klasterisasi bisa menjadi terlalu banyak karena n buah dokumen tersebut membuat klaster sendiri atau bahkan bisa menjadi terlalu sedikit karena pattern yang dianggap mewakili seluruh dokumen, tidak terdapat dalam n buah dokumen secara lokal, sehingga dokumen tersebut bisa masuk ke dalam klaster yang tidak tepat. Akibatnya, hasil klasterisasi menjadi tidak bagus.
Tugas akhir yang dibuat ini berhubungan dengan penelitian terhadap metode klasterisasi yang mampu menangani masalah tersebut dalam klasterisasi dokumen berita berbahasa Indonesia. Metode klasterisasi ini juga menghasilkan klaster dalam bentuk hierarchical tree dengan deskripsi klaster yang mudah dimengerti karena pengurangan dimensi pattern (kata atau kombinasi kata yang tertera dalam dokumen). Metode ini dinamakan Instance Driven Hierarchical Clustering (IDHC). Metode ini mencari pattern yang mewakili dokumen secara lokal (dengan frequent itemset) dan secara global (dari keseluruhan dokumen yang diklasterkan,dengan interesting measures).
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
1.2 Perumusan masalah
Tugas Akhir ini mempunyai perumusan masalah sebagai berikut :
1. Bagaimana cara mengelompokkan dokumen berita dengan menggunakan metode klasterisasi IDHC.
2. Bagaimana cara memproses kata-kata pada dokumen menjadi size 2-patterns itemset (adalah kombinasi 2 kata yang diambil dari artikel tersebut).
3. Bagaimana cara menentukan most significant value sebagai nilai minimum pattern yang dianggap mewakili dokumen secara global dan lokal.
4. Bagaimana cara menentukan size 2-patterns itemset mewakili dokumen secara global dan lokal.
5. Bagaimana cara mengurangi klaster yang terduplikasi.
Batasan masalah pada Tugas Akhir ini adalah :
1. Tidak membahas masalah preprocessing data.
2. Dataset yang digunakan adalah data yang telah berlabel.
3. Tidak menangani kata yang berupa frase.
4. Dokumen berita yang digunakan adalah dokumen berita berbahasa Indonesia offline.
1.3 Tujuan
Tujuan Tugas Akhir ini adalah :
1. Menganalisis aplikasi yang dapat mengklasterisasi dokumen berita berbahasa Indonesia dengan menggunakan metode Instance Driven Hierarchical Clustering, sedemikian sehingga hasil klaster bisa mewakili suatu dokumen secara lokal dan global serta tidak overlap.
2. Melakukan analisis hasil klasterisasi dengan parameter F-Measure. Berdasarkan F-Measure bisa diketahui kualitas hierarchical tree dengan mengevaluasi beberapa kualitas node atau klaster.
1.4 Metodologi penyelesaian masalah
Adapun metodologi yang digunakan dalam pembuatan Tugas Akhir ini adalah:
1. Studi Literatur
Mempelajari landasan teori dari referensi-referensi yang ada tentang preprocessing data, transformation data, klasterisasi data, serta pengujian hasil klasterisasi dengan menggunakan parameter F-measure.
2. Pengumpulan Data
Mengumpulkan dokumen berita berbahasa Indonesia untuk proses implementasi dan pengujian pengklasteran dengan metode IDHC.
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
Data [*.csv]
Seleksi significant 2-pattern ( frequent pattern
& interesting pattern )
Generate Hierarchi
Tree Duplicate
pruning cluster
&refinement cluster
IDHC
Hasil (Hierarchi Cluster & F-
Measure )
3. Pengembangan Perangkat Lunak
Analisis dan Perancangan
Melakukan analisis dan perancangan perangkat lunak dengan menggunakan Flow Map. Secara garis besar, gambaran umum sistem yang dibangun tertera pada Gambar 1-1.
Gambar 1-1 : Gambaran Umum Sistem IDHC
Pengkodean
Mengimplementasikan perancangan ke dalam pemrograman komputer dengan menggunakan teknik pemrograman berorientasi obyek.
Pengujian
Pengujian perangkat lunak dengan parameter local frequency dan interesting value untuk selanjutnya dianalisis hasil klaster yang didapat dengan parameter F-Measure.
4. Analisis hasil
Menganalisis kualitas hasil klasterisasi dengan menghitung F-Measure.
5. Pembuatan laporan
Mengambil kesimpulan dari hasil analisis yang telah dilakukan, serta mendokumentasikan hasil perancangan, implementasi, pengujian, dan analisis ke dalam suatu bentuk laporan yang telah disusun sejak awal.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
5. Kesimpulan dan Saran
5.1 Kesimpulan
1. Permasalahan overlapping yang terjadi pada algoritma HFTC tidak terjadi lagi di dalam algoritma IDHC. Karena permasalahan tersebut sudah ditangani dengan adanya proses duplicate pruning dan refine cluster yang ada dalam algoritma IDHC. Sehingga pada klaster yang berbeda tidak ditemukan lagi suatu dokumen yang sama. Hal ini berguna untuk mencegah terjadinya redundansi data.
2. Algoritma HFTC sangat bergantung kepada threshold minimum support.
Sehingga, jika nilai minimum support ditingkatkan, nilai F-Measure yang didapat menjadi semakin lebih kecil. Karena calon-calon term yang diproses menjadi frequent itemset menjadi lebih sedikit. Namun, algoritma IDHC masih mempunyai 2 threshold lagi yakni local coverage dan prosentase initial feature.
Ketiga threshold tersebut dimasukkan dalam suatu perhitungan untuk mendapatkan frequent itemset.
3. Pada algoritma HFTC dan FIHC, frequent itemset yang didapat belum tentu merupakan suatu term atau itemset yang penting dan mewakili isi berita. Karena kedua algoritma tersebut menggunakan parameter global support. Global support ini merepresentasikan seberapa besar kontribusi frequent itemset tersebut pada suatu kumpulan dokumen atau dataset. Sedangkan algoritma IDHC masih mempunyai sebuah paramater lagi disebut local support. Local support ini merepresentasikan seberapa besar suatu frequent itemset mewakili sebuah dokumen. Dengan adanya kedua parameter tersebut, algoritma IDHC memiliki F- Measure yang lebih bagus dibanding kedua algoritma di atas pada kondisi terburuk.
4. Kesimpulan selanjutnya adalah walaupun nilai minimum support diubah-ubah, algoritma IDHC mencapai nilai F-Measure maksimum yang klimaks di suatu nilai tertentu.
5.2 Saran
Dalam algoritma IDHC masih ada beberapa hal yang perlu diperhatikan lebih lanjut supaya bisa menghasilkan kualitas klaster yang bagus. Berikut beberapa saran yang bisa diambil dari tugas akhir ini adalah :
1. Perlu penelitian lebih lanjut tentang nilai F-Measure klimaks yang dihasilkan oleh algoritma IDHC ini, apakah benar-benar merupakan suatu performansi terbaik yang dihasilkan oleh algoritma ini.
2. Perlu pendalaman lebih lanjut tentang penentuan jumlah klaster yang tepat dalam proses pembangunan tree, sehingga kualitas klaster yang dihasilkan menjadi semakin bagus.
3. Diperlukan cara penentuan nilai prosentase initial feature dan local coverage yang tepat, sehingga frequent itemset yang didapat benar-benar mewakili semua dokumen yang diklasterkan.
4. Perlu pengujian lebih lanjut tentang scalability algoritma IDHC ini dengan menggunakan dataset yang lebih besar.
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
Daftar Pustaka
[1] Brijs, T., Vanhoof, K., Wets, G.: Defining Interestingness For Association Rules (01-12-2008). In : International Journal “ Information Theories & Applications Vol. 10 “.
[2] Fung, Benjamin C.M. 2002. Hierarchical Document Clustering Using Frequent Itemset. ftp://fas.sfu.ca/pub/cs/theses/2002/BFungMSc.pdf (03-12-2008). Canada:
Simon Fraser University.
[3] Geng, L., Hamilton, H. J.: Interestingness Measures for Data Mining: A Survey, http://www.cs.ualberta.ca/~mohammad/sig05/compsurveyTOREVIEW.pdf (03- 12-2008), ACM Computing Surveys, Volume 38, No. 3 (2006).
[4] Malik, H. H., Kender, J. R.: Clustering Web Images Using Association Rules, Interestingness Measures, and Hypergraph Partitions (01-12-2008). New York:
Department of Computer Science Columbia University.
[5] Malik, Hassan H. dan John R. Kender. 2005. High Quality, Efficient Hierarchical Document Clustering using Closed Interesting Itemsets.
http://www.cs.columbia.edu/~hhm2104/papers/ICDM2006_FULL_REVISED.pdf (01-12-2008). New York: Department of Computer Science Columbia University.
[6] Malik, H. H., Kender, J. R.: Instance Driven Hierarchical Clustering of Document Collections. http://www.ke.informatik.tu-darmstadt.de/events/LeGo-08/8.pdf (01- 12-2008). In From Local Patterns to Global Models Workshop (ECML/PKDD 2008), Antwerp, Belgium. (2008).
[7] Malik, H. H., Kender, J. R.: Optimizing Frequency Queries for Data Mining Applications. http://www.cs.columbia.edu/~hhm2104/papers/Malik_ICDM07.pdf (01-12-2008). In: Seventh IEEE International Conference on Data Mining, pp.
595-600 (2007).
[8] Tan, P., Kumar, V., Srivastava, J.: Selecting the right interestingness measure for
association patterns. http://www.cse.msu.edu/~ptan/publication/kdd2002.pdf (01-12-2008) . In: 8th international conference on Knowledge discovery and data
mining (2002).
[9] Yu, H., Searsmith, D., Li, X., Han, J. : Scalable Construction of Topic Directory
with Nonparametric Closed Termset Mining.
http://www.xiaolei.org/research/pubs/icdm04_directory.pdf (25-11-2008). In:
Fourth IEEE International Conference on Data Mining (2004).
[10] Zhao, Y., Karypis, G.: Hierarchical Clustering Algorithms for Document Datasets.
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.8.2807 (23-11-2008).
Data Mining and Knowledge Discovery, Volume 10, pp. 141--168, No. 2 (2005).
[11] Hepler, Amanda.: Text Mining – A Brief Summary, Amanda Hepler.pdf
[12] Mooney, J. Raymon. :Machine Learning Text Categorization. Texas : University of Texas
[13] Mörchen, F., Brinker, K., Neubauer, C.: Any-time clustering of high frequency news streams. In: Data Mining Case Studies Workshop, the Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (2007)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika
[14] Hotho, Andreas dan Gerd Stumme. 2003. Conceptual Clustering of Text Clusters.
http://www.aifb.unikarlsruhe.de/WBS/aho/pub/tc_fca_2002_sub mit.pdf [24 April 2008]. Jerman : Institute of Applied Informatics and Formal Description Methods AIFB, University of Karlsruhe
[15] Brefeld, Klaus-Robert Muller Ulf.2008. Text Mining
[16] De Hoon, Michiel, dkk.2007.The Clustering Library.
http://bonsai.ims.utokyo.ac.jp/~mdehoon/software/cluster/cluster.pdf [1Mei2008].
Tokyo: The University of Tokyo
[17] Savaresi, Sergio M and Boley, Daniel L.2003. A Comparative Analysis on The Bisecting K-Means and the PDDP clustering Algorithms.USA
[18] http://www.answers.com/topic/data-mining
Powered by TCPDF (www.tcpdf.org)
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika