ANALISIS DAN IMPLEMENTASI PENGELOMPOKAN HASIL PENCARIAN DENGAN MENGGUNAKAN ALGORITMA DESCRIPTIVE K-MEANS(DKM)
Devinto Darlis¹, Yanuar Firdaus A.w.², Retno Novi Dayawati³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak
Pencarian dokumen yang ada pada saat sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) dengan yang diinginkan oleh pengguna.
Salah satu cara untuk mengelompokkan dokumen adalah dengan clustering. Pada Tugas Akhir ini akan dilakukan pengelompokkan dokumen berbahasa Indonesia yang jumlahnya statis dengan algoritma Descriptive K-Means. Perbedaannya dengan K-Means biasa adalah Descriptive K-Means menggunakan tahapan khusus untuk pencarian label dan pengalokasian dokumen.
Setelah implementasi, algoritma ini bisa membentuk cluster yang dokumen-dokumen di
dalamnya sesuai dengan labelnya, hal ini dikarenakan query yang digunakan untuk pengalokasian dokumen relasi AND, artinya setiap kata yang terdapat pada label harus ada pada setiap
dokumen.
Namun algoritma ini kurang efektif ketika kata yang dicari sedikit terdapat dalam dokumen koleksi, sehingga cluster yang terbentuk sering terkena pruned karena cluster tersebut jumlah dokumen yang terdapat di dalamnya tidak memenuhi jumlah minimal untuk terbentuknya suatu cluster.
Dalam pengujian ditemukan pencarian paling efektif ketika nilai K=2 berdasarkan nilai precision dan recallnya. Tingkat kefektifan tersebut semakin berkurang seiring bertambahnya nilai K. Ukuran cluster yang dihasilkan tidak bisa diukur dari nilai convergence yang didapat karena sangat bergantung pada inputan kata dari pengguna dan jumlah dokumen dalam cluster. Kata Kunci : cluster, clustering, Descriptive K-Means, preprocessing, precision, recall.
Abstract
Nowadays, when searching documents, the search result will sort retrived documents based on their rank. The results sometimes irrelevant and different from user’s expectation. One
alternatives to improve the search results is to clusterize it.
Documents in this final project will be in Indonesian language with static amounts and using Descriptive Means algorithm. The difference between original Means and Descriptive K-Means(DKM) is that DKM have a certain phases to get labels and to allocate documents. After implementation, this algorithm produce clusters that contains relevant documents to cluster label due to its query that uses AND relation to allocates documents, it means that every term label must be in every documents in the cluster.
This algorithm become uneffective if user queries are too few in the document collections. If condition like this happen then some of clusters will contains less then minimal required amount of documents.
Based on precision and recall value, the most effective search result comes when K is set =2. This values decrease when K value gets bigger. Convergence value cannot be used to conclude a cluster is good or not because its really depends on user’s queries and amount of documents within the cluster.
1
1.
Pendahuluan
1.1
Latar belakang
Pesatnya pertambahan jumlah dan keanekaragaman dokumen dapat berdampak besar pada saat pencarian suatu dokumen. Pencarian dokumen yang ada sekarang ini adalah menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Pada referensi [4] menyatakan bahwa, terkadang hasil yang ditampilkan dengan pencarian berdasarkan document ranking terdiri dari beberapa halaman dan pengguna biasanya hanya melihat hasil pencarian maksimal pada 10 halaman pertama (Gambar 1-1.a).
Pada tugas akhir ini, dokumen dari hasil pencarian dikategorikan sesuai dengan query yang diinputkan oleh user. Pengkategorian dokumen dapat menguntungkan user pada saat hasil pencarian yang diinginkan lebih dari satu. Dengan adanya pengkategorian dokumen, user tidak perlu membuka halaman terlalu banyak karena dokumen hasil pencarian telah dikelompokkan berdasarkan kategori yang dapat mencerminkan isi dari suatu dokumen, sehingga user lebih mudah dalam menemukan beberapa dokumen yang diinginkan (Gambar 1-1.b)
Gambar 1-1: Hasil Pencarian dengan document ranking (a) dan pengkategorian (b)
Clustering merupakan salah satu teknik dalam pengkategorian dokumen. Ide
dasarnya adalah dengan mengelompokan dokumen-dokumen ke dalam grup-grup atau clusters berdasarkan kemiripan (similarity) antar dokumen, sehingga dokumen yang berhubungan dengan suatu topik tertentu ditempatkan pada cluster yang sama[2].
Terdapat beberapa algoritma clustering yang dikenal yaitu partitional (k-means) dan hierarchical. Metode k-means merupakan algoritma sederhana yang dikembangkan oleh Mac Queen pada tahun 1967. K-means merupakan metode pengklasteran yang memisahkan data kedalam k kelompok yang berbeda artinya sebelum dilakukan klasterisasi maka user harus menentukan jumlah k yang diinginkan. Selain itu k means merupakan center based clustering yang menentukan setiap kluster dari titik pusat klasternya[2], sehingga pencarian cluster cukup dilakukan berdasarkan centroid yang ditemukan tersebut.
K-means membutuhkan proses pengindeksan dokumen. Proses pengindeksan, yaitu parsing, pembuangan stopwords, dan stemming. Proses preprocessing ini digunakan karena bisa mengurangi jumlah kata yang diproses.
Powered by TCPDF (www.tcpdf.org)
Referensi
[1] Weiss, Dawid. Descriptive Clustering as a Method for Exploring Text
Collections,Pozna´n, Poland, 2006.
[2] Ayuningtyas, Vidya. ”Pengkategorian Hasil Pencarian dengan Clustering”, STT
Telkom, Bandung, 2003.
[3] Firdestawati, Inera. Implementasi Model Ruang Vektor Sebagai Penerjemah
Query Pada Cross-Language Information Retrieval Sistem, IT Telkom, Bandung, 2008.
[4] Jansen, B., Pooch, U. A Review of Web Searching Studies and a Framework for
Future Research. Journal of the American Society for Information Science and Technology, Vol.52, No.3, 2001, 235-246.
[5] Zamir, O. and Etzioni, O.: Grouper: A Dynamic Clustering Interface to Web
Search Results. Proceedings of the 8th International World Wide Web Conference WWW8 (Toronto, Canada), Elsevier Science 1999.
[6] Tala, Fadillah.:A Study of Stemming Effects on Information Retrieval in
Bahasa Indonesia. Institute for Logic, Language and Computation Universiteit van Amsterdam The Netherlands.
[7] Zeng, Hua, Jun., Hi, Cei, Qi., Chen,Zheng. Learning to Cluster Web Cluster
Search Results.
[8] Jiawei Han and Micheline Kamber. Data Mining : Concepts and Techniques.
Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University.
[9] Purwatiningsih, Oky. Perangkat Lunak Kamus Berintelegensia untuk Bahasa
Indonesia untuk Menentukan Kelas Kata Berdasarkan Kelas Akar Kata dan Imbuhan, STT Telkom Bandung, 2006.
[10] Manning, Christopher., Raghavan, Prabhakar., and Schütze, Hinrich. An
Introduction to Information Retrieval.Cambridge University Press Cambridge, England. 2007.
[11] http://ilps.science.uva.nl/Resource/Bi
[12] Departemen Pendidikan dan Kebudayaan 2001.Kamus Besar Bahasa Indonesia.
Edisi ketiga. Jakarta : Balai Pustaka.
[13] Pusat Pembinaan dan Pengembangan Bahasa Departemen Pendidikan Nasional
44
Disempurnakan dan Pedoman Umum Pembentukan Istilah.Bandung : CV. Yrama Widya.
[14] Dubes, R. C. and Jain, A. K., Algorithms for Clustering Data, Prentice Hall
(1988).
[15] Pirolli, P., Schank, P., Hearst, M., and Diehl, C.: Scatter/Gather Browsing
Communicates the Topics Structure of a Very Large Text Collection. Proceedings of CHI’96 (Vancouver, Canada), ACM Press 1996, 213-220.
[16] Asian, Jelita., Williams, Hugh., Tahaghoghi, S,M,M, Stemming Indonesia,
School of Computer Science and Information Technology, Melbourne 3001 Australia.
[17] Kadir, Abdul, Pemrograman Web Dinamis denga JSP, Andi Offset.
Yogyakarta, 2004.
[18] Hermawan, Beny, Menguasai Java 2 & Pemrograman Object Oriented
Programming, Andi Yogyakarta. 2004.
[19] L Madiceo, “A New Way To Explore Patent Databases”, Italy
[20] Hariyanto, Bambang, Esensi-esensi Pemrograman Java, Informatika, Bandung,
2005
[21] Wong, Wai-chiu. and Ada, Wai-chee. Fu.(2000).”Incremental Document
Clustering for Web Page Classification”. Department of Computer Science and Engineering The Chinese University of Hong Kong.
Powered by TCPDF (www.tcpdf.org)
Lampiran A: Data Pengujian
Data Pengujian Jumlah nilai K
Query= krisis K=2
Testing Cluster Convergence Precission Recall Keterangan 1 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 2 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 3 1 0.85496623 0.590909091 1.444444444 2 0.129553411 0.090909091 0.1 4 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 5 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 6 1 0.772458505 0.5 1 2 0.908423614 0.363636364 0.571428571 7 1 0.772458505 0.5 1 2 0.908423614 0.363636364 0.571428571 8 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 9 1 0.839716385 0.454545455 0.833333333 2 0.721415034 0.363636364 0.571428571 10 1 0.772458505 0.5 1 2 0.908423614 0.363636364 0.571428571 0.769697725 0.409090909 0.734365079 rata-rata 0.129553411 0.590909091 1.444444444 nilai terbaik Query= krisis K=3
Testing Cluster Convergence Precission Recall Keterangan 1 1 0.822815858 0.409090909 0.692307692 2 0.44377709 0.090909091 0.1 3 0.721415034 0.363636364 0.571428571 2 1 0.893555647 0.318181818 0.466666667 2 0.584616441 0.181818182 0.222222222 3 0.622386915 0.272727273 0.375 3 1 0.663966405 0.318181818 0.466666667 2 0.622386915 0.272727273 0.375 3 0.44377709 0.090909091 0.1