IMPLEMENTASI DAN ANALISIS ALGORITMA HMRF-KMEANS UNTUK SEMI- SUPERVISED CLUSTERING DOKUMEN

(1)

SUPERVISED CLUSTERING DOKUMEN

Nita Anissa Harumiati¹, Shaufiah², Warih Maharani³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak

Pelabelan data membutuhkan cost yang mahal dan besar, untuk itulah diperlukan suatu sistem dimana data dapat dilabelkan dengan mudah dan tepat. Semi-supervised clustering adalah suatu teknik learning untuk mengelompokkan atau melabelkan data unsupervised menggunakan supervised data sebagai acuannya. HMRF-KMeans merupakan algoritma semi-supervised clustering, dimana algoritma ini menggunakan Hidden Markov Random Field, untuk mengambil dan mengobservasi data secara acak dan menghitung probabilitas alaminya melalui komponen parameter hidden (tersembunyi). HMRF-KMeans menggabungkan constraint-based dan distance-based learning dalam fungsi objektif HMRF-KMeans. Fungsi objektif HMRF-KMeans yang

minimum akan menghasilkan kualitas cluster yang baik. Dengan constraint based, proses

inisialisasi centroid menjadi tepat dan distance learning membantu untuk meminimumkan fungsi objektif HMRF-KMeans.

Kata Kunci : cost, semi-supervised clustering, HMRF-KMeans, algoritma, supervised, unsupervised, constraint, distance.

Abstract

Labeling data is expensive and requires great cost. Therefore it needed a system where data can be easily and accurately labeled. Semi-supervised clustering is a learning technique to cluster or to label unsupervised data using supervised data. Supervised data is used as reference for

grouping unsupervised data. HMRF-KMeans is a semi-supervised clustering algorithm, where this algorithm using hidden Markov Random Field, to take up and to observe supervised data at random and then make these data as a reference to cluster the data. HMRF-KMeans combines Constraint-based and distance-based learning in HMRF-KMeans objective function. The minimum HMRF-KMeans objective function, will produce the right cluster. Constraint-based, provides the best centroid in initialization process and distance learning helps to give minimize HMRF -KMeans objective function.

Keywords : cost, semi-supervised clustering, HMRF-KMeans, algorithm, supervised, unsupervised, constraint, distance.

Powered by TCPDF (www.tcpdf.org)

(2)

1

1. Pendahuluan

1.1. Latar belakang

User membutuhkan penemuan informasi yang relevan sesuai dengan keinginan dan target user. Terkadang saat mencari informasi, semua kumpulan dokumen yang keluar tidak relevan, tentunya masalah ini merugikan untuk user. Terdapat masalah juga dalam melabelkan data yang banyak, bayangkan jika kita memiliki ribuan data yang tidak diketahui topik atau kategori dari data tersebut. Tentunya akan membutuhkan cost atau biaya yang besar untuk mengkategorikan atau melabelkan data secara satu persatu. Dalam informasi terdapat dua macam tipe data, yaitu unsupervised dan supervised. Supervised merupakan kumpulan data dimana kategori atau target kelas data diketahui. Sedangkan unsupervised yaitu data yang tidak diketahui target kelasnya. Dari sekian banyak data, data supervised terbatas dan untuk unsupervised data diperlukan proses klasifikasi yang lama. Oleh karena itu dibutuhkan suatu sistem yang dapat mengatasi masalah pelabelan data. Terdapat banyak learning untuk mengatasinya, yaitu clustering, clasification dan semi-supervised clustering. Pada clustering, data unsupervised dikelompokkan berdasarkan kesamaan data. Sedangkan clasification mengelompokkan data supervised berdasarkan target kelas yang dituju. Diantara clustering dan classification terdapat suatu teknik pelabelan dimana teknik ini menggabungkan prinsip clustering dan classification.

Semi-supervised clustering merupakan teknik pengelompokkan, dimana kumpulan data yang akan dilabelkan merupakan data yang memiliki label dan tak memiliki label. Teknik ini mengelompokkan unsupervised data menggunakan supervised data sebagai acuannya. Terdapat banyak algoritma dan metode yang mengimplementasikan semi-supervised learning, salah satunya yaitu HMRF-KMeans. HMRF-KMeans merupakan algoritma tipe K-Means yang menggunakan probabilitas Hidden Markov Random Field untuk mengelompokkan dokumen yang tidak lengkap (unlabeled data atau unsupervised). Alasan pemilihan metode ini yaitu HMRF-KMeans dapat menghasilkan centroid yang tepat dan bagus untuk inisialisasi. Pada K-Means clustering biasa, jika salah memilh centroid pada tahap inisialisasi, dapat menghasilkan data tidak berada di cluster yang seharusnya. Dengan HMRF-Kmeans akan dihasilkan pengelompokkan dokumen yang tepat dan sesuai dengan yang dibutuhkan oleh user.

1.2. Perumusan masalah

Adapun perumusan masalah dalam Tugas Akhir ini adalah:

1. Bagaimana cara mengimplementasikan HMRF-KMeans untuk teknik semi-supervised clustering?

2. Bagaimana ketepatan hasil pengelompokkan yang dihasilkan berdasarkan banyaknya data latih dan data uji dengan menggunakan algoritma HMRF-KMeans?

(3)

2

1.3. Batasan Masalah

Adapun batasan masalah yang ditentukan pada Tugas akhir ini yaitu

1. Digunakan dokumen berita bahasa Indonesia sebagai data uji dan data latih pada saat pengujian serta analisis.

2. Data set yang akan digunakan berasal harian berita bahasa Indonesia pada www.kompas.com

3. Text processing yang digunakan merupakan perangkat lunak yang diperoleh dari DMC ITTelkom Bandung.

1.4. Tujuan

Tujuan dari Tugas Akhir ini adalah:

1. Menganalisis algoritma HMRF-Kmeans pada semi-supervised clustering berdasarkan constraintbased dan distance based.

2. Menganalisis kualitas cluster hasil pengelompokkan dokumen yang tepat dengan algoritma HMRF-Kmeans melalui kualitas internal (Variance Ratio Criterion) dan eksternal cluster (F-Measure).

1.5. Metodologi penyelesaian masalah

Metode yang akan digunakan dalam pembangunan program tersebut adalah dengan memakai langkah-langkah sebagai berikut:

1. Studi Literatur

Dilakukan pendalaman materi mengenai semi-supervised clustering, HMRF, algoritma HMRF-KMeans yang akan dipakai dalam pembangunan program tersebut. Beberapa sumber yang telah diperoleh terdapat pada daftar pustaka.

2. Analisa dan Perancangan

Dari hasil studi literatur, pada tahap ini akan dilakukan analisis bagaimana cara menerapkan HMRF-KMeans pada program ini. Pada awalnya akan digunakan HMRF untuk mencari centroid yang tepat dan membangkitkan constraint. Setelah itu dilakukan assignment dan penghitungan fungsi objektif HMRF-KMeans. Semakin kecil fungsi objektif diperoleh cluster yang tepat.

3. Implementasi

Melakukan implementasi hasil dari analisisi dan perancangan pada program yang akan dibangun. Dilakukan text preprosesing dulu pada dokumen supervised dan unsupervised (stoplist). Setelah itu dokumen dihitung vector spacenya. Setiap term dari dokumen dinilai atribut valuenya. Lalu mengimplementasikan HMRF-KMeans.

4. Pengujian dan Analisis Hasil

Menyiapkan data training dan data testing. Setiap pengujian ahan dicatat hasil tingkat ekurasinya.

5. Penyusunan Laporan Tugas Akhir

Membuat dokumentasi hasil semua metode yang telah dilakukan dalam bentuk laporan.

(4)

3

1.6 Sistematika Penulisan

Tugas akhir ini disusun dengan sistematika penulisan sebagai berikut : BAB I Pendahuluan

Bab ini menjelaskan tugas akhir ini secara umum, meliputi latar belakang masalah, perumusan masalah, batasan masalah, tujuan, hipotesa awal, dan metode penyelesaian masalah.

BAB II Landasan Teori

Bab ini membahas mengenai uraian teori yang berhubungan dengan HMRF-KMeans dan semi-supervised clustering.

BAB III Analisis Perancangan dan Implementasi

Bab ini membahas mengenai rancangan dan analisis kebutuhan dari sistem yang akan dibangun. Hasil analisis ini digunakan untuk memodelkan sistem. Dari tahap analisis kemudian dilanjutkan ke tahap perancangan dan implementasi.

BAB IV Pengujian dan Analisis Hasil Percobaan

Bab ini membahas mengenai pengujian hasil implementasi yang telah dilakukan pada bab sebelumnya. Pengujian dilakukan dengan membandingkan hasil implementasi dengan data aslinya. Tahap pengujian dilanjutkan dengan tahap analisis hasil pengujian.

BAB V Kesimpulan dan Saran

Berisi kesimpulan dari penulisan Tugas Akhir ini dan saran-saran yang diperlukan untuk pengembangan lebih lanjut.

(5)

33

5. Kesimpulan dan Saran

5.1.Kesimpulan

1. Inisialisasi tetap menjadi hal yang sangat penting dalam algoritma HMRF-Kmeans, inisialisasi yang tidak tepat (tidak dapat mewakili data untuk cluster tertentu) akan menghasilkan kualitas cluster yang buruk. Secara umum semakin banyak constraint yang digunakan, semakin tepat hasil cluster yang dihasilkan. Hal ini dilihat dari kualitas variance yang minimum serta F-Measure tiap data yang dilabelkan dalam data latih sama dengan data yang dilabelkan dalam data uji. Tetapi jika saat proses inisialisasi centroid yang ditemukan sudah tepat, tanpa memerlukan banyak constraint didapatkan hasil cluster yang tepat.

2. Dibandingkan KMeans I-C (HMRF-KMeans tanpa distance learning), HMRF-KMeans memiliki kualitas internal dan kualitas eksternal yang lebih baik. Karena HMRF-Kmeans dengan distance learning menghasilkan cluster yang lebih baik walaupun saat inisialisasi diambil secara acak dokumen yang tidak tepat. Distance learning membantu mengecilkan fingsi objektif HMRF-Kmeans.

5.2.Saran

Saran untuk pengembangan tugas akhir ini yaitu diperlukan suatu kajian lebih lanjut dengan membuat algoritma HMRF-Kmeans untuk dapat menangani data atribut selain numerik.

(6)

34

Daftar pustaka

[1] Arindam Banarjee and Mooney Raymond. 2002. Semi-supervised Clustering by seeding.[online]. (http://www.stat.umn.edu/~aistat/proceedings/data/papers/038.pdf,diakses pada tanggal 18 Oktober 2009)

[2]

[3]

__________.2005.[online].(

http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html, diakses pada tanggal 18 Oktober 2009)

Geneva Lab; M.S. 2010. Clustering.[online].( http://cui.unige.ch/AI-group/teaching/dmc/09-10/cours/dm14-hclustering.pdf , diakses pada tanggal 22 Oktober 2009)

[4] Hilda Widiastuti. 2008.Studi Representasi N-Gram pada Algoritma HMRF-KMeans untuk Dokumen clustering.Bandung: Sekolah Teknik Elektro dan Informatika, Institute Teknologi Bandung.[online]. ( http://digilib.itb.ac.id/gdl.php?mod=browse&op=read&id=jbptitbpp-gdl-elisamarga-29032, diakses pada tanggal 5 Oktober 2009)

[5] Jingting Zeng. 2005. A Probabilistic Framework for Semi-supervised Clustering.[online] (www.cis.temple.edu/~vasilis/Courses/.../Zeng-Semi-supervised clustering.ppt,diakses pada tanggal 18 Oktober 2009)

[6] Maria Haldiki, Vazirgiannis Michail and Gunopulus Dimitrios. 2006. Novel Aspects in Unsupervised Learning: Semi-supervisedand Distributed Algorithms. Riverside: Dept. of Informatics, University of California. [online].

(http://www.jevuska.com/topic/a+probabilistic+framework+for+semi+supervised+clustering.ht mldiakses pada tanggal 5 Oktober 2009)

[7] Michael P. Peronne dan Scott D. Connel. 2000. K-Means clustering for Hidden Markov Model.

[online].(___________diakses pada tanggal 22 Oktober 2009)

[8] Mikhail Bilenko and Sugato Basudl. 2004. A Comparison of Inference Techniques for Semi-supervisedClustering with Hidden Markov Random Fields. [online].

( http://www.ams.org/journals/proc/1998-126-04/S0002-9939-98-04524-9/S0002-9939-98-04524-9.pdf,.diakses pada tanggal 18 Oktober 2009)

[9] Nobuhiro Kaji and Masaru Kitsurega. 2008. Using Hidden Markov Random Fields to Combine Distributional and Pattern-based Word Clustering .[online], (diakses pada tanggal 18 Oktober 2009)

[10] Sugato Basu dan Mikhail Bilenko.2006. Probabilistic Semi-supervised Clustering with Constraints. Austin: Dept. of Computer Science, University of Texas.[online].

(http://research.microsoft.com/en-us/um/people/mbilenko/papers/06-chapter.pdf,diakses pada tanggal 18 Oktober 2009)

[11] Sugato Basu, B. Tech (Hons); M.S. 2005. Semi-supervised Clustering Probabilistic Models, Algorithms and Experiments. . Austin: Dept. of Computer Science, University of Texas. [online]. ( http://userweb.cs.utexas.edu/~ml/papers/semi-kdd-04.pdf.diakses pada tanggal 22 Oktober 2009)