• Tidak ada hasil yang ditemukan

Dokumen Clustering menggunakan Particle Swarm Optimization + K-means

N/A
N/A
Protected

Academic year: 2021

Membagikan "Dokumen Clustering menggunakan Particle Swarm Optimization + K-means"

Copied!
6
0
0

Teks penuh

(1)

DOKUMEN CLUSTERING MENGGUNAKAN PARTICLE SWARM OPTIMIZATION + K-MEANS

Devi Choirul Prehantini¹, Yanuar Firdaus A.w.², Warih Maharani³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Klasterisasi (clustering) merupakan salah satu fungsionalitas data mining yang digunakan untuk melakukan pengelompokan data ke dalam suatu kelas atau cluster. Prinsip dasar klasterisasi adalah mengelompokkan objek pada suatu kelas yang memiliki kemiripan sangat besar dengan objek lain pada kelas yang sama (similarity), tetapi sangat tidak mirip dengan objek pada kelas lain (dissimilarity). Terdapat beberapa teknik klasterisasi antara lain: metode Partisi (K-means Clustering), metode Hierarki (Divisive and Agglomerative Clustering), metode Density-Based (DBSCAN), dan sebagainya. Pada tugas akhir ini, digunakan metode Partisi dengan algoritma PSO + K-means (Particle Swarm Optimization + K-means) yang merupakan penggabungan antara algoritma K-means dan algoritma PSO(particle Swarm Optimization). Metode pengklasteran dengan menggunakan K-means sangat banyak digunakan untuk mengelompokkan data dengan similaritas yang tinggi. Akan tetapi K-means memiliki kelemahan dalam penentuan titik pusat inisial klaster yang dilakukan secara random sehingga sering kali menyebabkan terjebak pada lokal optimal dan hasil pengklasteran menjadi tidak optimal. Untuk lebih mengoptimalkan penentuan titik pusat maka digunakanlah algoritma PSO + K-means. PSO + K-means merupakan algoritma yang yang diusulkan oleh Xiaohui Cui pada tahun 2005. Algoritma ini selalu

menghasilkan konvergensi pada global optimal. PSO + K-means mampu menghindari lokal optimal. Dalam tugas akhir ini juga akan dilakukan perbandingan evaluasi hasil klasterisasi yang dihasilkan oleh klasterisasi menggunakan metode K-means dan PSO dengan menggunakan ADVDC (average distance documens cluster centroid) dan time performance.

Kata Kunci : clustering, particle Swarm Optimization,PSO, K-means, similarity.

Abstract

Clustering is one of the data mining functionality that is used for grouping the data into a class or cluster. The basic principle is to classify objects klasterisasi in a class that has a great similarity with other objects in the same class (similarity), but it is not similar to objects in other classes (dissimilarity). There are several techniques, among others klasterisasi: Partitioning methods (K-means Clustering), a method Hierarchy (Divisive and Agglomerative Clustering), Density-based methods (DBSCAN), and so on. In this final task, used partition method with PSO algorithm + K-means (Particle Swarm Optimization + K-K-means) which is a merger between K-K-means algorithm and the algorithm of PSO (Particle Swarm Optimization). clustering method using K-means is very much used to classify the data with a high similaritas. However, K-means has a weakness in determining the initial cluster center is done at random so often trapped in local causes and results of the optimal clustering be not optimal. To further optimize the determination of the center of the PSO algorithm is used + K-means. PSO + K-means algorithm which is proposed by Xiaohui Cui in 2005. This algorithm always produces convergence in the global optimum. PSO + K-means was able to avoid local optimum. In this final task will be performed comparative evaluation of the results generated by Clustering method Clustering K-means and PSO with ADVDC (average distance documens cluster centroid) and time performance.

Keywords : clustering, particle Swarm Optimization,PSO, K-means, similarity.

Powered by TCPDF (www.tcpdf.org)

(2)

1

1.

PENDAHULUAN

1.1

LATAR BELAKANG

Saat ini pertumbuhan jumlah informasi yang ada didalam web terus mengalami peningkatan, begitu juga dengan artikel berita yang dimuat diweb khususnya berita berbahasa Indonesia. Banyaknya jumlah informasi tersebut menyebabkan orang kesulitan dalam menemukan informasi atau berita yang diinginkan, sehingga informasi yang banyak tersebut belum bisa dimanfaatkan dengan baik. Oleh karena itu, dibutuhkan suatu system pengorganisasian dari berita-berita tersebut agar lebih tersetruktur. Pengorganisaian dokumen-dokumen dapat dilakukan dengan menggunakan clustering. Clustering dapat menjadi suatu alternatif dalam mengelompokan objek-objek fisik atau abstrak ke dalam kelas-kelas dengan objek yang sama (similar)[1]. Document cluatering merupakan suatu proses mengelompokan dokumen-dokumen, sehingga dokumen memiliki banyak kemiripan (similar) masuk dalam suatu kluster, dan dokumen yang berbeda (dissimilar) ke dalam kluster yang berbeda pula. Sehingga berita dengan topik yang masih berkaitan ditempatkan dalam satu kelompok (kluster) akan lebih terstruktur dan dapat membantu dalam menemukan informasi yang dibutuhkan berdasarkan topik tertentu dengan cepat dan akurat.

Terdapat beberapa algoritma pengelompokan dokumen yang dapat digunakan diantaranya adalah metode Partisi (K-means), Hierarki, Fuzzy C-means, dll.

Clustering dengan metode K-means yang dikembangkan oleh Mac Queen pada tahun 1967, sangat terkenal dengan kemampuannya untuk mengklaster data yang besar dan dapat menangani data outlier. K-means merupakan metode pengklasteran yang memisahkan data kedalam k kelompok yang berbeda artinya sebelum dilakukan klasterisasi maka user harus menentukan jumlah k pastisi yang diinginkan. Selain itu pendekatan umum dari klasterisasi adalah menemukan titik pusat klaster yang merepresentasikan tiap klaster. Oleh karena itu K-means juga melakukan penentuan titik pusat klaster yang dibangkitkan dengan cara random. Hanya saja dalam penentuan titik pusat tersebut K-means masih sangat sensitif. K-means akan mampu menemukan titik pusat yang tepat apabila pembangkitan awal titik pusat yang dilakukan dengan random tersebut mendekati solusi akhir pusat klaster begitu juga sebaliknya. Jika awal titik pusat jauh dari solusi akhir pusat klaster maka kemungkinan besar hasil klasterisasinya menjadi tidak tepat. Dari keterangan tersebut diketahui bahwa K-means hanya dapat mencapai local optimal saja, belum mampu mencapai global optimalnya.

Selain algoritma K-means, beberapa peneliti juga menentukan klaster dengan algoritma Particle Swarm Optimization (disingkat PSO), dimana ide dasarnya adalah populasi yang terinspirasi oleh perilaku sosial dari pergerakan burung atau ikan (bird flocking or fish schooling) dimana individu tersebut kemudian disebut sebagai particles, „terbang‟ mengikuti individu-individu yang optimum saat ini

(current optimum particles). populasi tersebut terbentuk dari solusi-solusi acak (random solutions) kemudian sistem mencari optimalitas dari individu-individu dengan mengubah posisi, atau state, mereka terhadap waktu. Jika dibandingkan dengan K-means maka akan menjadi sangat kontras karena PSO tidak sensitif pada inisialisasi awal dan selalu konvergen pada wilayah global. Hanya saja biaya komputasi menggunakan PSO ini mahal untuk aplikasi yang luas. Ketidakefisienan waktu pada PSO ini disebabkan karena PSO membutuhkan

(3)

2

iterasi yang banyak untuk mendapatkan optimalitas,Selain itu juga membutuhkan biaya mahal pada perhitungan fungsi fitnessnya. Oleh karena itu dilakukan penggabungkan kekuatan alami PSO dan kesederhanaan dari K-means menjadi algoritma PSO + K-means [2]. Proses pada algoritma PSO+K-means yaitu diawali dengan menggunakan algoritma PSO asli yang digunakan untuk mendapatkan inisialisasi kluster. Kemudian dilakukan proses K-means terhadap dataset yang mengacu pada inisialisasi kluster yang diperoleh sampai terbentuk kluster.

Pada tugas akhir ini akan dilakukan analisis performansi dari Algoritma

PSO+K-means. Analisis akan dilakukan dengan membandingkan metode tersebut dengan

metode PSO murni dan K-means murni. Performansi metode tersebut akan dievaluasi berdasarkan melihat nilai akurasi dengan time performance dan ADVDC (average distance documens cluster centroid).

1.2

PERUMUSAN MASALAH

Pada tugas akhir ini masalah yang akan diselesaikan yaitu:

1. Bagaimana memperbaiki kualitas hasil clustering dengan K-means, pada tugas akhir ini Inisialisasi K-means akan dibantu dengan PSO (Particle Swarm Optimization).

2. Bagaimana cara implementasi penggabungan algoritma PSO dan K-means

untuk menghasilkan document clustering yang lebih cepat dalam run-time

dan memiliki hasil kluster yang baik. dimana PSO akan membantu nisialisasi kluster pada K-means.

3. Bagaimana performansi yang didapat dari pengelompokan dokumen berita

menggunakan penggabungan algoritma PSO dan K-means. Dalam Tugas Akhir ini, terdapat beberapa Batasan Masalah :

1. Kelompok dokumen yang dimaksud berasal dari artikel berita bahasa Indonesia.

2. Data yang digunakan untuk proses clustering telah mengalami

preprocessing.

3. Berita diambil dari web dengan mendownload lalu memasukannya secara

manual.

4. Hanya membahas algoritma PSO+K-means, sedangkan algoritma

K-Means murni dan PSO murni hanya digunakan sebagai pembanding.

1.3

TUJUAN

Berdasarkan rumusan masalah diatas, diharapkan akan diperoleh hal-hal sebagai berikut:

1. Mengimplementasikan penggabungan algoritma PSO dan K-means,

dimana PSO digunakan untuk membantu inisialisasi awal untuk kemudian dilakukan proses dengan K-means untuk menghasilkan pengelompokan dokumen.

2. Menganalisa hasil kluster dalam mengelompokan dokumen berbahasa Indonesia dengan melakukan penggabungan algoritma PSO dan K-means,

(4)

3

membandingkan performansi algoritma dengan dievaluasi berdasarkan ADVDC (average distance documents cluster centroid) dari PSO+K-means, K-means murni dan PSO murni.

3. Menganalisis parameter-parameter terbaik pada algoritma particle swarm

optimization untuk melakukan pengelompokan dokumen dengan

menggunakan PSO + K-means.

1.4

METODOLOGI PENELITIAN

Metodologi yang digunakan untuk menyelesaikan masalah dalam Tugas Akhir ini adalah :

1. Studi literatur.

Mencari dan mengumpulkan informasi serta memahami dan mempelajari konsep clustering dan algoritma Public Swarm Optimization, K-Means. literatur berupa makalah, buku, atau jurnal yang berhubungan dengan Clustering, algoritma Particle Swarm Optimization dan K-Means.

2. Pencarian dan pengumpulan data.

Data yang akan digunakan berupa berita berbahasa Indonesia, data-data tersebut didapat dari sumber-sumber web berita seperti kompas.com, detik.com, dll. 3. Analisis dan Perancangan kebutuhan.

Analisis kebutuhan dilakukan dengan merancang sistem kebutuhan perangkat lunak. Pada tahap ini dokumen-dokumen berita yang telah didapat akan dipisahkan menjadi dua bagian yaitu sebagai data preprocessing dan testing. Pada proses perprocessing akan dilakukan pemasukkan dokumen-dokumen. Setelah dimasukkan dokumen tersebut akan dilakukan penghilangan kata-kata yang kurang penting atau yang sering muncul, selanjutnya akan dilakukan penghimpunan kosakata (term) yaitu kata-kata yang unik dari dokumen-dokumen contoh dan dihitung juga frekuensi termnya.

Pada proses testing akan dilakukan pengelompokan dokumen dengan penggabungan PSO dan K-means, pertama PSO akan melakukan inisialisasi, kemudian proses K-means akan dilakukan, dengan menghitung similarity

dokumen dengan centroid cluster hingga kluster terbentuk.Sistem yang akan dibangun akan menangani proses testing.

4. Implementasi aplikasi yang akan dibangun.

Pada tahap ini sistem akan diimplementasikan sesuai dengan hasil analisis sistem kebutuhan perangkat lunak dan akan diuji berdasarkan fungsi-fungsi yang ada, yaitu fungsi untuk proses testing.

5. Pengujian Perangkat Lunak.

Melakukan pengujian perangkat lunak dan menganalisis hasil pengujian untuk mengetahui performansi algoritma PSO+K-means dengan PSO murni dan K-means murni.

6. Pengambilan kesimpulan dan penyusunan laporan tugas akhir.

Menyusun laporan tertulis berdasarkan hasil penelitian yang dilakukan dan memberikan kesimpulan mengenai hasil dari penelitian yang dilakukan, pemberian saran untuk pengembangan perangkat lunak yang dibangun ke depannya.

Powered by TCPDF (www.tcpdf.org)

(5)

44

5.

Kesimpulan dan Saran

5.1

Kesimpulan

Dari uji kinerja dan analisis yang telah dilakukan pada bab IV terhadap 3 dataset yang membandingkan algoritma PSO + means dengan PSO murni dan K-means murni maka dapat diambil kesimpulan sebagai berikut :

1. Jumlah partikel sebagai parameter inputan, dapat mempengaruhi hasil ADVDC, hal ini dikarenakan semakin banyak partikel kemungkinan hasil kluster yang baik semakin besar.

2. PSO + means memiliki kemampuan lebih baik dibandingkan dengan K-means murni dan PSO murni, karena PSO + K-K-means cenderung menghasilkan ADVDC lebih kecil dari keduanya.

3. Proses klasterisasi pada PSO relatif lebih lama dibandingkan PSO + K-means, karena PSO memerlukan iterasi yang lebih banyak untuk mendapatkan nilai ADVDC yang baik, sedangkan PSO+k-means tidak harus dilakukan sebanyak PSO namun setengah PSO dan dilanjutkan dengan K-means dapat menghasilkan ADVDC yang lebih kecil dari pada PSO.

4. Proses klasterisasi pada PSO + means relatif lebih lama dibandingkan K-Means dan dari segi kompleksitas algoritmanya, PSO + K-means lebih kompleks dibandingkan dengan K-Means.

5. Nilai ADVDC tidak dipengaruhi dari jumlah dokumen atau term pada koleksi dokumen, namun dipengaruhi dengan keadaan term pada koleksi dokumen tersebut.

5.2

Saran

1. Untuk memperoleh hasil klaster yang lebih baik, lakukan percobaan sebanyak mungkin.

2. Pengukuran kualitas kluster dilakukan dengan metode yang lain.

3. Dilakukan perbandingan Perhitungan similarity , pembobotan untuk

pengelompokan dokumen dengan algoritma PSO + K-means.

Powered by TCPDF (www.tcpdf.org)

(6)

45

Daftar Pustaka

[1] De Hoon, Michiel dkk. 2007. The C Clustering Library.

http://bonsai.ims.utokyo.ac.jp/~mdehoon/software/cluster/cluster.pdf [1

Mei 2008]. Tokyo: The University of Tokyo.

[2] Everitt, B., 1980. Cluster Analysis. 2nd Edition. Halsted Press, New York.

[3] J. Han, Y. Fu,W.Wang, K. Koperski, and O. Zaiane. Dmql: A datamining

query language

for relational databases. In SIGMOD‟96 Workshop on Research Issues in Data Mining

and Knowledge Discovery (DMKD‟96), Montreal, Canada, 1996.

[4] Khodra, Masayu Leyla. Text Mining, Kategorisasi Text, Naïve Bayes. http://kur2003.if.itb.ac.id/file/TextMiningKlasifikasiNB.pdf [12 Maret 2008]. Bandung: Institut Teknologi Bandung.

[5] Mooney, J. Raymon. Machine Learning Text Categorization. Texas : University of Texas.

[6] Xiaohui Cui, Thomas E. Potok, “Clustering Analysis Based on Hybrid PSO+K-means Algorithm”, Computational Sciences and Engineering Division Oak Ridge National Laboratory. Swarm Intelligence Symposium, 2005. SIS 2005.

[7] Purwatiningsih, Oky. Perangkat Lunak Kamus Berintelegensia untuk Bahasa

Indonesia untuk Menentukan Kelas Kata Berdasarkan Kelas Akar Kata dan

Imbuhan, STT Telkom Bandung, 2006.

[8] Jiawei Han and Micheline Kamber. Data Mining : Concepts and

Techniques.

Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University.

[9] Tan, Pang-Ning. and Kumar, Vipin. Introduction to Data Mining. Pearson Education, Inc., Boston, 2006.

[10] Jiawei Han and Micheline Kamber. Data Mining : Concepts and Techniques. Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University.

[11] Hasan, Rania. 2004. Particle Swarm Optimization : Method and

Application. Engineering Systems Division - Massachusetts Institute of Technology.

[12] http://www.swarmintelligence.org/tutorials.php diakses tanggal 14 Januari 2009

[13] http://en.wikipedia.org/wiki/Swarm_intelligence.html diakses tanggal 13 Januari 2009

[14] Shi, Y. H., Eberhart, R. C., (1998). A Modified Particle Swarm Optimizer, IEEE International Conference on Evolutionary Computation, Anchorage, Alaska, May 4-9, 1998

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

Tracer Study merupakan suatu metode yang ingin diterapkan oleh Fakultas Teknik Universitas Hamzanwadi yang bertujuan untuk melakukan pelacakan data alumni dari Fakultas

Pengaruh pemberian kombinasi konsentrasi ekstrak daun kelor ( Moringa oleifera ) dengan pupuk walne dalam media kultur terhadap laju pertumbuhan dan kandungan karotenoid

Dengan demikian, semakin jelas bahwa proses belajar mengajar IPA lebih ditekankan  pada pendekatan keterampilan proses, hingga siswa dapat menemukan fakta-fakta, membangun

BAB IV PENERAPAN JUSTICE COLLABORATOR DALAM TINDAK PIDANA KORUPSI MENURUT UNDANG-UNDANG NOMOR 31 TAHUN 2014 TENTANG PERLINDUNGAN SAKSI DAN KORBAN DAN PERLINDUNGAN

Namun demikian, bila terdapat permasalahan yang sama dengan karakteristik yang sama pada subjek lain, maka hasil penelitian kualitatif ini dapat pula menjadi

Pasien mengatakan bahwa mata kanan dan kiri keluar air mata terus sejak 1 minggu yang lalu.. Mata kiri lebih parah dari

Berdasarkan hasil penelitian dapat disimpulkan bahwa komposisi tubuh (air, protein dan lemak tubuh) domba lokal jantan yang diberi pakan hijauan dan pakan tambahan dengan tata

Sampel dalam penelitian ini adalah 100 orang mahasiswa Fakultas Ekonomi dan Bisnis progdi Manajemen Universitas Pembangunan Nasional “VETERAN” Surabaya yang telah