PENERAPAN METODE PARTICLE SWARM OPTIMIZATION PADA METODE K-HARMONIC MEANS UNTUK DATA CLUSTERING

(1)

PENERAPAN METODE PARTICLE SWARM OPTIMIZATION PADA METODE

K-HARMONIC MEANS UNTUK DATA CLUSTERING

Yoke Oktaa, Ahmad Saikhu, S.Si,MT.b

Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember, Surabaya Abstrak

Clustering adalah proses pengelompokan objek data ke dalam kelas-kelas berbeda yang disebut cluster sehingga objek yang berada pada cluster yang sama semakin mirip dan berbeda dengan objek pada cluster yang lain. K-Harmonic Means (KHM) merupakan algoritme clustering yang dapat memecahkan masalah inisialisasi pusat cluster pada algoritme K-Means, namun KHM masih belum dapat mengatasi masalah lokal optima. Particle Swarm Optimization (PSO) adalah algoritme stokastik yang dapat digunakan untuk menemukan solusi yang optimal pada sebuah permasalahan numerik, namun PSO memiliki masalah pada kecepatan konvergensi.

Untuk mengatasi masalah tersebut terdapat algoritme Particle Swarm Optimization K-Harmonic Means (PSOKHM) yang merupakan penggabungan dari algoritme KHM dan PSO. Pada tugas akhir ini, digunakan algoritme PSOKHM untuk melakukan clustering data, serta algoritme KHM dan PSO sebagai perbandingan evaluasi hasil cluster berdasarkan nilai objective function, F-Measure, dan running time. Uji coba dilakukan dengan 3 skenario terhadap 5 data set yang berbeda. Berdasarkan hasil uji coba diperoleh bahwa, jika ditinjau dari nilai objective function dan F-Measure, PSOKHM mampu memberikan hasil yang lebih baik. Sedangkan bila dilihat dari running time, PSOKHM mampu mengungguli PSO namun tidak lebih baik daripada KHM.

Kata kunci : Data Clustering, K-Harmonic Means, Particle Swarm Optimization

1. Pendahuluan

Clustering adalah proses pengelompokan objek data ke dalam kelas-kelas berbeda yang disebut cluster sehingga objek yang berada pada cluster yang sama semakin mirip dan berbeda dengan objek pada cluster yang lain [2].

K-Means (KM) adalah salah satu algoritme paling populer

yang digunakan untuk proses partisi clustering karena kelayakan dan efisiensinya pada saat berurusan dengan data yang banyak. Meskipun algoritme tersebut mudah diimplementasikan dan dapat bekerja dengan cepat pada banyak situasi, algoritme KM memiliki beberapa kelemahan, diantaranya hasil cluster sensitif terhadap penentuan awal (inisialisasi) pusat cluster dan hasilnya dapat mengarah kepada lokal optima [2].

Untuk mengatasi masalah yang terjadi pada inisialisasi pusat cluster, Zhang, Hsu, dan Dayal (1999,2000) [8] mengusulkan sebuah algoritme baru yang diberi nama K-Harmonic Means (KHM) yang kemudian dimodifikasi oleh Hammerly dan Elkan (2002). Tujuan dari algoritme ini adalah meminimalisasi rata-rata harmonik dari semua titik pada data set ke seluruh pusat cluster. Meskipun algoritme KHM dapat memecahkan masalah inisialisasi, namun KHM masih belum dapat mengatasi masalah lokal optima [2]. Particle Swarm Optimization (PSO) adalah suatu algoritme stokastik yang dirancang oleh Kennedy dan Eberhart (1995), yang diinspirasi oleh perilaku kawanan burung [4].

Pada paper ini, penulis melakukan eksplorasi bagaimana algoritme PSO dapat membantu algoritme KHM untuk terlepas dari lokal optima. Dengan menggunakan kedua algoritme tersebut, sebuah algoritme hibrid clustering data yang disebut Particle Swarm

Optimization K-Harmonic Means (PSOKHM) dikenalkan

[2]. Berdasarkan hasil uji coba terhadap beberapa data set, didapat bahwa hasil dari algoritme PSOKHM lebih baik daripada KHM dan PSO. Algoritme PSOKHM ini tidak hanya mengatasi masalah lokal optima pada algoritme KHM, namun juga meningkatkan kecepatan konvergensi dari algoritme PSO [2].

Paper ini dapat dibagi sebagai berikut : Bagian 2 memperkenalkan algoritme clustering KHM. Pada bagian 3 dijelaskan bagaimana algoritme PSO dipakai pada proses clustering. Bagian 4 menjelaskan Algoritme hibrid PSOKHM. Bagian 5 berisi implementasi dan hasil uji coba terhadap 5 data set, yaitu Iris, Glass, Cancer, CMC, dan Wine. Kemudian yang terakhir, bagian 6 berisi kesimpulan.

2. Metode clustering K-Harmonic Means

K-Harmonic means merupakan salah satu metode clustering berbasis terpusat yang diperkenalkan oleh Zhang pada tahun 1999 yang kemudian dikembangkan oleh Hammerly dan Elkan pada tahun 2002. Tujuan dari algoritme ini adalah meminimalisasi rata-rata harmonik dari semua titik pada data set ke seluruh pusat cluster. Pada K-Means setiap titik data hanya dimasukkan ke satu centroid, yang berarti setiap titik data hanya memiliki keterkaitan dengan centroid dimana data tersebut dimasukkan. Pada area dengan lokal density antara titik data dengan centroid yang tinggi, centroid memiliki kemungkinan tidak dapat bergerak dari suatu titik data walaupun faktanya terdapat centroid kedua didekatnya. Centroid kedua ini mungkin saja memiliki solusi lokal yang lebih buruk, namun efek global dalam penempatan ulang satu dari dua centroid tersebut mungkin saja dapat berguna bagi proses clustering untuk mendapatkan hasil yang lebih baik. Proses penukaran centroid tersebut tidak dapat terjadi pada algoritme K-Means [8].

Pada algoritme KHM, setiap titik data dicari jaraknya ke semua centroid. Rata-rata harmonik sensitif terhadap fakta adanya 2 atau lebih centroid yang berada dekat suatu titik data. Algoritme ini secara natural akan menukar satu atau lebih centroid ke area dimana terdapat suatu titik data yang tidak memiliki centroid di dekatnya. Sehingga semakin baik hasil clusternya, nilai fungsi objektifnya akan semakin kecil [8].

Notasi berikut digunakan untuk merumuskan algoritme KHM [2]:

X = {x1,...,xn} : data yang dicluster C = {c1,...,ck} : kumpulan pusat cluster

(2)

m(cj|xi) : fungsi anggota yang mendefinisikan proporsi dari data point xi milik pusat cj.

w(xi) : fungsi bobot yang mendefinisikan seberapa besar pengaruh yang dimiliki data point xi pada proses komputasi ulang parameter centroid pada iterasi selanjutnya.

Algoritme KHM dapat dilihat pada Gambar 2.1 dan 2.2.

Gambar 2.1 Flowchart algoritme KHM bag.1 3. Particle Swarm Optimization

Metode PSO diperkenalkan oleh Kennedy dan Eberhart pada tahun 1995. PSO menggunakan sekumpulan partikel yang bekerjasama, dimana setiap partikel merepresentasikan satu kandidat solusi, untuk mengeksplorasi solusi-solusi yang memungkinkan bagi permasalahan optimasi. Masing-masing partikel diinisialisasi secara acak atau heuristik, kemudian partikel – partikel tersebut diperbolehkan untuk “terbang”. Pada setiap langkah optimasi, masing-masing partikel diperbolehkan untuk mengevaluasi kemampuannya dan kemampuan partikel-partikel di sekitarnya. Masing-masing partikel dapat menyimpan solusi yang menghasilkan kemampuan terbaik sebagai salah satu kandidat solusi terbaik untuk semua partikel disekitarnya [4].

PSO diinisialisasi dengan pembuatan matriks secara acak. baris di matriks disebut dengan partikel. Baris-baris tersebut mengandung variabel nilai. Masing-masing partikel akan berpindah berdasarkan jarak dan kecepatan. Partikel memperbaharui kecepatan (velocity) dengan persamaan 3.1 dan posisinya berdasarkan solusi terbaik lokal dan global dengan persamaan 3.2 [4].

Vit+1 = ωVit + C1*R1*(Pit – Xit) + C2*R2*(Pgt-Xit) (3.1)

Gambar 2.2 Flowchart algoritme KHM bag.2

Xit+1 = Xit + Vit+1 (3.2)

Variabel i merupakan partikel ke-i dalam kawanan, t merupakan jumlah iterasi, Vi adalah kecepatan partikel ke-I dan Xi adalah variabel partikel vektor (contohnya posisi vektor) dari partikel ke-i pada permasalahan N dimensional.

Pi adalah solusi terbaik lokal partikel ke-i yang diperoleh, dan Pg adalah solusi terbaik global dari seluruh partikel dimana Pi dan Pg diperoleh berdasarkan nilai fitness yang terbaik [4].

R1 dan R2 merupakan bilangan acak antara 0 dan 1, ω adalah beban partikel disebut sebagai innertia weight, C1 dan C2 adalah dua konstanta bilangan, sering disebut sebagai cognitive confidence coefficient [4].

Partikel PSO pada kasus data clustering adalah matrix centroid dari tiap cluster yang dibentuk. Representasi partikel PSO dapat dilihat pada Gambar 3.1.

Gambar 3.1 Representasi partikel

Dimana k adalah jumlah cluster yang dibentuk dan d adalah dimensi data. Fitness function yang digunakan pada kasus ini adalah objective function pada algoritme KHM [2]. Algoritme PSO dapat dilihat pada Gambar 3.2 - 3.4.

ya

tidak

1 ₂

Untuk setiap data point xi, hitung bobot w(xi)

berdasarkan : w(xi) = ||𝑥_𝑖−𝑐_𝑗||−𝑝−2 𝐾 𝑗 =1 ( 𝐾𝑗 =1||𝑥𝑖−𝑐𝑗||−𝑝)2

Untuk setiap pusat cj, hitung ulang lokasinya

terhadap semua data point xi berdasarkan

keanggotaan dan bobotnya : cj = 𝑚 𝑐_𝑗 𝑥_𝑖 𝑤(𝑥_𝑖)𝑥_𝑖 𝑛 𝑖=1 𝑚 𝑐_𝑗 𝑥_𝑖 𝑤 (𝑥_𝑖) 𝑛 𝑖=1

Jika lewat batas iterasi atau nilai KHM(X,C) tidak berubah secara signifikan

Selesai

Masukkan data point xi ke cluster j dengan

nilai m(cj|xi) yang terbesar

Hitung F-Measure

ya

Input data set dan parameter

1

Hitung Objective function berdasarkan :

KHM(X,C) = 𝑘 1 ||𝑥𝑖−𝑐𝑗 ||𝑝 𝑘 𝑗 =1 𝑁 𝑖=1

Inisialisasi centroid sebanyak jumlah cluster dengan memilih secara

random dari data

2 Untuk setiap data point xi, hitung keanggotaan m(cj|xi)

pada setiap pusat cj berdasarkan :

m(cj|xi) = ||𝑥𝑖−𝑐𝑗||−𝑝 −2 ||𝑥𝑖−𝑐𝑗||−𝑝−2 𝑘 𝑗 =1 Mulai x11 x12 ... x1d ... xk1 xk2 ... xkd

(3)

Gambar 3.2 Flowchart algoritme PSO bag.1

Gambar 3.3 Flowchart algoritme PSO bag.2

Gambar 3.4 Flowchart algoritme PSO bag.3 4. Algoritme PSOKHM

KHM merupakan algoritme clustering yang dapat memecahkan masalah inisialisasi pusat cluster pada algoritme K-Means. Meskipun algoritme KHM dapat memecahkan masalah inisialisasi, namun KHM masih belum dapat mengatasi masalah lokal optima. Untuk mendapatkan solusi optimal, terdapat algoritme stokastik yang bernama PSO, namun algoritme PSO memiliki masalah pada kecepatan konvergensi. Untuk mengatasi masalah tersebut, Fengqin Yang, Tieli Sun, dan Changhai Zhang (2009) mengintegrasikan algoritme PSO dengan KHM, sehingga didapat algoritme clustering hybrid yang disebut PSOKHM. Algoritme PSOKHM menggunakan KHM dengan empat kali iterasi terhadap partikel setiap delapan generasi sehingga fitness value dari setiap partikel meningkat. Partikel adalah sebuah vektor dari bilangan real dari dimensi k*d, dimana k adalah banyak cluster dan d adalah dimensi data yang dicluster. Fitness function yang dipakai untuk algoritme PSOKHM adalah objective function dari algoritme KHM [2]. Algoritme PSOKHM dapat dilihat pada Gambar 4.1 dan 4.2.

5. Uji Coba

Uji coba dilakukan terhadap algoritme KHM, PSO, dan PSOKHM dengan skenario sebagai berikut :

1. Uji coba dengan parameter p = 2,5 2. Uji coba dengan parameter p = 3 3. Uji coba dengan parameter p = 3,5

Lima data set digunakan sebagai input untuk uji coba terhadap sistem. Data set yang digunakan adalah Iris, Glass, Cancer, CMC, dan Wine, dimana kelima data set tersebut disimpan pada file bernama sama dengan ekstensi data. Data set bisa didapatkan dari website : ftp://ftp.ics.uci.edu./pub/machine-learning-databases/. Karakteristik setiap data set dapat dilihat pada Tabel 5.1. Selain lima data set yang telah disebutkan di atas, terdapat beberapa input parameter yang dapat dilihat pada Tabel 5.2.

1

Input data set dan parameter k, p, Swarm size, c1, c2 , dan

Inertia

Inisialisasi particle sebanyak Swarm size dengan memilih secara random dari data

Inisialisasi velocity = 0 untuk tiap particle

Untuk setiap particle pc Update velocity particle i berdasarkan : Vpct+1 = ωVpct + C1*R1*(Ppct – Xpct) + C2*R2*(Pgt-Xpct)

Update posisi particle i berdasarkan : Xpct+1 = Xpct + Vpct+1 2 Mulai t = t+1 1 Update pbestpc t dan gbestt Jika KHMpct < KHMpct-1

Untuk setiap particle pc

Untuk setiap data point xi, hitung keanggotaan

m(cj|xi) pada setiap pusat cj berdasarkan : mpc(cj|xi) =

||𝑥_𝑖−𝑐_𝑗||−𝑝 −2 ||𝑥_𝑖−𝑐_𝑗||−𝑝 −2 𝑘

𝑗 =1

Untuk setiap particle pc Hitung Objective function berdasarkan :

KHMpc(X,C) = 𝑘 1 ||𝑥𝑖−𝑐𝑗 ||𝑝 𝑘 𝑗 =1 𝑁 𝑖=1 3 tidak ya 3 2

Jika t lewat batas iterasi

Pilih particle pc dengan nilai KHMpc(X,C) terkecil

Selesai

nilai mpc(cj|xi) yang terbesar

Hitung F-Measure

tidak

(4)

Tabel 5.1 Karakteristik data set masukan

Nama data set Jumlah kelas (k) Jumlah fitur (d) Jumlah data (n) Iris 3 4 150 Glass 6 9 214 Cancer 2 9 683 CMC 3 9 1473 Wine 3 13 178

Tabel 5.2 Nilai parameter masukan

Parameter Nilai

p 2,5 , 3, dan 3,5

k Sesuai data set

Iteration 10

Swarm size 20

c1 1.49618

c2 1.49618

Inertia 0.7298

Gambar 4.1 Flowchart algoritme PSOKHM bag.1

Gambar 4.2 Flowchart algoritme PSOKHM bag.2

Nilai parameter p yang digunakan untuk uji coba sistem adalah 2,5, 3, dan 3,5. Nilai parameter k yang diinputkan tergantung dari banyak kelas dari tiap data set yang dapat dilihat pada kolom jumlah kelas (k) pada Tabel 5.1. Sedangkan nilai untuk parameter yang lain yaitu Iteration, Swarm size, c1, c2, dan Inertia sesuai dengan yang ada pada Tabel 5.2. Nilai parameter tersebut dipilih berdasarkan penelitian seleksi parameter PSO yang dilakukan oleh Shi dan Eberhart [6].

Masing-masing algoritme dijalankan sebanyak 10 kali untuk setiap data set, kemudian kualitas dari hasil clustering dari ketiga algoritme dibandingkan berdasarkan : 1. Nilai objective function KHM(X,C) yaitu hasil penjumlahan rata-rata harmonik antara titik data dengan seluruh centroid. Semakin kecil nilai KHM(X,C) , semakin baik kualitas cluster tersebut. 2. F-Measure adalah nilai yang didapatkan dari

pengukuran precision dan recall antara class hasil cluster dengan class sebenarnya yang terdapat pada data masukan.

Precision dan recall bisa didapatkan dengan dengan rumus sebagai berikut [2]:

Precision (i,j) = 𝑛𝑖𝑗

𝑛𝑗 (5.1)

Input data set dan parameter k, p, Swarm size, c1, c2, dan Inertia

Inisialisasi particle sebanyak swarm size dengan memilih secara random dari data Inisialisasi velocity = 0 untuk tiap particle

Gen1 = 0

Lakukan Modul PSO untuk mengupdate particle pc

Gen2 = Gen2+1

Jika Gen2 < 8

Untuk setiap particle pc Ambil posisi particle pc sebagai

centroid awal Gen2 = Gen3 = 0 ya tidak 1 2 Mulai

nilai mpc(cj|xi) yang terbesar

Hitung F-Measure ya tidak ya tidak 1 2 Selesai Untuk setiap particle pc Update tiap centroid dengan

menjalankan modul KHM Gen3 = Gen3+1

Jika Gen3 < 4

Jika Gen1 < 5

Pilih particle pc dengan nilai KHMpc(X,C) terkecil

(5)

Recall (i,j) = 𝑛𝑖𝑗

𝑛𝑖 (5.2)

Sedangkan rumus untuk menghitung nilai F-Measure kelas i dengan cluster j adalah sebagai berikut [2] : F(i,j) = 𝑏

2_{+1 .(𝑝 𝑖,𝑗 .𝑟(𝑖,𝑗 ))}

𝑏2_{.𝑝 𝑖,𝑗 +𝑟(𝑖,𝑗 )} (5.3)

ni adalah jumlah data dari kelas i yang diharapkan sebagai hasil query, nj adalah jumlah data dari cluster j yang dihasilkan oleh query, dan nij adalah jumlah elemen dari kelas i yang masuk di cluster j . Untuk mendapatkan pembobotan yang seimbang antara precision dan recall, digunakan nilai b = 1.

Untuk mendapatkan nilai F-Measure dari data set dengan jumlah data n, maka rumus yang digunakan adalah sebagai berikut :

F = 𝑖 𝑛𝑖_𝑛 𝑚𝑎𝑥𝑗{𝐹(𝑖, 𝑗)} (5.4)

Semakin besar nilai F-Measure, semakin baik kualitas cluster tersebut [2].

Algoritme diimplementasikan menggunakan Matlab 7.0 pada Intel Pentium Dual Core 1.86 GHz dengan RAM 1 GB. Dari hasil uji coba sistem terhadap 3 skenario yaitu parameter p = 2.5, 3, dan 3.5 didapatkan hasil objective function, F-Measure, dan running time dari ketiga algoritme yang dapat dilihat pada Tabel 5.3-5.5. Nilai yang dicetak tebal adalah nilai terbaik dan yang dicetak miring adalah yang terbaik kedua.

Tabel 5.3 Hasil dari modul KHM, PSO, dan PSOKHM

pada lima data set dengan p = 2.5

Jika dilakukan uji t dan ANOVA terhadap hasil objective function KHM (X,C), F-Measure, dan running time dari ketiga modul yang terdapat dalam Tabel 5.3 – 5.5, didapatkan hasil sebagai berikut :

a. Berdasarkan nilai confidence interval dari hasil uji t terhadap objective function KHM (X,C) pada Gambar 5.1, didapatkan bahwa hasil dari algoritme PSOKHM lebih baik daripada algoritme KHM dan PSO. Dari Gambar 5.1 juga dapat dilihat bahwa perbedaan hasil objective function dari ketiga algoritme tidak signifikan. Hal ini dapat dilihat dari nilai P yang besar.

pada lima data set dengan p = 3

pada 5 data set dengan p = 3.5

Gambar 5.1 Hasil uji t dan Anova terhadap objective

function KHM (X,C) KHM PSO PSOKHM Iris KHM(X,C) F-Measure Running Time 148.904 0.849 0.114 178.793 0.859 7.895 148.876 0.871 4.481 Glass KHM(X,C) F-Measure Running Time 1193.531 0.534 0.989 1467.350 0.558 33.514 1182.752 0.537 19.639 Cancer KHM(X,C) F-Measure Running Time 58404.397 0.851 0.356 70215.025 0.799 40.459 58256.864 0.850 23.092 CMC KHM(X,C) F-Measure Running Time 96201.477 0.463 2.678 115027.103 0.482 110.740 96188.510 0.477 69.706 Wine KHM(X,C) F-Measure Running Time 75338585.310 0.690 0.939 79346405.488 0.705 22.185 75338461.109 0.694 12.637 KHM PSO PSOKHM Iris KHM(X,C) F-Measure Running Time 126.078 0.868 0.092 155.417 0.895 3.615 125.955 0.871 2.050 Glass KHM(X,C) F-Measure Running Time 1397.113 0.579 0.346 2086.810 0.549 13.750 1396.194 0.579 8.004 Cancer KHM(X,C) F-Measure Running Time 116341.723 0.800 0.326 147307.055 0.767 17.582 115452.663 0.826 10.389 CMC KHM(X,C) F-Measure Running Time 187018.21 0.481 1.270 240311.98 0.469 45.456 186946.87 0.464 25.814 Wine KHM(X,C) F-Measure Running Time 1049090406.35 0.649 0.532 1178075510.12 0.639 7.628 1049127312.42 0.648 4.342 KHM PSO PSOKHM Iris KHM(X,C) F-Measure Running Time 109.823 0.868 3.856 166.177 0.873 7.707 109.694 0.874 4.367 Glass KHM(X,C) F-Measure Running Time 1881.275 0.580 0.598 3511.627 0.539 35.464 1856.299 0.575 21.132 Cancer KHM(X,C) F-Measure Running Time 237918.712 0.827 0.771 313623.409 0.870 40.382 234207.637 0.826 23.232 CMC KHM(X,C) F-Measure Running Time 380733.235 0.459 7.831 551419.214 0.459 113.454 380462.021 0.449 69.746 Wine KHM(X,C) F-Measure Running Time 15446251626.98 0.649 6.207 16466326808.29 0.635 21.521 14203924927.48 0.652 12.451

(6)

b. Berdasarkan nilai confidence interval dari hasil uji t terhadap F-Measure pada Gambar 5.2, didapatkan bahwa hasil dari algoritme PSOKHM lebih baik daripada algoritme KHM dan PSO. Karena nilai F-Measure semakin baik jika nilainya semakin besar, maka nilai confidence intervalnya dilihat berlawanan.

Gambar 5.2 Hasil uji t dan Anova terhadap F-Measure

Dari Gambar 5.2 juga dapat dilihat bahwa perbedaan hasil F-Measure dari ketiga algoritme tidak signifikan. Hal ini dapat dilihat dari nilai P yang besar.

c. Berdasarkan nilai confidence interval dari hasil uji t terhadap running time pada Gambar 5.3, didapatkan bahwa hasil dari algoritme PSOKHM lebih baik daripada algoritme PSO, namun lebih buruk jika dibandingkan dengan algoritme KHM.

Gambar 5.3 Hasil uji t dan Anova terhadap Running time

Dari hasil uji ANOVA terhadap running time terdapat perbedaan yang signifikan antara algoritme KHM dengan algoritme PSO dan PSOKHM, hal ini dapat dilihat dari nilai P mendekati nilai 0.

6. Kesimpulan

Setelah dilakukan rangkaian uji coba dan analisis terhadap sistem yang dibuat, maka dapat diambil kesimpulan sebagai berikut :

a. Algoritme PSOKHM dapat menyelesaikan permasalahan data clustering dengan performa yang lebih baik dibandingkan dengan algoritme KHM dan PSO jika dilihat pada hasil objective function KHM(X,C) dan F-Measure.

b. PSOKHM tidak hanya meningkatkan kecepatan konvergensi pada algoritme PSO, namun juga membantu algoritme KHM untuk terlepas dari lokal optima.

c. Jika dibandingkan dengan algoritme KHM, algoritme PSOKHM memerlukan waktu yang lebih lama pada proses komputasi, sehingga PSOKHM sebaiknya tidak diaplikasikan apabila waktu yang disediakan sangat terbatas.

Daftar Pustaka

[1] Cui, X., & Potok, T. E. (2005). Document clustering using Particle Swarm Optimization. In: IEEE swarm intelligence symposium. Pasadena, California. [2] Fengqin Yang, Tieli Sun, Changhai Zhang. 2009, An

efficient hybrid data clustering method based on K-harmonic means and Particle Swarm Optimization.

[3] Hammerly, G., & Elkan, C. (2002). Alternatives to the k-means algorithm that find better clusterings. In: Proceedings of the 11th international conference on information and knowledge management (pp. 600– 607).

[4] Kennedy, J., & Eberhart, R. C. (1995). Particle

swarm optimization. In Proceedings of the 1995 IEEE

international conference on neural networks (pp. 1942–1948). New Jersey: IEEE Press.

[5] Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. 2009. Introduction to Information

Retrieval. Cambridge University Press.

[6] Shi, Y. H., Eberhart, R. C., 1998. Parameter Selection in Particle Swarm Optimization, The 7th Annual Conference on Evolutionary Programming, San Diego, CA.

[7] Ünler, A., & Güngör, Z. (2008). Applying K-harmonic means clustering to the partmachine classification problem. Expert Systems with Applications

[8] Zhang, B., Hsu, M., & Dayal, U. (1999). K-harmonic means – a data clustering algorithm. Technical Report HPL-1999-124. Hewlett-Packard Laboratories.