• Tidak ada hasil yang ditemukan

METODE KLASTERISASI DATA BERBASIS ARTIFICIAL BEE COLONY DAN K-HARMONIC MEANS

N/A
N/A
Protected

Academic year: 2021

Membagikan "METODE KLASTERISASI DATA BERBASIS ARTIFICIAL BEE COLONY DAN K-HARMONIC MEANS"

Copied!
27
0
0

Teks penuh

(1)

Oleh :

I Made Widiartha

NRP. 5109201009

Dosen Pembimbing :

Dr. Agus Zainal Arifin, S.Kom, M.Kom

Anny Yuniarti, S.Kom, M.Comp.Sc

METODE KLASTERISASI DATA BERBASIS

ARTIFICIAL BEE COLONY DAN K-HARMONIC MEANS

TESIS

PROGRAM MAGISTER

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNOLOGI INFORMASI

INSTITUT TEKNOLOGI SEPULUH NOPEMBER

2011

(2)

Pendahuluan

2

Latar Belakang :

Clustering : pengelompokkan data kedalam beberapa klaster sehingga data

dalam satu klaster memiliki tingkat kemiripan yang maksimum dan data

antar klaster memiliki kemiripan yang minimum (Theodoridis, 2006).

K-Harmonic Means (KHM) : metode klasterisasi data yang berhasil

mengurangi sensitifitas hasil klaster pada inisialisasi centroid K-Means

(Zhang, 1999)

Namun demikian masih terdapat kemungkinan hasil metode KHM ini

merupakan solusi lokal optimal (Yang, 2009).

Perlu dilakukan perubahan algoritma dalam KHM agar hasil klaster

merupakan solusi global optimal

Meng-enhance KHM dengan memanfaatkan suatu algoritma yg memiliki

(3)

Pendahuluan

3

Artificial Bee Colony (ABC)  Karaboga (2005)

suatu algoritma yang mengadopsi perilaku mencari makan

dari koloni lebah madu.

ABC : algoritma dengan solusi global yang memiliki kualitas

yang lebih baik atau setara dengan GA, PSO, Differential

Evolution (DE), dan Evolution Strategies (ES) (Karaboga,

2009a)

Dalam penelitian ini akan diusulkan sebuah algoritma baru

yaitu hibridasi antara ABC dan KHM.

ABC-KHM ini diharapkan mampu mengoptimalkan posisi

titik pusat klaster yang mengarah pada solusi global

optimal.

(4)

Rumusan Masalah

4

Bagaimana metode ABC-KHM menentukan posisi

titik pusat awal dari sebaran data yang ada.

Bagaimana memperbaharui posisi titik pusat di

setiap iterasi dalam metode ABC-KHM.

Bagaimana menentukan hasil klaster dan mengukur

(5)

Tujuan

5

Melakukan klasterisasi data dengan menggunakan

metode hibridasi antara ABC dan KHM yang

diharapkan mampu mengoptimalkan posisi titik

pusat klaster yang mengarah pada suatu solusi

global optimal.

(6)

Kajian Pustaka

6

Ada 2 Tipe Pengklasteran Data (Tan, 2006) :

Partisi :

Klaster dibentuk dengan membagi obyek/data kedalam

non-overlapping subset (klaster).

Hirarki :

Klaster dibentuk melalui pembentukan klaster bersarang

(nested cluster) yang diimplemen-tasikan dalam bentuk

tree (pohon).

(7)

Kajian Pustaka

7

K-Harmonic Clustering (KHM) :

metode pengklasteran secara partisi dengan bentuk

center-based cluster.

Objective function/fungsi tujuan (Zhang,1999):

Total rata-rata harmonik dari jarak antara masing-masing titik data ke

seluruh centroid yang ada.

Rata-rata Harmonik :

K i i i

a

K

K

i

a

HA

1

1

})

,...,

1

|

({

(8)

Kajian Pustaka : Algoritma KHM

8

Mulai

Input dataset

dan parameter

Inisialisasi k centroid awal

secara random

ya

tidak

Selisih ≤

Selesai

A

A

    N i K l p l i c x K C X KHM 1 1| | | | 1 ) , (

    

k l p l i p l i i l

c

x

c

x

x

c

m

1 2 2

||

||

||

||

)

|

(

2 1 1 2

||

||

||

||

)

(

     K l p l i K l p l i i

c

x

c

x

x

w

 

N i i i l N i l i i i l

x

w

x

c

m

x

x

w

x

c

m

c

1 1

)

(

).

|

(

).

(

).

|

(

(9)

Artificial Bee Colony (ABC)

9

ABC  Dervis Karaboga (2005)

Dalam ABC, Bee Koloni dibagi 3 :

Employed bee (lebah pekerja)

Onlooker bee (lebah penunggu sarang)

Scouts (lebah penjelajah)

Posisi sumber makanan  possible solution

Nilai fitness  jumlah nektar

Jumlah employed bee = Jumlah lebah onlooker = jumlah

(10)

Algoritma Artificial Bee Colony

10

Mulai

Siklus = 1

Untuk setiap employed bee : • Tentukan posisi titik pusat baru • Hitung nilai fitness

• Greedy selection

Hitung probabilitas

lebah pekerja

Untuk setiap onlooker bee :

• Pilih seekor lebah pekerja (roulette wheel) • Tentukan posisi titik pusat baru

• Tentukan nilai fitness • Greedy selection

Input dataset

dan parameter

Inisialisasi k titik pusat

secara random

tidak

ya

ya

tidak

Ada titik pusat yang harus ditinggalkan

Selesai

Kirim scout :

• Tentukan titik pusat baru secara random

• Hitung nilai fitness • Greedy selection

Siklus = Siklus + 1

Siklus > MCN

Hitung nilai fitness

A

A

Ilustrasi

Tentukan Solusi

Terbaik

(11)

Ilustrasi

Algoritma

i i

f

fit

1

1

SN

n

n

i

i

fit

fit

p

1

)

z

(z

z

v

ij

ij

ij

ij

kj

)

z

(z

rand

z

z

i

j

min

j

(

0

,

1

)

max

j

min

j

Cost function :

Nilai fitness :

Probabilitas food source :

Kandidat tetangga untuk

employed dan onlooker :

Penentuan food source

oleh scout :

Sarang

 

N i K l p l i i

c

x

K

f

1 1

| |

| |

1

(12)

Metodologi Penelitian

12

Langkah-Langkah Penelitian :

Pembuatan Perangkat Lunak

Desain Model Sistem

Pengumpulan Data

Uji Coba

(13)

Metodologi Penelitian

13

Data

:

ftp://ftp.ics.uci.edu./pub/machine-learning-databases/

Informasi data :

Dataset

Fitur

Kelas

Jumlah Data

Training

Testing

Iris

4

3

120

30

Cancer

9

2

546

137

CMC

9

3

1178

295

Glass

9

6

171

43

Wine

13

3

142

36

(14)

Metodologi Penelitian

14

Parameter masukkan :

Nama

Keterangan

K

Jumlah klaster

P

Parameter pada fungsi tujuan

Limit

Batas jumlah iterasi utk penentuan abandoned food source

MCN

Jumlah iterasi maksimum pada ABC

SN

Jumlah solusi pada ABC (k)

Max1

Jumlah iterasi maksimum fase lebah pada ABC-KHM

Max2

Jumlah iterasi maksimum fase KHM pada ABC-KHM

MaxABCKHM Jumlah iterasi maksimum metode ABC-KHM

(15)

Proposed Method (ABC-KHM)

Posisi titik pusat

terbaik lebah

Mulai

Inisialisasi k titik pusat secara random

Input dataset dan Parameter

GenABCKHM = 1

Gen1 = 1 Gen2 = 1

Gen1 ≤ Max1

Update titik pusat EB dan OB dengan

tahapan update pada ABC

Gen1 = Gen1 + 1

ya

Update titik pusat dengan

tahapan update pada KHM

Selisih > && Gen2 ≤ Max2 Gen2 = Gen2 + 1 tidak ya tidak GenABCKHM = GenABCKHM + 1 (Titik pusat hasil KHM menjadi

tetangga acuan untuk lebah)

GenABCKHM ≤MaxABCKHM

Tetapkan keanggotaan tiap

data pada klaster

Titik pusat ABCKHM dan anggotanya

Selesai ya

tidak

Posisi titik pusat KHM

A

(16)

Hasil Uji Coba

Perbandingan Ketiga metode dengan p = 2

16

P=2

KHM

ABC

ABC-KHM

Nilai

Std

Nilai

Std

Nilai

Std

Iris Fs. Tujuan 152,8758 0,0011 164,2891 5,0210 152,8691 0 F-Measure 0,8977 0 0,8875 0,0122 0,8977 0 Waktu 0,09 0,0268 20,629 0,6130 3,42 0,1367 Cancer Fs. Tujuan 24.580,5932 0,0002 37.873,5624 3978,7 24.580,5927 0 F-Measure 0,9503 0 0,9385 0,0110 0,9503 0 Waktu 0,21 0,0191 37,79 1,2809 6,45 0,1934 Cmc Fs. Tujuan 980,4407 2,6242 1.062,8230 21,356 977,3939 0,0017 F-Measure 0,3888 0,0147 0,3821 0,0162 0,3808 0 Waktu 1,54 0,5526 93,53 1,6248 19,71 1,4003 Glass Fs. Tujuan 34,5193 0,0403 35,1344 0,8723 34,4618 0,0002 F-Measure 0,4199 0,0078 0,4224 0,0129 0,4297 0,0019 Waktu 0,40 0,0684 94,90 8,3972 18,56 1,7289 Wine Fs. Tujuan 68,6941 0,0008 77,3054 2,6651 68,6922 0 F-Measure 0,9231 0,0036 0,8607 0,0741 0,9283 0 Waktu 0,13 0,0167 43,11 1,0952 7,84 0,1904

(17)

Hasil Uji Coba

Perbandingan Ketiga metode dengan p = 3

17

P=3

KHM

ABC

ABC-KHM

Nilai

Std

Nilai

Std

Nilai

Std

Iris Fs. Tujuan 154,3991 0,0015 172,2733 10,3717 154,3962 0 F-Measure 0,8977 0 0,8749 0,0186 0,8977 0 Waktu 0,08 0,0170 22,066 0,7765 3,88 0,1371 Cancer Fs. Tujuan 208.486,2686 0,0002 321.926,5015 39638,6 208.486,2681 0 F-Measure 0,9387 0 0,9142 0,0217 0,9387 0 Waktu 0,21 0,0223 46,97 2,4773 8,31 0,4414 Cmc Fs. Tujuan 947,3022 0,0023 1.176,9128 138,48 947,2944 0 F-Measure 0,3966 0,0010 0,3695 0,0394 0,3985 0 Waktu 1,05 0,2370 108,10 3,5080 21,34 0,4133 Glass Fs. Tujuan 21,0367 0,4727 20,6751 0,2951 20,0627 0,1446 F-Measure 0,3726 0,0205 0,4134 0,0113 0,3895 0,0125 Waktu 0,37 0,0707 100,55 1,5090 19,36 0,5157 Wine Fs. Tujuan 46,0725 1,2846 57,7028 4,0897 45,6652 0 F-Measure 0,9361 0,0318 0,8742 0,1026 0,9501 0 Waktu 0,11 0,0190 44,46 0,6611 7,66 0,1359

(18)

Hasil Uji Coba

Perbandingan Ketiga metode dengan p=4

18

P=4

KHM

ABC

ABC-KHM

Nilai

Std

Nilai

Std

Nilai

Std

Iris Fs. Tujuan 231,5938 11,418 188,9512 20,464 167,1305 7,5782 F-Measure 0,8914 0,0043 0,8805 0,0166 0,8977 0 Waktu 0,61 0,0224 22,480 0,4403 4,73 0,2446 Cancer Fs. Tujuan 1.911.352,850 0,0010 3.219.061,259 455314,8 1.911.352,839 0 F-Measure 0,9310 0 0,8737 0,0500 0,9310 0 Waktu 0,70 0,0996 45,00 0,9016 8,56 0,7086 Cmc Fs. Tujuan 917,9539 0,0023 1.214,9749 167,71 917,9464 0 F-Measure 0,4101 0 0,3898 0,0187 0,4101 0 Waktu 1,01 0,3467 105,98 2,6598 21,74 0,4365 Glass Fs. Tujuan 12,2472 0,5176 12,4770 0,6613 11,5253 0,3626 F-Measure 0,3221 0,0241 0,3568 0,0071 0,3577 0,0240 Waktu 0,32 0,0689 100,93 1,8059 19,05 0,7974 Wine Fs. Tujuan 31,0154 0,0007 39,4948 3,0674 31,0143 0 F-Measure 0,9428 0 0,8998 0,0264 0,9428 0 Waktu 0,09 0,0202 44,61 1,2602 7,94 0,2325

(19)

Grafik Perbandingan Fungsi Tujuan

19

(20)

Grafik Perbandingan Fungsi Tujuan

20

Cancer

Cmc

(21)

Grafik Perbandingan F-measure

21

(22)

Hasil Uji Coba

Grafik Perbandingan F-measure

22

Cancer

Cmc

(23)

Hasil Uji Coba

Perbandingan kesalahan klasifikasi untuk p=2

I = KHM ; II = ABC ; III = ABC-KHM

23

Perc

Iris

Cancer

CMC

Glass

Wine

I II III I II III

I

II

III

I

II

III

I

II

III

1

3

3

3

1

3

1

184

180

184

17 27

17

2

3

2

2

3

3

3

1

5

1

184

193

184

23 24

23

2

1

2

3

3

2

3

1

1

1

178

195

184

23 23

17

2

6

2

4

3

3

3

1

2

1

184

184

184

23 23

17

2

3

2

5

3

3

3

1

9

1

161

179

184

23 23

17

2

5

2

6

3

3

3

1

4

1

184

193

184

23 23

17

2

7

2

7

3

3

3

1

2

1

178

195

184

17 23

17

2

2

2

8

3

4

3

1

4

1

188

186

184

23 23

17

2

5

2

9

3

5

3

1

3

1

165

189

184

23 18

17

2

6

2

10

3

3

3

1

3

1

177

182

184

17 23

17

2

3

2

(24)

Hasil Uji Coba

Perbandingan kesalahan klasifikasi

Untuk p=3

24

(25)

Kesimpulan dan Saran

25

Kesimpulan :

Metode ABC-KHM telah berhasil mengoptimalkan posisi titik

pusat klaster yang mengarahkan hasil klaster menuju solusi

global.

Dalam hal pengukuran hasil klaster secara eksternal (kelas

label) dengan menggunakan F-Measure, metode ABC-KHM

juga telah menunjukkan dominasinya dibandingkan dengan

dua metode lainnya.

Dari sisi waktu yang dibutuhkan untuk melakukan proses

klasterisasi data, metode ABC-KHM berada diantara metode

ABC dan metode KHM

(26)

Kesimpulan dan Saran

26

Saran :

Metode ABC-KHM memerlukan waktu yang relatif

jauh lebih lama jika dibandingkan dengan metode

KHM, sehingga perlu untuk dilakukan pengembangan

terhadap metode ABC-KHM ini untuk mendapatkan

waktu proses yang lebih cepat.

(27)

Daftar Pustaka

27

Zhang, B., Hsu, M., dan Dayal, U. (1999), K-Harmonic Means – A Data Clustering

Algorithm, Technical Report HPL-1999-124, Hewlett-Packard Laboratories.

Karaboga, D. dan Akay, B. (2009a), “A Comparative Study of Artificial Bee Colony

Algorithm”, Applied Mathematics and Computation, Vol 214, hal. 108–132.

Karaboga, D. dan Ozturk, C. (2009b), “A Novel Clustering Approach: Artificial Bee

Colony (ABC) Algorithm”, Applied Soft Computing, Vol. 11, hal. 652–657.

Yang, F., Sun, T., dan Zhang, C. (2009), “An Efficient Hybrid Data Clustering

Method Based on K-Harmonic Means and Particle Swarm Optimization”, Expert

Systems with Applications, Vol. 36, hal. 9847–9852.

Dalli, A (2003), Adaptation of the F-measure to cluster-based Lexicon quality

evaluation, In EACL, Budapest.

Tan, P.N., Stainbach, M., dan Kumar, V. (2006), Introduction to Data Mining, 4

th

Gambar

Ilustrasi  Algoritma iiffit11   SNn niifitpfit1 )z(z zv ij  ij   ij ij  kj )z(zrand z
Grafik Perbandingan Fungsi Tujuan
Grafik Perbandingan Fungsi Tujuan
Grafik Perbandingan F-measure
+2

Referensi

Dokumen terkait

Uji coba dengan parameter p = 3,5 Data set yang digunakan sebagai input untuk uji coba adalah data Iris, Glass, Cancer, CMC, dan Wine, dimana kelima data set tersebut

Kelebihan dari Algoritma Artificial Bee Colony adalah sangat efisien dalam mencari solusi optimal, dapat mengatasi masalah optimasi lokal maupun global, dapat dijalankan

Selain untuk menguji efisiensi algoritma ABCKM pada permasalahan pengelompokan resolusi tahun baru, data yang dihasilkan dari tugas akhir ini diharapkan dapat

3) Setelah menetukan titik pusat awal cluster langkah selanjutnya yaitu hitung jarak centroid setiap data ke masing-masing centroid menggunakan persamaan

Clustering adalah proses pengelompokan objek data ke dalam kelas-kelas berbeda yang disebut cluster sehingga objek yang berada pada cluster yang sama semakin mirip dan

Klastering data varietas dan galur padi menggunakan modifikasi metode k- means berbasis OWA (α = 0.8) dengan jumlah klaster 7 (tujuh) adalah solusi yang terbaik

Apabila metode forgy ini diterapkan pada karakteristik lebah penjelajah pada metode ABC maka tahapan pencarian titik pusat baru oleh lebah penjelajah akan dilakukan

Dengan memadukan K-means dan metode Artificial Bee Colony maka akan dapat meningkatkan kemampuan KM dalam menetukan titik sampel data dan kemudian menemukan cluster pada area global