Oleh :
I Made Widiartha
NRP. 5109201009
Dosen Pembimbing :
Dr. Agus Zainal Arifin, S.Kom, M.Kom
Anny Yuniarti, S.Kom, M.Comp.Sc
METODE KLASTERISASI DATA BERBASIS
ARTIFICIAL BEE COLONY DAN K-HARMONIC MEANS
TESIS
PROGRAM MAGISTER
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI INFORMASI
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
2011
Pendahuluan
2
Latar Belakang :
Clustering : pengelompokkan data kedalam beberapa klaster sehingga data
dalam satu klaster memiliki tingkat kemiripan yang maksimum dan data
antar klaster memiliki kemiripan yang minimum (Theodoridis, 2006).
K-Harmonic Means (KHM) : metode klasterisasi data yang berhasil
mengurangi sensitifitas hasil klaster pada inisialisasi centroid K-Means
(Zhang, 1999)
Namun demikian masih terdapat kemungkinan hasil metode KHM ini
merupakan solusi lokal optimal (Yang, 2009).
Perlu dilakukan perubahan algoritma dalam KHM agar hasil klaster
merupakan solusi global optimal
Meng-enhance KHM dengan memanfaatkan suatu algoritma yg memiliki
Pendahuluan
3
Artificial Bee Colony (ABC)  Karaboga (2005)
suatu algoritma yang mengadopsi perilaku mencari makan
dari koloni lebah madu.
ABC : algoritma dengan solusi global yang memiliki kualitas
yang lebih baik atau setara dengan GA, PSO, Differential
Evolution (DE), dan Evolution Strategies (ES) (Karaboga,
2009a)
Dalam penelitian ini akan diusulkan sebuah algoritma baru
yaitu hibridasi antara ABC dan KHM.
ABC-KHM ini diharapkan mampu mengoptimalkan posisi
titik pusat klaster yang mengarah pada solusi global
optimal.
Rumusan Masalah
4
Bagaimana metode ABC-KHM menentukan posisi
titik pusat awal dari sebaran data yang ada.
Bagaimana memperbaharui posisi titik pusat di
setiap iterasi dalam metode ABC-KHM.
Bagaimana menentukan hasil klaster dan mengukur
Tujuan
5
Melakukan klasterisasi data dengan menggunakan
metode hibridasi antara ABC dan KHM yang
diharapkan mampu mengoptimalkan posisi titik
pusat klaster yang mengarah pada suatu solusi
global optimal.
Kajian Pustaka
6
Ada 2 Tipe Pengklasteran Data (Tan, 2006) :
Partisi :
Klaster dibentuk dengan membagi obyek/data kedalam
non-overlapping subset (klaster).
Hirarki :
Klaster dibentuk melalui pembentukan klaster bersarang
(nested cluster) yang diimplemen-tasikan dalam bentuk
tree (pohon).
Kajian Pustaka
7
K-Harmonic Clustering (KHM) :
metode pengklasteran secara partisi dengan bentuk
center-based cluster.
Objective function/fungsi tujuan (Zhang,1999):
Total rata-rata harmonik dari jarak antara masing-masing titik data ke
seluruh centroid yang ada.
Rata-rata Harmonik :
K i i ia
K
K
i
a
HA
11
})
,...,
1
|
({
Kajian Pustaka : Algoritma KHM
8
Mulai
Input dataset
dan parameter
Inisialisasi k centroid awal
secara random
ya
tidak
Selisih ≤
Selesai
A
A
    N i K l p l i c x K C X KHM 1 1| | | | 1 ) , (
    
k l p l i p l i i lc
x
c
x
x
c
m
1 2 2||
||
||
||
)
|
(
2 1 1 2||
||
||
||
)
(
     K l p l i K l p l i ic
x
c
x
x
w
 
N i i i l N i l i i i lx
w
x
c
m
x
x
w
x
c
m
c
1 1)
(
).
|
(
).
(
).
|
(
Artificial Bee Colony (ABC)
9
ABC  Dervis Karaboga (2005)
Dalam ABC, Bee Koloni dibagi 3 :
Employed bee (lebah pekerja)
Onlooker bee (lebah penunggu sarang)
Scouts (lebah penjelajah)
Posisi sumber makanan  possible solution
Nilai fitness  jumlah nektar
Jumlah employed bee = Jumlah lebah onlooker = jumlah
Algoritma Artificial Bee Colony
10
Mulai
Siklus = 1
Untuk setiap employed bee : • Tentukan posisi titik pusat baru • Hitung nilai fitness
• Greedy selection
Hitung probabilitas
lebah pekerja
Untuk setiap onlooker bee :
• Pilih seekor lebah pekerja (roulette wheel) • Tentukan posisi titik pusat baru
• Tentukan nilai fitness • Greedy selection
Input dataset
dan parameter
Inisialisasi k titik pusat
secara random
tidak
ya
ya
tidak
Ada titik pusat yang harus ditinggalkan
Selesai
Kirim scout :
• Tentukan titik pusat baru secara random
• Hitung nilai fitness • Greedy selection
Siklus = Siklus + 1
Siklus > MCN
Hitung nilai fitness
A
A
Ilustrasi
Tentukan Solusi
Terbaik
Ilustrasi
Algoritma
i if
fit
1
1
SN
n
n
i
i
fit
fit
p
1
)
z
(z
z
v
ij
ij
ij
ij
kj
)
z
(z
rand
z
z
i
j
min
j
(
0
,
1
)
max
j
min
j
Cost function :
Nilai fitness :
Probabilitas food source :
Kandidat tetangga untuk
employed dan onlooker :
Penentuan food source
oleh scout :
Sarang
 
N i K l p l i ic
x
K
f
1 1| |
| |
1
Metodologi Penelitian
12
Langkah-Langkah Penelitian :
Pembuatan Perangkat Lunak
Desain Model Sistem
Pengumpulan Data
Uji Coba
Metodologi Penelitian
13
Data
:
ftp://ftp.ics.uci.edu./pub/machine-learning-databases/
Informasi data :
Dataset
Fitur
Kelas
Jumlah Data
Training
Testing
Iris
4
3
120
30
Cancer
9
2
546
137
CMC
9
3
1178
295
Glass
9
6
171
43
Wine
13
3
142
36
Metodologi Penelitian
14
Parameter masukkan :
Nama
Keterangan
K
Jumlah klaster
P
Parameter pada fungsi tujuan
Limit
Batas jumlah iterasi utk penentuan abandoned food source
MCN
Jumlah iterasi maksimum pada ABC
SN
Jumlah solusi pada ABC (k)
Max1
Jumlah iterasi maksimum fase lebah pada ABC-KHM
Max2
Jumlah iterasi maksimum fase KHM pada ABC-KHM
MaxABCKHM Jumlah iterasi maksimum metode ABC-KHM
Proposed Method (ABC-KHM)
Posisi titik pusat
terbaik lebah
Mulai
Inisialisasi k titik pusat secara random
Input dataset dan Parameter
GenABCKHM = 1
Gen1 = 1 Gen2 = 1
Gen1 ≤ Max1
Update titik pusat EB dan OB dengan
tahapan update pada ABC
Gen1 = Gen1 + 1
ya
Update titik pusat dengan
tahapan update pada KHM
Selisih > && Gen2 ≤ Max2 Gen2 = Gen2 + 1 tidak ya tidak GenABCKHM = GenABCKHM + 1 (Titik pusat hasil KHM menjadi
tetangga acuan untuk lebah)
GenABCKHM ≤MaxABCKHM
Tetapkan keanggotaan tiap
data pada klaster
Titik pusat ABCKHM dan anggotanya
Selesai ya
tidak
Posisi titik pusat KHM
A
Hasil Uji Coba
Perbandingan Ketiga metode dengan p = 2
16
P=2
KHM
ABC
ABC-KHM
Nilai
Std
Nilai
Std
Nilai
Std
Iris Fs. Tujuan 152,8758 0,0011 164,2891 5,0210 152,8691 0 F-Measure 0,8977 0 0,8875 0,0122 0,8977 0 Waktu 0,09 0,0268 20,629 0,6130 3,42 0,1367 Cancer Fs. Tujuan 24.580,5932 0,0002 37.873,5624 3978,7 24.580,5927 0 F-Measure 0,9503 0 0,9385 0,0110 0,9503 0 Waktu 0,21 0,0191 37,79 1,2809 6,45 0,1934 Cmc Fs. Tujuan 980,4407 2,6242 1.062,8230 21,356 977,3939 0,0017 F-Measure 0,3888 0,0147 0,3821 0,0162 0,3808 0 Waktu 1,54 0,5526 93,53 1,6248 19,71 1,4003 Glass Fs. Tujuan 34,5193 0,0403 35,1344 0,8723 34,4618 0,0002 F-Measure 0,4199 0,0078 0,4224 0,0129 0,4297 0,0019 Waktu 0,40 0,0684 94,90 8,3972 18,56 1,7289 Wine Fs. Tujuan 68,6941 0,0008 77,3054 2,6651 68,6922 0 F-Measure 0,9231 0,0036 0,8607 0,0741 0,9283 0 Waktu 0,13 0,0167 43,11 1,0952 7,84 0,1904
Hasil Uji Coba
Perbandingan Ketiga metode dengan p = 3
17
P=3
KHM
ABC
ABC-KHM
Nilai
Std
Nilai
Std
Nilai
Std
Iris Fs. Tujuan 154,3991 0,0015 172,2733 10,3717 154,3962 0 F-Measure 0,8977 0 0,8749 0,0186 0,8977 0 Waktu 0,08 0,0170 22,066 0,7765 3,88 0,1371 Cancer Fs. Tujuan 208.486,2686 0,0002 321.926,5015 39638,6 208.486,2681 0 F-Measure 0,9387 0 0,9142 0,0217 0,9387 0 Waktu 0,21 0,0223 46,97 2,4773 8,31 0,4414 Cmc Fs. Tujuan 947,3022 0,0023 1.176,9128 138,48 947,2944 0 F-Measure 0,3966 0,0010 0,3695 0,0394 0,3985 0 Waktu 1,05 0,2370 108,10 3,5080 21,34 0,4133 Glass Fs. Tujuan 21,0367 0,4727 20,6751 0,2951 20,0627 0,1446 F-Measure 0,3726 0,0205 0,4134 0,0113 0,3895 0,0125 Waktu 0,37 0,0707 100,55 1,5090 19,36 0,5157 Wine Fs. Tujuan 46,0725 1,2846 57,7028 4,0897 45,6652 0 F-Measure 0,9361 0,0318 0,8742 0,1026 0,9501 0 Waktu 0,11 0,0190 44,46 0,6611 7,66 0,1359
Hasil Uji Coba
Perbandingan Ketiga metode dengan p=4
18
P=4
KHM
ABC
ABC-KHM
Nilai
Std
Nilai
Std
Nilai
Std
Iris Fs. Tujuan 231,5938 11,418 188,9512 20,464 167,1305 7,5782 F-Measure 0,8914 0,0043 0,8805 0,0166 0,8977 0 Waktu 0,61 0,0224 22,480 0,4403 4,73 0,2446 Cancer Fs. Tujuan 1.911.352,850 0,0010 3.219.061,259 455314,8 1.911.352,839 0 F-Measure 0,9310 0 0,8737 0,0500 0,9310 0 Waktu 0,70 0,0996 45,00 0,9016 8,56 0,7086 Cmc Fs. Tujuan 917,9539 0,0023 1.214,9749 167,71 917,9464 0 F-Measure 0,4101 0 0,3898 0,0187 0,4101 0 Waktu 1,01 0,3467 105,98 2,6598 21,74 0,4365 Glass Fs. Tujuan 12,2472 0,5176 12,4770 0,6613 11,5253 0,3626 F-Measure 0,3221 0,0241 0,3568 0,0071 0,3577 0,0240 Waktu 0,32 0,0689 100,93 1,8059 19,05 0,7974 Wine Fs. Tujuan 31,0154 0,0007 39,4948 3,0674 31,0143 0 F-Measure 0,9428 0 0,8998 0,0264 0,9428 0 Waktu 0,09 0,0202 44,61 1,2602 7,94 0,2325