DETEKSI OUTLIER BERBASIS
KLASTER PADA DATA SET
DENGAN ATRIBUT CAMPURAN
NUMERIK DAN KATEGORIKAL
TESIS
DWI MARYONO
5107201006
LATAR BELAKANG MASALAH
Deteksi Outlier
Data Set Numerik : distance-based,
density-based, clustering-based,
subspace-based, dan lain-lain
Data Set Kategorikal :CBLOF, FPOF
dan LSA
Bagaimana jika data set terdiri dari aribut campuran
numerik dan kategorikal?
Alternatif way : Transformasi dari satu tipe data menjadi tipe data
lain.
Contoh : He et al (2005b) melakukan diskritisasi tipe data numerik
menjadi kategorikal untuk kemudian diterapkan algoritma FPOF.
LATAR BELAKANG MASALAH
He et al (2005a): Klasterisasi data
set campuran dengan membagi data
set menjadi numerik dan kategorikal
Assent et al (2007),
Agrawal dan Yu
Hong et al (2008) :
Menerapkan cluster
Agrawal dan Yu
(2005): deteksi outlier
pada sub data set
Menerapkan cluster
ensemble untuk deteksi
outlier
IDE :
• Partisi data set menjadi
numerik dan kategorikal,
• deteksi outlier pada sub data
set
• pemanfaatan klasterisasi untuk
untuk deteksi outlier
LATAR BELAKANG MASALAH
Outlier berbasis klaster: sebarang obyek
yang tidak berada pada klaster yang
”cukup besar”
Outlier bisa berupa obyek data tunggal
atau dapat juga keseluruhan obyek dari
klaster yang kecil.
atau dapat juga keseluruhan obyek dari
klaster yang kecil.
Penghitungan derajat outlier:
Jika ia berada pada ”klaster besar”, maka dilihat
seberapa jauh ia menyimpang dari obyek lain
dalam klaster tersebut.
Jika obyek tersebut terdapat dalam ”klaster
kecil” maka dihitung kedudukannya terhadap
”klaster besar”
LATAR BELAKANG MASALAH
Ide : penggabungan partisi data set, klastering sub
dataset dan deteksi outlier berbasis klaster
Partisi data set
Numerik dan kategorikal
Klasterisasi dan deteksi outlier secara
bersilang pada kedua sub data set
Penggabungan derajat outlier
dengan multi-atribut decision
PERUMUSAN MASALAH
Rumusan masalah
Bagaimana menerapkan teknik
gabungan klasterisasi dan deteksi
outlier lokal berbasis klaster untuk
outlier lokal berbasis klaster untuk
menemukan outlier pada data set
campuran numerik dan kategorikal
Bagaimana performa algoritma yang
TUJUAN DAN MANFAAT
Tujuan : menyelesaikan masalah deteksi
outlier pada data set campuran numerik
dan kategorikal dengan menggunakan
teknik gabungan klasterisasi dan deteksi
outlier secara bersilang pada sub data set
outlier secara bersilang pada sub data set
numerik dan kategorikal
Manfaat : memberikan penyelesaian
masalah deteksi outlier pada data set
campuran numerik dan kategorikan
sehingga dapat diaplikasikan pada masalah
nyata
CLUSTER BASED LOCAL OUTLIER
(CBLOF)
Outlier: observasi menyimpang
dari sebagian besar observasi
lain, hingga muncul dugaan
bahwa ia dibangkitkan oleh
mekanisme yang salah.
Macam-macam deteksi outlier:
statistic-based, distance-based,
density-based, cluster-based,
density-based, cluster-based,
dsb.
Dari sudut pandang klaster,
pada C
1dan C
3dapat dianggap
sebagai outlier karena tidak
terdapat pada klaster yang
besar yaitu C
2dan C
4CBLOF diukur berdasar ukuran
klaster di mana ia berada dan
kemiripannya terhadap klaster
terdekat
Metode CBLOF untuk deteksi outlier
data kategorikal
Konsep klaster besar dan klaster Kecil:
Misalkan C= {C1, C2, …, Ck} dengan |C1|≥ |C2|≥ …≥|Ck|.
Untuk parameter α dan β, didefinsikan b sebagai batas
antara klaster besar dan kecil jika memenuhi formula
(|C1|+|C2|+...+|Cb|)≥|D|*α
|Cb|/|Cb+1| ≥ β
|Cb|/|Cb+1| ≥ β
Klaster besar didefinsikan LC = {Ci, / i
≤ b}
Klaster kecil didefinisikan SC = {Ci, / i >b}.
Penghitungan derajat outlier dari obyek t:
∈
∈
∈
∈
∈
=
C
,
C
untuk t
))
,
(
s
*(
|
|
C
dan
C
,
C
untuk t
)
,
(
s
max(
*
|
|
)
(
i i j i iLC
t
C
im
C
LC
SC
t
C
im
C
t
CBLOF
i i j iDeteksi outlier berbasis klaster
pada data numerik
Pendekatan:
Menganggap klaster-klaster kecil yang jauh
dari klaster yang lain sebagai outlier
menentukan derajat di mana sebuah obyek
berada pada sebarang klaster
Penentuan derajat outlier
Penentuan derajat outlier
Mengukur jarak obyek terhadap centroid
klaster terdekat
Mengukur jarak relatif obyek terhadap
Numerical CBLOF
Penentuan derajat outlier berdasarkan konsep
CBLOF
Menggunakan konsep klaster besar dan klaster
kecil
Derajat outlier dihitung berdasarkan ukuran
Derajat outlier dihitung berdasarkan ukuran
klaster terdekat dan jaraknya terhadap klaster
terdekat
∈
∈
=
∈
∈
∈
=
C
,
C
untuk t
))
,
(
distance
relatif
1
|
C
|
))
(
,
min(
arg
C
,
C
dan
C
,
C
untuk t
)
,
(
distance
relatif
1
|
|
)
(
i i i j j i iLC
C
t
C
centroid
t
LC
SC
C
t
C
t
NCBLOF
i j j jMCDM (Multicriteria Decision
Making)
Berkaitan dengan pengambilan keputusan di bawah
keberadaan sejumah criteria keputusan
Dibagi menjadi Multi-objective Decision making
(MODM) dan Multi-attribute decision making (MADM).
Dalam masalah penggabungan derajat outlier
digunakan MADM
digunakan MADM
MADM menggunakan MAVT dengan operator agregat
Operator product
∏ (a
1
w1
, a
2
w2
, ..., a
m
wm
) = a
1
w1
a
2
w2
... a
m
wm
= ∏ a
i
wi
Operator tambah
+ (a
1
w1
, a
2
w2
, ..., a
m
wm
) = a
1
w1
+ a
2
w2
+...+ a
m
wm
= Σa
i
wi
Operator S∞.
S∞ (w
1
a
1
, w
2
a
2
, ..., w
m
a
m
) = max { w
i
a
i
}
Penentuan Bobot dalam MADM
Penentuan bobot :Subyektif, Default (bobot sama),
otomatis (Konsep Entropy)
Misalkan diberikan matriks keputusan
=
m ma
a
a
a
a
a
A
L
L
2 22 21 1 12 11Normalisasi
=
m mx
x
x
x
x
x
X
L
L
2 22 21 1 12 11Hitung Nilai entropi e
j
dan derajat divergensi f
j
Hitung bobot tiap kolom/atribut
=
nm n n ma
a
a
a
a
a
A
L
M
M
M
M
2 1 2 22 21
=
nm m n mx
x
x
x
x
x
X
L
M
M
M
M
L
2 1 2 22 21(
)
∑
=−
=
n i ij ij jk
x
x
e
1ln
f
j= 1- e
j∑
==
m k k j jf
f
w
1ALGORITMA
MIXCBLOF
Gambar Diagram Alir ALgoritma
MixCBLOF
Uji Coba dan Analisis Hasil
Data Set Uji Coba: UCI Machine Learning
Real dataset
Data set Cleveland (Heart Disease)
Dataset Hypothyroid
Dataset Hepatitis
Dataset Hepatitis
Dataset Annealing
Karakteristik data : data set terdiri dari
beberapa klaster di mana di antaranya
terdapat klaster dengan ukuran ralatif kecil
Pengukuran kinerja berdasarkan top ratio
dan coverage
Skenario
Menentukan parameter yang tepat utuk
algoritma MixCBLOF, meliputi penentuan α,
β, operator agregat dan pembobotan yang
tepat untuk masing-masing dataset
Membandingkan MixCBLOF dibandingkan
dengan algoritma lain, dalam hal ini adalah
algoritma CBLOF yang diterapkan pada
HASIL UJI COBA
Sub Dataset Cleveland I
Tabel 4.3 Hasil MixCBLOF pada subdata Cleveland I dengan parameter s=2.3,
k=4, wi=1, α
α
α
α=80%, dan ββββ=10
Hasil Uji Coba
Hasil Uji Coba
Hasil Uji Coba
EVALUASI
Operator dan Pembobotan terbaik
Tabel 4.29 Pencapaian coverage untuk n=jumlah outlier eksak
pada keseluruhan dataset berdasarkan operator dan pembobotan
EVALUASI
Penetapan α dan β: terpenuhinya konsep
klaster besar dan kecil
Tabel 4.28 Pengaruh pemenuhan konsep klaster besar dan
kecil terhadap kinerja algoritma MixCBLOF
DAFTAR PUSTAKA
Aggarwal, C., Yu, P. (2005) “An effective and efficient algorithm for high-dimensional outlier detection”. VLDB Journal 14(2), hal 211-221
Assent, I., Krieger,R., Muller,E., Seidl, T. (2007) "Subspace outlier mining in large multimedia databases", Dagstuhl Seminar Proceedings 07181 :Parallel Universes and Local Patterns
Breunig, M. M.., Kriegel, H. P., Ng, R. T., Sander, J. (2000). “LOF: identifying density-based local outliers”. Proceedings of the 2000 ACM SIGMOD International Conference on
Management of Data, hal 93-104.
Climaco, J. (1997), ”Multicriteria analysis”, Springer-Verlag, New York.
Karpys, G., Han, H, Kumar, V. (1999), “CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modelling”. IEEE Computer, Vol 32, No. 8 68-75
He, Z., Xu, X., Deng, S. (2002), “Squeezer: An Efficient Algorithm for Clustering Categorical He, Z., Xu, X., Deng, S. (2002), “Squeezer: An Efficient Algorithm for Clustering Categorical
Data”. Journal of Computer Science and Technology, 17(5):611-624.
He, Z., Deng, X., Xu, X. (2005a), “Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach”, eprint arXiv:cs/0509011
He, Z, X. Xu, J. Huang, S. Deng (2005b). ”FP-Outlier: Frequent Pattern Based Outlier Detection”. Computer Science and Information Systems, 2(1), 103-118.
Hong, Y, Kwong, S., Chang, Y., Ren, Q. (2008), “Unsupervised Data Pruning for Clustering of Noisy Data”, Elvesier : Knowledge-Based System 21 hal 612-616
Huang, Z (1998),” Extension to the k-Means Algorithm for Clustering Large dataset with Categorical Values”, Data Mining and Knowledge Discovery, 2, hal. 283-304.
Knorr, E. . Ng, R., Tucakov, T.(2000).”Distance-based outliers: algorithms and applications”. VLDB Journal 8(3-4), hal 237-253.
Sedl, T., Miller, E., Assent, I., Sfenhausen, U. (2009). "Outlier Detection and Ranking Based on Subspace Clustering". Daghtul Seminar Procedings 08421
Tan, Pan. N, Steinbach, M., Kumar, V. (2006), ”Introduction to Data mining”. Perason, Addison Weisley. Boston.