• Tidak ada hasil yang ditemukan

DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO

N/A
N/A
Protected

Academic year: 2021

Membagikan "DETEKSI OUTLIER BERBASIS KLASTER PADA DATA SET DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL TESIS DWI MARYONO"

Copied!
25
0
0

Teks penuh

(1)

DETEKSI OUTLIER BERBASIS

KLASTER PADA DATA SET

DENGAN ATRIBUT CAMPURAN

NUMERIK DAN KATEGORIKAL

TESIS

DWI MARYONO

5107201006

(2)

LATAR BELAKANG MASALAH

Deteksi Outlier

Data Set Numerik : distance-based,

density-based, clustering-based,

subspace-based, dan lain-lain

Data Set Kategorikal :CBLOF, FPOF

dan LSA

Bagaimana jika data set terdiri dari aribut campuran

numerik dan kategorikal?

Alternatif way : Transformasi dari satu tipe data menjadi tipe data

lain.

Contoh : He et al (2005b) melakukan diskritisasi tipe data numerik

menjadi kategorikal untuk kemudian diterapkan algoritma FPOF.

(3)

LATAR BELAKANG MASALAH

He et al (2005a): Klasterisasi data

set campuran dengan membagi data

set menjadi numerik dan kategorikal

Assent et al (2007),

Agrawal dan Yu

Hong et al (2008) :

Menerapkan cluster

Agrawal dan Yu

(2005): deteksi outlier

pada sub data set

Menerapkan cluster

ensemble untuk deteksi

outlier

IDE :

• Partisi data set menjadi

numerik dan kategorikal,

• deteksi outlier pada sub data

set

• pemanfaatan klasterisasi untuk

untuk deteksi outlier

(4)

LATAR BELAKANG MASALAH



Outlier berbasis klaster: sebarang obyek

yang tidak berada pada klaster yang

”cukup besar”



Outlier bisa berupa obyek data tunggal

atau dapat juga keseluruhan obyek dari

klaster yang kecil.

atau dapat juga keseluruhan obyek dari

klaster yang kecil.



Penghitungan derajat outlier:



Jika ia berada pada ”klaster besar”, maka dilihat

seberapa jauh ia menyimpang dari obyek lain

dalam klaster tersebut.



Jika obyek tersebut terdapat dalam ”klaster

kecil” maka dihitung kedudukannya terhadap

”klaster besar”

(5)

LATAR BELAKANG MASALAH



Ide : penggabungan partisi data set, klastering sub

dataset dan deteksi outlier berbasis klaster

Partisi data set

Numerik dan kategorikal

Klasterisasi dan deteksi outlier secara

bersilang pada kedua sub data set

Penggabungan derajat outlier

dengan multi-atribut decision

(6)

PERUMUSAN MASALAH



Rumusan masalah



Bagaimana menerapkan teknik

gabungan klasterisasi dan deteksi

outlier lokal berbasis klaster untuk

outlier lokal berbasis klaster untuk

menemukan outlier pada data set

campuran numerik dan kategorikal



Bagaimana performa algoritma yang

(7)

TUJUAN DAN MANFAAT



Tujuan : menyelesaikan masalah deteksi

outlier pada data set campuran numerik

dan kategorikal dengan menggunakan

teknik gabungan klasterisasi dan deteksi

outlier secara bersilang pada sub data set

outlier secara bersilang pada sub data set

numerik dan kategorikal



Manfaat : memberikan penyelesaian

masalah deteksi outlier pada data set

campuran numerik dan kategorikan

sehingga dapat diaplikasikan pada masalah

nyata

(8)

CLUSTER BASED LOCAL OUTLIER

(CBLOF)



Outlier: observasi menyimpang

dari sebagian besar observasi

lain, hingga muncul dugaan

bahwa ia dibangkitkan oleh

mekanisme yang salah.



Macam-macam deteksi outlier:

statistic-based, distance-based,

density-based, cluster-based,

density-based, cluster-based,

dsb.



Dari sudut pandang klaster,

pada C

1

dan C

3

dapat dianggap

sebagai outlier karena tidak

terdapat pada klaster yang

besar yaitu C

2

dan C

4



CBLOF diukur berdasar ukuran

klaster di mana ia berada dan

kemiripannya terhadap klaster

terdekat

(9)

Metode CBLOF untuk deteksi outlier

data kategorikal

 Konsep klaster besar dan klaster Kecil:

Misalkan C= {C1, C2, …, Ck} dengan |C1|≥ |C2|≥ …≥|Ck|.

Untuk parameter α dan β, didefinsikan b sebagai batas

antara klaster besar dan kecil jika memenuhi formula

(|C1|+|C2|+...+|Cb|)≥|D|*α

|Cb|/|Cb+1| ≥ β

|Cb|/|Cb+1| ≥ β

Klaster besar didefinsikan LC = {Ci, / i

≤ b}

Klaster kecil didefinisikan SC = {Ci, / i >b}.

 Penghitungan derajat outlier dari obyek t:

=

C

,

C

untuk t

))

,

(

s

*(

|

|

C

dan

C

,

C

untuk t

)

,

(

s

max(

*

|

|

)

(

i i j i i

LC

t

C

im

C

LC

SC

t

C

im

C

t

CBLOF

i i j i

(10)

Deteksi outlier berbasis klaster

pada data numerik



Pendekatan:



Menganggap klaster-klaster kecil yang jauh

dari klaster yang lain sebagai outlier



menentukan derajat di mana sebuah obyek

berada pada sebarang klaster

Penentuan derajat outlier



Penentuan derajat outlier



Mengukur jarak obyek terhadap centroid

klaster terdekat



Mengukur jarak relatif obyek terhadap

(11)

Numerical CBLOF



Penentuan derajat outlier berdasarkan konsep

CBLOF



Menggunakan konsep klaster besar dan klaster

kecil



Derajat outlier dihitung berdasarkan ukuran



Derajat outlier dihitung berdasarkan ukuran

klaster terdekat dan jaraknya terhadap klaster

terdekat

=

=

C

,

C

untuk t

))

,

(

distance

relatif

1

|

C

|

))

(

,

min(

arg

C

,

C

dan

C

,

C

untuk t

)

,

(

distance

relatif

1

|

|

)

(

i i i j j i i

LC

C

t

C

centroid

t

LC

SC

C

t

C

t

NCBLOF

i j j j

(12)

MCDM (Multicriteria Decision

Making)



Berkaitan dengan pengambilan keputusan di bawah

keberadaan sejumah criteria keputusan



Dibagi menjadi Multi-objective Decision making

(MODM) dan Multi-attribute decision making (MADM).



Dalam masalah penggabungan derajat outlier

digunakan MADM

digunakan MADM



MADM menggunakan MAVT dengan operator agregat



Operator product

∏ (a

1

w1

, a

2

w2

, ..., a

m

wm

) = a

1

w1

a

2

w2

... a

m

wm

= ∏ a

i

wi



Operator tambah

+ (a

1

w1

, a

2

w2

, ..., a

m

wm

) = a

1

w1

+ a

2

w2

+...+ a

m

wm

= Σa

i

wi



Operator S∞.

S∞ (w

1

a

1

, w

2

a

2

, ..., w

m

a

m

) = max { w

i

a

i

}

(13)

Penentuan Bobot dalam MADM



Penentuan bobot :Subyektif, Default (bobot sama),

otomatis (Konsep Entropy)



Misalkan diberikan matriks keputusan

=

m m

a

a

a

a

a

a

A

L

L

2 22 21 1 12 11

Normalisasi

=

m m

x

x

x

x

x

x

X

L

L

2 22 21 1 12 11



Hitung Nilai entropi e

j

dan derajat divergensi f

j



Hitung bobot tiap kolom/atribut

=

nm n n m

a

a

a

a

a

a

A

L

M

M

M

M

2 1 2 22 21

=

nm m n m

x

x

x

x

x

x

X

L

M

M

M

M

L

2 1 2 22 21

(

)

=

=

n i ij ij j

k

x

x

e

1

ln

f

j

= 1- e

j

=

=

m k k j j

f

f

w

1

(14)

ALGORITMA

MIXCBLOF

Gambar Diagram Alir ALgoritma

MixCBLOF

(15)

Uji Coba dan Analisis Hasil



Data Set Uji Coba: UCI Machine Learning

Real dataset



Data set Cleveland (Heart Disease)



Dataset Hypothyroid



Dataset Hepatitis



Dataset Hepatitis



Dataset Annealing



Karakteristik data : data set terdiri dari

beberapa klaster di mana di antaranya

terdapat klaster dengan ukuran ralatif kecil



Pengukuran kinerja berdasarkan top ratio

dan coverage

(16)

Skenario



Menentukan parameter yang tepat utuk

algoritma MixCBLOF, meliputi penentuan α,

β, operator agregat dan pembobotan yang

tepat untuk masing-masing dataset



Membandingkan MixCBLOF dibandingkan

dengan algoritma lain, dalam hal ini adalah

algoritma CBLOF yang diterapkan pada

(17)

HASIL UJI COBA



Sub Dataset Cleveland I

Tabel 4.3 Hasil MixCBLOF pada subdata Cleveland I dengan parameter s=2.3,

k=4, wi=1, α

α

α

α=80%, dan ββββ=10

(18)
(19)

Hasil Uji Coba

(20)

Hasil Uji Coba

(21)

Hasil Uji Coba

(22)

EVALUASI



Operator dan Pembobotan terbaik

Tabel 4.29 Pencapaian coverage untuk n=jumlah outlier eksak

pada keseluruhan dataset berdasarkan operator dan pembobotan

(23)

EVALUASI



Penetapan α dan β: terpenuhinya konsep

klaster besar dan kecil

Tabel 4.28 Pengaruh pemenuhan konsep klaster besar dan

kecil terhadap kinerja algoritma MixCBLOF

(24)

DAFTAR PUSTAKA

 Aggarwal, C., Yu, P. (2005) “An effective and efficient algorithm for high-dimensional outlier detection”. VLDB Journal 14(2), hal 211-221

 Assent, I., Krieger,R., Muller,E., Seidl, T. (2007) "Subspace outlier mining in large multimedia databases", Dagstuhl Seminar Proceedings 07181 :Parallel Universes and Local Patterns

 Breunig, M. M.., Kriegel, H. P., Ng, R. T., Sander, J. (2000). “LOF: identifying density-based local outliers”. Proceedings of the 2000 ACM SIGMOD International Conference on

Management of Data, hal 93-104.

 Climaco, J. (1997), ”Multicriteria analysis”, Springer-Verlag, New York.

 Karpys, G., Han, H, Kumar, V. (1999), “CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modelling”. IEEE Computer, Vol 32, No. 8 68-75

 He, Z., Xu, X., Deng, S. (2002), “Squeezer: An Efficient Algorithm for Clustering Categorical  He, Z., Xu, X., Deng, S. (2002), “Squeezer: An Efficient Algorithm for Clustering Categorical

Data”. Journal of Computer Science and Technology, 17(5):611-624.

 He, Z., Deng, X., Xu, X. (2005a), “Clustering Mixed Numeric and Categorical Data: A Cluster Ensemble Approach”, eprint arXiv:cs/0509011

 He, Z, X. Xu, J. Huang, S. Deng (2005b). ”FP-Outlier: Frequent Pattern Based Outlier Detection”. Computer Science and Information Systems, 2(1), 103-118.

 Hong, Y, Kwong, S., Chang, Y., Ren, Q. (2008), “Unsupervised Data Pruning for Clustering of Noisy Data”, Elvesier : Knowledge-Based System 21 hal 612-616

 Huang, Z (1998),” Extension to the k-Means Algorithm for Clustering Large dataset with Categorical Values”, Data Mining and Knowledge Discovery, 2, hal. 283-304.

 Knorr, E. . Ng, R., Tucakov, T.(2000).”Distance-based outliers: algorithms and applications”. VLDB Journal 8(3-4), hal 237-253.

 Sedl, T., Miller, E., Assent, I., Sfenhausen, U. (2009). "Outlier Detection and Ranking Based on Subspace Clustering". Daghtul Seminar Procedings 08421

 Tan, Pan. N, Steinbach, M., Kumar, V. (2006), ”Introduction to Data mining”. Perason, Addison Weisley. Boston.

(25)

Gambar

Gambar Diagram Alir ALgoritma  MixCBLOF
Tabel 4.3 Hasil MixCBLOF pada subdata Cleveland I dengan parameter s=2.3,  k=4, wi=1, ααα α=80%, dan ββββ=10
Tabel 4.29 Pencapaian coverage untuk n=jumlah outlier eksak  pada keseluruhan dataset berdasarkan operator dan pembobotan
Tabel 4.28 Pengaruh pemenuhan konsep klaster besar dan  kecil terhadap kinerja algoritma MixCBLOF

Referensi

Dokumen terkait

Apptication ofactivity malysis nelhod 6y ni.inizilg non value add€d acrivilies is vdy.. laeficisl lor thc

Arkoun menyarankan tiga pembacaan terhadap al-Qur’an sebagai kiat untuk mempermudah untuk memahami fungsi dan isi ujaran tersebut: pertama, cara pembacaan liturgi (ini

antena yang dapat digunakan ketika ditempatkan di sebuah kendaraan yang bergerak, seperti mobil! 1etika kendaraan bergerak, antena parabola akan bergerak mencari gelombang

 Kasus probable/kasus konfirmasi dengan gejala (simptomatik) yang tidak dilakukan pemeriksaan follow up RT-PCR dihitung 10 hari sejak tanggal onset dengan

Prinsip : Teknik melipat kertas adalah teknik dalam membuat karya seni atau kerajinan tangan yang secara umum bahannya dari kertas yang diproses sedemikian rupa sehingga

Menetapkan : KEPUTUSAN KOMISI PEMILIHAN UMUM KABUPATEN TUBAN TENTANG TAHAPAN, PROGRAM, DAN JADWAL PENYELENGGARAAN PEMILIHAN UMUM KEPALA DAERAH DAN WAKIL

Berdasarkan hasil penelitian yang telah dilakukan dapat diketahui bahwa personal cost dan pemberian reward berpengaruh positif terhadap tindakan i sesuai dengan

Namun demikian dengan belum tersedianya dokumen kesepakatan kerjasama antara Dinas Pendidikan Kebudayaan dan Badan Pengendalian Linkungan Hidup Kabupaten Bandung