Krisantus Sembiring. Selasa, 11 September /1/2008 1

(1)

Penerapan

Penerapan Teknik

Teknik Support Vector

Support Vector

Machine

Machine untuk

untuk Pendeteksian

Pendeteksian

Machine

Machine untuk

untuk Pendeteksian

Pendeteksian

Intrusi

Intrusi pada

pada Jaringan

Jaringan

Sidang IF40Z2-Tugas Akhir II

Krisantus Sembiring

13503121

(2)

Latar

Latar Belakang

Belakang

y

Pentingnya pendeteksian intrusi pada jaringan

y

Teknik signature based memerlukan signature yang dibuat secara

g

y g

manual

y

Pendeteksian intrusi dengan data mining:

K l bih

◦

Kelebihan:

x Mengatasi kelemahan teknik signature based

x Misuse detection & anomaly detection

◦

Kekurangan:

x Biaya komputasi tinggi (butuh pelatihan dan pengujian)

x Butuh data pelatihan dalam jumlah besar

x Anomaly detection Æfalse positive yang tinggi

y

SVM: teknik data mining untuk mendeteksi intrusi dengan akurasi

tinggi

gg

(3)

y

Rumusan Masalah

:

B

i

d l

t b ik

d l

i

l

t ik

SVM t k

◦

Bagaimana model terbaik dalam mengimplementasikan SVM untuk

pendeteksian intrusi pada jaringan.

◦

Bagaimana pengaruh variasi dataset terhadap performansi SVM pada

di ib i d

l

distribusi data yang natural.

y

Tujuan:

◦

Melakukan studi dan implementasi pendeteksian intrusi pada jaringan

p

j

g

baik dengan metode misuse maupun anomaly detection dengan

menggunakan SVM.

y

Batasan masalah:

y

Batasan masalah:

◦

Mining dilakukan terhadap data yang diaudit

◦

Evaluasi hasil penerapan SVM yang dilakukan, digunakan data KDDCUP

99 h

//kdd i

i d /d

b

/kdd

99

(4)

Deskripsi

Deskripsi Sistem

Sistem

(5)

Metode

Metode pendeteksian

pendeteksian intrusi

intrusi dengan

dengan data

data

mining

Anomaly Detection Misuse Detection

Proses:

Membangun model dari data normal Intrusi adalah deviasi dari data normal

Membangun model data intrusi dari dataset yang memiliki label

K l bih M d k i i i d h

Kelebihan :

Dapat mendeteksi intrusi jenis baru

Mendeteksi intrusi yang sudah diketahui secara akurat

false positive rendah Kekurangan:

Cenderung menghasilkan false positive

yang tinggi.

Umumnya tidak mampu mendeteksi jenis intrusi baru

(6)

Penelitian

Penelitian Pendeteksian

Pendeteksian Intrusi

Intrusi dengan

dengan SVM

SVM

y Srivinas Mukkamala, 2002

◦ SVM biner, kernel RBF

◦ 14292 dataset : 7312 pelatihan, 6980 pengujianp , p g j

◦ Akurasi 99.5%

y Srivinas Mukkamala, 2002

◦ Multi Class SVM One-against all ,kernel RBF

◦ 5 kelas (normal, dos, probe, r2l,u2r)

◦ 12072 dataset : 5092 pelatihan, 6980 pengujian

y Pavel Laskov et. al, 2004

◦ One Class SVM kernel RBF

◦ One Class SVM, kernel RBF

y Pavel Laskov et. al, 2005

◦ SVM, biner, kernel RBF

◦ 2000 data (5% intrusi), 41 atribut, distribusi intrusi seimbang2000 data (5% intrusi), 41 atribut, distribusi intrusi seimbang

◦ Hasilnya :

x (with known attack) : terbaik C4.5 akurasi 95% pada false positive 1%, diikuti SVM dan MLP dengan perbedaan kecil

x With unknown attack : SVM terbaik dengan perbedaan significant

2/1/2008 6

x With unknown attack : SVM terbaik dengan perbedaan significant

(7)

Dataset

Dataset Eksperimen

Eksperimen

Dataset

Dataset Eksperimen

Eksperimen

Data KDDCUP 99

Hasil preprocessing data mentah (tcpdump ) DARPA 98

Data simulasi jaringan yang mirip dengan jaringan angkatan udara AS Data 9 minggu , 4.9 juta record

22 jenis intrusi dalam 4 kategori utama yaitu DOS (Denial of Service),

Remote to User, User to Root, dan Probes.

Pavel Laskov (2005):

Data KCCUP 99 paling baik diproses dengan algoritma non-linier

(8)

Dasar

Dasar Teori

Teori SVM

SVM

D t t M d l SVM

m

Support Vector

Cari bidang pemisah dengan margin

2 Dataset Model SVM

{

x ,...,

1

x

n

}

{

+

1 ,

−

1 }

∈

i

y

Bidang pembatas kelas 2: xi . w+b = 1 Kelas 2 w b − (m= ) terbesar w 2

{

}

i

Kelas 1 _{Bidang pemisah:}

xi . w+b = 0

Bidang pembatas kelas 1: xi . w+b = -1 0 0 . 2 1 max 1 , 1 1 ≥ − ≡

∑

= = = n j i j i n j i j i n i i D t x x y y L α αα Pembelajaran: 0 1 2 1 min 1 2 > + ≤ + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ +

∑

= n i i b t C w ξ ξ ξ 0 , 0 . . 1 ≥ =

∑

= i i i iy t s α α b x x y x f _i _i ns i i + =

∑

= . ) ( 1

α

1 1 ) ( 1 1 ) ( ≤ + = + ≥ _i th f if y then x f if Klasifikasi: 0 , 1 . .t x_i w+b≤ − + _i _i > s ξ ξ 2/1/2008 8 i 1 1 1 ) (x ≤− then y_i =− f if

(9)

Dasar

Dasar Teori

Teori SVM

SVM

Transformasikan data sehingga linearly separable di feature space

φ( )

φ( )φ( )

Transformasikan data sehingga linearly separable di feature space dengan fungsi kernel

φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )

φ(.)

φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )φ( ) φ( ) φ( )

φ(.)

φ( )φ( ) φ( )φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )φ( )

(

x x

)

b K y x f ns + =

∑

) (

α

φ( ) φ( ) Feature space Input space φ( ) φ( ) φ( )φ( ) Feature space Input space Klasifikasi:

( )

x

y

( ) ( )

x

b

f

ns

+

=

∑

α

φ

f x y_iK

(

x_i x

)

b i i + =

∑

= , ) ( 1

α

RBF kernel

Æ

(

)

(

2

)

( )

x

y

( ) ( )

x

b

f

_i _i i i

+

=

∑

=

φ

α

1

RBF kernel Æ

(

_,

)

_exp

(

2

)

_, ₀ > − − = γ _i _j γ j i x x x x K

(10)

Dasar

Dasar Teori

Teori One Class

One Class SVM

SVM

+1

φ(.)

+1

φ(.)

Dengan bidang pemisah:

+1 i i +1 i i -1 origin -1 origin Pembelajaran: Klasifikasi:

1

2

1 min

2

+

∑

−

n i

r

vn

w

ξ

(

)

∑

Pembelajaran: Klasifikasi:

( )

(

)

0 ,

.

2

1

≥

−

≥

= i i i i

r

x

w

t

s

vn

ξ

φ

f

(

x

)

=

∑

_i

α

i

K

(

x

i

,

x

)

−

r

2/1/2008 10 2/1/2008 10 i

ξ

(11)

Metode

Metode Pendeteksian

Pendeteksian Intrusi

Intrusi dengan

dengan SVM

SVM

y

Anomaly detection dengan One Class SVM

y

Anomaly detection dengan One Class SVM

◦

Supervised : data pelatihan = data normal

◦

Unsupervised: data pelatihan mungkin mengandung data intrusi

y

Misuse Detection

◦

SVM Biner : 2 Kelas , intrusi dan normal

M l i Cl

SVM O A i O

(12)

◦

Multi Class SVM One Against All

◦

SVM Biner

Æ

Multi Class SVM One Against All

(13)

y

SVM Biner Æ Multi Class SVM One Against One

Pembelajaran:

(14)

Analisis

Analisis Pembelajaran

Pembelajaran dengan

dengan SVM

SVM

Preprocessing: Preprocessing:

Input SVM : vektor bilangan real

Representasi data diskrit yang tidak terurut dengan memakai 1-of-c

encoding. Contoh protocol_type: tcp udp icmp

min max min ' − − = x x g p _ yp p p p [100] [010] [001]

Normalisasi/ scaling ke dalam rentang [0,1] Æ

Estimasi parameter dengan k-folds cross-validation dan grid search

2/1/2008 14

(15)

SVM

SVM Pada

Pada Imbalanced Dataset

Imbalanced Dataset

y

Teknik klasifikasi umumnya akurasinya menurun pada imbalanced dataset

y

Solusi : memberikan bias sehingga SVM lebih memperhatikan instance dari

y

Solusi : memberikan bias sehingga SVM lebih memperhatikan instance dari

kelas minoritas

C C w y i y i b w i i 2 1 min 1 1 2 , , ξ + +

∑

₌ ξ + −

∑

₌₋ξ

(

)

n i b wx y t s i i i i y y_i _i ,..., 1 , 0 , 1 . . 1 1 = ≥ − ≥ + ξ ξ

Incremental Training

Incremental Training untuk

untuk SVM

SVM

y

Fungsi keputusan hanya dipengaruhi oleh support vector

Pilih k did t pp t t

b l

l tih Æj

l h d t l tih

1 )

(

)

(

x

f

x

<=

β

+

y

Pilih kandidat support vector sebelum pelatihanÆjumlah data pelatihan

berkurang

Feature Selection

(16)

Tujuan

Tujuan Eksperimen

Eksperimen

Tujuan

Tujuan Eksperimen

Eksperimen

y

Mereplikasi hasil paper acuan dan membandingkan

setting parameter dan metode preprocessing data

y

Memilih model terbaik dari alternatif

implementasi pendeteksian intrusi dengan SVM.

y

Menguji skalabilitas model terbaik.

g j

y

Mengetahui hasil upaya peningkatan performansi

◦

Penggunaan nilai C berbeda

gg

◦

feature selection

◦

incremental training.

g

(17)

Parameter

Parameter Evaluasi

Evaluasi

True Positive Rate/ Detection Rate (DR) _{ROC C} True Positive Rate/ Detection Rate (DR)

P

TP

DR

=

ROC Curve

t-Test pada nilai F-measure

False Positive Rate

N

FP

_rate

=

Waktu pelatihan dan pengujian

(18)

Skenario

y

Replikasi Hasil Paper Acuan

y

Replikasi Hasil Paper Acuan

◦ [MUK02A]

x SVM Biner, kernel RBF, data pelatihan : 7312 , data pengujian : 6980

x Parameter C = 1000 g=1 0

x Parameter C = 1000, g=1.0

x Asumsi : distribusi data intrusi tidak diubah, tidak ada normalisasi ◦ [MUK02B]

x One Against All kernel RBF data pelatihan : 7312 data pengujian : 6980One Against All, kernel RBF, data pelatihan : 7312 , data pengujian : 6980

x Asumsi : parameter sama dengan [MUK02A], tidak ada normalisasi ◦ [LAS04]

x Kernel RBF, unsupervised anomaly detection, parameter nu dan rasio intrusi e e , u supe v sed a o a y detect o , pa a ete u a as o t us

bervariasi

x Preprocessing data numerik: data diskrit: 1/c-of-c encoding

x Asumsi : data pelatihan dan data pengujian @2000 ◦ [LAS05] :

x SVM Biner, kernel RBF, data intrusi seimbang, 2 skenario pengujian

x Preprocessing

d t k t i 1 f di

x data kategori: 1-of-c encoding.

x Selanjutnya normalisasi data numerik dan diskrit dengan

(19)

Skenario

Skenario [2]

[2]

y

Perbandingan Performansi Alternatif Implementasi SVM

◦ Pelatihan :

x Komposisi data intrusi diusahakan seimbang : data pelatihan 100000Komposisi data intrusi diusahakan seimbang : data pelatihan 100000

x Komposisi data intrusi tidak seimbang : data pelatihan 49420

◦ Pengujian 9 X 100.000 data pada data yang mengandung intrusi jenis baru dan sebaliknyay

(20)

Skenario

Skenario [3]

[3]

Skenario

Skenario [3]

[3]

y Pengujian Skalabilitas model terbaik

P l tih d

250 000 d t

b h 250 000 d t d

◦

Pelatihan dengan 250.000 data, penambahan 250.000 data pada

pelatihan berikutnya

◦

Pengujian pada 1.000.000

◦

Untuk One Class SVM data pelatihan awal dan penambahannya =

50000

y

Upaya Peningkatan Kinerja Model Terbaik

◦

Nilai C berbeda pada rasio data intrusi bervariasi

◦

Feature Selection, eksperimen dengan variasi jumlah atribut paling

penting

◦

Incremental training

(21)

Hasil

Hasil Eksperimen

Eksperimen:

: Replikasi

Replikasi hasil

hasil [MUK02]

[MUK02]

Multi Class SVM

One- Against-All

y Berdasarkan t-Test metode dengan normalisasi + parameter hasil grid

search adalah yang terbaik

T li i

y Tanpa normalisasi :

◦ Nilai parameter C besar

(22)

Hasil

Hasil Eksperimen

Eksperimen: : Replikasi

Replikasi hasil

hasil [LAS04]

[LAS04]

nu = rasio data intrusi

◦ Berdasarkan t-Test metode normalisasi data hasil analisis TA adalah yang terbaik

◦ Metode normalisasi data [LAS04] dan [LAS05] membutuhkan nilai parameter g lebih kecil

◦ Metode normalisasi [LAS05] lebih baik dari [LAS04] karena memproses atribut diskrit sama dengan atribut numerik

2/1/2008 22

g

◦ Pada [LAS04] nilai atribut diskrit = 1/ jumlah kategori Æ rentang nilainya umumnya menjadi lebih kecil

(23)

Hasil

Hasil Eksperimen

Eksperimen: : Replikasi

Replikasi hasil

hasil [LAS05]

[LAS05]

Hasil

Hasil Eksperimen

Eksperimen: : Replikasi

Replikasi hasil

hasil [LAS05]

[LAS05]

Data pengujian mengandung intrusi jenis baru:

◦ Berdasarkan t-Test metode normalisasi data [LAS05] > analisis TA > [LAS04]

M d li i [LAS05] d li i TA l bih b ik d k i d

◦ Metode normalisasi [LAS05] dan analisis TA lebih baik pada kategori data tertentu

◦ Metode normalisasi [LAS05] lebih baik pada data DOS (80% dari dataset)

(24)

Hasil

Hasil Eksperimen

Eksperimen: : Perbandingan

Perbandingan Model

Model Anomaly Detection

Anomaly Detection

y

Data intrusi seimbang

y Data pelatihan tidak mengandung intrusi jenis baru

Berdasarkan t-Test MD2 > MD1

y Data pelatihan mengandung intrusi jenis baru

Berdasarkan t-Test Berdasarkan t Test MD1 > MD2

y MD2 menganggap sebagian data intrusi sebagai data normal sehingga: y Detection rate turun

y Akurasi pada data normal dan false positive lebih baik

2/1/2008 24

(25)

Hasil

Hasil Eksperimen

Eksperimen: : Perbandingan

Perbandingan Model

Model Anomaly Detection

Anomaly Detection [2]

[2]

y

Pada data intrusi tidak seimbang

y Data pelatihan tidak mengandung intrusi jenis baru Æ MD1 > MD2 y Data pelatihan mengandung intrusi jenis baru Æ MD1 > MD2

y Data pelatihan mengandung intrusi jenis baru Æ MD1 > MD2 y Berdasarkan t-Test pada gabungan hasil seluruh skenario MD1 dipilih sebagai

(26)

Hasil

Hasil Eksperimen

Eksperimen: : Perbandingan

Perbandingan Model

Model Misuse Detection

Misuse Detection

y

Data intrusi seimbang

y

Data intrusi seimbang

y Data pengujian tidak mengandung intrusi jenis baru

Berdasarkan t-Test MD6 = MD7 > MD5

y Data pengujian mengandung intrusi jenis baru

>MD4 p g j g g j Berdasarkan t-Test MD6 > MD7 > MD5 >MD4 2/1/2008 26 >MD4

(27)

Hasil

Hasil Eksperimen

Eksperimen: : Perbandingan

Perbandingan Model

Model Misuse Detection

Misuse Detection

[2]

y

Data intrusi tidak seimbang

y

Data intrusi tidak seimbang

y Data pengujian tidak mengandung intrusi jenis baru

Berdasarkan t-Test

MD5> MD4 >MD7>MD6

(28)

Hasil

Hasil Eksperimen

Eksperimen: : Perbandingan

Perbandingan Model

Model Misuse Detection

Misuse Detection [3]

[3]

y

MD6 dipilih sebagai model misuse detection terbaik karena:

y

MD6 dipilih sebagai model misuse detection terbaik karena:

y

Total waktu pelatihan dari seluruh skenario paling kecil

y

Paling baik berdasarkan t-Test pada gabungan hasil

g

p

g

seluruh skenario

y

Mengapa MD6 dan MD7 umumnya lebih baik?

y

Semua model menggunakan lebih dari 1 SVM Biner

y

Semua model menggunakan lebih dari 1 SVM Biner

y

Pada MD6 dan MD7 data normal digunakan hanya pada

satu SVM Biner Æ waktu pelatihan lebih kecil

y

Penentuan jenis intrusi lebih akurat karena fungsi

keputusannya tidak dipengaruhi data normal

(29)

Hasil

Hasil Eksperimen

Eksperimen: : Pengujian

Pengujian Skalabilitas

Skalabilitas Model

Model Terbaik

Terbaik

y

Pengujian pada 1 juta data = data 12.85 hari

y

Model Anomaly detection terbaik

y

y Parameter nu = 0.05 Æ jumlah minimum support vector y Waktu pelatihan sebanding dengan jumlah support vector y MD1 scalable untuk data pelatihan dalam jumlah ribuan

(30)

Upaya

Upaya Peningkatan

Peningkatan performansi

performansi dengan

dengan nilai

nilai C

C berbeda

berbeda

y

Performansi tidak berubah bahkan dengan perbandingan

y

Performansi tidak berubah bahkan dengan perbandingan

nilai C yang sangat besar

y

Hal ini menunjukkan:

y

Bidang pemisah terbaik tidak berubah

y

Selama pelatihan tidak terjadi banyak error dalam

klasifikasi

y

Akurasi pada data R2L dan U2R lebih kecil

y

Sedikitnya jumlah data bukan masalah utama

y

Menurut [KAY05] berdasarkan analisis atribut dengan

information gain

Æ

hampir tidak ada atribut relevan

untuk jenis intrusi ini

j

(31)

Upaya

Upaya Peningkatan

Peningkatan performansi

performansi dengan

dengan

menghilangkan

menghilangkan atribut

atribut tidak

tidak penting

penting

F l i d f fi i d 500000 d h

y Feature selection dengan f-score sangat efisien pada 500000 data hanya

membutuhkan waktu 19.8 detik

y Jika ada atribut penting yang hilang maka performansi menurun

D f t l ti i i fi i i i k t d k f ktifit

y Dengan feature selection ini efisiensi umumnya meningkat sedangkan efektifitas