Penerapan
Penerapan Teknik
Teknik Support Vector
Support Vector
Machine
Machine untuk
untuk Pendeteksian
Pendeteksian
Machine
Machine untuk
untuk Pendeteksian
Pendeteksian
Intrusi
Intrusi pada
pada Jaringan
Jaringan
Sidang IF40Z2-Tugas Akhir II
Sidang IF40Z2-Tugas Akhir II
Krisantus Sembiring
13503121
13503121
Latar
Latar Belakang
Belakang
y
Pentingnya pendeteksian intrusi pada jaringan
y
Teknik signature based memerlukan signature yang dibuat secara
g
g
y g
manual
y
Pendeteksian intrusi dengan data mining:
K l bih
◦
Kelebihan:
x Mengatasi kelemahan teknik signature based
x Misuse detection & anomaly detection
◦
Kekurangan:
x Biaya komputasi tinggi (butuh pelatihan dan pengujian)
x Butuh data pelatihan dalam jumlah besar
x Anomaly detection Æfalse positive yang tinggi
y
SVM: teknik data mining untuk mendeteksi intrusi dengan akurasi
tinggi
gg
y
Rumusan Masalah
:
B
i
d l
t b ik
d l
i
l
t ik
SVM t k
◦
Bagaimana model terbaik dalam mengimplementasikan SVM untuk
pendeteksian intrusi pada jaringan.
◦
Bagaimana pengaruh variasi dataset terhadap performansi SVM pada
di ib i d
l
distribusi data yang natural.
y
Tujuan:
◦
Melakukan studi dan implementasi pendeteksian intrusi pada jaringan
p
p
p
j
g
baik dengan metode misuse maupun anomaly detection dengan
menggunakan SVM.
y
Batasan masalah:
yBatasan masalah:
◦
Mining dilakukan terhadap data yang diaudit
◦
Evaluasi hasil penerapan SVM yang dilakukan, digunakan data KDDCUP
99 h
//kdd i
i d /d
b
/kdd
99
Deskripsi
Deskripsi Sistem
Sistem
Metode
Metode pendeteksian
pendeteksian intrusi
intrusi dengan
dengan data
data
mining
mining
mining
mining
Anomaly Detection Misuse Detection
Proses:
Membangun model dari data normal Intrusi adalah deviasi dari data normal
Membangun model data intrusi dari dataset yang memiliki label
K l bih M d k i i i d h
Kelebihan :
Dapat mendeteksi intrusi jenis baru
Mendeteksi intrusi yang sudah diketahui secara akurat
false positive rendah Kekurangan:
Cenderung menghasilkan false positive
yang tinggi.
Umumnya tidak mampu mendeteksi jenis intrusi baru
Penelitian
Penelitian Pendeteksian
Pendeteksian Intrusi
Intrusi dengan
dengan SVM
SVM
y Srivinas Mukkamala, 2002
◦ SVM biner, kernel RBF
◦ 14292 dataset : 7312 pelatihan, 6980 pengujianp , p g j
◦ Akurasi 99.5%
y Srivinas Mukkamala, 2002
◦ Multi Class SVM One-against all ,kernel RBF
◦ 5 kelas (normal, dos, probe, r2l,u2r)
◦ 12072 dataset : 5092 pelatihan, 6980 pengujian
y Pavel Laskov et. al, 2004
◦ One Class SVM kernel RBF
◦ One Class SVM, kernel RBF
y Pavel Laskov et. al, 2005
◦ SVM, biner, kernel RBF
◦ 2000 data (5% intrusi), 41 atribut, distribusi intrusi seimbang2000 data (5% intrusi), 41 atribut, distribusi intrusi seimbang
◦ Hasilnya :
x (with known attack) : terbaik C4.5 akurasi 95% pada false positive 1%, diikuti SVM dan MLP dengan perbedaan kecil
x With unknown attack : SVM terbaik dengan perbedaan significant
2/1/2008 6
x With unknown attack : SVM terbaik dengan perbedaan significant
Dataset
Dataset Eksperimen
Eksperimen
Dataset
Dataset Eksperimen
Eksperimen
Data KDDCUP 99
Hasil preprocessing data mentah (tcpdump ) DARPA 98
Data simulasi jaringan yang mirip dengan jaringan angkatan udara AS Data 9 minggu , 4.9 juta record
22 jenis intrusi dalam 4 kategori utama yaitu DOS (Denial of Service),
Remote to User, User to Root, dan Probes.
Pavel Laskov (2005):
Data KCCUP 99 paling baik diproses dengan algoritma non-linier
Dasar
Dasar Teori
Teori SVM
SVM
D t t M d l SVM
m
Support VectorCari bidang pemisah dengan margin
2 Dataset Model SVM
{
x ,...,
1x
n}
{
+
1
,
−
1
}
∈
iy
Bidang pembatas kelas 2: xi . w+b = 1 Kelas 2 w b − (m= ) terbesar w 2
{
}
iKelas 1 Bidang pemisah:
xi . w+b = 0
Bidang pembatas kelas 1: xi . w+b = -1 0 0 . 2 1 max 1 , 1 1 ≥ − ≡
∑
∑
∑
= = = n j i j i n j i j i n i i D t x x y y L α αα Pembelajaran: 0 1 2 1 min 1 2 > + ≤ + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ +∑
= n i i b t C w ξ ξ ξ 0 , 0 . . 1 ≥ =∑
= i i i iy t s α α b x x y x f i i ns i i + =∑
= . ) ( 1α
1 1 ) ( 1 1 ) ( ≤ + = + ≥ i th f if y then x f if Klasifikasi: 0 , 1 . .t xi w+b≤ − + i i > s ξ ξ 2/1/2008 8 i 1 1 1 ) (x ≤− then yi =− f ifDasar
Dasar Teori
Teori SVM
SVM
Transformasikan data sehingga linearly separable di feature space
φ( )
φ( )φ( )
φ( )φ( )Transformasikan data sehingga linearly separable di feature space dengan fungsi kernel
φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )
φ(.)
φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )φ( ) φ( ) φ( )φ(.)
φ( )φ( ) φ( )φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( ) φ( )φ( )(
x x)
b K y x f ns + =∑
) (α
φ( ) φ( ) Feature space Input space φ( ) φ( ) φ( )φ( ) Feature space Input space Klasifikasi:( )
x
y
( ) ( )
x
x
b
f
ns+
=
∑
α
φ
φ
f x yiK(
xi x)
b i i + =∑
= , ) ( 1α
RBF kernel
Æ
(
)
(
2)
( )
x
y
( ) ( )
x
x
b
f
i i i i+
=
∑
=φ
φ
α
1RBF kernel Æ
(
,)
exp(
2)
, 0 > − − = γ i j γ j i x x x x KDasar
Dasar Teori
Teori One Class
One Class SVM
SVM
+1
φ(.)
+1
φ(.)
Dengan bidang pemisah:
+1 i i +1 i i -1 origin -1 origin Pembelajaran: Klasifikasi:
1
2
1
min
2+
∑
−
n ir
vn
w
ξ
(
)
∑
Pembelajaran: Klasifikasi:( )
(
)
0
,
.
.
.
2
1≥
−
≥
= i i i ir
x
w
t
s
vn
ξ
ξ
φ
f
(
x
)
=
∑
iα
iK
(
x
i,
x
)
−
r
2/1/2008 10 2/1/2008 10 iξ
Metode
Metode Pendeteksian
Pendeteksian Intrusi
Intrusi dengan
dengan SVM
SVM
y
Anomaly detection dengan One Class SVM
yAnomaly detection dengan One Class SVM
◦
Supervised : data pelatihan = data normal
◦
Unsupervised: data pelatihan mungkin mengandung data intrusi
y
Misuse Detection
◦
SVM Biner : 2 Kelas , intrusi dan normal
M l i Cl
SVM O A i O
◦
Multi Class SVM One Against All
◦
SVM Biner
Æ
Multi Class SVM One Against All
y
SVM Biner Æ Multi Class SVM One Against One
Pembelajaran:
Analisis
Analisis Pembelajaran
Pembelajaran dengan
dengan SVM
SVM
Preprocessing: Preprocessing:
Input SVM : vektor bilangan real
Representasi data diskrit yang tidak terurut dengan memakai 1-of-c
encoding. Contoh protocol_type: tcp udp icmp
min max min ' − − = x x g p _ yp p p p [100] [010] [001]
Normalisasi/ scaling ke dalam rentang [0,1] Æ
Estimasi parameter dengan k-folds cross-validation dan grid search
2/1/2008 14
SVM
SVM Pada
Pada Imbalanced Dataset
Imbalanced Dataset
y
Teknik klasifikasi umumnya akurasinya menurun pada imbalanced dataset
ySolusi : memberikan bias sehingga SVM lebih memperhatikan instance dari
ySolusi : memberikan bias sehingga SVM lebih memperhatikan instance dari
kelas minoritas
C C w y i y i b w i i 2 1 min 1 1 2 , , ξ + +∑
= ξ + −∑
=−ξ(
)
n i b wx y t s i i i i y yi i ,..., 1 , 0 , 1 . . 1 1 = ≥ − ≥ + ξ ξIncremental Training
Incremental Training untuk
untuk SVM
SVM
y
Fungsi keputusan hanya dipengaruhi oleh support vector
Pilih k did t pp t t
b l
l tih Æj
l h d t l tih
1
)
(
)
(
x
f
x
<=
β
+
y
y
Pilih kandidat support vector sebelum pelatihanÆjumlah data pelatihan
berkurang
Feature Selection
Feature Selection
Tujuan
Tujuan Eksperimen
Eksperimen
Tujuan
Tujuan Eksperimen
Eksperimen
y
Mereplikasi hasil paper acuan dan membandingkan
setting parameter dan metode preprocessing data
y
Memilih model terbaik dari alternatif
implementasi pendeteksian intrusi dengan SVM.
y
Menguji skalabilitas model terbaik.
g j
y
Mengetahui hasil upaya peningkatan performansi
◦
Penggunaan nilai C berbeda
gg
◦
feature selection
◦
incremental training.
g
Parameter
Parameter Evaluasi
Evaluasi
True Positive Rate/ Detection Rate (DR) ROC C True Positive Rate/ Detection Rate (DR)
P
TP
DR
=
ROC Curve
t-Test pada nilai F-measure
False Positive Rate
N
FP
FP
rate=
Waktu pelatihan dan pengujian
Skenario
Skenario
y
Replikasi Hasil Paper Acuan
yReplikasi Hasil Paper Acuan
◦ [MUK02A]
x SVM Biner, kernel RBF, data pelatihan : 7312 , data pengujian : 6980
x Parameter C = 1000 g=1 0
x Parameter C = 1000, g=1.0
x Asumsi : distribusi data intrusi tidak diubah, tidak ada normalisasi ◦ [MUK02B]
x One Against All kernel RBF data pelatihan : 7312 data pengujian : 6980One Against All, kernel RBF, data pelatihan : 7312 , data pengujian : 6980
x Asumsi : parameter sama dengan [MUK02A], tidak ada normalisasi ◦ [LAS04]
x Kernel RBF, unsupervised anomaly detection, parameter nu dan rasio intrusi e e , u supe v sed a o a y detect o , pa a ete u a as o t us
bervariasi
x Preprocessing data numerik: data diskrit: 1/c-of-c encoding
x Asumsi : data pelatihan dan data pengujian @2000 ◦ [LAS05] :
x SVM Biner, kernel RBF, data intrusi seimbang, 2 skenario pengujian
x Preprocessing
d t k t i 1 f di
x data kategori: 1-of-c encoding.
x Selanjutnya normalisasi data numerik dan diskrit dengan
Skenario
Skenario [2]
[2]
y
Perbandingan Performansi Alternatif Implementasi SVM
◦ Pelatihan :
x Komposisi data intrusi diusahakan seimbang : data pelatihan 100000Komposisi data intrusi diusahakan seimbang : data pelatihan 100000
x Komposisi data intrusi tidak seimbang : data pelatihan 49420
◦ Pengujian 9 X 100.000 data pada data yang mengandung intrusi jenis baru dan sebaliknyay
Skenario
Skenario [3]
[3]
Skenario
Skenario [3]
[3]
y Pengujian Skalabilitas model terbaik
P l tih d
250 000 d t
b h 250 000 d t d
◦
Pelatihan dengan 250.000 data, penambahan 250.000 data pada
pelatihan berikutnya
◦
Pengujian pada 1.000.000
◦
Untuk One Class SVM data pelatihan awal dan penambahannya =
50000
y
Upaya Peningkatan Kinerja Model Terbaik
◦
Nilai C berbeda pada rasio data intrusi bervariasi
◦
Feature Selection, eksperimen dengan variasi jumlah atribut paling
penting
penting
◦
Incremental training
Hasil
Hasil Eksperimen
Eksperimen:
: Replikasi
Replikasi hasil
hasil [MUK02]
[MUK02]
Multi Class SVM
One- Against-All
y Berdasarkan t-Test metode dengan normalisasi + parameter hasil grid
search adalah yang terbaik
T li i
y Tanpa normalisasi :
◦ Nilai parameter C besar
Hasil
Hasil Eksperimen
Eksperimen: : Replikasi
Replikasi hasil
hasil [LAS04]
[LAS04]
nu = rasio data intrusi
◦ Berdasarkan t-Test metode normalisasi data hasil analisis TA adalah yang terbaik
◦ Metode normalisasi data [LAS04] dan [LAS05] membutuhkan nilai parameter g lebih kecil
◦ Metode normalisasi [LAS05] lebih baik dari [LAS04] karena memproses atribut diskrit sama dengan atribut numerik
2/1/2008 22
g
◦ Pada [LAS04] nilai atribut diskrit = 1/ jumlah kategori Æ rentang nilainya umumnya menjadi lebih kecil
Hasil
Hasil Eksperimen
Eksperimen: : Replikasi
Replikasi hasil
hasil [LAS05]
[LAS05]
Hasil
Hasil Eksperimen
Eksperimen: : Replikasi
Replikasi hasil
hasil [LAS05]
[LAS05]
Data pengujian mengandung intrusi jenis baru:
◦ Berdasarkan t-Test metode normalisasi data [LAS05] > analisis TA > [LAS04]
M d li i [LAS05] d li i TA l bih b ik d k i d
◦ Metode normalisasi [LAS05] dan analisis TA lebih baik pada kategori data tertentu
◦ Metode normalisasi [LAS05] lebih baik pada data DOS (80% dari dataset)
Hasil
Hasil Eksperimen
Eksperimen: : Perbandingan
Perbandingan Model
Model Anomaly Detection
Anomaly Detection
y
Data intrusi seimbang
y Data pelatihan tidak mengandung intrusi jenis baru
Berdasarkan t-Test MD2 > MD1
y Data pelatihan mengandung intrusi jenis baru
Berdasarkan t-Test Berdasarkan t Test MD1 > MD2
y MD2 menganggap sebagian data intrusi sebagai data normal sehingga: y Detection rate turun
y Akurasi pada data normal dan false positive lebih baik
2/1/2008 24
Hasil
Hasil Eksperimen
Eksperimen: : Perbandingan
Perbandingan Model
Model Anomaly Detection
Anomaly Detection [2]
[2]
y
Pada data intrusi tidak seimbang
y Data pelatihan tidak mengandung intrusi jenis baru Æ MD1 > MD2 y Data pelatihan mengandung intrusi jenis baru Æ MD1 > MD2
y Data pelatihan mengandung intrusi jenis baru Æ MD1 > MD2 y Berdasarkan t-Test pada gabungan hasil seluruh skenario MD1 dipilih sebagai
Hasil
Hasil Eksperimen
Eksperimen: : Perbandingan
Perbandingan Model
Model Misuse Detection
Misuse Detection
y
Data intrusi seimbang
yData intrusi seimbang
y Data pengujian tidak mengandung intrusi jenis baru
Berdasarkan t-Test MD6 = MD7 > MD5
y Data pengujian mengandung intrusi jenis baru
>MD4 p g j g g j Berdasarkan t-Test MD6 > MD7 > MD5 >MD4 2/1/2008 26 >MD4
Hasil
Hasil Eksperimen
Eksperimen: : Perbandingan
Perbandingan Model
Model Misuse Detection
Misuse Detection
[2]
[2]
y
Data intrusi tidak seimbang
yData intrusi tidak seimbang
y Data pengujian tidak mengandung intrusi jenis baru
Berdasarkan t-Test
MD5> MD4 >MD7>MD6
Hasil
Hasil Eksperimen
Eksperimen: : Perbandingan
Perbandingan Model
Model Misuse Detection
Misuse Detection [3]
[3]
y
MD6 dipilih sebagai model misuse detection terbaik karena:
yMD6 dipilih sebagai model misuse detection terbaik karena:
yTotal waktu pelatihan dari seluruh skenario paling kecil
yPaling baik berdasarkan t-Test pada gabungan hasil
g
p
g
g
seluruh skenario
y
Mengapa MD6 dan MD7 umumnya lebih baik?
y
Semua model menggunakan lebih dari 1 SVM Biner
y
Semua model menggunakan lebih dari 1 SVM Biner
y
Pada MD6 dan MD7 data normal digunakan hanya pada
satu SVM Biner Æ waktu pelatihan lebih kecil
y
Penentuan jenis intrusi lebih akurat karena fungsi
keputusannya tidak dipengaruhi data normal
Hasil
Hasil Eksperimen
Eksperimen: : Pengujian
Pengujian Skalabilitas
Skalabilitas Model
Model Terbaik
Terbaik
y
Pengujian pada 1 juta data = data 12.85 hari
yModel Anomaly detection terbaik
y
y Parameter nu = 0.05 Æ jumlah minimum support vector y Waktu pelatihan sebanding dengan jumlah support vector y MD1 scalable untuk data pelatihan dalam jumlah ribuan
Upaya
Upaya Peningkatan
Peningkatan performansi
performansi dengan
dengan nilai
nilai C
C berbeda
berbeda
y
Performansi tidak berubah bahkan dengan perbandingan
y
Performansi tidak berubah bahkan dengan perbandingan
nilai C yang sangat besar
y
Hal ini menunjukkan:
y
Bidang pemisah terbaik tidak berubah
y
Selama pelatihan tidak terjadi banyak error dalam
klasifikasi
klasifikasi
y
Akurasi pada data R2L dan U2R lebih kecil
y
Sedikitnya jumlah data bukan masalah utama
y
Menurut [KAY05] berdasarkan analisis atribut dengan
information gain
Æ
hampir tidak ada atribut relevan
untuk jenis intrusi ini
j
Upaya
Upaya Peningkatan
Peningkatan performansi
performansi dengan
dengan
menghilangkan
menghilangkan atribut
atribut tidak
tidak penting
penting
F l i d f fi i d 500000 d h
y Feature selection dengan f-score sangat efisien pada 500000 data hanya
membutuhkan waktu 19.8 detik
y Jika ada atribut penting yang hilang maka performansi menurun
D f t l ti i i fi i i i k t d k f ktifit
y Dengan feature selection ini efisiensi umumnya meningkat sedangkan efektifitas
tidak berubah
Hasil
Hasil Eksperimen
Eksperimen: : Upaya
Upaya Peningkatan
Peningkatan performansi
performansi
dengan
dengan Incremental Training
Incremental Training
y
Training dengan n partisi data masing-masing distribusinya sama
yParameter Beta
y SVM Biner : 0 6 y SVM Biner : 0.6
y Multi Class SVM One-Against-One: 0.001 y One Class SVM : -0.99
y
Jumlah partisi
yJumlah partisi
y SVM Biner : 10
y Multi Class SVM One-Against-One: 5 y One Class SVM : 20
y One Class SVM : 20
y
MD6 :
y efektifitas cenderung tetap
Efi i i i k t
y Efisiensi meningkat
y
MD1
y Efisiensi jauh meningkat
B b il i k il
2/1/2008 32
Hasil
Hasil Eksperimen
Eksperimen: : Upaya
Upaya Peningkatan
Peningkatan
performansi
performansi
pp
y
MD6
Kesimpulan
Kesimpulan
y
Model terbaik SVM Biner Æ Multi Class SVM One Against One dan One
Class SVM dengan mengunakan data data normal.
P d d
KDDCUP 99 d
k O Cl
SVM l bih b ik
y
Pada data KDDCUP 99, data untuk One Class SVM lebih baik
dinormalisasi ke nilai maksimum dan minimumnya sedangkan data
untuk SVM Biner Æ Multi Class SVM One Against One lebih baik
dinormalisasi dengan data dependent normalization (data hasil one of c
dinormalisasi dengan data dependent normalization (data hasil one-of-c
encoding juga ikut dinormalisasi).
y
Performansi SVM dengan misuse detection tidak jauh berubah pada
berbagai variasi dataset akan tetapi pada anomaly detection terjadi
berbagai variasi dataset, akan tetapi pada anomaly detection terjadi
perubahan yang signifikan
y
Penghilangan atribut kurang penting dan incremental training dapat
i k tk fi i
i SVM
i ifik
hi
meningkatkan efisiensi SVM secara signifikan sehingga mampu
menangani pelatihan dalam jumlah yang lebih besar.
y
Penggunaan nilai C berbeda tidak mampu menangani masalah
i b l
d t
t
d d t KDDCUP 99
imbalance dataset pada data KDDCUP 99.
Saran
Saran
Saran
Saran
y
Penelitian mengenai mengenai incremental training terutama pada
kriteria pembuangan data pelatihan dan parameter pelatihannya
kriteria pembuangan data pelatihan dan parameter pelatihannya.
y
Penelitian mengenai metode pencarian parameter selain dengan grid
search sehingga membutuhkan waktu yang lebih singkat terutama
pada dataset berukuran besar
pada dataset berukuran besar.
y
Penelitian mengenai metode lain untuk mengatasi masalah
imbalanced dataset pada data KDDCUP 99.
y