Pendeteksian Trafik Anomali pada Jaringan didasarkan pada Analisa Payload Data Berbasis Metode Support Vector Machines

(1)

B1-98

Pendeteksian Trafik Anomali pada Jaringan didasarkan pada Analisa Payload Data

Berbasis Metode Support Vector Machines

Isbat Uzzin Nadhori, Moch. Hariadi

Institut Teknologi Sepuluh Nopember Surabaya, Fakultas Teknologi Industi, Teknik Elektro Bidang Keahlian Jaringan Cerdas Multimedia

{[email protected], [email protected]}

Abstrak

Intrusi didefinisikan sebagai usaha yang bisa membahayakan integritas, kerahasiaan dan ketersediaan sumber daya yang ada [1]. Dalam konteks jaringan komputer, intrusi menunjukkan usaha yang bisa membahayakan integritas, kerahasiaan dan ketersediaan sumber daya yang ada pada jaringan. Paper ini terkonsentrasi pada usaha untuk melakukan deteksi dan klasifikasi terhadap intrusi dengan mengamati traffic jaringan.

Paper ini berusaha melakukan pendekatan klasifikasi intrusi menggunakan metode Support Vector Machines. Ide dasarnya adalah mencatat aktifitas traffic jaringan menggunakan tool tcpdump, selanjutnya dilakukan ekstraksi fitur dari paket tcpdump khususnya pada payload data berdasarkan paper [2]. Diambil fitur utama yang paling berpengaruh yaitu : Destination Port, Source Port, Duration, Flag Packet Length dan Keyword Packet. Berdasarkan fitur tersebut digunakan untuk melakukan klasifikasi jenis intrusi menggunakan metode Support Vector Machines. Sebagai training, diambil data yang bebas dari intrusi, dan sebagai testing data diambil data non intrusi dan intrusi untuk melihat efektifitas metode yang ditawarkan.

Eksperimen ini didasarkan pada data intrusi DARPA’99. Sebagai training data dipakai data minggu ketiga yang bebas attack, dan sebagai testing data dipakai data minggu kelima. Berdasarkan percobaan metode ini bisa mendeteksi attack R2L (Remote To Local Attack) yaitu attack yang berusaha melakukan akses yang bukan haknya dari jarak jauh) dan U2R (User To Root Attack) yaitu attack yang berusahamelakukan akses yang bukan haknya ke superuser dari jaringan dalam.

Kata Kunci : Deteksi Anomali, Payload Data, SVM

1. Pedahuluan

Tujuan pendeteksian intrusi adalah menemukan adanya intrusi pada suatu sistem jaringan dengan mengamati berbagai aktivitas jaringan . Intrusi disini berarti semua jenis aksi yang mengancam integritas , kerahasiaan dan ketersediaan sumber daya yang ada pada jaringan. Metode yang banyak dimanfaatkan untuk intrusion detection dapat dikategorikan menjadi dua, misuse detection / signature analysis dan anomaly detection. Misuse detection mendeteksi intrusi dengan melakukan monitoring trafik jaringan dan mencocokkan pola penyerangan (signature) yang serupa. Yang termasuk dalam kategori ini adalah Snort dan Bro [3, 6]. Pendekatan ini disebut juga ruled-based approach. Kelebihan metode ini adalah tingkat deteksi yang tinggi dengan ‘false alarm’ yang rendah. Tetapi metode ini tidak dapat mendeteksi adanya jenis intrusi baru yang sebelumnya tidak dikenali. Metode yang kedua adalah anomaly detection, sistem mendefinisikan pola atau behaviour jaringan sebelumnya. Semua deviasi dari pola normal akan dilaporkan sebagai serangan. Deviasi ini tidak selalu berupa serangan, tetapi mungkin hanya merupakan behaviour atau pola baru yang perlu ditambahkan ke profile. Keuntungan utama dari anomaly based detection adalah kemampuan untuk mendeteksi serangan yang sebelumnya belum

didefinisikan. Data mining telah banyak diterapkan pada metode ini.

Penelitian ini dititikberatkan pada usaha untuk melakukan deteksi anomali didasarkan pada Analisa Payload Data menggunakan metode Support Vector Machines. Pada awalnya berusaha mencatat aktifitas data traffic jaringan menggunakan tools tcpdump, selanjutnya menemukan informasi fitur yang relevan yang ada di dalamnya dan menggunakan sehimpunan fitur yang relevan untuk melakukan klasifikasi jenis intrusi menggunakan metode Support Vector Machines. Percobaan ini menggunakan data KDD Cup DARPA 1999 yang diambil dari simulasi serangan di MIT Lab. Data ini sudah banyak digunakan untuk penelitian Intrusion Detection. Data yang digunakan adalah data minggu kedua sebagai data training yang bebas attack dan data minggu kelima sebagai data testing yang terdiri dari berbagai macam attack.

2. Penelitian Yang berkaitan

Cukup banyak penelitian yang telah dilakukan yang berhubungan dengan Sistem Pendeteksian Intrusi Pada Jaringan. Baik untuk anomali maupun misuse. Pada dasarnya ada beberapa tahap yang harus dilakukan untuk melakukan pendeteksian intrusi pada jaringan yaitu :

(2)

B1-99

1. Pengambilan traffic data jaringan, bisa dengan menggunakan tools yang sudah ada misalnya tcpdump dan selanjutnya melakukan preprocessing terhadap data dari traffic jaringan untuk mendapatkan fitur

2. Nilai fitur dianalisa dengan menggunakan metode tertentu untuk mendapatkan kesimpulan apakah terjadi serangan atau tidak.

Mattew V. Mahoney dan Philip K. Chan [3] melakukan penelitian tentang network anomali Intrusion Detection System yang didasarkan pada data DARPA 1999 [7]. Mereka berusaha mendeteksi traffic anomali berdasarkan payload data. Hal ini dilakukan dengan cara melakukan ekstraksi payload paket dari file tcpdump dan melakukan korelasi payload di dalamnya untuk mendeteksi intrusi. Like Zhang dan Gregory B. White [1][2], melakukan deteksi intrusi dengan melakukan korelasi port, keyword (yang diambil dari kata pertama payload) dan panjang packet (packet length). Dibahas tentang preprocessing yang perlu dilalui untuk mendapatkan model intrusi dan memilih fitur yang paling berpengaruh dengan PCA. Wenke Lee dkk [6] melakukan pengambilan traffic jaringan menggunakan tools tcpdump, selanjutnya dilakukan pre-processing untuk mendapatkan informasi dari connection-level. Lee membatasi koneksi menjadi TCP dan UDP. Dibangun script untuk menghasilkan informasi connection-level. Pada koneksi TCP mulai dari 3-wayhandshake sampai finalisasi dianggap sabagi satu connection-level. Sedangkan pada UDP setiap paket dihasilkan satu connection-level. Pada setiap connection-level akan menghasilkan fitur yang siap dimodelkan dengan data mining.

Mukkamala [4] melakukan penelitian Pendeteksi Intrusi pada Jaringan dengan menggunakan pendekatan metoda SVM dan Neural Network. Berdasarkan kesimpulan Mukkamala SVM mempunyai keunggulan dalam hal akurasi hasilnya. Data yang digunakan pada penelitian Mukkamala adalah dataset matang hasil preprocessing yang disediakan oleh DARPA diambil dari simulasi serangan di MIT Lab.

Penelitian - penelitian di atas berdasarkan pada dataset DARPA yang menyediakan 4 kategori attack. Pada DARPA 1999 mensimulasikan attack sbb :

• DoS (Denial-of-Service), termasuk di dalamnya : Apache2, arppoison, back, Crashiis, dosnuke, Land, Mailbomb, SYN Flood, (Neptune), Ping of Death (POD), Process Table, selfping, Smuff

• R2L ( Remote To Local Attack - melakukan akses yang tidak bukan haknya dari jarak jauh) , termasuk dalam kategori ini : Dictionary, Ftpwrite, Guest, Httptunnel, Imap,

Named, ncftp, netbus, netcat, Phf, ppmacro, Sendmail, sshtrojan, Xlock, Xsnoop

• U2R (User To Root Attack- melakukan akses yang bukan haknya ke superuser dari jaringan dalam), termasuk dalam kategori ini : anypw, casesen, Eject, Ffbconfig, Fdformat, Loadmodule, ntfsdos, Perl, Ps, sechole, Xterm, yaga

• PROBING, misal : insidesniffer, Ipsweep, ls_domain, Mscan, NTinfoscan, Nmap, queso, resetscan, Saint, Satan

3 Support Vector Machine 3.1 Konsep SVM

Support Vector Machine (SVM) adalah metode learning machine yang bekerja atas prinsip Structural Risk Minimization (SRM) yaitu mencari nilai resiko terkecil dalam menentukan vektor tertentu menjadi bagian dari sebuah kelas dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada input space.

Pertama kali diperkenalkan Boser, Guyon dan Vapnik pada tahun 1992 di Annual Workshop on Computational Learning Theory. Sebagai salah satu metode pattern recognition, usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state of the art dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang berkembang dengan pesat.

Data yang tersedia dinotasikan sebagai

d i

x

r

∈

ℜ

, sedangkan label masing-masing dinotasikan

y

i

=

{

+

1 ,

−

1 }

untuk i=1,2,3 …. l. Yang

mana l adalah banyaknya data. Diasumsikan kedua class –1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d , yang didefinisikan

0 =

+

⋅

x

b

w

r

Pattern

w

r

yang termasuk class –1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan

1 −

≤

+

⋅

x

b

w

r

Sedangkan pattern

w

r

yang termasuk class +1 (sampel positif)

1 +

≥

+

⋅

x

b

w

r

(3)

B1-100

Gambar 3.1. SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class

–1 dan +1

SVM berusaha menemukan hyperplane terbaik yang memisahkan kedua class –1 dan +1 dengan cara menemukan margin terbesar. Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya, yaitu

w

r

1

. Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan (3.4), dengan memperhatikan constraint persamaan (3.5) 2

2

1 )

(

min

w

r

τ

=

(3.4)

(

x

w

b

)

i

y

i i

⋅

+

−

1 ≥

0 ,

∀

r

(3.5)

Problem ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya Lagrange Multiplier.

(

)

∑

=

−

+

⋅

−

=

l i i i i

y

x

w

b

w

b

w

L

1 2

))

1 )

(

2

1 ,

,

r

α

dengan i=1,2,…l (3.6)

α_i adalah Lagrange multipliers, yang bernilai nol atau positif ( α_i≥0 ). Nilai optimal dari persamaan (3.6) dapat dihitung dengan meminimalkan L terhadap

w

r

dan b, dan memaksimalkan L terhadap α_i. Dengan memperhatikan sifat bahwa pada titik optimal gradient L =0, persamaan (3.6) dapat dimodifikasi sebagai maksimalisasi problem yang hanya mengandung saja

α_i, sebagaimana persamaan (3.7) di bawah.

∑

= =

−

l i i j i j i j i l i i

y

x

1 , 1

2

1 r

r

α

(3.7) Subject to

0 )

,...,

2 ,

1 (

0

1

=

≥

∑

= i l i i i

i

l

α

y

α

(3.8)

Dari hasil dari perhitungan ini diperoleh α_i yang kebanyakan bernilai positif. Data yang berkorelasi

dengan α_i yang positif inilah yang disebut sebagai support vector.

Pada dasarnya SVM hanya memisahkan dua kelas saja (biner), kelas +1 dan kelas -1 dengan cara mencari garis pemisah dengan dua buah kelompok yang berbeda. Pencarian tersebut menghasilkan sebuah pemisah yang nantinya sebagai dasar dari pengelompokan data. Penelitian ini menggunaan metode support vector mechine One class yaitu hanya mentrainingkan data yang satu kelas, dan digunakan untuk testing kelas +1 dan -1.

4 Desain Sistem 4.1 Preprocessing Data

Metode anomali untuk pendeteksian intrusi yang kami kerjakan seperti pada gambar 4.1. Pertama-tama data traffic jaringan ditangkap dengan perangkat lunak tcpdump, setelah melalui tahap preprocessing data dibagi menjadi dua bagian yaitu data training dan data testing. Dengan menggunakan SVM data training diklasifikasikan menjadi non intrusi. Hasil training SVM digunakan untuk melakukan testing data intrusi dan non intrusi.

Gambar 4.1 SVM untuk Pendeteksian Intrusi pada Jaringan

4.1.1 Data Collection

Metode pengambilan data :

• TCPdump dijalankan pada gateway untuk mencatat semua aktifitas jaringan baik yang kedalam maupun yang keluar

• Paket-paket data diekstraksi diambil header dan payload datanya.

• Hasil ektraksi dilakukan proses pengambilan fitur yang paling berpengaruh

Berikut ini adalah contoh keluran dari data traffic jaringan yang ditangkap Tcpdump dalam mode baca 10:35:41.5 128.59.23.34.30 > 113.22.14.65.80 : . 512:1024(512) ack 1 win 9216 10:35:41.5 102.20.57.15.20 > 128.59.12.49.3241: . ack 1073 win 16384 10:35:41.6 128.59.25.14.2623 > 115.35.32.89.21: . ack 2650 win 16225

(4)

B1-101

Data yang digunakan untuk proses uji coba mengandung 5 jenis kategori data yaitu :

• Normal, data traffic yang tidak mengandung jenis intrusi apapun

• DoS (Denial of Service)

• R2L (Remote to Local Attack)

• U2R (User to Root Attack)

• PROBING

4.1.2 Data Preprocessing

Hasil ekstraksi header dan payload data dilakukan proses lanjutan untuk mendapatkan informasi fitur yang dibutuhkan yang berisi informasi tentang :

Desination Port

Source Port

Length Packet Data

Keyword 2234 80 333 ^@HTTP/1.1 80 2234 228 ^@GET 2139 25 335 ^@220 2175 23 303 ^@ 25 2235 640 ^@EHLO 2235 25 265 ^@220 25 1100 715 ^@EHLO 1100 25 326 ^@220

Gambar 4.3. Data traffic setelah pre-processing

4.2 Klasifikasi Intrusi Dengan SVM

SVM digunakan untuk menguji kemampuan klasifikasi yang memisahkan antara traffic normal dan deviasinya. Input masukan adalah data hasil ekstraksi payload data seperti pada gambar 3.3. dengan menggunakan one class SVM.

5 Analisa dan Evaluasi

Dengan menggunakan metode yang kami tawarkan dilakukan testing menggunakan dataset DARPA 1999. Data minggu kedua sebagai data training yang bebas attack dan data minggu kelima sebagai data testing. Didasarkan pada analisa payload, metode kami hanya bisa mendeteksi khusus trafik TCP. Tabel 5.1 dibawah ini adalah attack yang berhasil terdeteksi.

Nama Attack PS Guesstelnet Netbus Ntinfoscan Teardrop CrashIIS Yaga Casesen Sshtrojan Eject Ftpwrite Back Ffbconfig Netcat Fdformat Phf Satan Sechole Netcat

Tabel 5.1 Attack terdeteksi

Terdapat 19 tipe attack yang bisa terdeteksi dari percobaan, yang kesemuanya merupakan kelompok attack U2R dan R2L. terdapat total 45 attack yang terdeteksi dengan false positif 0.018. Analisa berdasarkan payload data tidak bisa mendeteksi kelompok attack DoS dan Probbing, karena kedua kelompok attack tidak mempunyai koneksi tcp yang final.

6 Kesimpulan dan Saran

Dari percobaan-percobaan yang dilakukan, dapat diambil suatu kesimpulan. Deteksi anomali bisa dilakukan dengan berdasarkan payload data yang hanya diambil dari keyword pertama dari payload yang dipetakan ke nilai tertentu.

Pada percobaan ini kita belum tahu jenis attack yang terdeteksi hanya berupa terdapat deviasi dari traffik normal. Untuk mengetahui lebih lanjut jenis attack yang terjadi kita bisa menggunakan multiclass SVM.

Deteksi anomali hanya bisa mendeteksi jenis attack kelompok U2R dan R2L, untuk meningkatkan performansi deteksi, bisa digabungkan antara analisa berbasis payload dan header paket.

7 Daftar Pustaka

[1] Like Zhang, Gregory B. White, Analysis of Payload Based Application Level Network Anomaly Detection, The 40th Hawaii International Conference on System Sciences, 2007

[2] Like Zhang, Gregory B. White, Anomaly Detection for Application Level Network Attacks Using Payload Keywords, Computational Intelegence in Security and Defense Applications (CISDA), 2007

(5)

B1-102

[3] Matthew V. Mahoney and Philip K. Mahoney, "Learning Nonstationary Models of Normal Traffic for Detecting Novel Attacks", Proceeding of the 8th International Conference on Knowledge Discovery and Data Mining, pp. 376-385, 2002

[4] Srinivas Mukkamala, Guadalupe, Andrew Sung, Intrusion Detection Using Neural Network and Support Vector Machines, IEEE, Pebruari 2002

[5] Shinya Katagiri, Shigeo Abe , Incremental training of support vector machines using hyperspheres, Pattern Recognition Letters, Volume 27 , Issue 13 (October 2006)

[6] Wenke Lee, Sal Stolfo, and Kuik Mok., "A Data Mining Framework for Building Intrusion Detection Models", Proceedings of the 1999 IEEE Symposium on Security and Privacy, Oakland, CA, May 1999

[7] http://www.ll.mit.edu/mission/communications/i st/corpora/ideval/data/data_index.html

[8] Rafeeq Ur Rehman, Intrusion Detection Systems with Snort, Prentice Hall PTR, 2003 [9] Vern Paxson, Jim Rothfuss, Brian Tierney,

Bro Quick Start Guide

www.bro-ids.org/Bro-quick-start.pd