Voting Based Extreme Learning Machine dalam Klasifikasi Computer Network Intrusion Detection

(1)

Fakultas Ilmu Komputer

Universitas Brawijaya

2158

Voting Based Extreme Learning Machine dalam Klasifikasi Computer

Network Intrusion Detection

Sindy Erika Br Ginting1_{, Agus Wahyu Widodo}2_{, Putra Pandu Adikara}3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

Email: 1_{[email protected],}2_{[email protected],}3_{[email protected]}

Abstrak

Intrusion Detection System (IDS) merupakan perangkat lunak atau sistem yang berguna mendeteksi serangan pada jaringan komputer. IDS bekerja dengan memanfaatkan kecerdasan buatan untuk mengenali anomaly atau signature dari aktivitas pada jaringan komputer. Untuk lebih menyempurnakan IDS, dibutuhkan pengembangan algoritme klasifikasi intrusi dengan akurasi yang tinggi. Voting based Extreme Learning Machine merupakan algoritme baru yang memperbaharui Extreme Learning Machine (ELM) dalam meningkatkan kinerja klasifikasi dari ELM dan dikenal cukup handal untuk banyak data. Pada paper ini, kinerja dari V-ELM akan dievaluasi pada data Knowledge Discovery and Data Mining (KDD) Cup 99 guna menunjang perkembangan IDS. Penelitian ini menunjukan bahwa V-ELM menghasilkan kinerja kurang baik apabila menggunakan sebagian data dari KDD Cup 99. Dengan menggunakan 1000 data latih dan 250 data uji dari KDD Cup 99 dataset, data dibagi menjadi 3 varian yaitu 40 kelas, 5 kelas, dan 2 kelas serangan. Parameter yang akan diuji adalah nilai dari hidden neuron (L), independent training (K), dan sensitivity setiap kelas serangan. Diperoleh hasil akurasi terbaik pada nilai independent training (K) = 3 dan hidden neuron sebanyak 100 pada data 2 kelas serangan dengan akurasi sebesar 72%. Akurasi terendah diperoleh pada nilai hidden neuron sebesar 100 dan independent training (K) = 11 pada 40 kelas serangan yaitu dengan akurasi sebesar 12%. Hasil tersebut menunjukan kemampuan klasifikasi yang baik pada 2 kelas dan kurang baik pada 40 kelas.

Kata kunci: Voting based Extreme Learning Machine, Serangan Jaringan Komputer, Klasifikasi, KDD CUP 99,

Extreme Learning Machine

Abstract

Intrusion Detection System (IDS) is useful software or system to detect intrusion on computer networks. It works by utilizing artificial intelligence to identify anomalies or signatures from the activity on computer networks. To refine more the IDS, it requires the development of intrusion classification algorithms with high accuracy. Voting based Extreme Learning Machine (ELM) is a new scheme algorithm which updates the Extreme Learning Machine (ELM) in improving ELM classification performance and is known more reliable for many data. In this study, the performance of the V-ELM has been evaluated on the Knowledge Discovery and Data Mining (KDD) Cup 99 dataset to support IDS development. This study showed that V-ELM was produced bad performance when using some data from KDD Cup 99. It was using 1000 training data and 250 testing data from KDD Cup 99 datasets. The data was divided into 3 variants are 40 classes, 5 classes, and 2 classes attack. The parameters which tested are the values of hidden neurons (L), independent training (K), and sensitivity of each intrusion class. This study found that the best accuracy result on independent training (K) was 3 and 100 hidden neurons in 2 attack class data with an accuracy of 72%. The lowest accuracy was obtained on hidden neurons was 100 and independent training (K) was 11 in 40 attack classes with an accuracy of 12%. This result showed that good classification capability in 2 classes and bad classification capability in 40 classes.

Keywords: Voting based Extreme Learning Machine, Network Intrusion, Classification, KDD CUP 99, Extreme

(2)

1. PENDAHULUAN

Keamanan data dan privasi pada layanan jaringan komputer menjadi aspek yang penting dalam perkembangan teknologi. Dalam perkembangan teknologi khususnya dalam hal komunikasi, keamanan merupakan hal yang penting. Sering terjadinya serangan jaringan menyebabkan kerugian kepada beberapa pihak, baik penyedia jasa maupun yang memakai jasa komunikasi tersebut (Modi et al., 2013).

Banyak cara dalam mengamankan sistem, salah satunya adalah firewall tetapi firewall hanya cocok digunakan mengatasi serangan dari luar sistem, namun tidak cocok digunakan bila serangan berasal dari dalam sistem. Maka disarankan untuk mengatasi serangan dari dalam sistem adalah Intrusion Detection Systems (IDS) dan Intrusion Prevention System (IPS) harus dimasukan ke dalam infrastruktur Cloud untuk mengatasi serangan (Modi et al., 2013).

Intrusion detection system dan intrusion prevention system membantu administrator keamanan jaringan dalam mengidentifikasi, mencatat informasi, berusaha menghentikan dan melaporkan setiap aktivitas dalam jaringan. IDS mengidentifikasi paket data jaringan yang masuk dalam sistem dan menganalisis kemungkinan adanya serangan pada jaringan (Dirgantara, 2011). IDS dan IPS melakukan beberapa teknik dalam mendeteksi serangan yaitu mendeteksi berdasarkan tanda (signature), mendeteksi kelainan (anomaly), mendeteksi dengan kecerdasan buatan dan lain-lain (Modi et al., 2013).

Intrusion detection system adalah salah satu solusi yang baik untuk keamanan informasi (Ye et al., 2015), tetapi IDS yang sempurna masih belum ditemukan dan tetap menarik dan menantang dalam penelitian keamanan jaringan komputer (Mechtri et al., 2010). Berbagai aktivitas jaringan dan perkembangan pesat dari mode serangan membuat diperlukannya pengembangan algoritme klasifikasi intrusi dengan akurasi yang tinggi untuk IDS (Ye et al., 2015).

Banyak metode klasifikasi yang ditawarkan dalam menyempurnakan IDS diantaranya penelitian yang dilakukan oleh Zhifan Ye dan Yuanlong Yu (2015) menggunakan metode Extreme Learning Machine untuk klasifikasi network intrusion dengan data NSL-KDD. Hasil dari penelitian ini didapatkan bahwa akurasi ELM lebih tinggi dari metode klasifikasi lainnya

seperti decision tree, neural netwotk (NN) dan support vector machines (SVM) yaitu 96%.

Berdasarkan penelitian yang dilakukan oleh Jiuwen Cao et al, metode Extreme Learning Machine (ELM) masih memiliki kelemahan. Oleh sebab itu diusulkan metode Voting based Extreme Learning Machine (V-ELM) untuk mengatasi kelemahan dari ELM sehingga diharapkan memiliki akurasi yang lebih baik terutama untuk klasifikasi intrusion detection.

Voting based Extreme Learning Machine menghasilkan akurasi yang lebih baik dibandingkan dengan ELM pada percobaan yang dilakukan pada banyak data. Berdasarkan simulasi perbandingan antara V-ELM dan ELM pada 19 dataset dunia nyata, dimana 18 dataset dari UCI database dan 1 dataset dari Protein Information Resource (PIR) center menunjukan bahwa klasifikasi dengan V-ELM lebih baik untuk semua data. Dengan data yang sama, V-ELM bahkan lebih baik dari algoritme klasifikasi terkini seperti support vector machine (SVM), optimally pruned extreme learning machine (OP-ELM), Back-Propagation (BP), K nearest neighbor (KNN), robust fuzzy relational classifier (RFRC), radial basis function neural network (RBFNN), dan multiobjective simultaneous learning framework (MSCC) (Cao, 2012).

Pada penelitian ini diusulkan menggunakan algoritme V-ELM untuk klasifikasi serangan jaringan komputer menggunakan data KDD Cup 99.

2. LANDASAN KEPUSTAKAAN 2.1. Klasifikasi

Klasifikasi merupakan suatu proses yang bertujuan untuk mengelompokkan beberapa data ke dalam beberapa kelas. Proses pengelompokan dapat menggunakan beberapa metode. Beberapa metode yang termasuk di dalam klasifikasi merupakan Extreme Learning Machine, Support Vector Machine, Decision Tree, Bayesian Decision, Neural Network dan Linear Discriminant Analysis.

2.2. Intrusion Detection

Intrusi merupakan aksi atau gangguan pada suatu sistem atau layanan cloud computing yang mempengaruhi dan membahayakan ketersediaan, kerahasiaan, dan integritas dari layanan dan sumber daya dari cloud. Detection merupakan usaha dalam mencari, menemukan

(3)

dan mencegah serangan jaringan komputer. Dalam mendeteksi dan mencegah serangan jaringan komputer dapat dilakukan dengan beberapa teknik yaitu firewall, intrusion detection system (IDS) dan intrusion prevention system (IPS) (Modi et al., 2013).

Pada umumnya arsitektur dari sistem pendeteksi serangan terbagi menjadi event auditor, service, IDS service, dan storage service. Event auditor bekerja seperti system logs yang mencatat dan mengumpulkan paket-paket data. Pada IDS service terdapat analyzer yang berfungsi menganalisis paket-paket data yang diperoleh dari event auditor dan alert system yang berfungsi dalam pengelolaan atau pengiriman peringatan apabila terjadi serangan. IDS service berguna untuk mendeteksi serangan melalui teknik behavior atau knowledge. Untuk mendeteksi serangan, IDS dibedakan menjadi beberapa macam (Modi et al., 2013), yaitu: 1. Host based intrusion detection system

(HIDS)

HIDS memonitoring dan mengidentifikasi file host sistem, system calls atau network event pada jaringan apakah terjadi suatu percobaan serangan atau penyusupan ke dalam sistem. 2. Network based intrusion detection system

(NIDS)

NIDS memonitoring dan menganalisa semua lalu lintas (network traffic) yang lewat pada jaringan untuk mencari adanya serangan atau penyusupan ke dalam jaringan.

3. Distributed intrusion detection system (DIDS)

DIDS bekerja dengan menggunakan karakteristik dari NIDS dan HIDS serta mewarisi kelebihan dari kedua IDS tersebut. 4. Hypervisor-based intrusion detection system

Hypervisor based intrusion detection system bekerja dengan memantau dan menganalisa komunikasi antara virtual machine (VMs) dengan hypervisor berbasis jaringan virtual. 5. Intrusion Prevention System (IPS)

IPS bekerja untuk mencegah serangan intrusi yang dibagi menjadi network based intrusion prevention system (NIPS) dan host based intrusion prevention system (HIPS). 6. Intrusion detection and prevention system

(IDPS)

IDPS merupakan gabungan dari kinerja IDS dan IPS, yang mana IDPS sangat efektif dalam mendeteksi dan mencegah serangan jaringan.

2.3. KDD CUP 99

Data yang digunakan dalam penelitian untuk menilai algoritme ELM pada Network Intrusion Detection dataset KDD Cup 99. Data Knowledge Discovery and Data Mining Tools Competition (KDD) Cup 99 dibuat dengan memproses bagian TCPdump dari DARPA Intrusion Detection System Evaluation dataset 1998, yang dibuat oleh MIT di Laboratorium Lincoln. Data ini berasal dari jejak paket Defense Advanced Research Projects Agency (DARPA) yang digunakan untuk Kompetisi Internasional yang ketiga pada Knowledge Discovery dan Data Mining Tools. Tujuan dari kompetisi ini adalah untuk membangun sebuah detektor jaringan untuk menemukan koneksi yang baik dan koneksi yang buruk (NSKH, 2016). Data TCPdump yang dikumpulkan dari lalu lintas jaringan diubah menjadi informasi atau catatan koneksi. Kumpulan data training ada sekitar 5.000.000 catatan koneksi, dan 10% data training terdiri dari 494.021 data yang di antaranya terdapat 97.278 koneksi normal. Ada 41 atribut yang berbeda untuk membedakan fitur koneksi dan mengetahui nilai dari koneksi tersebut apakah sebuah serangan atau tidak (Mechtri, 2010).

Jenis-jenis serangan dibagi ke dalam empat kategori sebagai berikut (NSKH, 2016):

1. Probing Attack yaitu keadaan ketika penyerang mencoba untuk mengumpulkan informasi yang lebih detail tentang host target dengan memindai jaringan untuk menemukan vulnerability. Serangan yang termasuk kategori ini misalnya adalah port scanning, nmap, ipsweep, mscan.

2. Denial of Service (DOS) yaitu keadaan ketika penyerang mencoba membuat sumber jaringan menjadi tidak tersedia bagi pengguna yang dituju. Serangan yang termasuk kategori ini adalah syn flooding, back, smurf, mailbomb, neptune.

3. User to Root Attack (U2R) yaitu keadaan ketika penyerang mengakses super-user korban atau mengeksploitasi untuk mendapatkan root access ke sistem atau akses tidak sah ke hak superuser lokal (root). Serangan pada kategori ini misalnya serangan buffer overflow, rootkit, sqlattack. 4. Remote to Local Attack (R2L) yaitu akses

tidak sah dari penyerang jarak jauh, misalnya imap, worm, spy, snmpgetattack, snmpguess. Pada serangan ini, penyerang mengirimkan paket ke mesin melalui

(4)

jaringan tetapi tidak memiliki akun pada mesin tersebut dan mengeksploitasi untuk tambahan akses lokal sebagai seorang user pada mesin tersebut.

Setiap kategori serangan dikelompokkan menjadi beberapa jenis serangan dasar, misalnya serangan R2L terbagi menjadi 8 jenis serangan tertentu (yaitu spy, imap, dll). Terdapat 22 kategori jenis serangan pada 10% data KDD Cup 99, tetapi secara keseluruhan dataset ada 40 jenis kategori serangan yang akan dijelaskan pada Tabel 1.

Tabel 1 Klasifikasi tipe serangan jaringan (NSKH,

2016)

Tipe serangan Kelas

Normal Normal

apache2, back, land,mailbomb, neptune, pod, processtable, smurf, teardrop,

udpstorm

DOS butter_overflow, loadmodule, perl, ps,

rootkit, sqlattack, xterm U2R

ftp_write, guess_passwd, sendmail, imap, multihop, named, phf, snmpgetattack, snmpguess, warezmaster, worm, xlock, httptunnel, xznoop, wazerclient, spy

R2L ipsweep, mscan, portsweep, saint, satan,

nmap Probe

2.4. Extreme Learning Machine

Metode ELM diperkenalkan pertama kali oleh Huang (Huang et al., 2006). ELM merupakan jaringan saraf tiruan (JST) feedforward dengan single hidden layer atau disebut dengan Single Hidden Layer Feedforward Neural Networks (SLFNs) (Huang et al., 2006). Metode pembelajaran ELM dibuat untuk mengatasi beberapa kelemahan dari jaringan saraf tiruan feedforward, terutama dalam hal learning speed.

Gambar 1 merupakan struktur ELM dalam klasifikasi, dimana terdapat input layer, hidden layer, dan output layer. Terdapat beberapa activation function yaitu sigmoidal function, radial basis, sine, cosine, exponential, dan nonregular function lainnya serta menggunakan Moore-Penrose untuk menghitung invers matriks keluaran hidden layer H. Digunakan activation function sigmoid karena merupakan activation function yang telah menghasilkan akurasi terbaik pada banyak data (Cao, 2012).

Gambar 1 Struktur ELM dalam klasifikasi

(Ye, 2015)

Training algoritme ELM dengan bisa dilakukan dengan langkah-langkah (Cholissodin, 2016):

1. Membuat nilai random matriks Wjk sebagai

bobot masukan dan nilai bias b dengan ukuran matrik bias adalah [1xj] yang mana k merupakan banyak node input layer dan j merupakan banyak node hidden layer. W dan b merupakan learning parameter dari ELM.

2. Menghitung matrik H (keluaran hidden layer) dengan Persamaan 1.

𝐻 = 1/(1 + exp(−(𝑋𝑡𝑟𝑎𝑖𝑛 . 𝑊𝑇+

𝑜𝑛𝑒𝑠(𝑁𝑡𝑟𝑎𝑖𝑛, 1) ∗ 𝑏))) (1)

3. Menghitung output weight dengan Persamaan 2.

𝛽̂ = H†_{. T} ₍₂₎

Dengan T merupakan matriks target keluaran, dan untuk menghitung 𝐻†digunakan pseudoinvers Moore-Penrose dengan Persamaan 3.

𝐻†_{= (𝐻}𝑇_{. 𝐻)}−1_{. 𝐻}𝑇 ₍₃₎

4. Menghitung hasil prediksi dengan Persamaan 4.

𝑌̂ = 𝐻 . 𝛽̂ (4)

Testing algoritme ELM dengan bisa dilakukan dengan langkah-langkah (Cholissodin, 2016):

1. Diketahui nilai bobot masukan Wjk, nilai bias

b, dan nilai 𝛽̂ sesuai training.

(5)

𝐻𝑡𝑒𝑠𝑡 = 1/(1 + exp(−(𝑋𝑡𝑒𝑠𝑡 . 𝑊𝑇+

𝑜𝑛𝑒𝑠(𝑁𝑡𝑒𝑠𝑡, 1) ∗ 𝑏))) (5)

3. Menghitung hasil prediksi dengan Persamaan 6.

𝑌̂ = 𝐻𝑡𝑒𝑠𝑡 . 𝛽̂ (6)

4. Menghitung nilai evaluasi.

2.5. Voting Based Extreme Learning Machine 2.5.1. Masalah ELM pada Klasifikasi

ELM membangun batas pemisahan nonlinear dalam aplikasi klasifikasi. Hidden nodes yang digunakan acak dan tidak berubah selama fase training, beberapa sampel kemungkinan terjadi kesalahan klasifikasi pada realisasi tertentu, terutama untuk sampel yang dekat dengan batas klasifikasi. keputusan berdasarkan realisasi tunggal ELM mungkin kurang dapat diandalkan dan hasil klasifikasi dalam realisasi yang berbeda dapat bervariasi karena batas pemisah berbagai nonlinear dibangun dengan berbagai hidden node learning parameter acak.

2.5.2. Voting based Extreme Learning Machine

Untuk mengatasi masalah ELM yang telah dijelaskan sebelumnya dan meningkatkan kinerja klasifikasi dari ELM, diperbaiki dengan algoritme yang disebut Voting based Extreme

Learning Machine (V-ELM) dengan

menggabungkan beberapa ELM bebas dan pengambilan keputusan dengan metode voting mayoritas.

Pada V-ELM, digunakan jumlah hidden node yang sama dan activation function yang sama pada setiap hidden node untuk beberapa ELM. Setiap ELM dilatih dengan data yang sama dan learning parameters untuk setiap ELM diinisialisasi secara acak. Penentuan kelas atau serangan jaringan ditentukan oleh voting mayoritas dari semua hasil yang diperoleh setiap perhitungan ELM (ELMs). Dimisalkan K independent networks dilatih dengan algoritme ELM digunakan pada V-ELM.

Selanjutnya, untuk setiap contoh testing Xtest_{, hasil prediksi sebanyak K dapat diperoleh}

dari setiap ELMs. Vektor yang sesuai SK,xtest Є

RC_{dengan dimensi sama dengan jumlah kelas}

untuk menyimpan semua hasil K dari Xtest_,

dimana kelas prediksi dari setiap ELM sebanyak K (k Є [1,....,K] disimbolkan dengan i, yaitu nilai yang sesuai dimasukan pada vektor SK,xtest

dinaikkan 1 sesuai Persamaan 7.

𝑆_𝐾,𝑥𝑡𝑒𝑠𝑡(𝑖) = 𝑆_𝐾,𝑥𝑡𝑒𝑠𝑡(𝑖) + 1 (7)

Setelah semua hasil dimasukan ke 𝑆_𝐾,𝑥𝑡𝑒𝑠𝑡(𝑖), hasil prediksi akhir dari data xtest

yang kemudian ditetapkan berdasarkan voting terbanyak atau mayoritas pada Persamaan 8.

𝐶𝑡𝑒𝑠𝑡_arg 𝑖∈[1,…,𝐶] 𝑚𝑎𝑥 _{{ 𝑆}

𝐾,𝑥𝑡𝑒𝑠𝑡(𝑖)} (8)

Algoritme 1 merupakan deskripsi algoritme dari Voting based Extreme Learning Machine (Cao et al., 2012) . Pada ELM biasa, hanya dilakukan satu kali proses training dan testing, sedangkan V-ELM melakukan proses ELM sebanyak K untuk mendapatkan hasil yang terbaik. Pada training V-ELM, dilakukan inisialisasi nilai k sebesar 1, sehingga dilakukan proses ELM dari k=1 sampai nilai K. Didapatkan nilai keluaran hidden layer dengan fungsi 𝐺(𝛼, 𝑏, 𝓍) sehingga diperoleh nilai output weight β dari perkalian Moore-Penrose invers dari matriks H dengan matriks target output T.

Pada testing V-ELM dilakukan juga inisialisasi nilai k sebesar 1, dan dilakukan proses testing ELM dari k=1 sampai K. Digunakan learning parameter 𝛼 sebagai bobot masukan, 𝑏 sebagai nilai bias, dan β sebagai output weight untuk memprediksi atau mengklasifikasi label class dari data testing. Selanjutnya dilakukan peryimpanan nilai untuk mengisi vektor 𝑆_𝐾,𝑥𝑡𝑒𝑠𝑡 dari nilai prediksi testing

ELM. Melalui vektor 𝑆_𝐾,𝑥𝑡𝑒𝑠𝑡 dilakukan voting

untuk mendapatkan nilai maksimal pada setiap kelas prediksi atau klasifikasi.

2.5.3. Normalisasi data

Nilai data yang berkisar antara -1 dan 1 lebih baik untuk kinerja algoritme klasifikasi ELM, sehingga diperlukan adanya normalisasi data (Ye, 2015). Untuk melakukan normalisasi data digunakan Persamaan 9.

𝑋 = 𝑋−𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 (9)

2.5.4. Evaluasi V-ELM

Untuk mengetahui kinerja dari klasifikasi V-ELM dilakukan perhitungan akurasi untuk mengetahui berapa banyak data yang sukses diklasifikasikan oleh V-ELM. Selain perhitungan akurasi, dilakukan evaluasi berupa sensitivity dan precision yang dikalkulasikan dengan Persamaan 11 dan 12 (Ye, 2015).

𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

(6)

𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑔𝑟𝑜𝑢𝑛𝑑𝑡𝑟𝑢𝑡ℎ𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 (11) 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑡𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑜𝑢𝑡 𝑝𝑢𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 (12) Algoritme V-ELM Diberikan: data training ℵ = { (𝓍𝑛, 𝑡𝑛 ) | 𝓍𝑛∈ ℛ𝑑, 𝑡𝑛 ∈ ℛ𝑚 } 𝑁 𝑛=1

fungsi menghitung hidden node output 𝐺(𝒶 , 𝑏 , 𝓍)

nilai hidden node L

nilai independent training K

zero valued vector𝑆𝐾∈ 𝑅𝐶, C merupakan jumlah

kelas Fase Training: (1) (2) (3) (4) (5) (6) Set k = 1 while (k ≤ K) do Inisialisasi learning parameter secara random (𝒶𝑗𝑘, 𝑏𝑗𝑘) (𝑗 = 1,2, … , 𝐿) of the kth

ELM

Menghitung hidden layer output matrix 𝐇𝑘

Menghitung output weight 𝛽𝜅_∶

𝛽𝜅_{= (𝐇}κ_{) 𝐓}† _{, where T}

merupakan target output matrix k = k +1 end while Fase Testing: (1) (2) (3) (4) (5) (6) (7) (8)

for sampel data testing 𝒳test

Set k = 1

while (k ≤ K) do

Berdasarkan kth trained basic ELM dengan

learning parameters (𝒶𝑗𝑘, 𝑏𝑗𝑘, 𝛽𝑗𝑘) untuk

memprediksi label dari sampel data testing 𝒳𝑡𝑒𝑠𝑡_{, say, as 𝑖 where}

𝑖 𝜖 [ 1, 2, … , 𝐶]

Then 𝑆_𝐾,𝓍𝑡𝑒𝑠𝑡(𝑖) = 𝑆_𝐾,𝓍𝑡𝑒𝑠𝑡(𝑖) + 1 k = k +1

end while

Hasil kelas label dari sampel data testing 𝒳𝑡𝑒𝑠𝑡

adalah

𝑐𝑡𝑒𝑠𝑡_{= 𝑎𝑟𝑔} 𝑚𝑎𝑥

𝑖 ∈ [1, … 𝐶]{ 𝑆𝐾,𝓍𝑡𝑒𝑠𝑡(𝑖) }

end for

Algoritme 1 Deskripsi algoritme V-ELM (Cao et al., 2012)

3. PERANCANGAN SISTEM 3.1. Pengumpulan Data

Berdasarkan pengolahan data DARPA 98 data set intrusion detection pada KDD Cup 99

telah tersedia data serangan dengan 41 fitur untuk mendeteksi serangan. Data yang digunakan diambil dari KDD Cup 99 dataset sebanyak 1000 baris data untuk training dan 250 baris data untuk testing. Pada data terdapat data diskrit yang akan diubah menjadi nomor sesuai dengan Tabel 2. 0,tcp,http,sf,327,467,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,33, 47,0.00,0.00,0.00,0.00,1.00,0.00,0.04,151,255,1.00,0.0 0,0.01,0.03,0.00,0.00,0.00,0.00,normal 0,icmp,private,REJ,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,13 6,1,0.00,0.00,1.00,1.00,0.01,0.06,0.00,255,1,0.00,0.06, 0.00,0.00,0.00,0.00,1.00,1.00,neptune

Gambar 2 Contoh paket data KDD 0,41,107,53,327,467,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,33, 47,0.00,0.00,0.00,0.00,1.00,0.00,0.04,151,255,1.00,0.0 0,0.01,0.03,0.00,0.00,0.00,0.00,1 0,42,75,48,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,136,1,0.0 0,0.00,1.00,1.00,0.01,0.06,0.00,255,1,0.00,0.06,0.00,0. 00,0.00,0.00,1.00,1.00,6

Gambar 3 Paket data KDD setelah ditransformasi Tabel 2 Transformasi data KDD

Tipe Nama Fitur Nomor

Attack atau normal Normal

All attack 1 2-40 Protokol Tcp, icmp, udp 41,42,43

Flag All flag 44-54

Service All services 55-121

Pada penelitian ini, kategori kelas dibagi menjadi 3 varian, yaitu varian pertama 40 kelas, 5 kelas, dan 2 kelas yang mana 1 label merupakan normal dan lainnya merupakan serangan seperti pada Tabel 3-Tabel 5.

Tabel 3 Banyak data latih dan uji untuk 40 kelas Kelas Banyak data

latih Banyak data uji normal 102 15 apache2 24 7 back 25 7 land 25 7 mailbomb 25 7 neptune 50 12 Pod 37 7 processtable 25 7 Smurf 25 7 teardrop 25 7 udpstorm 2 2 butter_overflow 43 7 loadmodule 13 7 perl 7 5 ps 30 7 rootkit 36 7

(7)

sqlattack 4 2 xterm 23 7 ftp_write 11 6 guess_passwd 51 6 sendmail 14 7 imap 12 7 multihop 25 7 named 17 7 phf 6 6 snmpgetattack 25 7 snmpguess 25 5 warezmaster 50 5 worm 2 2 xlock 9 5 httptunnel 26 8 xznoop 4 4 wazerclient 25 5 spy 2 2 ipsweep 25 5 mscan 50 8 portsweep 25 5 saint 25 5 satan 25 5 nmap 25 6

Tabel 4 Banyak data latih dan uji untuk 5 kelas Kelas Banyak data latih Banyak data uji

Normal 102 15

DOS 263 70

U2R 156 42

R2L 304 89

Probe 175 34

Tabel 5 Banyak data latih dan uji untuk 2 kelas Kelas Banyak data latih Banyak data uji

Normal 500 125

Intrusion 500 125

3.2. Alur Perancangan Sistem

Data yang telah dikumpulkan akan dinormalisasi untuk mendapatkan nilai dengan range -1 sampai 1. Selanjutnya, melakukan klasifikasi dengan algoritme V-ELM seperti Gambar 5. Dilakukan proses training dan testing untuk mendapatkan akurasi dari klasifikasi serangan jaringan komputer.

4. HASIL DAN PEMBAHASAN

Berdasarkan implementasi yang dilakukan dengan spesifikasi laptop Intel Core i3, RAM 2 GB, dan 500 GB HDD, diperoleh hasil pengujian terhadap nilai neuron, independent training, dan sensitivity pada setiap kelas.

Gambar 5 Diagram Alir Perancangan Sistem.

4.1. Pengujian nilai hidden neuron (L)

Nilai hidden neuron merupakan nilai bebas pada Voting Based Extreme Learning Machine. Pengujian terhadap nilai hidden neuron (L) dilakukan dengan nilai 100, 200, 300, 400, dan 500. Dalam pengujian hidden neuron digunakan activation function sigmoid, independent training (K) sebesar 3.

Pada pengujian ini, hasil akurasi yang diperoleh merupakan nilai yang tidak statis karena mempunyai masukan bobot yang random. Oleh sebab itu, dilakukan 3 kali percobaan untuk menghitung akurasi dengan parameter yang sama. Selanjutnya hasil dari 3 percobaan tersebut dirata-ratakan sehingga diperoleh hasil seperti pada Gambar 6.

Diketahui hasil pengujian hidden neuron pada 2 kelas menghasilkan akurasi lebih tinggi daripada 5 kelas dan 40 kelas serangan.

Gambar 6 Diagram pengujian hidden neuron Dari pengujian hidden neuron di atas, terjadi overfitting yaitu ketidakmampuan sistem dalam mengenali pola-pola serangan yang baru sehingga grafik yang dihasilkan cenderung turun atau naik-turun. 0 20 40 60 80 100 200 300 400 500

(8)

4.2. Pengujian independent training (K)

Pengujian independent training yang dilakukan dimulai dari angka 3-35 dan bilangan ganjil untuk menghindari adanya peluang yang sama serta merupakan nilai rekomendasi berdasarkan penelitian V-ELM sebelumnya. Dari pengujian yang dilakukan, diperoleh nilai independent training yang berbeda pada setiap varian data dalam menghasilkan akurasi tertinggi. Pada varian 2 kelas serangan diperoleh akurasi tertinggi pada independent training bernilai 3 dalam sekali percobaan, sedangkan independent training K=19 untuk 5 kelas, dan K=5 untuk 40 kelas.

Gambar 7 Diagram pengujian independent training

4.3. Pengujian sensitivity dan precision

Data yang digunakan mempunyai pembagian kelas yang tidak merata atau sama, maka dilakukan pengujian sensitivity dan precision untuk mengetahui tingkat sensitivity dari setiap kelas. Untuk pengujian pada 40 kelas digunakan 100 neuron dan independent training 5, sedangkan untuk pengujian pada 5 kelas digunakan 100 neuron dan independent training 19, dan untuk pengujian pada 2 kelas digunakan 100 neuron dan independent training 3.

Tabel 6 Hasil pengujian sensitivity dan precision

untuk 40 kelas

Class Sensitivity Precision

1 0,2 0,032967033 2 0,571428571 0,8 3 0,857142857 0,545454545 4 0,714285714 0,25 5 0 0 6 0,75 0,5 7 0 0 8 0,857142857 0,428571429 9 1 0,411764706 10 0,285714286 1 11 0 0 12 0 0 13 0 0 14 0 0 15 0 0 16 0 0 17 0 0 18 0,428571429 0,272727273 19 0 0 20 0 0 21 0 0 22 0 0 23 0 0 24 0 0 25 0 0 26 0 0 27 1 0,416666667 28 0,4 0,071428571 29 0 0 30 0,4 1 31 0,875 0,875 32 0 0 33 0 0 34 0 0 35 0 0 36 0 0 37 0,4 0,5 38 0 0 39 0,8 0,666666667 40 0 0

Tabel 7 Hasil pengujian sensitivity dan precision

untuk 5 kelas

normal 0 0

DoS 0,385714286 0,84375

R2L 0,023809524 1

U2R 0,97752809 0,426470588 PROBE 0,147058824 0,384615385 Tabel 8 Hasil pengujian sensitivity dan precision

untuk 2 kelas

Normal 0,8 0,694

Attack 0,648 0,764

5. KESIMPULAN

Voting based Extreme Learning Machine dapat diimplementasikan dalam klasifikasi serangan jaringan komputer dengan menggunakan data KDD Cup 99. Voting based Extreme Learning Machine bekerja dengan melakukan ELM sebanyak independent training (K) yang mana hasilnya akan divoting sebanyak K. Dari voting tersebut diperoleh nilai terbanyak untuk menjadi hasil akhir. Nilai K yang digunakan bilangan ganjil untuk menghindari adanya peluang hasil yang sama.

Pada penelitian ini, penulis menganalisis sebagian data dari KDD Cup 99 dataset yaitu sebanyak 1000 baris data untuk training dan 250

0 20 40 60 80 3 7 11 15 19 23 27 31 35

(9)

data untuk testing yang dipilih secara acak. Data dibagi menjadi 3 varian yaitu data dengan 40 kelas, 5 kelas, dan 2 kelas serangan jaringan komputer. Hasil analisis menunjukkan bahwa ada beberapa hal penting yang mempengaruhi kinerja sistem dengan menggunakan algoritme V-ELM ini, dan hasil evaluasi menunjukan akurasi tertinggi yaitu sebesar 72% pada 2 kelas serangan. Akurasi tertinggi diperoleh pada nilai hidden neuron sebesar 100 dan nilai independent training (K) sebesar 3. Akurasi terendah diperoleh pada nilai hidden neuron sebesar 100 dan nilai independent training (K) sebesar 11 yaitu 12.40% pada varian data 40 kelas. Pada varian data 40 kelas, kelas 31 (httptunnel) merupakan kelas dengan nilai sensitivity dan precision tertinggi. Pada varian data 5 kelas, diperoleh kelas U2R dengan sensitivity tertinggi dan sensitivity tertinggi pada kelas normal untuk varian data 2 kelas.

Pada penelitian selanjutnya, dapat menggunakan keseluruhan data dari KDD Cup 99 atau (National Sedimentation Laboratory-Knowledge Discovery in Databases) NSL-KDD, yang mana data NSL-KDD merupakan data optimasi dari data asli KDD Cup 99, ukuran data NSL-KDD yang tidak terlalu besar, tidak ada catatan atau rekaman paket data jaringan yang duplikat, dan lain-lain. Walaupun beberapa penelitian menyatakan ada kekurangan dari NSL-KDD, tetapi masih bisa diterapkan sebagai data acuan yang efektif dalam membantu peneliti untuk intrusion detection. Serta dapat meningkatkan akurasi algoritme V-ELM untuk klasifikasi jenis serangan jaringan komputer sehingga dapat diimplementasikan pada IDS untuk mengetahui keamanan jaringan secara real-time.

DAFTAR PUSTAKA

Beale, J., & Caswell, 2004. Snort Intrusion Detection, Second Edition.

Cao, J., Lin, Z., Huang, G.-B. and Liu, N., 2012. Voting based extreme learning machine. Information Sciences, 185, 66–77. Cholissodin, I., Sutrisno, Soebroto, A., Hanum,

L., & Caesar, C., 2017. Optimasi Kandungan Gizi Susu Kambing Peranakan Etawa (PE) menggunakan ELM-PSO di UPT Pembibitan Ternak dan Hijauan Makanan Ternak Singosari-Malang. Jurnal Teknologi Informasi dan

Ilmu Komputer (JTIIK), Vol.4, No.1, 31-36.

Dirgantara, 2011. Particle Swarm Optimization Pada Fuzzy C-Means Untuk Mendeteksi Serangan Jaringan Komputer. Skripsi Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Brawijaya.

Huang, G.-B., Zhu, Q., Siew, C., 2006. Extreme

learning machine: Theory and

applications. Neurocomputing, 70, 489– 501.

KDD-cup data set.

http://kdd.ics.uci.edu/databases/kddcup99 /kddcup99.html

Kausar, N., Samir, B., Sulaiman, S., Ahmad, I., and Hussain, M., 2012. An Approach towards Intrusion Detection using PCA Feature Subsets and SVM. International Conference on Computer & Information Science (ICCIS), 569-574.

Modi, C., Patel, D., Borisaniya, B., Patel, H., Patel, A. and Rajarajan, M., 2013. A survey of intrusion detection techniques in Cloud. Journal of Network and Computer Applications, 36, 42-57.

Mechtri, L., Tolba, F., & Ghoualmi, N., 2010. Intrusion Detection using Principal

Component Analysis. Second

International Conference on Engineering System Management and Applications. NSKH, P., Varma, N., Naik, R., 2016. Principle

Component Analysis based Intrusion Detection System Using Support Vector Machine. IEEE International Conference on Recent Trend in Electronics Information Communication Technology, 1344-1350.

Sonawane, H., & Pattewar, T., 2015. Neural Network based Intrusion Detection using Bayesian with PCA and KPCA Feature

Extraction. IEEE International

Conference on Computer Graphics, Vision and Information Security (CGVIS), 83-88.

Sonawane, H., & Pattewar, T., 2015. A Comparative Performance Evaluation of Intrusion Detection based Neural Network and PCA. IEEE International Conference on Communications and Signal Processing (ICCSP), 841-845.

(10)

Siddidui, M., 2004. High Performance Data Mining Techniques for Intrusion Detection. University of Central Florida. Sahu, S., & Mehtre, B., 2015. Network Intrusion

Detection System using J48 Decision Tree. International Conference on Advances in Computing, Communications and Informatics (ICACCI), 2023-2026. Srimuang, W., & Intarasothonchun, S., 2015.

Classification Model of Network Intrusion using Weighted Extreme Learning Machine. 12th _{International} _Joint

Conference on Computer Science and Software Engineering (JCSSE), 190-194. Tavallaee, M., Bagheri, E., Lu, W., & Ghorbani,

A., 2009. A detailed analysis of the KDD Cup 99 data set. In Proceeding of the Second IEEE Symposium on Computation Ontelligence for Security and Defence Application (CISDA) 2009.

Vieira, K., Schulter, A., Westphall C., Intrusion detection techniques in grid and Cloud Computing Environment. IEEE IT Professional Magazine 2010.

Ye, Z., and Yu, Y., 2015. Network Intrusion Classification based on Extreme Learning Machine. Proceeding of the 2015 IEEE International Conference on Information Automation Lijiang, China, 1642-1647.