Komparasi Information Gain, Gain Ratio, CFs-Bestfirst dan CFs-PSO Search Terhadap Performa Deteksi Anomali

(1)

Komparasi Information Gain, Gain Ratio, CFs-Bestfirst dan CFs-PSO Search Terhadap Performa Deteksi Anomali

Kurniabudi^1,*, Abdul Harris², Albertus Edward Mintaria¹

1 Sistem Komputer, STIKOM Dinamika Bangsa, Jambi, Indonesia

2 Teknik Informatika, STIKOM Dinamika Bangsa, Jambi, Indonesia

Email: ^1,*[email protected], ²[email protected], ³[email protected] Email Penulis Korespondensi: [email protected]

Abstrak−Dimensionalitas data yang besar merupakan salah satu isu dalam deteksi anomali. Salah satu pendekatan yang digunakan untuk mengatasi dimensi data yang besar adalah seleksi fitur. Teknik seleksi fitur yang efektif akan menghasilkan fitur yang paling relevan dan dapat meningkatkan algoritma klasifikasi untuk mendeteksi serangan. Telah banyak penelitian tentang teknik seleksi fitur, setiap teknik menggunakan metode dan strategi yang berbeda untuk menemukan fitur yang terbaik dan relevan. Pada penelitian ini dilakukan komparasi teknik seleksi fitur Information Gain, Gain Ratio, CFs-BestFirst dan CFs-PSO Search. Fitur hasil seleksi dari ke-empat teknik tersebut selanjutnya divalidasi dengan algoritma klasifikasi Naive Bayes, k-NN dan J48. Penelitian ini menggunakan dataset ISCX CICIDS-2017. Berdasarkan hasil pengujian teknik seleksi fitur mempengaruhi performa algoritma Naive Bayes, k-NN dan J48. Semakin relevan dan penting fitur dapat meningkatkan performa deteksi. Hasil pengujian juga menunjukkan, bahwa jumlah fitur berpengaruh pada waktu proses/ komputasi. CFs- BestFirst menghasilkan jumlah fitur yang lebih kecil dibandingkan CFs-PSO Search, Information Gain dan Gain Ratio sehingga membutuhkan waktu proses yang lebih rendah. Selain itu, k-NN membutuhkan waktu proses yang lebih tinggi dibandingkan Naive Bayes dan J48.

Kata Kunci: Seleksi Fitur; Deteksi Anomali; CICIDS-2017; Information Gain, Gain Ratio; Correlation-Based; PSO-Search Abstract−Large data dimensionality is one of the issues in anomaly detection. One approach used to overcome large data dimensions is feature selection. An effective feature selection technique will produce the most relevant features and can improve the classification algorithm to detect attacks. There have been many studies on feature selection techniques, each using different methods and strategies to find the best and relevant features. In this study, a comparison of Information Gain, Gai n Ratio, CFs-BestFirst and CFs-PSO Search techniques was compared. The selection features of the four techniques were further validated by the Naive Bayes classification algorithm, k-NN and J48. This study uses the ISCX CICIDS-2017 dataset. Based on the test results the feature selection techniques affect the performance of the Naive Bayes algorithm, k-NN and J48.

Increasingly relevant and important features can improve detection performance. The test results also show that the number of features influences the processing / computing time. CFs-BestFirst produces a smaller number of features compared to CFs- PSO Search, Information Gain and Gain Ratio so it requires lower processing time. In addition, k-NN requires a higher processing time than Naive Bayes and J48.

Keywords: Feature Selection; Anomaly Detection; CICIDS-2017; Information Gain; Gain Ratio; Correlation-Based;

PSO-Search

1. PENDAHULUAN

Salah satu tantangan dalam deteksi anomali atau deteksi serangan adalah dimensionalitas data yang tinggi (high dimensionality)[1]. Dimensionalitas data yang tinggi merupakan dampak dari perkembangan aplikasi, protokol dan peralatan jaringan. Semakin banyak aplikasi, protokol dan peralatan yang terhubung ke jaringan akan menghasilkan trafik yang sangat besar dan beragam.

Salah satu pendekatan yang digunakan peneliti, untuk menyelesaikan permasalahan dimensi data ini adalah dengan Feature selection (FS). FS melakukan eliminasi variable, membantu dalam memahami data, mengurangi kebutuhan komputasi, mengurangi efek “curse of dimensionality” dan meningkatkan performa mesin prediksi[2].

Secara umum terdapat 3 (tiga) metode seleksi fitur [3] menyebutkan bahwa terdapat 3 metode seleksi fitur yaitu : Filter method, wrapper method dan embeded method. Berbagai metode dan teknik seleksi fitur telah diteliti untuk menghasilkan teknik seleksi fitur yang mampu menghasilkan fitur yang terbaik dan relevan, sehingga dapat meningkatkan kemanpuan sistem deteksi serangan.

Teknik FS pada sistem deteksi anomali merupakan topik yang menarik untuk ditelaah dan teknik FS terus berkembang, hal ini seperti disampaikan pada penelitian survei yang dilakukan oleh [4] dan [5]. Para peneliti mencoba menemukan teknik seleksi fitur yang paling ideal yang mampu menghasilkan subset fitur yang signifikan yang mampu meningkatkan performa sistem deteksi. Seperti halnya penelitian [6] yang mengimplementasikan algorithma Information Gain (IG) yang mampu mengeliminasi fitur-fitur dataset NSL-KDD yang tidak relevan, sehingga dihasil 8 (delapan) fitur dan mampu meningkatkan sistem deteksi hybrid yang diusulkan. Begitu pula [7]

yang menerapkan IG untuk menghasilkan fitur relevan, hasilnya mampu meningkatkan performa Intrusion Detection System (IDS). Sedangkan [8] menggunakan Gain Ratio (GR) untuk memilih fitur terbaik dari dataset NSL-KDD, dengan teknik tersebut dihasilkan 18 fitur, dan hasil pengujian memperlihatkan peningkatan performa IDS. Dalam penelitian [9] yang juga menerapkan GR terhadap 41 fitur dataset NSL-KDD dan dihasilkan 6 (enam) fitur terbaik, hasil pengujian memperlihatkan fitur terbaik ini mampu meningkatkan meningkatkan performa sistem deteksi anomali yang diusulkan. Selanjutnya pada penelitian [10] correlation-based Feature Selection (CFS) diimplementasikan pada dataset KDDcup'99, NSL-KDD dan GureKDDcup. Hasil pengujian memperlihatkan

(2)

DOI 10.30865/mib.v5i1.2258

Kurniabudi, Copyright ©2021, MIB, Page 333 dengan fitur terpilih dari ketiga dataset mampu meningkatkan akurasi algorithma Random Forest, K- Nearest Neighbour dan C4.5. Dalam penelitian [11] teknik seleksi fitur correlation-based menghasilkan 17 fitur NSL- KDD dan hasil pengujian memperlihatkan bahwa fitur terpilih mampu meningkatkan performa deteksi dengan Artificial Neural Network (ANN). Penelitian [12] menerapkan S-PSO untuk seleksi fitur pada dataset NSL-KDD, dengan menggunakan fitur hasil seleksi pengujian sistem deteksi memperlihat akurasi yang baik. Sedangkan penelitian [13] melakukan komparasi beberapa teknik seleksi fitur untuk mengidentifikasi dan menghilangkan fitur ganda dan tidak relevan. Hasil pengujian memperlihatkan setiap teknik seleksi fitur memberikan efek yang berbeda terhadap model deteksi yang diusulkan. Disisi lain, pesatnya perkembangan aplikasi dan protokol serta bertambahnya perangkat yang terkoneksi kedalam jaringan data, berdampak pada jumlah trafik yang sangat besar dan aliran trafik yang sangat beragam. Seringkali jumlah trafik serangan lebih kecil dibandingkan trafik normal.

Sehingga sulit membedakan antara trafik normal dan serangan serta mengidentifikas jenis serangan yang hadir.

Hal ini merupakan salah satu tantangan dalam menghasilkan sistem deteksi anomali yang ideal. Selain itu dengan heterogenitas aplikasi, protokol dan perangkat jaringan, diperlukan data uji yang handal yang dapat digunakan untuk menguji sistem deteksi serangan. Pada penelitian-penelitian sebelumnya data uji menggunakan NSL-KDD.

Menurut [14] hasil evaluasi terhadap 11 (sebelas) dataset yang dirilis sejak tahun 1998 hingga 2016, memiliki beberapa keterbatasan yaitu : i) volume trafik kurang variasi; ii) kurangnya informasi paket dan payload; iii)variasi jenis serangan masih kurang; dan iv)set fitur dan metadata terbatas. Oleh karena itu pada penelitian ini digunakan dataset CICIDS-2017

Berdasarkan hasil review penelitian-penelitian FS, setiap FS menggunakan teknik dan strategi yang berbeda untuk menemukan fitur yang paling terbaik dan relevan yang berkontribusi pada performa sistem deteksi. Oleh karena perlu dilakukan analisis terhadap beberapa teknik seleksi fitur. Pada penelitian ini penulis melakukan komparasi teknik seleksi fitur Information Gain (IG), Gain Ratio (GR), Correlation-based (CB), dan CFs-PSO Search (CF-PSO). Fitur-fitur hasil seleksi dari masing-masing teknik seleksi fitur divalidasi dengan algorithma klasifikasi Naive Bayes, kNN dan J48. Pemilihan algorithma klasifikasi didasarkan atas beberapa pertimbangan, algorithma naive bayes merupakan algorithma berbasis probabilitas sederhana[15], memiliki asumsi independen yang kuat dan hasil klasifikasi selalu benar[16]. Sedangkan kNN telah diaplikasikan pada berbagai dataset keamanan komputer dan menunjukkan kesuksesan yang luar biasa[17]. Menurut [18] dan [19] pada IDS, algorithma j48 memiliki performa yang lebih baik dibanding algorithma klasifikasi decision tree yang lain. Pada penelitian ini, penggunaan algoritma yang berbeda ini untuk memvalidasi fitur-fitur yang berpengaruh signifikan terhadap performa deteksi serangan. Penelitian ini memberikan kontribusi terhadap subset fitur yang terbaik paling relevan dalam mendeteksi serangan. Hasil eksperimen penelitian ini akan memberikan gambaran kemampuan algorithma klasifikasi untuk mendeteksi serangan menggunakan fitur-fitur yang dihasilkan teknik seleksi fitur.

Selanjutnya paper ini diorganisasikan sebagai berikut : pada bagian 2 dipaparkan tentang metode penelitian yang diaplikasikan pada penelitian ini. Bagian 3 memaparkan semua hasil eksperimen dan pembahasan. Pada bagian 4 memuat kesimpulan dari penelitian ini.

2. METODOLOGI PENELITIAN

2.1 Kerangka Penelitian

Pada penelitian ini dilakukan seleksi fitur dataset jaringan menggunakan teknik-teknik seleksi fitur seperti : IG, GR, CB, dan CF-PSO. Selanjutnya, fitur-fitur hasil seleksi akan divalidasi menggunakan algorithma klasifikasi Naive Bayes, k-NN, dan J48. Hasil klasifikasi selanjutnya dikomparasi. Hasil komparasi ini akan memperlihatkan, teknik seleksi fitur mana yang dapat menghasil fitur-fitur yang dapat digunakan untuk mendeteksi serangan dengan performa klasifikasi yang paling baik. Secara detail alur kerja dari penelitian disajikan pada gambar 1.

Gambar 1. Alur Kerja Penelitian

(3)

2.2 Dataset

Penelitian ini menggunakan dataset Intrusion Detection Evaluation Dataset (CICIDS2017) dari dataset ISCX UNB [14]. Dataset CICIDS2017 ini terdiri atas data trafik yang ditangkap pada hari kerja. Alasan penggunaan dataset ini, dataset ini mewakili kompleksitas trafik jaringan nyata. Selain itu, data ini telah dilengkapi dengan data normal (benign) dan data serangan (attack). Setiap record dataset CICIDS2017 memiliki 78 fitur trafik. Jenis serangan yang terdapat pada dataset CICIDS2017, merupakan jenis yang umum seperti : Bot, Brute Force, DoS/DDoS, Infiltration, PortScan, dan Web Attack[14]. Pada penelitian ini, penulis hanya menggunakan 20% dari dataset CICIDS20017, kemudian dibagi menjadi 70% untuk training (Tabel 1.) dan 30% untuk data testing (Tabel 2).

Tabel 1. Data Training (70%) No. Kelas Jumlah Data % Terhadap Kelas

Mayoritas

% Terhadap Jumlah Data

1 Normal 318087 100 80,26

2 Bot 265 0,083 0,07

3 Brute Force 1904 0,599 0,48

4 Dos/DDos 53427 16,80 13,48

5 Infiltration 5 0,002 0,001

6 PortScan 22324 7,018 5,63

7 Web Attack 292 0,092 0,07

Total 396304

Tabel 2. Data Testing (30%)

No. Kelas Jumlah Data % Terhadap Kelas Mayoritas

% Terhadap Jumlah Data

1 Normal 136219 100 80,202

2 Bot 102 0,075 0,060

3 Brute Force 813 0,597 0,479

4 Dos/DDos 23018 16,898 13,552

5 Infiltration 1 0,001 0,001

6 PortScan 9558 7,017 5,627

7 Web Attack 134 0,098 0,079

Total 169845

2.3 Seleksi Fitur

Pada bagian ini dipaparkan beberapa teknik seleksi fitur yang digunakan pada penelitian ini, yaitu : IG, GR, CB dan PSO-S.

2.3.1 Information Gain (IG)

IG merupakan metode seleksi fitur paling sederhana dengan melakukan perangkingan atribut dan banyak digunakan dalam aplikasi kategorisasi teks, analisis data microarray dan analisis data citra [20]. IG dapat membantu mengurangi noise yang disebabkan oleh fitur-fitur yang tidak relevan. IG mendeteksi fitur-fitur yang paling banyak memiliki informasi berdasarkan kelas tertentu. Penentuan atribut terbaik dilakukan dengan menghitung nilai entropi terlebih dahulu. Entropi merupakan ukuran ketidakpastian dapat digunakan untuk menyimpulkan distribusi fitur dalam bentuk yang ringkas[21]. Untuk menghitung entropy di tunjukkan pada persamaan (1).

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑃^𝑐_𝑖 _𝑖𝑙𝑜𝑔₂𝑃_𝑖 (1)

Dengan c adalah jumlah nilai yang ada pada kelas klasifikasi dan Pi merupakan jumlah samples untuk kelas i. Setelah mendapat nilai entropi, maka perhitungan nilai IG dapat dilakukan dengan menggunakan persamaan (2).

𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) − ∑_{𝑉𝑎𝑙𝑢𝑒𝑠(𝐴)}^|𝑠𝑣|_|𝑠| 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆_𝑣) (2)

Dengan A merupakan atribut, v adalah nilai yang mungkin untuk atribut A, Values(A) adalah himpunan nilai-nilai yang mungkin untuk A, |Sv| adalah jumlah sampel untuk nilai v. |S| merupakan jumlah sampel untuk seluruh sampel data dan Entropy(Sv) adalah entropi untuk sampel-sampel yang memiliki nilai v.

2.3.2 Gain Ratio (GR)

Salah satu pembobotan menggunakan GR, GR dapat memperbaiki data yang tidak stabil, cocok untuk data numerik dua kelas, sederhana sehingga komputasi lebih cepat. Untuk menghitung gain ratio diperlukan pemisahan informasi (split)[22]. Untuk split informasi digunakan persamaan (3).

(4)

DOI 10.30865/mib.v5i1.2258

𝑠 𝑐𝑡=1 log 2^𝑠𝑖

𝑠 (3)

Dimana S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai banyak C nilai. Selanjutnya gain ratio dihitung dengan persamaan (4)

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜 = − ^{𝐺𝑎𝑖𝑛(𝑆,𝐴)}

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛(𝑆,𝐴) (4)

2.3.4 Correlation-Based (CB)

Algoritma correlation-based termasuk filter method yang menggunakan heuristik untuk mengevaluasi kemampuan (merit) subset fitur. Sebuah hipotesis yang menjadi dasar dari heuristik didasarkan atas pernyataan : “Good feature subsets contain features highly correlated with the class, yet uncorrelated with each other”[23]. Persamaan 5 digunakan untuk menghitung merit.

𝑀𝑠 = 𝑅_𝐹𝐶= ^{𝐾𝑟𝑓𝑐}

√𝐾+𝑘(𝐾−1)𝑟𝑓𝑓

(5) Dimana ,

RFC = Korelasi antara kelas dan fitur Rfc = Korelasi nilai rerata fitur-kelas Rff = Korelasi nilai rerata fitur-fitur 2.3.5 CFs-PSO Search

PSO merupakan teknik komputasi yang evolusioner, mudah di implementasi dan melakukan komputasi secara effisien[24]. PSO-Based sebagai salah satu dari banyak metode yang terinspirasi oleh biologi telah diterapkan secara luas. PSO-Search menggunakan Algoritma Particle Swarm Optimization (PSO) untuk mengeksplor attribut-space atau feature-space[25]. Penelitian IDS yang menggunakan PSO search sebagai teknik seleksi fitur diantaranya penelitian [12] dan [13]. Pada penelitian ini mengadopsi teknik [26] yang menggunakan teknik Correlation-based Feature Selection (CFS) yang dioptimasi dengan Particle Swarm Optimization (PSO).

2.4 Algoritma Klasifikasi

Berdasarkan pada [27], Machine Leaning dapat dibedakan menjadi : supervised, unsupervised, probabilistic learning dan soft computing. Sedangkan pada penelitian [28] disebutkan bahwa data mining dapat digunakan untuk menyelesaikan 4 (empat) tugas yaitu : association rule learning, clustering, classification dan regression.

Setiap peneliti memiliki sudut pandang dan defenisi berbeda dalam mengelompokkan teknik data mining dan machine learning. Pada penelitian ini peneliti menggunakan 3 (tiga) algoritma klasifikasi yang umum digunakan pada penelitian deteksi serangan yaitu : Naive Bayes, k-Nearest Neighbor dan J48.

2.4.1 Naive Bayes

Klasifikasi Bayesian merupakan klasifikasi statistik yang dapat memprediksi probabilitas keanggotaan kelas.

Klasifikasi Bayesian didasarkan pada teorema bayes [29]. Klasifikasi Bayesian lebih dikenal sebagai klasifikasi Naïve Bayes. Naïve Bayes berasumsi bahwa pengaruh dari nilai atribut pada kelas adalah independen dengan nilai- nilai atribut lainnya..

2.4.2 K-Nearest Neighbor

K-Nearest Neighbor mencari sampel k pelatihan yang jaraknya paling dekat dengan sampel data uji. “Kedekatan”

biasanya didefenisikan dalam bentuk metrik jarak. Metrik jarak yang paling banyak digunakan adalah Euclidean distance. Klasifikasi dengan K-NN cukup mengkonsumsi waktu dan ruang penyimpanan[30].

2.4.3 J48

J48 atau C4.5 merupakan algoritma machine learning yang banyak digunakan dan termasuk dalam algoritma decision tree. Algoritma ini membangun decision tree dari sekumpulan data training dengan konsep entropy[29].

Algorithm ini berbeda dengan IDE3 dalam hal membangun decision tree, dimana J48 atau C4.5 ini, dapat menerima atribut continous dan categorical[31].

2.5 Pengukuran

Seperti tersebut dalam tujuan penelitian, bahwa penelitian ini akan melakukan pengujian peforma dari metode deteksi anomali yang diusulkan. Dalam beberapa penelitian IDS dan deteksi anomali, untuk mengukur akurasi sebuah sistem deteksi digunakan matrik akurasi diantaranya [27]: (i) sensitivity and specificity, (ii) misclassification rate, (iii) confusion matrix entries, (iv) precision-recall and F measures. Sedang sebagai dasar untuk evaluasi akurasi tersebut menggunakan matrik konfusi seperti pada Tabel 3 [32].

(5)

Tabel 3. Matrik Konfusi

Prediksi

Normal Serangan

Aktual Normal TP FP

Serangan FN TN

Dalam konteks IDS tabel 3. dapat dijelaskan sebagai berikut :

a. FP (False Positive) : didefenisikan sebagai jumlah aktual normal yang terdeteksi sebagai serangan

b. FN (False Negative) : didefenisikan sebagai kesalahan prediksi, dimana aktual serangan dideteksi sebagai normal

c. TP (True Positive) : didefenisikan sebagai ketepatan prediksi, aktual normal terdeteksi sebagai normal d. TN (True Negatice) : didefenisikan sebagai aktual serangan terdeteksi sebagai serangan.

Untuk mengukur akurasi sistem deteksi pada penelitian ini digunakan persamaan sebagai berikut:

a. Accuracy: didefinisikan sebagai tingkat kedekatan antara nilai pengkategorian dengan nilai aktual 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^TP+TN

TP+TN+FP+FN (6)

b. Recall : yang didefinisikan sebagai aktual positif dikategorikan dengan benar sebagai kelas positif.

𝑅𝑒𝑐𝑎𝑙𝑙 = ^TP

TP+FN (7)

c. Precission : didefenisikan sebagai ukuran estimasi probabilitas prediksi positif yang benar 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 = ^TP

TP+FP (8)

d. False Positive Rate: yang didefenisikan sebagai aktual negatif dikategorikan sebagai class positif 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑅𝑎𝑡𝑒 = ^FP

FP+TN (9)

Pada penelitian ini, untuk pengukuran performa klasifikasi, peneliti menggunakan TPR, FPR, Accuracy dan waktu proses/ komputasi. Untuk waktu proses/ komputasi dihitung sejak algorithma klasifikasi mulai djalankan hingga proses selesai.

2.3 Lingkungan Eksperimen

Untuk keperluan eksperimen seleksi fitur dan validasi, peneliti menggunakan Notebook dengan Processor Core i7-7500U 2,7 GHz(4 CPU) dan 8 GB RAM serta Sistem operasi Windows 10 Pro 64-bit. Untuk keperluan analisi digunakan perangkat lunak weka 3.9. Weka termasuk perangkat lunak data mining dan machine learning Open- source. Weka pertama kali digunakan di University of Waikato, New Zealand pada tahun 1997[33]. Weka memiliki sejumlah besar skema pembelajaran untuk klasifikasi, klasterisasi dan prediksi regresi numerik[34]..

3. HASIL DAN PEMBAHASAN

3.1 Proses Seleksi Fitur

Telah dijelaskan bahwa pada penelitian ini dilakukan eksperimen seleksi fitur untuk teknik IG, GR, CB dan CF- PSO. Dalam eksperimen, implementasi teknik seleksi fitur menggunakan perangkat lunak Weka 3.9.

3.1.1 Seleksi Fitur dengan IG

IG merupakan teknik seleksi fitur yang banyak digunakan pada penelitian sistem deteksi intrusi khususnya untuk deteksi anomali atau deteksi intrusi berbasis-anomali. Pada teknik seleksi fitur IG menggunakan Weka, pertama algoritma akan menghitung bobot untuk setia fitur. Selanjutnya akan dilakukan pemeringkatan fitur berdasarkan nilai bobot. Berikut detail instruksi seleksi fitur dengan weka,

Started weka.attributeSelection.InfoGainAttributeEval

Command: weka.attributeSelection.InfoGainAttributeEval -s "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1"

Filter command: weka.filters.supervised.attribute.AttributeSelection -E

"weka.attributeSelection.InfoGainAttributeEval " -S "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1"

Meta-classifier command: weka.classifiers.meta.AttributeSelectedClassifier -E

"weka.attributeSelection.InfoGainAttributeEval " -S "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1" -W weka.classifiers.trees.J48 -- -C 0.25 -M 2

Finished weka.attributeSelection.InfoGainAttributeEval weka.attributeSelection.Ranker

Pada penelitian ini penulis menggunakan Seleksi fitur Pada IG penentuan nilai bobot diperlukan untuk menentukan jumlah dan fitur yang akan dipilih. Fitur terpilih inilah yang nantinya akan digunakan untuk mendeteksi anomali/ serangan. Pada penelitian deteksi anomali, sangat terbatas informasi untuk menentukan nilai minim bobot, belum ditemuka acuan yang baku. Beberapa peneliti menggunakan nilai bobot minimal tertentu

(6)

DOI 10.30865/mib.v5i1.2258

Kurniabudi, Copyright ©2021, MIB, Page 337 untuk memilih fitur. Seperti pada penelitian [6] yang menggunakan dataset NSL-KDD dengan 41 fitur. Hanya memilih fitur yang memiliki bobot > 0.4, menghasilkan 10 fitur. Sedangkan pada penelitian [7] mengeliminasi fitur pada NSl-KDD yang memiliki bobot < 0.001, sehingga tersisi 35 fitur. Dan penelitian [35] menggunakan fitur dengan bobot > 0.600. Dengan demikian perlu dilakukan pengujian berkali-kali untuk terhadap subset fitur untuk menentukan nilai bobot minimal dan jumlah fitur yang dipilih. Pada penelitian ini peneliti menggunakan fitur dengan bobot > 0.4 sehingga didapatkan 22 fitur terpilih seperti disajikan pata Tabel 4.

3.1.2 Seleksi Fitur dengan GR

Teknik seleksi GR menggunakan pendekatan filter dalam seleksi fitur. Teknik seleksi fitur GR merupakan pengembangan dari teknik seleksi fitur IG. Jika IG dikembangkan untuk ID3, sedangkan GR dikembangkan untuk C4.5. Oleh karenanya untuk menghitung GR melalui tahapan : menghintung entropi, menghitung IG dan menghitung GR. Pada penelitian ini peneliti menggunakan alat bantu weka untuk melakukan seleksi fitur GR.

Berikut detail perintah seleksi fitur dengan gain ratio menggunakan perangkat lunak weka, Started weka.attributeSelection.GainRatioAttributeEval

Command: weka.attributeSelection.GainRatioAttributeEval -s "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1"

"weka.attributeSelection.GainRatioAttributeEval " -S "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1"

"weka.attributeSelection.GainRatioAttributeEval " -S "weka.attributeSelection.Ranker -T - 1.7976931348623157E308 -N -1" -W weka.classifiers.trees.J48 -- -C 0.25 -M 2

Finished weka.attributeSelection.GainRatioAttributeEval weka.attributeSelection.Ranker

Sama halnya dengan IG, pada GR juga diperlukan intervensi pakar untuk menentukan matas minimum bobot.

Batas ini sekaligus menentukan jumlah fitur yang akan digunakan. Biasanya penentuan batas ini, dilakukan dengan cara menguji secara berulang-ulang batas minimum, sehingga dihasilkan kelompok fitur dengan akurasi klasifikasi yang baik. Tentunya cara ini mengkonsumsi waktu pengujian. Pada penelitian ini menggunakan batas minimum bobot > 0.1, daftar fitur yang terpilih disajikan pada Tabel 4.

3.1.3 Seleksi Fitur dengan CB

Metode seleksi fitur berbasis korelasi mengevaluasi subset fitur dengan memilih subset fitur yang mengandung fitur sangat berkorelasi dengan klasifikasi, namun tidak saling berkorelasi. CFs mengevaluasi subset dengan mempertimbangkan kemampuan prediksi masing-masing fitur-fiturnya secara individual dan juga derajat redundansi (atau korelasi) fitur-fitur tersebut. Berikut detail perintah seleksi fitur menggunakan weka.

Started weka.attributeSelection.CfsSubsetEval

Command: weka.attributeSelection.CfsSubsetEval -s "weka.attributeSelection.BestFirst -D 1 -N 5" -P 1 - E 1

"weka.attributeSelection.CfsSubsetEval -P 1 -E 1" -S "weka.attributeSelection.BestFirst -D 1 -N 5"

"weka.attributeSelection.CfsSubsetEval -P 1 -E 1" -S "weka.attributeSelection.BestFirst -D 1 -N 5" -W weka.classifiers.trees.J48 -- -C 0.25 -M 2

Finished weka.attributeSelection.CfsSubsetEval weka.attributeSelection.BestFirst

Metode seleksi fitur berbasis korelasi mengevaluasi subset fitur dengan memilih subset fitur yang mengandung fitur sangat berkorelasi dengan klasifikasi, namun tidak saling berkorelasi. CFs mengevaluasi subset dengan mempertimbangkan kemampuan prediksi masing-masing fitur-fiturnya secara individual dan juga derajat redundansi (atau korelasi) fitur-fitur tersebut. Hasil seleksi fitur dengan CB disajikan pada Tabel 4.

3.1.4 Seleksi Fitur dengan CF-PSO

CF-PSO menggunakan algoritma CFs yang dioptimasi dengan PSO untuk mencari fitur yang relevan dan paling optimal. PSO menekankan pemilihan fitur yang memiliki akurasi tinggi pada proses klasifikasi. Algoritma ini mudah diimplementasikan karena parameter yang digunakan sedikit dan memiliki kecepatan komputasi yang tinggi. Pada penelitian ini, implementasi algoritma PSO ini menggunakan weka. Berikut detail perintah seleksi fitur dengan CF-PSO menggunakan weka,

Started weka.attributeSelection.CfsSubsetEval

Command: weka.attributeSelection.CfsSubsetEval -s "weka.attributeSelection.PSOSearch -N 20 -I 20 -T 0 -M 0.01 -A 0.33 -B 0.33 -C 0.34 -R 20 -S 1 -L \"C:\\\\Program Files\\\\Weka-3-9\"" -P 1 -E 1

(7)

"weka.attributeSelection.CfsSubsetEval -P 1 -E 1" -S "weka.attributeSelection.PSOSearch -N 20 -I 20 -T 0 -M 0.01 -A 0.33 -B 0.33 -C 0.34 -R 20 -S 1 -L \"C:\\\\Program Files\\\\Weka-3-9\""

"weka.attributeSelection.CfsSubsetEval -P 1 -E 1" -S "weka.attributeSelection.PSOSearch -N 20 -I 20 -T 0 -M 0.01 -A 0.33 -B 0.33 -C 0.34 -R 20 -S 1 -L \"C:\\\\Program Files\\\\Weka-3-9\"" -W

weka.classifiers.trees.J48 -- -C 0.25 -M 2

Finished weka.attributeSelection.CfsSubsetEval weka.attributeSelection.PSOSearch Hasil seleksi fitur dengan PSO-Search disajikan pada Tabel 4.

Tabel 4. Fitur-Fitur Hasil Seleksi Teknik Seleksi Jumlah Daftar Fitur Terpilih (Sesuai bobot)

Information Gain 22 Packet Length Std, Total Length of Bwd Packets, Subflow Bwd Bytes Destination Port, Packet Length Variance, Bwd Packet Length Mean Avg Bwd Segment Size, Bwd Packet Length Max,

Init_Win_bytes_backward, Total Length of Fwd Packets, Subflow Fwd Bytes, Init_Win_bytes_forward, Average Packet Size, Packet Length Mean, Max Packet Length, Fwd Packet Length Max, Flow IAT Max, Bwd Header Length, Flow Duration, Fwd IAT Max, Fwd Header Length, Fwd IAT Total

Gain Ratio 32 Bwd Packet Length Min, Init_Win_bytes_backward, Total Length of Bwd Packets, Subflow Bwd Bytes, Destination Port, Bwd Packet Length Max, Init_Win_bytes_forward, Active Mean, Active Max Active Min, min_seg_size_forward, Avg Bwd Segment Size, Bwd Packet Length Mean, FIN Flag Count, Bwd Packet Length Std, Min Packet Length, Fwd Packet Length Min, Max Packet Length, Idle Max Fwd Packet Length Max, PSH Flag Count, Total Backward Packets Subflow Bwd Packets, Idle Mean, Packet Length Std, Idle Min Bwd Header Length, Packet Length Variance, Total Length of Fwd Packets, Subflow Fwd Bytes, Average Packet Size, Packet Length Mean

CFs-Best-First 6 Bwd Packet Length Std, Destination Port, Total Length of Bwd Packets, Bwd Packet Length Min, Init_Win_bytes_backward, min_seg_size_forward

PSO-Search 14 Bwd Packet Length Std, Destination Port, Bwd Packet Length Max, Bwd Packet Length Min, Fwd IAT Min, Bwd IAT Min, Packet Length Variance, ECE Flag Count, Subflow Bwd Bytes,

Init_Win_bytes_forward, Init_Win_bytes_backward, min_seg_size_forward, Active Mean, Active Max 3.2 Validasi Fitur Hasil Seleksi

Setelah diperoleh fitur-fitur terpilih melalui proses seleksi fitur, selanjut fitur-fitur ini akan divalidasi. Validasi dilakukan menggunakan algoritma klasifikasi Naive Bayes, k-NN, dan J48. Proses validasi ini merupakan pengujian fitur-fitur terpilih untuk mendeteksi serangan.

3.2.1 Validasi Fitur Hasil Seleksi dengan IG

Gambar 2. Nilai TPR NB, k-NN dan J48 dengan hasil seleksi fitur IG

Berdasarkan hasil pengujian diketahui bahwa dengan teknik seleksi fitur IG, algoritma klasifikasi Naive Bayes, k- NN dan J48 nilai TPR memperlihatkan ketiga algoritma mampu mendeteksi PortScan dan Brute Force dengan

(8)

DOI 10.30865/mib.v5i1.2258

Kurniabudi, Copyright ©2021, MIB, Page 339 sangat baik. Grafik pada gambar 2. juga memperlihatkan dengan fitur hasil seleksi Information Gain, k-NN dan J48 juga mampu mendeteksi dengan baik trafik Normal dan DoS/DDoS. Ketiga algoritma juga mampu mendeteksi serangan Bot, meskipun dengan nilai TPR yang relatif lebih rendah yaitu Naive Bayes 0,570, k-NN 0,740 dan J48 0,698. Dan trafik J48 hanya dideteksi oleh Naive Bayes dengan TPR 0,800.

Selanjutnya pada gambar 3. disajikan perbandingan FPR dari masing-masing algoritma. Grafik memperlihatkan nilai TPR yang rendah. Kecuali untuk Naive Bayes, pada seragan PortScan dan Bot. Dapat disimpulkan bahwa dengan menggunakan fitur hasil seleksi dengan Information Gain, belum mampu memaksimalkan kinerja klasifikasi Naive Bayes, k-NN dan J48

Gambar 3. Nilai FPR NB, k-NN dan J48 dengan hasil seleksi fitur IG 3.3 Validasi fitur hasil seleksi dengan GR

Pada bagian ini dipaparkan perbandingan teknik seleksi fitur Gain Ratio terhadap performa algoritma klasifikasi Naive Bayes, k-NN dan J48. Gambar 4. memperlihatkan grafik perbandingan nilai TPR untuk jenis trafik yang dihasilkan oleh masing-masing algoritma. Hasil memperlihatkan bahwa dengan fitur hasil seleksi Gain Ratio, ketiga algoritma mampu mendeteksi dengan baik jenis serangan PortScan dan BruteFoce. Selanjutnya, jika dibandinkan dengan Naive Bayes, dengan fitur hasil seleksi Gain Ratio, k-NN dan J48 mampu mendeteksi trafik Normal dan DoS/DDoS. Namun Naive Bayes, mampu mengenali serangan Web Attack dan Infiltration, melampaui kemampuan k-NN dan J48.

Selanjutnya berdasarkan nilai FPR yang disajikan melalui grafik pada gambar 5. Ketiga algoritma memiliki FPR yang rendah dalam mendeteksi jenis trafik norma dan serangan. Hanya pada trafik Bot dan Web Attack, Naive Bayes memiliki nilai FPR 0,169 dan 0,063. Dapat disimpulkan bahwa menggunakan fitur hasil seleksi dengan Gain Ratio, belum mampu memaksimalkan kinerja klasifikasi Naive Bayes, k-NN dan J48.

Gambar 4. Nilai TPR NB, k-NN dan J48 dengan seleksi fitur GR

Gambar 5. Nilai FPR NB, k-NN dan J48 dengan seleksi fitur GR

(9)

3.4 Validasi fitur hasil seleksi dengan CB

Pada bagian ini dipaparkan perbandingan performa algoritma klasifikasi Naive Bayes, k-NN dan J48 menggunakan fitur hasil seleksi dengan teknik CFs-BestFirst. Pada gambar 6. dan 7. disajikan grafik perbandingan TPR dan FPR dari masing-masing algoritma. Berdasarkan grafik nilai TPR, dengan fitur hasil seleksi CFs-BestFirst diketahui bahwa Naive Bayes, k-NN dan J48 mampu mendeteksi dengan baik jenis trafik DoS/DDoS, PortScan dan Brute Force. Selanjutnya, dengan fitur seleksi CFs-BestFirst, membuat Naive Bayes dan k-NN mampu mendeteksi Infiltration. Sedangkan, untuk serangan Web Attack dideteksi dengan cukup oleh Naive Bayes.

Gambar 6. Nilai TPR NB, k-NN dan J48 dengan seleksi fitur CB

Berdasarkan perbandingan nilai FPR yang disajikan pada gambar 7. terlihat bahwa Naive Bayes menghasilkan FPR yang cukup tinggi saat mendeteksi serangan DoS/DDoS, PortScan dan Bot. Hasil pengujian klasifikasi dataset menggunakan fitur seleksi CFs-BestFirst memperlihatkan bahwa kinerja algoritma klasifikasi belum maksimal dengan fitur yang dihasilkan melalui CFs-BestFirst.

Gambar 7. Nilai FPR NB, k-NN dan J48 dengan seleksi fitur CB 3.5 Validasi fitur hasil seleksi dengan CF-PSO

Pada bagian ini dipaparkan perbandingan performa klasifikasi Naive Bayes, k-NN dan J48 dengan menggunakan fitur hasil seleksi CF-PSO. Gambar 8. memperlihatkan grafik perbandingan nilai TPR dari hasil klasifikasi setiap jenis trafik dengan menggunakan fitur terpilih hasil CF-PSO. Hasil memperlihatkan kinerja yang baik pada algoritma k-NN dan J48 dalam mendeteksi trafik Normal, DoS/DDoS, PortScan, Web Attack dan Brute Force.

Algoritma k-NN dan J48 juga mampu mendeteksi trafik Bot dan Infiltration namun dengan TPR yang lebih rendah.

Secara keseluruhan dengan fitur hasil seleksi CF-PSO, ketiga algoritma mampu mengenal jenis trafik normal dan serangan, hal ini juga terlihat pada gambar 9. Dimana secara umum ketiga algoritma menunjukkan FPR yang rendah, hanya pada Naive Bayes khususnya pada trafik Bot yang memperlihatkan FPR yang tinggi.

Gambar 8. Nilai TPR NB, k-NN dan J48 dengan seleksi fitur CF-PSO

(10)

DOI 10.30865/mib.v5i1.2258

3.5 Perbandingan Akurasi Naive Bayes, K-Nearest Neighbour dan J48

Pada bagian ini, disajikan perbanding akurasi yang dicapai oleh algoritma Naive Bayes, k-NN dan J48 menggunakan fitur-fitur hasil seleksi dengan teknik seleksi fitur IG, GR, CB dan CF-PSO. Pada gambar 10.

disajikan grafik perbandingan teknik seleksi fitur dan algoritma klasifikasi Naive Bayes, k-NN dan J48.

Berdasarkan grafik, terlihat bahwa dengan fitur hasil seleksi dengan Gain Ratio memiliki nilai akurasi klasifikasi yang tertinggi untuk Naive Bayes dan k-NN jika dibandingkan yang lain.

Gambar 10. Teknik Seleksi Fitur terhadap Akurasi NB, k-NN dan J48

Namun demikian, algoritma J48 memiliki akurasi tertinggi yaitu sebesar 99,81 dengan menggunakan fitur seleksi Information Gain. Dari hasil pengujian dapat disimpulkan, bahwa jumlah fitur dan jenis fitur dapat mempengaruhi hasil klasifikasi masing-masing algoritma klasifikasi. Khususnya dalam deteksi anomali/ serangan pada data trafik jaringan. Setiap jenis serangan dikenali dengan jenis fitur yang berbeda-beda. Oleh karenanya akan sangat sulit mengidentifikasi serangan pada trafik yang mengandung informasi sangat beragam. Untuk keperluan itu, diperlukan pendekatan baru untuk menghasilkan teknik seleksi fitur yang mampu menghasilkan fitur yang relevan dan optimal untuk digunakan mendeteksi serangan.

Tabel 5. Perbandingan Akurasi Algorithma Klasifikasi pada Data Training dan Testing Data Training (70%) Data Testing (30%)

NB k-NN J48 NB k-NN J48

IG 44,66 99,70 99,81 42,77 99,61 99,79

CB 63,74 97,95 98,03 63,94 97,95 97,99

GR 70,29 99,76 99,80 55,61 99,69 99,76

CF-PSO 65,59 99,72 99,79 67,52 99,44 99,80

Selanjutnya pada tabel 5. disajikan perbandingan akurasi menggunakan data training dan testing. Data memperlihat secara umum perbedaan hasil klasifikasi data training dan testing tidak terlalu signifikan. Perbedaan signifikan terjadi pada klasifikasi menggunakan NB terhadap fitur hasil seleksi dengan GR. Berdasarkan hasil klasifikasi data testing diperoleh akurasi tertinggi dicapai J48 terhadap fitur hasil seleksi CF-PSO dengan tingkat akurasi 99,80%.

3.7 Perbandingan Teknik Seleksi Fitur terhadap Waktu Proses Naive Bayes, K-Nearest Neighbour dan J48 Pada gambar 11 disajikan waktu proses/ komputasi untuk masing-masing algoritma klasifikasi dengan fitur hasil seleksi menggunakan IG, GT, CB dan CF-PSO. Hasil pengujian memperlihatkan Naive Bayes memiliki waktu proses yang lebih rendah dibandingkan J48 dan k-NN. Dan sebaliknya, k-NN membutuhkan waktu proses yang lebih tinggi dibandingkan Naive Bayes dan J48. Pengujian juga memperlihatkan, jumlah fitur yang dianalisa sangat

(11)

mempengaruhi waktu proses. CB menghasilkan jumlah fitur yang lebih sedikit dibandingkan CF-PSO, IG dan GR sehingga membutuhkan waktu yang lebih rendah.

Gambar 11. Perbandingan Waktu Proses

4. KESIMPULAN

Pengujian memperlihatkan bahwa teknik seleksi fitur IG, GR, CB dan CF-PSO menghasilkan nilai bobot yang berbeda, dimana hal ini juga berdampak pada jenis dan jumlah fitur yang dihasilkan. Pada teknik seleksi fitur IG dan GR diperlukan intervensi pakar untuk menentukan batas minimum bobot fitur, dimana batas minimum ini mempengaruhi jumlah dan jenis fitur yang akan digunakan pada algoritma klasifikasi untuk mendeteksi serangan.

Hasil pengujian menunjukkan teknik seleksi fitur yang penulis gunakan seperti IG, GR, CB dan CF-PSO mampu meningkatkan algoritma klasifikasi NB, k-NN dan J48 untuk mengklasifikasikan trafik normal dan serangan tertentu, meskipun belum maksimal. Hal ini dapat dipengaruhi oleh jenis fitur yang terpilih. Hasil pengujian juga memperlihatkan bahwa jumlah fitur yang dianalisi sangat mempengaruhi waktu proses/ komputasi. Oleh karena itu perlu dilakukan penelitian lanjutan untuk meningkatkan performa seleksi fitur agar mampu menghasilkan fitur yang relevan dan penting. Disisi lain, permasalah data tidak seimbang (imbalanced) juga dapat berpengaruh pada hasil klasifikasi. Penelitian selanjutnya dapat mempertimbangkan masalah data imbalanced pada perancangan sistem deteksi serangan.

UCAPAN TERIMAKASIH

Terima kasih kepada LPPM STIKOM Dinamika Bangsa yang telah mendukung penelitian ini, Penelitian ini merupakan bagian dari program penelitian internal Dosen STIKOM Dinamika Bangsa.

REFERENCES

[1] J. Zhang, H. Li, Q. Gao, H. Wang, and Y. Luo, “Detecting anomalies from big network traffic data using an adaptive detection approach,” Inf. Sci. (Ny)., vol. 318, no. August, pp. 91–110, 2015.

[2] G. Chandrashekar and F. Sahin, “A survey on feature selection methods,” Comput. Electr. Eng., vol. 40, no. 1, pp. 16–

28, 2014.

[3] Y. Dhote, S. Agrawal, and A. J. Deen, “A Survey on Feature Selection Techniques for Internet Traffic Classification,”

Proc. - 2015 Int. Conf. Comput. Intell. Commun. Networks, CICN 2015, pp. 1375–1380, 2016.

[4] R. F. Najeeb and B. N. Dhannoon, “Classification for Intrusion Detection with Different Feature Selection Methods : A Survey ( 2014-2016),” Int. J. Adv. Res. Comput. Sci. Softw. Eng., vol. 7, no. 5, pp. 305–311, 2017.

[5] P. R. K. Varma, V. V. Kumari, and S. S. Kumar, A Survey of Feature Selection Techniques in Intrusion Detection System:

A Soft Computing Perspective, vol. 710. Springer Singapore, 2018.

[6] S. Aljawarneh, M. Aldwairi, and M. B. Yassein, “Anomaly-based intrusion detection system through feature selection analysis and building hybrid efficient model,” J. Comput. Sci., vol. 25, pp. 152–160, 2018.

[7] M. El Boujnouni and M. Jedra, “New Intrusion Detection System Based on Support Vector Domain Description with Information Gain Metric,” Int. J. Netw. Secur., vol. 20, no. 1, pp. 25–34, 2018.

[8] N. Araújo, “Identifying Important Characteristics in the KDD99 Intrusion Detection Dataset by Feature Selection using a Hybrid Approach,” pp. 552–558, 2010.

[9] P. Kushwaha, H. Buckchash, and B. Raman, “Anomaly based intrusion detection using filter based feature selection on KDD-CUP 99,” IEEE Reg. 10 Annu. Int. Conf. Proceedings/TENCON, vol. 2017-Decem, pp. 839–844, 2017.

[10] N. Sainis, “Feature Classification and Outlier Detection to Increased Accuracy in Intrusion Detection System,” Int. J.

Appl. Eng. Res., vol. 13, no. 10, pp. 7249–7255, 2018.

[11] K. A. Taher, B. M. Yasin Jisan, and M. M. Rahman, “Network Intrusion Detection using Supervised Machine Learning Technique with Feature Selection,” 2019 Int. Conf. Robot. Signal Process. Tech., pp. 643–646, 2019.

[12] V. Zhang and L. J. Zhang, “A rule generation model using S-PSO for Misuse Intrusion Detection,” ICCASM 2010 - 2010 Int. Conf. Comput. Appl. Syst. Model. Proc., vol. 3, no. Iccasm, pp. 418–423, 2010.

(12)

DOI 10.30865/mib.v5i1.2258

Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 8956, pp. 318 – 324, 2015.

[14] I. Sharafaldin, A. H. Lashkari, and A. A. Ghorbani, “Toward generating a new intrusion detection dataset and intrusion traffic characterization,” ICISSP 2018 - Proc. 4th Int. Conf. Inf. Syst. Secur. Priv., vol. 2018-Janua, no. Cic, pp. 108–

116, 2018.

[15] K. Goeschel, “Reducing false positives in intrusion detection systems using data-mining techniques utilizing support vector machines, decision trees, and naive Bayes for off-line analysis,” Conf. Proc. - IEEE SOUTHEASTCON, vol.

2016-July, 2016.

[16] S. Mukherjee and N. Sharma, “Intrusion Detection using Naive Bayes Classifier with Feature Reduction,” vol. 4, pp.

119–128, 2012.

[17] G. Serpen and E. Aghaei, “Host-based misuse intrusion detection using PCA feature extraction and kNN classification algorithms,” Intell. Data Anal., vol. 22, no. 5, pp. 1101–1114, 2018.

[18] S. Sahu and B. M. Mehtre, “Network intrusion detection system using J48 Decision Tree,” 2015 Int. Conf. Adv. Comput.

Commun. Informatics, ICACCI 2015, pp. 2023–2026, 2015.

[19] N. F. Haq, A. R. Onik, and F. M. Shah, “An ensemble framework of anomaly detection using hybridized feature selection approach (HFSA),” IntelliSys 2015 - Proc. 2015 SAI Intell. Syst. Conf., pp. 989–995, 2015.

[20] S. Chormunge and S. Jena, “Efficient feature subset selection algorithm for high dimensional data,” Int. J. Electr. Comput.

Eng., vol. 6, no. 4, pp. 1880–1888, 2016.

[21] P. Bereziński, B. Jasiul, and M. Szpyrka, “An entropy-based network anomaly detection method,” Entropy, vol. 17, no.

4, pp. 2367–2408, 2015.

[22] H. EzzatIbrahim, S. M. Badr, and M. A. Shaheen, “Adaptive Layered Approach using Machine Learning Techniques with Gain Ratio for Intrusion Detection Systems,” Int. J. Comput. Appl., vol. 56, no. 7, pp. 10–16, 2012.

[23] H. Chae and S. H. Choi, “Feature Selection for efficient Intrusion Detection using Attribute Ratio,” Int. J. Comput.

Commun., vol. 8, pp. 134–139, 2014.

[24] I. Syarif, “Feature Selection of Network Intrusion Data using Genetic Algorithm and Particle Swarm Optimization,”

Emit. Int. J. Eng. Technol., vol. 4, no. 2, pp. 277–290, 2016.

[25] A. I. Madbouly and T. M. Barakat, “Enhanced relevant feature selection model for intrusion detection systems,” Int. J.

Intell. Eng. Informatics, vol. 4, no. 1, p. 21, 2016.

[26] T. Ahmad and M. N. Aziz, “Data preprocessing and feature selection for machine learning intrusion detection systems,”

ICIC Express Lett., vol. 13, no. 2, pp. 93–101, 2019.

[27] B. Dhruba K and K. Jugal K, Network Anomaly Detection A Machine Learning Perspective. 2014.

[28] S. Agrawal and J. Agrawal, “Survey on Anomaly Detection using Data Mining Techniques,” Procedia - Procedia Comput.

Sci., vol. 60, pp. 708–713, 2015.

[29] A. Buczak and E. Guven, “A survey of data mining and machine learning methods for cyber security intrusion detection,”

IEEE Commun. Surv. Tutorials, vol. PP, no. 99, p. 1, 2015.

[30] D. Summeet and D. Xian, Data Mining and Machine Learning in Cybersecurity. CRC Press, 2011.

[31] S. Aljawarneh, M. B. Yassein, and M. Aljundi, “An enhanced J48 classification algorithm for the anomaly intrusion detection systems,” Cluster Comput., pp. 1–17, 2017.

[32] R. Goel, A. Sardana, and R. C. Joshi, “Parallel Misuse and Anomaly Detection Model,” vol. 14, no. 4, pp. 211 –222, 2012.

[33] T. Garg and S. S. Khurana, “Comparison of classification techniques for intrusion detection dataset using WEKA,” Int.

Conf. Recent Adv. Innov. Eng. ICRAIE 2014, 2014.

[34] B. Cui and S. He, “Anomaly detection model based on hadoop platform and weka interface,” Proc. - 2016 10th Int. Conf.

Innov. Mob. Internet Serv. Ubiquitous Comput. IMIS 2016, pp. 84–89, 2016.

[35] A. Abd and A. Hadi, “Performance Analysis of Big Data Intrusion Detection System over Random Forest Algorithm,”

Int. J. Appl. Eng. Res., vol. 13, no. 2, pp. 1520–1527, 2018.