Komparasi Performa Tree-Based Classifier Untuk Deteksi Anomali Pada Data Berdimensi Tinggi dan Tidak Seimbang

(1)

**Komparasi Performa Tree-Based Classifier Untuk Deteksi Anomali Pada Data Berdimensi Tinggi dan Tidak Seimbang**

Kurniabudi^1*, Abdul Harris², Veronica²

1 Fakultas Ilmu Komputer, Sistem Komputer, Universitas Dinamika Bangsa, Jambi, Indonesia

2 Fakultas Ilmu Komputer, Teknik Informatika, Universitas Dinamika Bangsa, Jambi, Indonesia Email: ^1,*[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Deteksi Anomali merupakan salah satu solusi untuk mengatasi isu keamanan trafik jaringan data, namun dihadapkan pada tantangan dimensionalitas data yang tinggi dan data tidak seimbang. Data yang berdimensi tinggi dan tidak seimbang dapat mempengaruhi performa sistem deteksi. Oleh karena itu diperlukan sebuah teknik seleksi fitur yang mampu mengurangi dimensionalitas data dengan cara mengeliminasi fitur-fitur yang tidak relevan. Selain itu fitur-fitur hasil seleksi perlu divalidasi dengan algorithma klasifikasi yang tepat untuk menghasilkan performa deteksi anomali yang tinggi. Tujuan penelitian ini menghasilkan kombinasi teknik seleksi fitur dan algorithma klasifikasi yang tepat untuk menghasilkan sistem yang mampu mendeteksi serangan pada data berdimensi tinggi dan tidak seimbang. Teknik seleksi fitur Chi-square digunakan untuk mengeliminasi fitur yang tidak relevan. Untuk menentukan algorithma klasifikasi yang ideal, pada penelitian ini dilakukan komparasi performa algorithma tree-based classifer. Penelitian ini juga menguji performa teknik klasifikasi dalam mendeteksi trafik pada data berdimensi tinggi dan tidak seimbang. Beberapa algorithma klasifikasi Tree-based seperti REPTree, J48, Random Tree dan Random Forest diuji dan dibandingkan. Pengujian dengan performa terbaik sebagai rekomendasi kombinasi yang ideal teknik seleksi fitur dan algorithma klasifikasi. Penelitian ini menghasilkan sistem deteksi anomali yang memiliki performa yang tinggi. Untuk data eksperimen digunakan dataset CICIDS-2017, yang memiliki dimensionalitas data yang tinggi dan mengandung data tidak seimbang. Hasil pengujian memperlihatkan Random Tree memiliki akurasi 99,983% dan Random Forest 99,984%.

Kata Kunci: Deteksi Anomali, Seleksi Fitur, CICIDS-2017, Chi-Square, Tree-Based Classifier

Abstract−Anomaly detection is one solution to overcome the issue of data network traffic security, but is faced with the challenge of high data dimensionality and imbalanced data. High-dimensional and imbalanced data can affect the performance of the detection system. Therefore we need a feature selection technique that can reduce the dimensionality of the data by eliminating irrelevant features. In addition, the selected features need to be validated with the right classification algorithm to produce high anomaly detection performance. The purpose of this study is to produce a combination of feature selection techniques and appropriate classification algorithms to produce a system that is able to detect attacks on high-dimensional and imbalanced data. Chi-square feature selection technique was used to eliminate irrelevant features. To determine the ideal classification algorithm, in this study, a comparison of the performance of the tree-based classifer algorithm was carried out.

This study also examines the performance of classification techniques in detecting traffic on high-dimensional and unbalanced data. Several Tree-based classification algorithms such as REPTree, J48, Random Tree and Random Forest were tested and compared. Testing with the best performance as a recommendation for the ideal combination of feature selection techniques and classification algorithms. This research produces an anomaly detection system that has high performance. For experimental data, the CICIDS-2017 dataset is used, which has high data dimensionality and contains unbalanced data. The test results show that Random Tree has an accuracy of 99.983% and Random Forest 99.984%..

Keywords: Anomaly Detection, Feature Selection, CICIDS-2017, Chi-Square, Tree-Based Classifier

1. PENDAHULUAN

Penelitian intrusion detection system (IDS) merupakan salah satu penelitian yang sangat menarik dibahas. Hal ini dibuktikan dengan banyaknya penelitian IDS. Berbagai teknik dan metode telah dikembangkan untuk menghasilkan IDS yang memiliki akurasi yang tinggi dengan alarm palsu yang tinggi. Pada penelitian [1], mengusulkan IDS dengan metode wrapper yang menggabungkan metode C.5, Naïve Bayes, Random Forest, dan REPTree. Hasil pengujian memperlihatkan kemampuan mendeteksi DoS Attack dan Probe Attack dengan baik.

Pada penelitian [2], teknik seleksi fitur Information Gain dan algorithma Random Forest diaplikasikan pada dataset NSL-KDD. Hasil pengujian memperlihatkan metode tersebut mampu mendeteksi serangan DoS, Probe, R2L, dan U2R. Dalam penelitian [3] mengkombinasikan algorithma Random Committee dan Random Tree sebagai sistem deteksi intrusi. Hasil pengujian memperlihatkan kombinasi yang diusulkan mampu meningkatkan akurasi sistem deteksi. Selanjutnya pada penelitian [4] menerapkan kombinasi K-Nearest Neighbor dan Random Forest untuk meningkatkan sistem deteksi intrusi. Sedangkan penelitian [5], mengusulkan pengembangan algorithma J48 untuk sistem deteksi intrusi. Hasil pengembangan algorithma tersebut mampu meningkatkan akurasi sistem deteksi dengan tingkat alarm palsu yang rendah.

Disisi lain, perkembangan teknologi, protokol dan teknik serangan pada jaringan data mendorong munculnya isu baru dalam penelitian IDS. Tingginya volume trafik pada jaringan menghasilkan data yang kompleks dengan dimensi yang sangat tinggi. Semakin tinggi dimensional data, akan berpengaruh pada performa algorithma klasifikasi dalam mengidentifikasi trafik (El Merabet and Hajraoui, 2019). Untuk mengatasi masalah dimensionalitas data, teknik seleksi fitur merupakan salah satu solusi yang diusulkan. Pada penelitian [6]

disebutkan bahwa seleksi fitur merupakan salah satu cara mengatasi dimensi data yang tinggi dengan cara

(2)

mengeliminasi fitur-fitur yang redundan dan tidak relevan. Teknik seleksi fitur juga telah diterapkan pada penelitian-penelitian IDS. Pada penelitian [7] untuk meningkatkan seleksi fitur, sebuah kombinasi algorithma Ant Colony Optimization dan teknik seleksi fitur (disingkat FACO) diusulkan. Hasil pengujian memperlihatkna FACO mampu mengeliminasi fitur-fitur redundan serta peningkatan akurasi klasfifikasi. Selanjutnya, penelitian [8] yang mengusulkan kombinasi Correlation-based Feature Selection technique (CFS) dan Particle Swarm Optimization (PSO) sebagai teknik seleksi fitur. Teknik yang diusulkan mampu mengeliminasi fitur-fitur yang tidak relevan pada dataset KDD Cup99, Kyoto 2006 dan UNSWNB15 serta mampu meningkatkan performa sistem deteksi.

Selain itu, trafik jaringan didunia nyata cenderung tidak seimbang. Pada data yang tidak seimbang terdapat kelas dengan jumlah minor dan kelas dengan kelas mayor yang sengat besar[9]. Data tidak seimbang dapat mempengaruhi performa algorithma klasifikasi [10]. Oleh karena itu, penelitian ini bertujuan menghasilkan sebuah IDS yang mampu bekerja dengan baik mendeteksi serangan pada data berdimensi tinggi dan data tidak seimbang.

Dari hasil survey penelitian-penelitian sebelumnya, bahwa para peneliti menggunakan pendekatan seleksi fitur untuk mereduksi dimensi data dengan mengeleminasi fitur-fitur yang tidak relevan. Hasil seleksi fitur-fitur selanjut divalidasi menggunakan algorithma klasifikasi untuk mengelompokkan trafik serangan dan normal. Berdasarkan hasil penelitian-penelitian sebelumnya, penulis mengusulkan kombinasi teknik seleksi fitur dan algorithma klasifikasi untuk menghasilkan sistem deteksi yang memiliki performa yang ideal. Untuk mendapatkan kombinasi yang ideal, pada eksperimen dilakukan komparasi algorithma tree-based classifier seperti REPTree, J48, Random Tree dan Random Forest.

Dari sekian banyak algorithma klasifikasi yang dikembangkan, algorithma klasifikasi tree-based, memiliki kehandalan dalam mengidentifikasi beberapa kelas trafik dan serangan. Namun baru diuji dengan data terbatas dan jumlah kelas serangan yang terbatas pula. Oleh karena itu, perlu dilakukan pengujian menggunakan data yang lebih kompleks dan berdimensi tinggi, serta memiliki jenis serangan yang lebih beragam. Pada penelitian ini, dataset CICIDS-2017 digunakan karena merupakan dataset yang up-to-date, dan mengandung data yang kompleks, berdimensi tinggi dan mengandung data tidak seimbang. Trafik-trafik yang diidentifikasi trafik normal dan 15 trafik serangan yaitu serangan DDoS, PortScan, Bot, Web Attack Brute Force, Web Attack XSS, Web Attack SQL Injection, Infiltration, DoS Slowris, DoS Slowhttptest, DoS Hulk, DoS GoldenEye, Heartbleed, FTP-Patator dan SSH-Patator.

Pada eksperimen performa algorithma klasifikasi REPTree, J48, Random Tree dan Random Forest diuji untuk mendeteksi trafik serangan dan normal menggunakan fitur-fitur hasil seleksi chi-square dari dataset CICIDS-2017. Selanjutnya performa masing-masing algorithma tersebut dibandingkan. Performa yang terbaik akan menghasilkan kombinasi yang paling ideal antara teknik seleksi fitur dengan algorithma klasifikasi Tree- based classifier. Kombinasi metode ini dapat dijadikan sumber rujukan bagi peneliti dalam merancang sistem deteksi serangan pada data berdimensi tinggi dan mengandung data tidak seimbang.

2. METODE PENELITIAN

2.1 Rancangan Eksperimen

Untuk mencapai tujuan penelitian, peniliti merancang kerangka eksperimen yang disajikan pada gambar 1.

Gambar 1. Kerangka Eksperimen

(3)

Kerangka kerja pada gambar 1 dapat dijelaskan sebagai berikut :

- Untuk keperluan eksperimen, penelitian ini menggunakan 30% dari dataset CICIDS-2017 versi MachineLearningCSV.

- Persiapan data dilakukan untuk mengatasi missing value, dan transformasi dari .csv ke format .arff.

- Seleksi fitur dilakukan untuk mereduksi dimensi data, dengan melakukan seleksi fitur. Penelitian ini mengggunakan teknik seleksi fitur chi-square dan metode pencarian berbasis ranker.

- Fitur-fitur hasil seleksi digunakan untuk mengidentifikasi trafik menggunakan algoritma klasifikasi.

- Pada penelitian ini dilakukan pengujian dan perbandingan performa algorithma klasifikasi tree-based, diantaranya algorithma REPTree, J48, Random Tree dan Random Forest. Pada saat pengujian digunakan mode pengujian hold-out. Dimana dengan mode ini, seluruh data akan digunakan sebagai input learning.

- Hasil pengujian selanjutnya dibandingkan. Untuk perbandingan performa metode klasifikasi, digunakan nilai Accuracy, TPR, FPR, Precision, F-Measure dan ROC.

- Hasil akhir adalah metode klasifikasi tree-based dengan performa yang terbaik.

2.2 Alat Bantu Eksperimen

Ekperimen dan pengujian pada penelitian ini menggunakan Intel core i7 dengan 2,70 GHz 8 GB RAM dan sistem operasi Windows 10. Alat bantu analisis digunakan perangkat lunak Weka 3.8.5 dengan konfigurasi heap size 3072 MB, Weka merupakan sebuah perangkat lunak analisis data mining dan maching learning yang dikembangkan pertamakali di university of waikato[11].

2.3 Data Eksperimen

Untuk keperluan pengujian digunakan Evaluation Dataset (CICIDS2017) dari dataset ISCX UNB [12]. Dataset ini telah dilengkapi dengan data normal (benign) dan data serangan (attack), dengan total 2.830.743 record data.

Selain itu, data. Setiap record dataset CICIDS2017 memiliki 78 fitur trafik. Jenis serangan yang terdapat pada dataset CICIDS2017, merupakan jenis yang umum seperti : Web attack, Brute force, DoS, DDoS, Infiltration, Heartbleed, Bot dan Scan [13] dan [12]. Untuk keperluan eksperimen pada penelitian ini hanya menggunakan 30% data dari dataset CICIDS-2017 versi MachineLearninCSV dengan total 849.223 record data. Profil data yang digunakan disajikan pada tabel 1. Dataset yang digunakan memiliki beberapa kelas trafik dan mengandung high class-imbalanced. Profil data memperlihatkan distribusi data yang berbeda untuk setiap kelas dan terdapat beberapa kelas minoritas seperti untuk data serangan Web Attack XSS dan Web Attack SQL Injection. Perbedaan sebaran data yang cukup signifikan, membuat data ini mengandung class imbalance.

Tabel 1. Profil Data 30% Dataset CICIDS-2017

No. Label Kelas Trafik Jumlah Data Persentase Distribusi Kelas Trafik

1 Benign 681.995 80,308

2 DDoS 38.427 4,525

3 PortScan 47.487 5,592

4 Bot 574 0,068

5 Web Attack Brute Force 455 0,054

6 Web Attack XSS 202 0,024

7 Web Attack Sql Injection 8 0,001

8 Infiltration 8 0,001

9 DoS Slowloris 1.739 0,206

10 DoS Slowhttptest 1.605 0,189

11 DoS Hulk 69.259 8,156

12 DoS GoldenEye 3.206 0,376

13 Heartbleed 5 0,001

14 FTP-Patator 2.422 0,285

15 SSH-Patator 1.831 0,216

Total 849.223

2.4 Pengukuran Performa

Pada penelitian IDS, performa sebuah sistem biasa diukur dengan matrik konfusi. Berdasarkan matrik konfusi didefenisikan beberapa aturan :

− FP (False Positive) : merupakan jumlah aktual normal yang terdeteksi sebagai serangan

− FN (False Negative) : merupakan jumlah kesalahan prediksi, dimana aktual serangan dideteksi sebagai normal

− TP (True Positive) : merupakan jumlah ketepatan prediksi, aktual normal terdeteksi sebagai normal

− TN (True Negatice) : merupakan jumlah aktual serangan terdeteksi sebagai serangan.

Berdasarkan defenisi-defenisi tersebut, maka umumnya performa IDS diukur dengan :

(4)

− Accuracy, yaitu tingkat kedekatan antara nilai pengkategorian dengan nilai aktual, Sering digunakan untuk mengukur efektifitas algoritma klasifikasi, dihitung dengan persamaan 1.

𝑨𝒄𝒄𝒖𝒓𝒂𝒄𝒚 = ^{𝑻𝑷+𝑻𝑵}

𝑻𝑷+𝑻𝑵+𝑭𝑷+𝑭𝑵 (1)

− True Positive Rate (TPR), yaitu aktual positif yang dikategorikan dengan benar sebagai kelas positif[14], dihitung dengan persamaan 2

𝑻𝑷𝑹 = ^𝑻𝑷

𝑻𝑷+𝑭𝑵 (2)

− Precision, sebagai ukuran estimasi probabilitas prediksi positif yang benar[15], dihitung dengan persamaan 3.

𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = ^𝑻𝑷

𝑻𝑷+𝑭𝑷 (3)

− False Positive Rate (FPR), sebagai aktual negatif dikategorikan sebagai class positif[16], Trafik normal dianggap serangan, dihitung dengan persamaan 4.

𝑭𝑷𝑹 = ^𝑭𝑷

𝑭𝑷+𝑻𝑵 (4)

− ROC (Receiving Operating Curve) : digunakan untuk mengevaluasi performa algorithm klasifikasi[17].

3. HASIL DAN PEMBAHASAN

Pada bagian ini dibahas hasil eksperimen yang telah dilakukan. Pembahasan meliputi hasil seleksi fitur, pengujian performa algorithma machine learning dan pengujian performa ensemble method.

3.1 Hasil Seleksi Fitur

Teknik seleksi fitur digunakan untuk mengurangi dimensi data. Dataset yang digunakan memiliki 78 fitur, tidak semua fitur yang diperlukan untuk mengidentifikasi trafik. Teknik seleksi fitur Chi-Square dengan metode pencarian berbasis peringkat diterapkan untuk mengeliminasi fitur-fitur yang tidak penting/ tidak relevan. Dari proses seleksi fitur dihasil 23 fitur yang relevan dan akan digunakan untuk deteksi anomali. Tabel 2 menyajikan fitur-fitur yang diseleksi berdasarkan rekomendasi peringkat dari hasil perhitungan Chi-Square.

Tabel 2. Fitur-fitur hasil seleksi menggunakan Chi-Square

No Id. Fitur Nama Fitur

1 41 Packet Length Std

2 13 Total Length of Bwd Packets

3 65 Subflow Bwd Bytes

4 42 Packet Length Variance

5 39 Max Packet Length

6 1 Bwd Packet Length Std

7 12 Total Length of Fwd Packets

8 63 Subflow Fwd Bytes

9 18 Bwd Packet Length Max

10 52 Average Packet Size

11 14 Fwd Packet Length Max

12 54 Avg Bwd Segment Size

13 20 Bwd Packet Length Mean

14 67 Init_Win_bytes_backward

15 40 Packet Length Mean

16 22 Flow IAT Max

17 17 Fwd Packet Length Std

18 26 Fwd IAT Max

19 9 Flow Duration

20 8 Destination Port

21 53 Avg Fwd Segment Size

22 16 Fwd Packet Length Mean

23 66 Init_Win_bytes_forward 3.2 Pengujian Deteksi Anomali dengan Algorithma Tree-Based Classifier

Pada bagian ini dipaparkan hasil pengujian deteksi anomali pada data berdimensi tinggi dan data tidak seimbang menggunakan algorithma klasifikasi tree-based. Performa algorithma klasifikasi diukur berdasarkan kemampuan

(5)

algorithma dalam mengidentifkasi trafik menggunakan perhitungan TPR, FPR, Precision, F-Measure dan ROC.

Seluruh pengujian learning dengan algorithma klasifikasi dilakukan menggunakan alat bantu WEKA versi 3.8.5.

Perintah detail klasifikasi fitur-fitur terpilih menggunakan algorithma REPTree menggunakan software weka-3-8, sebagai berikut :

Started weka.classifiers.trees.REPTree

Command: weka.classifiers.trees.REPTree -M 2 -V 0.001 -N 3 -S 1 -L -1 -I 0.0 Finished weka.classifiers.trees.REPTree

Perintah detail klasifikasi fitur-fitur terpilih menggunakan algorithma J48 menggunakan software weka-3- 8, sebagai berikut :

Started weka.classifiers.trees.J48

Command: weka.classifiers.trees.J48 -C 0.25 -M 2 Finished weka.classifiers.trees.J48

Perintah detail klasifikasi fitur-fitur terpilih menggunakan algorithma RandomTree menggunakan software weka-3-8, sebagai berikut :

Started weka.classifiers.trees.RandomTree

Command: weka.classifiers.trees.RandomTree -K 0 -M 1.0 -V 0.001 -S 1 Finished weka.classifiers.trees.RandomTree

Perintah detail klasifikasi fitur-fitur terpilih menggunakan algorithma Random Forest menggunakan software weka-3-8, sebagai berikut :

Started weka.classifiers.trees.RandomForest

Command: weka.classifiers.trees.RandomForest -P 100 -I 100 -num-slots 1 -K 0 -M 1.0 -V 0.001 -S 1

Finished weka.classifiers.trees.RandomForest 3.3 Komparasi Performa Algorithma Tree-Based Classifier

Selain menguji performa algorithma klasfikasi tree-based dalam mengidentifikasi trafik pada data berdimensi tinggi dan tidak seimbang, juga dilakukan komparasi performa algorithma REPTree, J48, Random Tree dan Random Forest. Tujuan komparasi, memberikan pengetahuan tentang kehandalan algorithma-algorithma tree- based mendeteksi trafik pada data berdimensi tinggi dan tidak seimbang. Sebagai dasar komparasi performa digunakan nilai TPR, FPR, Precision, F-Measure dan ROC.

Pada gambar 2 disajikan grafik nilai TPR untuk masing-masing algorithma. Hasil pengujian memperlihatkan, Random Tree dan Random Forest memiliki kemampuan mendeteksi semua trafik dengan baik jika dibandungkan REPTree dan J48. REPTree tidak dapat mendeteksi serangan Web Attack SQl Injection.

REPTree memiliki tingkat deteksi serangan Web Attack XSS yang rendah jika dibandingkan J48, Random Tree, dan Random Forest.

Gambar 2. Nilai TPR masing-masing Metode klasifikasi

Sebuah sistem deteksi, harus memiliki tingkat deteksi yang baik agar tidak menghasilan alarm palsu. Oleh karena itu memiliki nilai TPR yang tinggi, sistem deteksi anomali harus memiliki nilai FPR yang rendah. Pada gambar 3 disajikan nilai FPR untuk masing-masing metode klasifikasi. Hasil pengujian memperlihatkan secara umum masing-masing metode memiliki nilai FPR yang rendah. Random Forest bahkan memiliki nilai FPR 0.000 untuk semua jenis trafik.

0,000 0,200 0,400 0,600 0,800 1,000

TPR

RepTree J48 Random Tree Random Forest

(6)

Gambar 3. Nilai FPR masing-masing Metode klasifikasi

Selanjutnya pada gambar 4. Disajikan nilai precision untuk masing-masing metode klasifikasi. Hasil pengujian memperlihatkan Random Tree dan Random Forest memiliki nilai precision yang sangat baik untuk semua jenis trafik, jika dibandingkan dengan REPTree dan J48.

Gambar 4. Nilai Precision masing-masing Metode klasifikasi

Pada gambar 5 disajikan nilai F-measure untuk masing-masing metode. Nilai F-measure memperlihatkan Random Tree dan Random Forest mengungguli REPTree dan J48.

Gambar 5. Nilai F-Measure masing-masing Metode klasifikasi

Pada gambar 6 disajikan nilai ROC untuk masing-masing metode klasifikasi. ROC sendiri sering digunakan untuk mengukur keakuratan suatu metode. Berdasarkan nilai ROC masing-masing metode, memperlihatkan identifikasi trafik yang diuji dengan metode-metode klasifikasi tersebut akurat. Namun, jika dibandingkan

0,000 0,001 0,001 0,002 0,002 0,003

FPR

0,000 0,200 0,400 0,600 0,800 1,000

Precision

0,000 0,200 0,400 0,600 0,800 1,000

F-Measure

(7)

performa dari setiap metode, REPTree memiliki keterbatasan dalam mendeteksi serangan Web Attack SQL Injection.

Gambar 6. Nilai ROC masing-masing Metode klasifikasi 3.4 Akurasi

Akurasi sering dirujuk sebagai kemampuan algorithma klasifikasi dalam mengklasifikasi dengan benar sebuah data aktual. Dalam kasus IDS, akurasi adalah kemampuan sistem deteksi mengklasfikasikan trafik serangan sebagai serangan dan trafik normal diklasifikasi sebagai trafik normal. Pada gambar 7 disajikan nilai akurasi dari REPTree, J48. Random Tree, dan Random Forest. Akurasi Random Tree dan Random Forest lebih baik jika dibandingkan dengan REPTree dan J48. Sedangkn Random Tree dan Random Forest memiliki akurasi yang hampir sama, dimana Random Tree memiliki akurasi 99,983% dan Random Forest memiliki akurasi 99,984%.

Gambar 7. Pengujian Deteksi Anomali dengan Algorithma Tree-Based Classifier

4. KESIMPULAN

Penelitian ini menerapkan teknik chi-square untuk mengurangi dimensi data dengan mengeleminasi fitur yang penting. Selanjutnya penelitian ini melakukan pengujian performa metode klasifikasi REPTree, J48, Random Tree, dan Random Forest untuk mendeteksi trafik yang memiliki data berdimensi tinggi dengan sebaran data masing- masing kelas trafik yang tidak seimbang. Selain untuk memvalidasi fitur-fitur terpilih, pengujian dilakukan untuk membandingkan performa algorithma tree-based classifier dalam mengklasifikasi trafik serangan dan trafik normal. Algorithma dengan performa terbaik, merupakan kombinasi ideal teknik seleksi fitur dan algorithma klasifikasi untuk menghasilkan performa sistem deteksi yang terbaik. Eksperimen dilakukan menggunakan 30%

dataset CICIDS-2017. Berdasarkan hasil eksperimen dapat disimpulkan Teknik seleksi fitur Chi-Square diterapkan untuk menghasilkan fitur-fitur yang relevan. Dari proses tersebut dihasil 23 fitur yang relevan untuk digunakan sebagai input learning algorithma klasifikasi. Penelitian ini juga melakukan komparasi performa masing-masing algorithma klasifikasi dengan menggunakan nilai TPR, FPR, Precision, F-Measure, dan ROC.

Hasil pengujian memperlihatkan Random Tree dan Random Forest memiliki performa yang sangat baik mengidentifikasi semua jenis trafik dibandingkan REPTree dan J48. Berdasarkan hasil pengujian dapat disimpulkan bahwa, kombinasi teknisk seleksi fitur chi-square dan algorithm klasifikasi tree-based, khususnya Random Tree dan Random Forest dapat direkomendasikan sebagai sistem deteksi trafik pada data yang memiliki dimensi yang sangat besar dan mengandung data tidak seimbang. Seluruh pengujian pada penelitian ini

0,000 0,200 0,400 0,600 0,800 1,000

ROC

99,874 99,881

99,983 99,984

REPTree J48 Random Tree Random Forest

Akurasi (%)

(8)

menggunakan metode hold-out, dimana seluruh data digunakan sebagai data learning. Untuk menjaga kehandalan metode, perlu diuji menggunakan beberapa mode pengujian seperti fold-cross validation dan percentage split.

UCAPAN TERIMAKASIH

Terimakasih kepada Yayasan Dinamika Bangsa yang telah mendanai penelitian ini melalui Program Penelitian Internal Dosen Universitas Dinamika Bangsa.

REFERENCES

[1] T. Ait Tchakoucht and M. Ezziyyani, “Building a fast intrusion detection system for high-speed-networks: Probe and dos attacks detection,” Procedia Comput. Sci., vol. 127, pp. 521–530, 2018.

[2] A. Abd and A. Hadi, “Performance Analysis of Big Data Intrusion Detection System over Random Forest Algorithm,”

Int. J. Appl. Eng. Res., vol. 13, no. 2, pp. 1520–1527, 2018.

[3] A. Niranjan, D. H. Nutan, A. Nitish, P. D. Shenoy, and K. R. Venugopal, “ERCR TV: Ensemble of Random Committee and Random Tree for Efficient Anomaly Classification Using Voting,” 2018 3rd Int. Conf. Converg. Technol. I2CT 2018, pp. 1–5, 2018.

[4] I. S. Atawodi, “A Machine Learning Approach to Network Intrusion Detection System Using K Nearest Neighbor and Random Forest,” Masters Thesis, 2019.

[5] S. Aljawarneh, M. B. Yassein, and M. Aljundi, “An enhanced J48 classification algorithm for the anomaly intrusion detection systems,” Cluster Comput., pp. 1–17, 2017.

[6] J. Cai, J. Luo, S. Wang, and S. Yang, “Feature selection in machine learning: A new perspective,” Neurocomputing, vol.

300, pp. 70–79, 2018.

[7] H. Peng, C. Ying, S. Tan, B. Hu, and Z. Sun, “An Improved Feature Selection Algorithm Based on Ant Colony Optimization,” IEEE Access, vol. 6, pp. 69203–69209, 2018.

[8] T. Ahmad and M. N. Aziz, “Data preprocessing and feature selection for machine learning intrusion detection systems,”

ICIC Express Lett., vol. 13, no. 2, pp. 93–101, 2019.

[9] A. Fernández, S. del Río, N. V. Chawla, and F. Herrera, “An insight into imbalanced Big Data classification: outcomes and challenges,” Complex Intell. Syst., vol. 3, no. 2, pp. 105–120, 2017.

[10] Y. Liu, Y. Wang, X. Ren, H. Zhou, and X. Diao, “A Classification Method Based on Feature Selection for Imbalanced Data,” IEEE Access, vol. 7, pp. 81794–81807, 2019.

[11] J. Jabez, S. Gowri, S. Vigneshwari, J. A. Mayan, and S. Srinivasulu, “Anomaly Detection by Using CFS Subset and Neural Network with WEKA Tools,” Inf. Commun. Technol. Intell. Syst. Proc. ICTIS 2018, vol. 2, pp. 675–682, 2019.

[12] I. Sharafaldin, A. H. Lashkari, and A. A. Ghorbani, “Toward generating a new intrusion detection dataset and intrusion traffic characterization,” ICISSP 2018 - Proc. 4th Int. Conf. Inf. Syst. Secur. Priv., vol. 2018-Janua, no. Cic, pp. 108–116, 2018.

[13] R. Panigrahi and S. Borah, “A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems,” Int.

J. Eng. Technol., vol. 7, no. 3.24 Special Issue 24, pp. 479–482, 2018.

[14] F. Idrees, M. Rajarajan, M. Conti, T. Chen, and Y. Rahulamathavan, “PIndroid: a novel android malware detection system using ensemble learning methods,” Comput. Secur., 2017.

[15] E. Popoola and A. Adewumi, “Efficient feature selection technique for network intrusion detection system using discrete differential evolution and decision tree,” Int. J. Netw. Secur., vol. 19, no. 5, pp. 660–669, 2017.

[16] S. Aljawarneh, M. Aldwairi, and M. B. Yassein, “Anomaly-based intrusion detection system through feature selection analysis and building hybrid efficient model,” J. Comput. Sci., vol. 25, pp. 152–160, 2018.

[17] F. Mazzarella, M. Vespe, A. Alessandrini, D. Tarchi, G. Aulicino, and A. Vollero, “A novel anomaly detection approach to identify intentional AIS on-off switching,” Expert Syst. Appl., vol. 78, pp. 110–123, 2017.