Optimalisasi Seleksi Fitur Untuk Deteksi Serangan Pada IoT Menggunakan Classifier Subset Evaluator

(1)

JURIKOM (Jurnal Riset Komputer), Vol. 9 No. 4, Agustus 2022 e-ISSN 2715-7393 (Media Online), p-ISSN 2407-389X (Media Cetak) DOI 10.30865/jurikom.v9i4.4618

Hal 885−893 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom

Optimalisasi Seleksi Fitur Untuk Deteksi Serangan Pada IoT Menggunakan Classifier Subset Evaluator

Kurniabudi^1,*, Abdul Harris², Elvira Rosanda³ Ilmu Komputer, Universitas Dinamika Bangsa, Jambi, Indonesia

Email: ^1,*[email protected], ²[email protected] Email Penulis Korespondensi: [email protected] Submitted 02-08-2022; Accepted 22-08-2022; Published 30-08-2022

Abstrak

Internet of Things (IoT) memungkinkan beragam perangkat cerdas saling terhubung dan berinteraksi. Pesatnya perkembangan teknologi dan protokol serta pertumbuhan jaringan, membuat IoT memiliki resiko keamanan. Jumlah peralatan elektronik cerdas saling terkoneksi yang terus meningkat berdampak pada kompleksitas jaringan dan peningkatan volume trafik jaringan yang mengakibatkan data berdimensi tinggi. Teknik seleksi fitur telah terbukti mereduksi data lalulintas jaringan yang sangat besar (berdimensi tinggi) pada Intrusion Detection System (IDS). Teknik seleksi fitur juga dihadapkan pada permasalahan data tidak seimbang. Pada trafik jaringan nyata data cenderung tidak seimbang, dimana trafik serangan lebih sedikit dibandingkan data normal. IoT sebagai jaringan yang kompleks menghasilkan fitur-fitur dalam jumlah besar. Namun, tidak semua fitur relevan untuk mengidentifikasi trafik normal dan serangan. Diperlukan teknik seleksi fitur yang tepat untuk menghasilkan fitur-fitur yang optimal. Pada penelitian ini diusulkan teknik seleksi fitur wrapper-based menggunakan classifier subset evaluator dengan algorithma J48. Dataset yang digunakan adalah CICIDS- 2017 versi MachineLearningCSV. Dari 78 fitur yang dianalisis menggunakan metode yang diusulkan, dihasilkan 15 fitur sebagai fitur- fitur yang optimal. Fitur-fitur optimal digunakan untuk deteksi anomali menggunakan algorithma Random Forest. Hasil eksperimen memperlihatkan deteksi serangan dengan fitur-fitur optimal menghasilkan rata-rata akurasi 99,87% pada data training dan testing.

Kata Kunci: Deteksi Anomali; Seleksi Fitur; High Dimensional Data; High Class Imbalance; J48; Random Forest Abstract

The Internet of Things (IoT) enables a wide variety of intelligent devices to connect and interact. The rapid development of technology and protocols as well as the growth of networks, makes IoT a security risk. The increasing number of interconnected intelligent electronic equipment has an impact on the complexity of the network and the increase in the volume of network traffic resulting in high-dimensional data. The feature selection technique has been proven to reduce very large (high-dimensional) network traffic data in the Intrusion Detection System (IDS). The feature selection technique is also faced with the problem of imbalanced data. In real network traffic data tends to be imbalanced, where attack traffic is less than normal data. IoT as a complex network produces a large number of features. However, not all features are relevant for identifying normal traffic and attacks. The right feature selection technique is needed to produce optimal features. In this study, a wrapper-based feature selection technique is proposed using a subset evaluator classifier with the J48 algorithm. The dataset used is CICIDS-2017 MachineLearningCSV version. Of the 78 features analyzed using the proposed method, 15 features were generated as optimal features. Optimal features are used for anomaly detection using the Random Forest algorithm. The experimental results show that attack detection with optimal features produces an average accuracy of 99.87% on training and testing data.

Keywords: Anomaly Detection; Feature Selection; High Dimensional Data; High Class Imbalance; J48; Random Forest

1. PENDAHULUAN

Evolusi teknologi telah memungkinkan setiap perangkat elektronik terhubung ke internet dan saling berkomunikasi secara realtime. Hal ini mendorong hadirnya terminologi baru pada jaringan komunikasi data yang di kenal dengan Internet of Thing (IoT)[1]. Hadirnya IoT telah memberikan berbagai kemudahan, dan memperkaya cara interaksi manusia dengan linkungan, sosial, dan objek. IoT telah diaplikasikan pada berbagai bidang seperti bidang kesehatan, otomotif, hiburan, industri, dan lain-lain[2]. Kemampuan jaringan IoT menghubungkan berbagai perangkat seperti smart-devices, smart- sensor, dan actuator yang mengirimkan data dan berkomunikasi satu sama lain mengakibat IoT memiliki resiko keamanan[3]. Intrusion Deteciton System (IDS) merupakan salah satu solusi keamanan jaringan efektif yang banyak diterapkan pada jaringan saat ini. IDS mendeteksi serangan berdasarkan fitur yang telah diekstrak dari trafik jaringan[4].

Pesatnya pertumbuhan jumlah perangkat cerdas yang terkoneksi dan saling berinteraksi menggunakan berbagai metode dan protokol, membuat IoT menghasilkan volume trafik yang sangat besar dengan data berdimensi tinggi. Pada jaringan real-time, trafik yang mengalir memiliki data berdimensi tinggi dan cenderung tidak seimbang (imbalance). Hal ini terjadi karena trafik serangan lebih kecil dibandingkan trafik normal. Disisi lain, mengenali jenis trafik serangan pada data berdimensi tinggi dan tidak seimbang menjadi sebuah tantangan dalam merancang IDS. Menurut [5], salah satu cara untuk mengatasi masalah data berdimensi tinggi adalah dengan teknik seleksi fitur. Pada penelitian IDS, teknik dapat meningkatkan performa, dengan mengeliminasi fitur yang tidak relevan, sehingga menyisakan fitur-fitur yang paling berpengaruh terhadap performa klasifikasi atau deteksi serangan[6]. Pada penelitian [7], fitur-fitur yang optimal diperlukan untuk meningkatkan performa deteksi. Selain itu teknik seleksi fitur juga harus mampu mengatasi masalah imbalance data yang biasanya hadir dalam dunia nyata. Imbalance data salah satu isu penting dalam dataset IDS[8].

Dalam hal ini, teknik seleksi fitur harus mampu meningkatkan kemampuan deteksi terhadap kelas minoritas [9]. Pada penelitian [10] , disebutkan bahwa tujuan utama dari seleksi fitur atau reduksi atribut pada IDS adalah untuk menjaga akurasi klasifikasi.

(2)

Hal 885−893 http://ejurnal.stmik-budidarma.ac.id/index.php/jurikom Berbagai penelitian telah dilakukan untuk mendeteksi serangan pada imbalance data. Dalam penelitian [11], melakukan evaluasi terhadap dataset NSL-KDD menggunakan metode klasifikasi Naïve Bayes, Bayesian Networks, J48 dan Random Forest. Hasil eksperimen memperlihatkan, keempat metode tersebut belum mampu mendeteksi dengan baik serangan U2R dan R2L yang merupakan kelas minoritas. Sedangkan [12], menggunakan pendekatan Region Adaptive Synthetic Minority Oversampling Technique (RA-SMOTE) untuk mengatasi imbalance data. Peneliti tersebut juga menggunakan Support Vector Machines (SVM), BP neural network (BPNN), dan Random Forests (RF) untuk menguji metode. Hasil pengujian memperlihatkan metode yang diusulkan mampu menyelesaikan masalah imbalance. Selanjutnya pada penelitian [13], untuk menangani imbalance diterapkan metode SMOTE, Ensemble Feature Selection (EFS) untuk menghasilkan fitur yang penting dan divalidasi dengan klasifikasi Adaboost dan Principal Component Analysis (PCA).

Hasil pengujian memperlihatkan metode yang diusulkan memiliki accuracy 81,83%, precision 81,83% , recall 100 %, dan F1 Score 90.01%. Dari penelitian-peneltian tersebut, terdapat peluang untuk peningkatan akurasi deteksi.

Pada penelitian [14], Information Gain telah diaplikasikan untuk seleksi fitur pada data berdimensi tinggi dan high class imbalanced. Information Gain telah terbukti mampu memberikan rekomendasi fitur-fitur yang relevan dengan melakukan pemeringkatan fitur berdasarkan nilai bobot, mulai dari nilai bobot yang terbesar hingga bobot terkecil.

Namun demikian, untuk menghasilkan fitur-fitur yang paling relevan diperlukan intervensi user. Fitur dengan dengan nilai bobot terkecil akan dieliminasi satu persatu. Fitur-fitur ini selanjutnya digunakan untuk deteksi anomali dengan metode klasifikasi. Proses ini terus diulang hingga diperoleh kelompok fitur yang berdampak pada performa klasifikasi terbaik. Dengan pesatnya perkembangan pengetahuan dan teknologi serta pertumbuhan jaringan IoT, berpotensi hadirnya jenis serangan baru. IDS harus mampu mengenali trafik anomali yang diidentifikasi sebagai jenis serangan baru.

Berdasarkan latar belakang tersebut, pada penelitian ini diusulkan optimalisasi seleksi menggunakan classifier subset evaluator, untuk menghasilkan fitur yang paling optimal untuk mendeteksi anomali pada dataset CICIDS-2017. Pada penelitian ini, CICIDS-2017 digunakan karena memiliki data dengan karakteristik jaringan yang kompleks[15]. Metode yang diusulkan diuji dengan 15 (lima belas) kelas trafik dengan 1 (satu) kelas trafik normal dan 14 (empat belas) trafik serangan. Dengan menggunakan kelas serangan yang lebih spesifik diharapkan mampu menghasilkan fitur-fitur yang benar-benar ideal yang dapat digunakan mendeteksi anomali pada trafik berdimensi tinggi dan kelas tidak seimbang.

Penelitian ini bertujuan menghasilkan metode seleksi fitur yang mampu menghasilkan fitur yang paling optimal pada data trafik jaringan yang kompleks. Fitur yang optimal ini diharapkan mampu mendeteksi serangan pada jaringan IoT yang memiliki lalu lintas data berdimensi tinggi dan tidak seimbang. Metode ini juga diharapkan mampu menghasikan fitur-fitur optimal untuk mendeteksi jenis serangan baru.

2. METODOLOGI PENELITIAN

2.1 Kerangka Penelitian dan Alur Eksperimen

Kerangka penelitian mendeskripsikan tahapan-tahapan kegiatan yang diperlukan untuk mencapai tujuan penelitian.

Langkah-langkah ini menjadi rujukan bagi peneliti dalam pelaksanaan kegiatan penelitiannya. Alur kerja penelitian ini diuraikan sebagai berikut :

a. Studi Literatur : Tahap ini dilakukan untuk menambah wawasan serta memperkuat alur pikir dari permasalahan penelitian yang akan diselesaikan.

b. Persiapan data : pada tahap ini dilakukan beberapa kegiatan yang meliputi : menyelesaikan masalah data ganda (redundant), missing value dan data yang tidak digunakan. Selanjutnya mempersiapkan data kedalam bentuk yang siap untuk diolah yaitu kedalam format ARFF.

c. Optimalisasi Fitur : Pada tahap ini diusulkan sebuah metode yang optimal seleksi fitur. Metode ini harus mampu menghasilkan fitur-fitur optimal untuk mendeteksi anomali.

d. Pengujian : Pada tahap ini dilakukan klasifikasi trafik normal dan serangan serta pengukuran performa deteksi.

Klasifikasi trafik menggunakan algorithma machine learning yaitu Random Forest. Pengukuran performa klasifikasi menggunakan Accuracy, TPR, Precision, Recall, F-Measure dan ROC.

e. Validasi : Dalam pengujian dilakukan dengan menerapkan metode Hold out dan Cross-Fold Validation sehingga didapatkan hasil pengujian yang handal.

Alur eksiperimen dalam penelitian ini disajikan pada gambar 1. Alur eksperimen ini menggambarkan alur kerja dari pelaksanaan eksperimen pada penelitian ini. Secara detail alur eksperimen dan bagaimana eksperimen dilaksanakan, dipaparkan sebagai berikut :

a. Dataset yang digunakan CICIDS-2017 versi MachineLearningCSV, hadir dalam bentuk .CSV. Dataset ini masih mengandung data ganda dan Missing Value.

b. Tahapan preprocessing pada eksperimen dilakukan untuk mempersiapkan data diantaranya menghilangkan data ganda, mengatasi masalah Missing Value dan mengubah format .csv menjadi format .arff.

c. Data yang telah siap diolah selanjut dibagi menjadi 2 (dua) porsi. Porsi pertama 70% disiapkan sebagai data training.

Porsi kedua sebanyak 30% disiapkan untuk data testing.

d. Data yang digunakan mengandung 78 fitur yang terdiri atas 77 fitur informasi dan 1 fitur sebagai label. Pada eksperimen untuk proses optimalisasi seleksi fitur dimulai dengan membentuk random subset dari dataset, dalam 1 subset terdiri paling sedikir 2 fitur.

(3)

e. Selanjutnya dari sekumpulan subset tersebut di pilih 1 subset dan diuji menggunakan algorithma klasifikasi J48.

Performa subset akan dicatat dan dibandingkan dengan subset-subset yang lain. Proses ini berulang hingga diperoleh subset dengan performa yang paling maksimal. Selanjutnya subset dengan performa maksimal tersebut akan dijadikan subset dengan fitur-fitur yang paling relevan.

f. Proses ini juga berlaku untuk data testing (30%).

g. Selanjutnnya dilakukan perbaandingan performa.

h. Tahap akhir adalah membuat kesimpulan dari hasil eksperimen.

Gambar 1. Langkah-langkah eksperimen

Pada penelitian ini untuk tahapan eksperimen dan analisa penulis menggunakan perangkat keras notebook dengan processor Intel core i7 2.70 GHz dengan RAM 8 GB. Perangkat lunak sistem operasi menggunakan Windows 10. Sebagai alat bantu analisis, peneliti menggunakan perangkat lunak Weka 3.8.5. Weka merupakan perangkat lunak Machine Learning dan telah banyak digunakan dalam penelitian data mining dan machine learning[16].

2.2 Data Penelitian

Penelitian ini mengusulkan optimalisasi tekni seleksi fitur untuk data berdimensi tinggi dan tidak seimbang. Dataset CICIDS-2017 digunakan dalam eksperimen dan pengujian. Dataset CICIDS-2017 sendiri merupakan dataset terkini yang mengandung trafik yang kompleks, berdimensi tinggi dan tidak seimbang[17]. Untuk keperluan eksperimen pada penelitian digunakan dataset CICIDS2017 versi MachineLearningCSV. Sebelum dilakukan analisisis, pada tahap awal dilakukan pra-proses terhadap dataset yiatu mengeliminasi 5 (lima) fitur yaitu : Flow ID, Source IP, Destination IP, Source Port dan Time Stamp. Hal ini mengikuti saran pada penelitian [18]. Selain itu pada dataset versi MachineLearningCSV ini terdapat 2 (dua) fitur dengan nama yang sama yaitu fitur id 35 dan 56 dengan nama “Fwd Header Length“, dikarenakan untuk proses pengolahan data tidak boleh ada fitur yang ganda sehingga salah satu fitur/

kolom ini harus dihapus. Total terdapat 78 fitur pada dataset yang digunakan pada penelitian.

Pada tabel 2. disajikan profil dari dataset yang digunakan. Dimana dataset yang digunakan mengandung 15 (lima belas) kelas yang terdiri dari 1 kelas untuk trafik Benign yaitu trafik normal, dan 14 (empat belas) kelas untuk kelas serangan. Dataset CICIDS-2017 ini juga memiliki distribusi data yang tidak seimbang (imbalance) untuk setiap kelasnya.

Tabel 2. Profil Dataset CICIDS-2017

No. Label Jumlah Paket % Jumlah Paket terhadap Total paket

1 Benign 2273097 80.30037

2 DoS/DDoS 128027 4.52273

3 PortScan 158930 5.61443

(4)

4 Bot 1966 0.06945

5 Web Attack–Brute Force 1507 0.05324

6 Web Attack–XSS 652 0.02303

7 Web Attack–Sql Injection 21 0.00074

8 Infiltration 36 0.00127

9 DoS slowloris 5796 0.20475

10 DoS Slowhttptest 5499 0.19426

11 DoS Hulk 231073 8.16298

12 DoS GoldenEye 10293 0.36361

13 Heartbleed 11 0.00039

14 FTP- Patator 7938 0.28042

15 SSH-Patator 5897 0.20832

Total 2830743

Untuk keperluan eksperimen dan pengujian dilakukan pemisahan dataset. Dataset dipisahkan menjadi data training dengan porsi 70% dataset dengan total 1.981.520 record data. Sedangkan untuk data testing dengan porsi 30% dataset dengan total 849223 record data.

2.3 Metode Pengukuran Performa

Menurut [19] nilai sensitivitas dan spesifisitas, tingkat kesalahan klasifikasi, nilai matrik konfusi, nilai presisi, F measures and Receiver Operating Character-istics (ROC) curve biasa digunakan sebagai matrik akurasi pada penelitian IDS dan deteksi anomali yang mengaplikasikan teknik data mining dan machine learning. Untuk pengukuran kinerja algorithma machine learning digunakan matrik konfusi seperti disajikan pada tabel 5 [20].

Tabel 2. Tabel Matrik Konfusi Prediksi Normal Serangan

Aktual Normal TP FP

Serangan FN TN

Dalam konteks IDS, berdasarkan tabel 2 dapat dihitung Akurasi menggunakan persamaan 1, Recall menggunakan persamaan 2 , Precision menggunakan persamaan 3, dan F-Measure menggunakan persamaan 4.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ^{𝑇𝑃+𝑇𝑁}

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (1)

𝑅𝑒𝑐𝑎𝑙𝑙 = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (2)

𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛 = ^𝑇𝑃

𝑇𝑃+𝐹𝑃 (3)

𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = ^2𝑇𝑃

2𝑇𝑃+𝐹𝑃+𝐹𝑁 (4)

Pada eksperimen juga disajikan milai ROC. Kurva ini digunakan untuk mengevaluasi performa algorithm klasifikasi[21]. X-axis merepresentasikan nilai FAR dan y-axis merepresentasikan nilai sensitivitas.

3. HASIL DAN PEMBAHASAN

Pada bagian ini dibahas hasil pengujian metode seleksi fitur yang diusulkan dan pengujian deteksi trafik menggunakan fitur-fitur yang dihasilkan.

3.1 Seleksi Fitur

Telah dibuktikan dalam banyak penelitian, bahwa teknik seleksi fitur selain mampu mereduksi dimensi data dengan mengeliminasi fitur-fitur yang tidak penting/ relevan dalam proses klasifikasi, Teknik seleksi fitur juga mampu meningkatkan performa algorithma klasifikasi. Untuk menghasilkan fitur yang paling optimal untuk mendeteksi serangan, pada penelitian ini seleksi fitur menggunakan Wrapper-based sebagai attribute evaluator dan metode Best-First digunakan sebagai metode pencarian. Secara umum terdapat 2 langkah dalam metode wrapper :

a. Melakukan pencarian subset fitur, dan

b. Algorithma machine learning mengevaluasi subset fitur terpilih. Langkah 1 dan 2 ini akan terus diulang hingga kriteria tertentu terpenuhi. Kriteria yang digunakan adalah performa terbaik. Sebagai attribute evaluator peneliti menggunakan algorithm J48 untuk menganalisa fitur.

Pada eksperimen digunakan software Weka. Metode seleksi fitur yang diusulkan pada penelitian ini, menghasilkan 15 fitur terpilih. Hasil seleksi fitur dengan metode yang diusulkan disajikan pada tabel 3. Pada tabel 3 juga disajikan jenis data dan contoh data yang digunakan pada eksperimen.

(5)

Tabel 3. Fitur-fitur hasil seleksi, jenis dan contoh data

No Nama Fitur Type Data Contoh Data

1 Bwd Packet Length Std Numeric 8593611463

2 Flow Packets/s Numeric 745930496

3 Bwd IAT Std Numeric 6158825426

4 Destination Port Numeric 443

5 Fwd Packet Length Min Numeric 0

6 Flow IAT Min Numeric 1

7 Fwd IAT Max Numeric 23944

8 Fwd IAT Min Numeric 1

9 Min Packet Length Numeric 0

10 Packet Length Std Numeric 1089335289

11 ACK Flag Count Numeric 0

12 Avg Bwd Segment Size Numeric 1794152542

13 Fwd Header Length Numeric 1220

14 Init_Win_bytes_forward Numeric 29200

15 Init_Win_bytes_backward Numeric 61

3.2 Pengujian Deteksi

Pada sub bab ini dipaparkan hasil pengujian deteksi anomali. Pengujian dilakukan menggunakan data training dan data testing.

3.2.1 Pengujian dengan Data Training

Untuk keperluan pengujian deteksi anomali, data training yang digunakan berjumlah 1.981.520 baris data. Dari data tersebut selanjut dilakukan eliminasi fitur. Hanya fitur-ftur terpilih yang digunakan dalam proses deteksi anomali. Pada penelitian ini algorithma klasifikasi Random Forest digunakan sebagai metode deteksi anomali. Pada proses pengujian digunakan metode hold-out, dimana seluruh data (1.981.520 baris data) akan di training. Hasil training menggunakan algorithma Random Forest dengan mode pengujian Hold-out disajikan pada gambar 2.

Gambar 2. Hasil Pengujian pada Data Training

Hasil pengujian memperlihatkan bahwa, dengan 15 fitur terpilih, algorithma Random Foret mampu mendeteksi dan mengindentifikas trafik dengan sangat baik. Hal ini ditunjukkan dengan nilai TPR masing-masing jenis trafik rata- rata 1,000. Kemampuan metode yang diusulkan juga sangat baik, hal ini terlihat dari nilai Precision > 0,999, recall >

0,999 dan F-Measure > 0,999. Hasil pengujian dengan data training, juga memperlihat performa yang sangat baik pada metode deteksi yang diusulkan, hal ini terlihat dari nilai ROC untuk setiap jenis trafik rata-rata 1,000.

3.1.2 Pengujian dengan Data Training

Pengujian dengan data testing dilakukan terhadap 849.223 bari data, dengan mengeliminasi fitur-fitur yang tidak relevan.

Metode yang diterapkan pada data testing, sama pada saat pengujian data training. Pada gambar 3 disajikan hasil deteksi anomali menggunakan data testing.

(6)

Gambar 3. Hasil Pengujian pada Data Testing

Hasil pengujian deteksi anomali menggunakan data testing memperlihatkan performa metode yang sangat baik. Dimana hasil pengujian memperlihatkan nilai TPR untuk masing-masing jenis trafik memiliki nilai rata-rata 1,000. Selanjutnya kehandalan metode sangat baik, hal ini dapat dilihat dari nilai Precision > 0,999, Recall > 1,000, dan F-Measure > 0,999. Nilai ROC 1,000 untuk masing-masing trafik, memperlihatkan performa sistem deteksi yang sangat baik.

3.2.3 Pengujian dengan Variasi Sebaran Data

Untuk menjaga reliabilitas pengujian, maka dalam eksperimen digunakan variasi porsi data yang berbeda diantaranya menggunakan mode Hold out, 10-Fold, dan 5-Fold. Pengujian juga dilakukan dengan porsi data 90%

hingga 10%. Opsi porsi data ini digunakan pada pengujian data training dan data testing. Pada tabel 4 disajikan hasil eksperimen data training dengan sebaran data yang berbeda. Hasil pengujian memperlihatkan, pengujian metode yang diusulkan dengan data training memperlihatkan rerata klasifikasi yang benar sebesar 99.8738%.

Tabel 4. Hasil Pengujian Dengan Data Training (70%)

Test Mode Total Instance Correctly Classified Incorrectly Classified Percentage Correctly

Hold out 1981520 1981079 441 99,9777

10-Fold 1981520 1978924 2596 99,8690

5-Fold 1981520 1978935 2585 99,8695

90% 1783368 1780570 2798 99,8431

80% 1585216 1582906 2310 99,8543

70% 1387064 1385112 1952 99,8593

60% 1188912 1187293 1619 99,8638

50% 990760 989418 1342 99,8645

40% 792608 791519 1089 99,8626

30% 594456 593666 790 99,8671

20% 396304 395786 518 99,8693

10% 198152 197926 226 99,8859

Average 99.8738

Pada tabel 5 disajikan pengujian metode yang diusulkan dengan data testing menggunakan sebaran data yang beragam. Hasil eksperimen memperlihatkan metode yang diusulkan mampu menghasilkan klasifikasi yang benar rerata sebesar 99.8640%.

Tabel 5. Hasil Pengujian Dengan Data Testing (30%)

Test Mode Total Instance Correctly Classified Incorrectly Classified Percentage Correctly

Hold out 849223 849115 108 99,9873

10-Fold 849223 848103 1120 99,8681

5-Fold 849223 848068 1155 99,8640

90% 764301 762874 1427 99,8133

80% 679378 678299 1079 99,8412

(7)

70% 594456 593531 925 99,8444

60% 509534 508771 763 99,8503

50% 424611 423998 613 99,8556

40% 339689 339217 427 99,8610

30% 254767 254425 342 99,8658

20% 169845 169614 231 99,8640

10% 84922 84797 125 99,8528

Average 99.8640

3.2 Visualisasi Hasil Deteksi

Pada sub bab ini disajikan visualisasi hasil deteksi trafik normal dan serangan dalam bentuk matrik konfusi dan grafik. Pada gambar 4 disajikan matrik konfusi hasil deteksi trafik normal dan serangan pada data training.

Meskipun terdapat beberapa trafik yang tidak teridentifikasi dengan benar, namun sebagian trafik sudah teridentifikasi dengan benar.

Selanjutnya pada gambar 5 disajikan matrik konfusi hasil deteksi trafik pada data testing. Angka yang disorot pada tabel memperlihatkan jumlah trafik yang terdeteksi dengan benar atau trafik yang diklasifikasi dengan benar sesuai dengan aktualnya. Meskipun terdapat beberapa trafik yang terklasifikasi salah, namun dalam jumlah yang sedikit.

Gambar 4. Matrik Konfusi Deteksi Trafik pada Data Training

Gambar 5. Matrik Konfusi Deteksi Trafik pada Data Testing

(8)

4. KESIMPULAN

IoT merupakan jaringan komunikasi data yang kompleks menghasilkan trafik jaringan berdimensi tinggi dan tidak seimbang. Menghasilkan fitur-fitur yang optimal untuk mendeteksi bentuk serangan baru pada IoT merupakan tantangan baru dalam IDS. Dataset CIDSI-2017 yang digunakan untuk mewakili data jaringan yang kompleks memiliki informasi fitur yang sangat banyak. Namun faktanya tidak semua fitur relevan dengan data serangan. Penelitian ini mengusulkan teknik seleksi fitur yang mampu mengeliminasi fitur-fitur yang tidak relevan dengan data serangan. Metode Wrapper- based yang diusulkan menggunakan Classifier Subset Evaluator. Pada metode ini fitur-fitur dievaluasi menggunakan algorithma J48. Metode Best-First diterapkan untuk menghasilkan fitur-fitur yang paling optimal . Dari pendekatan seleksi fitur yang diusulkan dihasilkan fitur-fitur yang optimal diantaranya : Bwd Packet Length Std, Flow Packets/s, Bwd IAT Std, Destination Port Fwd Packet Length Min, Flow IAT Min, Fwd IAT Max, Fwd IAT Min, Min Packet Length, Packet Length Std, ACK Flag Count, Avg Bwd Segment Size Fwd Header Length, Init_Win_bytes_forward, dan Init_Win_bytes_backward. Fitur-fitur optimal ini selanjutnya divalidasi menggunakan algorithma klasifikasi Random Forest. Pengujian dilakukan terhadap data training dan data testing dan diujikan dengan sebaran data yang beragam. Pada penelitian ini untuk pengujian deteksi trafik normal dan seragan digunakan algorithma Random Forest. Berdasarkan nilai akurasi, recall, precision, f-measure dan ROC algorithma memperlihatkan performa yang sangat baik untuk mendeteksi serangan. Oleh karena itu dapat disimpulkan bahwa fitur-fitur yang dihasilkan merupakan fitur yang optimal untuk mendeteksi trafik normal dan serangan. Penelitian ini menunjukkan bahwa aliran trafik data jaringan IoT mengandung informasi dalam bentuk fitur yang sangat kompleks. Dengan memilih fitur yang optimal, performa algorithma klasifikasi dalam mendeteksi serangan dapat ditingkatkan. Dikarenakan, perangkat-perangkat cerdas IoT memiliki keterbatasan dalam sumberdaya penyimpanan dan komputasi, penelitian kedepan perlu mempertimbangkan efisiensi penggunaan sumber daya dalam proses seleksi fitur untuk deteksi anomali pada jaringan IoT.

REFERENCES

[1] H. Mustapha and A. M. Alghamdi, “DDoS attacks on the internet of things and their prevention methods,” Proceedings of the 2nd International Conference on Future Networks and Distributed Systems - ICFNDS ’18, pp. 1–5, 2018, doi:

10.1145/3231053.3231057.

[2] M. Ammar, G. Russello, and B. Crispo, “Internet of Things: A survey on the security of IoT frameworks,” Journal of Information Security and Applications, vol. 38, pp. 8–27, 2018, doi: 10.1016/j.jisa.2017.11.002.

[3] U. Javaid, A. K. Siang, M. N. Aman, and B. Sikdar, “Mitigating loT Device based DDoS Attacks using Blockchain,” Proceedings of the 1st Workshop on Cryptocurrencies and Blockchains for Distributed Systems - CryBlock’18, pp. 71–76, 2018, doi:

10.1145/3211933.3211946.

[4] A. I. Madbouly and T. M. Barakat, “Enhanced relevant feature selection model for intrusion detection systems,” International Journal of Intelligent Engineering Informatics, vol. 4, no. 1, p. 21, 2016, doi: 10.1504/ijiei.2016.074499.

[5] J. Cai, J. Luo, S. Wang, and S. Yang, “Feature selection in machine learning: A new perspective,” Neurocomputing, vol. 300, pp. 70–79, 2018, doi: 10.1016/j.neucom.2017.11.077.

[6] M. S. Pervez and D. M. Farid, “Feature selection and intrusion classification in NSL-KDD cup 99 dataset employing SVMs,”

SKIMA 2014 - 8th International Conference on Software, Knowledge, Information Management and Applications, 2014, doi:

10.1109/SKIMA.2014.7083539.

[7] S. H. Kang and K. J. Kim, “A feature selection approach to find optimal feature subsets for the network intrusion detection system,” Cluster Computing, vol. 19, no. 1, pp. 325–333, 2016, doi: 10.1007/s10586-015-0527-8.

[8] Z. Groff and S. Schwartz, “Data Preprocessing and Feature Selection For an Intrusion Detection System Dataset,” Proceedings of the 34th Annual Conference of The Pennsylvania Association of Computer and Information Science Educators, pp. 103–110, 2019, [Online]. Available: http://granite.sru.edu/~pacise/proceedings/pacise-proceedings-2019.pdf

[9] H. Liu, M. Zhou, and Q. Liu, “An embedded feature selection method for imbalanced data classification,” IEEE/CAA Journal of Automatica Sinica, vol. 6, no. 3, pp. 703–715, 2019, doi: 10.1109/JAS.2019.1911447.

[10] P. R. K. Varma, V. V. Kumari, and S. S. Kumar, A Survey of Feature Selection Techniques in Intrusion Detection System: A Soft Computing Perspective, vol. 710. Springer Singapore, 2018. doi: 10.1007/978-981-10-7871-2.

[11] S. Rodda and U. S. R. Erothi, “Class imbalance problem in the Network Intrusion Detection Systems,” International Conference on Electrical, Electronics, and Optimization Techniques, ICEEOT 2016, pp. 2685–2688, 2016, doi:

10.1109/ICEEOT.2016.7755181.

[12] B. Yan, G. Han, M. Sun, and S. Ye, “A novel region adaptive SMOTE algorithm for intrusion detection on imbalanced problem,”

2017 3rd IEEE International Conference on Computer and Communications, ICCC 2017, vol. 2018-Janua, pp. 1281–1286, 2018, doi: 10.1109/CompComm.2017.8322749.

[13] A. Yulianto, P. Sukarno, and N. A. Suwastika, “Improving AdaBoost-based Intrusion Detection System (IDS) Performance on CIC IDS 2017 Dataset,” Journal of Physics: Conference Series, vol. 1192, no. 1, 2019, doi: 10.1088/1742-6596/1192/1/012018.

[14] Kurniabudi, D. Stiawan, Darmawijoyo, M. Y. Bin Bin Idris, A. M. Bamhdi, and R. Budiarto, “CICIDS-2017 Dataset Feature Analysis with Information Gain for Anomaly Detection,” IEEE Access, vol. 8, pp. 132911–132921, 2020, doi:

10.1109/ACCESS.2020.3009843.

[15] I. Sharafaldin, A. H. Lashkari, and A. A. Ghorbani, “Toward generating a new intrusion detection dataset and intrusion traffic characterization,” ICISSP 2018 - Proceedings of the 4th International Conference on Information Systems Security and Privacy, vol. 2018-Janua, no. Cic, pp. 108–116, 2018, doi: 10.5220/0006639801080116.

[16] J. Jabez, S. Gowri, S. Vigneshwari, J. A. Mayan, and S. Srinivasulu, “Anomaly Detection by Using CFS Subset and Neural Network with WEKA Tools,” Information and Communication Technology for Intelligent Systems, Proceedings of ICTIS 2018, vol. 2, pp. 675–682, 2019.

(9)

[17] R. Panigrahi and S. Borah, “A detailed analysis of CICIDS2017 dataset for designing Intrusion Detection Systems,” International Journal of Engineering and Technology(UAE), vol. 7, no. 3.24 Special Issue 24, pp. 479–482, 2018.

[18] S. Ustebay, Z. Turgut, and M. A. Aydin, “Intrusion Detection System with Recursive Feature Elimination by Using Random Forest and Deep Learning Classifier,” International Congress on Big Data, Deep Learning and Fighting Cyber Terrorism, IBIGDELFT 2018 - Proceedings, pp. 71–76, 2019, doi: 10.1109/IBIGDELFT.2018.8625318.

[19] B. Dhruba K and K. Jugal K, Network Anomaly Detection A Machine Learning Perspective. 2014.

[20] R. Goel, A. Sardana, and R. C. Joshi, “Parallel Misuse and Anomaly Detection Model,” vol. 14, no. 4, pp. 211–222, 2012.

[21] D. Summeet and D. Xian, Data Mining and Machine Learning in Cybersecurity. CRC Press, 2011.