Implementasi Machine Learning terhadap Security Management untuk
klasifikasi pola traffic TOR pada Intrusion Detection System (IDS)
Abdi Bimantara
Jurusan Sistem Komputer, Universitas Sriwijaya Palembang
Jl. Masjid Al Ghazali, Bukit Lama, Kec. Ilir Barat. I, Kota Palembang, Sumatera Selatan 30128, Indonesia E-mail : [email protected]
Abstrak
Perkembangan jaringan saat ini sangatlah pesat sehingga menyebabkan jaringan saat ini semakin kompleks dan majemuk. Untuk mengelola jaringan yang manjemuk ini dapat memanfaatkan Network Management System (NMS). NMS berdasarkan standar ISO terdapat 5 kategori yaitu FCAPS ( Fault, Configuration, Accounting, Performance, Security). Dengan semakin berkembangnya teknologi pada jaringan juga menyebabkan potensi ancaman atau serangan semakin besar. Untuk mengatasi hal ini dapat memanfaat security management yang dikombinasikan dengan Machine Learning guna mendapatkan sistem keamanan yang efektif dan efisien.
Kata Kunci :FCAPS, Security Management, Machine Learning
Abstract
The development of the current network is very rapid, causing the current network increasingly complex and diverse. To manage this diverse network, you can utilize the Network Management System (NMS). NMS based on ISO standards there are 5 categories namely FCAPS (Fault, Configuration, Accounting, Performance, Security). With the development of technology on the network also causes a greater potential for threats or attacks. To overcome this, security management can be combined with Machine Learning to get an effective and efficient security system.
Keywords: FCAPS, Security Management, Machine Learning
1.
Pendahuluan
Saat ini perkembangan tekonologi sangat pesat, dibuktikan dengan berbagai macam teknologi yang telah berhasil dicipkatan oleh manusia, tidak ketinggalan perkembangan pada teknologi jaringan saat ini. pada umumnya teknologi jaringan saat ini sudah semakin kompleks atau majemuk yang biasa disebut dengan Heterogenous Network (Hetnet). Oleh karena itu Network Managemen System (NMS), sangatlah penting untuk membantu mengelola jaringan Hetnet ini. Ada tiga kondisi yang harus diperhatikan dalam mengelola jaringan yang kompleks diantaraya struktur, manajemen dan efektivitas dari jaringan tersebut[1][2].
Disisi lain seiring dengan meningkatnya perkembangan jaringan, juga menyebabkan sejumlah potensi serangan atau ancaman terhadap suatu jaringan pada perusahaan. Berdasarkan ISO,Model NMS terbagi menjadi FCAPS ( Fault, Configuration, Accounting, Performance, Security). Security management sangatlah berguna untuk mendeteksi, membedakan. memvisualisasi dan mengklasifikasikan pola ancaman atau anomali pada suatu jaringan perusahaan[3]. Oleh karena itu pemanfaatan Security managemen sangatlah diperlukan untuk membantu administrator mengetahui berbagai potensi ancaman yang terjadi.
Namun dikarenakan Teknologi saat ini sudah semkakin kompleks dan majemuk, sehingga sangatlah membebani administrator dalam mengelola jaringan ini. Selain itu, beberapa penyebab utama kesalahan pada management jaringan disebabkan oleh kelalaian manusia sendiri (Human Error)[3][4]. Mahine learning (ML) merupakan salah satu teknik atau ilmu yang dapat mengekeplorasi informasi dari suatu data[3]. Secara teori, Peran ML dapat di optimalisasikan dalam sistem dan operasi security management sehingga dapat membantu administrator.
2.
Penelitian Sebelumnya
Pada penelitian [5], membahas kombinasi Intrusion Detection System (IDS) dam Data mining. Penelitian ini menggunakan model Random Forest untuk IDS dengan menggunakan dataset dari KDD99 yang berfokus pada peningkatan hasil deteksi namun dengan mengurangain jumlah inputan. Hasil akurasi yang diapatkanpun lebih tinggi dibandingkan dengan penelitian sebelumnya yang memakai semua inputan yang ada.
Penelitian IDS dengan data mining menggunakan metode Kmeans dan Naïve Bayes juga dilakukan oleh[6]. Pada penelitian ini menggunakan dataset yang berasal dari DARPA/KDDCUP. Hasil akurasi yang didapatkan pada penelitian ini sebesar 73,60% dan 98,79%.
Selain itu pada penelitian lain [7], dengan mengimplementasikan metode logistic regression untuk mendeteksi malicious website. Selain itu pada penelitian ini juga menggunakan feature selection guna meminimalkan jumlah inputan. Dataset yang digunakan pada penelitian kali ini berasal dari data kaggle. Hasil akurasi yang didpatkan pun cukup tinggi yaitu 94%.
Pada penelitian lainnya[8], juga membahas mengenai implementasi machine learning dalam IDS yaitu mendeteksi malware dengan bantuan algoritma SMOTE dan Deep Neural Network. Dataset yang digunakan pada penelitian kali ini berasal dari Malgenome dataset. Hasil akurasi yang didapatkan pada penelitian kali ini cukup akurat yaitu sebesar 99,42%. Berikut table penelitian mengenai pemanfaatan Machine Leraning dalam mendeteksi serangan atau anomali pada jaringan selama 5 tahun terakhir dapat dilihat pada tabel 1.
Tabel 1.
Penelitian lima tahun terakhir mengenai Pemanfaatan ML dalam IDS
Peneliti Judul Metode Hasil
M. A. M. Hasan, m. Nasser, s. Ahmad, and k. I. Molla
Feature selection for intrusion detection using random forest
Random forest Hasil dari seleksi fitur yang digunakan sangatlah membantu dalanm peningkatan hasil dari penelitian sebelumnya
S. Sandra, d. Stiawan, and a. Heryanto
Visualisasi serangan brute force menggunakan metode k-means dan naive bayes
Kmeans dan naïve
bayes Hasil akurasi yang didapatkan pada penelitian ini sebesar 73,60% dan 98,79%. A. Bimantara and t. A. Dina Klasifikasi web berbahaya menggunakan metode logistic regression Logistic regression
Pada penelitian ini mendapatkan hasil akurasi yang cukup tinggi yaitu 94%.
N. Afifah, d. Stiawan, and s. Nurmaini
The implenentation of deep neural network algorthm for malware classification
Dnn dan smote Hasil akurasi yang didaptkan pada penelitian ini cukup akurat yaitu sebesar 99,42%.
3. Dasar Teori
A. Network Management System (NMS)
Network management atau biasa disebut juga dengan manajemen jaringan merupakan suatu metode, prosedur dan peralatan yang berhubungan dengan proses operasi,administrasi, dan maintenance dari sebuah jaringan[1][9]. Network Management System (NMS) merupakan suatu software berbasis web yang berfungsi sebagai sistem monitoring jaringan yang terus menerus memonitor keadaan jaringan sehingga jika terjadi ancaman akan memberikan notifikasi kepada administrator jaringan. Menurut ISO model NMS mencakup 5 area yaitu Fault Management, Configuration Management, Accounting Management, Performance Management dan Security Management (FCAPS)
.
B. Security Management
Security management merupakan salah satu area dari model NMS yang deitetapkan oleh ISO. Security management berfungsi untuk melindungi jaringan dari berbagai pontensi ancaman atau serangan dari luar maupun dari dalam. Tujuan utama dari Security Management ini adalah memastikan kemanan dalam segala aspek yang terdapat pada suatu perusahaaan[10]
C. Machine Learning
Mahine learning (ML) merupakan salah satu teknik atau Imu yang dapat mengekeplorasi informasi dari suatu data[3]. Saat ini berbagai macam metode machine learning telah berhasil diimplementasikan diberbagai macam bidang. Metode machine learning juga dapat diterapkan dalam security management. Hal ini dibuktikan dengan peran ML dapat di optimalisasikan dalam sistem dan operasi security management sehingga dapat membantu administrator[4]. Salah satu contoh penerapan ML dalam security management adalah membantu administrator dalam mendeteksi, memvisualisasikan dan mengklasifikasi anomaly atau potensi ancaman yang terdapat pada traffic jaringan.
4.
Metodologi Penelitian
A. Pengenalan dataset
Dataset yang digunakan pada penelitian kali ini berasal dari data UNB[11]. Dataset ini memiliki beberapa fitur seperti yang dapat dilihat pada tabel 2. Dataset ini berupa data pcap hasil dari proses capture traffic data menggunakan aplikasi tcpdump dan wireshrak, sehingga data ini perlu terlebih dahulu diubah menjadi data csv agar dapar diolah dengan machine learning.
Tabel 2. Fitur yang terdapat pada dataset TOR non TOR
no fitur no Fitur no Fitur
1 source port 10. flow fwd mean 19. active mean 2 destination port 11 flow fwd std 20. active std 3 protocol 12. flow fwd max 21. active max 4. flow duration 13. flow fwd min 22. active min 5. flow bytes/s 14. bwd iat mean 23. idle mean 6. flow iat mean 15. bwd iat std 24. idle std 7. flow iat std 16. bwd iat max 25. idle max 8. flow iat max 17. bwd iat min
9. flow iat min 18. bwd iat mean
B. Skenario dataset TOR non TOR
Pada gambar 1 menunjukkan konfigurasi yang telah gunakan untuk menghasilkan dataset traffic TOR dan non TOR. Pada gambar 1 dapat kita lihat bahwa arsitektur yang dipakai pada penelitian kali ini
menggunakan os linux Whonix untuk merutekan semua traffic jaringan melalui TOR. Distribusi Whonix terbagi menjadi 2 mesin virtual yaitu gateway dan workstation.
Gambar 1. Skenario capture data TOR[11]
Seperti yang dapat kita lihat pada gambar 1, workstation terhubung dengan internet melalui mesin virtual gateway. Dengan konfoigurasi ini memungkinkan jaringan TOR pada mesin workstation menjadi transparan. Traffic yang keluar dari workstation dan gateway secara bersamaan dapat capture dengan bantuna wireshark dan TCP dump. Traffic pada workstation sebagai traffic regular dan pada gateway sebagai traffic TOR.
C. Klasifikasi data traffic TOR dan non TOR
Langkah awal dari pengklasifikasian data traffic TOR dan non TOR adalah terlebih dahulu mengekstraksi file data pcap menjadi CSV agar dapat diolah dengan machine learning . Langkah selanjutnya adalah pemilihan fitur terbaik dari fiur yang tersedia. Alas an untuk menggunakan fitur selection adalah meminimalisir iputan dan waktu pengolahan data sehingga dapat mendapatkan hasil yang efektif. Berikut alur diagram pengklasifikasian traffic TOR dan non TOR dapat dilihat pada gambar 2. Pada penelitian ini kami menerapkan 3 buah metode yakni random forest, Neural Network, logisctic Regression dalam pengklasifikan pola traffic TOR dan non TOR.
Gambar 2. Alur diagram pengklasifikasian traffic TOR dan non TOR 5.
Hasil dan Pembahasan
Metode logisctic regression, Random forest dan Neural network dipilih untuk di implementasikan dalam pengklasifikaian data pola traffic TOR dan non TOR. Dengan mengimplemntasikan ketiga metode diatas dapat mempermudah administrator dalam mendeteksi pola traffic pada suatu jaringan.
A. Ektraksi PCAP menjadi CSV
Data yang kami dapatkan dari UNB ini memiliki format file PCAP, sehingga perlu di konversikan menjadi file CSV dengan bantuan tool CICFlowMeter agar dapat diolah dengan machine learning. Berikut hasil ektraksi PCAP menjadi data CSV dapat dilihta pada gambar 3.
Gambar 3. Hasil data konversi dari PCAP menjadi CSV
B. Fitur Selection
Disini kami menggunakan fitur selection ExtraTreesClassifier guna memperkecil dimension dari inputan dan memilih fitur mana yang dianggap paling efektif dalam penentuan TOR atau bukan. Berikut hasil dari fitur selection dapat dilihat pada gambar 4.
Gambar 4. Hasil feature selection menggunakan ExtraTreesClassifier
Dapat dilihat pada ganbar 4, dengan menggunakan metode feaure selection dapat memilah 5 fitur yang dianggap paling efektif dalam menentukan hasil dari pengklasifikasian.
C. Visualisasi data
Disini kami juga mencoba menvisualisasikan dataset, yaitu hubungan fitur protocol dan label yang dapat dilihat pada gambar 5.
Gambar 5. Hasil visualisasi data protocol dan data label
Dari gambar 5 dapat kita simpulkan,bahwa traffic TOR dapat dijumpai pada data yang menggunakan protokol 6. Sedangkan pada gambar 6 kami juga memvisualisasikan komposisi data protokol yang digunakan pada dataset ini.
Gambar 6. Hasil visualisasi komposisi data protokol
D. Hasil pengklasifikasian Neural Network
Dengan mengunakan metode Neural Network didapatkanlah akurasi sebesar 91%,Specificiry sebesar 96%, sensitifity sebesar 90% dan nilai precision sebesar 99%. Berikut pada gambar 7 kami tampilkan grafik akurasi training dan gambar 8 kami tampilkan juga grafik nilai loss
Gambar 7. Grafik akurasi training
Gambar 8. Grafik Loss training
Random Forest
Dengan mengunakan metode Random Forest didapatkanlah akurasi sebesar 99%,Specificiry sebesar 97%, sensitifity sebesar 99% dan nilai precision sebesar 99%. Berikut pada gambar 9 kami tampilkan grafik ROC hasil akurasi menggunakan metode ini.
Gambar 9. Grafik ROC akurasi Random Forest
Logistic Regression
Dengan mengunakan metode Logistic Regression didapatkanlah akurasi sebesar 91%,Specificiry sebesar 77%, sensitifity sebesar 93% dan nilai precision sebesar 95%. Berikut pada gambar 10 kami tampilkan grafik ROC hasil akurasi menggunakan metode ini
Gambar 10. Grafik ROC akurasi Logistic Regression
Berikut pada gambar 11 kami tampilkan visualisasi perbandingan antara ketiga metode diatas
Gambar 11. Hasil Accuracy yang didapatkan dari ketiga metode 6.
Kesimpulan
Traffic TOR pada dataset UNB dapat diklasifikasikan berdasarkan 5 buah fitur yaitu Source Port, Destination Port, Protocol, Flow Bytes/s, dan Flow Duration. Dari dataset diatas juga dapat kita ketahui bahwa traffic TOR umunya menggunakan protocol 6. Selain itu dengan mengguanan tiga buah metode yaitu Neural Network, Random Forest, dan Logistic Regression dapat membantu administrator dalam mengkaslifikasikan data traffic jaringan TOR dan non TOR. Dari ketiga metode diatas, metode Random Forest dianggap sebagai metode terbaik dalam mengklasifikasn pola traffic TOR dan non TOR.
REFERENSI
[1] Y. Sholikatin and N. R. Rosyid, “Implementasi Fault Management (Manajemen Kesalahan) Pada
Network Management System (NMS) Berbasis SNMP,” J. Tek. Inform. dan Sist. Inf., vol. 3, no. 2, pp. 354–364, 2017, doi: 10.28932/jutisi.v3i2.637.
[2] K. G. Provan and P. Kenis, “Modes of network governance: Structure, management, and
effectiveness,” J. public Adm. Res. theory, vol. 18, no. 2, pp. 229–252, 2008.
[3] S. Ayoubi et al., “Machine Learning for Cognitive Network Management,” no. January, pp. 158–165,
2018.
[4] Q. Mahmoud, Cognitive networks: towards self-aware networks. John Wiley & Sons, 2007.
[5] M. A. M. Hasan, M. Nasser, S. Ahmad, and K. I. Molla, “Feature selection for intrusion detection
using random forest,” J. Inf. Secur., vol. 7, no. 3, pp. 129–140, 2016.
[6] S. Sandra, D. Stiawan, and A. Heryanto, “Visualisasi Serangan Brute Force Menggunakan Metode
K-Means dan Naive Bayes,” in Annual Research Seminar (ARS), 2017, vol. 2, no. 1, pp. 315–320.
[7] A. Bimantara and T. A. Dina, “Klasifikasi Web Berbahaya Menggunakan Metode Logistic Regression,”
in Annual Research Seminar (ARS), 2019, vol. 4, no. 1, pp. 173–177.
[8] N. Afifah, D. Stiawan, and S. Nurmaini, “The Implementation of Deep Neural Networks Algorithm for
Malware Classification,” Comput. Eng. Appl., vol. 8, no. 3, pp. 189–202, 2019.
[9] A. Clemm, Network management fundamentals. Cisco Press, 2006.
[10] L. Kralik, R. Senkerik, and R. Jasek, “Model for comprehensive approach to security management,”
Int. J. Syst. Assur. Eng. Manag., vol. 7, no. 2, pp. 129–137, 2016.
[11] A. H. Lashkari, G. Draper-Gil, M. S. I. Mamun, and A. A. Ghorbani, “Characterization of Tor Traffic