네트워크 침입탐지 시스템은 구성 방식에 따라 SPAN(Switched Port Analyser) 방식, TAP(Terminal Access Point) 방식, Inline 방식으로 분류된다[4]. SPAN 침입탐지 시스템은 [그림 2-1]과 같은 구조로 되어 있다.
시그니처 탐지
대부분의 네트워크 침입탐지 시스템은 SPAN 방식이나 인라인 방식으로 구성된다. 이러한 네트워크 침입탐지 시스템은 탐지방법에 따라 시그니처 기반 탐지와 이상 징후 기반 탐지로 구분된다.
이상징후 탐지
심층신경망
계단함수를 활성화함수로 사용하는 퍼셉트론은 수학식 1과 같이 표현될 수 있다. 초기 다층 퍼셉트론은 시그모이드 함수를 은닉층 뉴런의 활성화 함수로 사용했습니다.
오토인코더
이를 통해 오토인코더는 데이터의 가장 중요한 특성을 학습할 수 있습니다. 연구에는 네트워크 트래픽 데이터세트가 사용되었습니다. 본 연구에서는 기존 네트워크 트래픽 데이터세트의 문제점을 개선한 데이터세트 CICIDS2017[30]을 이용하여 연구를 수행하고자 한다.
네트워크 트래픽 이상 탐지를 연구할 때는 신뢰할 수 있는 데이터 세트를 확보하는 것이 중요합니다.
서포트벡터머신 기반 탐지
심층신경망 기반 탐지
이를 위해 은닉층에서는 ReLU를 활성화 함수로 사용하고, 출력층에서는 시그모이드 함수를 사용하여 데이터가 정상 트래픽인지 공격 트래픽인지 판단한다. 그리고 모델이 학습 데이터에 과적합되는 것을 방지하기 위해 각 숨겨진 레이어에 드롭아웃을 적용합니다. 손실함수는 크로스엔트로피 변화를 이용하며, 학습은 Adam 옵티마이저를 이용하여 수행됩니다.
심층신경망의 하이퍼파라미터는 [표 3-3]의 값을 바탕으로 시행착오를 거쳐 최적의 모델을 구성한다.
오토인코더 기반 탐지
F1 결과에서 감지된 결과를 확인하세요. 오토인코더 모델의 입력 및 출력 레이어의 뉴런 수는 데이터의 차원과 동일하게 구성됩니다. 각 계층의 활성화 함수는 기본적으로 ReLU를 사용합니다.
그러나 입력 데이터는 Min-Max 정규화까지 0~1 사이의 값을 가지므로 출력 레이어 함수에서는 시그모이드를 사용한다.
실험 개요
실험 환경
성능 평가 지표
정확도는 분류 모델의 성능을 직관적으로 나타내는 지표이지만, 불균형 데이터 세트에서는 모델의 성능을 왜곡할 수 있습니다. 따라서 불균형 데이터 세트에서는 정밀도와 재현율이 정밀도보다 더 안정적입니다. 정확도(Accuracy)는 모델에 의해 긍정적으로 예측된 데이터 중 실제 값이 긍정적인 데이터의 비율을 의미하며, 공격 트래픽으로 예측된 트래픽 중 실제 공격 트래픽이 차지하는 비율을 나타냅니다.
재현율은 모델에서 긍정적으로 예측한 데이터와 실제 값이 긍정적인 데이터의 비율을 나타냅니다.
실험 데이터 분석 및 전처리
CICIDS2017 데이터 세트는 일반 트래픽과 DoS, DDoS, Heartbleed, 웹 공격, 침입 등 14가지 유형의 공격 트래픽으로 구성됩니다. 본 실험에서는 여러 가지 세부 유형으로 분류되고 다수의 샘플을 포함하고 있는 DoS 공격 트래픽을 실험 대상으로 선정하였다. 정상 트래픽과 DoS 공격 트래픽 데이터의 분포를 확인하기 위해 2차원 임베딩 벡터로 변환하고 고차원 데이터 시각화의 대표적인 방법인 t-SNE(t-Stochastic Neighborhood Embedding)을 이용하여 시각화하였다.
즉, DoS Goldeneye 공격은 훈련 데이터에서 제외되고 평가 데이터에만 포함됩니다.
서포트벡터머신 기반 네트워크 이상징후 탐지 모델
기준으로 C와 감마의 모든 조합에 대한 검출 효율은 그리드 검색을 통해 확인되었습니다. C값이 증가할수록 F1점수가 증가하여 C값 10에서 최대 성능을 나타내었다. 감마값도 증가함에 따라 F1점수가 증가하여 1부터 감마에서 최적의 성능을 나타내는 것을 확인하였다. 새로운 유형의 공격에 대한 지원 벡터 머신 모델 탐지 기능을 검증했습니다.
탐지 성능은 새로운 유형의 공격으로 추정되는 Goldeneye DoS 공격 트래픽이 실제 공격으로 탐지되는 비율로 측정되었습니다.
심층신경망 기반 네트워크 이상징후 탐지 모델
Type 1 모델의 학습 상태를 직관적으로 확인하기 위해 마지막 완전 연결 계층의 출력 데이터 분포를 t-SNE를 사용하여 [그림 4-5]와 같이 시각화했습니다. 4가지 유형 중 F1 점수가 가장 높은 Type 1 모델에서 DoS Goldeneye 탐지율도 가장 높았습니다.
오토인코더 기반 네트워크 이상징후 탐지 모델
다음으로 노이즈 제거를 위한 오토인코더 모델의 검출 성능을 확인했습니다. Denoising Autoencoder와 동일하며 더 높은 검출 성능을 보였다. Stacked Autoencoder 모델은 코드 크기가 8일 때 가장 높은 성능을 보였습니다.
DoS Goldeneye 탐지율은 Stacked Sparse Autoencoder 모델에서 0.9111로 가장 높았습니다.
성능 평가
그 이유는 오토인코더 모델에서 정상 트래픽과 공격 트래픽을 구분하는 임계값 때문입니다. 본 연구에서는 자기지도 학습 기반의 자동 인코더를 이용한 네트워크 트래픽 이상 탐지 모델을 제안하였다. 그리고 최근 수집된 실제 네트워크 트래픽 데이터 세트를 이용하여 제안 모델의 탐지 성능을 확인하였다.
직장에서의 이상탐지 모델은 네트워크 침입탐지 시스템의 성능 향상에 기여할 수 있을 것으로 기대된다.