• Tidak ada hasil yang ditemukan

위 그림에서 막대그래프에 표시된 0부터 5는 센서 고장 클래스인 normal, erratic, drift, hard-over, spike, stuck를 의미한다. 데이터 분포를 살펴보면 drift, hard-over, spike, stuck을 표현한 번호 2, 3, 4, 5의 점들은 다른 클래스들과 구분 지을 수 있는 분포를 가지지만 0번과 1번인 normal과 erratic 클래스는 서로 겹치는 분포를 형성하 여 구분이 어렵다. 그림 4.7의 결과에서는 normal과 erratic은 복원이 잘 이루어지지 않았고 그림 4.8에서 두 클래스의 잠재변수 분포가 겹쳐는 것을 확인할 수 있다. 이 는 잠재변수의 분포와 복원이 상관관계가 있다는 것을 의미한다.

그림 4.8의 결과로 보아 normal과 erratic의 잠재변수를 특징으로 사용하기는 어렵

다. 하지만 데이터의 분포 특성 충분히 반영하는 나머지 클래스의 잠재변수를 사용 한다면 유의미한 결과를 얻어낼 수 있다. 또한 특징 선택과정을 거쳐 VAE 잠재변 수 특징들과 다른 특징들을 조합함으로써 분류기의 성능을 충분히 향상시킬 수도 있다.

cross validation을 사용한 SVM의 정확도가 높고 사용된 특징들의 개수가 적을수록 높은 점수를 부여하였다. 따라서 적합도 함수는 수식 (4.1)과 같이 정의하였다.

  

(4.1)

는 적합도 점수, 는 정확도, 은 사용된 특징들의 개수, 는 개수 제한의 가중치 를 의미한다. 는 특징 개수가 얼마나 적합도 함수에 영향을 주는지에 대한 설정이 며, 0.001로 설정하여 사실상 같은 정확도의 해가 있는 상황에서 개수가 작은 경우 를 선택하도록 고려되었다. 수식 (4.1)에서 정확도에 큰 비중을 두고 특징 개수를 제 한 조건으로 설정하여 해가 정확도를 높게 유지하면서 데이터 차원을 줄이도록 유 도하였다.

선택 과정에서는 선택된 해에 대한 적함도 함수의 평가에 따라 부모 개체를 선택 하는데 적합도 함수가 높은 개체가 확률적으로 더 많이 선택되는 roulette-wheel 방 법을 사용하였다. 수식 (4.2)을 기반으로 각 개체가 선택될 확률을 적합도 점수에 비 례하도록 부여한다. 는 선택 확률, 는 적합도 점수(혹은 적합도)를 의미한다.

 

(4.2)

교차 단계에서는 부모 개체를 선택하여 무작위로 2개의 교차지점을 선택하고 교차 지점을 기점으로 부모 개체의 유전자 일부분을 번갈아 조합하는 2점 교차방식을 사 용하였다.

변이 과정은 각 개체마다 2%의 확률로 하나의 유전자 비트를 반전시키도록 설정 하였다.

대치 과정에서는 전체적인 해집단의 품질을 향상시키기 위해서 기존 세대의 우수

한 해를 다음 세대로 보존시키는 elitism전략을 사용하였다. 부모 개체 중 적합도 점 수가 높은 상위 5개를 다음 세대로 넘겨주도록 설정하였다.

종료 조건은 200세대 이상 즉 알고리즘을 200번 반복하게 되거나 특징 개수가 한 개이고 정확도 100%인 해를 찾게 되면 종료하도록 설정하였다.

본 논문에서는 SVM의 학습을 위해 linear, RBF, polynomial 커널 함수들이 사용되 었다. 따라서 유전 알고리즘은 각 클래스에 대해 커널별로 최적의 해를 찾기 위해 설계되었으며, MATLAB을 통해 구현되었다.

(a) Normal (b) Erratic

(c) Drift (d) Hard-over

(e) Spike (f) Stuck

그림 4.9. 해의 평균 적합도 점수 변화

Fig 4.9. Change in average fitness score of the solution

그림 4.9은 유전 알고리즘이 진행되는 동안 모든 해의 적합도 점수를 평균한 값을

세대마다 기록한 것을 나타내며, polynomial 커널 함수에 대해 적용한 결과이다. 그 래프에서 확인할 수 있는 것처럼 대부분 클래스에 대해 평균 적합도 점수는 증가하 다가 iteration 100이상부터는 어느 정도 수렴하는 것을 볼 수 있다. 이를 통해 유전 알고리즘이 진행됨에 따라 전체 해의 품질이 향상되고 있다는 것을 의미한다.

Hard-over 고장 유형의 경우 유전 알고리즘이 30회 진행되었는데, 30회에서 최적의

해를 찾았기 때문에 종료 조건에 따라 종료되었다.

표 4.2에서는 유전 알고리즘에 의해 선택된 특징들을 보여주고 있다. 선정 기준은

유전 알고리즘 종료 시에 가장 높은 적합도 점수를 가진 해이다. 상단 0부터 5까지 는 각각 normal, erratic, drift, spike, stuck을 의미하며, 상단 밑의 숫자 1부터 26은 시 간 영역 통계적 특징(1~12), 오토인코더 이상치 기반 통계적 특징(13~24), VAE 잠재 변수 기반 특징(25,26)을 의미한다. 표 4.2에서 가장 많이 선택된 특징의 개수는 linear kernel을 사용하여 normal 클래스 판별한 경우 15개로 유전 알고리즘을 통해 효과적으로 개수를 줄인 것이라고 볼 수 있다. 그리고 hard-over 클래스의 경우 데이 터 특징 1개로 최적의 값을 찾아낸 것을 확인할 수 있다.

Kernel

Function 0 1 2 3 4 5

Linear

1, 2, 3, 6, 8, 10, 11, 12, 15, 17, 19, 21, 24,

25, 26

1, 2, 3, 14, 16, 26

10, 15, 19, 20, 22, 23,

25

24 2, 5, 7, 8, 17, 24

1, 2, 3, 4, 5, 10, 11, 12, 15, 16,

23, 25

RBF

1, 2, 3, 5, 8, 9, 10, 11, 15, 17,

20, 26

2, 3, 8, 26 3, 8, 20,

22 13 3, 26 1, 9, 17,

20, 22

Polynomial

1, 2, 6, 9, 10, 11, 13, 15, 16, 20,

23, 26

3, 9, 23 1, 20, 23,

25 24 3, 7, 16,

18

2, 4, 6, 7, 9, 10, 11, 20, 23, 25,

26

표 4.2. 유전 알고리즘으로부터 선택된 특징들

Table 4.2. Features selected from the genetic algorithm