• Tidak ada hasil yang ditemukan

유전 알고리즘 탐색을 이용한 랜덤 탐색 대비 효율적인 기계학습

N/A
N/A
Protected

Academic year: 2023

Membagikan "유전 알고리즘 탐색을 이용한 랜덤 탐색 대비 효율적인 기계학습 "

Copied!
32
0
0

Teks penuh

유전자 알고리즘 검색을 사용한 효율적인 기계 학습과 무작위 검색. 유전자 알고리즘 검색을 이용한 무작위 검색과 비교하여 효율적인 기계학습 시스템 구축에 관한 연구. 이처럼 머신러닝 시스템은 각 단계마다 다양한 유형의 알고리즘과 매개변수를 고려할 수 있어 다양한 형태로 구성될 수 있다.

본 논문에서는 유전자 알고리즘 진화 과정에서 각 기계학습 모델 집합의 평균 제곱 오차 정보를 기반으로 특정 기계학습 모델 집합에 대한 집중 검색을 구동하는 방법을 제안하고, 무작위 검색과의 비교를 통해 그 결과, 제안된 유전자 알고리즘의 평균 성능과 견고성이 확인되었습니다.

서론

최종적으로 다양한 데이터의 결과로부터 평균적으로 기존 RS 방식에 비해 더 나은 성능을 확인하였다. 2장에서는 본 논문에서 고려한 ML 시스템의 구성을 기술하고, 3장에서는 본 논문에서 제안하는 GA를 소개한다. 4장에서는 제안한 방법의 결과를 비교 분석하고, 마지막으로 5장에서 결론과 향후 개선점을 제시하며 결론을 맺는다.

기계학습 시스템

  • Over-Sampling
  • Under-Sampling
  • Standard Scaler
  • Normalizer
  • Min Max Scaler

표 2는 본 논문에서 논의된 언더샘플링과 관련된 알고리즘과 매개변수를 보여줍니다. 각 데이터 샘플의 모든 특징에 노멀라이저가 적용되며, 본 논문에서는 각 샘플을 L2 표준으로 나눕니다. Min Max Scaler는 각 데이터 특성에 대한 모든 샘플에 적용되며, 본 문서에서는 각 특성의 최대값을 1로, 최소값을 0으로 변환합니다.

그리고 최대 특성 개수는 입력 특성 개수(n_features)에서 10을 나눈 값으로 설정됩니다. 표 3은 본 논문에서 고려한 FC와 관련된 알고리즘과 매개변수를 보여준다. 표 4는 본 논문에서 고려한 FS/DimR과 관련된 알고리즘 및 매개변수를 보여준다.

ML은 이전에 처리된 데이터를 적용하여 학습과 예측을 계속합니다. ML 모델의 유형과 매개변수는 본 논문에서 구축한 시스템의 성능을 결정하는 주요 요소이다. 본 논문에서는 대표적인 기계학습 알고리즘 5가지인 MLP(Multi Layer Perceptron), KNN(K-Nearest Neighbors), SVM(Support Vector Machine), DT(Decision Tree) 및 RF(Random Forest)를 고려합니다.

본 논문에서는 편의상 은닉층의 개수를 number_layers로 표현하고, 은닉층에 포함된 노드의 개수를 Hidden_size로 표현한다. 트리 기반 알고리즘은 분류 문제와 회귀 문제에 따라 매개변수 구성에 차이가 있으므로, 본 논문에서 논의하는 ML 관련 알고리즘과 매개변수를 표 5와 표 6에 나누었다.

표  1  Over-Sampling  알고리즘  및  파라미터
표 1 Over-Sampling 알고리즘 및 파라미터

유전 알고리즘

룰렛 휠

이전에 생성된 자손 내에서 알고리즘이나 매개변수를 변경합니다. 본 논문에서는 두 가지 유형의 변형을 구현하는데, 하나는 알고리즘과 매개변수 변형이고, 다른 하나는 매개변수 변형이다. 알고리즘 변형은 임의의 알고리즘으로 재설정되며, 알고리즘 유형에 맞는 매개변수도 재설정됩니다.

그리고 매개변수 변경은 현재 매개변수 값을 기준으로 이루어집니다. 변이의 대상이 실수가 아닌 문자열인 경우 변이가 적용되지 않습니다. 본 논문에서는 염색체 다양성에 대한 돌연변이 확률을 만족하는 경우 알고리즘과 매개변수 돌연변이를 사용하고, 돌연변이 확률을 만족하지 않는 경우 매개변수 돌연변이를 사용한다.

Crossover 과정과 마찬가지로 ML 알고리즘 변형은 진행되지 않고, 대신 항상 ML 알고리즘 매개변수 변형이 적용됩니다. 이전에 돌연변이가 발생한 자손의 MSE를 원래 염색체의 MSE와 비교하고 치환 및 결실을 수행합니다. 자손의 MSE 값이 최악보다 높을 경우 교체 과정을 생략하고, 최악보다 낮지만 parent2보다 높으면 최악으로 교체한다.

표  7  GA  설정  파라미터
표 7 GA 설정 파라미터

각 방법의 성능을 GA와 비교하기 위해 각 방법의 테스트 데이터에 대한 평균 MSE를 GA의 테스트 데이터에 대한 평균 MSE로 나눈 값을 MSE 비율로 정의했습니다. 현재 평균은 21개 과목의 평균을 의미한다. 또한 각 방법의 성능편차를 비교하기 위해 GA 테스트 데이터에 대한 MSE의 표준편차를 각 방법의 테스트 데이터에 대한 MSE의 표준편차로 나눈 값으로 표준편차율을 정의하였다.

그림  4 각  방법의  GA  대비  평균  MSE  비율
그림 4 각 방법의 GA 대비 평균 MSE 비율

TOP 1 TOP 2 TOP 3

결론

본 논문에서는 GA 개발 과정에서 각 ML 모델 그룹의 MSE 정보를 기반으로 하고, 다양한 데이터 및 검색 방법에 따른 MSE 결과의 평균 및 표준편차를 기반으로 특정 영역에 대한 집중 검색을 유도하는 방법을 제안하였다. , 성능 비교 및 ​​검증이 수행되었습니다. 그리고 분석을 용이하게 하기 위해 사용된 평균 MSE 비율과 평균 표준편차 비율을 통해 제안한 GA의 평균 성능과 안정성이 우수함을 확인하였고, RS 대비 CGTS와 SPF 데이터 모두에서 열악한 성능을 통해 개선되었음을 확인하였다. 메인 벤치마크 3] Machine Learning Repository, https://archive.ics.uci.edu/ml/index.php [4] He, Haibo, Yang Bai, Edward A.를 위한 여지가 있는 것으로 확인되었습니다.

An adaptive synthetic sampling approach for unbalanced learning,” In IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), p. Bing-Huan, “Borderline-SMOTE: A New Oversampling Method in Learning Imbalanced Datasets,” Advances in Intelligent Computing. Wilson, Asymptotic” Properties of Nearest Neighbor Rules Using Edited Data,” In IEEE Transactions on Systems, Man, and Cybernetrics, vol.

Tomek, “An Experiment with the Ordered Nearest Neighbor Rule,” IEEE Transactions on Systems, Man, and Cybernetics, vol.

ABSTRACT

Gambar

그림  2 시스템  구성
표  1  Over-Sampling  알고리즘  및  파라미터
표  2  Under-Sampling  알고리즘  및  파라미터
표  3  FC  알고리즘  및  파라미터
+7

Referensi

Dokumen terkait

네트워크 모델 2 - OSI 참조 모델 컴퓨터 네트워크

4 융합적 사고 능력과 창의적 문제해결 능력 함양: 융합적 사고 능력이란 개별 학문의 전문지식을 취합, 습득하는 데에 그치는 것이 아니라 다양한 분야의 지식을 균형 있게 습득하고 그 연관성에 대한 ‘통찰적 발견’을 통해서 기존의 지식을 융합하여 새로운 지식을 창출하는 능력을 말한다.. 따라서 융합적 사고는 이질적인 내용을 다양하게