• Tidak ada hasil yang ditemukan

III. 연구 방법

3.3 ELP-NAS 시스템

Controller

Trainer

Multi-objective reward Sample models

From search space

Reward

Accuracy, Energy, Latency Actual measurement Energy and Latency

Predictor

Mobile Phone Metric Energy Latency

Op A 0.063 215.2

•• •• ••

Op D 0.018 129.7

그림12: ELP-NAS시스템개요

본연구에서모바일환경에서에너지효율적인모델탐색방법으로

딥러닝모델의소비전력과지연시간을예측하는ELP알고리즘(Energy

and Latency Predictor)를적용한ELP-NAS시스템을제안한다.

아키텍처탐색을 위한시스템개발을 위하여컴퓨팅자원을효율적 으로사용하고빠르게학습할수있는베이스라인모델을선정하였다.그 래서본연구에서는강화학습기반의선행연구들중에서마이크로탐색

영역기반의ENAS[23]를베이스라인모델로선정하였다.베이스라인모

델은학습시간이GPU 1대로반나절정도소요되고기존연구들과동등한 수준의성능을보여준다.그리고탐색영역이한정되어있으며,셀기반의 확장가능한아키텍처라는장점을갖고있다.

베이스라인모델의기본적인구조는그림13과 같이블록(Block)단 위이며,두개의오퍼레이션연산으로구성되어있다.그리고N개의블록

이모여셀(Cell)을구성하고,셀이반복적으로연결되어전체네트워크를

Architecture Block

Operation A Operation B add

Hidden layer A Hidden layer B New hidden layer

Cell

Block 1 Block 2 Block 3 Block 4 Block 5 concat

hn hn-1 hn+1

Input Normal Cell Reduction Cell

Normal Cell Reduction Cell

Normal Cell FC Output

xN

xN

xN

그림13: ELP-NAS탐색영역

구성한다.셀은 입력차원을감소시키는일반셀(Normal Cell)과차원을 감소시키는축소 셀(Reduction Cell)이 있이며베이스라인 모델은셀단 위로탐색한다.베이스라인모델에서사용할수있는오퍼레이션종류는 총5가지로3x3 separable convolution, 5x5 separable convolution, average pooling, max pooling, identity 를 사용할 수 있고, 필터크기 및 개수는 32x32x36, 16x16x72, 8x8x144를사용하여탐색영역이한정되어있다.

또한아키텍처를구성할때블록개수와셀개수를변경할수있어서확장 이가능하다.

본연구에서제안한ELP-NAS는베이스라인모델에서가장성능이

좋은최종모델을기반으로아키텍처를구성하여, 5개의블록이하나의셀 을구성하고15개의 일반셀로구성하여5개의 일반셀마다하나의축소 셀이순차적으로연결되는아키텍처구조를갖는다.

이와같이ELP-NAS는탐색영역이한정되어있고전체아키텍처를 구성하는셀과블록의개수가정해져있기때문에ELP알고리즘적용이

가능하다. ELP알고리즘의기반이되는오퍼레이션LUT를생성하기위

해각오퍼레이션별로 레이어N =100인모델을생성하여소비전력과 실행시간을측정하였다. 5개의오퍼레이션중에서identity는입력과모 양이같은출력을반환하여실행시간및소비되는전력이없기때문에 측정에서제외하였다.그래서총12개의오퍼레이션모델을생성하여LG G8스마트폰에서측정하였으며,각모델별로총100회씩측정하고평균 값을기준으로LUT를생성하였다.오퍼레이션별로소비전력과지연시 간측정결과는그림14과그림15과 같다.측정결과기반으로각오퍼레

이션의LUT를생성하고, ELP 알고리즘은컨트롤러에서탐색한모델의

구조를분석하여LUT기반으로소비전력과지연시간을예측한다.그리 고예측한소비전력과지연시간을다음모델을탐색하기위한입력값을 사용한다.

측정결과를살펴보면,오퍼레이션기준으로비교해보면5x5 separa- ble convolution연산이3x3 separable convolution연산보다소비전력과 지연 시간이크고, Max Pooling 연산이Average Pooling 연산보다 소비 전력과지연시간이 더크게측정되었다. 그리고 필터 사이즈 기준으로 살펴보면 32x32x36, 16x16x72, 8x8x144 순으로 소비 전력이 많고 지연 시간이길게측정되었다.각오퍼레이션의32x32x36의측정결과가높게 측정되어다른연산에비해상대적으로더많은CPU자원으로쓴것으로 볼수있다.

그림14:오퍼레이션 소비전력측정결과

그림15:오퍼레이션지연시간측정결과

Dokumen terkait