3. 아날로그 게이지 정보 획득
3.2. FCN을 이용한 아날로그 게이지 정보 획득
그림3.12 FCN을 이용한 아날로그 게이지 정보 획득
기존의 영상처리를 이용한 아날로그 게이지 정보 획득의 단점은 다음과 같다. 첫
번째 Tesseract-OCR이 아날로그 게이지의 글자를 인식하는데 어려움이 있다. 두 번
째 원에 대한 허프변환으로 아날로그 게이지의 중심을 찾기 힘들다. 첫 번째 단점 을 보완하기 위해 Fully Convolutional Network(FCN)을 이용하였다. FCN을 이용하여 글자의 영역을 추출한 다음 Tesseract-OCR이 판독을 한다. 두 번째 단점을 보완하기 위해 최소자승법을 사용한다. FCN과 Tesseract-OCR이 판독한 글자를 기준으로 원을 추정하여 아날로그 게이지의 중심을 찾는다. 비록 해당 방법은 아날로그 게이지의 정확한 중앙이 아니지만 원에 대한 허프트랜스폼보다 중심을 못 찾는 경우가 매우 줄어든다. 영상분할과 지침의 값을 계산하는 방법은 영상처리를 이용한 아날로그 게이지 정보 획득과 동일하므로 설명을 생략한다.
l FCN 훈련
FCN은 시맨틱 세그맨테이션에 특화된 네트워크이다. 눈금과 숫자가 가까이 있기
때문에 시맨틱 세그맨테이션을 수행하여 숫자를 정확히 탐지하고자 하였다. 시멘틱 세그맨테이션 후 바운딩 박스를 만드는 것까지 훈련하였다. 훈련에 사용된 데이터 는 총 550장이며 ICDAR2015(International Conference on Document Analysis and
Recognition)[10] 데이터 중 275장과 직접 라벨링한 아날로그 게이지 데이터 275장을
사용하였다. 두 데이터셋은 같은 구조로 이루어져 있으며 이미지 하나와 이미지 내 부에 있는 숫자나 문자의 위치를 기록한 4개의 점과 해당 숫자나 문자의 값으로 이 루어져 있다. ICDAR 데이터는 실생활에서 볼 수 있는 사진에 라벨링 된 데이터이 다. ICDAR 데이터를 사용한 이유는 과적합 방지와 성능향상을 위해 사용하였다. 그 림3.13은 ICDAR2015 데이터의 구성을 나타내고 그림3.14 아날로그 게이지 데이터의 구성을 나타낸다.
602,173,635,175,634,197,602,196,EXIT 734,310,792,320,792,364,738,361,I2R
그림3.13 ICDAR 데이터의 구성
78,171,93,169,93,185,78,187,20 82,121,98,119,98,136,82,138,40 111,78,126,76,126,92,111,94,60 154,56,169,54,169,69,154,71,80 194,66,216,64,216,79,194,82,100 218,102,240,98,240,113,218,116,120 223,149,244,146,244,161,223,164,140 204,194,225,190,225,206,204,209,160 206,215,218,212,218,220,206,223,###
139,209,177,204,177,210,138,216,###
139,216,182,210,182,217,138,223,###
138,225,159,221,159,227,138,230,###
139,245,190,237,190,246,139,254,###
103,212,110,210,110,224,103,226,0 그림3.14 아날로그 게이지 데이터의 구성
그림3.15 Tesseract-OCR의 판독 결과
l Tesseract-OCR을 이용한 판독
FCN은 이용하여 추출된 숫자나 문자일 가능성이 높은 영역을 하나 씩
Tesseract-OCR을 적용하여 판독한다. 그림3.15는 Tesseract-OCR의 판독 결과를 나타
낸다.
그림3.16 최소자승법을 이용한 중심 추출 l 최소자승법을 이용한 중심 추출
최소자승법과 FCN이 찾아낸 글자들의 중심을 이용하여 아날로그 게이지의 중심을 찾아낸다. 글자의 중심이 기준이므로 아날로그 게이지의 중심과 정확히 일치하지 않는다. 때문에 오차가 발생하지만 기존의 원의 대한 허프트랜스폼은 아날로그 게 이지의 중심을 추출하는데 적합하지 않기 때문에 최소자승법을 사용한다.