• Tidak ada hasil yang ditemukan

개체명 분석 단계

Dalam dokumen 저작자표시-비영리 - 울산대학교 (Halaman 37-41)

개체명 분석 단계에서는 자질 생성 단계에서 반환된 자질을 학습 말뭉치로 학습을 완료한 CRF 기반 개체명 인식 모델의 입력으로 사용하여 개체명 태그를 예측하는 단계이다. 가능성 이 있는 시퀀스 레이블 후보들에 대해 생성된 자질에 대해 점수를 계산하여 가장 적합한 하 나의 시퀀스 레이블 열을 선택하는 방식으로 개체명 태그를 예측하여 결과를 출력한다.

28

5 실험 및 평가

본 논문에서 제안한 한국어 어휘 의미망을 활용한 CRF 모델 기반 한국어 개체명 인식 방 법의 성능 평가를 위한 데이터로는 국립국어원의 개체명 분석 말뭉치와 한국전자통신연구원 (ETRI) 엑소브레인 언어분석 말뭉치의 개체명 말뭉치를 사용하였다. 국립국어원 개체명 분석 말뭉치는 ETRI의 ‘세부분류 개체명 가이드라인 2018’ 지침에 준하여 개체명의 경계를 인식 하고 15개 의미 분류 체계에 따른 태그를 부착한 말뭉치이다. ETRI의 개체명 인식 말뭉치는 PS(Person, 사람), LC(Location, 장소), OG(Organization, 기관), TI(Time, 시간), DT(Date, 날 짜)로 5개의 개체명 범주로 분류하여 부착한 말뭉치이다. 본 논문에서는 <표 14>와 같이 국 립국어원 개체명 말뭉치와 ETRI 개체명 말뭉치 모두에 등장하며 개체명 인식 분야에서 가장 보편적으로 사용되는 5개의 개체명 범주로 제한하여 실험을 진행하였다.

<표 15>는 국립국어원의 개체명 인식 말뭉치의 예시이다. id는 말뭉치 내의 문장을 구분하 기 위한 문서 번호를 의미하고 이 값을 이용하여 의존관계 분석이 완료된 문장을 국립국어원 의 구문 분석 말뭉치에서 찾아 자질로 사용한다. from은 원문, word는 원문을 어절 단위로 구분한 값을 가지고 있으며 NE는 문장 내의 개체명을 모두 나타낸다. 본 논문은 형태소 단 위를 입력으로 하는 개체명 인식 시스템이므로 <표 15>와 같은 말뭉치를 <표 16>과 같은 형 태로 가공하여 학습에 사용하였다. 각각의 형태소 단위 토큰과 개체명 태그는 띄어쓰기로 구 분을 하며 원문 내의 공백은 @SP@ 태그를 추가하여 구분하였다.

<표 14> 개체명 종류

개체명 분류 표기

1

인물(PERSON)

PS

2

지역(LOCATION)

LC

3

기관(ORGANIZATION)

OG

4

시간(TIME)

TI

5

날짜(DATE)

DT

29

<표 15> 개체명 인식 말뭉치의 예시

{

"id": "NWRW1800000029.315.1.1",

"form": "[횡설수설/권순활]北

‘외화벌이’ 뜯어먹기",

"word": [ {

"id": 1,

"form": "[횡설수설/권순활]北",

"begin": 0,

"end": 11 },

{

"id": 2,

"form": "‘외화벌이’",

"begin": 12,

"end": 18 },

{

"id": 3,

"form": "뜯어먹기",

"begin": 19,

"end": 23 }

],

"NE": [ {

"id": 1,

"form": "권순활",

"label": "PS",

"begin": 6,

"end": 9 },

{

"id": 2,

"form": "北",

30

"label": "LC",

"begin": 10,

"end": 11 }

] },

<표 16> 가공된 개체명 인식 말뭉치의 예시

id

NWRW1800000029.315.1.1

tokens

[/SS

횡설수설/NNG //SP 권순활/NNP ]/SS 北/SH @SP@

‘/SS 외화벌이/NNG ’/SS @SP@ 뜯어먹/VV 기/ETN

labels

O O O B-PS O B-LC O O O O O O O

총 150,082 문장으로 구성된 국립국어원의 개체명 말뭉치를 형태소 분석기 UTagger를 사 용하여 형태소 태그를 부착 후, 실험에 제한한 5개의 범주가 포함되지 않은 문장은 삭제하여 10배수 교차 검증 실험을 진행하였다. 본 실험을 진행한 환경은 다음 <표 17>과 같다.

<표 17> 실험 환경 운영체제

Windows 10

CPU Intel® Core™ i7-5820K

RAM

32GB

개발 언어 및 도구

Python, python-crfsuite, Visual Studio Code

31

실험 결과

Dalam dokumen 저작자표시-비영리 - 울산대학교 (Halaman 37-41)

Dokumen terkait