한국어 어휘 의미망을 이용한 CRF 모델 기반 개체 인식. 한국어 어휘 의미망을 이용한 CRF 모델 기반 한국어 개체 인식.
한국어 개체명 인식
한편, 대용량 코퍼스를 이용하여 훈련된 언어 모델은 다양한 자연어 처리 분야에서 좋은 성능을 보인다. 박관형 외. (2019)는 변환기와 self-attention 메커니즘을 사용하여 문장에서 단어를 무작위로 마스크하고 예측하는 방법을 학습한 BERT를 사용하여 개체 이름 인식을 수행했습니다[8].
CRF (Conditional Random Fields)
슈퍼 단어 정보를 학습 기능으로 활용하여 현재 단어의 형제를 카테고리로 인식하는 것이 가능하다. 한국어 어휘의 의미망에서 상위 단어를 사용하는 특성.
학습 데이터의 확장
개체명 인식을 위한 키워드
상위어 자질 추가 알고리즘
그러나 2차 단어가 최상위 단어로 선택되는 경우도 있습니다. 본 논문에서는 이를 한국어 개체명 인식에 적용하기 위해 문장구조를 이해하고 종속관계와 대 부정사 특성을 추가하였다. 본 논문에서는 국어 단위명 인식 분야에서 맥락을 이해하고 관련 정보를 적용하기 위해 종속관계를 추가하였다.
종속성 정보를 특징으로 활용하기 위해 모든 종속관계를 분석한 국립국어원의 코퍼스(구문분석 코퍼스)를 사용하였다. 본 논문에서 사용한 간접의존관계품질이란 명사 뒤에 격입자가 올 때 그 지배적인 위치를 찾아서 품질로 사용한다는 의미이다.
관형격 조사(JKG)
관형격 조사 이외의 격조사
조직 엔터티에 대해 추출된 간접 종속성 함수는 '일치'입니다. 엔터티에서 추출된 사례 연구 품질 엔터티 이름의 예입니다. 4 한국어 어휘-의미망을 이용한 한국어 객체명 인식 학습의 질.
개체명 인식 모델에서 사용되는 속성은 크게 기본속성, 의미적 속성, 구조적 속성으로 분류된다. 어휘 형식 기본 품질 입력 토큰의 어휘 형식입니다.
형태소 분석 단계
자질 생성 단계
인덱스를 통해 현재 토큰에 대한 정보를 얻고, 현재 토큰에 기본 기능을 추가하며, 현재 토큰이 사전에 존재하면 3회 이상 정렬된 카테고리에 대한 정보를 학습합니다. 현재 토큰이 명사인 경우 울산대학교 어휘의미망인 UWordMap의 정보를 이용하여 슈퍼워드와 최상위 기능을 추가합니다. 상위 단어와 최상위 단어는 다음의어를 기준으로 요약하고, 상위 단어의 특징은 1차 단어의 평균 수준을 기준으로 1차 단어, 2차 단어로 분류합니다.
선택한 지배적 속성에 명사가 존재하는 경우, 지배적 속성에 대한 슈퍼워드 및 슈퍼워드 속성을 추가합니다. 이후 현재 토큰이 입력 문장의 마지막 형태소라면 지금까지 생성된 함수를 반환한다.
개체명 분석 단계
현재 문장에 대한 종속성 분석 결과가 있는 경우 종속성 분석 결과에 따라 지배적인 요소를 선택하고, 분석 결과가 없는 경우 간접 종속성 추가 과정을 통해 지배적인 요소를 선택한다. 본 논문에서 제안한 한국어 어휘 의미망을 이용한 CRF 모델 기반 한국어 개체명 인식 방법의 성능을 평가하기 위한 데이터는 국립국어원의 개체명 분석 코퍼스와 엑소브레인 언어 분석 개체이다. 한국전자통신연구원(ETRI)의 말뭉치로 말뭉치라는 명칭을 사용하였다. 본 논문에서는 <표 14>와 같이 국립국어원 개체명 말뭉치와 ETRI 개체명 말뭉치에 모두 등장하며 좀 더 일반적으로 나타나는 개체명의 범주를 제한하여 실험을 진행하였다. 경제 실체의 이름을 인정하는 분야에 사용됩니다.
각 형태소 단위 토큰과 개체 이름 태그는 공백으로 구분되며, 원문의 공백은 @SP@ 태그를 추가하여 구분됩니다.
실험 결과, 기존 모델에 비해 한국어 어휘 의미망을 이용하여 의미 특징을 추가 학습한 모델의 성능이 시간을 나타내는 TI 태그를 제외한 모든 태그에서 향상되는 것으로 나타났다. 이는 한국어 어휘의미망의 슈퍼워드 정보를 이용하기 때문에 학습 데이터를 확장하여 OOV 문제를 완성하였고, 종속성 정보를 통해 사용할 수 있도록 대문자와 지배특징을 찾아 개체명 인식을 위한 키워드를 찾아 사용한 것으로 알려져 있다. 문장에서. ~할 수 있다
자질 별 개체명 인식 성능 비교
실험 결과, 간접 의존성 기능을 추가하면 Baseline 대비 0.15% 포인트 성능이 향상되었습니다. 비교 결과, 상위 단어와 상위 단어, 종속성, 간접 종속성 순으로 기기 이름 인식 성능에 대한 기여도가 높은 것으로 확인되었습니다. 반면, 학습 및 처리 시간은 Baseline에서 가장 짧았고, 각 기능이 추가될수록 증가하는 것으로 확인되었습니다.
기존 모델과의 성능 비교
따라서 동일한 실험 환경에서 학습 시간과 처리 속도를 측정하기 위해 개체 이름 인식 분야에서 가장 일반적으로 사용되는 Bi-LSTM-CRF 클러스터 모델을 구현하여 성능 비교를 수행하였다. 이를 통해 머신러닝 방식의 CRF 모델만을 이용하여 고성능과 빠른 학습 및 처리 속도를 고려하여 실용성을 높인 객체명 인식 시스템 구축이 가능함을 보여주었다. 실험에서 나타난 두 번째 유형의 오류는 경제 주체의 이름을 인식하지 못하는 것입니다.
단위명을 인식하지 못하는 오류는 대개 형태학적 분석의 오류로 인해 발생합니다. 이를 통해 머신러닝 방식의 CRF 모델만을 이용하여 고성능과 빠른 학습 및 처리 속도를 고려하여 실용성을 높인 객체 이름 인식 시스템을 구축할 수 있음을 보여주었다.