우리는 한국어 리뷰 사전을 자동으로 생성하는 방법을 제안한다. VADER 감정 분석 시스템에 사용되는 감정 사전(Gilbert & Hutto, 2014).
감정분석
데이터 수집
이러한 감정적 단어는 텍스트의 감정적 분석을 위한 단서 역할을 하기 때문에 매우 중요합니다. 본 연구에서는 영어 감정 단어를 활용하여 해당 한국어 형태소를 수집하여 한국어 감정 사전을 제작한다.
주관성 탐지
과거의 감정분석은 위에서 설명한 방법들을 이용하여 텍스트에서 주관적인 내용만을 찾아내는 전처리 과정을 거쳤습니다. 본 연구에서는 주관성 탐지 단계를 생략하였다.
극성 탐지
이와 같은 연구는 초기 단어와 문구의 품질과 주관성 탐지와 마찬가지로 텍스트 극성의 탐지가 초기 어휘로 사용되는 단어와 문구만큼 중요하다는 것을 보여주었습니다.
감정사전
사전 기반 감정사전
그러므로 감정사전의 중요성은 더욱 커진다. 사전 기반 방식의 특징은 사전에서 감정 단어와 감정 문구를 추출하여 감정 사전을 생성한다는 점이다.
말뭉치 기반 감정사전
주로 복습사전을 제작하므로 말뭉치의 규모와 영역에 제한이 있을 수 있다. 이는 사전 기반 방식에서 분야에 따른 감정어 극성의 변화이다.
집단지성 기반 감정사전
감정 단어를 만들기 전에 단어의 주관성을 결정하십시오. 대부분의 집단지성 기반 방법은 그림 2.3과 같이 감정 사전을 생성합니다. 'ANEW(Affective Norms for English Words)'는 1,034개의 단어에 대한 평가자입니다.
따라서 대부분의 일반 평가 사전은 범용입니다.
VADER 감정사전
이렇게 제작된 등급사전은 “http://openhangul.com”에서 온라인 API 형태로 제공됩니다. 이렇게 제작된 감정 분석 시스템을 다른 감정 사전 및 머신러닝 모델과 비교하였습니다. 본 논문에서는 그래프 기반 영어 감정 사전의 감정 점수를 전파하여 한국어 감정 사전을 제작하는 방법을 제안한다.
'한국어 형태소-VADER 감정단어' 쌍을 추출하여 한영 이중언어화.
한영 이중언어사전 제작
한영 병렬 말뭉치 토큰화
VADER는 감정 단어와 한국어 형태소를 그래프 정점으로 사용합니다. 베이더는 감성적인 단어와 한국어 형태소를 하이라이트로 선택했습니다. VADER는 평가 사전에 나타나는지 확인합니다.
마치 당연한 것처럼 찾아와 아름다운 추억을 나누고 이제는 별처럼 각자의 삶을 살아가고 있는 여러분이 자랑스럽습니다.
상호정보량 행렬 제작
코사인 유사도를 통한 이중언어사전 제작
유사도는 영어 단어가 한국어 형태소와 얼마나 유사한지를 측정하기 위해 계산됩니다. 빌린 쌍은 이중 언어 사전에 추가됩니다. FATHER 감정 단어 전체에 대한 동의어 상위 10개를 추출하여 이중언어 사전이 완성됩니다.
위의 번역문을 추출하여 이중언어 사전에 입력하는 과정을 보여줍니다.
한국어 fastText 표상 모델 제작
더 작은 단위인 자소도 있지만, 파이썬 텍스트 데이터의 가장 작은 단위이기 때문에 영어에서는 알파벳을, 한국어에서는 음절을 사용합니다. 본 연구에서는 Python의 gensim에 구현된 fastText를 통해 한국어 형태소를 표현한다. 이러한 방식으로 훈련된 FastText 모델에는 한국어 말뭉치에서 발견되는 모든 음절에 대한 표현 벡터가 포함되어 있습니다.
한영 이중언어그래프 제작
감정 단어와 관련된 한국어 형태소 사이의 모서리에는 1.0의 가중치가 할당됩니다. 베이더 감정어와 연관된 한국어 형태소는 베이더 감정정보를 한국어로 전달한다. 모든 한국어 형태소는 어원에 관계없이 서로 연관되어 있습니다.
한국어 형태소간의 간선은 각 형태소의 표현벡터를 통한 코사인 유사성을 가중치로 사용한다.
감정 점수 전파
앞서 제작한 한영 이중언어 그래프에서 라벨은 그래프에 포함된 VADER 감정단어의 감정점수이다. 전파 반복 단계에서만 최종적으로 수렴되는 각 정점의 값을 한글 감성 단어 후보의 감성 점수로 취한다. 레이블 값 차이가 해당 임계값보다 작아지면 반복 전파 단계가 종료되고 마지막 단계인 레이블 분리 단계 대신 새로운 감정 사전이 생성됩니다.
각 한국어 형태소 정점의 마지막 라벨 값을 새로운 감정 점수로 설정하여 감정 사전에 저장한다.
제작 과정의 발견법적(heuristic) 접근의 검증
제작 과정 검증에는 한영 이중사전 제작 시 베이더 감성어에 대한 대체어 도출을 위한 벤치마크도 포함된다. 추출 범위를 늘릴수록 조금 더 높은 확률로 정답이 존재함을 확인할 수 있습니다. 물론, 정답은 그 기준이 사전에 기재되어 있는지 여부에 따라 달라지므로, 표 4.1에서 오답으로 측정된 형태소 간에는 어느 정도 의미적 유사성이 있을 수 있다.
그러나 정답으로 측정된 형태소는 한영사전에 VADER 감정어와 쌍으로 나타나기 때문에 정답 개수와 정답 비율을 기준으로 추출 한계를 설정하는 것이 합리적이다.
제작된 감정사전의 검증
감정분석 시스템
VADER 감정 분석 시스템은 입력된 영어 텍스트를 토큰화합니다. 예, VADER의 감정 분석 시스템은 확립된 언어 규칙을 점수에 적용합니다. 따라서 본 논문에서 제작한 감성분석 시스템도 동일한 방식으로 적용하였다.
제안된 감성 분석 시스템은 한국어 문서를 입력으로 사용한다. 생성된 평가 사전에 나타나는지 확인하기 위해 입력 문서의 형태학적 분석을 수행합니다. 생성된 감정 사전과 감정 분석 시스템을 이용하여 두 가지 감정 말뭉치에 대한 감정 분석을 수행하였다.
감정분석 시스템을 활용한 감정 말뭉치 감정분석