사전과 어휘 지도를 사용한 한국어 단어 의미 벡터입니다. 우리는 벡터 공간에 단어를 표시하기 위해 말뭉치와 인공 신경망을 사용합니다. 단어 임베딩은 인공 신경망과 코퍼스를 사용하여 학습됩니다.
벡터 공간 단어 임베딩
Word2Vec은 학습용 코퍼스에서 학습할 단어 전후에 나타나는 단어를 사용합니다. Glove[7]는 말뭉치 전체를 고려하여 단어를 벡터화한다.
한국어 단어 임베딩
단어의 위치에 대한 말뭉치 기반 정보가 중요하기 때문에 단어의 의미를 고려하지 않습니다. 마지막으로 말뭉치 기반 단어 입력에서는 두 단어가 동의어로 잘못 판단되는 경우가 있다.
단어의 사전 정보
본 논문에서는 벡터 공간에서 단어를 표현하기 위해 사전과 어휘 의미 정보를 사용합니다. 기존 워드 임베딩에서는 코퍼스의 양과 성격이 워드 임베딩 학습 결과에 영향을 미칩니다. 그러나 코퍼스 기반에서는 두 단어 주변의 단어가 비슷한 방식으로 사용됩니다.
코퍼스 기반 문제를 해결하기 위해 단어의 사전 정보와 어휘 의미 정보를 이용하여 벡터 공간에 단어를 표현한다. 본 논문에서는 표준국어사전에 등록된 단어의 정의 중 첫 번째 문장을 형태소 분석과 의미변별을 거쳐 사용하였다. 그림 3]은 본 논문에서 제시한 사전을 이용하여 동형이의어 수준의 단어 임베딩을 위한 학습 데이터를 생성하는 방법이다.
각 단어의 의미만 사용하는 방법을 배우십시오. 각 단어는 그 의미를 사용하여 학습됩니다.
어휘 의미 정보
반의 관계에 있는 두 단어는 정반대의 의미를 갖습니다. 의미론을 활용한 학습 방법에서는 두 단어의 의미 차이가 거의 없어 유사한 벡터 값을 갖게 됩니다. 사전과 어휘 의미 정보를 활용한 단어 임베딩 학습에는 특징 거울 모델[2]이 사용됩니다.
이는 사전에 있는 단어 간의 연관을 학습에 사용하는 모델입니다. 단어의 의미에서 파생된 단어 목록입니다. 특징 거울 모델은 역전파 알고리즘을 사용하여 각 단어의 가중치를 업데이트합니다.
동형어 단어에 여러 의미가 있는 경우 모든 의미를 학습에 사용합니다. 또한 각 단어의 의미를 설명하기 위해 첫 번째 문장만 사용됩니다.
단어의 유의어 검색
두 단어 모두 각 단어의 의미가 유사합니다. 다음은 동사, 형용사, 단어에 대한 동의어 검색입니다. 괄호는 각 단어에 대한 코사인 유사도 값입니다.
부사와 입자에 대한 동의어 검색입니다. 각 단어와 품사가 같은 단어를 코사인 유사도가 높은 순서대로 검색합니다. 4 사전과 어휘카드를 활용한 다중 동의어 단어 임베딩 다중 동의어 수준 단어 임베딩.
사전과 어휘 카드를 사용하여 다의어 수준에 단어를 삽입합니다. 동의어 수준의 단어 임베딩을 통해 단어의 의미를 분할할 수 있습니다.
다의어 단어 유의어 검색
동의어는 여러 의미를 갖는 단어입니다. 동형이의어 수준의 단어 임베딩과 유사하게 사전에 있는 단어의 의미와 어휘 맵의 상위 단어 및 반의어를 사용하여 학습합니다. 다동의어 수준 단어 임베딩 동음이의어 수준 단어 임베딩.
동형이의어 수준의 단어 임베딩에는 '아홉', '여성적'을 의미하는 단어와 함께 동의어 '여성__02'가 등장합니다. 동사 단어에 대한 동형이의어 수준과 동의어 수준 단어 포함을 비교합니다. 동의어 검색은 동사 단어에 대해서만 수행됩니다.
반면, 다동의어 수준의 단어 임베딩에서는 각 단어와 의미가 유사한 단어가 동의어로 표시됩니다. 우리는 사전과 어휘 맵을 사용하여 다의어 단어 임베딩이 어떻게 배포되고 동사와 형용사를 구별하는지 실험했습니다.
두 단어의 유의어 검색
명사와 명사 단어에 대한 동의어 검색 결과는 인간이 예측한 단어와 유사한 결과를 보여줍니다. 명사와 동사의 벡터합에서는 사람이 원하는 단어와는 다르지만 의미상 유사한 단어들이 나타난다.
의미 요소의 삭제, 추가 후 유의어 검색
다의어 단어 임베딩을 이용한 다의어 명확화 실험. 사전과 어휘맵을 활용한 다동의어 단어 임베딩은 단어의 의미와 단어 간의 관계를 이용하여 학습하는 모델입니다. 다중 동의어 단어 임베딩은 다중 동의어 명확성 실험을 수행하는 데 사용됩니다.
5 반의어와 부정어휘를 이용한 단어억제 반의어와 부정어휘를 사용합니다. 반의어 실험에 사용된 단어쌍은 비슷한 의미를 지닌 단어들로 구성되었다. '수출국'은 t-SNE를 이용하여 반의어를 이용한 단어억제 결과를 시각적으로 확인합니다.
먼저, 학습 시 반의어를 포함하지 않는 단어의 임베딩 결과를 시각화합니다. 부정적인 어휘의 의미를 강화하는 단어를 삽입합니다. '친절'을 반의어 검색해서 '박정다'로 바꿔보세요.
어휘맵은 슈퍼워드와 반의어를 활용하여 단어 관계를 벡터로 표현하는 방법을 학습합니다.