• Tidak ada hasil yang ditemukan

공 학 박 사 학 위 논 문

N/A
N/A
Protected

Academic year: 2023

Membagikan "공 학 박 사 학 위 논 문 "

Copied!
63
0
0

Teks penuh

BERT 심층 언어 모델의 한국어 학습 방법에 관한 연구. 자연어 처리 분야에서 심층 언어 모델의 사용이 보편화되고 있지만 한국어의 특성을 반영한 언어 모델의 학습 방법에 대한 연구는 많지 않다.

도 입

연구의 목표

따라서 딥러닝 머신러닝에 활용될 수 있는 모든 연구를 자연어 처리 연구라고 할 수 있다. 컴퓨터 기술과 딥러닝 기술의 발달로 자연어 처리 분야도 비약적으로 발전하고 있으며, 다양한 새로운 딥러닝 모델과 학습 방법에 대한 연구가 활발히 이루어지고 있습니다.

자연어처리 알고리즘

  • 토큰화 (TOKENIZING)
  • 사전(VOCAB)
  • 임베딩(EMBEDDING)

자연어 처리 작업의 대상이 되는 단어나 문장은 여러 개의 토큰으로 구성됩니다. 워드레벨 임베딩의 경우 한국의 배(먹는 배), 배(타는 배), 배(인체)가 모두 하나의 벡터에 임베딩되어 서로 다른 의미가 결합되어 표현된다. 단어는 한번에 학습되며, 주어진 단어가 등장하는 문장에서 주변 단어의 종류와 어순에 따라 단어의 내재가치가 영향을 받습니다. 결과적으로 각 단어는 문장의 위치와 문맥에 따라 다르며 임베딩되며 임베딩의 품질이 더욱 향상됩니다.

그림  2와  같이  CBOW의  경우  학습데이터  쌍이  주변  문맥단어  4개와  타켓  단어  1개로  구성이되는  반면  Skip  -Gram은  타켓  단어를  중심으로  그  주변  4개의  쌍으로
그림 2와 같이 CBOW의 경우 학습데이터 쌍이 주변 문맥단어 4개와 타켓 단어 1개로 구성이되는 반면 Skip -Gram은 타켓 단어를 중심으로 그 주변 4개의 쌍으로

언어모델모서의 BERT

  • BERT의 특징 문장레벨 임베딩
  • BERT의 특징 트랜스포머
  • 한국어 BERT 언어모델 학습의 의미

본 연구에서 다루고자 하는 BERT 모델 역시 문장 수준 임베딩을 구현한 언어 모델이다. 자연어 모델의 새로운 기준을 제시하는 모델이다[7]. BERT는 이전 언어 모델에서 사용된 단어 단위 임베딩 제한을 극복합니다.

공개된 또 다른 모델은 SKT(SK Telecom)[20]에서 공개한 KoBERT 모델이다. 비록 이 차원이 빠져있지만, 한국어 모델의 학습 방법에 대한 본 연구의 필요성과 가치가 있다고 주장할 수 있다.

그림  5 Transformer  구조[7]
그림 5 Transformer 구조[7]

한국어 BERT의 학습

  • 코퍼스의 준비 및 정제
  • 한국어의 특징을 반영한 토큰화
    • 딥러닝에 특화된 토큰의 표기
    • 기능와 실질어의 구분
    • 복합명사의 처리
  • VOCAB
  • 학습용 데이터
  • 모델 학습

한국어 심층언어 모델 BERT 학습을 위해 두 가지 크기의 단어를 선택하였다. 학습 모델 이름 어휘 크기 말뭉치에 표시되는 빈도 모델의 목적. 본 연구에서는 Vocab의 크기와 모델의 크기를 변경하면서 총 5개의

작업을 수행하는 언어 모델에 대한 학습 방법을 연구할 가치가 있는 것으로 나타났습니다. 본 연구는 한국어의 특징을 이용한 BERT 언어모델의 학습방법에 대한 연구이다. 본 연구는 한국어의 특성을 반영한 심층 언어 모델의 학습 방법을 제시한다.

어휘 크기와 모델 크기가 다른 모델을 위한 공용 데이터 세트로서의 한국어.

그림  7  본  연구에서  제안한  딥러닝을  위한  한국어  표기법
그림 7 본 연구에서 제안한 딥러닝을 위한 한국어 표기법

결과

평가 방법

본 연구에서는 모델의 크기와 어휘의 크기를 달리하면서 학습한 5개의 한국어 심층언어 BERT 모델에 대해 평가 목적으로 자연어 처리 과제에 따라 추가 모델을 미세 조정하여 5개의 언어 모델의 성능을 향상시켰다. 일부 모델은 학습 과정에서 초기값을 설정하는 문제로 인해 학습되지 않아 평가에서 제외되었습니다. 언어 모델 자체는 자연어 처리 작업을 직접 수행하지 않습니다.

작업 모델 자체의 성능, 미세 조정 훈련 데이터의 품질 및 학습 방법도 일반적입니다. 본 연구에서는 자연어 처리 과제의 조정 자체가 성능평가의 목적이 아니므로 본 연구의 목적인 한국어 심층언어모델의 학습방법에 따라 언어모델의 성능을 평가하였다. . BERT 모델에 제시된 기본 미세 조정 모델과 공개된 학습 데이터를 통해 측정.

NSMC 데이터셋 평가 결과

그림 19는 미세 조정 모델을 언어 모델에 연결하여 학습 과정과 결과를 보여줍니다. 분류모델의 성능을 평가하는 방법은 그림 20의 공식이다.

한국전자통신연구원에서 NSMC 데이터용으로 공개한 심층 언어 모델인 KorBERT. 위에서 언급했듯이 언어 모델의 성능을 객관적으로 평가하려면 동일한 미세 조정 환경에서 언어 모델만 변경하고 테스트하면 됩니다.

그림  18 NSMC  학습데이터의  구조
그림 18 NSMC 학습데이터의 구조

KORQUAD 데이터셋 평가 결과

미세조정 모델은 사전 훈련된 한국어 BERT의 출력단에 별도의 기계 독해 미세조정 모델을 연결하고 KoeQuAD의 학습 데이터로부터 학습하여 성능을 측정한다. 성능은 BERT의 다국어 릴리스 모델 및 다른 연구 결과보다 우수했습니다. 그 결과, 본 연구에서 적용한 한국어 고유의 학습법이 영어 학습법보다 언어 모델 자체의 성능 면에서 더 효과적일 것으로 추정된다.

성능 면에서 본 연구에서 사용한 어휘 크기 모델은 KoQuAD2.0과 동일하다. NSMC 결과와 달리 모델 크기로 본 결과는 Table 8과 같이 거의 모든 모델이다.

그림  22 KoQuA의  학습  데이터  구조그림  21 기계독해 파인튜닝 모델  [7]
그림 22 KoQuA의 학습 데이터 구조그림 21 기계독해 파인튜닝 모델 [7]

고찰 및 결론

  • 한국에 특징에 맞는 토큰화
  • VOCAB 구성 및 크기
  • 연구의 한계
  • 본 연구의 활용 방안

전체 언어 모델의 성능을 결정하는 중요한 요소가 됩니다. 다양한 형태소 분석기의 성능에 따라 언어 모델이 어떻게 달라지는지 살펴보면서 보다 정교한 한국어 토큰을 구성하는 다양한 방법에 대해 논의할 수 있습니다. 작업 모델의 성능은 언어 모델 자체의 성능을 상징하지도 않습니다.

학습 방법을 통해 학습한 언어 모델이 우수하다고 객관적으로 평가하기에는 부족함이 인정된다. 후속 연구에서 동일한 언어 모델에 대해 동일한 미세 조정 방법과 다른 데이터 세트가 이러한 부분에 대해 더 다르게 훈련되었습니다.

그림  23  좌측  첫번째  HTML Tag  영역으로  학습이  되는  것을  보여줌
그림 23 좌측 첫번째 HTML Tag 영역으로 학습이 되는 것을 보여줌

결론

Gambar

그림  2와  같이  CBOW의  경우  학습데이터  쌍이  주변  문맥단어  4개와  타켓  단어  1개로  구성이되는  반면  Skip  -Gram은  타켓  단어를  중심으로  그  주변  4개의  쌍으로
그림  2 CBOW  와  Skip-gram의  학습방식의  차이[6]
그림  3 LSTM  방식에  적용된  문장단위  Seq2Seq2  네트웍의  구조[6]
그림  5 Transformer  구조[7]
+7

Referensi

Garis besar

Dokumen terkait

3011433 Bezdrátová data Type of radio short-range Installation stationary Topologie Hvězdicová topologie Funkce stromová topologie Typ přístroje stanice Frequency band 2,4 GHz