• Tidak ada hasil yang ditemukan

언어모델, 사람과 소통하다

N/A
N/A
Protected

Academic year: 2023

Membagikan "언어모델, 사람과 소통하다"

Copied!
20
0
0

Teks penuh

(1)

언어모델, 사람과 소통하다.

2023. 02. 28.  

53

https://doi.org/10.22810/2023KIB053

의사소통뿐만 아니라 사고의 과정과 지식의 표현 및 보존에 사용되는 자연어를 기계적으로 처리하는 것은 다양한 분야에 활용될 수 있어 매우 중요하지만, 자연어가 갖는 무한한 표현력으로 인해 어려운 연구라 할 수 있다. 여러 접근 방법 중 하나인 언어모델의 구축은 최근 딥러닝 기술의 발달로 인해 성능이 급격히 좋아지면서 활발히 연구되고 있으며 시장 전망도 매우 밝다. 또한 텍스트 위주의 연구 및 활용에서 생물학적 변이 정보, 이미지, 음성 등의 다른 형태의 데이터 및 인식 기술과 조합하여 활용 범위가 매우 넓어지고 있다.

본 고에서는 딥러닝 기반의 언어모델들에 대한 설명 및 최신 언어모델 개발 동향과 언어모델을 활용한 다양한 서비스들에 대해 소개한다. 그리고 사람만큼 자연스러운 AI의 등장과 핵심 기술의 독점화를 예상하며 이에 따른 시사점에 대해 살펴보고자 한다.

김은희 · 이민호 · 정유나 · 황명권

1.

언어모델 개요

· 자연어처리 및 언어모델

· 시장 동향

2.

언어모델 개발 동향

· 딥러닝 기반 언어모델의 인간 언어 능력 돌파

· 언어모델의 무어 법칙: 모델과 데이터 크기 증대를 통한 성능 향상

· 최신 언어모델 개발 동향

3.

언어모델 활용 사례

· 언어 처리 중심 사례

· 응용 영역으로 활용 사례

4.

언어모델 개발 및 활용에 따른 시사점

(2)

언어모델 개요 1.

자연어처리 및 언어모델

(자연어처리)

-

자연어(Natural Language)는 의사소통뿐만 아니라 사고의 과정과 지식의 표현 및 보존에 사용되는 매우 중요한 자연 발생적 기초 체계임.

-

자연어를 컴퓨터가 이해하거나 생성할 수 있도록 하는 학문 분야를 자연어처리(Natural Language Processing, NLP)라고 함.

-

자연어처리는 기계번역, 문서요약, 음성인식, 정보추출, 질의응답 등 다양한 분야에 응용될 수 있음.

-

자연어가 갖는 특징인 중의성, 예외 규칙, 유연성과 확장성 등으로 인해 자연어처리는 다른 분야에 비해 특히 어려움.

(언어모델)

-

자연어처리는 언어를 입력으로 받아들여, 목적에 맞게 처리하는 자연어 이해 과정(Natural LanguUnderstanding, NLU)과, 정보를 바탕으로 문장을 생성하여 출력하는 자연어 생성(Natural Language Generation, NLG)으로 나눌 수 있음.

-

언어모델(Language Model, LM)이란 언어를 이루는 구성요소(글자, 형태소, 단어, 문장, 문단 등)에 확률 값을 부여하 고 다음 구성 요소를 예측하거나 생성하는 모델을 말함.

-

언어모델 연구는 언어의 문법을 이용하는 규칙기반, 단어 사이의 상관관계를 이용하는 통계기반, 언어의 다양한 데이터를 복합적 연결을 통해 분석하는 딥러닝 기반 연구들로 나눌 수 있음.

-

언어모델은 기계번역, 문서요약, 질의응답 등 자연어처리 영역에서 대부분의 응용문제들에 활용될 수 있음.

시장 동향

(시장의 성장)

-

글로벌 자연어처리(NLP) 시장 규모는 27.1%의 연평균 복합성장률(CAGR)로 2021년 135억 달러에서 2030년 910억 달러로 성장할 것으로 예측(Straits Research, "Natural Language Processing Market", 2021)

(3)

-

자연어처리(NLP) 시장의 전 세계 수익 또한 향후 몇 년 동안 빠르게 증가하여, 2017년 30억 달러 대비 2025년에 430억 달러로 14배 정도 커질 것으로 예상 (STATISTA, “Revenues from the natural language proccessing(NLP) market worldwide from 2017 to 2025”, 2022)

-

언어모델 응용 분야 중 하나인 대화형 AI, 챗봇 및 가상 비서 시장에 전 세계적으로 2000여 개의 공급업체가 있으며 (Gartner Research, "Making Sense of the Chatbot and Conversational AI platform Market", 2020), 챗봇이 많이 활용되고 있는 산업은 부동산(28%), 여행(16%), 교육(14%), 의료(10%), 금융(5%)임(Chatbots Life, "Chatbot 2019 Trends and Stats with Insider Reports", 2019)

-

자연어처리는 BFSI(Banking, Financial Service and Insurance), IT 및 통신, 소매 및 전자상거래, 의료 및 생명과학, 운송 및 물류, 정부 및 공공부문, 에너지 및 유틸리티, 제조, 교육, 여행, 미디어, 엔터테인먼트 등 적용 분야가 다양하며, 의료 및 생명 과학 분야에서 가장 높은 연평균 성장률을 기록할 것으로 예상(Markets and Markets, "Global Natural Language Processing Market", 2022)

-

자연어처리 시장을 이끌고 있는 주요 기업으로는 IBM, 마이크로소프트, 구글, AWS, 페이스북, 애플, 3M, 인텔, SAS, 인스티튜트, 바이두, 인벤타, 베리톤, 내러티브 사이언스, 헬스 피델리티 등이 있음(Markets and Markets, "Global Natural Language Processing Market", 2022)

(활용의 확장)

-

기존 텍스트를 넘어 DNA와 같은 생물학적 배열을 읽음으로써, 신종 바이러스의 변이를 예측하거나 신약 제조에 활용 가능하며, 의료분야에서는 개인건강기록(Personal Health Records)이 점점 더 광범위하게 수용되고 있어 NLP 방법의 활용이 더 필요함.

<그림 1> 전 세계 자연어처리 시장 전망

(4)

-

기존 특정 작업 (task-agnostic)에 기반한 모델의 활용성 제한 및 많은 수의 학습데이터 셋 필요성을 극복하기 위해 대규모 데이터셋을 사전학습시키는 초거대 언어모델이 등장하고 있음.

<그림 2> 언어모델 크기별로 비교한 학습 샘플의 수와 정확도간의 상관관계

-

자연어처리는 이미지 인식과 음성 인식 등 다른 인식기술과 조합해 더 넓은 활용 영역으로 확산 중.

(예: 이미지 설명 캡션 생성, 자연어를 이용한 이미지 생성/로봇 제어 등)

(5)

<그림 3> 딥러닝 기반 언어모델

언어 모델 개발 동향 2.

딥러닝 기반 언어모델의 인간 언어 능력 돌파

(트랜스포머 기반 혁신) 2015년 컨벌루션 뉴럴네트워크 기반 ResNet이 비전 분야에서 사람의 인지 성능을 넘어선 이후, 2019년 언어 분야에서 트랜스포머의 인코더 부분을 활용하는 BERT 계열의 언어 모델이 사람의 언어 인지 성능을 돌파함.

-

딥러닝 기반의 언어모델은 그림 3과 같이 태스크 전용 모델과 범용의 언어모델로 구분 지어짐. 범용의 언어모델은 ELMO, BERT 등과 같이 대량의 코퍼스(Corpus, 텍스트 문서 집합)를 이용하여 사전학습(pre-training)을 수행하여 만듦. 특정 태스크를 수행하기 위해서는 특정 태스크에 적합한 훈련 데이터를 가지고 다시 학습하는 과정을 거침.

이를 파인튜닝이라고 함.

-

딥러닝 기반의 언어모델 중 태스크 전용 모델은 단어들을 벡터 표현으로 변환하는 단어 임베딩(Word Embedding) 기술을 활용하고, 각 단어에 해당하는 벡터를 입력으로 활용함. 대표적인 단어 임베딩으로는 Word2Vec이 존재함.

태스크 전용 모델은 이러한 입력 데이터를 기반으로 Seq2Seq(sequence to sequence)를 활용하여 입력 데이터의 다음 데이터를 예측하는 형태의 모델들이 대부분임. Seq2Seq 모델은 RNN 계열의 모델인 LSTM 또는 GRU를 기본 유닛으로 함.

-

범용 언어모델(사전학습 언어모델)의 등장은 자연어처리 분야에서의 획기적인 성공을 가능하게 함. 범용 지식에 대한 질의응답 벤치마크인 SQuAD 1.1의 경우 F1-Score 91.2가 사람이 낼 수 있는 성능이라 여겨졌는데, 2019년 4월 처음 딥러닝 기반 모델들이 이 성능을 넘어섬. 또한 일반 언어이해를 확인하는 9종의 태스크로 구성된 GLUE(General Language Understanding Evaluation) 벤치마크의 경우 87.1을 사람 성능이라 여겨졌는데, 이 또한 2019년 7월부터 딥러닝 기반 모델들이 이를 상회함.

(6)

<그림 4> 2023년 1월 GLUE 벤치마크 리더보드

-

이러한 언어모델 중 언어이해 모델로 주류를 구성하는 것은 트랜스포머 인코더 모델을 이용한 BERT 언어모델 계열임. 그림 4는 2023년 1월 초 GLUE 벤치마크 리더보드이며, 1~9위 모두 BERT 모델을 토대로 하였으며 모델 구조를 발전시키고 학습 데이터의 양을 늘려 학습한 모델들임. DeBERTa 모델은 절대위치 임베딩을 하던 BERT 계열 모델을 개조하여, 상대위치 및 절대위치 임베딩을 결합한 기술을 활용한 어텐션1) 기반의 인코더 모델임.

-

트랜스포머 기반의 범용 언어 모델은 그림 3과 같이 크게 세 종류로 나뉠 수 있는데, 트랜스포머의 인코더 부분을 활용하는 언어이해 모델, 트랜스포머의 디코더 부분을 활용하는 언어 생성 모델 및 인코더와 디코더를 모두 활용 하는 하이브리드 모델임. 대표적인 인코더 기반의 언어이해 모델로 BERT가 있고, 대표적인 디코더 기반의 언어 생성 모델로 GPT가 있으며, 대표적인 하이브리드 모델로 T5가 있음.

언어모델의 무어의 법칙: 모델과 데이터 크기 증대를 통한 성능 향상

(초대형 언어모델)

언어모델의 성능 발전에 있어 모델의 크기(학습 파라미터 수) 증대와 학습 데이터의 양 증가를 기반으로 꾸준히 성능이 향상됨. 2020년 모델 크기 175 billion의 GPT-3는 우수한 작문 실력을 갖추도록 학습되었으며, 해당 모델 학습을 위해 필요한 GPU 자원은 상상을 초월함.

-

그림 5는 범용 언어모델(사전학습 언어모델)의 크기변화가 꾸준히 진행되어 온 것을 보이고 있음. GPT-3는 175B의 파라미터를 가진 초거대 언어모델의 시작이라 할 수 있음. GPT-3의 뛰어난 작문 실력으로 인공지능 언어 모델의 미래에 대한 다양한 해석이 회자 되었고, 이후 PanGU-α(200B), HyperClova(204B), Gohper(280B), MegatronLM(530B), PaLM(540B) 등의 초거대 언어모델이 등장하였음. 모델 크기뿐만 아니라 학습 토큰의 수

출처) https://gluebenchmark.com/leaderboard/

1) 어텐션(Attention) 연산은 단어를 벡터화한 임베딩 입력에 대해 단어 서로 간의 관계가 얼마나 중요한지 점수화 함.

(7)

-

그림 6은 2023년 1월 기준 SuperGLUE 벤치마크의 상위 순위를 나타냄. DeBERTa(1.5B)를 제외하고 대부분의 상위 순위 모델들 Vega V2(6B), T5(11B), MOE(32B), ERNIE 3.0(375B), PaLM(540B)은 초거대 모델임. Vega V2도 효과적인 모델 크기라고 주장하고 있으나, 학습으로 320개의 A100 GPU를 통하여 30일 동안 학습함.

<그림 5> 사전학습 언어 모델 크기의 무어의 법칙

출처) https://huggingface.co/blog/large-language-models

(학습 데이터 크기)도 꾸준히 증가하고 있음. 175B GPT-3를 학습하는 데 512개의 32GB-V100 GPU로 7개월이 필요할 뿐만 아니라, 추론을 위해서도 최소 96개의 32GB-V100 GPU가 필요하며, checkpoint 한번 저장에 1TB 저장 용량을 요구함. 추론 속도 또한 1분 이상이 소요됨.

<그림 6> SuperGLUE 벤치마크 (2023년 1월)

출처) https://super.gluebenchmark.com/leaderboard/

(8)

<그림 7> 언어 생성 모델 크기의 컨버즈

2) 퓨샷 러닝은 적은 데이터로 효율적으로 학습하는 방식임. 학습 데이터를 서포트셋, 추론 데이터를 쿼리셋이라 일컬음. 보통 카테고리 분류 형태의 학습으로 진행됨.

-

그림 7은 언어모델 크기가 어느 정도 컨버즈 되는 형태의 최근 모델 크기변화를 반영하고 있음. 특히 ChinChilla는 모델 크기는 70B이지만, 학습 토큰의 수를 1.5 Trillion으로 증대시켜 모델 크기가 1/4인 Gopher에 비해 언어이해 태스크에서도 향상된 성능을 확인. 다음 세대 언어 모델은 검색기능과 결합한 모델이 되어야 한다는 주장이 최근 Purdue의 Dangqui Chen 교수의 주장임.

-

그림 8은 비주얼-텍스트, 연산 등에서 인-컨텍스트 퓨샷 러닝으로 Visual QA가 가능한 Flamingo 모델의 Prompt 기반의 In-Context Few-Shot 러닝의 예시임. Flamingo는 이러한 모델 디자인을 위해 텍스트 기반으로 학습 시킨 70B Chinchilla 모델을 기반으로 하며, Visual-Text 데이터에 대해 학습시킨 80B Flamingo를 학습시킴.

이미지를 텍스트 기반의 어텐션이 가능하도록 연결 역할을 하는 Gated XAttention Dense 계층을 그림 9와 같이 구성함.

-

컨벌루션 네트워크의 인덕티브 바이어스를 컨텍스트를 기반으로 해결안을 제시하는 어텐션 연산을 기반으로 트랜 스포머 모델이 최근 꾸준히 조명받고 있음. 트랜스포머 모델은 자연어 처리 영역 분야뿐만 아니라, 비전 분야의 컨벌 루션 뉴럴 네트워크를 대체하며 비전 트랜스포머로 명명되며 높은 정확률의 성능을 보여주고 있음.

최신 언어모델 개발 동향

(글로벌 언어모델 동향)

최근 등장하는 모델들은 모델 크기의 증대 및 학습 데이터 크기가 어느 정도 컨버즈

되어가는 양상을 보임. 최근 Flamingo, Dalle등의 모델은 비전-언어 모델로 퓨샷 러닝

2)

으로 텍스트를

이미지로, 이미지를 텍스트로 해석이 가능함.

(9)

<그림 8> 인컨텍스트 퓨샷 러닝이 가능한 플라밍고의 프롬프트 기반의 추론 예시

출처) Jean-Baptist Alayrac el. al., “Flamingo: a Visual Language Model for Few-Shot Learning,” NIPS 2022.

<그림 9> 멀티모달 학습을 가능하도록 기학습된 언어모델 계층을 고정하고 이미지 입력에 대해 비전 인코더를 활용하여 Gated XAttention Dense계층을 입력으로 넣어 학습시키는 구조

출처) Jean-Baptist Alayrac el. al., “Flamingo: a Visual Language Model for Few-Shot Learning,” NIPS 2022.

(10)

(글로벌 언어모델 트렌드에 따른 국내 동향)

언어모델은 초거대 언어모델 개발 트렌드에 따라 막강한 자원을 소유한 글로벌 빅테크 기업들을 위주로 많은 발전이 이루어져왔음. 국내 빅테크 기업들 또한 한국어 기반 초거대 언어모델을 차례로 발표해왔으며 이에 그치지 않고 언어모델 기반 서비스 사용화를 위해 경량화, 최적화 기술 및 AI 윤리에 관한 관심과 노력을 기울이고 있음.

-

트랜스포머 기반 언어모델은 모델 크기와 학습 데이터양이 커질수록 성능이 더 좋아진다는 관측 결과에 따라 모델 파라미터 수를 증가시키고 학습 데이터를 더 수집하는 방향으로 발전이 이루어져옴. 이러한 추세에 따라 국외에서는 구글, 딥마인드, 마이크로소프트, OpenAI 등과 같은 빅테크 기업을 중심으로 초거대 언어모델이 경쟁적으로 발표 되어옴. 국내에서도 이에 발맞춰 한국어 기반의 초거대 언어모델로 네이버 하이퍼클로바, 카카오브레인 KoGPT, LG 엑사원 등이 공개됨.

-

최근에는 초거대 언어모델의 우수한 성능에 힘입어 언어모델기반 서비스가 상용화 단계로 나아가면서 모델의 성능은 유지하면서 소형기기에도 탑재가 가능하고 학습 시간과 비용을 절감할 수 있는 경량화와 최적화 기술들이 주목받고 있음. 특히 실제 서비스를 제공해야하는 기업들에서 관심도가 높아졌으며 최근 LG에서는 이러한 트렌드를 반영하여 경량화 및 최적화 기술을 적용한 개선된 버전의 엑사원 모델을 발표함. 네이버 또한 언어모델기반 서비스 적용을 위해 하이퍼클로바 모델의 압축 및 경량화 연구를 진행하고 있음을 밝혔으며 관련하여 양자화 기반의 학습 기법을 발표함.

-

초거대 언어모델을 기반으로 하는 서비스들이 실제 제공되기 시작하면서 언어모델이 생성해낸 답변의 윤리/편향 이슈가 대두됨. 언어모델을 학습할 때 사용되는 원시 데이터에 존재하는 편향성의해 발생되는 문제로, 딥마인드 에서는 인간 피드백을 반영한 재학습으로 신뢰성을 개선함. 국내 초거대 언어모델 개발에 관심을 기울이고 있는 네이버, 카카오, LG 등 에서도 AI 윤리 원칙을 발표하며 해결방안을 적극적으로 모색하고 있음.

-

과학기술 데이터 최고 책임기관인 KISTI는 과학기술 분야의 문서 분류, 개체명 인식, 질의응답 등의 문제 해결을 위한 한국어에 최적화된 사전학습 모델 KorSci-BERT(`20)와 KorSci-ELECTRA(`21)를 공개하였음. 다양한 전문용어가 담긴 과학기술 문서를 기계가 이해하기 쉽도록 과학기술 분야에 특화된 어절분리기를 개발하였고, 논문, 연구 과제, 보고서, 특허, 뉴스 데이터 등 약 150GB의 텍스트를 학습하였음. 과학기술 문서의 개체 추출, 개체 분류, 주제 분류 등 전이학습에서 타 파생모델 대비 좋은 성능을 보임. 또한 영어 문서의 처리에 강점이 있는 SciDeBERTa(’22)를 개발하였으며, 이 모델은 SciERC 데이터를 활용한 개체명 인식(Named Entity Recognition) 벤치마킹에서 세계 1위를 달성함. 본 모델들은 국내외 모든 연구자들이 이용할 수 있도록 AI 모델 커뮤니티인 깃헙(Github)과 허깅 페이스(Huggingface)에 공개하고 있음.

(11)

언어모델 활용 사례 3.

언어 처리 중심 사례

(다목적 챗봇) 자연어 생성모델을 기반으로 활발히 개발되기 시작한 챗봇은 간단한 질의응답 수준의 대화형 서비스 수준을 넘어서 수학문제 해결, 작문, 코딩, 번역, 교육 등의 서비스를 제공하는 다목적 도구로 활용될 수 있음을 보임.

-

사용자의 말을 이해하고 답변을 생성해내야하는 챗봇에서 자연어 생성모델은 언어를 이해하고 자연스러운 답변을 제공하기 위한 핵심 요소로 자리 잡음. OpenAI의 GPT-3, 구글의 미나, 페이스북의 블렌더봇과 같은 우수한 모델 들이 소개되어왔으며 뛰어난 언어 이해력과 문장력으로 기존 챗봇의 한계를 극복하며 실시간 대화 서비스 개발이 본격화됨.

-

최근 2022년 12월 OpenAI에서 공개한 챗봇 ChatGPT는 대표적 생성모델인 GPT-3를 개선한 GPT-3.5에 질의 응답 대화 데이터를 학습하여 개발되었으며, 모델이 생성한 문장을 사람이 평가한 후 재학습을 하여 최적화됨.

ChatGPT는 이전 대화를 기억함으로써 대화의 흐름을 파악하여 더 자연스러운 대화가 가능하며 일반적인 질의 응답뿐 아니라 코딩, 글 작성 등 복잡한 논리적 요소에 대한 이해 능력을 요구하는 대화가 가능함.

<그림 10> OpenAI의 ChatGPT 대화 사례.

출처) https://modulabs.co.kr/blog/chatgpt/

(12)

(스마트 비서/스피커)

애플의 스마트 비서 시리를 시작으로 하는 스마트 비서/스피커는 발화 의도를 이해 하기 위한 과정에서 자연어 이해에 우수한 성능을 보이는 언어모델을 활용함.

-

2011년 애플은 음성을 기반으로 질의응답을 수행하는 스마트 비서 시리를 아이폰에 탑재하여 출시하였으며 2014년 아마존에서는 음성인식 스피커에 스마트 비서를 적용한 스마트 스피커 에코를 출시함. 이 후 구글 홈, 애플 홈팟, SKT NUGU, 네이버 프렌즈, 카카오미니 등 다양한 제품이 등장하며 활발히 보급되기 시작됨.

-

스마트 비서/스피커는 사용자의 음성 인식, 자연어 이해, 다이얼로그 매니지먼트, 자연어 답변 생성, 음성 합성의 과정으로 동작함. 언어모델은 음성 인식과정에서 음향 모델의 오류 보정과 인식된 텍스트의 의도를 이해하는 과정에 주로 활용됨.

(기계번역)

기존 통계기반 방식이 주를 이루던 기계번역은 신경 번역모델을 적용함으로써 더 많은 언어쌍에 대한 번역 제공과 자연스러운 번역 품질을 제공함.

-

기존 구글 번역, 네이버 파파고와 같은 통계 기반 기계번역 서비스는 2016년 신경 번역모델을 도입함으로써 괄목 할만한 품질 개선을 보임. 신경 번역모델은 문장을 단어/구 단위로 개별적으로 번역하던 이전 방식과 달리 문장을 하나의 단위로 한 번에 번역함으로써 자연스러운 문장을 생성함. 또한 학습되지 않은 언어쌍에 대한 번역 지원을 가능하게 하는 전이학습의 일종인 제로샷 번역 기술을 적용함.

-

초기 신경 번역모델은 전체 문장을 한번만 압축하였지만 최근에는 중요한 핵심 단어에 더 가중치를 두는 어텐션을 적용함으로써 장문 번역 성능을 개선함.

응용 영역으로 활용 사례

(신약개발)

단백질 구조 예측에 있어 언어모델 활용은 많은 시간과 비용을 감소시키면서 실제 실험결과 수준의 성능을 달성하였으며, 단백질 구조 생성에도 활용되어 단백질 기반 신약 개발이 적극적으로 이루 어질 것으로 예측되고 있음.

-

단백질을 구성하는 20종의 아미노산을 문자로 간주하여 언어모델을 학습하고 단백질 구조를 예측해냄. 새로운 단백질 구조를 언어 생성모델이 문장을 만들어내듯 생성해낼 수 있었음.

-

딥마인드의 알파폴드1은 2018년 개최된 단백질구조 예측대회에서 혁식전인 성능 개선 결과를 보였으며 이어 발표한 개선 모델 알파폴드2는 2020년 실제 실험을 통한 예측과 유사한 수준의 성능 결과를 달성함.

-

2022년 7월 딥마인드는 알파폴드2로 예측한 단백질 구조 데이터베이스를 공개하였으며 인간 단백질 구조의 98.5%를 포함한 여러 유기체 단백질 구조에 대한 3D 예측 모델을 2억개에 이르게 제공함. 메타 또한 2022년 11월 언어모델을 기반으로 한 ESM-2로 예측한 6억개 수준의 단백질 구조를 공개함.

-

알파폴드1은 CNN을 기반으로 개발되었으며, 알파폴드2는 트랜스포머 구조와 어텐션을 도입하여 멀리 떨어진 곳의 정보 또한 함께 고려하며 더 정확하게 시퀀스들의 상관관계를 밝혀낼 수 있었음.

(13)

(로봇 제어)

언어모델을 기반으로 실시간으로 자연어 명령을 이해하며 인식된 명령에 따라 제어를 위한 코드를 스스로 작성하여 상호작용함으로써 범용 로봇제어를 가능하게 함.

-

구글은 2022년 11월 언어모델기반 로봇제어 기술인 CaP를 발표함. 로봇은 자연어 명령을 초거대 언어모델인 PaLM을 통해 분석하고 이해하며 이를 바탕으로 로봇동작을 제어하는 코드를 작성함.

-

사전에 몇 가지 예제 지침(주석 형식)과 코드 쌍이 주어지며 이를 바탕으로 새로운 명령 수행을 위해 API 호출을 재구성하고 새로운 기능을 합성하며 피드백 루프를 작성하여 새로운 동작을 해내는 코드를 실시간에 자동적으로 생성해냄.

<그림 11> 구글 미네르바의 수학 문제에 대한 답변 추론 예

출처) Aitor Lewkowycz et al. (2022)

(수학문제풀이)

언어모델의 추론 성능은 아직 인간 수준에 도달하지 못했지만 일부 수학 및 과학 영역에서 양적추론의 성공적인 결과를 보이며 자동화된 추론 시스템 개발의 발전 가능성을 보임.

-

2022년 6월 발표된 구글의 미네르바는 초거대 언어모델인 PaLM을 자연어와 수학 표기법을 모두 포함하는 118GB에 달하는 수학, 과학분야 데이터로 학습되어 질문을 분석하고 이해하여 단계별 추론을 통해 해답을 찾아가는 양적추론 해결에 특화됨. 각종 수학/과학 문제가 주어지면 이를 단순화하고 변수와 방정식을 설계하여 문제를 해결함.

-

미네르바는 성능평가 결과 중학교 문제에 대해 78.5%, 고등학교 문제에 대해 75%, 고등학교 심화 문제에 대해 50.3%, 대학/대학원 문제에 대해 30.8% 수준의 정답률을 보임.

(14)

<그림 12> 구글 CaP에 사전에 주어진 언어 커맨드와 대응하는 정책 코드(회색)와 이를 기반으로 새로운 커맨드(녹색)에 대해 런타임에 자동으로 재구성된 API 콜(하늘색)의 예.

출처) Jacky Liang et al. (2022)

(코드 작성)

언어모델기반 코드 작성은 간단한 코드 작성 및 자동완성도구 수준에서 최근 더 복잡한 문제 해결이 가능한 수준에 이르러 개발자 보조도구 및 프로그래밍 자동화에 활용될 수 있음을 보임.

-

자연어를 코드로 번역하는 대표적 코드 작성 모델로 2021년 OpenAI의 코덱스와 이를 개선한 2022년 깃허브의 코파일럿, 같은 해에 발표된 딥마인드의 알파코드 등이 있음. 코덱스와 코파일럿은 생성모델인 GPT-3를 기반으로 개발되었으며 알파코드는 인코더와 디코더의 트랜스포머를 기반으로 개발됨.

-

코드 작성 모델들은 앞서 작성한 코드의 문맥을 분석하여 이후 작성될 코드를 자동으로 생성하거나 주석으로 주어진 문장을 이해하여 코드를 생성하는 등의 기능을 제공함.

(인공지능 창작)

입력된 자연어 문장을 언어모델로 이해하여 이를 토대로 새로운 글, 그림, 영상을 창작 하는 생성모델들이 각 영역에서 활발히 발표되고 있음.

-

구글은 2022년 대화형 애플리케이션에 특화된 언어모델인 LaMDA를 사용한 글쓰기 도구인 워드크래프트를 선보임. 워드크래프트는 작성된 문장 뒤에 이어질 새로운 예비 문장 생성, 문장 스타일 변경, 대체 단어 제시 등의 편리한 기능을 제공함.

-

이미지 분야에서는 주어진 단어나 자연어 문장을 언어모델로 이해하여 이를 기반으로 이미지 생성모델이 전문가 수준의 이미지를 자동으로 생성해주는 DALL-E, 미드저니, 스테이블 디퓨전, NovelAI 등이 잇따라 발표되고 있으며 최근에는 미드저니를 활용한 그림이 미술대회에서 수상을 하면서 주목받은 바 있음.

-

2022년 공개된 영상생성모델인 구글의 이매진 비디오와 페나키는 마찬가지로 텍스트를 입력으로 받아 영상을 생성해냄.

(15)

<그림 13> OpenAI의 DALL·E 2가 사용자로부터의 텍스트를 입력받아 생성한 이미지.

출처) Aditya Ramesh et al. (2022)

<그림 14> 구글 페나키가 변화하는 텍스트 입력에 대해 일관성을 유지하는 하나의 연결된 영상을 생성한 결과.

출처) Ruben Villegas et al. (2022)

(16)

언어모델 개발 및 활용에 따른 시사점 4.

글로벌 초대형 자본에 의한 기술 독점화

초대형 언어모델의 개발은 Google, Microsoft, Baidu 등의 글로벌 초대형 회사에서 자체적으로 또는

이들이 지원하는 거대 자본을 바탕으로 개발되며 운영되고 있음. 현재까지 대부분의 언어모델들은 누구 라도 활용할 수 있도록 공개하고 있으며, 많은 AI 기업, 학교, 연구소에서는 이러한 언어모델들을 기반으로 각자의 R&D를 위한 원천 엔진으로 적용하고 있음. 하지만, 2020년에 마이크로소프트(Microsoft) 회사가 OpenAI의 GPT 시리즈 언어모델에 대한 라이선스 독점 계약을 하였으며, 최근 화두가 되고 있는 GPT 계열의 언어모델과 ChatGPT의 유료화를 강행하였음. 실제로 AI 서비스, 연구 등에 기반 기술이 되는 초대형 언어모델을 개발하기 위해서는 다수의 AI 전문 인력, 초거대 텍스트 데이터, 그리고 AI 모델을 학습하기 위한 슈퍼컴퓨터(HPC) 급의 하드웨어 인프라가 필요하기 때문에 거대 자본의 투입이 불가피함.

즉, 이를 감당할 수 있는 대기업의 자본에 의해서만 개발과 운영이 가능함을 의미하며, 점차 유료화 됨에 따라 자본의 흐름은 선점 기업들이 독차지 할 가능성이 높음.

국내에서도 네이버 하이퍼클로바, 카카오브레인 KoGPT, LG 엑사원 등을 중심으로 한국어에 알맞은 초대형 언어모델들을 개발하고 있음. 과거에는 한글을 사용하는 특이성이 차별성으로 인지되었으나, 현재의 글로벌 언어모델들은 대부분의 언어의 차이에서는 장벽이 존재하지 않는 것이 현실임(대부분의 언어를 이해하고 생성할 수 있음). 이는 한국어 정보에만 집중하는 한국형 언어모델들이 언어 이해/생성 우수성, 정보 경쟁력 측면에서 해외 선점 모델을 제압하지 못할 가능성이 농후함. 글로벌 거대기업의 주도에 대응하기 위한 국내 기업과 AI 연구진들이 함께 대안을 마련할 필요가 있음.

인간스러운 AI 등장에 따른 이슈

인공지능이 발전함에 따라 사람보다 많은 지식, 신속한 처리를 통한 정확한 예측, 정교한 제어가 가능해짐.

이제는 기술적인 측면이 아니라 윤리적인 측면에서 올바른 AI를 개발하기 위한 노력이 필요한 순간에 직면해 있음. 특히 언어모델은 사람들이 작성한 자연어를 활용하여 학습되고, 이를 개인화하기 위해서는 사용자의 개인정보가 필요하기 때문에 개인정보나 사생활 정보의 보호가 중요한 이슈로 떠오르고 있음.

또한 사람들이 작성한 문서에는 특정 개인, 집단의 편견이 포함되어 있어 확인되지 않은 사실에 대해 AI가

편견을 학습할 수 있음. 이는 성별, 연령, 장애, 지역, 인종, 종교, 국가 등 어떠한 특성에 따른 편향과 차별을

최소화하도록 개발해야함을 의미함.

(17)

2018년에 구글은 음성인식 서비스인 듀플렉스 플랫폼을 이용하여 미용실 예약을 시도함. 전화를 받은

미용실 직원은 본인과 통화하는 상대가 AI일 것이라는 의심을 전혀 하지 못함. GPT-3의 후속 모델인

GPT-4는 최초로 튜링테스트를 통과했다는 소식이 있음. (튜링테스트는 컴퓨터가 얼마나 자연스럽게

인간과 소통할 수 있는지를 확인하는 것으로, 아직까지 공식적으로 통과한 시스템은 없음.) 이처럼 너무나도

인간스러운 AI의 등장은 사람들의 의사소통에 개입하여 더욱 혼란스러운 세상을 초래할 수 있음. 이는

상기에 다룬 AI 윤리, 독점화 등과 맞물려 있으며, AI 기술 자체의 발전과 함께 AI를 윤리에 맞도록 알맞게

개발/활용하는지에 대해 판단할 수 있는 기술 개발 또한 불가피함을 시사함.

(18)

• (KeyNote Talk) Dangqui Chen, Building Language Models based on Retrieval, NIPS 2022 Workshop.

• Aditya Ramesh et al. (2022). “Hierarchical text-conditional image generation with clip latents”, arXiv preprint arXiv:2204.06125.

• Aitor Lewkowycz et al. (2022). “Solving Quantitative Reasoning Problems with Language Models”, arXiv preprint arXiv:2206.14858.

• Aslam Abbas (2019), “Chatbot 2019 Trends and Stats with Insider Reports”, Chatbots Life, 2019.02.

• Bergur Thormundsson (2022), “Revenues from the natural language proccessing(NLP) market worldwide from 2017 to 2025”, Statista.

• Bojanowski, Piotr, et al. “Enriching word vectors with subword information.” Transactions of the Association for Computational Linguistics 5 (2017): 135-146.

• Chesbrough, H. W. (2003). Open Innovation: The New Imperative for Creating and Profiting from Technology, Harvard Business School Press: Boston, MA.

• Cho, Kyunghyun, et al. “On the properties of neural machine translation: Encoder-decoder approaches.”

arXiv preprint arXiv:1409.1259 (2014).

• Devlin, Jacob, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

• European Commission (2019), “Ethics Guidelines for Trustworthy AI”, 2019.04.08.

• Gartner Research (2020), “Making Sense of the Chatbot and Conversational AI platform Market”, 2020.11.

• Jacky Liang et al. (2022). “Code as policies: Language model programs for embodied control”, arXiv preprint arXiv:2209.07753.

• Jean-Baptist Alayrac el. al., “Flamingo: a Visual Language Model for Few-Shot Learning,” NIPS 2022.

• Jordan Hoffmann et. al., “Training Compute-Optimal Large Language Model,” NIPS 2022.

• LG AI, ExaOne, https://www.lgresearch.ai, 2022.

• Markets and Markets (2022), “Global Natural Language Processing Market”, 2022.08.

• Mikolov, Tomá , et al. “Recurrent neural network based language model,” Eleventh annual conference of the international speech communication association. 2010.

• Mikolov, Tomas, et al. “Distributed representations of words and phrases and their compositionality.”

Advances in neural information processing systems. 2013.

• Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “GloVe:Global vectors for word representation.” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.

• Peters, Matthew E., et al. “Deep contextualized word representations.” arXiv preprint arXiv:1802.05365, 2018

• Qihuang Zong et. al.,“Toward Efficient Language Model Pretraining and Downstrea Adaptation via Self- Evolution:A Case Study on SuperGLUE,” arXiv:2212.01853v1, 2022.\

참고문헌

(19)

• Rajpurkar, Pranav, et al. “Squad: 100,000+ questions for machine comprehension of text.” arXiv preprint arXiv:1606.05250 (2016).

• Ruben Villegas et al. (2022). “Phenaki: Variable length video generation from open domain textual description”, arXiv preprint arXiv:2210.02399.

• Straits Research (2021). “Natural Language Processing Market: Information by Deployment”, 2021.

• Sundermeyer, Martin, Ralf Schlüter, and Hermann Ney. “LSTM neural networks for language modeling.”

Thirteenth annual conference of the international speech communication association. 2012.

• Wang, Alex, et al. “GLUE: A multi-task benchmark and analysis platform for natural language understanding.” arXiv preprint arXiv:1804.07461 (2018).

• Yoel Zeldes (2020), “GPT-3, a giant step for Deep Learning and NLP?”, KDnuggets.

• Zhu, F. and Iansiti, M. (2019). “Why Some Platforms Thrive and Others Don’t”, Harvard Business Review, Vol.97, No.1, pp.118-125.

• 관계부처 합동 (2019), 「인공지능 국가전략」, 2019.12.

• 네이버, 하이퍼클로바, https://naver-ai-now.kr/, 2022.

• 신용우·정준화 (2021), 「‘이루다’를 통해 살펴본 인공지능 활용의 쟁점과 과제」, 국회입법조사처, 이슈와 논점, 제1799호.

• 카카오브레인, KoGPT, https://github.com/kakaobrain/kogpt, 2022.

• 한국과학기술정보연구원 KISTI, 국가과학기술지식정보서비스 NTIS, https://www.ntis.go.kr/, 2022.

• 한국정보화진흥원 (2018). 「지역경제, 공유경제로 풀다」, Hot Issue Report 2018-1.

참고문헌

(20)

KISTI ISSUE BRIEF는 국가 과학기술 정보 분야 대표기관인 KISTI가 최근의 과학기술 정보 관련 현안·이슈를 발 행 일

발 행 인 편 집 위 원 발 행 처

I S S N

2023. 02. 28.

김재수

조민수, 최희석, 최장원, 정한민, 함재균, 이준영, 이상환, 곽영

34141 대전광역시 유성구 대학로 245 한국과학기술정보연구원 정책연구실 https://www.kisti.re.kr

2635-5728 제53호

저 자 김 은 희

KISTI 과학기술디지털융합본부 인공지능데이터연구단 선임연구원

T. 042-869-1613 E. ehkim@kisti.re.kr 이 민 호

KISTI 과학기술디지털융합본부 인공지능데이터연구단 책임연구원

T. 042-869-1023 E. cokeman@kisti.re.kr 정 유 나

KISTI 과학기술보안연구센터 선임연구원

T. 042-869-1026 E. jeongyuna@kisti.re.kr 황 명 권

KISTI 정책전략본부 정책연구센터 책임연구원

T. 042-869-1631 E. mgh@kisti.re.kr

Referensi

Dokumen terkait

안드로이드 상의 주요 Native 애플리케이션 1/2 삼성 갤럭시 S 내장된 기본 어플리케이션들설정/검색 기능 제외 아이콘 이름 기능 멀티미디어Type 최근 기록 최근 전화목록을 보여주는 서비스 Text 알람/시간 알람 및 시간, 스탑와치, 타이머 프로그램 Text 일정 Google에서 제공하는 일정관리 프로그램 Text

PART 2 • 사례 속 KISTI I LOVE KISTI 주요성과 국가 과학기술 큐레이션 체계 디지털 전략 수립 • 원내외 데이터 연계 및 공동활용을 위한 국가과학기술 데이터 거버넌스 프레임워크 개발 - 과학기술 데이터 관리 정책과 프로세스 정비 - 국가 과학기술 핵심정보에 대한 생산, 구축, 유통의 효율성 제고 방안 연구