텍스트 마이닝과 개념 관계망 분석 - 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ...

진, 정덕호, 조규성, 2013). 텍스트에 대한 이러한 관점은 학생들이 학습 해야 할 지식의 총체인 교과서에 대해서도 동일하게 적용될 수 있을 것이 다.

본 연구에서는 교과서에 포함된 생명과학 내용을 수많은 생물학 개념들 이 구성하는 일종의 지식 체계, 다시 말해 개념들이 이루는 네트워크로 보 고 그 네트워크가 나타내는 특징을 알아보고자 하였다. 이를 위하여 최근 다양한 분야에서 활용되고 있는 네트워크 분석 방법을 연구의 목적에 맞게 수정 보완하여 적용하였다.

교과서의 문장에 포함된 개념과 그 개념들 간의 관계를 분석한다는 면 에서 본 연구는 일종의 의미망 분석(Drieger, 2013) 또는 ‘언어네트워크 분석’(Popping, 2003) 연구에 해당한다. 개념 관계망(네트워크)에 대하 여 학자마다 다른 용어를 사용하고 있고, 그 분석 방법에 대한 명칭 또한 명확한 구분 없이 혼용되어 왔다(박치성, 정지원, 2013).

본 연구의 분석 대상은 교과서에 포함되고 있는 생물학 지식의 체계이 고, 지식을 구성하는 것은 용어나 단어의 기호(symbol) 자체가 아닌 개념 이다. 인간이 사용하는 단어는 인지 구조에 자리매김 된 개념의 표상으로 서 이러한 개념들이 서로 연결되어 의미가 형성된다. 따라서 본 연구에서 는 교과서에 나타난 지식의 체계를 ‘언어 네트워크’라는 용어 대신에 ‘개념 관계망’이라는 용어를 사용하였다.

개념 관계망 분석은 지식을 구성하는 개념들 사이의 연결 양상을 분석 하고, 이를 시각화함으로써 텍스트에 포함된 지식의 체계와 그 의미를 도 출하기 위한 연구 방법이다. 전통적인 내용분석이 텍스트에 포함된 개념의 빈도를 분석하는 데 초점이 맞추어져 있었다면, 관계망 분석은 개념의 빈 도뿐만 아니라 개념들 사이의 관계까지 분석함으로써 기존의 내용 분석 연 구가 지니는 한계를 넘어 텍스트에 대한 심도 있는 분석을 가능케 한다 (Carley, 1997).

Drieger(2013),

Leydesdorff, L. (2007), 그리고

Paranyushkin, D.

(2010) 등은 텍스트에 대한 시각적 분석 방법으로서 개념 관계망 분석의 방법과 과정을 정리하여 제시하고, 의미망 분석(semantic network analysis)을 통해 텍스트로부터 생성된 개념 관계망을 분석하여 그 구조 와 의미를 파악할 수 있음을 보여주었다. 이 연구에서 그는 의미망 분석은 양적 분석의 데이터를 얻기 위한 자동화된 관계망 분석과 의미망의 질적 측면을 밝히는 인간 중심의 의미 분석으로 나뉜다고 보았다.

자동화된 관계망 분석은 알고리즘을 사용하여 주어진 네트워크에 대한 지수를 계산함으로써 네트워크의 구조적 특징을 확인하고, 네트워크에 대 한 질적 분석을 도울 양적 측정값을 얻는 데 사용된다. 반면에 의미 분석 은 주로 대상 네트워크에 대한 질적 탐색이나 분석적 추론을 위한 네트워 크의 의미 구조에 대한 인간의 해석과 이해 과정에 기반 하여 이루어지며, 영역 특이적인 지식과 실제 세계에 대한 범용적 지식의 영향을 받는다 (Helbig, 2006).

인간은 대량의 데이터를 빠르고 정확하게 처리할 수 없고, 또 컴퓨터는 관계망의 실제적 의미를 탐색하거나 분석할 수 없기 때문에 이 두 과정은 구분될 필요가 있으며, 두 가지 분석 방법 모두가 의미망 분석에 있어 상 호 보완적인 기능을 한다(Drieger, 2013).

개념 관계망은 기본적으로 노드(node)와 연결(edge)로 구성된다. 사회 네트워크에서는 하나의 노드가 사람을 나타낸다면, 개념 관계망에서의 노 드는 개념을 나타낸다. 개념은 다른 개념들과의 관계에 의해 관계망에서 특정 위치를 점하게 되는데, 각각의 연결을 이루는 개념간의 의미론적 근 접도(proximity)에 따라 그 위치가 결정되며(Wilkins, 1971), 각 개념 이 네트워크 형성에서 기여하는 역할에 따라 전역적 혹은 지역적 중심성을 지닐 수 있다. 노드와 연결선으로 구성된 개념 관계망이 나타내는 네트워 크의 구조는 분석 대상에 포함된 여러 개념들이 모여 형성하는 의미를 반 영하게 된다(Paranyushkin, 2010).

텍스트로 부터 구성된 개념 관계망은 다시 연구자의 관심사나 필요에 따라 다시 하위 관계망(subgraph)으로 필터링 될 수 있다. 특정 개념을 중심으로 한 개념 관계망(ego network)과 같이 전체를 구성하는 일부분 의 관계망이나 서로 강하게 연결되어 군집(cluster, community)을 이루 는 개념군도 하나의 하위 관계망으로 볼 수 있다(Dreiger, 2013). 개념 관계망을 구성하는 주요 요소들과 그로부터 얻어질 수 있는 양적, 질적 속 성들을 <표

Ⅱ

-6>과 같이 요약될 수 있다.

요소 양적 지수 질적 의미

네트워크의 구조 밀도, 연결정도 분포,

지름 등 관계망의 기하(위상)적 특징,

개념 관계의 형세

개념(노드) 연결정도 개념이 다른 개념과 함께 쓰여 의미를

형성하는 정도. 지역적 중심성

중심개념(허브) 중심성

(연결정도, 사이중심성) 개념이 관계망의 의미 형성에 기여하 는 정도. 지역적, 전역적 중심성.

관계(연결) 연결의 강도,

개념 간 근접도

연결된 두 개념이 함께 쓰이는 정도, 관계의 강조 정도, 두 개념의 의미적

거리(근접도)

개념군(클러스터) 모듈성, 뭉침 계수 등 특정한 의미나 주제를 나타내는 강하

게 연결된 개념들의 집합

<표 Ⅱ-6> 개념 관계망 분석의 주요 요소와 의미

아래 절에서는 개념 관계망에 대한 네트워크 분석에 있어 고려해야 할 사항들과 각 중심 요소들에 대한 양적, 질적 분석의 의미를 정리하였다.

(1) 노드(node)

네트워크 분석은 내용분석과 마찬가지로 네트워크의 경계, 즉 분석의 범위와 단위를 설정하는 데서부터 시작된다. 텍스트를 대상으로 하는 네트 워크 분석은 일반적인 네트워크 분석과는 달리 명확한 범위의 텍스트가 주 어진다는 특징이 있는데 주어진 텍스트에 포함되어있는 수많은 개념을 어

떻게 노드로 전환시키는가, 그리고 어느 범위까지만 노드로 전환시킬 것인 가에 대한 결정이 이루어져야 한다. 이 과정은 주어진 텍스트에 나타난 모 든 개념을 노드로 사용하기 보다는 대개 연구주제와 목적에 따라 적합한 개념들만을 선택적으로 추출해 나가는 과정이다(박치성, 정지원, 2013).

분석에 사용할 노드를 선정하기 위해서는 먼저 텍스트에서 개념을 추출 하게 되는데 부가적인 어휘(stopwords, 조사, 부사, 대명사, 일반적 동 사, 형용사)들을 제외시키고 주로 명사나 명사구로 된 개념들만을 추출하 게 된다(Paranyushkin, 2011). 또한 명백하게 같은 의미를 표상하는 서로 다른 어휘들의 경우, 같은 개념으로서 코딩되어야 한다. 본 연구에서 는 교과서로 부터 얻어진 대량의 텍스트로부터 생물학 개념을 추출하기 위 하여 텍스트 마이닝에서 사용되는 자연어처리(NLP) 기술인 형태소 분석 기술을 이용하였다.

노드로 사용할 개념에 대한 1차적인 추출 후 확증적인(confirmatory) 접근과 탐색적인(exploratory) 접근 등 두 가지 방식을 통하여 실제 분석 에 사용할 개념(노드)을 최종 선정하게 된다(Carley, 1997; Carley &

Palmquist, 1992). 확증적인 접근은 기존의 이론에 따라 노드의 범위를 정하는 연역적인 접근법이다. 이 접근법은 연구주제에 대한 이론적 프레임 이 이미 존재하는 경우 그것을 사용하여 주요 개념(노드)을 정의해 주는 방식이다.

반면에 연역적 접근을 위한 적당한 이론적 프레임이 존재하지 않거나 연구의 목적이 탐색적인 성격이 큰 경우 연구자는 탐색적 접근을 통해 노 드의 경계를 결정할 수 있다. 탐색적 접근에서는 경험적인 방법에 따라 연 구자가 분석 대상 텍스트를 모두 읽거나 양적 내용 분석을 통해 어떤 개념 들을 노드로 포함할 것인가를 귀납적으로 결정하게 된다. 경험적인 방법에 의해 노드를 선택하는 경우는 다시 연구자의 주관적 판단에 의하여 노드를 정의하는 방법과 연구자의 주관을 최대한 배제하는 방법이 있을 수 있다.

탐색적 연구에서는 연구자의 주관을 최대한 배제하기 위해 전처리와 1차 추출을 통해 추출된 모든 노드(개념)를 네트워크 분석대상으로 삼을 수 도

있다. 이러한 접근법을 사용할 경우 연구자의 주관이 개입될 가능성이 최 소화되기 때문에 연구 결과의 신뢰성이 높아질 수 있다는 장점이 있다(박 치성, 정지원, 2013).

개념 관계망의 분석을 위한 노드(개념)의 선택 과정에서 어떤 방법이 가장 좋은 방법인지 정해진 공식이 존재하지는 않는다. 본 연구에서는 탐 색적 접근법에 따라 노드(개념)를 설정 하였고, 가능한 연구자의 주관을 배제 할 수 있도록 교과서에서 나타난 개념들을 최대한 포함하여 노드를 설정한 후 필요에 따라 빈도 등으로 노드의 범위를 줄여가는 가는 방법을 사용하였다.

네트워크 분석적 관점에서 노드는 해당 노드와 직접 연결된 노드의 수 를 나타내는 연결 정도(degree)를 양적 속성으로 갖는다. 노드는 개념을 나타내므로 한 개념에 연결된 개념의 수는 해당 개념이 네트워크에서 점하 는 위치와 함께 얼마나 다양한 개념들과 연결하여 의미를 형성하는 지에 대한 직관을 제공한다. 연결 정도가 높은 개념은 관계의 분화도가 높음을 암시할 뿐만 아니라 해당 개념이 의미망에서 지역적 허브의 역할을 하고 있음을 의미한다.

(2) 관계(edge)

텍스트로부터 얻어지는 개념 관계망은 같은 텍스트에 대하여 동일한 개 념들을 사용하더라도 관계를 어떻게 정의하느냐에 따라 두 노드가 연결될 수도 있고 분리될 수도 있기 때문에 최종적으로 전혀 다른 구조의 네트워 크가 도출될 수도 있다. 따라서 ‘관계’를 어떻게 정의 하고 측정할 것인가 는 개념 관계망 분석에서 매우 중요한 문제이다.

개념 관계망 분석에서 개념(node)들 간의 관계(edge), 즉 한 개념이 다른 개념과 연결된 정도는 두 개념이 의미적으로 얼마나 가까이 위치하는 가를 나타내는 근접성(proximity)을 조작적으로 정의함으로써 판단될 수 있다(Drieger, 2013; Moody, 1990; Paranyushkin, 2011).

여러 개념 관계망 분석 연구에서 공출현(co-occurrence)이라는 개념을

Dalam dokumen 저작자표시-비영리-변경금지 2.0 대한민국 이용자는 ... - S-Space (Halaman 37-50)