• Tidak ada hasil yang ditemukan

1) 개념 관계망 분석 프로그램

대량의 텍스트에 포함된 내용을 분석하여 개념 관계망을 생성하기 위해 서는 텍스트에 대한 자연어 처리를 통해 분석 대상으로부터 개념을 추출하 고, 개념들의 빈도와 관계에 대한 계산을 위한 컴퓨터 소프트웨어가 요구 된다. 이를 위하여 기존에 개발되어 사용되고 있는 텍스트 네트워크 분석 도구인 KrKwic(Park & Leydesdorff, 2004), NetworkX Python 패 키지 등의 활용 가능성을 검토한 결과 본 연구에서 연구의 목적에 따라 정 의한 고유도나 개념 간 근접도(proximity) 지수 등을 계산해 낼 수 없는 한계와 복합 명사와 동의어 처리 등에서 한계점이 확인되었다. 따라서 본 연구의 수행을 위해서는 연구의 목적에 맞도록 교과서의 문장을 개념 관계 망으로 생성하고, 분석 지수들을 계산할 수 있는 분석 소프트웨어의 개발 이 선행되어야만 했다.

교과서의 내용을 분석하기 위해서는 먼저 각 문장에 포함된 개념을 추 출한 후 추출된 개념들의 빈도와 그 관계에 대한 지수들을 계산하여야 한 다. 따라서 이를 위하여 문장으로부터 키워드를 추출하고, 추출된 키워드 를 정제하여 개념 목록을 만든 후 그 빈도와 관련 지수들을 계산할 수 있 는 소프트웨어인 개념관계분석 프로그램(Concept Relation Analyzer, CRA)을 개발하여 사용하였다(그림 Ⅲ-2).

개발된 프로그램이 문장으로부터 개념을 추출하는 기능을 구현하기 위 해 자연어 처리를 통한 형태소 분석과 키워드 추출 라이브러리인 KLT2000 (강승식, 2012)를 이용하였다. 프로그램의 개발에 사용된 프 로그래밍 언어는 C++이며, 개발 도구로 Embarcadero C++ Builder XE2를 사용하였다. 개발된 프로그램은 윈도우의 GUI 환경에서 작동하 며, 생물 교과서의 문장 데이터베이스와 연동된다. 이 프로그램은 분석 대 상 내용의 원문을 데이터베이스에 저장 및 관리하는 기능, 문장으로부터 키워드를 추출하고 개념 목록을 관리하는 기능, 개념의 빈도와 관계를 계 산하여 개념 관계망 데이터를 생성 하고 탐색하는 기능을 제공한다.

<그림 Ⅲ-2> 개념 관계망 분석 S/W (Concept Relation Analyzer)

2) 생물학 지식(교과서 문장)의 개념 관계망 데이터베이스

개발된 개념관계분석 프로그램과 연동될 수 있도록 교과서로부터 추출 된 문장(명제) 전체와 그에 대한 분석 결과를 데이터베이스로 구축하였다.

데이터베이스의 구축과 운용을 위하여 본 연구에서 요구된 배열(array)의 저장 및 검색 기능을 제공하는 Postgres SQL 서버를 RDBMS 소프트웨 어로 채택하였다. 데이터베이스는 교과서 문장의 원문, 형태소 분석 및 개 념 추출 결과, 각 문장에 포함된 개념의 목록과 빈도, 개념 간 관계의 분 석 결과 등을 효율적으로 저장하고 검색 할 수 있도록 설계하였다(그림 -3). 분석 대상 내용의 원문과 그 분석 결과를 개별의 파일이 아닌 데이 터베이스에 저장함으로써 분석 결과에 대한 원격에서의 접근과 실시간 업 데이트가 가능해지고, 정적인 내용의 분석뿐만 아니라 동적 데이터에 대한 실시간 분석도 가능해진다. 이러한 가능성은 향후 본 연구에서 얻어진 개 념 관계망, 주요 개념 목록 등의 결과물을 웹서비스 등의 형태로 교사와 학생 및 연구자들에게 실시간으로 제공하고 활용할 수 있게 함으로써 교 수·학습 자료와 연구의 도구로 활용될 수 있는 다양한 가능성을 열어준다.

<그림 Ⅲ-3> 생물 개념 관계망 데이터베이스의 ERD