2) 주요 개념의 선정 방법
분석 대상 교과서에서 추출하여 정제화 작업을 수행한 생명과학 영역의 문장들을 개발된 개념관계분석 프로그램(Concept Relation Analyzer) 에 입력하여 교과서 전체에서 생물학 지식의 구성에 사용된 개념 총 5,073개를 먼저 추출하였다. 일반적으로 개념의 선정은 연구 문제에 부합 하는 단어를 연구자가 임의로 정하기도 하고, 일정 기준 이상의 빈도를 나 타내는 단어를 발췌하여 정하기도 한다. 본 연구에서는 탐색적 연구의 목 적에 맞게 탐색적 접근법(Carley, 1997; Carley & Palmquist, 1992) 에 따라 노드(개념)를 설정 하였고, 가능한 연구자의 주관을 배제 할 수 있도록 교과서에서 나타난 개념들을 최대한 포함하여 노드를 설정한 후 필 요에 따라 빈도 등으로 노드의 범위를 줄여가는 가는 방법을 사용하였다.
개념 관계망 분석 방법에서는 분석 대상 텍스트의 범위를 어떻게 설정 하느냐에 따라 해당 텍스트에서 의미를 구성하는 개념들의 지위와 역할이 달라질 수 있다. 본 연구를 위하여 생물학 지식을 구성하는 주요 개념을 선정할 때도 이 점이 주요 개념을 섣불리 확정할 수 없게 하였다. 단순히 교육과정 전체 텍스트를 범위로 하여서 빈도가 높거나, 중심성이 높은 개 념을 주요 개념으로 선정하거나, k-core 알고리즘 등을 기계적으로 적용 해서는 상급 학년으로 가면서 새로이 추가되어 전체적인 의미 형성과 분화 된 지식을 나타내는 개념들이 주요 개념으로 추출되지 않는 문제점이 확인 되었다. 또 박별나 등(2010)의 연구에서 주요 노드의 선정에 사용한 k-core 알고리즘의 경우 가중치가 없는 네트워크(binary network)의 필 터링에 사용되는 알고리즘으로 관계의 강도는 고려하지 않고 관계의 유무 만으로 주요 개념을 필터링한다. 따라서 k-core 알고리즘을 본 연구에서 연결선에 가중치를 부여하여 생성한(weighted network) 개념 관계망에 사용하기에는 적합하지 않았다.
따라서 본 연구에서는 의미망 분석을 위한 생물학 주요 개념을 추출하 기 위하여 전체 교육과정의 텍스트를 하나의 범위로 하여 분석한 결과만으
로 주요 개념을 선정하는 대신에 학교급별, 영역별로 분석 범위를 나누어 분석하고 각각에 대한 네트워크 분석 후 각 관계망에 포함된 개념 중 빈 도, 연결정도, 사이중심성이 상위 3%에 해당하는 개념을 추출하여 최종적 으로 주요 개념을 확정하는 전략을 취하였다. 이때 상위 3%의 기준은 연 구자가 선정 기준을 100%, 상위 20%, 상위 10%, 상위 3% 등으로 줄 여 가며 분석한 결과가 동일한 양상을 나타내었기 때문에 분석의 효율성을 위하여 상위 3%의 기준을 사용하였다.
3) 개념 관계망의 생성
최종 선정된 주요 개념들만을 노드로 하고, 개념관계분석 프로그램을 사용하여 분석 대상에서 주요 개념이 분석 단위인 한 문장(명제)에서 함께 쓰이는 빈도를 계산하고 개념×개념의 일원(1-mode) 행렬을 생성하였다.
다음으로 개념들의 공출현(co-occurrence) 행렬 외에 추가로 각 개념이 지니는 추가적인 속성(고유도, 출현 학교급, 출현 영역 등)을 포함한 그래 프 데이터를 XML 형식의 GEXF 그래프 데이터(그림 Ⅲ-4) 파일로 생성 하였다. 이 데이터는 <그림 Ⅲ-5>와 같이 Gephi v0.9.1 프로그램을 이용 하여 군집 분석 등의 추가적인 네트워크 분석과 시각화가 가능하다. 또 Gephi의 경우 그래프 데이터를 파일뿐만 아니라 구축된 개념 관계망 데 이터베이스에서 직접 입력 받을 수 있기 때문에 실시간으로 다양한 조합의 분석이 용이하게 이루어질 수 있다.
<그림 Ⅲ-4> Concept Relation Analyzer를 통해 생성된 GEXF 그래프 데이터
Ÿ 식물이 빛을 이용하여 양분을 스스로 만드는 과정을 광합성이라고 한다.
Ÿ 엽록체 : 식물 세포에만 있는 세포 소기관으로, 광합성이 일어나 포도당과 같은 유기물을 합성한다.
Ÿ 탄수화물은 주로 이산화탄소와 물로부터 식물의 광합성에 의해 만들어진다.
Ÿ 식물이 호흡할 때는 광합성할 때와 반대로 산소를 흡수하고 이산화 탄소를 방출한다.
Ÿ 식물과 동물은 세포 호흡을 통해 양분을 분해하여 양분 속에 저장되어 있는 에너지를 얻는다.
⇩
CRA
Ÿ 문장 분석 Ÿ 개념 추출 Ÿ 개념 관계 분석 Ÿ 관계망 데이터 생성
개념 빈도 연결정도 사이
중심성 고유도 ...
광합성 4 13 0.51 0.014
식물 4 11 0.27 0.007
양분 2 6 0.09 0.012
이산화탄소 2 6 0.01 0.008
식물 세포 1 5 0.00 0.009
엽록체 1 5 0.00 0.008
유기물 1 5 0.00 0.007
.
. .
. .
. .
. .
.
개념 간 관계 연결의
빈도 연결의
고유도
광합성 – 식물 3 0.42
식물 – 이산화탄소 2 0.41
광합성 – 이산화탄소 2 0.31
식물 – 양분 2 0.28
이산화탄소 – 호흡 1 0.64
산소 – 호흡 1 0.61
식물 – 호흡 1 0.58
.
. .
. .
.
⇩
Gephi
Ÿ 네트워크 분석 Ÿ 관계망 시각화
⇩
<그림 Ⅲ-5> Concept Relation Analyzer와 Gephi를 이용한 개념 관계망의 시각화
4) 개념 관계망 분석
개념 관계망의 분석을 위하여 개념관계분석 프로그램을 통해 생성된 관 계망 데이터를 Gephi 0.9.1 프로그램(Bastian, Heymann, &
Jacomy, 2009)을 이용하여 시각화하고(그림 Ⅲ-4), 관계망의 구조적 특 징을 파악하기 위하여 네트워크의 기본 정보, 중심성 지표, 그리고 군집 분석을 통한 하위 네트워크 분석 결과를 얻었다. 네트워크의 기본 정보로 는 네트워크의 노드(개념) 수, 연결의 수, 밀도(density), 지름 (diameter)을 구하였고, 개념의 중심성을 나타내는 지표로는 연결정도와 사이중심성을 구하였다. 시각화된 개념 관계망에서 결점의 크기는 개념 별 연결정도, 그리고 연결선의 굵기는 개념들이 동시에 출현한 빈도(weight) 에 비례하도록 표시하였다. 본 연구에서 개념 관계망의 분석을 위해 사용 한 분석 지수와 지수가 나타내는 의미는 다음과 같다.
▪ 개념의 수와 연결의 수
개념 관계망에 포함된 개념(노드)의 수는 해당 내용에 포함된 개념의 다양성을 나타낸다. 예를 들어 <그림 Ⅲ-5>의 개념 관계망에는 17개의 개 념이 포함되고 있다. 본 연구에서는 개념의 수가 학생들이 학습해야 할 학 습량을 나타내는 지표로 보았고, 학교급에 따른 학습량의 증가를 알아보기 위해 상급 학교에서 처음으로 다루어지는 개념의 수인 ‘신규 학습 개념 수’
의 증감을 조사하였다. 연결의 수는 관계망에 포함된 개념들 사이에 형성 된 관계의 수를 나타내며 한 관계망은 최대 개념 수 x (개념 수-1) 개의 연결을 가질 수 있다.
▪ 네트워크의 밀도
밀도(density)는 네트워크에서 노드 간의 전반적인 연결정도를 나타내 는 지표로, 연결 가능한 모든 관계에서 실제로 맺어진 관계 수의 비율로 정의된다. 따라서 개념 관계망의 밀도는 개념들 사이의 관계가 얼마나 복 잡하게 얽혀 있는지를 나타낸다. 밀도가 낮은 개념 관계망은 개념들 사이
의 관계가 복잡하지 않으므로 내용이 분산된 정도가 크다고 볼 수 있고, 반대로 밀도가 높아 촘촘한 관계망은 특정 주제에 집중된 개념들이 서로서 로 밀착되어 있다고 해석할 수 있을 것이다. 단, 밀도는 관계망에 포함된 개념의 수에 영향을 받게 되기 때문에 관계망의 밀도를 비교할 때에는 관 계망의 규모 차이로 인한 효과인지를 고려하여 그 차이를 해석할 필요가 있다.
E: 네트워크의 총 연결의 수 gk: k에서의 연결 정도
▪ 네트워크의 지름
네트워크의 지름(diameter)은 네트워크 내에 임의의 두 노드간의 최단 경로 거리 중 가장 긴 거리를 나타내는데, 일반적으로 네트워크의 밀도가 높으면 지름은 작아지는 경향이 있다.
▪ 개념의 연결정도
개념 관계망은 개념과 개념들 사이의 연결선으로 이루어진다. 이때 관 계망에서 각 개념이 몇 개의 개념과 연결되고 있는가를 나타내는 절대적인 지표가 연결정도이다. 연결정도가 높은 개념은 특정 주제를 이끄는 주요 개념으로 볼 수 있다. 각 노드의 연결정도를 0과 1사이의 값으로 표준화 한 값을 연결정도 중심성이라고 한다. 본 연구에서는 각 개념이 몇 개의 개념들과 연결되고 있는지 그 절대적인 크기를 파악하기 위하여 연결중심 성 대신 연결정도를 분석 지수로 사용하였고, 개념 관계망의 시각화에서 노드의 크기를 연결정도에 비례하도록 시각화 하였다. 그리고 평균 연결정 도는 한 네트워크에 포함된 모든 노드의 연결정도를 합한 후 이를 노드의 수로 나눈 평균값으로 한 개념이 평균적으로 몇 개의 개념과 연결되는지를 나타내는 지수이다.
▪ 개념의 사이중심성
사이중심성은 한 개념이 다른 개념들 사이의 연결을 중개하는 역할을 얼마나 수행 하는지를 나타내는 지수로, 개념 관계망에서 사이중심성이 높 은 개념은 서로 다른 개념군을 연결하는 역할이 큰 개념으로 볼 수 있다.
한 네트워크에서 특정 개념의 사이중심성은 아래와 같이 정의된다 (Freeman, 1977).
gjk: 두 노드 j와 k간에 존재하는 최단 거리의 경우의 수
gjk(i): 두 노드 j와 k(j<->k)사이에 존재하는 점i를 경유하는 횟수 g: 네트워크에 참여하는 노드 수
▪ 개념의 고유도 및 개념 간 관계의 고유도
일반적으로 사용하는 네트워크 분석의 지표와 함께 어떤 개념(또는 개 념 간 관계)이 특정 학교급에서 집중적으로 다루어지는 정도를 나타내는 지표인 고유도 지수를 아래와 같이 정의하고 이를 분석 지표로 사용하였 다.
Sk(i): k교과서에서 개념 i(또는 관계 i)의 고유도(0~1), fik: 개념 i(또는 관계 i)가 k교과서에서 나타나는 빈도,
fi : 교육과정 전체 교과서에서 개념 i(또는 관계 i)가 나타난 빈도.
▪ 개념 간 관계의 연결 가중치
연결의 가중치는 어떤 두 개념 사이의 관계가 출현한 빈도(weight,
)이다. 평균 연결 가중치는 한 개념 관계망에 포함된 모든 연결의 가 중치를 더한 값을 연결의 수로 나눈 평균값이다. 평균 연결 가중치 해당 관계망을 구성하는 관계들이 반복되는 정도, 즉 강조되는 정도를 나타낸 다.