III. 말하기 평가의 채점자 영향 분석
1) 채점자 영향 분석의 설계
말하기 평가의 결과는 채점자가 수험자의 각 문항별 응답을 듣고, 채점 척도 를 바탕으로 부여한 점수를 가리키며, 본 연구에서는 평가 결과 자료 수집을 위해 채점자들에게 수험자들의 응답이 녹음된 음성 자료와 엑셀 파일로 된 점 수 기록표를 제공하였다.
평가 결과 자료의 수집은 연습 채점과 본 채점 과정에서 이루어졌다. 연습 채점은 ‘한국어 말하기 능력 시험’의 평가 문항과 채점 척도 및 채점 규칙에 대한 적응을 위하여 실시하였다. 연습 채점은 3명의 수험자가 응답한 12개의 음성 자료를 바탕으로 이루어졌다. 채점자들은 채점을 마친 후에 엑셀 파일에 점수를 입력하여 제출하였다. 연습 채점 결과, 채점자 간 내적 일관성 신뢰도 를 의미하는 Cronbach α가 .89로 우수한 수준으로 나타났으며, 이에 채점자들 간에 평가 도구에 대한 일관된 이해가 마련되었다고 판단하였다.
다음으로 본 채점에서 13명의 채점자는 무선적으로 배열한 12명의 수험자가 4개 문항에 대하여 응답한 48개의 음성 자료29)를 듣고, 점수 기록표에 평가 결과를 입력하여 제출하였다.
(2) 평가 결과 자료의 분석 설계
본 연구에서는 말하기 평가의 채점자 영향을 파악하기 위하여 평가 결과에 대한 CTT 분석과 IRT 분석을 실시하였다. 관찰 점수를 바탕으로 이루어지는 CTT 분석에서는 기술 통계 분석과 문항 양호도 분석, 신뢰도 분석, 배경변인 분석을 실시하였다. 다음으로 척도화된 점수를 사용하는 문항반응이론 분석에 서는 비교 가능한 측정값을 바탕으로 채점자 영향과 그 의미를 파악하고자 하 였다.
① 관찰 점수 기반 접근
채점자 영향의 파악을 위하여 먼저 관찰 점수를 기반으로 하는 고점검사이 론 분석을 실시하였다. 분석 자료는 채점자들은 12명의 수험자가 4개 평가 문 항에 응답한 것을 듣고 채점 척도를 바탕으로 점수를 부여한 것이다. CTT에 따른 분석은 기술 통계를 기본으로 평가 문항의 양호도와 채점 신뢰도, 배경 변인 분석으로 이루어졌다.
먼저 채점 자료의 기본적인 특성을 파악하기 위하여 기술 통계 분석을 실시 하였다. 기술 통계 분석은 관찰 점수의 평균과 표준 편차 및 최대·최솟값과 첨 도와 왜도를 확인하는 것으로 이루어졌다. 문항 양호도 분석은 수험자들이 응 시한 말하기 평가 문항의 품질에 관한 종합적인 정보를 확인하기 위하여 실시 하였다. ‘문항 양호도(item quality)’는 문항이 학습자의 능력을 적절하게 평가하 는가에 관한 정보로서, 본 연구에서는 수행 평가 특성에 따라 문항 곤란도와
29) 채점에 사용한 자료는 중·고급 한국어 학습자들이 ‘한국어 말하기 능력 시험’에서 응답 한 것을 녹음한 것이다. 수험자들은 약 20분간 말하기 평가에 응시하였으며, Windows(v. 10)에 내장된 ‘음성 녹음기’를 통해 녹음하였다. 녹음한 응답 자료는 음향적 인 최적화를 위하여 Goldwave(v5.70)로 편집한 후에 채점용 응답 자료로 제공하였다.
변별도를 살펴보았다.30) 다음으로 신뢰도 분석은 채점자들 간에 채점의 일관성 에 관한 정보인데, 이와 관련하여 관찰 점수의 분산과 관찰 점수에서 오차를 뺀 진 점수 분산의 비로 산출하는 크론바흐 알파(Cronbach α)를 확인하였다. 그리고 채점자 간 일치도를 알아보기 위하여 상관 계수를 확인하였다. 끝으로 분산 분석을 통해 관찰 점수에 나타난 수험자의 특성 및 채점자 경력, 전공, 외국어 능력, 평가 훈련 등에 따른 집단별 차이를 알아보았다(<표 Ⅲ-7> 참조).
분석 방법 측정 항목
기술 통계 총점, 평균, 표준편차, 최댓값, 최솟값, 첨도, 왜도 문항 양호도 문항 곤란도, 문항 변별도
신뢰도 채점자 간 신뢰도(점수 신뢰도), 상관 분석 배경 변인 수험자 모국어, 경력, 외국어 능력, 평가 교육 경험
<표 Ⅲ-7> 관찰 점수 기반 평가 결과 분석 방법
② 척도 점수 기반 접근
관찰 점수에 의한 CTT 분석은 접근이 간단하고 결과가 명료하다는 장점을 갖고 있으나, 점수가 모두 동일한 오차를 갖고 있는 것으로 가정하기 때문에 정확한 능력 추정을 할 수 없다는 한계를 갖고 있다. 이러한 관찰 점수 기반 접근의 한계를 극복하기 위하여 본 연구에서는 문항반응이론 분석을 통해 척 도 점수를 바탕으로 측정값의 객관화와 비교 가능성을 확보하고자 하였다.
IRT는 CTT에서 고려하지 않는 문항 양호도와 피험자 능력 수준과 같은 ‘잠
재적 특성(latent trait)’에 대하여 확률 모형으로 접근한다는 점에서 차별점을 갖고 있다. CTT에서는 각 문항이나 채점 영역의 특성을 고려하지 않는 관찰점 수와 총점을 바탕으로 접근을 하는 것과 달리 IRT에서는 총점을 학습자 능력 추정을 위한 정보로 취급하며, 학습자와 문항을 같은 척도 상에 위치하도록 하 여 비교 가능성을 확보할 수 있다는 장점을 갖고 있다(Thissen & Orlando,
30) 고전검사이론에서 문항 곤란도는 학습자가 각 문항에서 획득한 점수의 평균으로 산출 하며, 수치가 높을수록 쉬운 문항이다. 문항 변별도는 각 문항이 학습자의 능력 수준을 잘 구별해 주는 기능을 갖고 있는가에 관한 정보이며, 고전검사이론에서는 문항별 점수 와 총점의 상관을 통해 산출한다. 추측도는 학습자의 능력과 무관하게 점수를 획득할 수 있는 확률에 대한 것이며, 선택형 문항에서 능력과 무관한 점수를 획득할 확률을 알아보 는 것으로, 본 연구에서는 수행 평가를 기반으로 하기 때문에 다루지 않았다.
2001). IRT는 문항 양호도 모수 숫자에 따라 1~3모수 모형으로 나눌 수 있으 며, 각각의 모형들은 각 검사별로 적합성을 따져서 적용해야 한다(곤란도를 기 준으로 하는 1모수 모형, 곤란도와 변별도를 함께 고려하는 2모수 모형, 추측 도까지 고려하는 3모수 모형). 초기 IRT 모형은 정오 판단이 분명한 이분반응 모형으로 적용되었으나, 주관식 문항에서 부분 점수를 부여하는 것과 관련된 다분 문항반응이론(polytomous IRT)이 개발되면서 이론 적용의 폭을 확장하게 되었다.
본 연구에서는 IRT에서 곤란도 모수를 중심으로 하는 1모수 라쉬모형을 바 탕으로 채점자의 채점자 영향을 분석하였다. 라쉬모형은 변별도 모수를 1로 고 정한다는 특징을 갖고 있는데, IRT 모형 가운데 산출 결과의 명료성을 장점으 로 한다. 2모수 모형이나 3모수 모형을 고려하지 않은 까닭은 본 연구의 목적 이 채점자의 채점자 영향에 관한 것이며, 수험자에게 민감한 변별도 정보와 달 리 채점자의 채점자 영향에는 과제의 곤란도가 미치는 영향이 절대적이기 때 문이다. 또한 3모수 모형은 객관식 문항에 대한 접근에 유효한 추측도 정보를 고려하고 있으므로, 본 연구에서는 채점자 영향 분석을 위하여 라쉬분석모형 가운데 채점 과정에 관여하는 과제, 평가 준거 등의 국면을 고려하는 MFRM 을 선택하였다.
MFRM은 채점자 영향으로 인한 영향이 수행 판정에 미치는 영향을 알아보 고, 공정하고 타당한 측정 결과 제공 및 해석을 목표로 하며, 관찰 점수로부터 보다 정확하고 적합하며 통계적 한계로부터 자유로운 객관적 측정을 지향한다 (Linacre, 1994: iii). MFRM 모형에서 고려하는 ‘국면(Facets)’이란 평가에서 판 정 상황과 관련이 있는 채점자, 문항, 과제, 수험자 등의 다양한 측면을 가리키 며, 평가의 목적에 따른 정확하고 유용한 판정 결과를 얻기 위하여서 여러 국 면에 대한 반응으로부터 구별하여 수험자의 능력 추정이 이루어져야 한다 (Linacre, 1989: 20). Facets 프로그램(Linacre, 2019)은 이상의 관점을 바탕으로
MFRM 모형을 적용하여 수험자의 능력 수준, 문항의 곤란도, 채점자의 엄격
성, 채점 척도 구조 등의 평가 결과 산출에 직접적으로 관여하는 요소들에 대 한 추정치를 확인하고, 채점자 효과에 대한 객관적인 접근을 가능하게 한다.
Facets을 활용하여 언어 능력 평가에서 채점자 영향을 구체적으로 분석한 미포
드와 울프(Myford & Wolfe, 2003, 2004)는 Facets에서 추정하는 채점자 영향으
로 채점 경향(rater severity/leniency), 집중 경향(central tendency), 무작위성
(randomness), 후광성(halo), 차별적인 채점자 엄격성/관대성(differentiate
severity/leniency)을 언급하면서, 각 영역에서 얻을 수 있는 채점자 영향에 관한
구체적인 정보를 제시하였다. 본 연구에서는 Facets 분석 결과를 따라 채점자 영향을 집단 특성과 개인 특성으로 구분하고, 엄격하거나 관대한 채점을 하는 채점 경향성과, 집중 경향성과 무작위성, 후광성, 편향성 등을 살펴본다 (<표
Ⅲ-8> 참조).31)
분석 대상 채점 경향성 집중 경향성 무작위성 후광성 상호작용
편향성
검증 방법
집 단
채점 척도 사 용 빈도, 고정 된 카이제곱 검정, 채점자 분리비( 분리 신뢰도)
채점 척도 사 용 빈도, 고정 된 카이제곱 검정, 채점자 분리비( 분리 신뢰도)
고정된 카이 제곱검정, 채 점자 분리비 (분리 신뢰도)
고정된 카이 제곱검정, 채 점자 분리비 (분리 신뢰도)
-
개 인
채점자별 엄 격성 분포 및 측정값, 능력 특성 척도별 빈도,
특성 범주별 채점 빈도, 채점 적합도, 채점 척도,
채점 적합도, 채점자 간 신 뢰도
채점자×평가 준거의 편향- 상호작용 분 석
채점자×과제×
준거에 따른 편향-상호작 용 분석
<표 Ⅲ-8> 문항반응이론을 통한 채점자 영향 분석 체제
<표 Ⅲ-8>은 Facets 분석을 통해 채점자 집단 및 채점자 개인의 영향을 파악
하여 검증할 수 있는 채점자 영향의 유형과 분석을 위한 측정값을 정리한 것 이다. 먼저 전반적인 채점 경향의 차이의 검증은 카이제곱 값과 자유도 및 유 의도, 채점자 집단의 분리비(separation ratio)와 분리지수의 신뢰도로 이루어지 며, 채점자 내 신뢰도와 채점자 간 신뢰도에 관련된 평정 일치도(exact agreements)와 기대 일치도(expected agreements)에 관한 정보도 이용할 수 있다. 집중 경향은 채점자들이 척도의 특정 점수를 집중적으로 사용하는 경향으로, 주로는 중앙값 주변으로 채점 범주를 제한하는 것을 말한다. 집중 경향성은 채
31) 차별적인 엄격성에 관한 분석은 피험자의 집단에 따른 채점의 영향을 고려하려는 것이 며, 본 연구에서는 채점자의 채점자 영향 연구에 초점을 두고 있기 때문에, 피험자 특성 의 영향을 고려하는 차별성 변수는 결과로 제시하지 않기로 하였다.