• Tidak ada hasil yang ditemukan

문헌 간 상관행렬(Correlation matrix) 구현

상관분석(Correlation analysis)은 두 변수 사이의 관계를 측정 및 묘사 하기 위해 이용되는 통계적 기법(Gravetter et. al., 2009)으로 서열척도, 등 간척도, 비율척도 변수 간 관련성을 분석할 수 있다. 두 변수의 상관관계는 상관계수로 표현될 수 있는데, 증감의 방향이 같은 경우 양의 상관관계가 성립되고, 증감의 방향이 반대인 경우 음의 상관관계가 성립된다(고등직업 교육연구소, 2017). 상관계수의 종류로는 피어슨 상관계수, 스피어만 상관 계수, 켄달 상관계수가 있다. 피어슨 상관계수는 변수가 연속형 자료일 경 우, 스피어만 및 켄달 상관계수는 순위자료일 경우에 주로 사용된다. 텍스 트마이닝의 경우 단어의 출현빈도 및 거리에 따라 연속형 숫자로 구현되 므로 피어슨 상관관계를 활용하는 편이다. 상관계수는 크기에 따라 강한 상관, 약한 상관, 상관관계 없음으로 구분할 수 있고, 일반적으로 0.7를 초 과할 때는 매우 강한 상관, 0.3에서 0.7 사이일 때는 보통 상관, 그 이하는 약한 상관을 보인다고 간주한다.19) 만약 변수의 개수가 세 개 이상이면 상 관계수도 여러 개가 되므로 행렬 형태로 정리가 가능한데, 이를 상관행렬 이라 부른다. 텍스트마이닝에서의 상관행렬은 문서 간 단어들의 빈도를 기 반으로 단어가 얼마나 유사하게 발현되었는가를 보여준다(백영민, 2017:

182). 즉, 유사 단어가 발현된 정도가 클수록 문헌 간 상관관계가 높다고

할 수 있으며, 높은 상관성은 토픽모델링 적합성에도 긍정적인 영향을 줄 수 있음을 시사한다.

아래 도표는 출현단어 빈도에 따른 문헌 간 상관관계 분포를 히스토그 램으로 나타낸 것이다. 문헌 간 상관관계는 –0.04부터 0.83까지 광범위하 게 걸쳐 있다. 문헌의 스펙트럼이 넓은 것이다. 또한 상관관계가 작은 지점 의 빈도수가 높고 오른쪽으로 길게 늘어져 있는(Skewed to the right) 형

19) 사회과학 분야는 0.4 이상일 경우에도 ‘높은 상관’으로 간주

태를 띠고 있다.

최솟값 1사분위수 중위값 평균 3사분위수 최댓값

-0.044 0.045 0.152 0.199 0.309 0.828

<표 4-7> 분석대상 문헌의 상관관계 분포: 기초통계량

[그림 4-10] 분석대상 문헌의 상관관계 분포

분석대상 문헌의 상관행렬을 그림으로 구현한 결과는 [그림 4-11]과 같 다. 문헌 간 상관관계가 높을수록 진한 푸른색에 가깝고, 낮을수록 연한 푸 른색을 띠며 음의 상관관계일 경우 붉은 색이 되도록 조정하였다. 고재경 (2012; 2013a; 2013b), 김종호(2014), 박순애(2013), 박정규(2013), 윤수진 (2016), 이창우(2013), 정환도(2013; 2014), 최경구(2006), 황석규(2005)는 다 른 문헌과의 상관관계가 높은 것으로 보인다. 그러나 상관관계가 있다고

하여 모두 통계적으로 유의미하다고 할 수는 없다. 따라서 다음 그림에서 는 상관관계가 가장 높게 나타나는 문헌부터 순서대로 정렬하면서 통계적 으로 유의미하지 않을 경우에는 X자로 표기하고자 한다.

[그림 4-11] 상관행렬 구현 결과

수정된 상관행렬([그림 4-12])을 살펴보면 이창우(2013)부터 박정규 (2013)까지의 연구는 서로 상관관계가 높을 뿐만 아니라 통계적으로도 유의 미한 것으로 나타났다. 이정석(2016)의 경우 고령사회 환경복지를 생활환경 요인(물 사용량, 쓰레기 배출량, 이동성 변화, 거주양식 변화) 중심으로 분 석하였다는 점에서 경기도 생활환경복지 연구를 지속적으로 수행한 고재경 (2012; 2013a; 2013b)의 세 연구와 모두 연관이 있는 것으로 확인되었다.20)

[그림 4-12] 수정된 상관행렬 구현 결과

그 외 김동국(2008)은 사회복지 중심의 환경복지를 주장한 최경구

(1997), 홍개영(2005)와 강한 상관을 보이며, 류휘종(2006)은 지역 에너지정

책을 환경적 복지로 간주하였기 때문에 황석규(2005)와 상관관계를 보인 다. 김윤수(2013; 2014)의 경우 환경복지 관점에서 서울시 대기질 관리 방 안에 관한 연구를 수행하여 분석 범위가 매우 특정되어 있다. 따라서 타 문헌과의 상관계수가 높지는 않으나 연구자 자체적으로는 높은 것으로 드 러났다. 한편 추장민(2012)과 정회성(2012)의 연구는 그 공헌도에도 불구하 고21) 상관관계가 거의 존재하지 않거나 음의 상관관계를 보이기도 하였다.

20) 상관계수가 각각 0.36, 0.5, 0.45로 보통 상관에는 속함

21) 정회성, 추장민은 환경복지 개념 설정에 중요한 역할을 한 인물로, 타 연구(고재경, 2013a; 박순애, 2013; 김종호, 2014)의 공동연구진으로 참여해 왔음

이는 해당 문헌이 환경복지 개념 설정의 토대가 되는 연구이기는 하지만 직접적으로 연관이 있다고 보기에는 어려운 측면이 있기 때문인 것으로 보 인다.

정환도(2014) 정회성

(2012) 최경구

(1997) 최경구

(2006) 추장민

(2012) 홍개영

(2005) 황석규 (2005) 정환도(2014) 1** 0.01 0.29 0.55** 0.01 0.24 0.47**

정회성(2012) 0.01 1** -0.02 -0.02 -0.03 -0.02 0.02 최경구(1997) 0.29 -0.02 1** 0.31 -0.01 0.48** 0.26 최경구(2006) 0.55** -0.02 0.31 1** -0.01 0.2 0.24 추장민(2012) 0.01 -0.03 -0.01 -0.01 1** -0.04 0.07 홍개영(2005) 0.24 -0.02 0.48** 0.2 -0.04 1** 0.26 황석규(2005) 0.47** 0.02 0.26 0.24 0.07 0.26 1**

주: 상관행렬 전체는 [부록1] 참고

<표 4-8> 분석대상 문헌의 상관행렬 일부

지금까지는 문헌 간 상관관계를 상관행렬로 구현하여 관계를 점검해보 고자 하였다. 전체의 50%(12건)에 달하는 문헌은 강한 상관을 보일뿐만 아 니라 통계적으로도 유의미하였으며, 30%(7건) 가량은 특정문헌에 대한 상 관이 높음을 알 수 있었다. 한편 나머지 20%(4건)는 상관관계가 거의 존재 하지 않는 것으로 나타났다. 따라서 이후에는 주성분분석을 통해 분석대상 문헌을 몇 개의 주성분으로 축소하여 설명력을 제고하고자 한다.

Dokumen terkait