• Tidak ada hasil yang ditemukan

계층적 군집분석을 통한 문헌 간 군집화

지금부터는 주어진 주성분점수를 바탕으로 계층적 군집분석을 실시하 여 문헌을 군집화 하도록 하겠다. 군집분석은 자료의 내부구조에 대한 사 전정보 없이 의미 있는 구조를 찾아낼 수 있으며, 유사성(거리)만 정의되면 모든 종류의 자료에 적용할 수 있다는 장점이 있다(권세혁, 2008). 따라서 비정형데이터 간 상관관계 및 거리를 측정하여 몇 개의 공통그룹으로 구분 하는 텍스트마이닝에 군집분석이 활용되는 것은 당연한 일이라고 할 수 있 다. 특히 단어가 모여 토픽이 되고, 토픽이 모여 문서를 이룬다는 토픽모델 링의 주요 전제는 군집분석 중에서도 계층적 군집분석과 맥락을 같이 한다.

출처: R분석과 프로그래밍(http://rfriend.tistory.com)

[그림 4-20] 군집분석 분류 체계

계층적 군집분석은 개별 대상 간 거리에 의하여 가장 가까이에 있는 대상부터 결합하여 나무모양의 계층구조를 형성하는 방법으로, 한 군집이

다른 군집의 내부에 포함되지만 군집 간 중복을 허용하지 않는다는 특징 이 있다(송정호, 2016; 박수완 외, 2009). 계층적 군집화 방법으로는 상향식 (bottom up)의 응집형(agglomerative)과 하향식(top down)의 분리형

(divisive)이 있는데, 텍스트마이닝에서의 계층적 군집방법은 하나의 문헌

으로부터 유사한 문헌을 하나의 군집으로 묶어 모든 문서가 포함될 때까 지 반복하는 상향식 기법이 보다 적합하다고 할 수 있다. 응집형 방식에서 자주 활용되는 군집화 기법에는 왈드(ward) 연결법, 단일(single) 연결법, 완전(complete) 연결법, 평균(average) 연결법, 중심화(centroid) 연결법이 있다. 분석대상 문헌의 상관분포가 넓은 것을 고려할 때, 이상치에 민감하 게 반응하지 않으면서 적은 수의 군집으로 분류가 가능한 왈드 연결법이 적절할 것으로 보인다.

종류 두 군집 사이의 거리 정의

단일 연결법 한 군집의 점과 다른 군집의 점 사이의 가장 짧은 거리 (shortest distance)

완전 연결법 한 군집의 점과 다른 군집의 점 사이의 가장 긴 거리 (longest distance)

평균 연결법 한 군집의 점과 다른 군집의 점 사이의 평균 거리 중심화 연결법 두 군집의 centroids(변수 평균의 벡터) 사이의 거리

왈드 연결법 모든 변수들에 대하여 두 군집의 ANOVA sum of square를 더한 값

출처: RPubs.

<표 4-13> 군집화 기법별 거리 정의

한편 군집분석은 가중치와 거리를 어떻게 정의하는가에 따라 군집화 결과에 차이가 발생하고 군집이 분류된다고 할지라도 의미하는 바를 명확 하게 제시하기 어렵다는 단점이 있다(허명회, 2013; 권세혁, 2008; 김재희,

2011). 연구자의 주관적 개입을 피할 수 없고 판단 근거가 설득가능한 수

준인지 계량적으로 확인할 방법이 없기 때문에 탐색적 도구로 군집분석만 을 활용하는 것은 한계가 있다. 때문에 본 연구는 주성분분석에서 도출한 주성분점수 행렬을 토대로 계층적 군집분석(Hierarchical Clustering)을 수행

하여 문헌 간 계층구조를 파악하고자 한다. 주성분점수 행렬을 활용할 경우 이미 자료를 한 차례 분류한 상태이기 때문에 거리 계산부터 수행하면 된 다. 거리 추정에는 유클리디언(euclidean)을, 분석기법은 왈드(ward)를 활용 하였다.

본격적으로 군집분석을 수행하기 전에 문헌 간 계층구조 및 응집도를 확인함으로 주성분점수 행렬이 데이터로서 적절한지를 알아보고자 한다.

문헌 간 계층구조는 문헌 간 거리를 바탕으로 히스토그램으로 보여주고자 하며, 군집트리의 응집도는 응집 계수(agglomerative coefficient)를 통해 확인하고자 한다. [그림 4-21]을 보면 두 문헌을 사이에 두고 붉은 막대가 위에서 아래로 늘어서 있다. 이는 두 문헌 간 거리를 나타낸 것으로, 막대 의 길이가 길수록 거리가 가깝다고 할 수 있다. 가장 가까운 거리를 갖는 문헌은 김동국(2008)과 홍개영(2005) 그리고 이창우(2013)과 정환도(2014) 이고, 가장 먼 거리를 갖는 문헌은 최경구(2006)와 고재경(2012)이다. 군집 트리의 응집계수는 0.76으로 문헌 간 응집도가 높다고 볼 수 있다. 이는 자 료가 주성분분석에 의해 분류되어 독립성과 정규성이 보장되었기 때문인 것으로 추정된다.

[그림 4-21] 문헌 간 계층구조 및 응집도

[그림 4-22]는 주성분점수를 바탕으로 분석대상 문헌을 군집화한 결과 이다. 덴드로그램은 관측치의 군집화를 통해 형성된 그룹 및 이들 간 유사 성 수준을 표시하는 트리 다이어그램으로, 덴드로그램을 사용하면 각 단계 에서 군집이 어떻게 형성되는지 확인이 가능하며 형성된 군집의 유사성

(또는 거리) 수준을 평가할 수 있다.26) 군집 개수를 결정하기 위한 실루엣

적합 결과 적정 클러스터 개수는 5개로 도출되었다.

[그림 4-22] 덴드로그램 구현 결과(Ward.D)

분석 결과 제1군집은 제1주성분과 유사한 분포를 보인다. 해당 문헌들 은 환경복지 개념 및 구성요소를 설정하고, 환경복지가 관장해야 할 다양 한 영역을 제시한 연구들이다. 박순애(2013), 김종호(2014), 정환도(2014)는 환경복지 지표를 제작하여 환경복지 지역별 수준을 측정하였고, 박정규

(2013), 이정석(2016)은 환경복지 취약계층 중심의 연구를, 이창우(2013)는

서울시 환경복지정책 연구를, 윤수진(2016)은 환경복지이론을 국제개발협

26) 미니탭 홈페이지-덴드로그램.

력에 적용하였다. 그리고 고재경(2012; 2013a), 최경구(2006)는 환경복지 패 러다임에 관한 시론적 연구를 진행하였다. 한 군집 안에 다양한 내용이 포 함되어 있는 만큼, 제1군집은 제1주성분이 그러했던 것처럼 분석대상 문헌

23개를 잘 대변하고 있으며, 대표성을 담보하는 군집이 될 것으로 보인다.

제2군집은 고재경(2013b), 정환도(2013), 류휘종(2006), 황석규(2005)로 분석 대상이 모두 지역이라는 데에 주목할 필요가 있다. 류휘종(2006)은 지역 단 위의 에너지복지를 환경복지로 간주하였고, 고재경(2013b)는 경기도를 대상 으로, 황석규(2005)는 제주도를 대상으로, 정환도(2014)는 대전시를 대상으 로 연구하였다는 점에서 공통점이 있다. 따라서 ‘지역사회 중심의 환경복지 연구’로 이름붙일 수 있겠다. 제3군집은 제2주성분과 완벽하게 일치한다.

따라서 ‘생태복지와 지속가능성 패러다임을 결합한 환경복지’로 이름붙일 수 있겠다. 제4군집은 ‘김윤수(2013; 2014)의 연구’로 연구대상 및 범위의 구체성27)으로부터 이유를 찾을 수 있다. 위 연구들은 다른 문헌과는 상관 관계가 존재하지 않음에도 불구하고 두 연구는 서로 상관계수가 크고 통 계적으로도 유의미하다. 아래 군집 도표에서도 확인할 수 있는 바, 군집의 중심이 타 군집에 비해 멀리 위치해 있다. 제5군집은 정회성(2012), 문태훈 (2013), 남광희(2013), 추장민(2012)으로 ‘넓은 의미에서의 환경복지’를 대변 하고 있다. 정회성(2012)는 미래세대를 고려한 기초수요로서의 그리고 사 치재로서의 환경권을 보장하는 것을 환경복지로 간주하였고, 추장민(2012) 은 지역별 환경불평등 상태를 완화함으로 환경최저선을 보장하는 것을 환 경복지로 보았다. 문태훈(2013)은 새정부 환경복지정책의 방향을 제시한 바 있으며 남광희(2013)는 환경복지 개념의 정책 활용방안을 발표하면서, 정회성(2012)의 환경복지 개념을 차용한 바 있다.

이로부터 제1군집은 환경복지 이론 설정 및 대상별 적용, 제2군집은 지 역사회 중심의 환경복지, 제3군집은 사회복지 관점에서의 환경복지, 제4-5 군집은 국가 및 국제사회 단위의 환경복지28)로 정의내릴 수 있겠다. 군집

27) 그는 서울시 환경복지 현황을 대기질 및 기후변화대응 관점에서 분석하였다.

28) 제4군집의 경우 개별연구자 특성이 강하여 따로 분리되었지만, 타 연구와의 상관관 계가 통계적으로 유의미하지 않아 큰 범위에서 제5군집에 포함해도 될 것으로 보임(

군집 개수를 4개로 설정하였을 때 제4군집은 제5군집에 포함됨). 그리고 이 때 ‘국

도표로 표현해보면 [그림 4-23]과 같다.

[그림 4-23] 군집 도표(Cluster Plot)

지금까지 주성분분석 및 군집분석을 통해 환경복지 문헌의 내용적 특징 을 살펴보았다. 주성분은 문헌의 주제를 중심으로 총 4개가 도출되었으며 내용은 ①환경복지 이론 설정 및 모형 개발 ②생태복지와 지속가능성 패러 다임을 결합한 환경복지 ③환경복지 서비스 제공주체 및 관리 영역 ④보편 적 및 선택적 환경복지를 들 수 있다. 군집은 연구 범위를 토대로 총 5개로 분류되었으며 내용상으로는 4개로 ①환경복지 이론 설정 및 대상별 적용

②지역 단위의 환경복지 ③생태복지와 지속가능성 패러다임을 결합한 환경 복지 ④국가 및 국제사회 단위의 환경복지로 구분할 수 있었다.

가 및 국제사회 단위의 환경복지’가 보다 명확하게 드러남.

3절 토픽모델링 및 사회연결망분석을 통한 환경복 지 모형 수립

본 절에서는 토픽모델링과 사회연결망분석을 통해 환경복지를 이루는 토픽(주제)들을 심층적으로 조사하고 모형을 수립하고자 한다. 분석대상 문헌을 일정 토픽(주제)으로 배열하였을 때는 어떤 결과를 낳을 것인가, 토 픽별 연구 동향은 어떠한가, 토픽은 어떤 내용을 포괄할 것인가, 그간 분석 한 결과와 토픽모델링 결과는 어떤 관계를 가질 것인가에 대한 의문을 풀 기 위해서이다. 토픽모델링 LDA 기법은 임의의 문서 앞에서부터 단어를 하나씩 채울 때마다 파라미터 θ(주제벡터)로부터 하나의 주제를 선택하고, 다시 그 주제로부터 단어를 선택하여 문서를 생성해준다.29) 따라서 토픽모 델링 결과는 빈도수에 따라 위에서 아래로 단어를 배열한 표 이상의 의미 를 지니며, 보이지 않는 끈으로 모든 단어가 연결되어 인과성이 담보된다.

그러나 토픽모델링 결과는 토픽-단어로 구성된 표로 구현되기 때문에 그 내용만으로 환경복지 영역을 설정하기에는 논리적 비약이 발생할 수 있 다.30) 따라서 본 연구는 토픽 지정 시 ‘환경보건’, ‘환경서비스’와 같은 용 어를 활용할 예정이지만, ‘주체-내용-수단’으로 구체화하여 자의적인 해석 을 최대한 지양하고자 한다. 또한, 사회연결망분석(Social Network

Analysis)을 추가적으로 수행하여 설득력을 높이고자 한다. 사회연결망분

석은 개인과 집단 간 관계를 노드(node)와 링크(link)로 모델링하여 위상구 조와 확산 및 진화과정을 계량적으로 분석하는 방법론이다(행정자치부,

2014). 사회연결망분석에서 네트워크의 중심성을 나타내주는 지표로는 연

결정도 중심성(Degree centrality), 근접 중심성(Closeness centrality), 매개 중심성(Betweenness centrality), 위세 중심성(Prestige centrality)이 있으며 (Bonacich, 1987; 손동원, 2002; 김용학, 2003; 조윤호 외, 2009, 재인용) 본 연구에서는 이를 적극 활용하고자 한다.

29) http://www.4four.us/article/2010/11/latent-dirichlet-allocation-simply

30) 연도별 연구동향 조사 및 예측 수단으로 토픽모형을 피팅(fitting)할 경우 네이밍 (naming)까지는 허용하고 있는 분위기

Dokumen terkait