2 1-5차년도 조사 (WPS2005-WPS2013)
(1) 횡단면 가중치
□ 설계가중치 산정
▖사업체패널조사의 표본사업체는 사업장 규모(4), 산업(12)과 지역(5) 등을 층으로 하 여 층화임의추출법에 의해서 추출함. 일반 사업장의 경우에 표본 사업장 추출확률은 원칙적으로 각 층에서 다음의 식에 따라 구할 수 있음
추출확률
해당 층의 표본 사업장 수해당 층의 모집단 사업장 수
- 본사 기준으로 조사된 금융 및 보험업, 전기․가스․수도업과 통신업 등은 지역 구분 을 무시하고, 산업구분과 사업장 규모 구분만을 고려하여 표본 추출확률을 구함 - 한편, 전수추출한 공공부문은 모집단에 대한 세부 정보가 없기 때문에 전체를 하
나의 층으로 간주하여 표본 추출확률을 구함.
▖각 표본 사업장의 설계 가중치(design weight)는 앞서 구한 표본 사업장 추출확률의 역수로 다음과 같이 계산할 수 있음
추출확률
□ 무응답 보정
▖표본조사의 무응답은 단위 무응답(개체 무응답, unit non-response)과 항목 무응답 (item non-response)으로 구분
- 단위무응답은 표본 사업장이 응답을 거부하거나 접촉이 불가능하여 해당 사업장 의 전체 자료를 얻을 수 없는 경우임
- 항목무응답은 표본 사업장이 응답하였으나 일부 조사항목에 대해 응답을 거부한 경우임
- 표본조사에서 단위 무응답이 발생한 경우에는 가중치 조정을 통해서 이를 보정하 고, 항목 무응답에 대해서는 일부 조사항목의 무응답 대체를 위해서 앞서 설명한 대치법(imputation)이 주로 사용됨
▖1-5차년도 사업체패널조사에서 사업장 특성별 응답률의 차이는 일부 산업을 제외하 면 크지 않음. 부분적으로 공공부문과 전기․가스․수도업의 경우에 다른 산업에 비해 서 응답률이 높게 나타났지만, 나머지 산업 구분에서 응답률의 차이는 크지 않고, 또한 지역 구분과 사업장 규모 구분에 따른 응답률의 차이도 크지 않아 이와 같은 이유로 무응답 보정이 가중치에 미치는 영향은 크지 않았음
▖사업체패널조사의 일반 사업장에서 사용된 무응답 조정 군은 표본설계에서 층화변 수 중에서 지역 구분을 무시하고 사업장의 산업과 사업장 규모를 고려하고, 공공부 문은 전체를 하나의 층으로 간주하여 무응답 조정 군으로 사용
- 사업장의 산업과 사업장 규모가 동일하면 주요 조사변수가 유사한 값을 나타낼 것이고, 표본 사업장의 응답률도 유사할 것이라고 가정할 수 있음. 참고로 응답여 부(응답:1, 무응답:0)를 종속변수로 하고, 산업구분, 사업장 규모, 지역 등을 설명변 수로 하는 로지스틱회귀모형(logistic regression model)을 적합한 결과에 의해서도 산업구분과 사업장 규모 변수가 유의하게 나타남
▖표본조사에서 단위 무응답을 보정하기 위한 무응답 조정(non-response adjustment) 은 각 무응답 조정 군에서 다음 식에 따라서 구함
(은 조사가능 사업장 중에서 해당 무응답 조정 군에서 조사에 응답한 응답자 수,
는 조사가능 사업장 중에서 해당 무응답 조정 군에서 조사에 응하지 않은 무응답 사업장 수임)▖무응답 조정값을 구한 후에 무응답 조정을 거친 1차 가중치는 설계가중치와 무응답 조정값의 곱으로 구함. 무응답 조정의 의미는 사업장 특성에 따라서 다르게 나타날 수 있는 무응답을 조정함으로써 추정 결과의 편향(치우침)을 줄이는 것임
차 가중치
설계가중치×
무응답 조정값
×
▖사업체패널조사에서 산업 구분 및 사업장 규모에 따른 응답률의 차이는 크지 않아 서 무응답 조정값에 대한 극단값 조정은 따로 하지 않았음
□ 사후층화 조정
▖1차 가중치는 극단값 조정(trimming the extreme weights)의 단계를 거쳐서 조정 - 사업체패널의 1차 가중치가 해당 산업분류과 사업체 규모 구분에서 가중치의 중
앙값을 3배 또는 1/3배를 넘지 않도록 조정
- 가중치의 극단값 조정은 사업체패널 추정결과에 약간의 편향(치우침)이 발생하게 할 수 있으나 가중치의 극단값이 조정됨으로써 추정결과의 표준오차는 감소함. 결 과적으로 가중치의 극단값 조정을 통해서 추정결과의 평균제곱오차(MSE ; Mean Square Error)는 줄어들게 되어 추정의 정확도가 높아질 것임
▖사후층화 조정은 통계분석에서 자주 사용될 것으로 판단되는 사업장 특성 변수에 대해서 모집단과 표본 자료의 분포를 일치시키는 과정임
- 사업체패널조사에서는 산업(12)과 사업장 규모(4)를 사후층화 조정군으로 이용하 여 사후층화 조정 군 총 48개가 생성됨.
- 모집단 자료와 표본조사 자료의 사업장 규모 구분을 일치시키기 위해서 사후층화 조정을 위한 사업장 규모는 전체 근로자 수를 기준으로 구분
- 일반 사업장(민간부문)의 경우 사후층화 조정을 위해서 사용된 자료는 사업체패널 의 조사시점과 가장 유사한 2005년 전국사업체조사 자료를 이용
▖최종 사업체 가중치는 가장 최신의 모집단 정보를 이용하여 사후층화 보정의 단계 를 거쳐서 다음과 같이 구함
최종 가중치
차 가중치극단값 조정 후 ×
사후층화 조정값(2) 패널 가중치
▖종단 가중치는 1차년도 조사(WPS2005)의 횡단면 가중치와 2-5차년도 조사(WPS2007 -WPS2013)의 응답확률을 함께 이용하여 산정
-1차년도 조사(WPS2005)는 1차년도 조사로써의 횡단면 성격만을 띄나, 2-5차년도 조사 (WPS2007-WPS2013)는 패널조사와 횡단면 조사의 의미를 갖음. 이를 위해서는 횡단면 분석을 위한 가중치와 종단 가중치를 함께 산정해야 함
▖1차년도 조사(WPS2005)에 응답한 표본 사업장이 2-5차년도 조사(WPS2007-WPS2013)에 응답할 확률은 1차년도 조사(WPS2005) 결과의 사업장 특성변수를 설명변수로 하는 로지스틱회귀모형을 통해서 추정
- 1차년도 조사(WPS2005)의 패널 사업장 중에서 2-5차년도 조사(WPS2007-WPS2013) 의 패널에 응답할 확률은 표본 사업장 특성에 따라 차이가 날 수 있음. 이러한 차 이는 종단 가중치에 반영되지 않는 경우 추정결과에 편향이 발생할 수 있음 - 2-5차년도 조사(WPS2007-WPS2013)에 응답하였는지 여부를 반응변수로 하고, 산
업분류, 지역, 근로자 수, 노조 유무, 설립연도, 본․지사 등의 변수를 설명변수로 하 는 로지스틱회귀모형(logistic regression model)을 적용하여 응답률의 차이를 보정
▖종단 가중치를 활용하여 분석한다는 것은 1차년도 조사(WPS2005) 표본의 모집단에 대한 반영과 2005년 사업체들의 2013년까지의 생존확률을 반영하여 분석하는 것을 의미함
- 종단 가중치를 활용하여 분석한 결과는 2005년에 있는 사업체가 2013년까지 생존 하였을 때의 사업체 내의 변화로 해석해야 함
- 즉, 종단 가중치를 활용하여 분석한 경우, 2005년부터 2013년까지 한국의 사업체 로 일반화시켜 해석하는 것에는 한계가 존재
3 6-8차년도 조사 (WPS2015-WPS2019)
28)(1) 횡단면가중치
□ 개요 및 표본구성
▖기존표본와 신규표본의 횡단면 가중치 산정은 기존 방식(이기재, 2015)29)과 동일하 게 적용
- 6차년도 조사에서 이중틀 접근([그림 A-7] 참조)에 의한 표본추가로 인해 기존표 본 과 신규표본 로 구성되었고 이에 따라 개별 표본별 횡단면 가중치가 구축 이 필요함
- 최초년 혹은 2015년 표본추출시 사용하였던 산업분류와 사업체 규모를 층으로 하 는 복합표본설계(complex sample design)를 반영한 ㉠ 설계가중치, ㉡ 무응답 조 정, ㉢ 사후층화조정 등의 세 가지 구성요소를 통합하여 산정
▖기존표본과 신규표본의 횡단면가중치는 의사최대가능도(擬似最大可能度, pseu- do-maximum likelihood, 이후 PML) 추정(Skinner and Rao, 1996)30)에 근거한 가중치 를 산출. 따라서 6-8차 조사의 횡단면 가중치는 다음과 같은 세 종류로 이루어짐
▖최종적으로 사업체패널 횡단면 가중치는 기존표본과 신규표본에 대한 횡단면 가중 치를 각각 도출한 후 이를 통합표본에 대한 하나의 횡단면 가중치로 제공한다.
- 기존표본 :
∪
∪
에 대한 횡단면 가중치
- 신규표본 :
∪
∪
에 대한 횡단면 가중치
- 전체표본 :
∪
에 대한 PML 횡단면 가중치
28) 이 부분은『패널자료 품질개선 연구(Ⅷ) - 제2장 제6차 사업체패널조사 가중치 산출 연구 』의 제4절(박인호, 2018)과 7차년도 조사 가중치 내부용 보고서(박인호, 2019)를 발췌하여 정리한 것임
29) 이기재(2015), 제5차 사업체패널 가중치 연구 최종보고서 , 한국조사연구학회
30) Skinner, C. J. and J. N. K. Rao(1996), “Estimation in Dual Frame Surveys with Complex Designs,” Journal of the Statistical Association 91, pp.349~356.
□ 기존 표본 횡단면가중치 ()
▖6-8차년도 조사를 위해 고려된 기존표본과 이 중 (2005년과 2015년 모집단 모두에 존재하지만 2015년에 추출되지 않은 사업체)가 기존 표본 횡단면가중치의 산출 대상임 - 기존표본 는 기존모집단 (2005년 모집단)로부터 추출된 사업체이지만 1차년 도(2006년)는 물론 2차년도(2008년), 3차년도(2010년), 4차년도(2012년), 5차년도 (2014년)에 신생된 사업체들을 포함
▖이중틀 접근의 일반적 형태와는 달리 기존 조사에 대한 모집단은 2006년 이후 2014년 까지의 생멸을 포함하는 사업체들로 구성
- 패널이탈로 인한 지속적인 표본사업체의 감소를 방지하기 위해 사업체패널조사의 횡단면적 추정이 가능하게 하고자 2차 조사부터 표본사업체를 추가하여 사업체패 널을 보안해 왔기 때문임(이기재, 2015)
- 사업체패널조사에서 횡단면가중치 산정의 대상은 원칙적으로 해당 조사 기준시점 에서 상용근로자 30인 이상인 응답사업체
- 이전 차수에서 무응답한 사업체일지라도 해당 차수에 다시 참여하면 응답업체로 분류
- 하지만 조사 기준시점과 실제 조사시점 간 시차발생은 물론 상용근로자 30인 이상 사업체로 국한할 경우에 응답사업체의 정보 중 상당 부분을 활용할 수 없다는 점 을 고려하여 상시근로자 25인 이상의 표본사업체를 횡단면가중치 산출의 대상으 로 정함31)
▖기존표본의 횡단면가중치는 앞에서 기술한 1-5차년도의 기존방식(이기재, 2015)과 동 일하게 설계가중치, 무응답 조정, 사후층화 조정을 순차적으로 적용
- 먼저, 2차년도 이후 추가된 표본사업체를 1차년도 표본설계에서의 해당 산업 및 규모 층에서 층화임의추출된 것으로 가정하여 설계가중치를 구함(이기재, 2015,
<표 3>)
- 다음 단계로 6-8차년도 조사에서 발생한 무응답에 대한 조정을 고려하였는데 기존 방식과 마찬가지로 일반 사업장은 1차 조사 표본설계의 산업분류와 사업장 규모를 이용하였고 공공부문은 전체를 하나의 층으로 간주하여 무응답 조정을 수행
31) 2-5차년도 사업체패널조사에서도 동일한 기준에 따라 횡단면 가중치 산출 대상을 국한함