가. 이산선택
선택주체의 선호도를 나타내는 종속변수는 이산적인(discrete) 값을 갖 는 범주형 변수(categorical variable)인 경우가 대부분이다. 이는 조사의 초점 자체가 특정 대안을 선택할 것인가의 여부, 또는 어떤 대안을 선택 할 것인가와 같은 특수한 형태의 답변이기 때문이다.
이와 같은 이산적인 형태 중에 구매 여부와 같은 두 개 반응범주가 존재할 때 선택의 형태를 이항선택(binary choice)이라고 한다. 예를 들 어 특정 제품 모델을 구매할 것인가의 여부처럼 ‘예’ 또는 ‘아니오’로 응 답하는 경우를 의미한다. 그리고 여러 개의 대안 중 하나를 선택하는 경 우를 다항선택(multinomial choice)이라고 한다. 예를 들어 세 가지 자동 차 모델에 대해 1~3위까지의 순위를 매기는 경우이다6). 이항선택이나
다항선택은 현시선호 자료에서도 가능한 형태의 자료지만 순위 자료는 진술선호 분석에서만 사용가능하다는 특징이 있다. 이항선택이나 다항선 택에 있어 선택은 실제의 구입형태와 같으므로 소비자의 실제 구입의사 를 반영하고 있는 현실적인 형태이지만 선택되지 않은 대안들 간의 선 호도 차이는 고려할 수가 없다. 반면, 순위자료는 실제 선택 형태와는 차이가 있지만 이항선택이나 다항선택자료보다 소비자의 선호구조에 대 해 더 많은 정보를 포함하고 있다. 특히 순위자료는 서수적 효용이라는 경제학적 관점과 부합하는 형태라 할 수 있다.
설문을 통해 얻을 수 있는 소비자 선택에 대한 자료 중에는 점수의 형태도 존재한다. 이는 대안들에 대해 점수를 매기는 것으로 상․하한 사이의 구간에서 연속성(continuity)을 가지고 있으므로 엄밀한 의미에서 이산선택이라고 보기는 어렵다. 하지만 특수한 형태의 종속변수(limited dependent variable)로서 적절한 계량경제학적 방법론이 필요하다는 점 은 다른 이산선택의 경우와 마찬가지이다.
종속변수가 이산선택의 형태를 띠고 있다 하더라도 최소자승법과 같 은 선형 회귀분석으로 컨조인트 분석은 가능하다. 하지만 이 경우 선형 최소자승법을 이용하면 계량경제학적으로 문제가 발생할 수 있다. 일반 적인 최소자승법의 선형회귀분석식은 다음과 같다.
′ (4-2)여기서 은 개별 관측치를 의미한다. 오차항 에 대해서는 정규분
6) 순위를 매기는 경우도 특정대안이 다른 대안보다 선호되는지 선호되지 않는지를 살 펴보는 형태로 이항선택이나 다항선택과 근본적으로는 같은 형태이다.
포를 가정하고 있으며 다음과 같은 성질을 가지고 있다.
≠ (4-3)오차항의 기대값은 0, 분산은 모든 관측치에 대해 동일하며, 관측치간 상관관계는 없는 것으로 가정하게 된다. 오차항이 취할 수 있는 값에 특 별한 제한이 없으므로 종속변수도 -∞ ~ +∞ 사이에서 모든 값을 자유 롭게 취할 수 있다. 그러나 특정값만을 가질 수 있는 이산선택이 종속변 수가 될 때는 이러한 성질에 대한 가정과 마찰이 발생한다.
예를 들어 종속변수
이 '0'과 ‘1’만을 가질 수 있는 이항선택의 경 우라면 종속변수의 기대값과 분산은 <식 4-4> 및 <식 4-5>와 같다.
×
×
′(4-4)
′
′ ′ ′ ′ ′
′ ′
(4-5)
이 때 종속변수
은 0, 1의 값만을 가질 수 있으므로
의 기대값 은 0과 1사이에 존재한다. 그러나 ′은 취할 수 있는 값에 제한이 없 으므로 이에 논리적인 모순이 발생한다. 그리고 <식 4-5>의 분산의 경우분산이 개별 관측치에 의존하므로 선형최소자승법의 기본 가정인 동분 산 가정에 위배된다. 따라서 이러한 경우
을 0~1 사이의 값 을 가지도록 하는 특수한 모형을 사용해야 한다. 다음 그림은 이러한 내 용을 개괄적으로 보여주고 있다. S자 곡선으로 대표되는 이항선택모형은 오차항에 어떠한 분포를 가정하느냐에 따라 다양한 모형들로 구분되어 사용될 수 있다(이종수 외, 2007).[그림 4-2] 선형회귀분석의 문제점
[그림 4-2]는 선형회귀분석을 사용할 때
이 ‘0’이하가 되거나 ‘1’을 초과할 때 문제가 발생함을 나타내고 있으며, 이를 대체할 S자
곡선으로 대표되는 이항선택모형은 오차항에 어떠한 분포를 가정하느냐 에 따라 다양한 모형들로 구분되어 사용될 수 있다.
나. 모형의 선택
추정에 사용할 계량경제학 모형을 선택할 때 가장 먼저 고려해야 할
부분은 종속변수의 형태이다. 이는 종속변수가 선택인지․순위인지․점 수인지에 따라 사용가능한 방법이 제한되기 때문이며, 자료의 형태를 고 려하여 여러 가지 사용가능한 모형들을 선별하고 그 중에서 가장 알맞 은 구체적인 모형을 선택해야 한다.
자료의 형태 이외에 고려해야 할 사항은 추정의 용이성과 유연성이다.
가정이 많은 단순한 모형을 사용하면 추정이 용이하겠지만 여러 가지 제약으로 인해 현실적인 선택을 제대로 반영하지 못하고 경우에 따라 추정의 신뢰도 및 모형의 설명력이 떨어질 수 있다. 반면 가정이 많이 완화된 유연한 모형을 사용하면 추정의 신뢰도나 모형의 설명력은 향상 되겠지만 추정자체가 복잡해져 실증연구가 어려워질 수 있다. 연구자는 상충관계가 있는 이 두 가지 요소를 충분히 고려하여 자료의 특성 및 연구의 성격에 맞는 적절한 모형을 선택해야 한다.
1) 로짓모형
가 0~1 사이의 값을 갖도록 하기 위해서 다음과 같은 형태 를 가정할 수 있다.
′
′
(4-6)
이러한 형태를 가정하는 경우의 분석모형을 이항로짓(binary logit)모 형이라고 하며 이는 이항선택의 경우에 사용할 수 있는 모형이다. 그리
고 <식 4-6>의 형태가 아닌 표준정규분포의 누적밀도함수를 사용하는
경우에는 이를 이항프로빗 모형이라고 한다. 실증연구에서 이항로짓과
이항프로빗모형은 추정에서 거의 비슷한 결과를 보인다.
이 때 선택 가능한 경우의 수가 세 가지 이상이 되면 다항로짓 (multinomial logit)이 된다(Train, 2003). 이를 확률효용모형(random
utility model) 측면에서도 접근해 볼 수 있다. 확률효용모형을 다음과
같다고 가정하도록 하자.
′
(4-7)여기서 n은 소비자, j는 대안이다. 이 때 소비자 n이 대안 i를 선택할 확률은 다음과 같이 표현될 수 있다.
∀ ≠
∀ ≠ (4-8)
오차항 에 대해 <식 4-9>와 같은 밀도함수를 가지는 독립적이고 동분산성을 가진 타입 I 극한분포(type I extreme value distribution)를 가정한다.
,
(4-9)이를 통해 선택확률식을 도출하면 <식 4-10>과 같다(Train, 2003).
′′
(4-10)
그리고 선택대안이 2개만 존재하고 첫 번째 대안에 대해
이 라고 하면 <식 4-6>과 같은 형태가 된다. 즉 이항로짓은 다항로짓의 특 수한 형태라는 것을 알 수 있다.로짓모형은 이와 같은 선택확률식을 이용한 최우도추정법(maximum likelihood estimation)을 통해 추정된다. 최우도추정을 위한 우도함수와 로그우도함수는 다음과 같이 설정된다.
⇒
(4-11)여기서 N은 전체응답자의 수를, 는 소비자 n이 대안 I를 선택한
경우에 ‘1', 선택하지 않은 경우에는 ’0‘의 값을 가지는 변수이다.
로짓모형에서는 응답자가 i대안을 선택할 확률과 j대안을 선택할 확률 의 비율은 i대안과 j대안의 속성에만 의지할 뿐 그 외 다른 대안들의 영 향을 받지는 않는다. 이를 IIA(Independence from Irrelevant
Alternatives) 제약이라고 하는데, 이는 경우에 따라 현실 상황과 부합하
지 않을 수 있어 일반적인 로짓 모형의 단점으로 지적되고 있다.
예를 들어 현재 시민들이 출근할 때 사용할 수 있는 대중교통수단에 택시, 빨간색 버스 두 가지 대안이 존재하고 각각의 선택확률이 1/2, 1/2 이라고 가정한다. 즉 택시와 빨간버스의 선택비율은 1:1이다. 거기에
파란버스가 새로운 대안으로서 도입되었을 때 IIA 제약 하에서는 파란 버스가 등장해도 택시와 빨간버스의 선택비율은 영향을 받지 않는다. 따 라서 택시, 빨간버스, 파란버스의 선택확률이 각각 1/3, 1/3, 1/3이 된 다. 그러나 이는 파란버스는 빨간버스와 사실상 다름없는 대안이므로 선 택확률이 1/2, 1/4, 1/4가 되는 것이 보다 현실적이다. 하지만 일반적인 로짓모형에서는 이러한 형태의 선택확률 변화를 고려할 수 없는 것이다.
물론 경우에 따라서는 IIA 제약이 크게 문제되지 않을 수도 있다. 우 선 서로 동일범주, 비슷한 성격의 대안들만 존재하는 경우이다. 예를 들 어 같은 과일 주스 사이에서의 선택에서는 IIA 제약이 있더라도 크게 문제가 되지 않는다. 일반적인 컨조인트 설문의 경우 동일 재화를 대상 으로 속성들을 변화시켜가면서 질문하므로 IIA 제약이 크게 문제되지는 않는 경우가 대부분이다. 이산선택모형의 계량경제학적 개선은 이 IIA 제약의 완화에 상당히 중점을 두고 있으며, 이를 개선하기 위한 모형으 로서 집합로짓, 혼합로짓 모형 등이 있다.
집합로짓(nested logit)모형은 비슷한 성격의 대안들을 그룹별로 묶어 서 분석하는 모형으로 그룹 내 IIA 제약은 그대로 유지하면서 그룹 간 IIA 제약을 완화된 형태이다. 따라서 집합로짓 선택은 상ㆍ하위 계층구 조를 가지고 있으며, 여러 성격의 대안이 섞여 있는 현시선호 자료 분석 에서 주로 사용된다. 진술선호 자료의 경우는 일반적으로 동일 범주의 제품에 대해 속성을 달리하며 대안을 작성하므로 특수한 경우를 제외하 고는 그룹화할 필요가 없는 경우가 많다.
혼합로짓(mixed logit)모형은 다항로짓모형에서 개인간의 이질성
(heterogeneity)을 허용하는 형태로 발전된 모형이다. 이러한 개선은 속
성의 계수 추정 시 각각의 계수마다 확률분포를 가정함으로써 이루어진