事例研究 ( ミクロ経済政策・問題分析 I) - 規制産業と料金・価格制度 -
(#402 –
離散型選択分析の基礎(Logit/Tobit
等)) 2017
年12
月戒能一成
0. 本講の目的 ( 手法面)
- 応用データ解析の手法のうち、離散型選択モ
デ
ル (二項選択型、 Tobit 型、 Heckman 二段推計型
など ) の概要を理解する
(内容面 )
- 計量経済学・統計学を実戦で応用する際の 留意点を理解する
1.
離散型選択モデルの基礎1-1.
離散型選択モデルの概念
-
離散型選択モデルとは、被説明変数が離散的な値をとる場合 (二項選択型 )や、非連続的な値を とる場合(
Tobit
型他 )に、当該被説明変数の値の 分布が観察対象のどのような選択行動の結果として生じたものかを分析するモデルを指す
-
当該モデルの典型的な手法の多くは、選択の確率
(Probability)
を用いて離散型選択を連続型確率 に変換することにより解を得ている-
唯一の例外がMonte-Carlo
法 (確率論的方法)
3
1.
離散型選択モデルの基礎1-2.
離散型選択モデルの種類(1)
(単純選択型 )
← 選択の結果のみを扱う場合
-
二項選択型Binary Outcome Model
例 : 就職、大学進学、出産、企業増資、任意清算
-
多項・多段階選択型Multi-nominal/-Stage M.
例: 職業選択、学校選択、旅行経路選択、企業提携選択
(不連続 (切断 )型
)
← 選択の結果として選択後の生産・消費などの 変数が切断され不連続となった場合
- Tobit
型モデルTobit Type Model
例 : 職業別所得、経路別旅費支出、企業提携後収益
1.
離散型選択モデルの基礎1-3.
離散型選択モデルの種類(2) (
続き)
(内生的選択型 )(← 不連続 (切断 )型と因果が逆 )
← 観察指標に応じて選択肢の選択結果が内生 的に決定されている場合
- Heckman
二段推計型モデル “ Heckit” Model例 : 貧困者職業訓練効果、薬物中毒更生率、倒産企業債務残高
(計数型
)
← 選択肢の選択結果に加え結果指標も少数の
離散的な計数値となる場合 (複合問題を含む
)
-
計数型モデルCount Data Model
例 : 交通事故死者数、公務員汚職件数、企業任意清算数 ( ← Poisson分布を用いた回帰分析を行う (説明省略 ))
5
2.
単純選択モデル2-1.
二項選択モデル
-
離散値Di
の選択が、ある観察可能な変数zi
で決まる確率に従う場合、当該過程は 二項選択モデ
ル
(Binary Outcome Model)
が適用可(
離散値Di
の選択)
1 0
-
例: zi
家計の所得
Di
太陽光発電の導入有無(
導入=1,
非導入=0)
Pr(Di=1,zi’
・β)
所得zi
の世帯が太陽光発電を行う確率(
係数β)
Di = Di = Pr(Di=1, z
i’・ β)
+ε
i選択確率 誤差
2.
単純選択モデル2-2.
二項選択の確率密度関数
- Probit
関数・Logit
関数など確率密度関数の選択に おいては、単純な二項選択の分析の場合であれば 優劣はないため、数学的に簡単なLogit
関数が多用 される (← 不連続 (複合 )型などでは逆 (後述))
Pr(Di=1,zi’・ β) =∫ -∞(zi-z0)’β/σ (2πσ2)-1/2* exp(-1/2*s2/σ2)ds
Probit ; 正規分布関数 φ((zi-z0)’β/σ)の積分値 (= Φ)
確率密度関数 φ((zi-z0)’β/σ) zi の限界効果 φ((zi-z0)’β/σ) ・βi
Pr(Di=1, zi’・ β) = (1 + exp(-zi’・ β))-1
Logit; 対数確率分布関数 Λ(zi’・β) (= 「積分 済」))
確率密度関数 exp(z’・β)/(1 –exp(z’・β)) zi の限界効果 Λ(z’・β)・(1 –Λ(z’・
β))・βi
7
2.
単純選択モデル2-3. Logit
関数とProbit
関数
- Probit
関数とLogit
関数は、いずれも無限遠で0
及び 1 となる関数であるが、曲率と分散の大きさが異なる ので推計された係数は直接比較できない← 先行研究と係数を比較・参照する場合要注意
Probit
関数 – 平均0,
分散1
の正規確率密度関数 の積分値
Logit
関数-
平均0,
分散 √3/π
の対数密度関 数の積分値(=
対数分布関数)
-
どうしても必要な場合0.625
で補正 (雨宮(1981))
2. 単純選択モデル
2-4. 二項選択モデルの概念
9
選択確率関数
P r (Di=1, zi’β)
= 確率密度関数の積分値
(-∞ で0, +∞ で 1)
説明変数 (zi-z0)’β/σ
0 z0 (zi の平均)
確率密度関数
Pr ( 正規確率密度
関数の場合 )
-∞ (zi – zo)’β/σ
二択変数 Di
1
0
説明変数 zi
Zi
選択結果 Di (1 or 0)
措置群 (Di =1)
対照群 (Di =0)
「現 実」
「脳 内」
( 例 : Di - 家計 i 太陽光発電の有無の選択 zi - 家計 i の所得 )
2.
単純選択モデル2-5.
何故単純な線形回帰を用いないのか
-
単純な線形回帰で選択の確率密度関数を近似すると、確率が 1 を超えたり
0
より下になるという「異常値」
が生じてしまう場合あり ← 「折れ線」による近似な どの回避策はあるが、
確率密度関数の一般性 がなくなってしまい分析 手法の適用条件複雑化 ・相互比較不能化
二択変数 Di
1
0
Zi 説明変数
選択結果 Di (1 or 0)
措置群 (Di =1)
対照群 (Di =0)
選択確率関数
P r (Di=1, zi’β)
線形回帰
Logit 回帰
3.
不連続(
切断)
型モデル3-1. Tobit
型モデル (ダミー変数モデル)(Tobin(1958))
-
離散値Di
の選択に応じ、Di = 1
の場合のみ結果指標
yi
がzi
により決定され観察できる場 合では、Tobit
型モデルなどが適用できる(
第 1 段階:
離散値Di
の選択:ex.
太陽光発電有無
)
1 if Di
* >0 ; 0 if Di
* ≦ 0 ;(第 2 段階
:
結果指標yi
の決定: ex.
売電所得) yi
*if Di
* >0 ; yi
*= z
i2’β
2+ε
2i- if Di
* ≦ 0 ; ( ← 観察不能 )11
Di =
yi =
Di
*= z
i1’β
1+ε
1i( 通常 誤差 ε1i は正規分布と
仮定し Probit 型で β1 を推定 )
3.
不連続(
切断)
型モデル3-2. Tobit
型モデルの種類 (利用頻度順,
雨宮(1985)
による分類)
- Tobit モデル (Tobit-Type 2)
・ 選択の結果による対照群(非選択群 )の結果指標が観察できない場合
・ 第 1 段階・第 2 段階の誤差が二元正規分布に従うと仮定し、第 1 段階の Probit型推計の結果 (補正係数 λ1,誤差ε1) を用い、第 2 段階を推計 1 if Di* > 0
0 if Di* ≦ 0 yi* if Di* > 0 -- (観察不能)
- Tobit
モデル(Tobit-Type 3 “Heckit Model”)
(← 後述する Heckman二段階推計型, 先に発見したHeckmanの方が著名
Type 2 と選択と観察指標の因果関係が逆 )
Di=
yi=
3.
不連続(
切断)
型モデル3-3. Tobit
型モデルの種類 (利用頻度順,
雨宮(1985)
による分類)(
続き)
- Tobit
モデル(Tobit-Type 5 “Roy Model”)
・ 選択の結果による対照群(非選択群・排反 )の結果指標が観察できる場合
・ 処置効果評価での利用例多, Regression Discontinuity か Switch回帰 1 if Di* > 0
0 if Di* ≦ 0 yi* if Di* > 0 yi** if Di* ≦ 0
- Tobit
モデル(Tobit-Type 1,4)
(二項選択モデルやType-2・ -3 に変換できるので殆ど使われていない)
(- Two Part
モデル (実例稀少))
第 1 段階を Probit型で推計し、第 2 段階で正の観察値のみ回帰推計 (=第1 段階での選択有無(= 第2 段階が不存在か “ 0” が存在か )を
要識別)
13
Di=
yi=
3. 不連続 ( 切断 ) 型モデル
3-4. Tobit 型モデルの概念 (Type-2 の場合 )
14
ダミー変数 Di, Di*
( 観察不可 )
1
0
説明変数 zi
(観察 可 )
結果指標 yi
( 観察可 )
説明変数 zi
(観察 可 )
Zc (Di* = 0) Zc
( ? ) 選択ダミー
Di (1 or 0)
選択ダミ-関数 Di*
= zi’β1 + ε1i
措置群 (Di =1)
対照群 (Di =0)
結果指標の 誤差
ε2i
(ε1i との 関 係を仮 定)
0
選択ダミー変数 の誤差
ε1i = Di* - zi’β1
(正規分布を仮
定) 措置群 (Di =1)
対照群 (Di =0) → yi = 0
「現 実」
「脳 内」
yi
( 例 : yi - 家計 i の売電収入 Di – 太陽光発電有無 ( 観察不可の場合有 ) zi - 家計
結果指標 yi*
= zi’β2 + ε2i
(or 0 )
結果指標の確率密度 の「切断」による歪 み) → 補正(λt)
選択結果が結 果指標を決定
3. 不連続 ( 切断 ) 型モデル
3-5. 逆ミルズ比と Tobit 型モデルの解法 (1)
- 逆ミルズ比 λi (Inverse Mill’s Ratio) λi (zi’ ・ β) ≡ φ(zi’ ・ β)/Φ(zi’ ・ β)
φ
正規確率密度関数, Φ 当該関数の積分値 ( 分布
関数)
← 選択によって生じた「切断」が確率密 度の分
布に与えた歪みの影響を説明する変 数
15
3.
不連続(
切断)
型モデル3-6.
逆ミルズ比とTobit
型モデルの解法(2)
- 但し
Tobit
型モデルでは下記変数を用いる∵
Tobit
型で観察されるyi
は「切断された残り」
λti(zi’
・β) = φ(zi’
・β)/[1 -Φ(zi’
・β)]
([
注意] Heckit
では逆ミルズ比自体を用いる) - Tobit
型モデルの分析式 (解法)
← 下記分析式を最大尤度法
(ML)
で推計 但し誤差εi
は不均一分散y
i | yi >0 = zi’
・β + λti
・γ + εi
- STATA
では切断点(UL;
上限, LL;
下限 )を指定可3. 不連続 ( 切断 ) 型モデル
3-7. Tobit 型モデルにおける仮定・検定と注意点
- Tobit 型モデルでは、少なくとも 第 1 段階の 選択
過程の誤差が正規分布に従うと仮定
→ 誤差の正規性検定 (- linktest など ) が 必須
17
→ 実はポアソン分 布
4.
内生的選択型モデル4-1. Heckman
二段推計型モデル “ Heckit” M.(1974)
-
観察指標yi
の値に応じて離散値Di
の選択が決定され、
Di = 1
の場合のみ結果指標yi
が観察 できる場合では、Heckit
型モデルが適用できる← 選択と観察指標の因果関係が
Tobit
型(Type -2)
の不連続 (複合 )型モデルと「逆」 であり、観察指標が選択を左右している場合に有効
(例 : 経営不振企業の損益と倒産, 低所得者の職業訓練)
← 現実には最初から不連続 (複合 )型か内生的 選択型かを識別することは困難であり、一定 の試行錯誤が必要
4. 内生的選択モデル
4-2. Heckman 二段推計型モデルの概念
19
ダミー変数 Di, Di*
( 観察不可 )
1
0
説明変数 zi
(観察 可 )
結果指標 yi
( 観察可 )
説明変数 z i”
(観察 可 )
Zc (Di* = 0) Zc
( ? ) 選択ダミー
Di (1 or 0)
選択関数 Di*
= φ(zi’β)
観察可能な対象 (Di =1)
結果指標の 誤差
ε2i (選択 関 数の誤 差
ε1iと相 関)
0
観察可能な対象 (Di
=1)
(対照群は存在しな い)
「現 実」
「脳 内」
yi
( 例 : yi - 倒産企業 i の債務残高 Di – 倒産の有無 zi – 倒産企業の売上高利益
率 )
結果指標 yi*
= zi“β2 + ε2i
(or 0 )
結果指標の確率密度 の観察可能確率 → 逆ミルズ比で説明 逆ミルズ比の推計
λi = φ(zi’β)/Φ(zi’β)
選択関数の誤差
= ε1i
結果指標が 選択を決定
4.
内生的選択型モデル4-3. Heckman
二段推計型モデルの解法
-
第1
段階: 試料からyi
が観察可能となる正規確率を最大尤度法
(ML)
で求め、更に逆ミ ルズ比λi
を推計
Di | Di>0 = Φ(zi’
・β)
← Probitモデル使用
λi (zi’
・β) = φ(zi’
・β) / Φ(zi’
・β)
-
第2
段階 :下記分析式を最小二乗法(OLS)
推計y
i | yi(or Di) >0 = zi“
・β ” + λi
・γ + εi
← 誤差 不均一分散
-
実際にはSTATA コマンド “ heckman”
を使用4.
内生的選択型モデル4-4. Heckman
二段推計型モデルの問題点・注意点-
第1
段階の説明変数zi’
と第 2 段階の説明変数zi”
の大部分が重複する場合には、多重共線性
(Multicoliniarity)
により妥当な結果が得られない(
縄田 (1997), 北村 (2005))
ex.第二段階
y
i | yi>0 = zi “
・β” + λi(zi’
・β)
・γ + εi
←
最初の選択を「二項選択モデル」で解いてお
き、当該推計の結果から各段階の説明変数 を重複しないように決める方法が有効
21
5.
離散型選択モデルの実戦的活用5-1.
米国の州別犯罪率・死刑制度と執行率(McManus W. (1985), 1950
年米国44
州での調 査)
被説明変数 (・選択変数 )
x
州別死刑執行率 (分析対象) d
州別死刑制度の有無説明変数
(
対数化処理により “ l**”)
m 人口10
万人当殺人犯罪認知数p
殺人事件有罪率t 殺人容疑者平均拘置日数
y
平均所得($1,000- @1950)
f
平均有業率 (= 1 –[
失業率])
5. 離散型選択モデルの実戦的活用
5-2. 米国の州別犯罪率・死刑制度と家計所得
注意 : 相 関≠因果
23
件数
件数 制度有
制度無
制度無 制度有
所得
所得
5.
離散型選択モデルの実戦的活用5-3.
州別死刑制度有無の二項選択モデル分析(1)
reg d lm lp lt ly lf, robust AIC=30.91
→ 線形
:
殆どの説明変数が有意 (但し あくまで参考)
Linear regression Number of obs = 44 F(5, 38) = 6.57
Prob > F = 0.0002 R-squared = 0.4469 Root MSE = .3228 --- | Robust
d | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---+---
lm | .4350748 .0823588 5.28 0.000 .2683481 .6018014 lp | .1307851 .1232539 1.06 0.295 -.1187294 .3802995 lt | .3788957 .1323878 2.86 0.007 .1108906 .6469008 ly | .4889962 .2129757 2.30 0.027 .0578494 .9201431 lf | -1.907909 1.064082 -1.79 0.081 -4.06203 .2462121 _cons | -2.901463 .9877775 -2.94 0.006 -4.901114 -.9018122
5.
離散型選択モデルの実戦的活用5-4.
州別死刑制度有無の二項選択モデル分析(2)
logit d lm lp lt ly lf AIC=33.30
→ Logit; m(
殺人犯罪件数), t(
拘置日数 )が有意25
Logistic regression Number of obs = 44 LR chi2(5) = 23.28
Prob > chi2 = 0.0003
Log likelihood = -10.650989 Pseudo R2 = 0.5222 ---
d | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---+---
lm | 4.801747 1.768599 2.72 0.007 1.335357 8.268138 lp | .6182211 1.19164 0.52 0.604 -1.71735 2.953792 lt | 4.246125 1.898825 2.24 0.025 .5244973 7.967753 ly | 6.013893 4.193384 1.43 0.152 -2.204987 14.23277 lf | -16.76363 18.61397 -0.90 0.368 -53.24633 19.71908 _cons | -36.92763 18.89653 -1.95 0.051 -73.96414 .1088826 ---
5.
離散型選択モデルの実戦的活用5-5.
州別死刑制度有無の二項選択モデル分析(3)
probit d lm lp lt ly lf AIC=32.81
→ Probit; m(
殺人犯罪件数), t(
拘置日数 )が有意Probit regression Number of obs = 44 LR chi2(5) = 23.77
Prob > chi2 = 0.0002
Log likelihood = -10.40572 Pseudo R2 = 0.5332 ---
d | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---+---
lm | 2.804682 1.011972 2.77 0.006 .8212538 4.788109 lp | .3935249 .689552 0.57 0.568 -.9579721 1.745022 lt | 2.48898 1.100532 2.26 0.024 .3319775 4.645982 ly | 3.577456 2.479807 1.44 0.149 -1.282876 8.437789 lf | -10.75029 10.40882 -1.03 0.302 -31.15121 9.650625 _cons | -22.20609 10.95852 -2.03 0.043 -43.6844 -.7277841 ---
5. 離散型選択モデルの実戦的活用
5-6. 州別死刑執行率の Tobit モデル分析
tobit x lm lp lt ly lf, ll(0) AIC=-54.55
27
Tobit regression Number of obs = 44 LR chi2(5) = 14.50
Prob > chi2 = 0.0127
Log likelihood = 34.274291 Pseudo R2 = -0.2682 ---
x | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---+---
lm | .0614433 .0209258 2.94 0.006 .0191169 .1037697 lp | .0146554 .0276493 0.53 0.599 -.0412706 .0705814 lt | .073979 .031501 2.35 0.024 .0102622 .1376957 ly | .009091 .0615264 0.15 0.883 -.1153579 .1335399 lf | .4891608 .2833126 1.73 0.092 -.0838931 1.062215 _cons | -.0651 .267022 -0.24 0.809 -.605203 .4750029 ---+---
/sigma | .0711114 .0089375 .0530336 .0891893
5. 離散型選択モデルの実戦的活用
5-7. 州別死刑執行率の Heckit モデル分析 (1)
heckman x lm lp ly lf, select( d= lm, lt)
Heckman selection model Number of obs = 44 (regression model with sample selection) Censored obs = 9 Uncensored obs = 35
Wald chi2(4) = 1.02e+08
Log likelihood = 42.5235 Prob > chi2 = 0.0000 ---
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---+--- x |
lm | -.0192589 .0170156 -1.13 0.258 -.0526088 .014091 lp | .0033842 .0231807 0.15 0.884 -.0420491 .0488176 ly | -.0609771 .0534961 -1.14 0.254 -.1658276 .0438734 lf | .8553731 .1524768 5.61 0.000 .5565241 1.154222 _cons | .6983817 .1486508 4.70 0.000 .4070315 .9897319
5.
離散型選択モデルの実戦的活用5-8.
州別死刑執行率のHeckit
モデル分析(2)
heckman x ly lf, select( d= lm, lt) AIC=- 67.67
29
Heckman selection model Number of obs = 44 (regression model with sample selection) Censored obs = 9 Uncensored obs = 35
Wald chi2(2) = 2.64e+08
Log likelihood = 41.83379 Prob > chi2 = 0.0000 ---
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---+--- x |
ly | -.0176457 .0399363 -0.44 0.659 -.0959194 .060628 lf | .8065375 .0259226 31.11 0.000 .7557302 .8573448 _cons | .610406 .0390826 15.62 0.000 .5338055 .6870066 ---+---
d |
lm | 2.277606 .2531577 9.00 0.000 1.781426 2.773786 lt | 2.020581 .2472685 8.17 0.000 1.535944 2.505218 _cons | -11.1779 1.326496 -8.43 0.000 -13.77778 -8.578015