LECTURE NOTES
LIMITED DEPENDENT VARIABLE (LDV) MODEL
Pendahuluan
Pada bahasan sebelumnya telah dibahas model regresi linier dimana variabel dependen (respons) bertipe numerik dan diasumsikan dapat mengambil nilai berapapun tanpa adanya batasan.
Dalam beberapa kasus, seringkali peneliti membangun model regresi dengan variabel tak bebas yang bersifat kualitatif untuk menjawab fenomena permasalahan yang dihadapi.
Variabel yang bersifat kualitatif umumnya bersifat nominal yang terdiri dari beberapa kategori (dikotomi). Variabel dikotomi biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak adanya suatu kejadian, seperti: berhasil atau gagal; lulus atau tidak lulus; melakukan pembelian atau tidak; terpilih atau tidak terpilih; dan lain-lain. Namun dalam kasus tertentu juga dimungkinkan vaiabel dikotomi dengan lebih dari dua nilai.
Untuk mengestimasi parameter model dengan variabel respon
kualitatif, kita tidak bisa lagi menggunakan metode estimasi (OLS) sebagaimana model regresi yang telah dibahas sebelumnya.
Tidak hanya pendekatan estimasi yang berbeda, interpretasi parameter model regresi dengan variabel kualitatif yang terdiri dari beberapa kategori juga berbeda.
Model regresi dengan variabel kualitatif merupakan salah satu
model yang dipergunakan pada situasi yang cenderung menggambarkan ketergantungan dalam bentuk peluang bersyarat.
Seperti halnya model regresi linier sebelumnya, model ini juga dapat digunakan untuk mengetahui hubungan atau pengaruh dua variabel independen atau lebih terhadap variabel dependen, baik secara bersama-sama maupun secara individu. Namun berbeda dengan model regresi sebelumnya, intepretasi hubungan antara variabel tak bebas dengan variabel bebes bersifat probabilistik.
Beberapa metode yang dapat digunakan untuk mengestimasi
model regresi dengan variabel respon kualitatif antara lain:
o Linear Probability Model (LPM)
o Logistic Regression
o Probit Regression
Sifat variabel dependen lainnya yang memberikan hambatan bagi penerapan OLS adalah count data. Disini nilai variabel dependen atau respon harus bersifat integer dan non negatif. Variabel semacam ini misalnya adalah frekuensi kunjungan,
jumlah anak, pembelian kendaraan bermotor, dsb. Regresi Poisson dapat mengakomodasikan variabel semacam ini.
Kemdian, jika nilai variabel dependen adalah kontinu tetapi hanya terbatas pada range tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam ini misalnya Indeks Prestasi, persentase kepesertaan pensiun, nilai TOEFL, dsb. Data yang dimiliki disebut censored jika nilai variabel tergantung dibatasi. Model untuk mengatasi masalah ini disebut censored regression.
Linear Probability Model
Linear Probability Model (LPM) merupakan metode regresi
bekerja dengan dasar bahwa variabel respon Y, yang
merupakan probabilita terjadinya sesuatu, mengikuti distribusi Bernoulli dimana:
Yi Probabilitas
1 Pi
0 1-Pi
Total 1
Estimasi parameter dalam LPM mengasumsikan bahwa
probabilitas bersifat linier terhadap variabel penjelas. Oleh karenanya model ini sangat minim dalam menjelaskan variabel dependen yang bersifat kategorik atau diskrit.
Oleh karena LPM mengasumsikan bahwa probabilitas bersifat linier terhadap variabel penjelas, maka parameter LPM diestimasi dengan menggunakan metode OLS.
Perhatikan model regresi berikut:
0 1
i i i
Y
X
(1)Dengan
o Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil.
o Xi = Pendapatan keluarga
o i adalah error term
Model (1) disebut juga dengan model LPM karena probabilitas
keputusan keluarga untuk membeli mobil adalah fungsi linier dari pendapatan individu.
Expexted value dari model (1) dinyatakan sebagai berikut:
i|
i
0 1 iE Y X
X
(2) Jika Pi adalah probabilitas bahwa Yi=1, atau keluarga membeli mobil, dan (1-Pi) adalah probabilitas bahwa Yi=0, atau keluarga tidak membeli mobil, maka:
i | i
1 i 0 1 i
iE Y X P P P (3)
Karena nilai suatu peluang Pi berada di antara 0 dan 1, maka:
Di antara pendekatan yang dapat digunakan untuk mengestimasi parameter model regresi dengan variabel respon kualitatif, pendekatan LPM relatif sedernaha karena parameter di estimasi dengan menggunakan metode OLS. Namun pendekatan LPM memiliki permasalahan karena melanggar asumsi-asumsi yang mendasari metode OLS, di antaranya:
1. Variabel error tidak berdistribusi normal. Bentuk (1) dapat dituliskan kembali menjadi:
0 1
i
Y
iX
i
(4)Sehingga:
Jika Yi=1 maka
i
1
0
1X
i dengan probabilitas Pi. Jika Yi=0 maka
i
0
0
1X
i dengan probabilitas (1-Pi). Dari hasil di atas, dapat di lihat bahwa variabel gangguan tidak berdistribusi normal, melainkan berdistribusi binomial atau berdistribusi Bernoulli.2. Varian error tidak konstan (bersifat heteroskedastis). Dalam LPM dapat ditunjukkan bahwa varian dari error tidak konstan atau bersifat heteroskedastis. Hal ini menunjukkan bahwa pendekatan LPM tidak menghasilkan varian yang minimum atau inefisien, atau penduga dari LPM tidak bersifat BLUE.
Perhatikan kembali:
Jika Yi=0 maka
i 0
0
1Xi dengan probabilitas (1-Pi). Sehingga
i i
1
0 1 i
1
i
0
0 1 i
0
E
P
X
P
X
2
2 var i Ei E i E i
2
2 0 1 0 1 1 1 0 i i i i P X P X , (karena Pi 0 1Xi)
2
2 0 1Xi 1 0 1Xi 1 0 1Xi 0 0 1Xi
1 0 1Xi
0 1Xi
1
i i P P Dari hasil di atas dapat dilihat bahwa varian dari error (var
i ) bergantung dari nilai Pi yang juga bergantung dariXi. Denga kata lain nilai dari var
i bervariasi dan tidakkonstan.
3. Nilai dari
E Y X
i|
i
tidak selalu terletak pada
0
E Y X
i|
i
1
.Dalam LPM kita tidak bisa menjamin bahwa nilai prediksi terhadap Y berada di antara range probabilita yang mungkin (0 sampai 1). Dalam LPM ada kalanya kita mendapatkan nilai prediksi Y di bawah 0 atau di atas 1. Namun untuk mengatasi permasalahan ini LPM mengasumsikan bahwa jika nilai prediksi Y di bawah 0 atau negatif, maka nilai prediksi Y
dianggap 0. Begitu juga jika nilai prediksi Y di atas 1, maka nilai prediksi Y dianggap 1.
4. R² tidak dapat digunakan sebagai pengukur Goodness of Fit Model.
Dalam model regresi “biasa” dengan variabel dependen numeris, metoda OLS menghasilkan R2 dapat yang dapat digunakan untuk mengkur Godness of Fit Model. Namun dalam LPM karena variabel dependen bersifat kualitatif atau dikotomis (0 dan 1) maka R² tidak menjamin nilai prediksi Y dekat dengan data aktualnya atau tidak variabel bebas dalam menjelaskan variasi dari nilai Y. Perhatikan sebaran data dan garis regresi LPM berikut:
Studi Kasus: Linear Probability Model Perhatikan Model regresi berikut:
0 1
i i i
Y
X
dengano Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil.
o Xi = Pendapatan keluarga (Juta Rupiah)
Dependent Variable: Y Method: Least Squares Date: 02/24/13 Time: 21:39 Sample: 1 130
Included observations: 130
Variable Coefficient Std. Error t-Statistic Prob. C -0.737692 0.031630 -23.32237 0.0000 X1 0.325728 0.008265 39.41071 0.0000 R-squared 0.923864 Mean dependent var 0.415385 Adjusted R-squared 0.923269 S.D. dependent var 0.494695 S.E. of regression 0.137032 Akaike info criterion -1.121940 Sum squared resid 2.403553 Schwarz criterion -1.077824 Log likelihood 74.92612 Hannan-Quinn criter. -1.104014 F-statistic 1553.204 Durbin-Watson stat 2.091671 Prob(F-statistic) 0.000000
Interpretasi:
Nilai koefsien estimasi X1 sebesar 0,3257 yang signifikan pada taraf nyata 5 persen menjelaskan bahwa pendapatan keluarga yang lebih tinggi 1 juta Rupiah memiliki peluang membeli mobil sebesar 32,57 persen lebih tinggi.
Logit Regression
Model regresi logit merupakan bentuk khusus dari model
regresi dimana variabel tak bebasnya bersifat kualitatif yang terbagi menjadi beberapa kategori (dikotomi)
Model regresi logit merupakan salah satu model yang dipergunakan pada situasi yang cenderung menggambarkan ketergantungan dalam bentuk peluang bersyarat
Model regresi logit tidak mengasumsikan hubungan antara
variabel independen dan dependen secara linier. Regresi logit merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva yang menunjukkan suatu fungsi logistik. F(z) 0,5 0 1 ( ) 1 z z e F z e
Model regresi logit biner adalah model regresi logit yang mana variabel tak bebasnya terdiri dari dua kategori, Y =1 (sukses) atau Y = 0 (berhasil) . Secara umum model regresi logit diformulasikan sebagai berikut:
Misalkan fungsi (5) dapat dinyatakan sebagai berikut:
0 1 1 2 2
( 1) ( ) i i k ki P Y P F z F X X X (5)
0 1 1 2 2
( 0) 1 1 i i k ki P Y P F X X X (6) Dari persamaan (5) dapat dilihat bahwa:
1
0 1 1 2 2
( )
i i k kiz
F
z
X
X
X
(7) Pada persamaan (7),F
1( )
z
disebut juga sebagai link function,yaitu suatu fungsi yang menghubungkan antara P dengan
persamaan pada ruas kanan persamaan (7).
Dalam model logit, link function yang digunakan dinyatakan sebagai fungsi logistik berikut:
( )
1
z ze
F z
e
(8) atau
0 1 1 2 2 0 1 1 2 2 0 1 1 2 2 1 ( ) 1 1 i i k ki i i k ki i i k ki X X X X X X X X X e F z e e Selanjutnya berdasarkan persamaan (8), dapat diperlihatkan bahwa:
( )
1
z z z ze
e
P
F z
e e
1
1
zP
e
e
z
1
P
1
1
1 1 1 z e P P P 1
1
1
1
ze P
P
P
P
P
1 1 1 z e P P P P 1
zP
e
P
1
zP
e
P
ln 1 P z P (9) Berdasarkan bentuk (7) dan (9), bentuk umum dari regresi logit biner dengan k variabel bebas dapat dinyatakan sebagai berikut: 0 1 1 2 2 ln 1 i i k ki i P z X X X u P (10) dengan
o P bernilai antara 0-1 dengan p adalah kemungkinan bahwa Y = 1
o X1, X2,…, Xk adalah variabel independen, dan adalah koefisien regresi.
Karena fungsi F(z) bersifat nonlinier, maka untuk mengestimasi parameter model regresi logit akan digunakan metode Maximum Estimation Likelihood (MLE).
Seperti halnya model regresi linier, pada model regresi logit dapat dilakukan pengujian signifikansi parameter secara individual dengan membandingkan nila p-value dari setiap koefisien estimasi dengan taraf nyata yang digunakan.
Sedangkan untuk menguji signifikansi koefisien estimasi secara keseluruhan dapat digunakan uji likelihood ratio yang memiliki distribusi Chi-square
2 Statistik LR diformulasikan sebagai berikut: LR = 2(lur - lr )
dengan lur adalah nilai log likelihood dengan restriksi (model
lengkap) dan lr nilai log likelihood tanpa restriksi (hanya
menyertakan intersep).
Regresi logistik menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.
Untuk menguji kecocokan model pada regresi logit dapat digunakan Hosmer and Lemeshow Goodness of Fit Test. Uji ini Menilai Over All Fit Model terhadap data dengan menggunakan hipotesis sebagai berikut :
H0: Model yang dihipotesiskan fit dengan data H1: Model yang dihipotesiskan tidak fit dengan data
Hosmer and Lemeshow Goodness of Fit Test menguji hipotesis
nolbahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga dapat dikatakan fit atau cocok). Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test kurang dari taraf nyata konvensional yang digunakan (0,05), maka hipotesis nol ditolak atau berarti ada perbedaan signifikan antara model dengan nilai observasinya, sehingga Over All Fit Model tidak terpenuhi karena model tidak dapat memprediksi nilai observasinya. Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test lebih besar dari 0,05, maka hipotesis nol diterima, hal ini menunjukkan model yang digunakan mampu memprediksi nilai observasinya atau dapat dikatakan model dapat diterima karena cocok dengan data observasinya.
Sama halnya dengan model regresi pada umumnya, koefisien determinasi (R2) pada model regresi logit pada dasarnya mengukur seberapa jauh kemampuan model dalam menerangkan variasi atau keragaman variabel dependen. Hal ini dinyatakan dengan berapa persen variabel dependen (Y) dapat dijelaskan oleh variabel independen (X) yang digunakan di dalam model.
Dalam regresi logit ukuran koefisien determinasi yang
digunakan adalah Nagelkerke’s R2 yang merupakan modifikasi
dari koefisien Cox and Snell untuk memastikan bahwa nilainya bervariasi dari nol (0) sampai dengan satu (1).
Nilai Nagelkerke’s R2 dapat diinterpretasikan seperti nilai koefisien determinasi (R2) pada regresi logistik (logit). Formulasi koefisien determinasi tersebut mengacu pada nilai likelihood function yang diekspresikan sebagai berikut:
0 1 2 0 2 log 2 log 2 log L L R L (4.3) dengan: L0 = nilai maksimum likelihood function (fungsi probabilitas)
jika semua koefisien slope kecuali intersep bernilai 0.
L1= nilai dari likelihood fuction untuk semua parameter di
Selain menggunakan Nagelkerke’s R2, pengukuran koefisien determinasi pada regresi logit dapat menggunakan pseudo R-squared (Mc Faden, 1974) yang diformulasikan sebagai berikut: 2
1
ur rl
Pseudo R
l
Studi Kasus: Logit Regression
Perhatikan Model regresi berikut:
0 1 1 2 2 31 31 32 32
i i i i i i
Y
X
X
X
X
dengano Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil.
o X1 = Usia Individu
o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita)
o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)).
o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)).
Dependent Variable: Y
Method: ML - Binary Logit (Quadratic hill climbing) Date: 02/24/13 Time: 22:02
Sample: 1 130
Included observations: 130
Convergence achieved after 4 iterations
Covariance matrix computed using second derivatives
C 2.760273 1.832108 1.506610 0.1319 X1 -0.103219 0.047407 -2.177285 0.0295 X2 0.760851 0.390235 1.949727 0.0512 X31 -0.016690 0.525905 -0.031735 0.9747 X32 0.815791 0.453115 1.800405 0.0718 McFadden R-squared 0.081866 Mean dependent var 0.415385 S.D. dependent var 0.494695 S.E. of regression 0.474726 Akaike info criterion 1.323306 Sum squared resid 28.17055 Schwarz criterion 1.433596 Log likelihood -81.01489 Hannan-Quinn criter. 1.368120 Restr. log likelihood -88.23861 LR statistic 14.44743 Avg. log likelihood -0.623191 Prob(LR statistic) 0.005996
Obs with Dep=0 76 Total obs 130 Obs with Dep=1 54
Interpretasi:
Koefisien dalam model logit menunjukkan perubahan dalam
logit sebagai akibat perubahan satu satuan variabel independent.
Dalam model logit, dikembangkan pengukuran yang dikenal
dengan nama odds ratio (). Odds ratio untuk masing-masing
variabel ditampilkan oleh SPSS sebagaimana yang terlihat tabel diatas (kolom Exp(B)).
Odds ratio dapat dirumuskan: e, dimana e adalah bilangan
natural dan adalah koefisien masing-masing variabel.
Sebagai contoh, odds ratio untuk variabel X1 adalah
0,1032
0,902
e
.
Dalam kasus variabel X1 (umur), dengan odds ratio sebesar 0,902 dapat diartikan bahwa konsumen yang berumur lebih tua
satu tahun peluang membeli mobilnya adalah 0,902 kali dibandingkan konsumen umur yang lebih muda (satu tahun), jika pendapatan dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki peluang yang lebih rendah dalam membeli mobil.
Dalam kasus variabel X2 (jenis kelamin dimana 1 = laki-laki dan 0 = wanita), dengan odds ratio sebesar 2,14 dapat diartikan bahwa peluang laki-laki untuk membeli mobil adalah 2,14 kali dibandingkan wanita, jika umur dan pendapatan mereka sama. Artinya laki-laki memiliki peluang lebih tinggi dalam membeli mobil dibandingkan wanita.
Selanjutnya, dalam konteks variabel pendapatan, terlihat
bahwa X31 tidak berpengaruh signifikan. Artinya, peluang membeli mobil antara konsumen pendapatan sedang dan pendapatan rendah adalah sama saja. Sebaliknya, untuk X32 dengan odds ratio 2,261, dapat diinterpretasikan bahwa peluang membeli mobil konsumen pendapatan tinggi adalah 2,261 kali dibandingkan pendapatan rendah, jika umur dan jenis kelaminnya sama.
Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED
Date: 02/24/13 Time: 22:08 Success cutoff: C = 0.5
Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 58 32 90 76 54 130
P(Dep=1)>C 18 22 40 0 0 0 Total 76 54 130 76 54 130 Correct 58 22 80 76 0 76 % Correct 76.32 40.74 61.54 100.00 0.00 58.46 % Incorrect 23.68 59.26 38.46 0.00 100.00 41.54 Total Gain* -23.68 40.74 3.08 Percent Gain** NA 40.74 7.41
Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 47.82 28.18 76.00 44.43 31.57 76.00 E(# of Dep=1) 28.18 25.82 54.00 31.57 22.43 54.00 Total 76.00 54.00 130.00 76.00 54.00 130.00 Correct 47.82 25.82 73.63 44.43 22.43 66.86 % Correct 62.92 47.81 56.64 58.46 41.54 51.43 % Incorrect 37.08 52.19 43.36 41.54 58.46 48.57 Total Gain* 4.45 6.27 5.21 Percent Gain** 10.72 10.72 10.72
*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation
Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow
Tests
Equation: UNTITLED Date: 02/24/13 Time: 22:12
Grouping based upon predicted risk (randomize ties)
Quantile of Risk Dep=0 Dep=1 Total H-L Low High Actual Expect Actual Expect Obs Value 1 0.1083 0.2029 11 10.7529 2 2.24711 13 0.03285 2 0.2029 0.2544 12 10.0288 1 2.97116 13 1.69516 3 0.2575 0.3188 11 9.31551 2 3.68449 13 1.07472 4 0.3188 0.3526 9 8.60296 4 4.39704 13 0.05417 5 0.3526 0.4010 8 7.96542 5 5.03458 13 0.00039 6 0.4010 0.4515 4 7.41045 9 5.58955 13 3.65045 7 0.4515 0.5004 3 6.73136 10 6.26864 13 4.28945 8 0.5166 0.5519 6 6.09153 7 6.90847 13 0.00259 9 0.5519 0.6266 5 5.35434 8 7.64566 13 0.03987 10 0.6651 0.8393 7 3.74669 6 9.25331 13 3.96872 Total 76 76.0000 54 54.0000 130 14.8084 H-L Statistic 14.8084 Prob. Chi-Sq(8) 0.0630
Model Regresi Probit
Pada dasarnya ide dasar dari model Probit sama dengan model
Logit. Kedua model tersebut sama-sama menggunakan Cummulative Distribution Function (CDF) yang lebih cocok dalam menjelaskan prilaku variabel respon yang bersifat kualitatif. Hanya saja pada model logit bentuk fungsi distsribusi yang digunakan adalah fungsi distribusi logistik, namun di sini model probit menggunakan bentuk fungsi distribusi normal. Perbandingan antara model distribusi logitan probit disajikan
pada Gambar berikut:
F(z) 0,5 0 1 Logit Probit
Model Distribusi Normal dan Distribusi Logit
Sekarang perhatikan persamaan regresi sebagai berikut:
1
0 1 1i 2 2i k ki
z
F
z
X
X
X
Jika terdapat suatu nilai kritikal (threshold) *
i
z yang lebih
kejadian sukses akan semakin besar, begitu juga sebaliknya. Kondisi ini dapat ditulis sebagai berikut:
* * Sukses (1) ; Kejadian Gagal (0) ; i i i i z z z z Probabilitas * i i
z z dapat dihitung dari standardize normal CDF:
*
0 1 1 2 2
(
1)
(
i i)
i i k kiP Y
P
F z
z
F
X
X
X
Dimana P Y( 1) menjelaskan bahwa probabilitas terjadinya
sukses untuk nilai X tertentu dan zi adalah variabel standar
normal dimana
2
~ 0, i
z N . Selanjutnya standar normal CDF
dapat dituliskan sebagai berikut:
1
2/ 22
i z z i iP
F Z
e
dz
0 1 1 2 2 2 / 2 1 2 i i k ki X X X z i i P F Z e dz
Dari persamaan di atas Pi menyatakan probabilitas terjadinya
kejadian sukses, kondisi ini digambarkan oleh area kurva standar di bawah normal dari sampai zi. Nilai Pi akan
terletak di antara 0 sampai 1.
Seperti halnya regresi logit, interpretasi hasil estimasi regresi probit tidak bisa diinterpretasikan secara langsung. Bila dalam regresi logit kita dapat menjelaskan bagaimana pengaruh parsial dari setiap variabel bebas terhadap variabel tak bebas
dengan menggunakan odds ratio, maka dalam kasus regresi probit kita dapat menggunakan marginal effect.
Marginal effect dari variabel Xi terhadap P(Y=1) adalah:
0 1 1 2 2
(
1)
ˆ
ˆ
ˆ
ˆ
ˆ
i i i k ki iP Y
F
X
X
X
X
Studi Kasus: Model Regresi Probit
Perhatikan studi kasus sebelumnya dimana diberikan:
0 1 1 2 2 31 31 32 32
i i i i i i
Y
X
X
X
X
dengano Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil.
o X1 = Usia Individu
o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita)
o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)).
o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)). Sekarang untuk mengestimasi parameter di atas akan digunakan model regresi probit, hasilnya disajikan sebagai berikut:
Dependent Variable: Y
Method: ML - Binary Probit (Quadratic hill climbing) Date: 02/09/14 Time: 19:19
Sample: 1 130
Included observations: 130
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob. C 1.572183 1.084735 1.449370 0.1472 X1 -0.060491 0.027778 -2.177676 0.0294 X2 0.465701 0.238468 1.952882 0.0508 X31 0.004391 0.323401 0.013578 0.9892 X32 0.507990 0.277595 1.829968 0.0673 McFadden R-squared 0.081648 Mean dependent var 0.415385 S.D. dependent var 0.494695 S.E. of regression 0.474945 Akaike info criterion 1.323601 Sum squared resid 28.19664
Schwarz criterion 1.433891 Log likelihood -81.03408 Hannan-Quinn criter. 1.368416 Deviance 162.0682 Restr. deviance 176.4772 Restr. log likelihood -88.23861 LR statistic 14.40904 Avg. log likelihood -0.623339 Prob(LR statistic) 0.006098
Obs with Dep=0 76 Total obs 130 Obs with Dep=1 54
Marginal Effect: Dibahas dikelas….
Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED
Date: 02/09/14 Time: 19:25 Success cutoff: C = 0.5
Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 58 32 90 76 54 130 P(Dep=1)>C 18 22 40 0 0 0 Total 76 54 130 76 54 130 Correct 58 22 80 76 0 76 % Correct 76.32 40.74 61.54 100.00 0.00 58.46 % Incorrect 23.68 59.26 38.46 0.00 100.00 41.54 Total Gain* -23.68 40.74 3.08 Percent Gain** NA 40.74 7.41
Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 47.98 28.40 76.37 44.43 31.57 76.00 E(# of Dep=1) 28.02 25.60 53.63 31.57 22.43 54.00 Total 76.00 54.00 130.00 76.00 54.00 130.00 Correct 47.98 25.60 73.58 44.43 22.43 66.86 % Correct 63.13 47.41 56.60 58.46 41.54 51.43 % Incorrect 36.87 52.59 43.40 41.54 58.46 48.57 Total Gain* 4.67 5.87 5.17 Percent Gain** 11.23 10.05 10.64
*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation
Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow
Tests
Equation: UNTITLED Date: 02/09/14 Time: 19:20
Grouping based upon predicted risk (randomize ties)
Quantile of Risk Dep=0 Dep=1 Total H-L Low High Actual Expect Actual Expect Obs Value 1 0.1027 0.1984 11 10.7872 2 2.21282 13 0.02467 2 0.1984 0.2527 12 10.0633 1 2.93672 13 1.64997 3 0.2527 0.3226 11 9.29891 2 3.70109 13 1.09304 4 0.3226 0.3513 9 8.58949 4 4.41051 13 0.05783 5 0.3530 0.3988 8 7.96337 5 5.03663 13 0.00043 6 0.4064 0.4444 4 7.42789 9 5.57211 13 3.69074 7 0.4462 0.5021 3 6.79293 10 6.20707 13 4.43557 8 0.5094 0.5502 5 6.15793 8 6.84207 13 0.41370 9 0.5502 0.6209 6 5.43969 7 7.56031 13 0.09924 10 0.6504 0.8348 7 3.85416 6 9.14584 13 3.64976 Total 76 76.3748 54 53.6252 130 15.1150 H-L Statistic 15.1150 Prob. Chi-Sq(8) 0.0569
Andrews Statistic 16.3834 Prob. Chi-Sq(10) 0.0892
Model Regresi Poisson
Pada umumnya analisis regresi digunakan untuk menganalisa variabel respon yang merupakan data kontinu dan mengikuti distribusi normal. Namun dalam beberapa aplikasinya, variabel respon yang akan dianalisisa dapat berupa data diskrit atau data cacahan (count data).
Salah satu contoh variabel respon diskrit (count data) adalah banyaknya kejadian yang jarang terjadi (rare event). Misalkan banyaknya kecelakaan mobil setiap bulan, banyaknya hujan badai setiap tahun, banyaknya kebakaran hutan setiap tahun, dan banyaknya penderita kanker paru-paru yang meninggal setiap tahun.
Salah satu model regresi yang dapat digunakan untuk menjelaskan hubungan antara variabel respon Y yang berupa data diskrit dengan variabel prediktor X berupa data diskrit, kontinu, kategorik atau campuran adalah model regresi Poisson.
Model Regresi Poisson digunakan ketika variabel respon
bersifat count variabel, ia hanya dapat mengambil nilai non negative integer value (0,1,2, ...).
Model regresi Poisson berasal dari distribusi Poisson dengan
parameter intensitas yang bergantung pada variabel
prediktor. Dalam model regresi Poisson terdapat beberapa asumsi yang harus dipenuhi yakni equidispersi yang berarti nilai variansi dari variabel respon Y yang diberikan oleh X = x harus sama dengan nilai meannya yaitu Var(Y|x) = E(Y|x) = . Jika i adalah rata-rata jumlah kejadian dalam periode t dan
diasumsikan i tidak berubah dari titik data ke titik data secara bebas maka dapat dimodelkan sebagai fungsi dari k variabel prediktor.
Dalam Generalized Linier Model (GLM), terdapat sebuah fungsi
g yang menghubungkan rata-rata dari variabel responnya
dengan sebuah prediktor linier, yaitu:
i 0 1 i1 2 i2 k ikg
x
x
x
Pada model regresi Poisson, fungsi penghubung yang digunakan adalah fungsi penghubung log karena fungsi log menjamin bahwa nilai variabel yang diharapkan dari variabel responnya akan bernilai nonnegatif.
Berikut ini adalah fungsi penghubung yang digunakan untuk model regresi Poisson:
0 1 1 2 2ln
E y x
|
ln
i
x
i
x
i
kx
ik
0 1 1 2 2 ˆ i i i k ik x x x x ie
e
Masing-masing parameter dari persamaan di atas dapat diinterpretasikan sebagai:
%
E y x
|
100
j
x
jDengan kata lain koefisien regresi akan diintrepretasikan sebagai persentase perubahan variabel tergantung akibat perubahan l unit variabel bebas.
Model persamaan di atas bersifat non linier lebih lanjut distribusi dari variabel tergantung (y) adalah non normal (yakni Poisson Distribution). Dengan demikian diperlukan suatu teknik khusus untuk melakukan estimasi terhadap parameter model. Disini dapat digunakan metode Maximum Likelihood Estimation (MLE) atau Quasi Maximum Likelihood Estimation (QMLE). Kita tidak akan menguraikan bagaimana
estimasi dilakukan karena sangat kompleks dan diluar pembahasan, lihat Wooldridge, 1999 bab 19.
Studi Kasus Model Regresi Poisson
Pada studi kasus ini akan diestimasi hubungan antara frekuensi seseorang ditahan (NARR86) dengan berbagai variabel demografis, efektivitas pengadilan, dsb dengan menggunakan model Poisson Regression. Hasil regresi poisson disajikan sebagai berikut:
Dependent Variable: NARR86
Method: ML/QML - Poisson Count (Quadratic hill climbing) Date: 02/08/14 Time: 21:31
Sample: 1 2725
Included observations: 2725
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob. C -0.599589 0.067250 -8.915807 0.0000 PCNV -0.401571 0.084971 -4.725971 0.0000 AVGSEN -0.023772 0.019946 -1.191831 0.2333 TOTTIME 0.024490 0.014750 1.660318 0.0969 PTIME86 -0.098558 0.020695 -4.762515 0.0000 QEMP86 -0.038019 0.029024 -1.309897 0.1902 INC86 -0.008081 0.001041 -7.762374 0.0000 BLACK 0.660838 0.073834 8.950290 0.0000 HISPAN 0.499813 0.073927 6.760931 0.0000 BORN60 -0.051029 0.064052 -0.796677 0.4256 R-squared 0.076988 Mean dependent var 0.404404 Adjusted R-squared 0.073928 S.D. dependent var 0.859077 S.E. of regression 0.826712 Akaike info criterion 1.657806 Sum squared resid 1855.574 Schwarz criterion 1.679495 Log likelihood -2248.761 Hannan-Quinn criter. 1.665646 Restr. log likelihood -2441.921 LR statistic 386.3197 Avg. log likelihood -0.825233 Prob(LR statistic) 0.000000
Interpretasi: Sebagai ilustrasi, koefisien black=0.66 yang signifikan pada taraf nyata 5% menjelaskan bahwa dengan
benchmark kulit putih, dan mengasumsikan variabel lainnya konstan (ceteris paribus), orang kulit hitam diduga memiliki 66% frekuensi penahanan yang lebih tinggi dibandingkan orang kulit putih.
Model Censored Regression
Model censored regression dilakukan ketika (karena alasan tertentu) kita harus membatasi nilai yang dapat diambil oleh suatu variabel dependen. Sebagai contoh, misalkan dalam survey terhadap variabel pengeluaran per bulan, variabel ini dijadikan bersifat kategorik. Kuesioner biasanya tidak mencantumkan setiap pilihan jumlah pengeluaran yang mungkin. Praktik yang umum dilakukan adalah membuat batas atas dan batas bawah.
Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 10 juta per bulan (right censoring) dan dibawah 1 juta per bulan (left censoring). Begitu seorang responden memilih opsi ini, kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang sebenarnya, ia mungkin memiliki pengeluaran 10,5 juta tetapi bisa juga 100 juta. Tentu saja implikasi analisis dari dua data semacam ini sangat berbeda, tetapi kita telah mengabaikannya.
2
0 1 1 2 2;
0,
i i i k ik i iy
x
x
x
u
u
N
min
,
i i iw
y c
Dimana ci adalah batas atas, dengan demikian nilai y adalah
yang terkecil, yi atau ci.
Parameter regresi dapat diestimasi dengan menggunakan
teknik MLE, dimana observasi yang disensor diharapkan memiliki probabilitas sebagai berikut:
1 / ; | , 1 / ; i i i i i i i c x w c f w x c w x w c
Studi Kasus: Model Censored Regression
Pada studi kasus ini akan dilakukan estimasi durasi (dalam bulan) seorang residivis yang telah bebas untuk kembali ditangkap. Karena durasi tidak mungkin negatif, dengan demikian ia adalah left censored dititik nol, sedangkan durasi
ditangkap kembali dapat mencapai beberapa
tahun kemudian sehingga perlu suatu batas atas (disini digunakan 70 bulan).
Berbagai variabel digunakan untuk menjelaskan durasi
diantaranya lama kepesertaan pelatihan kerja dipenjara (wrkprg), sudah berapa kali masuk penjara (priors), total
waktu dipenjara (tserved), dsb. Hasil regresi terhadap 1445 sampel disajikan sebagai berikut:
Dependent Variable: LOG(DURAT)
Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing) Date: 02/08/14 Time: 22:19
Sample: 1 1445
Included observations: 1445 Left censoring (value) series: 0 Right censoring (value) series: 70 Convergence achieved after 3 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob. C 3.567525 0.138174 25.81901 0.0000 WORKPRG 0.007993 0.049024 0.163040 0.8705 PRIORS -0.060028 0.009208 -6.518902 0.0000 TSERVED -0.009377 0.001303 -7.197627 0.0000 FELON 0.178753 0.058497 3.055778 0.0022 ALCOHOL -0.263500 0.059903 -4.398816 0.0000 DRUGS -0.089668 0.055023 -1.629647 0.1032 BLACK -0.179162 0.047511 -3.770965 0.0002 MARRIED 0.135223 0.055522 2.435496 0.0149 EDUC 0.005333 0.009941 0.536425 0.5917 AGE 0.001332 0.000225 5.912596 0.0000 Error Distribution SCALE:C(12) 0.877626 0.016408 53.48774 0.0000 Mean dependent var 3.745150 S.D. dependent var 0.925045 S.E. of regression 0.876645 Akaike info criterion 2.600005 Sum squared resid 1101.269 Schwarz criterion 2.643818 Log likelihood -1866.503 Hannan-Quinn criter. 2.616357 Avg. log likelihood -1.291698
Left censored obs 8 Right censored obs 0 Uncensored obs 1437 Total obs 1445
Dalam kasus di atas, variabel respon dinyatakan dalam bentuk
logaritma (log(durat)). Dengan demikian setiap parameter yang diestimasi dapat diinterpretasikan sebagai semilog. Setiap
kenaikan satu unit variabel bebas akan menyebabkan sebesar %y perubahan pada variabel respon.
Sebagai ilustrasi, pada hasil di atas dapat dilihat bahwa:
o Koefisien estimasi PRIORS sebesar -0,06 yang signifikan pada taraf nyata 5% menjelaskan bahwa, residivis yang memiliki frekuensi dipenjara sebelumnya lebih tinggi satu unit dibanding residivis lainnya, diduga akan mengurangi durasi ditangkap kembali sebesar 6% (atau 6% lebih cepat ditangkap).
o Koefisien estimasi MARRIED sebesar 0,135 yang signifikan
pada taraf nyata 5% menjelaskan bahwa pernikahan memiliki dampak positif terhadap durasi, dimana residivis yang menikah memiliki durasi ditangkap kembali 13,5% lebih lama dibandingkan yang tidak menikah.