LECTURE NOTES LIMITED DEPENDENT VARIABLE (LDV) MODEL

(1)

LECTURE NOTES

LIMITED DEPENDENT VARIABLE (LDV) MODEL

Pendahuluan

 Pada bahasan sebelumnya telah dibahas model regresi linier dimana variabel dependen (respons) bertipe numerik dan diasumsikan dapat mengambil nilai berapapun tanpa adanya batasan.

 Dalam beberapa kasus, seringkali peneliti membangun model regresi dengan variabel tak bebas yang bersifat kualitatif untuk menjawab fenomena permasalahan yang dihadapi.

 Variabel yang bersifat kualitatif umumnya bersifat nominal yang terdiri dari beberapa kategori (dikotomi). Variabel dikotomi biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak adanya suatu kejadian, seperti: berhasil atau gagal; lulus atau tidak lulus; melakukan pembelian atau tidak; terpilih atau tidak terpilih; dan lain-lain. Namun dalam kasus tertentu juga dimungkinkan vaiabel dikotomi dengan lebih dari dua nilai.

 Untuk mengestimasi parameter model dengan variabel respon

kualitatif, kita tidak bisa lagi menggunakan metode estimasi (OLS) sebagaimana model regresi yang telah dibahas sebelumnya.

(2)

 Tidak hanya pendekatan estimasi yang berbeda, interpretasi parameter model regresi dengan variabel kualitatif yang terdiri dari beberapa kategori juga berbeda.

 Model regresi dengan variabel kualitatif merupakan salah satu

model yang dipergunakan pada situasi yang cenderung menggambarkan ketergantungan dalam bentuk peluang bersyarat.

 Seperti halnya model regresi linier sebelumnya, model ini juga dapat digunakan untuk mengetahui hubungan atau pengaruh dua variabel independen atau lebih terhadap variabel dependen, baik secara bersama-sama maupun secara individu. Namun berbeda dengan model regresi sebelumnya, intepretasi hubungan antara variabel tak bebas dengan variabel bebes bersifat probabilistik.

 Beberapa metode yang dapat digunakan untuk mengestimasi

model regresi dengan variabel respon kualitatif antara lain:

o Linear Probability Model (LPM)

o Logistic Regression

o Probit Regression

 Sifat variabel dependen lainnya yang memberikan hambatan bagi penerapan OLS adalah count data. Disini nilai variabel dependen atau respon harus bersifat integer dan non negatif. Variabel semacam ini misalnya adalah frekuensi kunjungan,

(3)

jumlah anak, pembelian kendaraan bermotor, dsb. Regresi Poisson dapat mengakomodasikan variabel semacam ini.

 Kemdian, jika nilai variabel dependen adalah kontinu tetapi hanya terbatas pada range tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam ini misalnya Indeks Prestasi, persentase kepesertaan pensiun, nilai TOEFL, dsb. Data yang dimiliki disebut censored jika nilai variabel tergantung dibatasi. Model untuk mengatasi masalah ini disebut censored regression.

Linear Probability Model

 Linear Probability Model (LPM) merupakan metode regresi

bekerja dengan dasar bahwa variabel respon Y, yang

merupakan probabilita terjadinya sesuatu, mengikuti distribusi Bernoulli dimana:

Yi Probabilitas

1 Pi

0 1-Pi

Total 1

 Estimasi parameter dalam LPM mengasumsikan bahwa

probabilitas bersifat linier terhadap variabel penjelas. Oleh karenanya model ini sangat minim dalam menjelaskan variabel dependen yang bersifat kategorik atau diskrit.

(4)

 Oleh karena LPM mengasumsikan bahwa probabilitas bersifat linier terhadap variabel penjelas, maka parameter LPM diestimasi dengan menggunakan metode OLS.

 Perhatikan model regresi berikut:

0 1

i i i

Y









X





₍₁₎

Dengan

o Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil.

o Xi = Pendapatan keluarga

o i adalah error term

 Model (1) disebut juga dengan model LPM karena probabilitas

keputusan keluarga untuk membeli mobil adalah fungsi linier dari pendapatan individu.

 Expexted value dari model (1) dinyatakan sebagai berikut:



i

|

i



0 1 i

E Y X









X

₍₂₎

 Jika Pi adalah probabilitas bahwa Yi=1, atau keluarga membeli mobil, dan (1-Pi) adalah probabilitas bahwa Yi=0, atau keluarga tidak membeli mobil, maka:



_i | _i

   

1 _i 0 1 _i



_i

E Y X  P  P P (3)

 Karena nilai suatu peluang Pi berada di antara 0 dan 1, maka:





(5)

 Di antara pendekatan yang dapat digunakan untuk mengestimasi parameter model regresi dengan variabel respon kualitatif, pendekatan LPM relatif sedernaha karena parameter di estimasi dengan menggunakan metode OLS. Namun pendekatan LPM memiliki permasalahan karena melanggar asumsi-asumsi yang mendasari metode OLS, di antaranya:

1. Variabel error tidak berdistribusi normal. Bentuk (1) dapat dituliskan kembali menjadi:

0 1

i

Y

i

X

i



 







₍₄₎

Sehingga:

Jika Yi=1 maka



i

 

1 

0





1

X

i dengan probabilitas Pi. Jika Yi=0 maka



i

 

0 

0





1

X

i dengan probabilitas (1-Pi). Dari hasil di atas, dapat di lihat bahwa variabel gangguan tidak berdistribusi normal, melainkan berdistribusi binomial atau berdistribusi Bernoulli.

2. Varian error tidak konstan (bersifat heteroskedastis). Dalam LPM dapat ditunjukkan bahwa varian dari error tidak konstan atau bersifat heteroskedastis. Hal ini menunjukkan bahwa pendekatan LPM tidak menghasilkan varian yang minimum atau inefisien, atau penduga dari LPM tidak bersifat BLUE.

Perhatikan kembali:

(6)

Jika Yi=0 maka



i  0



0



1Xi dengan probabilitas (1-Pi). Sehingga

 

i i



1

0 1 i

 

1

i



0

0 1 i



0 E





P









X

 

P









X



 

2

 

₂ var _i  E__i E _i _  E _i



 

2





2 0 1 0 1 1 1 0 i i i i P   X P   X        , (karena Pi 0 1Xi)







2









2 0 1Xi 1 0 1Xi 1 0 1Xi 0 0 1Xi                 



1 0 1Xi



0 1Xi



   



1



i i P P  

Dari hasil di atas dapat dilihat bahwa varian dari error (var

 

_i ) bergantung dari nilai Pi yang juga bergantung dari

Xi. Denga kata lain nilai dari var

 

_i bervariasi dan tidak

konstan.

3. Nilai dari

E Y X



_i

|

_i



_{tidak selalu terletak pada}





0 

E Y X

_i

|

_i



1

_.

Dalam LPM kita tidak bisa menjamin bahwa nilai prediksi terhadap Y berada di antara range probabilita yang mungkin (0 sampai 1). Dalam LPM ada kalanya kita mendapatkan nilai prediksi Y di bawah 0 atau di atas 1. Namun untuk mengatasi permasalahan ini LPM mengasumsikan bahwa jika nilai prediksi Y di bawah 0 atau negatif, maka nilai prediksi Y

(7)

dianggap 0. Begitu juga jika nilai prediksi Y di atas 1, maka nilai prediksi Y dianggap 1.

4. R² tidak dapat digunakan sebagai pengukur Goodness of Fit Model.

Dalam model regresi “biasa” dengan variabel dependen numeris, metoda OLS menghasilkan R2_{dapat yang dapat} digunakan untuk mengkur Godness of Fit Model. Namun dalam LPM karena variabel dependen bersifat kualitatif atau dikotomis (0 dan 1) maka R² tidak menjamin nilai prediksi Y dekat dengan data aktualnya atau tidak variabel bebas dalam menjelaskan variasi dari nilai Y. Perhatikan sebaran data dan garis regresi LPM berikut:

Studi Kasus: Linear Probability Model Perhatikan Model regresi berikut:

0 1

i i i

Y









X





dengan

(8)

o Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil.

o Xi = Pendapatan keluarga (Juta Rupiah)

Dependent Variable: Y Method: Least Squares Date: 02/24/13 Time: 21:39 Sample: 1 130

Included observations: 130

Variable Coefficient Std. Error t-Statistic Prob. C -0.737692 0.031630 -23.32237 0.0000 X1 0.325728 0.008265 39.41071 0.0000 R-squared 0.923864 Mean dependent var 0.415385 Adjusted R-squared 0.923269 S.D. dependent var 0.494695 S.E. of regression 0.137032 Akaike info criterion -1.121940 Sum squared resid 2.403553 Schwarz criterion -1.077824 Log likelihood 74.92612 Hannan-Quinn criter. -1.104014 F-statistic 1553.204 Durbin-Watson stat 2.091671 Prob(F-statistic) 0.000000

Interpretasi:

 Nilai koefsien estimasi X1 sebesar 0,3257 yang signifikan pada taraf nyata 5 persen menjelaskan bahwa pendapatan keluarga yang lebih tinggi 1 juta Rupiah memiliki peluang membeli mobil sebesar 32,57 persen lebih tinggi.

Logit Regression

 Model regresi logit merupakan bentuk khusus dari model

regresi dimana variabel tak bebasnya bersifat kualitatif yang terbagi menjadi beberapa kategori (dikotomi)

(9)

 Model regresi logit merupakan salah satu model yang dipergunakan pada situasi yang cenderung menggambarkan ketergantungan dalam bentuk peluang bersyarat

 Model regresi logit tidak mengasumsikan hubungan antara

variabel independen dan dependen secara linier. Regresi logit merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva yang menunjukkan suatu fungsi logistik. F(z) 0,5 0 1   ( ) 1 z z e F z e  

 Model regresi logit biner adalah model regresi logit yang mana variabel tak bebasnya terdiri dari dua kategori, Y =1 (sukses) atau Y = 0 (berhasil) . Secara umum model regresi logit diformulasikan sebagai berikut:

 Misalkan fungsi (5) dapat dinyatakan sebagai berikut:



0 1 1 2 2



( 1) ( ) _i _i _k _ki P Y   P F z F   X  X   X (5)



0 1 1 2 2



( 0) 1 1 _i _i _k _ki P Y     P F   X  X   X (6)

(10)

 Dari persamaan (5) dapat dilihat bahwa:

1

0 1 1 2 2

( )

_i _i _k _ki

z



F



z









X





X





X

₍₇₎  Pada persamaan (7),

F

1

( )

z

_{disebut juga sebagai}_{link function}_,

yaitu suatu fungsi yang menghubungkan antara P dengan

persamaan pada ruas kanan persamaan (7).

 Dalam model logit, link function yang digunakan dinyatakan sebagai fungsi logistik berikut:

( )

1

z z

e

F z

e





(8) atau    



 



0 1 1 2 2 0 1 1 2 2 0 1 1 2 2 1 ( ) 1 1 i i k ki i i k ki i i k ki X X X X X X X X X e F z e e                             

Selanjutnya berdasarkan persamaan (8), dapat diperlihatkan bahwa:

( )

1

z z z z

e

P

F z

e e

 





1

z

P

e









e

z



1 

P



1 

1



₁ 1 1 z e P P P  _   

(11)

1

z

e P

P









1 1 1 z e P P P P  _   

1

z

P

e

P



_



1

z

P

e

P





ln 1 P z P    _ _ _ (9)

 Berdasarkan bentuk (7) dan (9), bentuk umum dari regresi logit biner dengan k variabel bebas dapat dinyatakan sebagai berikut: 0 1 1 2 2 ln 1 i i k ki i P z X X X u P      _{   } _ _ _ _  _    (10) dengan

o P bernilai antara 0-1 dengan p adalah kemungkinan bahwa Y = 1

o X1, X2,…, Xk adalah variabel independen, dan  adalah koefisien regresi.

 Karena fungsi F(z) bersifat nonlinier, maka untuk mengestimasi parameter model regresi logit akan digunakan metode Maximum Estimation Likelihood (MLE).

(12)

 Seperti halnya model regresi linier, pada model regresi logit dapat dilakukan pengujian signifikansi parameter secara individual dengan membandingkan nila p-value dari setiap koefisien estimasi dengan taraf nyata yang digunakan.

 Sedangkan untuk menguji signifikansi koefisien estimasi secara keseluruhan dapat digunakan uji likelihood ratio yang memiliki distribusi Chi-square

 

2

 Statistik LR diformulasikan sebagai berikut: LR = 2(lur - lr )

dengan lur adalah nilai log likelihood dengan restriksi (model

lengkap) dan lr nilai log likelihood tanpa restriksi (hanya

menyertakan intersep).

 Regresi logistik menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.

(13)

 Untuk menguji kecocokan model pada regresi logit dapat digunakan Hosmer and Lemeshow Goodness of Fit Test. Uji ini Menilai Over All Fit Model terhadap data dengan menggunakan hipotesis sebagai berikut :

H0: Model yang dihipotesiskan fit dengan data H1: Model yang dihipotesiskan tidak fit dengan data

 Hosmer and Lemeshow Goodness of Fit Test menguji hipotesis

nolbahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga dapat dikatakan fit atau cocok). Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test kurang dari taraf nyata konvensional yang digunakan (0,05), maka hipotesis nol ditolak atau berarti ada perbedaan signifikan antara model dengan nilai observasinya, sehingga Over All Fit Model tidak terpenuhi karena model tidak dapat memprediksi nilai observasinya. Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test lebih besar dari 0,05, maka hipotesis nol diterima, hal ini menunjukkan model yang digunakan mampu memprediksi nilai observasinya atau dapat dikatakan model dapat diterima karena cocok dengan data observasinya.

(14)

 Sama halnya dengan model regresi pada umumnya, koefisien determinasi (R2_{) pada model regresi logit pada dasarnya} mengukur seberapa jauh kemampuan model dalam menerangkan variasi atau keragaman variabel dependen. Hal ini dinyatakan dengan berapa persen variabel dependen (Y) dapat dijelaskan oleh variabel independen (X) yang digunakan di dalam model.

 Dalam regresi logit ukuran koefisien determinasi yang

digunakan adalah Nagelkerke’s R2_{yang merupakan modifikasi}

dari koefisien Cox and Snell untuk memastikan bahwa nilainya bervariasi dari nol (0) sampai dengan satu (1).

 Nilai Nagelkerke’s R2_{dapat diinterpretasikan seperti nilai} koefisien determinasi (R2_{) pada regresi logistik (logit).} Formulasi koefisien determinasi tersebut mengacu pada nilai likelihood function yang diekspresikan sebagai berikut:





0 1 2 0 2 log 2 log 2 log L L R L      (4.3) dengan:

 L0 = nilai maksimum likelihood function (fungsi probabilitas)

jika semua koefisien slope kecuali intersep bernilai 0.

 L1= nilai dari likelihood fuction untuk semua parameter di

(15)

 Selain menggunakan Nagelkerke’s R2_{, pengukuran koefisien} determinasi pada regresi logit dapat menggunakan pseudo R-squared (Mc Faden, 1974) yang diformulasikan sebagai berikut: 2

1

ur r

l

Pseudo R

l

 

Studi Kasus: Logit Regression

 Perhatikan Model regresi berikut:

0 1 1 2 2 31 31 32 32

i i i i i i

Y









X





X





X





X





dengan

o Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil.

o X1 = Usia Individu

o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita)

o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)).

o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)).

Dependent Variable: Y

Method: ML - Binary Logit (Quadratic hill climbing) Date: 02/24/13 Time: 22:02

Sample: 1 130

Convergence achieved after 4 iterations

Covariance matrix computed using second derivatives

(16)

C 2.760273 1.832108 1.506610 0.1319 X1 -0.103219 0.047407 -2.177285 0.0295 X2 0.760851 0.390235 1.949727 0.0512 X31 -0.016690 0.525905 -0.031735 0.9747 X32 0.815791 0.453115 1.800405 0.0718 McFadden R-squared 0.081866 Mean dependent var 0.415385 S.D. dependent var 0.494695 S.E. of regression 0.474726 Akaike info criterion 1.323306 Sum squared resid 28.17055 Schwarz criterion 1.433596 Log likelihood -81.01489 Hannan-Quinn criter. 1.368120 Restr. log likelihood -88.23861 LR statistic 14.44743 Avg. log likelihood -0.623191 Prob(LR statistic) 0.005996

Obs with Dep=0 76 Total obs 130 Obs with Dep=1 54

Interpretasi:

 Koefisien dalam model logit menunjukkan perubahan dalam

logit sebagai akibat perubahan satu satuan variabel independent.

 Dalam model logit, dikembangkan pengukuran yang dikenal

dengan nama odds ratio (). Odds ratio untuk masing-masing

variabel ditampilkan oleh SPSS sebagaimana yang terlihat tabel diatas (kolom Exp(B)).

 Odds ratio dapat dirumuskan:  e, dimana e adalah bilangan

natural dan  adalah koefisien masing-masing variabel.

 Sebagai contoh, odds ratio untuk variabel X1 adalah

0,1032

0,902

e

   .

Dalam kasus variabel X1 (umur), dengan odds ratio sebesar 0,902 dapat diartikan bahwa konsumen yang berumur lebih tua

(17)

satu tahun peluang membeli mobilnya adalah 0,902 kali dibandingkan konsumen umur yang lebih muda (satu tahun), jika pendapatan dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki peluang yang lebih rendah dalam membeli mobil.

 Dalam kasus variabel X2 (jenis kelamin dimana 1 = laki-laki dan 0 = wanita), dengan odds ratio sebesar 2,14 dapat diartikan bahwa peluang laki-laki untuk membeli mobil adalah 2,14 kali dibandingkan wanita, jika umur dan pendapatan mereka sama. Artinya laki-laki memiliki peluang lebih tinggi dalam membeli mobil dibandingkan wanita.

 Selanjutnya, dalam konteks variabel pendapatan, terlihat

bahwa X31 tidak berpengaruh signifikan. Artinya, peluang membeli mobil antara konsumen pendapatan sedang dan pendapatan rendah adalah sama saja. Sebaliknya, untuk X32 dengan odds ratio 2,261, dapat diinterpretasikan bahwa peluang membeli mobil konsumen pendapatan tinggi adalah 2,261 kali dibandingkan pendapatan rendah, jika umur dan jenis kelaminnya sama.

Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED

Date: 02/24/13 Time: 22:08 Success cutoff: C = 0.5

Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 58 32 90 76 54 130

(18)

P(Dep=1)>C 18 22 40 0 0 0 Total 76 54 130 76 54 130 Correct 58 22 80 76 0 76 % Correct 76.32 40.74 61.54 100.00 0.00 58.46 % Incorrect 23.68 59.26 38.46 0.00 100.00 41.54 Total Gain* -23.68 40.74 3.08 Percent Gain** NA 40.74 7.41

Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 47.82 28.18 76.00 44.43 31.57 76.00 E(# of Dep=1) 28.18 25.82 54.00 31.57 22.43 54.00 Total 76.00 54.00 130.00 76.00 54.00 130.00 Correct 47.82 25.82 73.63 44.43 22.43 66.86 % Correct 62.92 47.81 56.64 58.46 41.54 51.43 % Incorrect 37.08 52.19 43.36 41.54 58.46 48.57 Total Gain* 4.45 6.27 5.21 Percent Gain** 10.72 10.72 10.72

*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation

Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow

Tests

Equation: UNTITLED Date: 02/24/13 Time: 22:12

Grouping based upon predicted risk (randomize ties)

Quantile of Risk Dep=0 Dep=1 Total H-L Low High Actual Expect Actual Expect Obs Value 1 0.1083 0.2029 11 10.7529 2 2.24711 13 0.03285 2 0.2029 0.2544 12 10.0288 1 2.97116 13 1.69516 3 0.2575 0.3188 11 9.31551 2 3.68449 13 1.07472 4 0.3188 0.3526 9 8.60296 4 4.39704 13 0.05417 5 0.3526 0.4010 8 7.96542 5 5.03458 13 0.00039 6 0.4010 0.4515 4 7.41045 9 5.58955 13 3.65045 7 0.4515 0.5004 3 6.73136 10 6.26864 13 4.28945 8 0.5166 0.5519 6 6.09153 7 6.90847 13 0.00259 9 0.5519 0.6266 5 5.35434 8 7.64566 13 0.03987 10 0.6651 0.8393 7 3.74669 6 9.25331 13 3.96872 Total 76 76.0000 54 54.0000 130 14.8084 H-L Statistic 14.8084 Prob. Chi-Sq(8) 0.0630

(19)

Model Regresi Probit

 Pada dasarnya ide dasar dari model Probit sama dengan model

Logit. Kedua model tersebut sama-sama menggunakan Cummulative Distribution Function (CDF) yang lebih cocok dalam menjelaskan prilaku variabel respon yang bersifat kualitatif. Hanya saja pada model logit bentuk fungsi distsribusi yang digunakan adalah fungsi distribusi logistik, namun di sini model probit menggunakan bentuk fungsi distribusi normal.  Perbandingan antara model distribusi logitan probit disajikan

pada Gambar berikut:

F(z) 0,5 0 1   Logit Probit

Model Distribusi Normal dan Distribusi Logit

 Sekarang perhatikan persamaan regresi sebagai berikut:

 

1

0 1 1i 2 2i k ki

z



F



z









X





X

 



X

Jika terdapat suatu nilai kritikal (threshold) *

i

z yang lebih

(20)

kejadian sukses akan semakin besar, begitu juga sebaliknya. Kondisi ini dapat ditulis sebagai berikut:

* * Sukses (1) ; Kejadian Gagal (0) ; i i i i z z z z        Probabilitas * i i

z z dapat dihitung dari standardize normal CDF:





*

0 1 1 2 2

(

1)

(

_i _i

)

_i _i _k _ki

P Y

  

P

F z



z



F







X





X

 



X

Dimana P Y( 1) menjelaskan bahwa probabilitas terjadinya

sukses untuk nilai X tertentu dan zi adalah variabel standar

normal dimana



2



~ 0, i

z N  . Selanjutnya standar normal CDF

dapat dituliskan sebagai berikut:

 

1

2_{/ 2}

2

i z z i i

P

F Z

e

dz



 





 

₀ ₁ ₁ ₂ ₂ 2 / 2 1 2 i i k ki X X X z i i P F Z     e dz



    _   



 Dari persamaan di atas Pi menyatakan probabilitas terjadinya

kejadian sukses, kondisi ini digambarkan oleh area kurva standar di bawah normal dari  sampai z_i. Nilai Pi akan

terletak di antara 0 sampai 1.

 Seperti halnya regresi logit, interpretasi hasil estimasi regresi probit tidak bisa diinterpretasikan secara langsung. Bila dalam regresi logit kita dapat menjelaskan bagaimana pengaruh parsial dari setiap variabel bebas terhadap variabel tak bebas

(21)

dengan menggunakan odds ratio, maka dalam kasus regresi probit kita dapat menggunakan marginal effect.

 Marginal effect dari variabel Xi terhadap P(Y=1) adalah:



0 1 1 2 2



(

1)

_ˆ

i i i k ki i

P Y

F

X







_

_

(22)

Studi Kasus: Model Regresi Probit

Perhatikan studi kasus sebelumnya dimana diberikan:

0 1 1 2 2 31 31 32 32

i i i i i i

Y









X





X





X





X





dengan

o Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil.

o X1 = Usia Individu

o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita)

o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)).

o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)). Sekarang untuk mengestimasi parameter di atas akan digunakan model regresi probit, hasilnya disajikan sebagai berikut:

Dependent Variable: Y

Method: ML - Binary Probit (Quadratic hill climbing) Date: 02/09/14 Time: 19:19

Sample: 1 130

Variable Coefficient Std. Error z-Statistic Prob. C 1.572183 1.084735 1.449370 0.1472 X1 -0.060491 0.027778 -2.177676 0.0294 X2 0.465701 0.238468 1.952882 0.0508 X31 0.004391 0.323401 0.013578 0.9892 X32 0.507990 0.277595 1.829968 0.0673 McFadden R-squared 0.081648 Mean dependent var 0.415385 S.D. dependent var 0.494695 S.E. of regression 0.474945 Akaike info criterion 1.323601 Sum squared resid 28.19664

(23)

Schwarz criterion 1.433891 Log likelihood -81.03408 Hannan-Quinn criter. 1.368416 Deviance 162.0682 Restr. deviance 176.4772 Restr. log likelihood -88.23861 LR statistic 14.40904 Avg. log likelihood -0.623339 Prob(LR statistic) 0.006098

Obs with Dep=0 76 Total obs 130 Obs with Dep=1 54

Marginal Effect:  Dibahas dikelas….

Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED

Date: 02/09/14 Time: 19:25 Success cutoff: C = 0.5

Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total P(Dep=1)<=C 58 32 90 76 54 130 P(Dep=1)>C 18 22 40 0 0 0 Total 76 54 130 76 54 130 Correct 58 22 80 76 0 76 % Correct 76.32 40.74 61.54 100.00 0.00 58.46 % Incorrect 23.68 59.26 38.46 0.00 100.00 41.54 Total Gain* -23.68 40.74 3.08 Percent Gain** NA 40.74 7.41

Estimated Equation Constant Probability Dep=0 Dep=1 Total Dep=0 Dep=1 Total E(# of Dep=0) 47.98 28.40 76.37 44.43 31.57 76.00 E(# of Dep=1) 28.02 25.60 53.63 31.57 22.43 54.00 Total 76.00 54.00 130.00 76.00 54.00 130.00 Correct 47.98 25.60 73.58 44.43 22.43 66.86 % Correct 63.13 47.41 56.60 58.46 41.54 51.43 % Incorrect 36.87 52.59 43.40 41.54 58.46 48.57 Total Gain* 4.67 5.87 5.17 Percent Gain** 11.23 10.05 10.64

*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation

Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow

Tests

Equation: UNTITLED Date: 02/09/14 Time: 19:20

(24)

Grouping based upon predicted risk (randomize ties)

Quantile of Risk Dep=0 Dep=1 Total H-L Low High Actual Expect Actual Expect Obs Value 1 0.1027 0.1984 11 10.7872 2 2.21282 13 0.02467 2 0.1984 0.2527 12 10.0633 1 2.93672 13 1.64997 3 0.2527 0.3226 11 9.29891 2 3.70109 13 1.09304 4 0.3226 0.3513 9 8.58949 4 4.41051 13 0.05783 5 0.3530 0.3988 8 7.96337 5 5.03663 13 0.00043 6 0.4064 0.4444 4 7.42789 9 5.57211 13 3.69074 7 0.4462 0.5021 3 6.79293 10 6.20707 13 4.43557 8 0.5094 0.5502 5 6.15793 8 6.84207 13 0.41370 9 0.5502 0.6209 6 5.43969 7 7.56031 13 0.09924 10 0.6504 0.8348 7 3.85416 6 9.14584 13 3.64976 Total 76 76.3748 54 53.6252 130 15.1150 H-L Statistic 15.1150 Prob. Chi-Sq(8) 0.0569

Andrews Statistic 16.3834 Prob. Chi-Sq(10) 0.0892

Model Regresi Poisson

 Pada umumnya analisis regresi digunakan untuk menganalisa variabel respon yang merupakan data kontinu dan mengikuti distribusi normal. Namun dalam beberapa aplikasinya, variabel respon yang akan dianalisisa dapat berupa data diskrit atau data cacahan (count data).

 Salah satu contoh variabel respon diskrit (count data) adalah banyaknya kejadian yang jarang terjadi (rare event). Misalkan banyaknya kecelakaan mobil setiap bulan, banyaknya hujan badai setiap tahun, banyaknya kebakaran hutan setiap tahun, dan banyaknya penderita kanker paru-paru yang meninggal setiap tahun.

(25)

 Salah satu model regresi yang dapat digunakan untuk menjelaskan hubungan antara variabel respon Y yang berupa data diskrit dengan variabel prediktor X berupa data diskrit, kontinu, kategorik atau campuran adalah model regresi Poisson.

 Model Regresi Poisson digunakan ketika variabel respon

bersifat count variabel, ia hanya dapat mengambil nilai non negative integer value (0,1,2, ...).

 Model regresi Poisson berasal dari distribusi Poisson dengan

parameter intensitas  yang bergantung pada variabel

prediktor. Dalam model regresi Poisson terdapat beberapa asumsi yang harus dipenuhi yakni equidispersi yang berarti nilai variansi dari variabel respon Y yang diberikan oleh X = x harus sama dengan nilai meannya yaitu Var(Y|x) = E(Y|x) = .  Jika i adalah rata-rata jumlah kejadian dalam periode t dan

diasumsikan i tidak berubah dari titik data ke titik data secara bebas maka dapat dimodelkan sebagai fungsi dari k variabel prediktor.

 Dalam Generalized Linier Model (GLM), terdapat sebuah fungsi

g yang menghubungkan rata-rata dari variabel responnya

dengan sebuah prediktor linier, yaitu:

 

i 0 1 i1 2 i2 k ik

g











x





x

 



x

(26)

 Pada model regresi Poisson, fungsi penghubung yang digunakan adalah fungsi penghubung log karena fungsi log menjamin bahwa nilai variabel yang diharapkan dari variabel responnya akan bernilai nonnegatif.

 Berikut ini adalah fungsi penghubung yang digunakan untuk model regresi Poisson:





 

0 1 1 2 2

ln

E y x

|



ln



_i









x

_i





x

_i

 



_k

x

_ik

 

 0 1 1 2 2  ˆ i _i _i _{k ik} x _x _x _x i

e

 _{ } _ _



_



_

   

Masing-masing parameter dari persamaan di atas dapat diinterpretasikan sebagai:









%



E y x

|



100 

_j



x

_j

Dengan kata lain koefisien regresi akan diintrepretasikan sebagai persentase perubahan variabel tergantung akibat perubahan l unit variabel bebas.

 Model persamaan di atas bersifat non linier lebih lanjut distribusi dari variabel tergantung (y) adalah non normal (yakni Poisson Distribution). Dengan demikian diperlukan suatu teknik khusus untuk melakukan estimasi terhadap parameter model. Disini dapat digunakan metode Maximum Likelihood Estimation (MLE) atau Quasi Maximum Likelihood Estimation (QMLE). Kita tidak akan menguraikan bagaimana

(27)

estimasi dilakukan karena sangat kompleks dan diluar pembahasan, lihat Wooldridge, 1999 bab 19.

Studi Kasus Model Regresi Poisson

 Pada studi kasus ini akan diestimasi hubungan antara frekuensi seseorang ditahan (NARR86) dengan berbagai variabel demografis, efektivitas pengadilan, dsb dengan menggunakan model Poisson Regression. Hasil regresi poisson disajikan sebagai berikut:

Dependent Variable: NARR86

Method: ML/QML - Poisson Count (Quadratic hill climbing) Date: 02/08/14 Time: 21:31

Sample: 1 2725

Variable Coefficient Std. Error z-Statistic Prob. C -0.599589 0.067250 -8.915807 0.0000 PCNV -0.401571 0.084971 -4.725971 0.0000 AVGSEN -0.023772 0.019946 -1.191831 0.2333 TOTTIME 0.024490 0.014750 1.660318 0.0969 PTIME86 -0.098558 0.020695 -4.762515 0.0000 QEMP86 -0.038019 0.029024 -1.309897 0.1902 INC86 -0.008081 0.001041 -7.762374 0.0000 BLACK 0.660838 0.073834 8.950290 0.0000 HISPAN 0.499813 0.073927 6.760931 0.0000 BORN60 -0.051029 0.064052 -0.796677 0.4256 R-squared 0.076988 Mean dependent var 0.404404 Adjusted R-squared 0.073928 S.D. dependent var 0.859077 S.E. of regression 0.826712 Akaike info criterion 1.657806 Sum squared resid 1855.574 Schwarz criterion 1.679495 Log likelihood -2248.761 Hannan-Quinn criter. 1.665646 Restr. log likelihood -2441.921 LR statistic 386.3197 Avg. log likelihood -0.825233 Prob(LR statistic) 0.000000

 Interpretasi: Sebagai ilustrasi, koefisien black=0.66 yang signifikan pada taraf nyata 5% menjelaskan bahwa dengan

(28)

benchmark kulit putih, dan mengasumsikan variabel lainnya konstan (ceteris paribus), orang kulit hitam diduga memiliki 66% frekuensi penahanan yang lebih tinggi dibandingkan orang kulit putih.

Model Censored Regression

 Model censored regression dilakukan ketika (karena alasan tertentu) kita harus membatasi nilai yang dapat diambil oleh suatu variabel dependen. Sebagai contoh, misalkan dalam survey terhadap variabel pengeluaran per bulan, variabel ini dijadikan bersifat kategorik. Kuesioner biasanya tidak mencantumkan setiap pilihan jumlah pengeluaran yang mungkin. Praktik yang umum dilakukan adalah membuat batas atas dan batas bawah.

 Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 10 juta per bulan (right censoring) dan dibawah 1 juta per bulan (left censoring). Begitu seorang responden memilih opsi ini, kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang sebenarnya, ia mungkin memiliki pengeluaran 10,5 juta tetapi bisa juga 100 juta. Tentu saja implikasi analisis dari dua data semacam ini sangat berbeda, tetapi kita telah mengabaikannya.

(29)



2



0 1 1 2 2

;

0,

i i i k ik i i

y









x





x





x



u

N







min

,

i i i

w



y c

Dimana ci adalah batas atas, dengan demikian nilai y adalah

yang terkecil, yi atau ci.

 Parameter regresi dapat diestimasi dengan menggunakan

teknik MLE, dimana observasi yang disensor diharapkan memiliki probabilitas sebagai berikut:













1 / ; | , ₁ / ; i i i i i i i c x w c f w x c w x w c

 



  _  _          _ _ 

Studi Kasus: Model Censored Regression

 Pada studi kasus ini akan dilakukan estimasi durasi (dalam bulan) seorang residivis yang telah bebas untuk kembali ditangkap. Karena durasi tidak mungkin negatif, dengan demikian ia adalah left censored dititik nol, sedangkan durasi

ditangkap kembali dapat mencapai beberapa

tahun kemudian sehingga perlu suatu batas atas (disini digunakan 70 bulan).

 Berbagai variabel digunakan untuk menjelaskan durasi

diantaranya lama kepesertaan pelatihan kerja dipenjara (wrkprg), sudah berapa kali masuk penjara (priors), total

(30)

waktu dipenjara (tserved), dsb. Hasil regresi terhadap 1445 sampel disajikan sebagai berikut:

Dependent Variable: LOG(DURAT)

Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing) Date: 02/08/14 Time: 22:19

Sample: 1 1445

Included observations: 1445 Left censoring (value) series: 0 Right censoring (value) series: 70 Convergence achieved after 3 iterations

Variable Coefficient Std. Error z-Statistic Prob. C 3.567525 0.138174 25.81901 0.0000 WORKPRG 0.007993 0.049024 0.163040 0.8705 PRIORS -0.060028 0.009208 -6.518902 0.0000 TSERVED -0.009377 0.001303 -7.197627 0.0000 FELON 0.178753 0.058497 3.055778 0.0022 ALCOHOL -0.263500 0.059903 -4.398816 0.0000 DRUGS -0.089668 0.055023 -1.629647 0.1032 BLACK -0.179162 0.047511 -3.770965 0.0002 MARRIED 0.135223 0.055522 2.435496 0.0149 EDUC 0.005333 0.009941 0.536425 0.5917 AGE 0.001332 0.000225 5.912596 0.0000 Error Distribution SCALE:C(12) 0.877626 0.016408 53.48774 0.0000 Mean dependent var 3.745150 S.D. dependent var 0.925045 S.E. of regression 0.876645 Akaike info criterion 2.600005 Sum squared resid 1101.269 Schwarz criterion 2.643818 Log likelihood -1866.503 Hannan-Quinn criter. 2.616357 Avg. log likelihood -1.291698

Left censored obs 8 Right censored obs 0 Uncensored obs 1437 Total obs 1445

 Dalam kasus di atas, variabel respon dinyatakan dalam bentuk

logaritma (log(durat)). Dengan demikian setiap parameter yang diestimasi dapat diinterpretasikan sebagai semilog. Setiap

(31)

kenaikan satu unit variabel bebas akan menyebabkan sebesar %y perubahan pada variabel respon.

 Sebagai ilustrasi, pada hasil di atas dapat dilihat bahwa:

o Koefisien estimasi PRIORS sebesar -0,06 yang signifikan pada taraf nyata 5% menjelaskan bahwa, residivis yang memiliki frekuensi dipenjara sebelumnya lebih tinggi satu unit dibanding residivis lainnya, diduga akan mengurangi durasi ditangkap kembali sebesar 6% (atau 6% lebih cepat ditangkap).

o Koefisien estimasi MARRIED sebesar 0,135 yang signifikan

pada taraf nyata 5% menjelaskan bahwa pernikahan memiliki dampak positif terhadap durasi, dimana residivis yang menikah memiliki durasi ditangkap kembali 13,5% lebih lama dibandingkan yang tidak menikah.