QUALITATIVE RESPONSE REGRESSION MODEL
Merupakan model dengan variable dependennya yang bersifat diskrit / dummy / kualitatif. Parameter dugaan pada model qualitative dependent variable tersebut diinterpretasikan sebagai peluang (probability).
Contoh model:
Kepatuhan membayar pajak Patuh = 1
Tidak patuh = 0 Kepemilikan rumah
Memiliki rumah = 1 Tidak memiliki rumah = 0 Mengidap penyakit jantung
Mengidap = 1 Tidak mengidap = 0 Perbedan kuantitatif dan kualitatif
Dalam kuantitatif, tujuannya ialah mengestimasi nilai yang diharapkan atau rata2 dari nilai2 regresor (variable independennya)
Dalam kualitatif, tujuannya ialah menemukan kemungkinan sesuatu terjadi, seperti memilih kandidat DPR, memiliki rumah, mengidap penyakit, dan lainnya. Oleh karena itu, model ini biasa disebut dengan model probabilitas
Terdapat tiga pendekatan untuk mengembangkan model regresi binary ini, yakni 1. Linear Probability Model (LPM)
2. Logit Model 3. Probit Model LPM
Model qualitative dependent variable dapat diestimasi dengan Linear Probability Model (LPM) yang merupakan metode mendapatkan nilai peluang dengan menggunakan metode OLS
Kelebihan LPM
1. Hasil regresi mudah untuk diinterpretasikan
2. Dapat menjadi aproximasi awal yang baik / dapat menjadi benchmarking 3. Estimasi masih menggunakan OLS biasa
Kekurangan LPM
1. Berdistribusi tidak normal
2. Masih menyimpan heteroskedastis dan permasalahan lain karena memakai OLS
3. Hasil prediksi variable dependen dapat diatas 1 (overestimate) dan dibawah 1 (underestimate), padahal nilai probabilitas mengharuskan kisaran nilainya diantara 1 dan 0.
Oleh karena itu, alternatif dari LPM ialah menggunakan model Cumulative Distribution Function (CDF) yakni model Logit dan Probit. Kedua model tersebut menggunakan metode Maximum Likelihood Estimator (MLE) bukan OLS
MLE
MLE ini mengestimasi parameter dengan memperbesar peluang/probability likelihood function (kecocokan hasil observasi dan teori). Dengan kata lain, memperbesar peluang untuk benar. Kelebihan MLE
1. Fleksibel dan bisa melakukan/menangani berbagai model 2. Properti sampel besar yang diinginkan
Kekurangan MLE
1. Kemungkinan bisa bias dan akan inefisien jika sampel kecil (N<100 tidak direkomendasi) 2. Membutuhkan asumsi distribusi
3. Umumnya tidak ada solusi bentuk tertutup (tapi computer bisa menjalankannya) 4. Algoritma numerik mungkin tidak bertemu dalam beberapa kasus
LOGIT & PROBIT
Merupakan model yang diturunkan dari suatu kondisi dimana probabilitas itu tidak mungkin keluar dari interval 0-1.
1. Dependen variable memiliki angka kategorikal (dummy) 2. Model bersifat non-linear
3. Interpretasi menggunakan odd ratio atau marginal effect
4. Goodness of fit model (uji kecocokan/kesesuaian model) menggunakan percentage correctly classified, yakni seberapa model tersebut menebak jawaban yang benar.
Perbedaan dari kedua model ini ialah error term yang dihasilkan model logit tidak harus terdistribusi normal (distribusi logistik), sedangkan model probit harus terdistribusi normal.
Marginal Effect
Jika umur naik 1 tahun, maka probabilitas untuk masuk union meningkat sebesa xx, ceteris paribus
Odds Ratio
Jika nilai odds ratio diatas angka 1 maka positif, dibawah angka 1 dia negatif
Jika pengalaman naik 1 tahun, maka probabilitas istri masuk Angkatan kerja sebesar 1.23 kali, ceteris paribus
Jika seseorang tinggal di Aceh dan tidak memiliki account bank, maka probabilitas/kemampuan dia untuk menjadi kaya berkurang sebesar 0,44 kali
KISI KISI Keknya bakal ada 4 soal
SOAL 1
Soal wajib, parallel, bobot 30% Berupa teori/baca regresi
Gabungan materi review OLS, LPM
Kayanya bakal ditanya solusi dari kekurangan LPM apa, jawabannya logit dan probit SOAL 2-3
Logit dan probit
Seperti soal tahun sebelumnya mengenai baca hasil regresi-interpretasi Interpretasi probabilitas seseorang dengan kategori/kondisi tertentu Logit
Odd ratio Marginal effects Probit
Menghitung nilai: index function
Menghitung probabilitas: di Excel, =NORMDIST() Memilih model terbaik melalui beberapa evaluasi, yakni:
1. Ekonomi
Evaluasi dari teori, sesuai teori apa tidak, sifat pengaruh dari variable apakah hasilnya + atau – sesuai teori apa tidak. Seperti variable pendapatan memiliki pengaruh positif terhadap variable diterimanya kredit apa tidak -> sesuai teori karena semakin tinggi pendapatan menjadi minim risiko
2. Statistik
a. Signifikansi
Melihat signifikansi pengaruh dari variable independent, dilihat dari nilai P>|t| di table hasil regresi, signifikansi dapat dalam 1%, 5%, dan 10%. Jika hasil prob sama dengan 10%, maka disebut tidak signifikan, karena harus kurang/lebih kecil dari nilai tersebut.
b. LR stat
Nilai dapat dilihat dari Prob (LR Stat), jika nilai LR statnya <5% maka diniliai baik. Indikator ini bermaksud bagaimana variable independent memengaruhi variable dependen c. Goodness of fit
Nilai dapat dilihat dari McFadden R2 atau Pseudo R2, nilai yang baik ialah 0,3. Indicator ini bermaksud variasi variable independent bisa menjelaskan variable dependen
3. Ekonometrik a. Uji informal
Adanya multikol. Pengecekan secara teori/apriori, missal pendapatan dan pengeluaran. Dimana kedua variable tersebut signifikan, tetapi notasi pendapatan positif dan pengeluaran negative, maka terdapat multikol di dalamnya. Pengecekan dari R2, jika nilainya lebih dari 0,3 dan 50% variable tidak signifikan, maka dicurigai adanya multikol b. Uji formal
i. Uji koefisien korelasi ii. Asumsi heteroskedastis iii. Asumsi autokol
PEMBAHASAN SOAL UTS 2019
a)
b) Interpretasi arah tanda dan nilai koefisien semua variable pada model diatas. INGAT yang diinterpretasi hanya variable yg signifikan. Dapat dilihat dari hasil regresi tersebut bahwa semua variable signifikan, dilihat dari nilai P>|t| nya, semua signifikan di 1%, 5%, 10%. Kalau nilai tersebut sama atau lebih dari 10% maka tidak signifikan. Oleh karena itu, nilai P>|t| harus kurang dari persenan tersebut.
a. Umur
Jika umur bertambah 1 tahun, probabilitas wanita akan bersikap hangat dan memerhatikan anaknya meningkat sebesar 0,005 signifikan pada 1%
b. Pendidikan
Jika pendidikan formal bertambah 1 tahun, probabilitas wanita akan bersikap hangat dan memerhatikan anaknya menurun sebesar 0,015 signifikan pada 1%
c. Prestise
Jika indeks prestis bertambah 1 satuan, probabilitas wanita akan bersikap hangat dan memerhatikan anaknya menurun sebesar 0,0017 signifikan pada 5%
c) Kekurangan LPM
a. Berdistribusi tidak normal
b. Masih menyimpan heteroskedastis dan permasalahan lain karena memakai OLS c. Hasil prediksi variable dependen dapat diatas 1 (overestimate) dan dibawah 1
(underestimate), padahal nilai probabilitas mengharuskan kisaran nilainya diantara 1 dan 0.
Satu pembuktian kelemahan LPM ialah memasukan angka/nilai ke model fungsi, untuk melihat bahwa LPM ini underestimate atau overestimate. Contoh dengan memasuki nilai umur sebesar 30 tahun, nilai pendidikan sebesar 30, dan nilai presitse sebesar 100:
Mwarm = Bo + Koef . B1 + Koef . B2 + Koef . B3 Mwarm = 0,454 + 0,005(30) - 0,015(30) – 0,0017(100)
Mwarm = -0,016 -> underestimate karena di bawah 0
d) Alternatif dari LPM bisa memakai model yang menggunakan metode Maximum Likelihood Estimator (MLE) yakni model logit dan probit. Model tersebut memperbaiki kekurangan overestimate dan underestimate dari LPM. Hal tersebut dikarenakan nilai dari model logit dan probit tidak mungkin akan kurang dari 0 dan lebih dari satu (pasti bernilai diantara 0 dan 1) yang disebut sebagai Cumulative Distribution Function (CDF). Jika digambarkan dalam kurva, maka akan asimtotik yang mana tidak akan menyentuh 0 dan 1.
a) Interpretasi koefisien dari married dan male. Dapat dilihat dari hasil tersebut, terdapat table log likelihood dan table marginal effects. Untuk menginterpretasi model logit ini, notasi diambil dari table yang pertama, sedangkan nilai diambil dari table marginal effects. INGAT variable male tidak signifikan, memiliki nilai P>|t| sebesar 0,464, sehingga tidak diinterpretasikan.
a. Probabilitas orang yang sudah menikah untuk mendapatkan approval pinjaman bank sebesar 0,046
b) Pseudo-R2 merupakan indicator yang tidak tepat, karena tidak bisa 100% menjelaskan goodness of fit dari suatu model. Oleh karena itu, membutuhkan indicator lain yang dapat menjelaskan model lebih baik, yakni correctly classified
c) Correctly classified merupakan indicator goodness of fit yang menjelaskan seberapa model tersebut bisa menebak/mengestimasi jawaban yang benar. Interpretasi hasil dari table tersebut ialah model tersebut berhasil mengestimasi jawaban yang benar sebanyak 87,57%, sisanya yakni 12,43% tebakannya meleset
d) Interpretasi dua kondisi. Hitung perbedaan peluang dari dua hal tersebut. Hitung dari table Marginal Effects
a. Income-white; menikah- wanita Income-white; 0,046 + 0 = 0,046 b. Income-white; single-pria
Income-white; 0 + (-0,013) = -0,013
a) Memberi komentar dengan memberikan interpretasi dari nilai t-testnya. Untuk mencari nilai t- testnya ialah nilai coefficient dibagi dengan standard errornya.
b) Dapat diketahui bahwa nilai t-critical nya ialah 1,96 baik notasi + maupun – sehingga variable marital status tidak signifikan, karena nilai t-statnya (3,512) lebih besar dibandingkan t-crit. Oleh karena itu, variable ini tidak bisa diinterpretasikan
c) Variabel saving accounts signifikan, karena nilai t-statnya (0,276) lebih kecil dibandingkan t- critnya. Probabilitas seseorang yang memiliki akun tabungan untuk membeli barang Y sebesar 0,0013
d) USD 20,000 dimasukan ke dalam model Y di variable Disposable Income e) Variabel yang signifikan dan diinterpretasikan
a. Disposable income b. Checking accounts c. Saving accounts d. U. S. Saving bonds e. Housing status: rent f. Housing status: own g. Monthly rent
h. Monthly mortgage payments i. Personal noninstallment debt j. Age
k. Age squared l. Number of children
a) Perbedaan LPM dan Logit a. LPM
i. Bersifat linier
ii. Estimasi menggunakan OLS
iii. Prediksi overestimate atau underestimate b. Logit
i. Bersifat non-linier
ii. Estimasi menggunakan maximum likelihood
iii. Prediksi tidak mungkin overestimate atau underestimate, pasti diantara 0-1 b) Kelebihan dan kekurangan LPM
a. Kelebihan
i. Hasil regresi mudah untuk diinterpretasikan
ii. Dapat menjadi aproximasi awal yang baik / dapat menjadi benchmarking iii. Estimasi masih menggunakan OLS biasa
b. Kekurangan
i. Berdistribusi tidak normal
ii. Masih menyimpan heteroskedastis dan permasalahan lain karena memakai OLS iii. Hasil prediksi variable dependen dapat diatas 1 (overestimate) dan dibawah 1
(underestimate), padahal nilai probabilitas mengharuskan kisaran nilainya diantara 1 dan 0.
c) Perbedaan OLS dan MLE
a. OLS melihat error-error term, yang mana error tersebut di-treatment sehingga tidak memengaruhi variable dependen dan independent serta bersifat linier
b. MLE melihat kemungkinan variable independent menjelaskan variable dependen. Selain itu, mengestimasi parameter dengan memperbesar peluang/probability likelihood function (kecocokan hasil observasi dan teori). Dengan kata lain, memperbesar peluang untuk benar serta bersifat non-linear