MODEL PILIHAN KUALITATIF
Oleh
Seringkali dalam suatu survei kita berhadapan
dengan peubah kualitatif yang mempunyai skala
pengukuran nominal atau ordinal. Nilai-nilai
peubah respons kualitatif ini terbatas (limited
dependent variable), bahkan sering hanya bernilai
dua kemungkinan saja. Misalnya, apakah
seseorang membeli mobil atau tidak; memilih
atau tidak dalam Pilkada (pemilihan kepala
daerah); punya penyakit jantung koroner atau
tidak; dan masih banyak contoh lainnya. Peubah
kualitatif yang hanya mempunyai dua
Meskipun logis kita memperkirakan suatu
hubungan langsung antara pendapatan dan
perilaku pembelian, namun kita tidak dapat yakin
apakah masing-masing konsumen dengan
pendapatan tertentu pasti akan membeli produk.
Oleh karena itu, tujuan model pilihan kualitatif
adalah menentukan peluang bahwa individu
dengan karakteristik-karakteristik tertentu akan
memilih suatu pilihan tertentu dari beberapa
alternatif yang tersedia. Jika pilihannya hanya ada
dua alternatif disebut model pilihan biner.
Overview
C o n t i n u o u s
C a t e g o r i c a l
L i n e a r
R e g r e s s i o n
A n a l y s i s
-
R e s p o n s e
A n a l y s i s
-Model Peluang Linear -Model Probit
Ilustrasi
Studi mengenai pengaruh tingkat pendapatan,
jenis kelamin dan umur terhadap membeli
tidaknya seseorang pada suatu produk yang
dijual dengan harga tertentu.
Peubah Penjelas (bebas)
: umur, jenis kelamin dan
tingkat pendapatan
Ilustrasi utk 1 Peubah Bebas
Studi mengenai pengaruh tk pendapatan atau
jenis kelamin (X) terhadap membeli tidaknya
seseorang (Y) pada suatu produk yang dijual
dengan harga tertentu.
Peubah Respons: Y
= 1, jika membeli
0, jika tidak membeli
Peubah Penjelas (bebas)
:
Tk Pendapatan: X = Rp …… juta
atau Jenis Kelamin:
X
= 1, jika Pria
0, jika Wanita
1. Model Peluang Linear
Yi = + Xi + εi (10.1) Dimana Xi = nilai karakteristik (misalnya pendapatan) individu ke-i, Yi = 1 , jika pilihan kesatu dipilih (misalnya membeli mobil) 0 , jika pilihan kedua dipilih (tidak membeli mobil).
εi = peubah acak yang menyebar bebas dengan nilai tengah 0. Untuk menginterpretasikan persamaan (10.1) kita tentukan nilai
harapan dari masing-masing pengamatan peubah respons Yi :
E(Yi) = + Xi (10.2) Karena Yi hanya mempunyai kemungkinan dua macam nilai (1 dan 0), kita dapat menggambarkan sebaran peluang Y dengan memisalkan: Pi = P(Yi=1) dan 1-Pi = P(Yi=0),
sehingga E(Yi) = 1 (Pi) + 0 (1-Pi) = Pi. (10.3)
model (10.1) peluang bahwa individu konsumen ke-i dengan pendapatan tertentu (Xi) akan membeli mobil. Slope garis mengukur pengaruh perubahan 1 unit pendapatan terhadap perubahan peluang membeli mobil
Dugaan Model Peluang Linear
+
Xi , jika 0<(
+
Xi)<1
Pi = 1
, jika (
+
Xi) ≥ 1
Sebaran Peluang bagi εi
Y
i
ε
i
Peluang
1
1-
-
X
i
P
i
E(εi) = (1-
-
Xi) Pi + (-
-
Xi) (1-Pi) = 0
sehingga Pi =
+
Xi
(1-Pi) = 1 -
-
Xi
Ragam komponen sisaan
Jadi, peubah Y menyebar menurut
sebaran (distribusi) peluang Bernouli.
Masalah heteroskedastisitas
)
1
(
)
1
(
)
(
)
1
(
)
(
i2X
i 2P
iX
i 2P
iP
iP
iE
(
)
[
1
(
)]
(
1
)
(
)
)
(
)
(
Y
iE
Y
i2E
Y
i 2E
Y
iE
Y
iP
iP
i i2E
i2Var
Kendala dalam model peluang linear perlu transformasi
model (linear) awal sedemikian rupa sehingga prediksi nilai
Y berada dalam selang (0;1) untuk semua nilai peubah
bebas X. Salah satu bentuk transformasi yang mempunyai
karakteristik seperti ini adalah fungsi peluang kumulatif
(cumulative probability function), F.
[1]
Sebaran
peluangnya dapat direpresentasikan dalam bentuk:
Pi = F(
+
Xi) = F(Zi)
Sebenarnya banyak fungsi peluang kumulatif yang
mungkin dapat digunakan, namun disini hanya dua macam
yang dipertimbangkan, yaitu fungsi peluang normal dan
logistik kumulatif.
Model Probit
Pi = F( + Xi) = F(Zi)
asumsikan ada suatu indeks Zi yg bernilai kontinu secara teoritis, yg
ditentukan oleh nilai peubah penjelas X shg dapat ditulis: Zi = + Xi
asumsikan bahwa Z merupakan peubah acak yang menyebar normal sehingga peluang bahwa Z lebih kecil (atau sama dengan) Zi dapat dihitung dari fungsi peluang normal kumulatif. Untuk fungsi peluang normal baku kumulatif dapat dituliskan dalam rumus:
dimana s: peubah acak menyebar normal dgn nilai tengah 0 dan ragam1. Dgn rumus transformasi diatas, peubah Pi akan bernilai dlm selang (0;1). Pi menggambarkan peluang individu berkarakteristik (berpendapatan) Xi memilih pilihan-1 (beli mobil). Karena nilai peluang ini diukur
berdasarkan luas daerah dibawah kurva normal baku dari - sampai Zi, maka peluang pilihan-1 (beli mobil) makin tinggi jika nilai indeks Zi makin tinggi. Untuk menduga indeks Zi, kita menggunakan kebalikan (inverse) dari fungsi normal baku kumulatif (10.9) dengan:
Zi = F-1(Pi) = + Xi
Zi s i iF
Z
e
ds
P
2 22
1
)
(
Hubungan Nilai Indeks Z dan
Sebaran Peluang Normal Kumulatifnya
Z
F(Z)
Z
F(Z)
-3.0
.001
0.5
.691
-2.5
.006
1.0
.841
-2.0
.023
1.5
.933
-1.5
.067
2.0
.977
-1.0
.159
2.5
.994
-0.5
.309
3.0
.999
0.0
.500
3.5
.999
Model (Peluang) Linear vs Model Probit
Meskipun model probit lebih menarik dari
model peluang linear, namun untuk
menduga parameter koefisiennya
menggunakan pendugaan kemungkinan
maksimum (maximum likelihood, ML) non
linear. Selain itu, justifikasi atau interpretasi
koefisiennya agak terbatas. Oleh karena itu
sebaiknya menggunakan model logit yang
dibahas dalam subbab berikut
menggunakan peubah penjelasnya (dpt peubah
kategorik atau peubah numerik)
untuk menduga
peluang kejadian tertentu dari peubah respons
kategori
.
) ( ) ( 1 0 1 01
)
/
1
(
i i X X i ie
e
X
Y
E
) ( ) (1
1
1
1
)
(
1 0 X g X i ie
e
P
X
P
i
Model Regresi Logistik
(Model logit)
Model Logit Sederhana :
Sebaran Logistik menyerupai kurva berbentuk S,
sehingga interpretasinya logis.
0 ≤ E(Y/X) ≤ 1
Interpretasi: Peluang kejadian tertentu dari peubah respons kategori
Transformasi Logit
Peluang kejadian tertentu dari peubah
respons kategori (p
i
), ditransformasi shg
i
indeks semua kasus (observasi 1,2,..,n).
p
ipeluang kejadian (misalnya, membeli) terjadi
untuk kasus ke-i.
log adalah natural log (bilangan dasar e).
logit( )
p
log
p
p
i i i
1
g
(
x
i)
0
1X
iFungsi g(x) sudah Linear dalam Parameter,
dan
-~ ≤ g(x) ≤
~,
shg dpt diduga dgn OLS
Assumption
(peubah X berskala Interval)
P
iPredictor (X)
Transformasi
logit
Interpretasi Koefisien Model Logit
Utk Peubah Bebas biner, mis Jenis Kelamin (X=1, X=0)
) ( 0 1
1
1
)
1
(
1
e
P
0 01
)
0
(
e
e
P
) ( ) ( 1 0 1 01
)
1
(
e
e
P
01
1
)
0
(
1
e
P
) ( ) ( 1 0 1 01
)
(
i i X X ie
e
X
P
X=1
X=0
Y=1
Y=0
P(1) : Peluang membeli produk utk konsumen Pria
P(0) : Peluang membeli produk utk konsumen Wanita
1
(
1
)
)
1
(
P
P
Odd
pria
)
0
(
1
)
0
(
P
P
Odd
wanita
1
1
Jumlahe
P
P
P
P
OddsRatio
)
0
(
1
)
0
(
/
)
1
(
1
)
1
(
1Interpretasi Koefisien
1= g(X+1) – g(X)
utk X biner:
1= g(1) – g(0)
i i i ig
X
X
X
P
X
P
1 0)
(
)
(
1
)
(
log
))
0
(
1
/(
)
0
(
))
1
(
1
/(
)
1
(
log
)
01
(
1
)
0
(
log
)
1
(
1
)
1
(
log
P
P
P
P
P
P
P
P
1)
0
(
1
/
)
0
(
)
1
(
1
/
)
1
(
e
P
P
P
P
Odds Ratio:
“Berapa kali Kemungkinan membeli utk konsumen Pria
dibandingkan Konsumen Wanita”
Interpretasi Pendekatan Peluang Relatif P(1)/P(0)
ini berlaku bila P(x) kecil
Utk X kontinu, exp(
1) : Berapa kali Kemungkinan
membelinya jika X naik 1 unit
Properties of the Odds Ratio
0
O D D S R A T I O
O F G R O U P A T O G R O U P B
-
0
.
5
N o
A s s o c i a t i o n
=x+1 =x• SK (1-
) 100% bagi Odds Ratio: exp(
c
± z
/2c
s
)
• Dlm realitas
P(x) jika x berbeda 1 unit (12 dgn 1011)
dapat cukup berbeda.
→
Dilema utk peubah kontinu
dimodelkan linear dlm model logit. Jika yakin bahwa logit
tdk linear dgn covariate grouping (Dummy)
^
^
Multiple Logistic Regression
Purchase
Gender Income
Age
Ilustrasi model utk mengkaji pengaruh jenis kelamin (X
1),
umur (X
2), dan tingkat pendapatan (X
2) terhadap membeli
tidaknya seseorang pada suatu produk yang dijual dengan
harga tertentu.
logit (p
i) =
i i i i i ig
X
X
X
X
X
P
X
P
3 3 2 2 1 1 0)
(
)
(
1
)
(
log
)
(
)
(
3 3 2 2 1 0 3 3 2 2 1 01
)
(
i i i i i iX
X
X
X
X
X
i
e
e
X
P
Utk Peubah Bebas X kontinu, seringkali 1 unit terlalu kecil atau besar utk dipertimbangkan Pendugaan utk perubahan “c” unit
1
)
,
(
)
(
ce
x
c
x
c
g(x+c) – g(x) = c
1Odds Ratio-nya:
Pengujian Model dgn p Peubah Bebas
Uji Model secara keseluruhan
:
H
0
:
1
=
2
=…=
p
=0
H
1
: ada
j
≠0
Likelihood Ratio Test Statistics (G) ~
Uji parsial koefisien
:
H
0
:
j
=0
H
1
:
j
≠0
WaldTest Statistics (W) ~ Z
2
Categorical Variables Codings 132 1,000 ,000 144 ,000 1,000 155 ,000 ,000 240 1,000 191 ,000 Low Medium High INCOME Female Male GENDER Frequency (1) (2) Parameter coding Classification Tablea 236 33 87,7 131 31 19,1 61,9 Observed 0 1 PURCHASE Overall Percentage Step 1 0 1 PURCHASE Percentage Correct Predicted
The cut v alue is ,500 a.
Variables in the Equation
.025 .018 1.974 1 .160 1.026 .511 .209 5.954 1 .015 1.667 12.305 2 .002 -.787 .253 9.676 1 .002 .455 -.686 .243 7.945 1 .005 .503 -1.325 .720 3.382 1 .066 .266 AGE GENDER(1) INCOME INCOME(1) INCOME(2) Constant Step 1a
B S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: AGE, GENDER, INCOME. a.
Adjusted Odds Ratio
P r e d i c t o r
G e n d e r
O u t c o m e
P u r c h a s e
C o n t r o l l i n g f o r
Types of Logistic Regression
R e s p o n s e V a r i a b l e
Y
e
s
N
o
B i n a r y
T w o
C a t e g o r i e s
T y p e o f
L o g i s t i c R e g r e s s i o n
B
i
n
a
r
y
N
o
m
i
n
a
l
O
r
d
i
n
a
l
T h r e e
o r
M o r e
C a t e g o r i e s
Hipotesis: Sabuk Pengaman akan membuat Pengendara Lebih aman jika terjadi KECELAKAAN. Pengendara yang menggunakan
Sabuk Pengaman lebih besar Peluangnya mengalami cidera lebih ringan dibandingkan yg tdk menggunakan
1. Tidak ada yang luka 2. Terjadi luka ringan
3. Terjadi luka dan memerlukan rawat jalan 4. Terjadi luka dan memerlukan rawat inap 5. Meninggal