PROSES INFERENSI PADA MODEL LOGIT Oleh: Agus Rusgiyono
Program Studi Statistika FMIPA UNDIP
Abstracts
Let
{
Y1,Y2,Y3,L,Yn}
represent the response on a nominal random variable of Bernoulli distribution, with P[
Yj =1]
=p , P[
Yj =0]
=1−p where pis a parameter with unknown value. Problems of estimating used smallest square methods in linier regression model can overcome with used maximum likelihood method in logistic regression..Suppose ln( ( ))
(
)
ln( )(
)
ln(1 ) 1 1 p Y n p Y p L n j j n j j n =∑
+ −∑
− = = ismaksimum likelihood estimstors of pˆ. In case can be obtained from first condition, ln(Ln(p)) to be
maximum at point p= pˆthen be obtained
∑
= = = n j j Y n Y p 1 1 ˆ and
that is unbiased estimator because E(Y ) p n 1 ) pˆ ( E n 1 j j = =
∑
=To be test hipothesis that p=p0, with a large sample size used fact that
[ ]
0,1 ) 1 ( ) ˆ ( 0 0 0 N p p p p n ≅ − −Keywords : Estimator, unbiased estimator, test statistic
1. PENDAHULUAN
Diketahui
{
Y1,Y2,Y3,L,Yn}
adalah sampel acak dari distribusi Bernoulli, dengan dua nilai yang mungkin bagi Y yaitu 0 atau 1. Misalkan P[
Yj =1]
=p dan]
[
Y 0 1 pP j = = − dengan p sebuah nilai yang tidak diketahui.
Sebagai ilustrasi , pandang kejadian jenis kelamin anak sapi yang dilahirkan jantan atau betina. Untuk meyakinkan bahwa probabilitas jenis kelamin anak-anak sapi yang dilahirkan jantan atau betina tidak sama, artinya p=p0 ≠0,5 Maka untuk setiap kelahiran ke j dikaitkan dengan nilai Yj =1 jika anak sapi yang lahir adalah betina dan Yj =0 bila anak sapi lahir jantan.
Untuk mengetahui besarnya probabilitas nilai P
[
Yj =1]
=p terhadap berbagai nilai dari variabel penjelas Xi,i=1,2,3,K,k maka penggunaan metode kuadrat terkecil pada model regresi linier biasa menimbulkan suatu masalah baik mengenai daerah hasil dari nilai variabel respon Y yang dapat diluar {0,1} ataupun asumsi kenormalan galat dan varian yang harus konstan. Sehingga diperlukan fungsi yang menghubungkan varibel respon dengan variabel penjelas yaknik , 3 , 2 , 1 i X b a ) X ( p 1 ) X ( p log = + i i = K −
j
Y ini berdistribusi Bernoulli dengan parameter p dengan fungsi densitas i
probabilitasnya ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − = i i i i i i p 1 p log y exp ) p 1 ( ) p , y ( f . ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − i i p 1 p
disebut odds ratio dari p, menyatakan peluang terjadinya Y=1 dibanding peristiwa Y=0.
Penaksiran parameter pi ini menggunakan metode maksimum likelihhod
∑ − ∑ − = = = = = − = − =
∏
∏
n j j n j j j j Y n Y n j Y Y n j j n n p p p p p Y f p Y f p Y f p Y f p Y f p L 1 1 ) 1 ( ) 1 ( ) ( ) ( ) ( ). ( ). ( ) ( 1 1 1 3 2 1 Kbila p = p0merupakan probabilitas bersama dari
{
Y1,Y2,Y3,L,Yn}
.2. PENAKSIR MAKSIMUM LIKELIHOOD UNTUK PROPORSI p
Sebuah fungsi probabilitas terkait masalah yang tersebut pada sub bab pendahuluan di atas dapat didefinisikan sebagai:
[
]
0 1 1 ) 1 ( ) ( 0 0 1 0 0 0 = − = = − = = = − y jika p y jika p p p y Y P p y f y y jFungsi likelihood dalam kasus ini didefinisikan sebagai ;
∑ − ∑ = − = = = − = − = = =
∏
∏
n 1 j j n 1 j j j j Y n Y n 1 j Y 1 Y n 1 j j n 3 2 1 n ) p 1 ( p ) p 1 ( p ) p Y ( f ) p Y ( f ) p Y ( f ). p Y ( f ). p Y ( f ) p ( L Kpenaksir maksimum likelihood pˆ dalam kasus ini dapat diperoleh dari syarat pertama untuk memaksimalkan ln(Ln(p)) di titik p = , sehingga didapat : pˆ
⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − − = − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = =
∑
∑
= = p Y p Y n p Y n p Y p d p Ln d n j j n j j ˆ 1 1 ˆ ˆ 1 1 ˆ 1 ˆ )) ˆ ( ln( 0 1 1 jadi∑
= = = n j j Y n Y p 1 1 ˆPerhatikan bahwa ini adalah estimator tak bias [3] karena :
0 1 ) ( 1 ) ˆ ( E Y p n p E n j j = =
∑
=lebih dari itu dari teorema limit pusat didapat :
[ ]
∑
= ≅ − = − n j j p N Y n p p n 1 2 0 0 0 ( ) 0, 1 ) ˆ( σ , berlaku untuk n besar
dimana :
[
]
) 1 ( ) 1 ( ) ( ) 1 ( ) ( ) ( 0 0 0 2 0 0 2 0 2 0 2 0 p p p p p p p Y E Y Var j j − = − − + − = − = = σjadi untuk ukuran sampel besar berlaku :
[ ]
0,1 ) 1 ( ) ˆ ( 0 0 0 N p p p p n ≅ − −Hasil ini dapat digunakan untuk menguji hipotesis tentang p 0
Dalam hal ini dibawah hipotesis null bahwa probabilitas kelahiran sapi jantan dan betina sama , p = 0,5 didapat : 0
[ ]
0,15 , 0 5 , 0 ) 5 , 0 ˆ ( ) 5 , 0 ˆ ( 2 N x p n p n − = − ≅ , sehingga : ) 5 , 0 ˆ (
2 n p− adalah statistic uji normal standard dari uji hipotesis null tentang
0 p =0,5
Sebuah alasan formal bagi penaksiran maksimum likelihood didasarkan pada fakta bahwa 0<x<1 dan x>1, ln(x) < x – 1. Hall ini diilustrasikan dalam gambar sbb :
Gambar 1. Fungsi ln(x)≤ x−1
Pertidaksamaan , ln(x) < x – 1 terpenuhi dengan baik untuk x≠1, dan ln(1) = 1 – 1 = 0 Konsekuensinya : 1 ) ( ) ( ) ( ) ( ln 0 0 − ≤ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ p Y f p Y f p Y f p Y f j j j j
Dengan mengambil nilai harapan matematisnya diperoleh :
[
] [
]
[
]
[
]
0 1 1 1 ) 1 ( 1 1 1 0 ) 0 ( ) 0 ( 1 ) 1 ( ) 1 ( 1 ) ( ) ( ) ( ) ( ln 0 0 0 0 0 0 0 0 = − − + = − − − − + = − = + = = − ≤ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ p p p p p p p p Y P p f p f Y P p f p f p Y f p Y f E p Y f p Y f E j j j j j j selanjutnya didapat :Jadi E
[
ln(Ln(p))]
adalah maksimal untuk p = p0dan dalam hal ini dapat ditunjukkan bahwa nilai maksimum ini adalah tunggal.3. PENAKSIRAN MAKSIMUM LIKELIHOOD BAGI MODEL LOGIT
Misalkan
(
Y1,X1)
,,K,(
Yn1,Xn)
adalah sample acak dari distribusi logit bersyarat :[
]
[
]
) exp( 1 ) exp( 0 ) exp( 1 1 1 0 0 0 0 0 0 j j j j j j j X X X Y P X X Y P β α β α β α − − + − − = = − − + = =dimana α0dan β0adalah nilai parameter yang ditaksir. Model ini disebut model logit karena
[
Yj 1Xj]
F( 0 0Xj) P = = α +β dimana ) exp( 1 1 ) ( x x F − + =adalah fungsi distribusi dari distribusi logistik (logit) fungsi probabilitas bersyarat yang terkandung adalah :
0 ) ( 1 1 ) ( )) ( 1 ( ) ( ) , , ( 0 0 0 0 1 0 0 0 0 0 0 = + − = = + = + − + = − y jika X F y jika X F X F X F X y f j j y j y j j β α β α β α β α β α
sekarang fungsi log likelihood bersyarat adalah :
∑
= = n j j j X Y f Ln 1 )) , , ( ln( )) , ( ln( α β α β∑
∑
= = + − + + = n j j j n j j j F X Y F X Y 1 1 )) ( ln( ) 1 ( )) ( ln( α β α β∑
∑
= = − − + − − − − + − = n j j j n j j j X Y X Y 1 1 )) exp( 1 ln( ) 1 ( )) exp( 1 ln( α β α β∑
= − − − + n j j j X Y 1 )) ln(exp( ) 1 ( α β=
∑
∑
= = − − + − + − − n j j n j j j X X Y 1 1 )) exp( 1 ln( ) )( 1 ( α β α β sehingga diperoleh :[
]
[
]
0 1 ) exp( 1 ) exp( ) exp( 1 1 1 ) , , 0 ( ) , , 1 ( 1 ) , , 0 ( ) , , 0 ( ) , , 0 ( ) , , 1 ( ) , , 1 ( ) , , 1 ( 1 0 ) , , 0 ( ) , , 0 ( 1 ) , , 1 ( ) , , 1 ( 1 ) , , ( ) , , ( ) , , ( ) , , ( ln 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 = − − − + − − + − − + = − + = − + = − = + = = − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ≤ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ j j j j j j j j j j j j j j j j j j j j j j j j j j j j j X X X X f X f X f X f X f X f X f X f X Y P X f X f X Y P X f X f X X Y f X Y f E X X Y f X Y f E β α β α β α β α β α β α β α β α β α β α β α β α β α β α β α β α β α β α β α Jadi ; ] , )) , ( ln( [ ] , )) , ( ln( [ Ln X1 Xn E Ln 0 0 X1 Xn E α β K ≤ α β Kselanjutnya hasil ini memberikan arah dalam menaksir α0 dan β0dengan memaksimalkan ln(Ln(α ,β)) untuk nilai αdan β:
β α β α β α , )) , ( ln( max )) ˆ , ˆ ( ln(Ln = Ln
syarat pertama bagi nilai maksimum adalah :
∑
∑
= = + − − − − + − − = ∂ ∂ = n j j j n j j X X Y Ln 1 1 1 exp( ˆ ˆ ) ) ˆ ˆ exp( ) 1 ( ˆ )) ˆ , ˆ ( ln( 0 β α β α α β α∑
∑
= = + − − − − + − − = ∂ ∂ = n j j j j j n j j X X X X Y Ln 1 1 1 exp( ˆ ˆ ) ) ˆ ˆ exp( ) 1 ( ˆ )) ˆ , ˆ ( ln( 0 β α β α β β αjika ˆ2 α
σ dan ˆ2 β
σ sebagai penaksir konsisten dari masinng-masing 2 α
σ dan 2 β
σ telah dihitung secara numeris , akan didapat untuk berikutnya :
(
)
( )
1 , 0 ˆ ˆ 0 N n ≅ − α σ α α dan(
)
( )
0,1 ˆ ˆ 0 N n ≅ − β σ β βHasil ini dapat digunakan untuk menguji apakah α0 dan β0 berbeda secara statistic dengan 0 apa tidak.
Misalkan ingin diuji hipotesis null β0=0 .
Hipotesis ini tidak mengakibatkan probabilitas bersyarat P
[
Yj =1Xj]
tidak bergantung pada X maka dibawah penerimaan hipotesis null j β0=0 akan diperoleh :( )
0,1 ˆ ˆ ˆ n N t = ≅ β β σ βStatistik σˆ dinamakan nilai t yang dibangkitkan karena ini digunakan pada jalan β yang sama sebagaimana nilai t dalam regresi linier.
Misal pada daerah kritis 5% pada uji dua sisi berdasarkan distribusi normal diperoleh 1,96 , maka dalam hal ini criteria penolakan H null : β0=0 pada tingkat signifikansi 5% adalah σˆβ >1,96
5. KESIMPULAN
1. Misalkan
(
Y1,X1)
,,K,(
Yn1,Xn)
adalah sample acak dari distribusi logit bersyarat :[
]
[
]
) exp( 1 ) exp( 0 ) exp( 1 1 1 0 0 0 0 0 0 j j j j j j j X X X Y P X X Y P β α β α β α − − + − − = = − − + = =dimana α0dan β0adalah nilai parameter yang ditaksir maka dalam menaksir α0 dan β0 dilakukan dengan memaksimalkan ln(Ln(α,β)) untuk nilai αdan β dimana β α β α β α , )) , ( ln( max )) ˆ , ˆ ( ln(Ln = Ln dan
∑
= = n j j j X Y f Ln 1 )) , , ( ln( )) , ( ln( α β α β2. Jika ukuran sample n cukup besar ;
(
αˆ α)
N( )
0,σ2jika σˆα2 dan σˆβ2 sebagai penaksir konsisten dari masing-masing σα2 dan σβ2 telah dihitung secara numeris , akan didapat untuk berikutnya :
(
)
( )
1 , 0 ˆ ˆ 0 N n − ≅ α σ α α dan(
)
( )
0,1 ˆ ˆ 0 N n − ≅ β σ β βHasil ini dapat digunakan untuk menguji apakah α0 dan β0 berbeda secara statistik dengan 0 apa tidak.
DAFTAR PUSTAKA:
1. Mood,Alexander; Introduction to The Theory of Statistics ; McGraw-Hill; 1974
2. Bierens,Herman J; The Logit Model : Estimation, Testing and Interpretation, http://econ.La.psu.edu/-hbierens/ML-logit.pdf
3. Rusgiyono,A., Reduksi Bias melalui Nonparametrik Boostrap,Thesis Magister Matematika ITB, 1998