PENENTUAN MODEL REGRESI TERPOTONG ATAS DENGAN METODE MAKSIMUM LIKEHOOD. Dydaestury Jalarno 1,Dwi Ispriyanti 2. Alumni Jurusan Matematika FMIPA UNDIP

(1)

Dydaestury Jalarno 1_{,Dwi Ispriyanti}2 1 _{Alumni Jurusan Matematika FMIPA UNDIP} 2_Staf _{Program Studi Statistika FMIPA UNDIP}

Abstrak

Model regresi terpotong atas merupakan suatu model regresi dengan nilai-nilai variabel dependen Y < a, dengan a adalah suatu titik potong atas yang dipilih berdasarkan penelitian. Dengan demikian, model regresi terpotong lebih tepat jika digunakan untuk penelitian yang berorientasi pada suatu karakteristik tertentu dari obyek pengamatan yaitu variabel dependennya. Distribusi yang digunakan untuk model regresi ini adalah distribusi normal terpotong atas. Estimasi parameter regresinya menggunakan metode Maksimum Likelihood dan metode iteratif Newton Raphson sedangkan pengujian signifikansi model menggunakan Uji Likelihood Rasio, uji t dan harga koefisien determinasi (R2_).

Keyword: Regresi terpotong atas, metode maksimum likehood 1. PENDAHULUAN

Dalam beberapa masalah statistika, terdapat dua variabel atau lebih yang memiliki hubungan tak dapat dipisahkan. Prosedur regresi linier digunakan untuk menyelidiki hubungan tersebut yaitu hubungan antara sebuah variabel dependen (respon) dengan satu atau lebih variabel independen (penjelas). Jika variabel dependen dihubungkan dengan sebuah variabel independen saja, maka persamaan regresi yang dihasilkan adalah regresi linier sederhana, dan jika variabel bebasnya lebih dari satu maka yang dihasilkan adalah persamaan regresi linier berganda.

Dalam suatu penelitian, seringkali dijumpai bahwa variabel dependen Y perlu dibatasi untuk tujuan tertentu. Misalnya, akan diteliti tentang pengaruh penggunaan bahan bakar terhadap kecepatan kendaraan bermotor. Dalam hal ini data kecepatan kendaraan (sebagai variabel dependen) yang hendak diteliti dibatasi hanya untuk nilai-nilai kurang dari 60 km/jam. Pembatasan ini dilakukan karena peneliti berorientasi pada tujuan tertentu, misalnya berorientasi terhadap tingkat ekonomis dalam penggunaan bahan bakar. Adanya pembatasan terhadap suatu nilai tertentu terhadap variabel dependen Y, sebut saja a, mengakibatkan distribusi data tersebut berubah. Jika suatu populasi telah diketahui berdistribusi normal, maka distribusi akibat adanya pemotongan nilai tertentu berubah

(2)

Tujuan dari penulisan ini adalah menentukan model regresi terpotong atas, yang sebelumnya telah diperoleh mean terpotong dari distribusi normal terpotong. Setelah model regresi terpotong atas ditetapkan, tujuan selanjutnya adalah membentuk estimasi model regresi dengan nilai estimasi parameter-parameternya yang diperoleh melalui metode maksimum likelihood.

2. METODE MAKSIMUM LIKEHOOD

Misalkan X variabel random distribusi probabilta f(x|θ), dengan parameter tunggal θ tidak diketahui. Misalkan X1, X2, …, Xn adalah sampel random dari populasi dengan densitas f(xi|θ1, θ2,...,θk) . Maka fungsi Likelihood didefinisikan sebagai berikut:

L(θ1, θ2,...,θk|X) =

∏

= n i k i| ) f(x 1 2 1,θ , ,θ θ _L …

Misalkan Y1, Y2, …, Yn adalah sampel random dari distribusi normal dengan mean µ dan varian σ2, maka fungsi densitasnya adalah :

2 1 2 1 2 (Y | , ) 2 i y i f e µ σ µ σ σ π − ⎛ ⎞ − ⎜_⎝ ⎟_⎠ =

Fungsi Likelihood untuk fungsi densitas diatas sebagai berikut[3] :

( ) / 2 ( )2 2 2 1 1 ( , | Y) 2 exp 2 n n n i i L µ σ σ π y µ σ − − = ⎛ ⎞ = _⎜− − _⎟ ⎝

∑

⎠

Dari Persamaan model regresi linier berganda : Y = Xβ + ε

Karena ε ~ N (0, σ2) dan X fixed maka E(Y) = Xβ, sehingga Y ~ N (Xβ, σ2).

Dengan substistusi µ = E(Y) = Xβ, maka fungsi Likelihood diatas berubah menjadi :

( )

(

) (

)

⎟ ⎠ ⎞ ⎜ ⎝ ⎛₋ ₋ ₋ = − − _Y _Xβ_' _Y _Xβ Y β, 2 /2 ₂ 2 1 exp 2 ) | ( σ π σ n n σ L

Dengan demikian parameter yang semula hendak diestimasi adalah µ dan σ2_berubah

menjadi β dan σ2.

Selanjutnya diperoleh log dari fungsi Likelihood yaitu :

( )

(

) (

)

(

Y Xβ

) (

' Y Xβ

)

2 1 2 log 2 log Xβ Y ' Xβ Y 2 1 exp 2 log ) Y | β, ( log 2 2 2 / 2 − − − − − = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛₋ ₋ ₋ = − − σ π σ σ π σ n n σ L n n

(3)

(

X'X

)

X'Y βˆ X X' Y X' βˆ 0 X X' βˆ Y X' 0 ) X X' βˆ 2 Y X' 2 ( 2 1 0 ) Xβ X' β' Y X' β' Xβ Y' Y Y' ( 2 1 2 log 2 log β 0 ) Xβ Y ( ') Xβ Y ( 2 1 2 log 2 log β 0 ) Y | β, ( log β 1 2 2 2 2 2 2 − = = = − = + − − = ⎥⎦ ⎤ ⎢⎣ ⎡₋ ₋ ₋ ₋ ₋ ₊ ∂ ∂ = ⎥⎦ ⎤ ⎢⎣ ⎡₋ ₋ ₋ ₋ ₋ ∂ ∂ = ∂ ∂ σ σ σ σ π σ σ π σ n n n n σ L

(

) (

)

(

) (

)

(

) (

)

(

Y-Xβ

) (

' Y-Xβ

)

1 ˆ Xβ -Y ' Xβ -Y 1 0 Xβ -Y ' Xβ -Y 1 0 Xβ -Y ' Xβ -Y 2 1 2 log 2 log 0 ) Y | β, ( log 2 3 3 2 2 n n n n n σ L = = = + − = ⎥⎦ ⎤ ⎢⎣ ⎡₋ ₋ ₋ ∂ ∂ = ∂ ∂ σ σ σ σ σ σ π σ σ σ

3. DISTRIBUSI NORMAL TERPOTONG ATAS

Distribusi normal terpotong adalah distribusi normal dengan nilai variabel random

X terbatas pada interval [b , a] atau b≤ X ≤ a. Titik a adalah titik terpotong di sebelah

kanan (disebut juga titik terpotong atas) dan titik b adalah titik terpotong kiri (disebut juga titik terpotong bawah).

Jika X berdistribusi normal dengan mean µ dan standar deviasi σ, maka [1]: f(x|b< x<a)= f(x)

(4)

maka : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = < < σ µ σ µ b a a X b P( ) . Sehingga : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = < < = < < σ µ σ µ σ µ φ σ b a x a x b P x f a x b x f 1 ) ( ) ( ) | (

dengan φ(.) dan Φ(.) adalah fungsi densitas (probability density function) dan fungsi distribusi (cumulative distribution function) dari distribusi normal baku.

Dari definisi [1] _: _{( |} ₎ ( ) ( ) f x f x b x a P b x a < < = < <

Karena pemotongan hanya dilakukan pada titik x < a , maka titik b dianggap bernilai negatif tak berhingga, sehingga persamaan diatas menjadi :

Jika X ~ N( µ , σ2 ) dan a konstanta, maka mean dan varian dari distribusi normal terpotong

atas adalah : )] ( 1 [ ) ( ) ( ) | ( 2 _α α δ σ a X | X Var σλ µ a X X E − = < + = < dengan : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛−∞− Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = < < −∞ = < σ µ σ µ a x f a x P x f a x x f ) ( ) ( ) ( ) | (

(

)

⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ≤ = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = + − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = ∞ Φ + − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = σ µ σ µ φ σ σ µ σ µ σ µ a x a x P x f a x f a x f a x f 1 ) ( ) ( 1 1 ) ( ) ( 1 ) ( ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∞+ Φ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛− ∞+ Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = σ µ σµ σ µ σ µ ) ( 1 ) ( ) ( ) ( a x f a x f

(5)

] ) ( )[ ( ) ( ) ( α λ λ δ(α) Φ λ(α) σ µ a α − = − = − = α α α α

φ _{(Fungsi Hazard dari distribusi normal)}

4. MODEL REGRESI TERPOTONG ATAS

Model regresi berganda dalam bentuk matriks sebagai berikut : Y = Xβ + ε

mean dan varian dari distribusi Yi tersebut adalah:

E(Yi | Yi < a) = Xiβ + σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β Xi a Var(Yi | Yi < a) = σ2 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − σ δ a Xiβ 1 dengan : a a a φ σ λ σ σ − ⎛ ⎞ − ⎜ ⎟ − ⎛ ⎞₌ ⎝ ⎠ ⎜ ⎟ _⎛ ₋ _⎞ ⎝ ⎠ _{Φ ⎜} ⎟ ⎝ ⎠ i i i X β X β X β ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ σ λ σ λ σ δ a Xiβ a Xiβ a Xiβ a Xiβ

Dengan demikian diperoleh model regresi terpotong atas sebagai berikut : Yi | Yi < a = E(Yi | Yi < a) + εi = Xiβ + σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β X_i a + εi dengan : a a a φ σ λ σ σ − ⎛ ⎞ − ⎜ ⎟ − ⎛ ⎞₌ ⎝ ⎠ ⎜ ⎟ _⎛ ₋ _⎞ ⎝ ⎠ _{Φ ⎜} ⎟ ⎝ ⎠ i i i X β X β X β i = 1, 2, …, n observasi

Adanya penambahan suku σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β Xi a

(6)

2 1 2 1 1 1 2 ( , | , ) i i Y -Xβ i β Y Y Xβ n i i i n i e L a a σ σ π σ σ ⎛ ⎞ − ⎜_⎝ ⎟_⎠ = = ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ < = ⎡_Φ⎜⎛ − ⎞⎤ ⎟ ⎢ _⎝ _⎠⎥ ⎣ ⎦

∏

2 2 1 log ( , | , ) 1 log(2 ) log 2 2log i i i β Y Y Y -X β X β i i n i L a a σ π σ σ σ = < = ⎡ _⎛ _⎞ − ⎢ + +_⎜ _⎟ ⎝ ⎠ ⎢⎣ ⎤ ⎛ ⎛ − ⎞⎞ + _⎜Φ_⎜ _⎟_⎟_⎥ ⎝ ⎠ ⎝ ⎠⎦

∑

5. ESTIMASI PARAMETER

Metode untuk melakukan estimasi parameter regresi terpotong atas ini dipilih metode Maksimum Likelihood karena metode tersebut lebih efisien dibandingkan metode yang lain[2] .

Dari sub bag sebelumnya diperoleh model regresi terpotong atas yang memenuhi asumsi Yi ~ N (Xiβ, σ2). jika X ~ N( µ , σ2 ) maka : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = < = < σ µ σ µ φ σ a x a x P x f a x f 1 ) ( ) ( ) ( (5.1)

Sehingga untuk Yi ~ N (Xiβ, σ2), maka fungsi densitas normal terpotong atas pada nilai a adalah : 1 ( , | , ) i i i f a a φ σ σ σ σ − ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ < = − ⎛ ⎞ Φ ⎜_⎝ ⎟_⎠ i i Y X β Y Y β X β dengan demikian fungsi Likelihoodnya :

Untuk memperoleh estimasi dari β dan σ2, maka persamaan diatas ekivalen dengan

Untuk mempermudah pemodelan maka dilakukan reparameterisasi sebagai berikut :

σ

=β

γ dan

σ

θ

= 1

maka fungsi log Likelihood diatas menjadi

(

)

2 1

2

1

log ( , | ) log(2 ) log 2 ( ) 2log ( ) i i i i γ Y,Y Y X γ X γ n i i L θ a θ θ θa π = ⎡ < = − _⎣ − ⎤ + − + Φ − _⎦

∑

Nilai θ dan γ akan diestimasi kembali dengan menggunakan metode Maksimum Likelihood

(7)

i X γ i a α =θ − i i 1 log ( ,γ | Y,Y ) 0 1 Y( Y X γ) ( ) 0 i n i i i i L a a θ θ θ λ α θ = ∂ _{< =} ∂ ⎡ ⎤ ⇒ _⎢ − − + _⎥= ⎣ ⎦

∑

' ' i i i 1 log ( , γ | , ) 0 γ ( X γ)X ( )X 0 i i n i i i L Y Y a Y θ θ λ α = ∂ _< ₌ ∂ ⎡ ⎤ ⇒

∑

_⎣ − − _⎦= dengan ) ( ) ( ) ( i i i _α α φ α λ Φ − = dan

Karena masing-masing persamaan masih mempunyai parameter lain yang belum diketahui maka diperlukan iterasi untuk memperoleh nilai θ dan γ. Dalam hal ini dipilih metode Newton Raphson.

Langkah-langkah metode Newton Raspón untuk estimasi parameter adalah sebagai berikut:

1. Menentukan estimasi awal dari θ misal θˆ . _t 2. Menghitung g_t dan G_t . 3. Melakukan iterasi t -t t t G g 1 1 ˆ ˆ ₌ ₋ + θ θ .

4. Iterasi akan berhenti ketika θˆ_t+₁≈θˆ_t. (Susanta, 2004)

Adapun estimasi parameter dengan metode Maksimum Likelihood yang kemudian dibantu dengan metode iterasi Newton Raphson dirumuskan sebagai berikut:

g sebagai vektor derivatif parsial pertama:

1 log ( , | , ) log ( , | , ) 1 ( i ) ( ) γ g γ γ X γ i i i i n i i i i L Y Y a L Y Y a Y Y a θ θ θ θ λ α θ = ⎡∂ < ⎤ ⎢ _∂ ⎥ ⎢ ⎥ = ⎢ ⎥ ⎢_∂ _< ⎥ ⎢ ⎥ ∂ ⎢ ⎥ ⎣ ⎦ ⎡ ⎡ ₋ ₋ ₊ ⎤⎤ ⎢ ⎢_⎣ ⎥_⎦⎥ ⎢ ⎥ ⎢ ⎥ = ⎢ ⎥

∑

(8)

[

]

2 2 2 2 2 2 2 1 1 1 log ( , | , ) log ( , | , ) log ( , | , ) ) log ( , | , ) ) 1 ( ) ( ) ( ) ( ) i i ' ' ' i i i i i γ γ γ' G γ γ γ γ γ' X X X X X X X X i i i i i i i i n n i i i i i i n i i i i L Y Y a L Y Y a L Y Y a L Y Y a Y a Y a Y a θ θ θ θ θ θ θ θ δ α δ α θ δ α δ α = = = ⎡∂ < ∂ < ⎤ ⎢ _{∂ ∂} ⎥ ∂ ∂ ⎢ ⎥ ⎢ ⎥ = ⎢ ⎥ ∂ < ∂ < ⎢ ⎥ ⎢ _{∂ ∂} _{∂ ∂} ⎥ ⎣ ⎦ ⎡_{− − +} ⎤ ₋ ⎢ ⎥ ⎣ ⎦ = ⎡ − ⎤ − + ⎣ ⎦

∑

1 ' i n i= ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ _⎡ _⎤⎥ ⎣ ⎦ ⎢ ⎥ ⎣

∑

⎦

Dengan demikian estimasi parameter dengan metode Maksimum Likelihood dengan bantuan metode Newton Raphson dapat dirumuskan yaitu :

t t t t t t g G γ γ 1 1 1 ˆ ˆ ˆ ˆ − + + − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡_θ _θ dimana :

[

]

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − − =

∑

= = n i i t i t n i i t i i t t Y a Y Y 1 ' i ' i i 1 i X ) ( X ) γˆ X ˆ ( ) ( ) γˆ X ( ˆ 1 g α λ θ α λ θ θ dan

[

]

[

]

[

]

⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + − − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − − =

∑

= = = = n i i n i i i n i i i n i i i t t a Y a Y a Y 1 1 1 1 2 2 2 ) ( ) ( ) ( ) ( ˆ 1 ' i i ' i i ' i ' i i i X X X X X X X X G α δ α δ α δ α δ θ

Jika nilai estimasi parameter θˆdan γˆ telah diperoleh, maka nilai estimasi parameter σˆ

dan

ˆβ juga dapat diperoleh.

Sehingga diperoleh pula estimasi model regresi terpotong atas sebagai berikut : Yˆ|Y < a=Xβˆ+ _⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − σ λ σ ˆ βˆ X ˆ a dengan : ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Φ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − σ σ φ σ λ ˆ βˆ X ˆ βˆ X ˆ βˆ X a a a 6. PENUTUP

Pemilihan nilai a sebagai titik potong atas (right truncated point) pada model regresi terpotong atas harus berdasarkan tujuan peneliti yang ahli dalam bidang ilmu atau permasalahan yang akan dianalisis.

(9)

Dalam penentuan model regresi terpotong atas, metode estimasi parameter yang digunakan adalah metode Maksimum Likelihood yang dilanjutkan dengan metode iteratif Newton Raphson

Harga mean dan varian terpotong atas selalu lebih kecil dari harga mean dan varian yang tidak terpotong.

DAFTAR PUSTAKA

[1] Ender, Phil. 2004. Educaton 213C - Applied Categorical & Non Normal Data

Analysis. Los Angeles : UCLA Departement of Education.

htpp://www.gseis.ucla.edu/courses/ed231c/231c.html

[2] Greene, W. H. 1993. Econometric Analysis. Second Edition. New York: Macmillan Publishing Company.

[3] Montgomery, D. C & E. A. Peck. 1982. Introduction to Linear Regression Analysis. New York : John Wiley & Sons Inc.

[4} Susanto, Herry. 2004. Analisis Faktor-Faktor yang Mempengaruhi Struktur Modal

Perusahaan yang Listed di Bursa Efek Jakarta. Thesis. Program pasca sarjana

(10)