Dydaestury Jalarno 1,Dwi Ispriyanti 2 1 Alumni Jurusan Matematika FMIPA UNDIP 2Staf Program Studi Statistika FMIPA UNDIP
Abstrak
Model regresi terpotong atas merupakan suatu model regresi dengan nilai-nilai variabel dependen Y < a, dengan a adalah suatu titik potong atas yang dipilih berdasarkan penelitian. Dengan demikian, model regresi terpotong lebih tepat jika digunakan untuk penelitian yang berorientasi pada suatu karakteristik tertentu dari obyek pengamatan yaitu variabel dependennya. Distribusi yang digunakan untuk model regresi ini adalah distribusi normal terpotong atas. Estimasi parameter regresinya menggunakan metode Maksimum Likelihood dan metode iteratif Newton Raphson sedangkan pengujian signifikansi model menggunakan Uji Likelihood Rasio, uji t dan harga koefisien determinasi (R2).
Keyword: Regresi terpotong atas, metode maksimum likehood 1. PENDAHULUAN
Dalam beberapa masalah statistika, terdapat dua variabel atau lebih yang memiliki hubungan tak dapat dipisahkan. Prosedur regresi linier digunakan untuk menyelidiki hubungan tersebut yaitu hubungan antara sebuah variabel dependen (respon) dengan satu atau lebih variabel independen (penjelas). Jika variabel dependen dihubungkan dengan sebuah variabel independen saja, maka persamaan regresi yang dihasilkan adalah regresi linier sederhana, dan jika variabel bebasnya lebih dari satu maka yang dihasilkan adalah persamaan regresi linier berganda.
Dalam suatu penelitian, seringkali dijumpai bahwa variabel dependen Y perlu dibatasi untuk tujuan tertentu. Misalnya, akan diteliti tentang pengaruh penggunaan bahan bakar terhadap kecepatan kendaraan bermotor. Dalam hal ini data kecepatan kendaraan (sebagai variabel dependen) yang hendak diteliti dibatasi hanya untuk nilai-nilai kurang dari 60 km/jam. Pembatasan ini dilakukan karena peneliti berorientasi pada tujuan tertentu, misalnya berorientasi terhadap tingkat ekonomis dalam penggunaan bahan bakar. Adanya pembatasan terhadap suatu nilai tertentu terhadap variabel dependen Y, sebut saja a, mengakibatkan distribusi data tersebut berubah. Jika suatu populasi telah diketahui berdistribusi normal, maka distribusi akibat adanya pemotongan nilai tertentu berubah
Tujuan dari penulisan ini adalah menentukan model regresi terpotong atas, yang sebelumnya telah diperoleh mean terpotong dari distribusi normal terpotong. Setelah model regresi terpotong atas ditetapkan, tujuan selanjutnya adalah membentuk estimasi model regresi dengan nilai estimasi parameter-parameternya yang diperoleh melalui metode maksimum likelihood.
2. METODE MAKSIMUM LIKEHOOD
Misalkan X variabel random distribusi probabilta f(x|θ), dengan parameter tunggal θ tidak diketahui. Misalkan X1, X2, …, Xn adalah sampel random dari populasi dengan densitas f(xi|θ1, θ2,...,θk) . Maka fungsi Likelihood didefinisikan sebagai berikut:
L(θ1, θ2,...,θk|X) =
∏
= n i k i| ) f(x 1 2 1,θ , ,θ θ L …Misalkan Y1, Y2, …, Yn adalah sampel random dari distribusi normal dengan mean µ dan varian σ2, maka fungsi densitasnya adalah :
2 1 2 1 2 (Y | , ) 2 i y i f e µ σ µ σ σ π − ⎛ ⎞ − ⎜⎝ ⎟⎠ =
Fungsi Likelihood untuk fungsi densitas diatas sebagai berikut[3] :
( ) / 2 ( )2 2 2 1 1 ( , | Y) 2 exp 2 n n n i i L µ σ σ π y µ σ − − = ⎛ ⎞ = ⎜− − ⎟ ⎝
∑
⎠Dari Persamaan model regresi linier berganda : Y = Xβ + ε
Karena ε ~ N (0, σ2) dan X fixed maka E(Y) = Xβ, sehingga Y ~ N (Xβ, σ2).
Dengan substistusi µ = E(Y) = Xβ, maka fungsi Likelihood diatas berubah menjadi :
( )
(
) (
)
⎟ ⎠ ⎞ ⎜ ⎝ ⎛− − − = − − Y Xβ' Y Xβ Y β, 2 /2 2 2 1 exp 2 ) | ( σ π σ n n σ LDengan demikian parameter yang semula hendak diestimasi adalah µ dan σ2 berubah
menjadi β dan σ2.
Selanjutnya diperoleh log dari fungsi Likelihood yaitu :
( )
(
) (
)
(
Y Xβ) (
' Y Xβ)
2 1 2 log 2 log Xβ Y ' Xβ Y 2 1 exp 2 log ) Y | β, ( log 2 2 2 / 2 − − − − − = ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛− − − = − − σ π σ σ π σ n n σ L n n(
X'X)
X'Y βˆ X X' Y X' βˆ 0 X X' βˆ Y X' 0 ) X X' βˆ 2 Y X' 2 ( 2 1 0 ) Xβ X' β' Y X' β' Xβ Y' Y Y' ( 2 1 2 log 2 log β 0 ) Xβ Y ( ') Xβ Y ( 2 1 2 log 2 log β 0 ) Y | β, ( log β 1 2 2 2 2 2 2 − = = = − = + − − = ⎥⎦ ⎤ ⎢⎣ ⎡− − − − − + ∂ ∂ = ⎥⎦ ⎤ ⎢⎣ ⎡− − − − − ∂ ∂ = ∂ ∂ σ σ σ σ π σ σ π σ n n n n σ L(
) (
)
(
) (
)
(
) (
)
(
Y-Xβ) (
' Y-Xβ)
1 ˆ Xβ -Y ' Xβ -Y 1 0 Xβ -Y ' Xβ -Y 1 0 Xβ -Y ' Xβ -Y 2 1 2 log 2 log 0 ) Y | β, ( log 2 3 3 2 2 n n n n n σ L = = = + − = ⎥⎦ ⎤ ⎢⎣ ⎡− − − ∂ ∂ = ∂ ∂ σ σ σ σ σ σ π σ σ σ3. DISTRIBUSI NORMAL TERPOTONG ATAS
Distribusi normal terpotong adalah distribusi normal dengan nilai variabel random
X terbatas pada interval [b , a] atau b≤ X ≤ a. Titik a adalah titik terpotong di sebelah
kanan (disebut juga titik terpotong atas) dan titik b adalah titik terpotong kiri (disebut juga titik terpotong bawah).
Jika X berdistribusi normal dengan mean µ dan standar deviasi σ, maka [1]: f(x|b< x<a)= f(x)
maka : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = < < σ µ σ µ b a a X b P( ) . Sehingga : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = < < = < < σ µ σ µ σ µ φ σ b a x a x b P x f a x b x f 1 ) ( ) ( ) | (
dengan φ(.) dan Φ(.) adalah fungsi densitas (probability density function) dan fungsi distribusi (cumulative distribution function) dari distribusi normal baku.
Dari definisi [1] : ( | ) ( ) ( ) f x f x b x a P b x a < < = < <
Karena pemotongan hanya dilakukan pada titik x < a , maka titik b dianggap bernilai negatif tak berhingga, sehingga persamaan diatas menjadi :
Jika X ~ N( µ , σ2 ) dan a konstanta, maka mean dan varian dari distribusi normal terpotong
atas adalah : )] ( 1 [ ) ( ) ( ) | ( 2 α α δ σ a X | X Var σλ µ a X X E − = < + = < dengan : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛−∞− Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = < < −∞ = < σ µ σ µ a x f a x P x f a x x f ) ( ) ( ) ( ) | (
(
)
⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ≤ = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = + − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = ∞ Φ + − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = σ µ σ µ φ σ σ µ σ µ σ µ a x a x P x f a x f a x f a x f 1 ) ( ) ( 1 1 ) ( ) ( 1 ) ( ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∞+ Φ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛− ∞+ Φ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ = σ µ σµ σ µ σ µ ) ( 1 ) ( ) ( ) ( a x f a x f] ) ( )[ ( ) ( ) ( α λ λ δ(α) Φ λ(α) σ µ a α − = − = − = α α α α
φ (Fungsi Hazard dari distribusi normal)
4. MODEL REGRESI TERPOTONG ATAS
Model regresi berganda dalam bentuk matriks sebagai berikut : Y = Xβ + ε
mean dan varian dari distribusi Yi tersebut adalah:
E(Yi | Yi < a) = Xiβ + σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β Xi a Var(Yi | Yi < a) = σ2 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − σ δ a Xiβ 1 dengan : a a a φ σ λ σ σ − ⎛ ⎞ − ⎜ ⎟ − ⎛ ⎞= ⎝ ⎠ ⎜ ⎟ ⎛ − ⎞ ⎝ ⎠ Φ ⎜ ⎟ ⎝ ⎠ i i i X β X β X β ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ σ λ σ λ σ δ a Xiβ a Xiβ a Xiβ a Xiβ
Dengan demikian diperoleh model regresi terpotong atas sebagai berikut : Yi | Yi < a = E(Yi | Yi < a) + εi = Xiβ + σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β Xi a + εi dengan : a a a φ σ λ σ σ − ⎛ ⎞ − ⎜ ⎟ − ⎛ ⎞= ⎝ ⎠ ⎜ ⎟ ⎛ − ⎞ ⎝ ⎠ Φ ⎜ ⎟ ⎝ ⎠ i i i X β X β X β i = 1, 2, …, n observasi
Adanya penambahan suku σλ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − σ β Xi a
2 1 2 1 1 1 2 ( , | , ) i i Y -Xβ i β Y Y Xβ n i i i n i e L a a σ σ π σ σ ⎛ ⎞ − ⎜⎝ ⎟⎠ = = ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ < = ⎡Φ⎜⎛ − ⎞⎤ ⎟ ⎢ ⎝ ⎠⎥ ⎣ ⎦
∏
∏
2 2 1 log ( , | , ) 1 log(2 ) log 2 2log i i i β Y Y Y -X β X β i i n i L a a σ π σ σ σ = < = ⎡ ⎛ ⎞ − ⎢ + +⎜ ⎟ ⎝ ⎠ ⎢⎣ ⎤ ⎛ ⎛ − ⎞⎞ + ⎜Φ⎜ ⎟⎟⎥ ⎝ ⎠ ⎝ ⎠⎦∑
5. ESTIMASI PARAMETERMetode untuk melakukan estimasi parameter regresi terpotong atas ini dipilih metode Maksimum Likelihood karena metode tersebut lebih efisien dibandingkan metode yang lain[2] .
Dari sub bag sebelumnya diperoleh model regresi terpotong atas yang memenuhi asumsi Yi ~ N (Xiβ, σ2). jika X ~ N( µ , σ2 ) maka : ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − Φ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = < = < σ µ σ µ φ σ a x a x P x f a x f 1 ) ( ) ( ) ( (5.1)
Sehingga untuk Yi ~ N (Xiβ, σ2), maka fungsi densitas normal terpotong atas pada nilai a adalah : 1 ( , | , ) i i i f a a φ σ σ σ σ − ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ < = − ⎛ ⎞ Φ ⎜⎝ ⎟⎠ i i Y X β Y Y β X β dengan demikian fungsi Likelihoodnya :
Untuk memperoleh estimasi dari β dan σ2, maka persamaan diatas ekivalen dengan
Untuk mempermudah pemodelan maka dilakukan reparameterisasi sebagai berikut :
σ
=β
γ dan
σ
θ
= 1maka fungsi log Likelihood diatas menjadi
(
)
2 1
2
1
log ( , | ) log(2 ) log 2 ( ) 2log ( ) i i i i γ Y,Y Y X γ X γ n i i L θ a θ θ θa π = ⎡ < = − ⎣ − ⎤ + − + Φ − ⎦
∑
Nilai θ dan γ akan diestimasi kembali dengan menggunakan metode Maksimum Likelihood
i X γ i a α =θ − i i 1 log ( ,γ | Y,Y ) 0 1 Y( Y X γ) ( ) 0 i n i i i i L a a θ θ θ λ α θ = ∂ < = ∂ ⎡ ⎤ ⇒ ⎢ − − + ⎥= ⎣ ⎦
∑
' ' i i i 1 log ( , γ | , ) 0 γ ( X γ)X ( )X 0 i i n i i i L Y Y a Y θ θ λ α = ∂ < = ∂ ⎡ ⎤ ⇒∑
⎣ − − ⎦= dengan ) ( ) ( ) ( i i i α α φ α λ Φ − = danKarena masing-masing persamaan masih mempunyai parameter lain yang belum diketahui maka diperlukan iterasi untuk memperoleh nilai θ dan γ. Dalam hal ini dipilih metode Newton Raphson.
Langkah-langkah metode Newton Raspón untuk estimasi parameter adalah sebagai berikut:
1. Menentukan estimasi awal dari θ misal θˆ . t 2. Menghitung gt dan Gt . 3. Melakukan iterasi t -t t t G g 1 1 ˆ ˆ = − + θ θ .
4. Iterasi akan berhenti ketika θˆt+1≈θˆt. (Susanta, 2004)
Adapun estimasi parameter dengan metode Maksimum Likelihood yang kemudian dibantu dengan metode iterasi Newton Raphson dirumuskan sebagai berikut:
g sebagai vektor derivatif parsial pertama:
1 log ( , | , ) log ( , | , ) 1 ( i ) ( ) γ g γ γ X γ i i i i n i i i i L Y Y a L Y Y a Y Y a θ θ θ θ λ α θ = ⎡∂ < ⎤ ⎢ ∂ ⎥ ⎢ ⎥ = ⎢ ⎥ ⎢∂ < ⎥ ⎢ ⎥ ∂ ⎢ ⎥ ⎣ ⎦ ⎡ ⎡ − − + ⎤⎤ ⎢ ⎢⎣ ⎥⎦⎥ ⎢ ⎥ ⎢ ⎥ = ⎢ ⎥
∑
[
]
2 2 2 2 2 2 2 1 1 1 log ( , | , ) log ( , | , ) log ( , | , ) ) log ( , | , ) ) 1 ( ) ( ) ( ) ( ) i i ' ' ' i i i i i γ γ γ' G γ γ γ γ γ' X X X X X X X X i i i i i i i i n n i i i i i i n i i i i L Y Y a L Y Y a L Y Y a L Y Y a Y a Y a Y a θ θ θ θ θ θ θ θ δ α δ α θ δ α δ α = = = ⎡∂ < ∂ < ⎤ ⎢ ∂ ∂ ⎥ ∂ ∂ ⎢ ⎥ ⎢ ⎥ = ⎢ ⎥ ∂ < ∂ < ⎢ ⎥ ⎢ ∂ ∂ ∂ ∂ ⎥ ⎣ ⎦ ⎡− − + ⎤ − ⎢ ⎥ ⎣ ⎦ = ⎡ − ⎤ − + ⎣ ⎦∑
∑
∑
1 ' i n i= ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎡ ⎤⎥ ⎣ ⎦ ⎢ ⎥ ⎣∑
⎦Dengan demikian estimasi parameter dengan metode Maksimum Likelihood dengan bantuan metode Newton Raphson dapat dirumuskan yaitu :
t t t t t t g G γ γ 1 1 1 ˆ ˆ ˆ ˆ − + + − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡θ θ dimana :
[
]
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − − =∑
∑
= = n i i t i t n i i t i i t t Y a Y Y 1 ' i ' i i 1 i X ) ( X ) γˆ X ˆ ( ) ( ) γˆ X ( ˆ 1 g α λ θ α λ θ θ dan[
]
[
]
[
]
⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ + − − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − − =∑
∑
∑
∑
= = = = n i i n i i i n i i i n i i i t t a Y a Y a Y 1 1 1 1 2 2 2 ) ( ) ( ) ( ) ( ˆ 1 ' i i ' i i ' i ' i i i X X X X X X X X G α δ α δ α δ α δ θJika nilai estimasi parameter θˆdan γˆ telah diperoleh, maka nilai estimasi parameter σˆ
dan
ˆβ juga dapat diperoleh.
Sehingga diperoleh pula estimasi model regresi terpotong atas sebagai berikut : Yˆ|Y < a=Xβˆ+ ⎟⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − σ λ σ ˆ βˆ X ˆ a dengan : ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − Φ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − σ σ φ σ λ ˆ βˆ X ˆ βˆ X ˆ βˆ X a a a 6. PENUTUP
Pemilihan nilai a sebagai titik potong atas (right truncated point) pada model regresi terpotong atas harus berdasarkan tujuan peneliti yang ahli dalam bidang ilmu atau permasalahan yang akan dianalisis.
Dalam penentuan model regresi terpotong atas, metode estimasi parameter yang digunakan adalah metode Maksimum Likelihood yang dilanjutkan dengan metode iteratif Newton Raphson
Harga mean dan varian terpotong atas selalu lebih kecil dari harga mean dan varian yang tidak terpotong.
DAFTAR PUSTAKA
[1] Ender, Phil. 2004. Educaton 213C - Applied Categorical & Non Normal Data
Analysis. Los Angeles : UCLA Departement of Education.
htpp://www.gseis.ucla.edu/courses/ed231c/231c.html
[2] Greene, W. H. 1993. Econometric Analysis. Second Edition. New York: Macmillan Publishing Company.
[3] Montgomery, D. C & E. A. Peck. 1982. Introduction to Linear Regression Analysis. New York : John Wiley & Sons Inc.
[4} Susanto, Herry. 2004. Analisis Faktor-Faktor yang Mempengaruhi Struktur Modal
Perusahaan yang Listed di Bursa Efek Jakarta. Thesis. Program pasca sarjana