Ratna Pratiwi dan Dwi Ispriyanti
Jurusan Matematika FMIPA Universitas Diponegoro Jl. Prof. H. Soedarto SH Tembalang, Semarang 50275
Abstract. Left truncated regression model is a regression model which the parameters prevailed for the dependent variable values Y > a, with a is a left truncation point that is choosen according to the experiment goals, and a is also the observation object itself at once. Thus, truncated regression model is more correct if it is used for the experiment that oriented on a specific characteristic of the observation object, that is dependent variable. The distribution that is used for this regression model is normal left truncated distribution. Estimation of regression parameters used Maksimum Likelihood method with Newton’s iteratif method.
Keywords: left trucated regression, Maksimum likehood method
1. PENDAHULUAN
Analisis regresi merupakan salah satu teknik statistik yang digunakan untuk menyelidiki hubungan antara dua variabel atau lebih, sekaligus merumuskan model matematisnya. Model regresi linier adalah suatu persamaan yang berhubungan de-ngan nilai satu variabel dependen (Y) yang didasarkan pada satu atau beberapa varia-bel independen (X) yang diketahui.
Dalam suatu penelitian, seringkali dijumpai bahwa variabel dependen Y perlu dibatasi untuk tujuan tertentu. Adanya pembatasan atau pemotongan terhadap suatu nilai tertentu terhadap variabel de-penden Y, sebut saja a, mengakibatkan distribusi data tersebut berubah. Distribusi yang akan digunakan adalah distribusi nor-mal terpotong yang selanjutnya menjadi dasar dalam pembentukan model regresi terpotong (truncated regression). Sebelum pembentukan model regresi terpotong, lebih dahulu harus diketahui mean ter-potong (truncated mean) dari distribusi normal terpotong. Hal ini akan mem-permudah langkah selanjutnya yaitu mela-kukan estimasi terhadap parameter-para-meternya.
Dalam penulisan ini, akan dibahas mengenai estimasi model regresi terpotong
kiri (left truncated regression), yaitu model yang parameter-parameternya berlaku un-tuk nilai-nilai Y > a, dengan a suatu kons-tanta yang merupakan titik potong kiri bagi variabel dependen Y. Parameter regresi tersebut dapat diestimasi menggunakan metode Maksimum Likelihood. Menurut [5], efek pemotongan terjadi ketika data sampel yang diambil berasal dari suatu ba-gian populasi yang besar. Sehingga untuk membentuk model regesi terpotong seba-iknya menggunakan data yang berjumlah besar.
2. METODE MAKSIMUM LIKELIHOOD
Metode Maksimum Likelihood me-rupakan salah satu metode yang paling baik untuk memperoleh estimator. Diberi-kan X variabel random distribusi proba-bilta f(x|
θ)
, dimana parameter tunggalθ
tidak diketahui. Jika diberikan X1, X2, …,Xn adalah sampel random dari populasi
dengan densitas f(xi|
θ
1, θ
2,...,θ
k)
. Maka fungsi Likelihood didefinisikan:L(
θ
1, θ
2,...,θ
k|X)
=∏
= n i k i| ) f(x 1 2 1,θ , ,θ θ ⋯Diberikan Y1, Y2, …, Yn adalah
sampel random dari distribusi normal de-ngan fungsi densitas
2 2 1 2 2 1 ) , | ( − − = σ µ π σ σ µ i y i e y f
maka fungsi Likelihoodnya adalah
( ) ( ) ( ) . 2 1 exp 2 2 1 exp 2 1 ) Y | , ( 1 2 2 2 / 1 2 2 2 ∑ − − = ∏ − − = = − − = n i i n n n i i y y σ L µ σ π σ µ σ π σ µ
Pandang model regresi linier berganda da-lam bentuk matriks
Y = Xβ + ε
ε ~ N (0, σ2), X fixed dan β konstan, maka
E(Y) = Xβ, sehingga Y ~ N (Xβ, σ2). Dengan substistusi µ = E(Y) = Xβ, maka fungsi Likelihood menjadi
( )
(
) (
)
− − − = − − Xβ Y ' Xβ Y 2 1 exp . 2 ) Y | β, ( 2 2 / 2σ
π
σ
n n σ L (2.1). Untuk memperoleh estimasi dari β dan σ2, maka persamaan (2.1) ekivalen dengan(
Y Xβ) (
' Y Xβ)
2 1 2 log 2 log ) Y | β, ( log 2 2 − − − − − =σ
π
σ
n n σ L (2.2) selanjutnya 0 ) X X' βˆ 2 Y X' 2 ( 2 1 0 ) Y | β, ( log β 2 2 = + − − ⇒ = ∂ ∂ σ σ L (2.3) dan(
Y-Xβ) (
' Y-Xβ)
0 1 0 ) Y | β, ( log 3 2 = + − ⇒ = ∂ ∂ σ σ σ n σ L (2.4) Dari penyelesaian persamaan (2.3) dan (2.4) diperoleh(
X'X)
X'Y βˆ= −1 ,(
Y-Xβ) (
' Y-Xβ)
1 ˆ2 n = σ . 3. DISTRIBUSI NORMAL TERPOTONG KIRIDistribusi normal terpotong adalah distribusi normal dengan nilai variabel random X terbatas pada interval [a , b] atau a ≤ X ≤ b. Titik a adalah titik
terpotong di sebelah kiri (disebut juga titik terpotong kiri) dan titik b adalah titik terpotong kanan (disebut juga titik ter-potong kanan). Menurut [3], didefinisikan fungsi densitas normal terpotong sebagai berikut. ) ( ) ( ) | ( b x a P x f b x a x f < < = < < , (3.1) dimana 2 2 1 2 1 ) ( − − = σ µ
π
σ
x e x f adalahfungsi densitas normal. Diberikan transformasi
σ
µ
− = x z sedemi-kian sehingga , 1 ) | ( − Φ − − Φ − = < <σ
µ
σ
µ
σ
µ
φ
σ
a b x b x a x f (3.2) dimanaφ(
.)
dan Φ(.) adalah fungsi densitas dan fungsi distribusi dari distribusi normal baku.Teorema 3.1.
Jika variabel random X mempunyai fungsi densitas f(x) dan a konstanta, maka fungsi densitas terpotong pada x > a adalah
) ( ) ( ) | ( a x P x f a x x f > = > (3.3) Bukti.
Karena pemotongan hanya dilakukan pada titik x > a , maka titik b dianggap bernilai positif tak berhingga, sehingga dari persamaan (3.1) dan (3.2) diperoleh
( )
− Φ − ∞ Φ = > σµ a x f a x x f( | ) ( )) ( 1 ) ( a x P x f ≤ − = ) ( ) ( a x P x f > = ■
Distribusi normal yang terpotong tunggal di sebelah kiri oleh suatu konstanta a seba-gai titik pemotongan disebut juga distribusi normal terpotong kiri (Gambar 1).
Gambar 1. Distribusi Normal Terpotong Kiri
Teorema 3.2.
Jika X ~ N( µ , σ2 ) dan a konstanta, maka mean dan varian dari distribusi normal terpotong kiri adalah
)], ( 1 [ ) ( ), ( ) | ( 2
α
α
δ σ a X | X Var σλ µ a X X E − = > + = > (3.4) dengan σµ α = x− , ) ( 1 ) ( ) ( α α φ α λ Φ − = ,δ
(α
)=λ
(α
)[
λ
(α
)−α
]
=λ
'(α
).Mean dari distribusi terpotong kiri disebut mean terpotong kiri, sedangkan variannya disebut varian terpotong kiri. Harga mean terpotong selalu lebih besar dari harga mean yang tidak terpotong, namun sebalik-nya harga varian terpotong selalu lebih kecil dari harga varian yang tidak terpo-tong. Fungsi ) ( 1 ) ( ) ( α α φ α λ Φ − = disebut fungsi
Hazard dari distribusi normal. Dalam lite-ratur micro-econometrics, fungsi ini biasa-nya disebut dengan inverse Mills ratio.
4. MODEL REGRESI TERPOTONG KIRI
Diberikan model regresi berganda dalam bentuk skalar
Yi = Xiβ + εi , dengan Xi =
[
1 Xi1 Xi2 ⋯ Xip]
, β = p 1 0 β β β ⋮ , i = 1, 2, …, n observasi.Diasumsikan εi ~ N (0, σ2) dan Xi fixed maka E(Yi) = Xiβ , sehingga Yi ~ N (Xiβ, σ2).
Dalam regresi terpotong kiri, dike-hendaki suatu distribusi dengan Yi lebih
besar dari pemotongan suatu nilai a, maka dari persamaan (3.4) diperoleh mean dan varian terpotong kiri
E(Yi | Yi > a) = Xiβ + σλ − σ β Xi a , Var(Yi | Yi > a) = σ2 − −
σ
δ
X β 1 a i , dengan µ a µTR D en si ty y − Φ − − = − σ σ φ σ λ β X 1 β X β X i i i a a a − − − − = −
σ
σ
λ
σ
λ
σ
δ
β X β X . β X β X i i i i a a a aDengan demikian diperoleh model regresi terpotong kiri sebagai berikut.
Yi | Yi > a = E(Yi | Yi > a) + εi = Xiβ + σλ −
σ
β Xi a + εi , (4.1) dengan − Φ − − = −σ
σ
φ
σ
λ
β X 1 β X β X i i i a a a , i = 1, 2, …, n observasi.Menurut [5], adanya penambahan suku
σλ −
σ
β Xi amenyebabkan model regresi terpotong berbentuk nonlinier dalam β dan
Xi. Akibatnya, prosedur estimasi parameter
βˆ dan
σ
ˆ sedikit lebih kompleksdibanding-kan model regresi klasik
5. ESTIMASI PARAMETER REGRE-SI TERPOTONG KIRI
Menurut [7], regresi terpotong kiri merupakan keluarga dari Limited Depen-dent Variables (LDV). Dalam LDV ada beberapa metode untuk melakukan estima-si parameter, yaitu metode Heckman, Amemiya dan Maksimum Likelihood. Un-tuk regresi terpotong kiri ini dipilih metode Maksimum Likelihood.
Dari persamaan (3.3), fungsi densi-tas normal terpotong kiri pada nilai a ada-lah − Φ − − = >
σ
σ
φ
σ
σ
β X 1 β X 1 ) , β | , ( i i a Y a Y Y f i i i ,dengan demikian fungsi Likelihoodnya
∏ − Φ − ∏ = > = = − − n i n i Y i i a e a Y Y L i 1 i 1 β X 2 1 β X 1 2 1 ) , | , β ( 2 i
σ
π
σ
σ
σ (5.1) untuk memperoleh estimasi dari β dan σ, maka persamaan (5.1) ekivalen dengan. β X 1 log 2 β X log ) 2 log( 2 1 ) , | , β ( log i 1 2 i 2 − Φ − + ∑ − + + − = > =
σ
σ
σ
π
σ
a Y a Y Y L n i i i iUntuk mempermudah pemodelan maka di-lakukan reparameterisasi Olsen (1978): γ β
σ
= dan
σ
θ = 1 (5.2)
maka fungsi log Likelihood diatas menjadi:
[
(
1 ( Xγ))
]
. log 2 ) γ X ( log ) 2 log( 2 1 ) , | γ , ( log i n 1 i 2 i 2 − Φ − ∑ − + − + − = > = θa θY θ a Y Y θ L i i iπ
Nilai θ dan γ akan diestimasi kembali dengan metode Maksimum Likelihood
0 ) ( ) γ X ( 1 0 ) , | γ , ( log 1 i = ∑ + − − ⇒ = > ∂ ∂ = n i i i i i i a Y Y a Y Y L α λ θ θ θ θ (5.3)
[
( X γ)X ( )X]
0 0 ) , | γ , ( log γ 1 ' i ' i i = ∑ − − ⇒ = > ∂ ∂ = n i i i i i Y a Y Y L α λ θ θ (5.4) dimana) ( 1 ) ( ) ( i i i α α φ α λ Φ − = dengan
α
i =θ
a−XiγPersamaan (5.3) dan (5.4) belum dapat memberikan suatu penyelesaian karena bentuknya yang tidak “closed form” yaitu masing-masing persamaan masih mempu-nyai parameter lain yang belum diketahui. Oleh karena itu, diperlukan suatu metode numerik iterasi yang dalam hal ini dipilih metode Newton. Metode Newton adalah metode iterasi yang digunakan untuk me-nyelesaikan suatu persamaan nonlinier se-perti persamaan likelihood. Dasar dari metode Newton adalah pendekatan deret Taylor f(x) di sekitar titik x = x0, yaitu:
+ − + ≅ ( ) '( )( ) ) (x f x0 f x0 x x0 f ⋯ + − 0 2 0 ) )( ( '' 2 1 x x x f
Dalam penggunaannya diperlukan derivatif parsial pertama dan kedua dari fungsi Likelihood.
Diberikan g sebagai vektor derivatif parsial pertama: ∂ > ∂ ∂ > ∂ = γ ) , | γ , ( log ) , | γ , ( log g a Y Y L a Y Y L i i i i
θ
θ
θ
[
]
− − + − − = ∑ ∑ = = n i i i n i i i i Y a Y Y 1 ' i ' i i 1 i X ) ( X ) γ X ( ) ( ) γ X ( 1α
λ
θ
α
λ
θ
θ
Sedangkan G sebagai matriks Hessian atau matriks derivatif parsial kedua
θ ∂ ∂ > θ ∂ θ ∂ θ ∂ > θ ∂ = γ ) ) a Y , Y | γ , ( L log ) a Y , Y | γ , ( L log G i i 2 i i 2 ∂ ∂ > θ ∂ ∂ θ ∂ > θ ∂ γ' γ ) ) a Y , Y | γ , ( L log γ' ) a Y , Y | γ , ( L log i i 2 i i 2
[
]
[
]
[
X X ( )X X]
. X a ) ( X Y X ) ( a X Y ) ( a Y 1 n 1 i ' i i i ' i i n 1 i i i i i n 1 i ' i i ' i i n 1 i i 2 2 i 2 ∑ − +δ α ∑ −δ α ∑ − δ α ∑ α δ + − θ − = = = = =Dengan demikian estimasi parameter dengan metode Maksimum Likelihood dengan bantuan metode Newton dapat dirumuskan dalam bentuk iterasi sebagai berikut. t t t t t t g G γˆ ˆ γˆ ˆ 1 1 1 − + + − =
θ
θ
dimana[
]
− − + − − = ∑ ∑ = = n i t i t i n i t i i t i t Y a Y Y 1 ' i ' i i 1 i X ) ( X ) γˆ X ˆ ( ) ( ) γˆ X ( ˆ 1 gα
λ
θ
α
λ
θ
θ
, dan[
]
∑ − δ α ∑ α δ + − θ − = = = n 1 i ' i i ' i i n 1 i i 2 2 i 2 t t X ) ( a X Y ) ( a Y ˆ 1 G[
]
[
]
∑ − +δ α ∑ −δ α = = n 1 i ' i i i ' i i n 1 i i i i i X X ) ( X X X a ) ( X Y .dengan t adalah ukuran iterasi.
Jika nilai estimasi parameter
γˆ
dan ˆ
persamaan (5.2) nilai estimasi parameter
σˆ dan
βˆ juga dapat diperoleh.
Sehingga berdasarkan persamaan (4.1) diperoleh pula estimasi model regresi ter-potong kiri sebagai berikut.
βˆ X | ˆ Y >a= Y + −
σ
λ
σ
ˆ βˆ X ˆ a , dengan − Φ − − = −σ
σ
φ
σ
λ
ˆ βˆ X 1 ˆ βˆ X ˆ βˆ X a a a . 6. PENUTUPPemilihan nilai a sebagai titik po-tong kiri (left truncated point) pada model regresi terpotong kiri harus berdasarkan tu-juan peneliti yang memiliki keahlian pada bidang ilmu atau permasalahan yang hen-dak diobservasi/dianalisis.
Regresi terpotong kiri (left trunca-ted regression) merupakan keluarga Limi-ted Dependent Variables (LDV) dan untuk estimasi parameternya dipilih metode Maksimum Likelihood. Karena bentuk persamaan Likelihood tidak “closed form”, maka diperlukan metode iteratif yaitu metode Newton.
DAFTAR PUSTAKA
[1] Becker, W. E. & W. B. Walstad, (1987), Economics Modelling in Eco-nomics Education Research, Boston, Nijhoff Publishing.
[2] Draper, N. & H. Smith, (1992), Analisis Regresi Terapan. Edisi Ke-dua. Terjemahan Bambang Sumantri, Jakarta, PT Gramedia Pustaka Utama. [3] Ender, Phil, (2004), Educaton 213C-
Applied Categorical & Non Normal Data Analysis. Los Angeles, UCLA Departement of Education. htpp:// www.gseis.ucla.edu/courses/ed231c/23 1c.html
[4] Greene, W. H., (1993), Econometric Analysis. Second Edition. New York, Macmillan Publishing Company.
[5] Quantitative Micro Software, LLC., (2004). EViews 4 User’s Guide. Campus Drive, Irvine CA, USA. [6] Suppakornkosai, Sumanee, htpp://
faculty.smu.edu/tfomby/eco6375/prese ntations/Sumanee/Truncation.ppt [7] Zivot, Eric, (2004). Economics 582 -
Econometris Theory II. Departement of Economics. htpp://faculty. washington. edu/~ezivot/econ582/582 notes.htm.