UNTUK DATA LONGITUDINAL Lilis Laome1
1
Jurusan Matematika FMIPA Universitas Haluoleo Kendari 93232 e-mail : [email protected]
Abstrak
Misal yi merupakan variabel respon, Xi adalah variabel prediktor yang berhubungan linier dengan yi
dan ti adalah variabel prediktor lain yang berhubungan secara tidak linier dengan yi, model tersebut dikatakan model semiparametrik dan dapat ditulis dengan :
( ) , 1, 2, ...,
T
i i i i
y X β f t i n
dimana, f t( )i adalah fungsi yang tidak diketahui. Suatu model semiparametrik untuk data longitudinal dapat ditulis dengan :
( ) , 1, 2, ..., ; 1, 2, ...,
T
ij ij ij ij i
y X β f t i n j n
Dengan menggunakan metode Penalized Likelihood diperoleh estimator komponen parametrik
ˆ T T
-1
β = X PX X Py
dan estimator komponen nonparametrik
1 1 1 ˆ ( T) T T -1 f V K V I - X X PX X P y , dimana 1 1 1 1 1 ( T) P = V V V K VKata kunci : regresi semiparametrik, data longitudinal, dan penalized likelihood. Abstract
Let yi is response variable, Xi is predictor variable which linear relation with yi and ti is another
predictor which nonlinear relation with yi, the model is semiparametric,
( ) , 1, 2, ...,
T
i i i i
y X β f t i n
where,
f t
( )
i is unknown function. The semiparametriic model for longitudinal data is :( ) , 1, 2, ..., ; 1, 2, ...,
T
ij ij ij ij i
y X β f t i n j n
With using Penalized Likelihood method are obtained parametric component estimator
ˆ T T
-1
β = X PX X Py
And nonparametric component estimator
1 1 1 ˆ ( T) T T -1 f V K V I - X X PX X P y , where 1 1 1 1 1 ( T) P = V V V K VKeywords: semiparametric regression, longitudinal data, and penalized likelihood
I. LATAR BELAKANG
Analisis regresi adalah salah satu alat statistik yang banyak digunakan untuk mengetahui
hubungan antara dua atau lebih variabel. Misalkan y adalah variabel respon dan t adalah variabel
dengan ( )
i
f t adalah fungsi regresi dan i adalah error random yang diasumsikan independen dan
identik dengan mean 0 dan variansi 2
.
Ada dua pendekatan yang dapat digunakan untuk mengestimasi ( )
i
f t yaitu pendekatan
parametrik dan nonparametrik. Pendekatan parametrik digunakan bila bentuk fungsi ( )
i
f t diketahui
berdasarkan pada teori dan pengalaman masa lalu. Sedangkan pendekatan nonparametrik digunakan bila tidak adanya informasi tentang bentuk hubungan variabel respon dan variabel prediktor. Namun dalam perkembangan analisis regresi, untuk mengatasi permasalahan bila variabel prediktornya tidak dapat diestimasi dengan pendekatan parametrik maupun nonparametrik, maka diperkenalkan regresi yang merupakan gabungan dari regresi parametrik dan regresi nonparametrik, yaitu regresi semiparametrik [1].
Penelitian tentang regresi semiparametrik telah banyak dilakukan. [2] tentang estimator spline pada model semiparametrik. [3] tentang pendekatan kernel dalam regresi semiparametrik dan pemilihan bandwidth optimal. Dan [4] tentang model linier parsial pada hilangnya data komponen parametrik. Namun penelitian-penelitian tersebut hanya pada data cross section atau data yang diamati pada suatu waktu tertentu. Untuk kasus khusus, regresi semiparametrik dapat digunakan pada data longitudinal.
II. TINJAUAN PUSTAKA II.1 Data Longitudinal
Studi longitudinal didefinisikan sebagai suatu studi terhadap unit eksperimen dengan respon yang diamati dalam dua atau lebih interval. Data longitudinal adalah pengamatan berulang pada unit eksperimen, berbeda dengan data cross section yaitu data dari masing-masing individu diamati dalam sekali waktu [5]. Ada beberapa keuntungan dari studi mengenai data longitudinal dibandingkan dengan data cross section. Pertama, studi longitudinal lebih powerful dari studi cross
section untuk sejumlah subjek yang tetap. Dengan kata lain, untuk memperoleh kekuatan uji statistik
yang sama, studi longitudinal membutuhkan subjek yang lebih sedikit. Kedua, dengan jumlah subjek yang sama, hasil pengukuran error menghasilkan penaksir efek perlakuan yang lebih efisien dari data
II.2 Model Semiparametrik Untuk Data Longitudinal
Regresi semiparametrik adalah gabungan antara regresi parametrik dan regresi nonparametrik. Model regresi semiparametrik dapat ditulis sebagai berikut :
( ) , 1, 2, ...,
T
i i i i
y X f t i n (1)
dimana yi adalah variabel respon ke -i , Xi adalah komponen parametrik, ( )
i
f t adalah fungsi regresi
dan i adalah error random, dimana
2 (0, )
i N
. Regresi semiparametrik untuk data longitudinal
dapat ditulis dengan :
( ) , 1, 2,..., ; 1, 2,...,
T
ij ij ij ij i
y X βf t i n j n (2)
dimana terdapat n subjek dengan subjek ke-i mempunyai ni observasi menurut waktu. yij , i = 1,...,n,
j = 1,...,ni merupakan respon untuk subjek ke-i pada waktu ke-j. ( 1, 2, ..., )
T p β adalah vektor 1
p pada koefisien regresi parametrik Xi, dengan T
ij
X β diasumsikan tidak mempunyai intersep,
( )ij
f t adalah fungsi yang terdeferensiabel dua kali dengan panjang periode sama dengan P dan ij
adalah eror random yang saling bebas dengan mean 0 dan variansi 2
R.
III. PEMBAHASAN
Asumsi data mengikuti model pada persamaan (2) dengan 2
m W f dan 2 0 N ε ( , R). Estimasi parameter pada model regresi semiparametrik untuk data longitudinal, diperoleh dengan cara memaksimumkan Penalized Log Likelihood (PLL). Misalkan
1 n i i N n
dan 2 V R makafungsi distribusi dari ε adalah
1
2 1 1 ( ) exp 2 (2 ) T N f ε ε V ε V (3)selanjutnya akan dicari distribusi dari y = Xβ + f + ε dengan metode Moment Generate Function
2 ( ) [exp( )] [exp{ ( )}] exp( ( )) [exp( )] 1 exp( ( )) exp( ) 2 1 exp( ( ) ) 2 T y T T T T T T T M E E E 2 t t y t Xβ + f + ε t Xβ + f t ε t Xβ + f t Rt t Xβ + f t Rt
sehingga dari metode MGF diatas diperoleh 2
( , )
N
y Xβ + f R . Berikut diberikan fungsi likelihood
dari y adalah:
1
2 1 ( , , ) (2 ) exp 2 N T β f y V ε V ε (4)dengan εyXβf. Selanjutnya, untuk estimasi parameter β dan fungsi f didapat dari
memaksimumkan PLL. Diketahui fungsi log likelihood ( , , )β f y dari model semiparametrik tersebut
adalah :
1
1
log ( ) log(2 ) log ( ) ( )
2 2 2 T N N β, f, y ( V ) y Xβ f V y Xβ f (5)
Selanjutnya, fungsi PLL untuk model (2) dapat ditulis dengan :
2 ( , ) [ ] 2 b a PLLβ f, y
f (t)'' dt (6)dimana ( ,β f, y) merupakan fungsi likelihood, 0 merupakan parameter smoothing dan 2
[ ] b a dt
'' f (t)merupakan fungsi penalti. Persamaan (6) dapat disederhanakan dengan :
1 1 1 1 1 1 1 log(2 ) log( ) ( 2 2 2 2 2 2 ) 2 T T T T T T T T T N N PLL V y V y y V Xβ y V f β X V Xβ β X V f + f V f f Kf (7)
1 1 1
1 1 1 1 2 2 2 0 2 0 (8) T T T T T T y V X X V Xβ X V f X V y X V Xβ X V fSelanjutnya dengan membuat PLL 0
f akan diperoleh :
1 1 1
1 1 1 1 1 1 1 1 1 2 2 2 0 2 0 ( ) ( ) ( ) ( ) (9) T T T T T T T T T T T y V β X V f V f K y V β X V V f K f V K f V y Xβ f V K V y XβUntuk memperoleh estimator ˆβ, substitusi (9) ke (8) :
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ( ) ( ) ( ) ( ) ˆ ( ) ( ) ˆ (10) T T T T T T T T T T T T T T T T T T -1 -1 X V y X V Xβ- X V K V y Xβ = 0 X V X X V K V X β = X V X V K V y β = X V X X V K V X X V X V K V y β = X PX X Py dimana 1 1 1 1 ( T) P = V V K V Substitusi (10) ke (9), diperoleh :
1 1 1 1 1 1 ˆ ( ) ˆ ( ) (11) T T T T T T -1 -1 f = V K V y - X X PX X Py f V K V I - X X PX X P yUntuk mendapatkan matrik A( ) , substitusi (10) dan (11) ke :
1 1 1 1 1 1 1 1 1 1 1 1 ˆ ˆ ˆ ( ) ( ) ( ) ( ) ( ) T T T T T T T T T T T T T T -1 -1 -1 -1 -1 y Xβ f X X PX X Py V K V I- X X PX X P y X X PX X P V K V I - X X PX X P y I V K V X X PX X P V K V y A y dimana
1 1 1
( ) ( T) T T -1 A I V K V X X PX X PIV. KESIMPULAN
Diberikan model yij X βi f t( )ij ij dimana i1, 2, ..., ,n j1, 2, ...,ni. Error random ε
berdistribusi normal dengan mean nol dan variansi V. Berdasarkan analisis yang dilakukan dapat
disimpulkan dalam estimasi model semiparametrik yaitu estimasi parameter untuk komponen parametrik diperoleh :
1 ˆ T T β X PX X Pydan estimasi komponen nonparametrik diperoleh :
1 1 1 ˆ ( T) T T -1 f V K V I - X X PX X P y dimana 1 1 1 1 1 ( T) P = V V V K V V. DAFTAR PUSTAKA[1] Engle, R. F., Granger, C. W. J., Rice, J., dan Weiss, A. 1986. Semiparametric Estimates of The
Relation Between Weather and Electricity Sales, Journal of the American Statistical
Association. Vol. 81, hal 310-320.
[2] Srinadi, I.A.M. 2002. Estimator Spline pada Model Semiparametrik. Tesis. Surabaya: Institut
Teknologi Sepuluh Nopember.
[3] Mulianah. 2006. Pendekatan Kernel dalam Regresi Semiparametrik dan Pemilihan Bandwith
Optimal. Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.
[4] Ampa, A. T. 2006. Model Linier Parsial Pada Hilangnya Data Komponen Parametri. Tesis.
Surabaya : Institut Teknologi Sepuluh Nopember.
[5] Kuswanto, H. 2005. Model Gamma-Frailty Untuk Data Longitudinal dan Pendugaan Korelasi
Serial dengan Metode Composite Likelihood, Tesis. Surabaya : Institut Teknologi Sepuluh