• Tidak ada hasil yang ditemukan

MODEL REGRESI SEMIPARAMETRIK SPLINE UNTUK DATA LONGITUDINAL PADA KASUS KADAR CD4 PENDERITA HIV. Lilis Laome 1)

N/A
N/A
Protected

Academic year: 2021

Membagikan "MODEL REGRESI SEMIPARAMETRIK SPLINE UNTUK DATA LONGITUDINAL PADA KASUS KADAR CD4 PENDERITA HIV. Lilis Laome 1)"

Copied!
6
0
0

Teks penuh

(1)

MODEL REGRESI SEMIPARAMETRIK SPLINE UNTUK DATA LONGITUDINAL PADA KASUS KADAR CD4 PENDERITA HIV

Lilis Laome1)

1) Jurusan Matematika FMIPA Universitas Haluoleo Kendari 93232

ABSTRAK

Pemodelan data longitudinal telah dilakukan dengan regresi semiparametrik spline. Selanjutnya diaplikasikan untuk menduga pola hubungan CD4 awal (X) dengan kadar CD4 pasien HIV (Y) dan waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y), sehingga diperoleh model terbaik dengan melihat MSE terkecil dan R2 terbesar.

Kata kunci: data longitudinal, regresi semiparametrik, spline

ABSTRACT

The modeling of longitudinal data have been done with spline semiparametric regression. Then application for estimating CD4 number and pre-CD4 for a subject with linear parametric pattern, and checking time with nonparametric pattern, so that it is obtained the best model with the lowest MSE and the biggest R2.

Keywords: longitudinal data, semiparametric regression, spline

Diterima: 20 Maret 2009

Disetujui untuk dipublikasikan: 21 Agustus 2009 1. Pendahuluan

Regresi semiparametrik adalah gabungan antara regresi parametrik dan regresi nonparametrik. Penelitian tentang regresi semiparametrik telah banyak dilakukan. Srinadi telah meneliti estimator spline pada model semiparametrik [1]. Mulianah meneliti pendekatan kernel dalam regresi semiparametrik dan pemilihan bandwidth optimal [2]. Ampa meneliti model linier parsial pada hilangnya data komponen parametrik [3]. Namun penelitian-penelitian tersebut hanya pada data cross section atau data yang diamati pada suatu waktu tertentu. Untuk kasus khusus, regresi semiparametrik dapat digunakan pada data longitudinal.

Analisis tentang pemodelan data longitudinal sudah banyak dikaji oleh peneliti. Brumback dan Rice menggunakan smoothing spline dalam mengestimasi fungsi nonparametrik pada data progesteron [4]. Namun penelitian tersebut hanya terbatas pada regresi nonparametrik. Kuswanto menggunakan model Gamma-Frailty untuk memodelkan data longitudinal [5]. Kemudian Zeger dan Diggle meneliti model campuran

(2)

semiparametrik untuk data longitudinal menggunakan smoothing kernel, dalam risetnya membahas tentang HIV berdasarkan kadar CD4 dalam darah [6]. Penggunaan estimator kernel dalam model semiparametrik pada data longitudinal, tidak sesuai untuk data yang mempunyai pola data yang rumit. Sehingga sulit untuk memperoleh estimasi komponen nonparametrik yang sesuai. Zhang et al. menggunakan estimator spline untuk mengestimasi model semiparametrik [7]. Dalam paper ini, dibahas penggunaan regresi semiparametrik spline untuk data longitudinal pada kasus kadar CD4.

2. Data Longitudinal

Data longitudinal adalah data pengamatan berulang pada unit eksperimen, berbeda dengan data cross section yaitu data dari masing-masing individu diamati dalam sekali waktu [5]. Ada beberapa keuntungan dari studi mengenai data longitudinal dibandingkan dengan data cross section. Pertama, studi longitudinal lebih powerful dari studi cross section untuk sejumlah subjek yang tetap. Dengan kata lain, untuk memperoleh kekuatan uji statistik yang sama, studi longitudinal membutuhkan subjek yang lebih sedikit. Kedua, dengan jumlah subjek yang sama, hasil pengukuran error menghasilkan penaksir efek perlakuan yang lebih efisien dari data cross section. Ketiga, data longitudinal mampu menyediakan informasi tentang perubahan individu, sedangkan data cross section tidak [5].

3. Model Regresi Semiparametrik untuk Data Longitudinal

Regresi semiparametrik untuk data longitudinal dapat ditulis dengan : ( ) , 1, 2, ..., ; 1, 2,...,

T

ij ij ij ij i

yX βf t in jn (1) dimana terdapat n subjek dengan subjek ke-i mempunyai ni observasi.menurut waktu. yij ,

i = 1,...,n, j = 1,...,ni merupakan respon untuk subjek ke-i pada waktu tij.

β

= ( 1, 2, ...,p)Tadalah vektor p  pada koefisien regresi kovariat 1 Xij, dengan X βijT

diasumsikan tidak mempunyai intersep, f t( )ij adalah fungsi yang terdeferensiabel dua kali dengan panjang periode sama dengan T dan ij adalah random error yang saling bebas

(3)

a. Estimasi parametrik

Secara umum bentuk regresi parametrik linear digambarkan sebagai berikut [8] :

0 1 , 1, 2,...,

i i i

y X in (2) atau dalam bentuk matrik dapat ditulis dengan :

Y = Xβ + ε , dimana ε~ N(0,2)

Estimasi koefisien regresi β dapat menggunakan metode kuadrat terkecil. Metode

estimasi ini dilakukan dengan meminimumkan

ε

T

ε

terhadap β. Untuk

) (

)

(Y Y

ε

εT   T  , dengan menurunkan

ε

T

ε

tehadap β dan menyamakan

dengan nol sehingga diperoleh estimator :

ˆ T -1 T

β = (X X) X Y (3)

b. Estimasi nonparametrik

Untuk n pengamatan yang independen,

( ,

t y

i i

),

i

1, 2,...,

n

, maka model regresi secara umum dapat ditulis dengan :

( ) , 1, 2,...,

i i i

yf t in (4) dimana yi adalah variabel respon ke -i , f t( )i adalah fungsi regresi dan i adalah error

random yang diasumsikan independen dan identik dengan mean 0 dan variansi

2. Menurut Eubank fungsi regresi f t( )i dapat diestimasi menggunakan regresi nonparametrik [8]. Pendekatan nonparametrik digunakan untuk mengestimasi kurva regresi karena model tidak ditentukan terlebih dahulu seperti pada regresi parametrik. Salah satu pendekatan nonparametrik yang bisa dilakukan adalah dengan fungsi spline.

Secara umum, fungsi spline berorde k adalah sembarang fungsi yang dapat ditulis

dalam bentuk : 1 1 ( ) ( ) k h i k i j j i j S t t t    

 (5) dengan

(4)

( ) , ( ) 0 , k j j k j j t t t t         

dan adalah konstanta real dan  1, 2,...,h adalah titik-titik knot.

4. Aplikasi

Pada penelitian ini, difokuskan untuk melihat hubungan antara CD4 awal (X) dan waktu pemeriksaan kadar CD4 setelah terapi (t) terhadap persentase kadar CD4 setelah terifeksi HIV (Y), dimana CD4 awal merupakan variabel penjelas komponen parametrik dan waktu pemeriksaan merupakan variabel penjelas komponen nonparametrik.

Langkah yang dilakukan adalah memilih titik-titik knot optimum pada pemodelan data secara parsial, sehingga diperoleh model parsial awal. Kemudian dari titik-titik knots optimum tersebut dibuat model simultan, sehingga diperoleh model semiparametrik berikut : 1 2 3 55 1 1 1 1 1 1 1 1 2 2 1 55 55 1 1 55 55 ˆ 0, 6 ... 0,1 39, 8 52, 3( 0, 5) 13, 2( 2, 4) 15, 8 ( 4, 96) 22,1 17, 3( 1, 5) ... 29, 9 99, 9 ( 1, 5) 119, 5( 2) 48, 4( 2, 33) ij j j j j j j j j j j j j j j y x x x x t t t t t t t t t t                                 (6)

dengan nilai MSE dan R2 masing-masing sebesar 7,096 dan 94,97 %.

Pada data ini terdapat korelasi didalam pengamatan berulang pada setiap subjek. Indikasi adanya korelasi dapat terlihat pada variabel respon yang berpengaruh terhadap waktu. Adanya kasus korelasi menunjukkan bahwa model semiparametrik simultan (6) selayaknya disempurnakan dengan mengikutkan suatu bobot. Langkah yang dilakukan adalah menentukan bobot. Misal bobot yang diberikan adalah W dan W*, sehingga dari kedua bobot tersebut diperoleh model masing-masing sebagai berikut :

1 2 3 55 1 2 2 2 1 1 1 1 1 2 2 55 55 ˆ 0,43 0,91 1,17 ... 10,53 275,17 + 292,25 295,23 ( 0, 5) 12,37 ( 4, 22) 22,1 17, 3( 2, 4) ... 263,11 269,06 ( 1, 4) ij j j j j j j j j j j j j y x x x x t t t t t t t t                       +  (7)

(5)

1 2 3 55 2 3 1 1 1 3 1 1 2 2 1 55 55 ˆ 0,77 0,93 1,08 ... 0, 92 23,94 24,23 5,04 7,13 ( 2, 2) 19, 39 14, 59( 1, 6) ... 2,39 7, 29( 4,1) ij j j j j j j j j j j j j y x x x x t t t t t t t t                    +  (8)

Berdasarkan model (7), nilai MSE dan R2 sebesar 1,72 dan 99,15%, sedangkan pada model (8) nilai MSE dan R2 adalah sebesar 23,72 dan 94,92%. Berdasarkan ketiga model simultan (6), (7), dan (8) terlihat bahwa model (7) mempunyai nilai MSE terkecil dan nilai R2 yang lebih baik. Akhirnya diperoleh model parsial, misalkan tiga model parsial yaitu untuk pasien 1, pasien 6, dan pasien 43 masing-masing adalah :

2 2 1 1 1 1 1 2 1 ˆ 0,43 275,17 292,25 295,23 ( 0, 5) 12,37 ( 4, 22) , 1, 2, ...,12 j j j j j j y x t t t t j            = (9) 2 2 6 6 6 6 6 ˆ = 0,48 +31,4 +25,13 9, 39 ( 2, 3) , 1, 2,...,11 j j j j j y x t t t j     (10) 1 43 43 43 43 ˆ 0,59 4, 97 +6,04 ( 3, 7) , 1, 2,...,12 j j j j y x t t j      (11)

Berdasarkan ketiga model parsial (9), (10), dan (11), dapat dilihat bahwa untuk ketiga pasien tersebut mempunyai pola data yang berbeda. Khususnya pada pola perubahan kadar CD4, untuk pasien 1 pada model (9) terlihat pada waktu 0,5 tahun dan 4,22 tahun mengalami perubahan pola. Sedangkan untuk pasien 6 pada model (10) terlihat pada waktu 2,3 tahun. Dan untuk pasien 43 pada model (11) terlihat pada waktu 3,7 tahun.

5. Kesimpulan

Pemodelan data longitudinal dengan regresi semiparametrik spline telah dilakukan pada kasus menduga pola hubungan antara CD4 awal (X) dengan kadar CD4 pasien HIV (Y) dan waktu pemeriksaan (t) dengan kadar CD4 pasien HIV (Y). Model yang diperoleh mempunyai nilai MSE terkecil dan R2 yang terbesar. Berdasarkan model yang diperoleh menunjukkan pola perubahan kadar CD4 setiap pasien berbeda-beda. Pasien 1 mengalami perubahan kadar CD4 pada waktu 0,5 tahun dan 4,22 tahun; pasien 6 mengalami

(6)

perubahan kadar CD4 pada waktu 2,3 tahun; dan pasien 43 mengalami perubahan kadar CD4 pada waktu 3,7 tahun.

DAFTAR PUSTAKA

[1] Srinadi, I.A.M. 2002. Estimator Spline pada Model Semiparametrik, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

[2] Mulianah. 2006. Pendekatan Kernel dalam Regresi Semiparametrik dan Pemilihan Bandwith

Optimal, Tesis. Surabaya : Institut Teknologi Sepuluh Nopember.

[3] Ampa, A.T. 2006. Model Linier Parsial pada Hilangnya Data Komponen Parametrik, Tesis. Surabaya : Institut Teknologi Nopember.

[4] Brumback, B. dan Rice, J.A. 1998. Smoothing Spline Models for the Analysis of Nested and Crossed Sampels of Curves. Journal of American Statistical Association, 93 (443), 961-994.

[5] Kuswanto, H. 2005. Model Gamma-Frailty untuk Data Longitudinal dan Penggunaan

Korelasi Serial dengan Metode Composite Likelihood, Tesis. Surabaya : Institut

Teknologi Sepuluh Nopember.

[6] Zeger dan Diggle. 1994. Semiparametric Models for Longitudinal Data with Application to CD4 Cell Numbers in HIV Seroconverters. Journal of the American Statistical

Association, 50 (3), 689-699.

[7] Zhang, D., Lin, X., Raz, J. Dan Sower, M.F. 1998. Semiparametric Stochastic Mixed Models for Longitudinal Data. Journal of the American Statistical Association, 93 (442), 710-719.

[8] Eubank, R.L. 1998. Spline Smoothing and Nonparametric Regression. New York : Marcel Dekker.

Referensi

Dokumen terkait

Tujuan dari penelitian ini adalah untuk men- dapatkan pemodelan regresi spline univariabel dan multivariabel pada studi kasus faktor-faktor yang mempengaruhi angka

Penelitian ini akan digunakan regresi semiparametrik spline truncated dengan studi kasus pasien Demam Berdarah Dengue (DBD) di Rumah Sakit Puri Raharja yang nanti hasilnya

Selanjutnya pendekatan regresi semiparametrik campuran spline truncated dan kernel akan digunakan untuk memodelkan TFR kabupaten/kota di Provinsi Jawa Timur karena diduga memiliki

Model regresi nonparametrik spline dengan metode penalized spline pada data longitudinal terbaik dalam kasus hubungan harga penutupan saham dan kurs USD terletak pada

Skripsi ini membahas mengenai pengembangan pengestimasian berdasarkan estimator penalized spline dalam model regresi semiparametrik birespon multiprediktor karena dari

3.2 Penerapan Program untuk Estimasi Model Regresi Semiparametrik Birespon pada Data Longitudinal Pertumbuhan Balita di Surabaya 2015 Berdasarkan Estimator Lokal

Dalam skripsi ini akan dibahas mengenai estimasi model regresi nonparametrik bi-response pada data longitudinal berdasarkan estimator weighted spline truncated

PEMODELAN FIXED EFFECT PADA REGRESI DATA LONGITUDINAL DENGAN ESTIMASI GENERALIZED METHOD OF MOMENTS STUDI KASUS DATA PENDUDUDUK MISKIN DI INDONESIA 1Muhammad Ghazali,2Bambang