• Tidak ada hasil yang ditemukan

KAJIAN PEMODELAN SPLINE UNTUK DATA LONGITUDINAL SEBAGAI PERKEMBANGAN DARI REGRESI NONPARAMETRIK. Abstract

N/A
N/A
Protected

Academic year: 2021

Membagikan "KAJIAN PEMODELAN SPLINE UNTUK DATA LONGITUDINAL SEBAGAI PERKEMBANGAN DARI REGRESI NONPARAMETRIK. Abstract"

Copied!
9
0
0

Teks penuh

(1)

299

KAJIAN PEMODELAN SPLINE UNTUK DATA LONGITUDINAL

SEBAGAI PERKEMBANGAN DARI REGRESI NONPARAMETRIK

Suparti1), Alan Prahutama2) , Rukun Santoso3) 1,2,3

Departemen Statistika, Fakultas Sains dan matematika, Universitas Diponegoro email: suparti702@gmail.com

Abstract

Regression analysis can be approached by using parametric, semi-parametric and nonparametric regression approaches. One of nonparametric regression approach that great developed was Spline truncated, including for modeling longitudinal data. Longitudinal data is data that consisting of several subjects which is each subject is observed repeatedly based on a certain time. The advantages of longitudinal data has provided more complexcityof information than cross section and time series data. The spline approach was a segmented polynomial regression approach. Spline provides high flexibility due to the use of knot points. To determine the optimal knot points using Generalized Cross Validation (GCV). The principle of determining the optimum point of knot of longitudinal data using spline truncated is basically the same as with Spline method for cross section data, that is determination of knot point based on each subject. However, the estimation is done simultaneously so that each subject has its own model.

Keywords:

Spline Truncated, GCV, Knot points.

1. PENDAHULUAN

Analisis Analisis regresi merupakan metode statistika yang digunakan untuk pemodelan antara variabel respon dengan variabel prediktor. Pendekatan regresi dapat dilakukan dengan tiga pendekatan antara lain pendekatan parametrik, semiparametrik, dan nonparametrik. Pendekatan parametrik dilakukan apabila bentuk kurva diketahui, sedangkan pendekatan nonparametrik dilakukan apabila bentuk kurva tidak diketahui. Pendekatan semiparametrik dilakukan apabila sebagian bentuk kurva diketahui dan sebagian tidak diketahui. Bentuk kurva yang dimaksud adalah kurva antara variabel respon dengan variabel prediktor. Pendekatan parametrik sering dilakukan, dikarenakan kemudahan dalam estimasinya. Akan tetapi pendekatan parametrik sangat terikat dengan asumsi-asumsi antara lain residual berdistribusi normal, homokedastisitas, nonautokorelasi serta antara variabel prediktor tidak terjadi multikolinieritas. Sehingga jika suatu permasalahan dimodelkan menggunakan pendekatan parametrik, akan tetapi model yang didapatkan asumsi-asumsinya tidak terpenuhi, tentunya model tersebut akan menjadi bias untuk digunakan.

Diantara model-model regresi nonparemetrik yang disebutkan di atas, spline merupakan model yang mempunyai interpretasi statistik dan interpretasi visual yang sangat khusus dan sangat baik (Budiantara, 2009). Spline adalah salah satu jenis potongan polinomial, yaitu polinomial yang memiliki sifat tersegmen. Sifat tersegmen ini memberikan fleksibilitas lebih daripada polinomial biasa, sehingga memungkinkan untuk menyesuaikan diri secara lebih efektif terhadap karakteristik lokal pada suatu fungsi atau data. Wahba (1990) menunjukkan bahwa spline memiliki sifat-sifat statistik yang berguna untuk menganalisis hubungan dalam regresi. Dalam analisis regresi spline jika terdapat satu variabel respon dan satu prediktor maka regresi ini disebut regresi spline univariabel. Sebaliknya, jika terdapat satu variabel respon dan lebih dari satu variabel prediktor, maka regresi tersebut dinamakan regresi spline multivariabel (Budiantara, 2004).

(2)

300

Dalam analisis regresi terdapat dua jenis data yaitu data longitudinal dan data crosssection. Data longitudinal merupakan data yang didapat dari pengamatan berulang dari setiap subjek pada interval waktu yang berbeda. Data ini berkorelasi pada subjek yang sama dan independen antar subjek yang berbeda. Sedangkan data cross section merupakan data yang hanya dilakukan satu kali pengamatan pada setiap subjek dan saling independen (Wu dan Zhang, 2006). Menurut Wu dan Zhang (2006) terdapat beberapa keuntungan studi mengenai data longitudinal antara lain dapat mengetahui perubahan individu, dan membutuhkan subjek yang tidak terlalu banyak karena pengamatan berulang. Selain itu estimasinya lebih efisien karena dilakukan setiap pengamatan.

2. KAJIAN LITERATUR 2.1.Pendekatan Regresi Nonparametrik

Regresi nonparametrik mulai dikenal sekitar abab XIX, tepatnya pada tahun 1857 (Hardle, 1990). Regresi nonparametrik merupakan salah satu pendekatan yang digunakan untuk mengetahui pola hubungan antara variabel penjelas dan respon yang tidak diketahui kurva regresinya atau tidak terdapat informasi masa lalu yang lengkap tentang bentuk pola data (Eubank,1988). Berdasarkan kenyataan tersebut, maka secara visual bentuk pola yang diberikan oleh variabel prediktor t dan variabel respon ytidak mempunyai pola yang pasti. Secara umum regresi nonparametrik memiliki bentuk fungsi sebagai berikut.

yf t( )i

i , i1, 2, , n

dengan yi adalah variabel respon sedangkan fungsi f t( )i merupakan kurva regresi dengan i

t sebagai variabel prediktor dan

i adalah error random yang diasumsikan berdistribusi normal independen dengan mean nol dan variansi σ2 (Wahba, 1990).

2.2. Spline truncated

Spline merupakan salah satu potongan polinomial (piecewise polynomial) tersegmen yang memiliki sifat fleksibilitas. Sifat fleksibilitas inilah yang membedakan spline dengan polinomial. Titik perpaduan bersama dari potongan-potongan tersebut atau titik yang menunjukkan terjadinya perubahan-perubahan perilaku kurva pada interval – interval yang berbeda disebut knot.

Secara umum fungsi spline berorde

m

adalah sembarang fungsi yang dapat di tulis dalam bentuk (Eubank, 1988) :

t

K

b

t

a

)

t

(

f

m j M k m k k j j

  

1 1 dengan

;

0 ;

m m k k

t

K

t

K

t

K

t

K

 

 



j

a

dan bk adalah parameter serta

K

1

,

K

2

,

,

K

M adalah titik knot, f(t) adalah fungsi regresi, serta

t

adalah variabel prediktor

Apabila

m

1

serta banyaknya knot satu, maka persamaan diatas dapat ditulis fungsi spline linear menjadi :

1 2 1

a

t

b

t

K

)

t

(

f

(1)

fungsi ini dinamakan spline linear satu knot pada t = K Fungsi (1) dapat pula ditulis (Budiantara, 2005)

K

t

;

K

t

b

t

a

K

t

;

t

a

)

t

(

f

2 1 1 Model regresi spline dapat disajikan dalam bentuk :

(3)

301

1 1 m M m j i j i k i k i j k

y

a t

b t

K

 

(2)

Selanjutnya model (2) dapat ditulis dalam bentuk :

m i M i M m i m i m i i

a

t

a

t

b

t

K

b

t

K

y

1

1

1

Apabila model regresi disajikan dalam bentuk matriks didapat :









      n M m m M n m n m n n m M m m m M m m n

b

b

a

a

K

t

K

t

t

t

K

t

K

t

t

t

K

t

K

t

t

t

y

y

y

2 1 1 1 1 2 1 2 2 2 1 1 1 1 1 2 1

Selanjutnya persamaan diatas dapat ditulis menjadi :

K , ,K

~

~ y ~ M  X 1 dengan,

y

,

y

,

,

y

n

y

~

2 1 ,

      m M n m n m n n m M m m m M m m M

K

t

K

t

t

t

K

t

K

t

t

t

K

t

K

t

t

t

K

,

,

K

1 2 1 2 2 2 1 1 1 1 1 1

X

,

a

,

,

a

m

,

b

,

,

b

M

~

1 1

dan

~

1

,

2

,

,

n

2.3.Data Longitudinal

Dalam analisis regresi terdapat data longitudinal dan data cross section. Data longitudinal merupakan data yang pengamatannya dilakukan secara berulang untuk setiap subjek pada beberapa subjek. Pada data longitudinal diasumsikan subjek-subjek saling independen satu sama lain, akan tetapi antar pengamatan didalam subjek saling dependen sehingga terdapat korelasi (Wu dan Zhang, 2006. Tujuan dari analisis data longitudinal adalah untuk mempelajari bagaimana perubahan subjek yang diamati dari waktu ke waktu. Pada data longitudinal apabila terdiri lebih dari satu respon, maka terdapat korelasi dari setiap respon pada subjek yang sama (Weiss, 2005). Bentuk struktur data longitudinal birespon adalah sebagai berikut:

Tabel 2.1 Struktur Data Longitudinal Birespon

Subjek ke-j Pengamatan ke-k Prediktor Respon ke-1 Respon ke-2

Subjek ke-1 1 x11 y111 y211 2 x12 y112 y212     n x1n y11n y21n Subjek ke-2 1 x21 y121 y221 2 x22 y122 y222     n x2n y12n y22n      Subjek ke-m 1 xm1 y1m1 y2m1

(4)

302 2 xm2 y1m2 y2m2     n xmn y1mn y2mn

dengan

j1, 2,...,m

dan

k1, 2,...,n

.

3. METODE PENELITIAN

Adapun langkah-langkah yang dilakukan untuk mendapatkan

estimasi dari model

spline truncated untuk data longitudinal adalah sebagai berikut:

1.

Diberikan data longitudinal (

t

ij

, Y

ij

)

2.

Diberikan model regresi nonparametrik untuk data longitudinal

( ) , i 1, 2, , n; 1, 2, ,

ij ij ij i

yf t

jn

3. Mendekati f t( )ij dengan spline truncated derajat m dengan knot k k1, 2, ,kK

0 1

( )

i i m K m p ij p ij r ij K p r

f t

t

t

k

  

4. Menyatakan bentuk regresi spline untuk data longitudinal sebagai berikut:

0 1

+

i i m K m p ij p ij r ij K ij p r

Y

t

t

k

  

5. Menyajikan model tersebut dalam bentuk matriks

Y = XB + e

6. Menentukan Bˆ dengan menyelesaiakn optimasi

min

T

B

Y - XB

W Y - XB

7. Mendapatkan kurva estimasi regresi f t( )ij

0 1

ˆ

( )

ˆ

ˆ

i i m K m p ij p ij r ij K p r

f t

t

t

k

  

4. HASIL PENELITIAN

Diberikan data longitudinal

t Yij, ij

, dengan j1, 2, ,ni dan i1, 2, ,n yang diasumsikan mengikuti model regresi nonparametrik,

 

ij ij ij

Yf t

(3)

(5)

303

 

 

 

 

 

 

 

 

 

1 1 1 2 2 2 1 11 11 11 12 12 12 1 1 1 21 21 21 22 22 22 2 2 2 1 1 1 2 2 2 n n n n n n n n n n n n n n n nn nn nn f t Y e f t Y e f t Y e f t Y e f t Y e Y f t e Y f t e Y f t e Y f t e                                              1                                           (4)

Untuk mengestimasi kurva regresi nonparametrik pada data longitudinal dengan pendekatan spline truncated dilakukan atas dasar optimasi Weighted Least Square (WLS). Jika persamaan (4) dijabarkan untuk setiap model maka didapatkan

11 ( )11 11 Yf te 12 (12) 12 Yf te 1 1 1 1n (1n) 1n Yf te 21 (21) 21 Yf te 22 (22) 22 Yf te 1 1 1 2n ( 2n) 2n Yf te 1 ( 1) 1 n n n Yf te 2 ( 2) 2 n n n Yf te ( ) n n n nn nn nn Yf te

Apabila kurva regresi f didekati dengan spline truncated maka

0 1

( )

i i i m K m p ij p ij r ij r p r

s t

t

t

k

  

dengan j1, 2, ,ni dan i1, 2, ,n

Dengan derajat polinomial m,

  

0, 1, 2, ,

  

m, 1, 2, ,

K adalah parameter-parameter yang tidak diketahui, dan

1 2

;

i K

r r r r

k k

k

k

merupakan titik-titik knot, serta truncated power function

i m ij r

t

k

didefinisikan sebagai berikut:

,

0

,

i i i i m m ij r ij r ij r ij r

t

k

t

k

t

k

t

k

 



(6)

304

0 1 1 11 11 11 11 0 1 m K m p p r r p r

Y

t

t

k

e

  

1 1 1 12 12 12 12 0 1 m K m p p r r p r

Y

t

t

k

e

  

1 1 1 1 1 1 1 1 1 1 1 0 1 m K m p n p n r n r n p r

Y

t

t

k

e

  

2 2 2 21 21 21 21 0 1 m K m p p r r p r

Y

t

t

k

e

  

2 2 2 22 22 22 22 0 1 m K m p p r r p r

Y

t

t

k

e

  

2 2 2 2 2 2 2 2 2 2 2 0 1 m K m p n p n r n r n p r

Y

t

t

k

e

  

1 1 1 1 0 1 n n n m K m p n p n r n r n p r

Y

t

t

k

e

  

2 2 1 2 0 1 n n n m K m p n p n r n r n p r

Y

t

t

k

e

  

0 1 n n n n n n n m K m p nn p nn r nn r nn p r

Y

t

t

k

e

  

Berdasarkan persamaan tersebut dapat dituliskan dalam bentuk matriks.

1 1 1 1 1 11 11 11 1 11 11 1 1 1 1 1 1 1 1 1 1 1 1 1 ( ) ( ) 0 0 0 0 0 1 ( ) ( ) 0 0 0 0 0 0 0 0 0 0 1 ( ) ( ) 0 0 0 0 0 1 n n n n m m m K m m m n n n n n K m m m n n n n n K nn nn t t t k t k Y Y t t t k t k Y t t t k t k Y t t                                  1 1 1 1 1 1 0 1 1 11 1 0 1 1 1 1 ( ) ( ) n n n n n n n n n n n m K n n m m m nn nn nn nn K m K e e e e t k t k                                                                                         

(7)

305

Matriks basis spline truncated

 

1 1 1 1 1 1 1 1 1 1 11 11 11 1 11 12 12 12 1 12 1 1 1 1 1

1

(

)

(

)

1

(

)

(

)

1

(

)

(

)

m m m K m m m K m m m n n n n K

t

t

t

k

t

k

t

t

t

k

t

k

t

t

t

k

t

k

     

 

1

x k

 

2 2 2 2 1 1 1 2 1 2 21 21 21 1 21 22 22 22 1 22 2 2 2 2 1 2

1

(

)

(

)

1

(

)

(

)

1

(

)

(

)

m m m K m m m K m m m n n n n K

t

t

t

k

t

k

t

t

t

k

t

k

t

t

t

k

t

k

     

 

x k

 

1 1 1 1 1 1 1 1 1 2 2 2 1 2 1

1

(

)

(

)

1

(

)

(

)

1

(

)

(

)

n n n n n n m m m n n n n K m m m n n n n K n m m m nn nn nn nn K

t

t

t

k

t

k

t

t

t

k

t

k

t

t

t

k

t

k

     

 

x k

Vektor parameter 1 1 1 1 1 0 1 1 T m K

     1 B , 2 2 2 2 2 2 0 1 1 T m K

     B 0n 1n n 1n n T n  

m

K  B

dan vektor error,

1 11 12 1 T n e e e      1 e , 2 2 21 22 2 T n e e e      e dan 1 2 n T n  en en enn  e

Sehigga model regresi nonparametrik spline truncated-nya bisa dibuat sebagai berikut:

 

 

 

2

0

0

0

0

0

0

0

0

0

0

0

0

n

 

   

 

   

 

   

 

   

 

   

 

   

1 1 1 1 2 2 2 n n n

x k

Y

B

e

x k

Y

B

e

x k

Y

B

e

(5)

Dengan demikian persamaan (5) dapat disajikan dala notasi matriks sebagai berikut:

Y = XB + e

(6) Dimana

 

 

 

2

0

0

0

0

0

0

;

;

;

0

0

0

0

0

0

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 1 1 1 2 2 2 n n n

x k

Y

B

e

x k

Y

B

e

Y

X

B

e

x k

Y

B

e

Dengan menggunakan bobot W, estimasi dari B pada persamaan (6) dapat diperoleh dengan menyelesaikan optimasi sebagai berikut:

min

T

(8)

306

Dengan W matriks sebagai berikut:

2

0

0

0

0

0

0

n

1

W

W

W

W

dimana 1 1 1 1 1 1 11 12 1 21 22 2 1 1 1 n n n n n n

w

w

w

w

w

w

w

w

w

 

W

2 2 2 2 2 2 11 12 1 21 22 2 2 1 1 n n n n n n

w

w

w

w

w

w

w

w

w

 

W

, ..., 11 12 1 21 22 2 1 1 n n n n n n n n n n n n n

w

w

w

w

w

w

w

w

w

 

W

Penyelesaian persmaan (7) dilakukan dengan penjabaran sebagai berikut:

T

T T T T T Y - XB W Y - XB = Y WY - 2B X WY + B X WXB Misalkan L= Y WY - 2B X WY + B X WXBT T T T T maka

2

L

T T

= -2X WY + X WXB

B

Dan nilai minimum dari B diperoleh

L

0

B

=

sedemikian sehingga 2 0 T T -2X WY + X WXB 0  T T -X WY + X WXBT T X WXB X WY (8)

Pada persamaan (8) jika kedua ruas dikalikan dengan

X WX

T

1 maka diperoleh:

1

1

T T T T

X WX

X WXB

X WX

X WY

sehingga

1

ˆ

TT

B

X WX

X WY

(9)

Berdasarkan estimasi dari B pada persamaan (9) diperoleh

 

1

ˆ

ˆ

T T

Y = XB

X X WX

X WY

A k Y

Dimana

A k

 

X X WX

T

1

X W

T

Kriteria GCV merupakan salah satu metode untuk memilih knot yang optimal. Nilai GCV untuk data longitudinal ditentukan sebagai berikut:

 

 

 

 

1 2 1

N

GCV k

N trace

 

T T

Y

I - A k

W I - A k Y

I - A k

Selanjutnya knot optimal dipilih dengan menggunakan metode GCV yang meminimumkan GCV [k].

(9)

307

5. KESIMPULAN

Berdasarkan analisis dan pembahasan yang sudah dilakukan, estimasi model spline truncated untuk data longitudinal menggunakan WLS menghasilkan estimator

1

ˆ

TT

B

X WX

X WY

. Pada pemilihan titik knot optimum untuk model spline truncated data longitudinal, dilakukan masing-masing subjek, tidak serentak. Akan tetapi untuk estimasi modelnya dilakukan secara serentak, sehingga setiap subjek mempunyai model masing-masing. Akan tetapi R-square, atau MSE ataupun MAPE yang didapatkan hanya satu untuk seluruh subjek.

6. REFERENSI

Budiantara, I N., 2009, Spline Dalam Regresi Nonparametrik dan Semiparametrik: Sebuah Pemodelan Statistika Masa Kini dan Masa Mendatang, Institut Teknologi Sepuluh November, Surabaya.

Budiantara, I.N., Suryadi, F., Otok, B.W., dan Guritno, S., 2006, Pemodelan B- Spline dan MARS Pada Nilai Ujian Masuk terhadap IPK Mahasiswa Jurusan Disain Komunikasi Visual UK. Petra Surabaya; Jurnal Teknik Industri, Vol 8 No. 1 hal 1-13; Universitas Petra.

Budiantara, I.N. (2000), “Metode U, GML, CV, dan GCV dalam regresi Nonparametrik Spline”, Majalah Ilmiah Himpunan Matematika Indonesia (MIHMI), Vol. 6, hal. 285-290.

Drapper, N.R dan Smith, H, 1992, Applied Regression Analysis, 2nd edition, John Wiley & Sons, Chapman and Hall, New York.

Eubank,R.L.,1988, Spline Smoothing and Nonparametric Regression, Mercel Dekker, New York.

Hardle, W.,1990, Applied Non-parametric Regression, Cambridge University Press, Cambridge.

Wahba, G., 1990, Spline Models For Observasion Data, SIAM Pensylvania

Wang, Y., Guo, W., dan Brown, M.B. (1999). Spline smoothing for Bivariate Data with Application to Association Between Hormodes, Department of Statistics And Applied Probability, University of California, Santa Barbara.

Wu, H. dan Zhang, J.T. (2006), Nonparametric Regression Methods for Longitudinal Data Analysis, A John-Wiley and Sons Inc. Publication, New Jersey.

Wu, W.B dan Pourahmadi, M. (2003), “Nonparemetric Estimation of Large Covariance Matrices of Longitudinal Data”, Journal of Biometrika, Vol. 90, No. 4, hal. 831-844.

Gambar

Tabel 2.1 Struktur Data Longitudinal Birespon

Referensi

Dokumen terkait

Model regresi nonparametrik spline multivariat merupakan model regresi yang memiliki lebih dari satu variabel respons yang saling berkorelasi dan lebih dari satu

Tahapan penelitian dimulai dengan pengenalan bentuk model regresi campuran nonparametrik spline dan kernel, yang dilanjutkan dengan kajian estimasi kurva regresinya,

Prayoga (2012) menganalisis faktor- faktor yang mempengaruhi Tingkat Pengangguran Terbuka Perempuan di Pulau Jawa menggunakan pendekatan Regresi Nonparametrik Spline

Regresi nonparametrik birespon dengan estimasi spline merupakan metode yang digunakan untuk menyelesaikan permasalahan jika bentuk kurva regresi tidak diketahui dan terdapat

Prayoga (2012) menganalisis faktor- faktor yang mempengaruhi Tingkat Pengangguran Terbuka Perempuan di Pulau Jawa menggunakan pendekatan Regresi Nonparametrik Spline

Plot Data Antara Variabel Respon Dengan Variabel Prediktor Pola hubungan antara variabel respon yaitu PDRB dengan variabel prediktor meliputi TPAK, PMA, Realisasi

Artikel ini menguraikan fungsi goodness of fit dari estimator penalized spline yang digunakan dalam estimasi model regresi nonparametrik dengan melibatkan dua respon

Hasil estimasi kurva regresi bi-respon pada data simulasi menunjukkan bahwa titik knot yang terlibat dalam fungsi goodness of fit memberikan estimasi kurva yang lebih