(R.17) ESTIMASI SMOOTHING SPLINE PADA FUNGSI VARIANSI BERDISTRIBUSI GAMMA DALAM PENDEKATAN REGRESI NONPARAMETRIK

(1)

(R.17)

ESTIMASI SMOOTHING SPLINE

PADA FUNGSI VARIANSI BERDISTRIBUSI GAMMA

DALAM PENDEKATAN REGRESI NONPARAMETRIK

Sifriyani

Dosen Program Studi Statistika FMIPA Universitas Mulawarman, Samarinda, Indonesia

tlp: 085242592527

Email : www.sifrianiishaq@yahoo.co.id

Abstrak

Spline merupakan pendekatan yang digunakan untuk mengestimasi kurva regresi yang tidak diketahui bentuknya dalam regresi nonparametrik.Selain itu, Spline dapat pula digunakan untuk mengestimasi fungsi variansi. Pendekatan spline didasarkan pada ruang sobolev yang dimotivasi oleh sifat kemulusan (smoothness). Penelitian ini mengkaji estimator spline untuk mengestimasi fungsi variansi yang diasumsikan berdistribusi gamma. Selanjutnya mengkaji metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) untuk memilih parameter penghalus yang optimal pada fungsi variansi. Diselidiki pula performance (kebaikan) metode UBR dan metode GCV berdasarkan nilai MSE terkecil dengan

menggunakan data simulasi. Berdasarkan hasil simulasi diperoleh untuk ukuran sampel

25

metode UBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel

50

dan

100

diperoleh metode GCV lebih baik dibandingkan dengan metode UBR dalam

pemilihan parameter penghalus untuk fungsi variansi.

Kata Kunci : Fungsi Variansi, Generalized Cross Validation (GCV), Spline, Unbiased Risk (UBR).

1. PENDAHULUAN

Diberikan data berpasangan



x z

_i

,

_i



,

i



1, 2,



,

n

dan hubungan antara

x

i dan

z

i

mengikuti model:

 

,

1, 2,

,

 

0,1

i i i i

z



g x





i





n

x



(1)

i

z

adalah variabel respon pengamatan ke-

i

,

g x

 

_i adalah fungsi regresi, dan



i adalah error

random pengamatan ke-

i

yang berdistribusi normal independen dengan mean nol dan

variansi 2



. Estimasi fungsi

g

dalam analisis regresi dapat diselesaikan dalam beberapa

metode sesuai dengan asumsi yang dimilikinya, yaitu regresi parametrik, regresi nonparametrik dan regresi semiparametrik. Ada beberapa pendekatan untuk mengestimasi

fungsi

g x

 

_i dalam regresi nonparametrik antara lain pendekatan kernel (Hardle, 1990),

spline (Wahba,1990), K-Nearest Neigbor (Hardle, 1990), Estimator Deret Fourier (Eubank, 1988), dan Histogram (Green dan Silverman,1994). Pendekatan regresi nonparametrik yang

(2)

cukup populer adalah spline. Spline merupakan potongan-potongan polinomial yang memiliki sifat tersegmen yang kontinu. Sifat inilah yang memberikan fleksibilitas yang lebih dari pada polinomial biasa, sehingga memungkinkan untuk menyesuaikan diri secara efektif

terhadap karakteristik lokal dari suatu fungsi. Pada pendekatan spline fungsi

g x

 

_i

diasumsikan termuat dalam suatu ruang Sobolev (Eubank, 1988).

Perkembangan baru dalam regresi, pendekatan spline juga digunakan untuk

mengestimasi fungsi variansi. Pada model regresi (1) diasumsikan variansi



2 homogen

yaitu penyebaran data konstan. Pada kasus khusus sering ditemukan model regresi dengan

variansi tidak konstan atau variansi



_i2 tidak homogen. Kasus tersebut diperlihatkan pada

model regresi berikut:

 

,

1, 2,

,

 

0,1

i i i i i i

z



g x





x



i





n

x



(2)

i



adalah error random pengamatan ke-

i

yang berdistribusi normal independen dengan

mean nol dan variansi 1.

Dari uraian diatas, pada penelitian ini akan dikaji pendekatan spline untuk mengestimasi variansi yang tidak homogen, khususnya akan dikaji fungsi variansi yang diasumsikan berdistribusi gamma.

Pemilihan parameter penghalus



yang optimal merupakan hal yang sangat penting

dalam estimator spline untuk fungsi variansi. Hal tersebut disebabkan oleh nilai



yang

sangat kecil atau besar akan memberikan bentuk fungsi penyelesaian yang sangat kasar atau sangat mulus (Wahba, 1990 dan Eubank, 1988). Dalam penelitian akan dikaji pemilihan parameter panghalus dengan menggunakan metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV).

Beberapa penelitian sebelumnya untuk fungsi variansi telah dilakukan oleh Huang dan Pan (2002), Wang dan Guo (2004) menggunakan estimasi spline untuk fungsi variansi yang dikhususkan untuk mendeteksi gen. Cui, Hwang, Qiu, Blades dan Churchill (2005) menggunakan metode variansi dengan permasalahan replikasi yang kecil pada array eksperimen. Yuan dan Wahba (2004), Dai dan Guo (2005) melakukan penelitian yang berkonsentrasi pada regresi heteroskedastisitas, mencari estimasi fungsi variansi dengan menggunakan local polinomial smoothers dan smoothing spline. Yuan dan Wahba (2004) memilih parameter smoothing pada estimasi fungsi variansi dengan menggunakan metode Generalized Approximate Cross Validation (GACV).

(3)

Berdasarkan uraian diatas, dalam penelitian ini juga akan dikaji perbandingan performance metode UBR dan metode GCV dalam pemilihan parameter penghalus yang optimal untuk fungsi variansi.

2. ESTIMATOR SPLINE UNTUK MENGESTIMASI FUNGSI VARIANSI

Diberikan fungsi variansi yang diasumsikan mengikuti fungsi gamma sebagai berikut :

 

  2 , 2 i f x i i k e y x Gamma k         

Fungsi Distribusi Peluang untuk fungsi variansi diberikan oleh:

 

    2 1 2 2

1

2

i f xi i y k e k i k i f x

f y

y

e

k

       







_

_



















    2 1 2 2 2 2 2 f xi i i k k k k f x y e i k y e k                                (3)

Fungsi likelihood diberikan oleh:

 





1 n i i i l f y  



 

  2 1 2 1 1 1

2 log

log

2

i k k n n n f x i i i i i i

k

n

y

f x

y e

k

     _     



_

_

















_{ }

_









  















(4)

asumsikan bahwa fungsi f   

 

1 2 2 0

;

m m

W





_

f



_

f

x



_

dx

 



_







.

Estimasi untuk f diperoleh dengan meminimumkan penalized likelihood:

 





 





1 ₂ 1 2 0 n m i i i n l f y



f x dx  

_



_

. (5)

Untuk menyelesaikan optimasi ini dapat digunakan pendekatan spline. Estimator spline dapat ditulis sebagai berikut:

 





1 1 , m n i i i i i i f x d x c R x x   

_



_

(6)

 

x T

 

x T 



d



c dengan



1 2



T m

d



d



dan



1 2



T n

c



c



(4)

 





1 , 1, , 1 !      i i x x i m i



;

















1 1 1 2 0

,

1 !

m m i i

x

t

x t

R x x

dt

m

   

















 



1

 

, 2

 

, ,

 



T m x 



x



x 



x



dan

 



1,



,



2,



, ,



,



T n x  R x x R x x  R x x



Dengan mensubstitusikan persamaan (6) ke (5), maka estimasi c dan d dapat diperoleh dengan meminimumkan persamaan:







 



1 , 2 n T T _T i i i i n I l x x     

_

  c d  d  c c Q c (7) dengan :

 



1 2







Q



x



x





x

_n





































1 1 1 2 1 2 1 2 2 2 1 2 , , , , , , , , , n n n n n n R x x R x x R x x R x x R x x R x x R x x R x x R x x                       dan

S

T







 

x

₁



 

x

₂





 

x

_n



 

1 1 1 2 1 2 1 2 2 2 1 2 n n m m m n x x x x x x x x x



                     

Untuk mengestimasi c dan d pada (7) digunakan metode Newton-Raphson (Wang, 1996). Berikut diuraikan metode Newton-Raphson:



,



      c d Q u Q c c I n



I



,



T   c d S u d





2

,

T T

I

n



  







 

c d

Q WQ

Q

c c





2

,

_T T

I







c d

S W S

d





2

,

_T _T T

I







 

c d

S WQ

c d





2 , T I      c d Q W S d c

Newton-Raphson memenuhi sistem linear berikut:

































2 2 0 2 2 0 , , , , , , T T T T I I I I I I         _ _ _         _ _     _ _                  c d c d c d c c c c d c c d d c d c d c d d c d d d









0 0 0 0 0 0 0 0 0 T T T T T n n







                    _   _        c c Q u Q c Q W Q Q Q W S d d S u S W Q S W S (8)

(5)









1 0 0 0 0 0 0 0 0 0 T T T T T

n



 



     

















 













_

_

_



_





c c

Q W Q

Q

Q W S

Q u

Q c

d d

S W Q

S W S

S u

(9)

dari persamaan (9), akan dicari vektor cdand. Vektor

c

0

dan

d

0 adalah vektor

perkiraan awal. Apabila elemen dari vektor

c c



0 dan

d d



0 lebih besar dari nilai toleransi,

maka iterasi newton raphson diteruskan, sampai diperoleh elemen vektor

c c



0 dan

d d



0

lebih kecil dari nilai toleransi.

Selanjutnya estimator spline untuk fungsi variansi dituliskan sebagai berikut:

f

ˆ



 

x



S d Q c



 (10) dengan

ˆ

 



ˆ

 

₁

,

ˆ

 

₂

,

ˆ

 



T n

x

f

x

f

x

f

x





 





f

.

3. METODE UNBIASED RISK (UBR) DAN METODE GENERALIZED CROSS VALIDATION (GCV) UNTUK MEMILIH PARAMETER PENGHALUS

3.1. Metode Unbiased Risk (UBR)

Metode UBR merupakan salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus untuk fungsi variansi. Metode ini merupakan hasil estimasi tak bias pada fungsi resiko. Diberikan fungsi kerugian kuadrat terbobot sebagai berikut:

 





2 1

1 ( )

( )

n i i i i

U

w

f

x

f x

n





_



Akan dicari nilai



yang meminimumkan fungsi kerugian kuadrat terbobot

U

 



.

Dalam permasalahan nonparametrik dengan pendekatan spline, nilai

U

 



tidak dapat

dihitung secara langsung, karena

U

 



masih memuat fungsi f yang tidak diketahui.

sehingga dibutuhkan fungsi resiko terbobot yang merupakan hasil ekspektasi dari

U

 



.

Diuraikan sebagai berikut:

 









2 1

1 ( )

( )

n i i i i

E U

E

w

f x

n











_



_







 







 







1  E T W n A



z - f A



z - f

 







12





12



 





 



1

T

1

T -1

trace

n



n









W

I - A

f

W

I - A

f



A

W

A

W

(6)

 







 



1 2

1



1 

W

2 T _-1

trace

n

I - A



f

+



n

A



A



dari uraian diatas, diperoleh fungsi resiko kuadrat terbobot adalah:

 

1

12



 



1 

 



2 T -1

R

trace

n





W

I - A



f

+





A



W

A



W

(11) selanjutnya, dibutuhkan suatu estimator tak bias untuk (11) yang disajikan pada Teorema berikut: Teorema 1. Apabila



 



1 

 



1

2



 









W

12 T

W

-1

U

trace

n







2

I - A

z +

A

 







 



2 1 _ _   W W  T _-1 trace n



I - A



I - A



Maka

U



 



merupakan estimator tak bias untuk

R

 



.

Berdasar Teorema 1, Parameter penghalus



optimal dapat diperoleh dengan

meminimumkan UBR

 



berikut:

 

1

1₂



 



2

1

2

_

 

1

_











W

T

W

UBR

trace

n



I

A



z



A



A



 







 



2 1 1 _  _     W W  T trace n



I A



I A



3.2. Metode Generalized Cross Validation (GCV)

Metode GCV adalah salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus pada fungsi variansi yang merupakan modifikasi dari metode Cross Validation (CV) (Wahba, 1990).

Diberikan

n 

1

titik data (data ke-

i

dihilangkan) yaitu

 



1

,

2

,

1

,

1

,



i i i n

z z

z

  



z



. Misalkan

f

 i

 

x



penyelesaian meminimumkan Penalized Weighted Leas Square (PWLS) berikut:

 





1 2 2 1; 0 1 n m j j j j j i w z f x f x dx n  



     





Cross Validation (CV) adalah metode untuk memilih



yang meminimumkan:

 

2 1 1 n i i i i i CV w z f x n       

_

_  _

(7)

Apabila data

z

_i diganti dengan

f

_ i

 

x

_i dan dapat menyelesaikan optimasi PWLS

berdasarkan

n

data baru, maka

f

_ i

_{ }

x

_i merupakan penyelesaian.

4. SIMULASI

Simulasi dalam penelitian ini dilakukan untuk mengevaluasi performance (kebaikan) metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) kemudian membandingkan kebaikan antara kedua metode tersebut. Realibilitas pengukuran ini berdasarkan nilai MSE terkecil yang dihasilkan pada metode UBR dan GCV. Selanjutnya, untuk dapat melaksanakan simulasi ini, digunakan data bangkitan oleh model fungsi

variansi.. Fungsi variansi yang digunakan dalam simulasi adalah

 

f t i

i

y t



e

dengan fungsi

 

i

f t

diberikan:

 

i .

Fungsi percobaan I :

f t

₁

 

_i



2 Sin



2 vt

_i





3

untuk i1, 2,,n

 

ii .

Fungsi percobaan II :

f

₂

 

t

_i

  

1 t

_i

2 cos 6



vt

_i



, untuk i1, 2,,n

dengan i

i t

n

 ; perubahan v1 dan v3; parameter gamma k 1 dan k3; dan

ukuran sampel

n 

25

,

n 

50

, dan

n 

100

.

Hasil simulasi data disajikan pada lampiran, diperoleh bahwa untuk fungsi percobaan I

dan fungsi percobaan II dengan ukuran sampel

n 

25

, nilai MSE UBR lebih kecil

dibandingkan dengan nilai MSE GCV baik untuk

v 

1

maupun

v 

3

dan juga untuk

perubahan paramater gamma

k 

1

maupun parameter gamma

k 

3

, sehingga untuk

ukuran sampel ini metode UBR mempunyai performance lebih baik dibandingkan metode

GCV. Selanjutnya untuk ukuran sampel

n 

50

dan

n 

100

, nilai MSE GCV lebih kecil

dibandingkan dengan nilai MSE UBR baik untuk perubahan

v

dan perubahan parameter

gamma sehingga untuk ukuran sampel ini metode GCV mempunyai performance lebih baik dibandingkan metode UBR.

5. KESIMPULAN

Metode yang digunakan untuk mengestimasi fungsi variansi adalah metode Estimasi Maksimum Likelihood yang terpenalized (Penalized likelihood) dengan penyelesaian estimasi menggunakan iteratif Newton-Raphson. Hasil estimasi spline untuk fungsi variansi diperoleh:

(8)

ˆ





d





c

f

S

Q

dengan

c

dan

d

merupakan vektor,

Q









 

x

1



 

x

2





 

x

n



, dan

 



1 2



T n

x



S







.

Pemilihan parameter penghalus



optimal untuk ketidaksamaan variansi

menggunakan metode Unbiased Risk (UBR) dan Generalized Cross Validation (GCV) berturut-turut diberikan oleh:

 

1

12



 



2

1

2

 

1

UBR

trace

T

n





W

Ι







z







_





W





W





_



 







 



2 1 1 trace T n





       Ι Α W Ι Α W  dan

 



 



 





2 1 2 2

1 GCV

1 trace

n









_











_

_







_

_











W

I

A

z

I

A

Simulasi dilakukan untuk mengevaluasi performance (kebaikan) metode UBR dan GCV yang didasarkan pada nilai MSE terkecil. Hasil simulasi menujukkan bahwa untuk ukuran

sampel

n 

25

baik untuk

v 

1

dan

v 

3

serta parameter gamma

k 

1

dan

k 

3

metode

UBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel

n 

50

dan

n 

100

baik untuk

v 

1

dan

v 

3

serta parameter gamma

k 

1

dan

k 

3

diperoleh

metode GCV lebih baik dibandingkan dengan metode UBR dalam pemilihan parameter penghalus untuk fungsi variansi.

6. DAFTAR PUSTAKA

Cui, X., Hwang, J. T. G., Qiu, J., Blades, N. J. And Churchill, G. A., (2005). “Improved statistical test for differential gene expression by shrinking variance components estimates” Biostatistics 6:59-75.

Dai, M. and Guo, W. (2005). “Heteroscedastic smoothing spline models” Statistica Sinica. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression, Marcel Deker: New

York and Basel.

Green, J.P dan Silverman, W.B (1995). Nonparametric Regression and Generalized Linear Models. Chapman & Hal.

Hardle, W., (1990). Applied Nonparametric Regression, Cambrige University Press: New York. Huang, X. and Pan, W. (2002). “Comparing three methods for variance estimation with

duplicated high density oligonucleotide arrays” Funct Integr Genomics 2: 126-133. Liu, A., Tong, T., dan Wang, Y. (2006). “Smoothing Spline Estimation of Variance Function”

(9)

Wahba, G. (1990). Spline Model For Observation Data, SIAM, Pensylvania.

Wang, Y. and Guo, S. W. (2004). “Statistical methods for detecting genomic alterations through array-based comparative genomic hybridization (CGH)”. Frontiers in Bioscience 9: 540-549.

Wang, Y. and Ke, C., (2002). “Nonlinear Nonparametric Regression Models”. Department of Statistics and Applied Probability, University of California: Santa Barbara.

Wang, Y. (1996). “GRKPACK : Fitting Smoothing Spline Anova Models For Exponential Familes” Departement of Biostatistics, Universitas of Michigan Ann Arbor, Michigan 48109, USA.

Yuan, M. and Wahba, G. (2004). “Doubly penalized likelihood estimator in heteroscedastic regression” Statistics and Probability Letters 69 : 11-20.

7. LAMPIRAN