(R.17)
ESTIMASI SMOOTHING SPLINE
PADA FUNGSI VARIANSI BERDISTRIBUSI GAMMA
DALAM PENDEKATAN REGRESI NONPARAMETRIK
Sifriyani
Dosen Program Studi Statistika FMIPA Universitas Mulawarman, Samarinda, Indonesia
tlp: 085242592527
Email : www.sifrianiishaq@yahoo.co.id
Abstrak
Spline merupakan pendekatan yang digunakan untuk mengestimasi kurva regresi yang tidak diketahui bentuknya dalam regresi nonparametrik.Selain itu, Spline dapat pula digunakan untuk mengestimasi fungsi variansi. Pendekatan spline didasarkan pada ruang sobolev yang dimotivasi oleh sifat kemulusan (smoothness). Penelitian ini mengkaji estimator spline untuk mengestimasi fungsi variansi yang diasumsikan berdistribusi gamma. Selanjutnya mengkaji metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) untuk memilih parameter penghalus yang optimal pada fungsi variansi. Diselidiki pula performance (kebaikan) metode UBR dan metode GCV berdasarkan nilai MSE terkecil dengan
menggunakan data simulasi. Berdasarkan hasil simulasi diperoleh untuk ukuran sampel
25
metode UBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel
50
dan100
diperoleh metode GCV lebih baik dibandingkan dengan metode UBR dalampemilihan parameter penghalus untuk fungsi variansi.
Kata Kunci : Fungsi Variansi, Generalized Cross Validation (GCV), Spline, Unbiased Risk (UBR).
1. PENDAHULUAN
Diberikan data berpasangan
x z
i,
i
,
i
1, 2,
,
n
dan hubungan antarax
i danz
imengikuti model:
,
1, 2,
,
0,1
i i i i
z
g x
i
n
x
(1)i
z
adalah variabel respon pengamatan ke-i
,g x
i adalah fungsi regresi, dan
i adalah errorrandom pengamatan ke-
i
yang berdistribusi normal independen dengan mean nol danvariansi 2
. Estimasi fungsig
dalam analisis regresi dapat diselesaikan dalam beberapametode sesuai dengan asumsi yang dimilikinya, yaitu regresi parametrik, regresi nonparametrik dan regresi semiparametrik. Ada beberapa pendekatan untuk mengestimasi
fungsi
g x
i dalam regresi nonparametrik antara lain pendekatan kernel (Hardle, 1990),spline (Wahba,1990), K-Nearest Neigbor (Hardle, 1990), Estimator Deret Fourier (Eubank, 1988), dan Histogram (Green dan Silverman,1994). Pendekatan regresi nonparametrik yang
cukup populer adalah spline. Spline merupakan potongan-potongan polinomial yang memiliki sifat tersegmen yang kontinu. Sifat inilah yang memberikan fleksibilitas yang lebih dari pada polinomial biasa, sehingga memungkinkan untuk menyesuaikan diri secara efektif
terhadap karakteristik lokal dari suatu fungsi. Pada pendekatan spline fungsi
g x
idiasumsikan termuat dalam suatu ruang Sobolev (Eubank, 1988).
Perkembangan baru dalam regresi, pendekatan spline juga digunakan untuk
mengestimasi fungsi variansi. Pada model regresi (1) diasumsikan variansi
2 homogenyaitu penyebaran data konstan. Pada kasus khusus sering ditemukan model regresi dengan
variansi tidak konstan atau variansi
i2 tidak homogen. Kasus tersebut diperlihatkan padamodel regresi berikut:
,
1, 2,
,
0,1
i i i i i i
z
g x
x
i
n
x
(2)i
adalah error random pengamatan ke-i
yang berdistribusi normal independen denganmean nol dan variansi 1.
Dari uraian diatas, pada penelitian ini akan dikaji pendekatan spline untuk mengestimasi variansi yang tidak homogen, khususnya akan dikaji fungsi variansi yang diasumsikan berdistribusi gamma.
Pemilihan parameter penghalus
yang optimal merupakan hal yang sangat pentingdalam estimator spline untuk fungsi variansi. Hal tersebut disebabkan oleh nilai
yangsangat kecil atau besar akan memberikan bentuk fungsi penyelesaian yang sangat kasar atau sangat mulus (Wahba, 1990 dan Eubank, 1988). Dalam penelitian akan dikaji pemilihan parameter panghalus dengan menggunakan metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV).
Beberapa penelitian sebelumnya untuk fungsi variansi telah dilakukan oleh Huang dan Pan (2002), Wang dan Guo (2004) menggunakan estimasi spline untuk fungsi variansi yang dikhususkan untuk mendeteksi gen. Cui, Hwang, Qiu, Blades dan Churchill (2005) menggunakan metode variansi dengan permasalahan replikasi yang kecil pada array eksperimen. Yuan dan Wahba (2004), Dai dan Guo (2005) melakukan penelitian yang berkonsentrasi pada regresi heteroskedastisitas, mencari estimasi fungsi variansi dengan menggunakan local polinomial smoothers dan smoothing spline. Yuan dan Wahba (2004) memilih parameter smoothing pada estimasi fungsi variansi dengan menggunakan metode Generalized Approximate Cross Validation (GACV).
Berdasarkan uraian diatas, dalam penelitian ini juga akan dikaji perbandingan performance metode UBR dan metode GCV dalam pemilihan parameter penghalus yang optimal untuk fungsi variansi.
2. ESTIMATOR SPLINE UNTUK MENGESTIMASI FUNGSI VARIANSI
Diberikan fungsi variansi yang diasumsikan mengikuti fungsi gamma sebagai berikut :
2 , 2 i f x i i k e y x Gamma k Fungsi Distribusi Peluang untuk fungsi variansi diberikan oleh:
2 1 2 21
2
2
i f xi i y k e k i k i f xf y
y
e
e
k
k
2 1 2 2 2 2 2 f xi i i k k k k f x y e i k y e k (3)Fungsi likelihood diberikan oleh:
1 n i i i l f y
2 1 2 1 1 12
log
log
2
2
2
i k k n n n f x i i i i i ik
k
k
n
y
f x
y e
k
(4)asumsikan bahwa fungsi f
1 2 2 0
;
m mW
f
f
x
dx
.Estimasi untuk f diperoleh dengan meminimumkan penalized likelihood:
1 2 1 2 0 n m i i i n l f y
f x dx
. (5)Untuk menyelesaikan optimasi ini dapat digunakan pendekatan spline. Estimator spline dapat ditulis sebagai berikut:
1 1 , m n i i i i i i f x d x c R x x
(6)
x T
x T
d
c dengan
1 2
T md
d
d
d
dan
1 2
T nc
c
c
c
1 , 1, , 1 ! i i x x i m i
;
1 1 1 2 0,
1 !
m m i ix
t
x t
R x x
dt
m
1
, 2
, ,
T m x
x
x
x
dan
1,
,
2,
, ,
,
T n x R x x R x x R x x
Dengan mensubstitusikan persamaan (6) ke (5), maka estimasi c dan d dapat diperoleh dengan meminimumkan persamaan:
1 , 2 n T T T i i i i n I l x x
c d d c c Q c (7) dengan :
1 2
Q
x
x
x
n
1 1 1 2 1 2 1 2 2 2 1 2 , , , , , , , , , n n n n n n R x x R x x R x x R x x R x x R x x R x x R x x R x x danS
T
x
1
x
2
x
n
1 1 1 2 1 2 1 2 2 2 1 2 n n m m m n x x x x x x x x x
Untuk mengestimasi c dan d pada (7) digunakan metode Newton-Raphson (Wang, 1996). Berikut diuraikan metode Newton-Raphson:
,
c d Q u Q c c I n
I
,
T c d S u d
2,
T TI
n
c d
Q WQ
Q
c c
2,
T TI
c d
S W S
d
d
2,
T T TI
c d
S WQ
c d
2 , T I c d Q W S d cNewton-Raphson memenuhi sistem linear berikut:
2 2 0 2 2 0 , , , , , , T T T T I I I I I I c d c d c d c c c c d c c d d c d c d c d d c d d d
0 0 0 0 0 0 0 0 0 T T T T T n n
c c Q u Q c Q W Q Q Q W S d d S u S W Q S W S (8)
1 0 0 0 0 0 0 0 0 0 T T T T Tn
n
c c
Q W Q
Q
Q W S
Q u
Q c
d d
S W Q
S W S
S u
(9)dari persamaan (9), akan dicari vektor cdand. Vektor
c
0dan
d
0 adalah vektorperkiraan awal. Apabila elemen dari vektor
c c
0 dand d
0 lebih besar dari nilai toleransi,maka iterasi newton raphson diteruskan, sampai diperoleh elemen vektor
c c
0 dand d
0lebih kecil dari nilai toleransi.
Selanjutnya estimator spline untuk fungsi variansi dituliskan sebagai berikut:
f
ˆ
x
S d Q c
(10) denganˆ
ˆ
1,
ˆ
2,
,
ˆ
T nx
f
x
f
x
f
x
f
.3. METODE UNBIASED RISK (UBR) DAN METODE GENERALIZED CROSS VALIDATION (GCV) UNTUK MEMILIH PARAMETER PENGHALUS
3.1. Metode Unbiased Risk (UBR)
Metode UBR merupakan salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus untuk fungsi variansi. Metode ini merupakan hasil estimasi tak bias pada fungsi resiko. Diberikan fungsi kerugian kuadrat terbobot sebagai berikut:
2 11
( )
( )
n i i i iU
w
f
x
f x
n
Akan dicari nilai
yang meminimumkan fungsi kerugian kuadrat terbobotU
.Dalam permasalahan nonparametrik dengan pendekatan spline, nilai
U
tidak dapatdihitung secara langsung, karena
U
masih memuat fungsi f yang tidak diketahui.sehingga dibutuhkan fungsi resiko terbobot yang merupakan hasil ekspektasi dari
U
.Diuraikan sebagai berikut:
2 11
( )
( )
n i i i iE U
E
w
f x
f x
n
1 E T W n A
z - f A
z - f
12
12
1
T1
T -1trace
n
n
W
I - A
f
W
I - A
f
A
W
A
W
1 21
1
W
W
W
2 T -1trace
n
I - A
f
+
n
A
A
dari uraian diatas, diperoleh fungsi resiko kuadrat terbobot adalah:
1
12
1
2 T -1R
trace
n
n
W
I - A
f
+
A
W
A
W
(11) selanjutnya, dibutuhkan suatu estimator tak bias untuk (11) yang disajikan pada Teorema berikut: Teorema 1. Apabila
1
1
2
W
12 TW
W
-1U
trace
n
n
2I - A
z +
A
A
2 1 W W T -1 trace n
I - A
I - A
Maka
U
merupakan estimator tak bias untukR
.Berdasar Teorema 1, Parameter penghalus
optimal dapat diperoleh denganmeminimumkan UBR
berikut:
1
12
21
2
1
W
TW
W
UBR
trace
n
n
I
A
z
A
A
2 1 1 W W T trace n
I A
I A
3.2. Metode Generalized Cross Validation (GCV)
Metode GCV adalah salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus pada fungsi variansi yang merupakan modifikasi dari metode Cross Validation (CV) (Wahba, 1990).
Diberikan
n
1
titik data (data ke-i
dihilangkan) yaitu
1,
2,
,
1,
1,
,
i i i nz z
z
z
z
z
. Misalkanf
i
x
penyelesaian meminimumkan Penalized Weighted Leas Square (PWLS) berikut:
1 2 2 1; 0 1 n m j j j j j i w z f x f x dx n
Cross Validation (CV) adalah metode untuk memilih
yang meminimumkan:
2 1 1 n i i i i i CV w z f x n
Apabila data
z
i diganti denganf
i
x
i dan dapat menyelesaikan optimasi PWLSberdasarkan
n
data baru, makaf
i
x
i merupakan penyelesaian.4. SIMULASI
Simulasi dalam penelitian ini dilakukan untuk mengevaluasi performance (kebaikan) metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) kemudian membandingkan kebaikan antara kedua metode tersebut. Realibilitas pengukuran ini berdasarkan nilai MSE terkecil yang dihasilkan pada metode UBR dan GCV. Selanjutnya, untuk dapat melaksanakan simulasi ini, digunakan data bangkitan oleh model fungsi
variansi.. Fungsi variansi yang digunakan dalam simulasi adalah
f t ii
y t
e
dengan fungsi
if t
diberikan:
i .
Fungsi percobaan I :f t
1
i
2
Sin
2
vt
i
3
untuk i1, 2,,n
ii .
Fungsi percobaan II :f
2
t
i
1
t
i2 cos 6
vt
i
, untuk i1, 2,,ndengan i
i t
n
; perubahan v1 dan v3; parameter gamma k 1 dan k3; dan
ukuran sampel
n
25
,n
50
, dann
100
.Hasil simulasi data disajikan pada lampiran, diperoleh bahwa untuk fungsi percobaan I
dan fungsi percobaan II dengan ukuran sampel
n
25
, nilai MSE UBR lebih kecildibandingkan dengan nilai MSE GCV baik untuk
v
1
maupunv
3
dan juga untukperubahan paramater gamma
k
1
maupun parameter gammak
3
, sehingga untukukuran sampel ini metode UBR mempunyai performance lebih baik dibandingkan metode
GCV. Selanjutnya untuk ukuran sampel
n
50
dann
100
, nilai MSE GCV lebih kecildibandingkan dengan nilai MSE UBR baik untuk perubahan
v
dan perubahan parametergamma sehingga untuk ukuran sampel ini metode GCV mempunyai performance lebih baik dibandingkan metode UBR.
5. KESIMPULAN
Metode yang digunakan untuk mengestimasi fungsi variansi adalah metode Estimasi Maksimum Likelihood yang terpenalized (Penalized likelihood) dengan penyelesaian estimasi menggunakan iteratif Newton-Raphson. Hasil estimasi spline untuk fungsi variansi diperoleh:
ˆ
d
c
f
S
Q
dengan
c
dand
merupakan vektor,Q
x
1
x
2
x
n
, dan
1 2
T nx
x
x
S
.Pemilihan parameter penghalus
optimal untuk ketidaksamaan variansimenggunakan metode Unbiased Risk (UBR) dan Generalized Cross Validation (GCV) berturut-turut diberikan oleh:
1
12
21
2
1UBR
trace
Tn
n
W
Ι
z
W
W
2 1 1 trace T n
Ι Α W Ι Α W dan
2 1 2 21
GCV
1
trace
n
n
W
I
A
z
I
A
Simulasi dilakukan untuk mengevaluasi performance (kebaikan) metode UBR dan GCV yang didasarkan pada nilai MSE terkecil. Hasil simulasi menujukkan bahwa untuk ukuran
sampel
n
25
baik untukv
1
danv
3
serta parameter gammak
1
dank
3
metodeUBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel
n
50
dan
n
100
baik untukv
1
danv
3
serta parameter gammak
1
dank
3
diperolehmetode GCV lebih baik dibandingkan dengan metode UBR dalam pemilihan parameter penghalus untuk fungsi variansi.
6. DAFTAR PUSTAKA
Cui, X., Hwang, J. T. G., Qiu, J., Blades, N. J. And Churchill, G. A., (2005). “Improved statistical test for differential gene expression by shrinking variance components estimates” Biostatistics 6:59-75.
Dai, M. and Guo, W. (2005). “Heteroscedastic smoothing spline models” Statistica Sinica. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression, Marcel Deker: New
York and Basel.
Green, J.P dan Silverman, W.B (1995). Nonparametric Regression and Generalized Linear Models. Chapman & Hal.
Hardle, W., (1990). Applied Nonparametric Regression, Cambrige University Press: New York. Huang, X. and Pan, W. (2002). “Comparing three methods for variance estimation with
duplicated high density oligonucleotide arrays” Funct Integr Genomics 2: 126-133. Liu, A., Tong, T., dan Wang, Y. (2006). “Smoothing Spline Estimation of Variance Function”
Wahba, G. (1990). Spline Model For Observation Data, SIAM, Pensylvania.
Wang, Y. and Guo, S. W. (2004). “Statistical methods for detecting genomic alterations through array-based comparative genomic hybridization (CGH)”. Frontiers in Bioscience 9: 540-549.
Wang, Y. and Ke, C., (2002). “Nonlinear Nonparametric Regression Models”. Department of Statistics and Applied Probability, University of California: Santa Barbara.
Wang, Y. (1996). “GRKPACK : Fitting Smoothing Spline Anova Models For Exponential Familes” Departement of Biostatistics, Universitas of Michigan Ann Arbor, Michigan 48109, USA.
Yuan, M. and Wahba, G. (2004). “Doubly penalized likelihood estimator in heteroscedastic regression” Statistics and Probability Letters 69 : 11-20.
7. LAMPIRAN