ESTIMASI BOBOT DENGAN GENERALIZED MOVING ANERAGE DAN VISUALISASINYA
Jerry Dwi Trijoyo Purnomo
Alumni Pasca Sarjana Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya
I Nyoman Budiantara
Jurusan Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya
Kartika Fitriasari
Jurusan Statistika FMIPA ITS Kampus ITS Sukolilo, Surabaya
ABSTRAK
Diberikan model regresi semiparametrik dengan residual yang diasumsikan berdistribusi independen dengan mean nol dan variansi σ2
/wj, wj > 0. Estimasi γ dan f
yang meminimumkan Penalized Least Square Terbobot, merupakan estimator polinomial spline parsial terbobot. Selanjutnya diberikan suatu estimasi bobot untuk estimator spline parsial terbobot.
Kata kunci : Regresi semiparametrik, spline parsial terbobot, Penalized Least Square.
ABSTRACT
By giving semiparametric regression model with error, which is assumption independently by zero mean and σ2
/wj, wj > 0 varian. Estimation γ and f which has
minimum Weighted Penalized Leasts Square, in which polinomial weighted partial spline estimator. Further, given a weight estimation for weighted partial spline estimator.
Keywords: Semiparametric regression, partial spline weightness, Penalized Least Square.
1. PENDAHULUAN
Estimasi kurva regresi umumnya dilakukan dengan pendekatan parametrik yang mulai diperkenalkan oleh Laplace sejak abad XVIII dan juga Boscovich pada tahun 1757. Dalam regresi parametrik diasumsikan bahwa bentuk kurva regresi f diketahui. Pembuatan asumsi tersebut berdasarkan pada teori, pengalaman masa lalu atau tersedianya sumber-sumber lain yang dapat memberi pengetahuan atau informasi yang terperinci.
Estimasi dapat juga dilakukan berdasarkan pendekatan yang tidak terikat dengan asumsi bentuk kurva regresi tertentu, yang memberikan fleksibilitas yang lebih besar dari kurva regresi. Metode dengan pendekatan seperti ini dinamakan pendekatan nonparametrik yang mulai dikenal sejak abad XIX. Ada beberapa teknik untuk
mengestimasi dalam regresi nonparametrik, antara lain histogram, estimator Kernel, Spline, dan lain-lain.
Masalah yang sering muncul dalam regresi adalah tidak semua variabel penjelas dapat didekati dengan pendekatan parametrik, karena tidak adanya informasi tentang bentuk hubungan variabel penjelas tersebut dengan variabel responnya, sehingga harus digunakan pendekatan nonparametrik. Dengan menggabungkan dua pendekatan tersebut dalam suatu pendekatan regresi akan didapatkan suatu model regresi semiparametrik. Estimasi model semiparametrik ekuivalen dengan mengestimasi parameter-parameter pada komponen parametrik dan estimasi kurva pada komponen nonparametrik.
Model semiparametrik diperkenalkan oleh Wahba (1984), Engel, Granger, Rice dan Weiss (1986), Green, Jennison, dan scheult (1985) serta Heckman (1986). Model ini dirumuskan sebagai:
yi= ' i
x
+f(ti)+ i , i=1,2,…,n (1)dengan
x
'i=(xi1,…,xip) dan ti, i=1,2,…,n merupakan variabel-variabel prediktor. Vektor γ=(γ1,…,γp) '
Rp tidak diketahui dan f diasumsikan merupakan anggota anggota ruang
Sobolev
W
2m0
,
1
= {f f(k), k=0,1,…,m-1 kontinu pada [0,1], dan1 0 2 ) m (
dt
t
f
}.Residual i berdistribusi independen dengan mean nol dan variansi 2
. Estimator f diperoleh dari meminimumkan Penalized Least Square (PLS):
lλ(f)=R(f) + λJ(f), f
W
2m0
,
1
(2)Fungsional lλ(f) memuat tiga komponen, yaitu komponen likelihood R(f), fungsional
penalti J(f) dan parameter penghalus λ.
Estimator tipe PLS ini dikembangkan oleh Heckman (1986), Eubank (1986), Wahba (1990), dan Chen dan Shiau (1994) untuk estimator spline parsial original, dengan mengambil kesamaan-kesamaan: R(f)= n 1 i 2 i ' i i 1
t
f
x
y
n
(3) J(f)= 1 0 2 ) m (dt
t
f
(4) Bentuk estimator γλ dan fλ diperoleh dengan meminimumkan PLS:n 1 i 1 0 2 ) m ( 2 i ' i i 1
dt
t
f
t
f
x
y
n
f
l
(5)Pada sisi lain, Shi dan Li (1994) mengembangkan model regresi semiparametrik untuk estimator spline parsial tipe-norm L1. Estimator γλ dan fλ diperoleh dengan
meminimumkan PLS dan mengganti persamaan (3): R(f) = n 1 i i ' i i 1
t
f
x
y
n
Lebih lanjut He dan Shi (1996) mengusulkan penggunaan estimator spline parsial tipe-M (median) untuk pendekatan mean respon regresi semiparametrik. Estimator diperoleh dengan meminimumkan PLS dan mengganti persamaan (3) :
R(f) = n 1 i i ' i i 1
t
f
x
y
n
ρ fungsi konveks.Dari beberapa macam tipe spline yang dikembangkan para peneliti di atas, dikembangkan model spline parsial terbobot untuk mengatasi ketaksamaan variansi, dikarenakan dalam model spline parsial kurang sesuai untuk menangani ketaksamaan
variansi dalam regresi semiparametrik. Model ini dikembangkan oleh Budiantara (1999) dan Subanar dan Budiantara (1999). Bentuk estimator diperoleh dengan meminimumkan
Penalized Least Square Terbobot (PLST): n 1 i 1 0 2 ) m ( 2 i ' i i i 1
dt
t
f
t
f
x
y
w
n
f
l
(6)untuk setiap f anggota ruang Sobolev
W
2m0
,
1
. Bentuk estimator spline parsial terbobotdipengaruhi oleh parameter penghalus λ. Untuk λ→ ∞, estimator spline parsial terbobot merupakan estimator polinomial (Budiantara, 1999). Estimator komponen parametrik merupakan estimator yang konsisten dan berdistribusi normal asimtotik (Subanar dan Budiantara, 1999).
2. Spline Parsial Original
Sebagai visualisasi spline parsial original digunakan data penelitian Dewayani (2004) tentang jumlah energi listrik yang hilang di PT PLN distribusi Jawa Timur Wilayah Surabaya Utara. Dalam penelitian Dewayani (2004) ini terdapat dua variabel prediktor, yaitu gangguan jenis benda (x1), dan jenis gangguan jenis unit pembangkit (x2),
serta variabel respon jumlah energi listrik yang hilang. Visualisasi spline parsial jumlah energi listrik yang hilang dapat dilihat pada Gambar 1 dan Gambar 2.
Gambar 1 memperlihatkan hubungan antara jumlah energi listrik yang hilang di
PT PLN dengan gangguan jenis benda (x1) memperlihatkan adanya perubahan pola
perilaku data disekitar titik 9 dan 14,1. Berdasarkan Tabel 1, didapatkan bahwa hubungan antara keduanya dapat dijelaskan dengan model spline linear.
Tabel 1 Skor GCV Spline Parsial Original Dengan Satu Titik Knots
No Orde Titik Knot GCV
1 2 9,3 14,1 6893,625 2 2 9,2 14,1 6892,278 3 2 9,1 14,1 6891,460 4 2 9,0 14,1 6891,108 5 2 9,0 14,2 6891,621 6 2 9,0 14,3 6892,763
Sedangkan Gambar 2 memperlihatkan hubungan antara jumlah energi listrik yang hilang dengan jumlah unit pembangkit (x2), adalah linear. Dari kedua gambar di atas terlihat
adanya kasus heterokedastisitas, karena makin besar nilai x, variansi juga makin besar. Model spline parsial original untuk data ini adalah:
y = 1,09 + 23,25x1 – 54,73 1 1
9
)
x
(
+ 50,02 1 114
,
1
x
+ 4,73x2 + εNilai koefisien determinasi untuk model ini sebesar 66.39%
Berdasarkan model spline parsial original ini memperlihatkan adanya kasus heterokedastisitas (varian residual tidak konstan). Ini terlihat dari plot antara residual
dengan
yˆ
(Gambar 5) yang bentuknya tidak random (horizontal band) melainkanberbentuk corong. Hal ini mengindikasikan bahwa model spline parsial original kurang dapat menjelaskan adanya kasus heterokedastisitas.
0 10 20 30 0 100 200 300 400 500 600 700 x1 y x1 y 0 5 10 15 20 25 200 400 600 x1 y 0 5 10 15 20 25 200 400 600
Gambar 1 Plot antara y dan x1 Gambar 2 Plot antara y dan x1 dan
estimasi spline original
0 50 100 0 100 200 300 400 500 600 700 x2 y 0 50 100 0 100 200 300 400 500 600 700 x2 y y = 85,4292 + 4,93934 x2 S = 94,8883 R-Sq = 45,7 % R-Sq(adj) = 44,4 % Regression Plot
Gambar 3 Plot antara y dan x2 Gambar 4 Plot y dan x2 dan regresi
linear 0 100 200 300 400 500 600 700 -200 -150 -100 -50 0 50 100 150 200 250 yhat re si d u
Gambar 5 Plot antara residual dan
yˆ
Gambar 6 Plot tiga dimensi antarayˆ
(merah) dan y (hijau)3. Spline Parsial Terbobot
Pada analisis di atas terlihat bahwa spline parsial original kurang mampu menjelaskan adanya heterokedastisitas. Untuk mengatasi adanya heterokedastisitas diberikan suatu bobot yang sesuai. Salah satu metode untuk mendapatkan bobot adalah dengan Generalized Moving Average (GMA) (Silverman, 1985) dengan mengambil persamaan: 1
ˆ
iw
= (ni – mi + 1) -1 ni mi j jr
*2 dimana: mi = max (1, i – k) ni = min (n, i + k) 1/2 1 i i 2 / 1 i * itrA
n
1
ˆ
t
f
y
w
r
;trA
n
t
f
y
w
n i i i i 1 2 2ˆ
Tabel 2 Skor GCV Spline Parsial Terbobot Dengan Satu Knots
No Orde Titik Knots GCV
1 3 6 10109,50 2 3 8 9505,72 3 3 9 9161,36 4 3 10 8842,28 5 3 12 8468,83 6 3 14 8338,75 7 3 15 7322,85
Tabel 1 di atas memperlihatkan model spline kuadratik terbobot dengan titik knots 15 mempunyai nilai GCV terkecil, yaitu 7322,85. Estimasi model spline parsial terbobot diberikan oleh:
yˆ
= γ0 + γ1x1 + γ2x1 2 + γ3 2 1S
)
x
(
+ γ4x2Berdasarkan analisis diagnostik didapatkan model spline kuadratik terbobot mempunyai variansi data yang konstan dan berdistribusi normal. Selanjutnya dilakukan uji hipotesis koefisien-koefisien regresi. Pertama dilakukan uji hipotesis serentak.
H0 : γ0 = γ1 = γ2 = γ3 = γ4 = 0
H1 : paling sedikit ada satu γi ≠ 0
Ringkasan analisis variansi model spline terbobot diberikan dalam tabel 3
Tabel 3. Analisis Variansi Model Spline Parsial Terbobot
Sumber Variasi Derajat Bebas Jumlah Kuadrat (JK) Rata-rata JK F
Regresi Residual Total 4 38 42 862401,6 279492,8 1141894,4 215600,4 7355,1 29,31315 Nilai F-tabel: 2,618988
Dengan tingkat signifikansi α = 0,05 diperoleh kesimpulan bahwa paling sedikit ada satu γi ≠ 0, i=1, 2, 3, 4. Selanjutnya dilakukan uji koefisien-koefisien regresi, terutama fungsi
H0 : γ0 = 0 , H1 : γ0 ≠ 0
H0 : γ1 = 0 , H1 : γ1 ≠ 0
H0 : γ2 = 0 , H1 : γ2 ≠ 0
H0 : γ3 = 0 , H1 : γ3 ≠ 0
H0 : γ4 = 0 , H1 : γ4 ≠ 0
Tabel 4 Estimasi Model Spline Parsial Terbobot Dengan Metode GMA
Koefisien Estimasi St Dev t-hitung
γ0 γ1 γ2 γ3 γ4 -35,49971 45,82718 -2,534491 6,104175 4,557436 25,98093 10,67354 0,7472326 1,982297 0,554461 -1,366375 4,293534 -3,391837 3,079344 8,21958 Nilai t-tabel : 2,024394
Dari tabel 4 di atas terlihat bahwa hanya γ0 saja yang tidak signifikan terhadap model,
sehingga γ0 tidak dimasukkan ke dalam model.
Tabel 5. Estimasi Model Parsial Terbobot Dengan Metode GMA
Koefisien Estimasi St Dev t-hitung
γ1 γ2 γ3 γ4 68.77681 -17 17.03867 10.13589 22.5799 6.025598 6.038639 2.486943 3.045931 -2.821296 2.821608 4.075643 Nilai t-tabel: 2,022691
Dari Tabel 5 di atas dapat dilihat bahwa model spline parsial terbobot dengan menggunakan metode GMA adalah:
yˆ
= 68,78x1 – 17x1 2+ 17,04
(x
115
)
2 + 10,14x2Nilai koefisien determinasi untuk model ini sebesar 71,92%.
Gambar 4.3.8 Plot tiga dimensi antara
yˆ
(merah) dan y (hijau)Berdasarkan analisis di atas dapat disimpulkan bahwa spline parsial dengan bobot lebih baik dibandingkan spline parsial original. Hal ini terlihat dari nilai R2 spline dengan bobot yang lebih besar dibandingkan spline tanpa bobot, disamping gambar tiga dimensi antara
yˆ
(merah) dan y (hijau) yang menunjukkan bahwa untuk spline dengan bobot nilaiyˆ
Daftar Pustaka
Budiantara, I.N.(1999). Estimator Spline Terbobot Dalam Regresi Semiparametrik,
Majalah Ilmu Pengetahuan dan Teknologi, 10, 103-109.
Chen, H. dan Shiau, J.J.H.(1994). Data Driven Efficient Estimators for a Partially Linear Model. The Annals of Statistics, 22, 211-237.
Dewayani, I.(2004). Penerapan Model Nonparametrik Dengan Metode Spline Pada
Jumlah Energi Listrik Yang Hilang di PT PLN Distribusi Jawa Timur Wilayah Surabaya Utara, Tugas Akhir, ITS, Surabaya.
Engle, R.L, Granger, C., Rice, J. and Weiss, A.(1986).Semiparametric Estimates of Relation Between Weather and Electricity Sales, Journal of The American
Statistical Association, 81, 310-320.
Eubank, R.L. (1986). A Note on Smoothness Priors and Nonlinear Regression., Journal
of the American Statistical Association, 81, 514-517.
Green, P., Jennison, C.,Seheult, A.(1985). Analysis of Field Experiments by Least Square Smoothing, Journal of The Royal Statistical Society, Ser. B, 47, 299-314.
He,X. dan Shi,P.(1996). Bivariate Tensor Product B-Spline in a Partly Linear Models,
Journal of Multivariate Analysis, 58, 162-181.
Heckman, N.(1986). Spline Smoothing in a Partly Linear Models, Journal of The Royal
Statistical Society, ser B, 48, 244-248.
Shi, P., dan Li, G. (1994). On the Rate Convergence of “Minimum L1-Norm”Estimates
in a partly Linear Model, Communication in Statistics, Theory and Methods, 23, 175-196.
Silverman, B.W.(1985). Some Aspect of The Spline Smoothing Approach to Nonparametric Regression Curve Fitting (With Discussion), Journal of The Royal
Statistical Society, ser B , 47, 1-52.
Subanar dan Budiantara, I.N. (1999). Weighted Spline Estimator in a Partially Linear Models, Proceeding of the SEAMS-GMU International Conference 1999 on
Mathematics and Its Applications, 61-70.
Wahba, G.(1985). A Comparison of GCV and GML for Choosing the Smoothing Parameter in the Generalized Spline Smoothing Problem, Journal the Annals of
Statistics, 13, 1378-1402.
Lampiran 1
Program MakroS-Plus Estimasi Bobot (GMA)
trun <- function(data,a,power) { data[data<a] <- a (data-a)^power } spline.semi <- function(respon,param,nonpar,k1,k2) { y <- respon n <- length(y) hasil<-matrix(1,ncol=1,nrow=n) w <- matrix(0,ncol=5,nrow=n) w[,1] <- 1 w[,2] <- nonpar w[,3] <- trun(nonpar,k1,1) w[,4] <- trun(nonpar,k2,1) w[,5] <- param wtw <- t(w)%*%w C<-solve(wtw) beta <- C%*%t(w)%*%y flamda<-w%*%beta alamda<-w%*%C%*%t(w) sigma<-sum((y-flamda)^2)/(n-sum(diag(alamda))) kk<-5 r<-(y-flamda) kt<-sqrt(sigma)%*%(1-(1/n%*%sum(diag(alamda))))^0.5 for(i in 1:n) { r[i]<-((y[i]-flamda[i])/kt)^2 if((i-kk)>1) mi<-i-kk else mi<-1 if((i+kk)<n) ni<-i+kk else ni<-n juml<-0 for(j in mi:ni) { r[j]<-(((y[j]-flamda[j])/kt)^2) juml<-juml+r[j] } hasil[i]<-1/(ni-mi+1)*juml wi<-1/hasil[i] print(wi) }}