Abstrak
Matriks pembobot W pada Regresi Kontinum diperoleh dengan memaksimumkan fungsi kriteria umum ternyata menimbulkan masalah dari aspek statistika. Prinsip dari fungsi kriteria umum adalah memaksimumkan koragam antara X dengan Y dan pada saat yang bersamaan juga memaksimumkan ragam dari X. Dengan demikian, pada matriks pembobot W mengandung peubah Y yang bersifat acak. Bila matriks W diasumsikan ditentukan (fixed variable) maka penduga koefisien regresi bersifat tak bias dengan ragam minimum, sedangkan untuk mendapatkan selang prediksi y digunakan aproksimasi.
112Kata kunci : fungsi kriteria umum, matriks pembobot, aproksimasi selang prediksi
Abstract
Weighted matrix W in the continuum regression obtained from maximizing the generalized criterion function has generated statistical problems. The principle of the generalized criterion function is to maximize covariance XY and variance of X. Therefore, Y variable in the weighted matrix W has random character. If the matrix W can be determined (fixed variable), the estimator of regression parameters are unbiased with minimum variance and while the prediction interval of y can be used approximation.
Keyword: generalized criterion function, weighted matrix, prediction interval approximation
Pendahuluan
Regresi kuadrat terkecil parsial (RKTP), regresi komponen utama (RKU) dan regresi kontinum (RK) dikembangkan dari model regresi linear ganda
ε β +
= X
y dengan X adalah matriks peubah bebas berukuran nxp, y adalah vektor peubah respon berukuran nx1, β adalah parameter regresi berukuran px1, dan ε adalah vektor galat berukuran nx1. Sejumlah asumsi yang melekat pada metode kuadrat terkecil juga masih diperlukan.
Prinsip yang membedakan ketiga metode tersebut terletak pada matriks pembobot W yang besarnya dicari dengan cara memaksimumkan fungsi kriteria umum. Matriks pembobot W dalam RK mengandung peubah Y yang bersifat acak, sehingga untuk mencari sifat-sifat statistik dari hasil dugaan RK sulit dilakukan secara analitik. Penelitian ini bertujuan untuk mengkaji sifat-sifat statistik dari RK, khususnya sifat-sifat dari hasil pendugaan RK, dan menerapkannya pada data simulasi. Bab ini merupakan pengembangan dari artikel yang ditulis Setiawan dan Notodiputro (2006b).
Metode
Metode yang digunakan dalam penelitian ini mencakup kajian teoritis dan empirik. Untuk mendapatkan formula sifat-sifat statistik dari RK digunakan kajian teoritis, selanjutnya formula tersebut diterapkan untuk kajian empirik dengan menggunakan data hasil simulasi. Tahapan simulasi disajikan pada Lampiran 1.
Analisis data dengan menggunakan metode RK-TWD terbagi dalam dua tahap yaitu membangun model dan validasi model.
Tahap 1
Membangun model dengan langkah-langkah sebagai berikut :
a. Data hasil simulasi berupa matriks peubah bebas X berukuran nxp (p =q =2M;M =1,2,... yang merupakan syarat dalam TWD), pada kajian ini 30x32, dan peubah respon y berukuran nx1 (30x1) dibagi menjadi dua kelompok secara acak, kelompok pertama n (25) pengamatan digunakan 1 untuk membangun model dan kelompok kedua n (5) pengamatan untuk 2 validasi model.
b. Dapatkan matriks TWD B berukuran pxp.
c. Dapatkan matriks D dengan rumus (nxp) (nxp) T(pxp)
1
1 X B
D = , kemudian pilih
level-level resolusi tertentu sedemikian hingga banyaknya koefisien wavelet yang terpilih sebesar 'p dengan p'<(n1−1)<p. Selanjutnya diperoleh D*(n1xp)' =X(n1xp)B*(Tpxp)' yang mereduksi pengamatan dari p titik tiap-tiap contoh menjadi p' titik koefisien wavelet yang terpilih. Dalam software wavetresh 3 (Nason 1998) terdapat 10 level mother wavelet Daubechies (D-1 sampai D-10) sehingga akan diperoleh 10 matriks D* berukuran (n1xp').
d. Meregresikan peubah respon ( 1)
1x
yn terhadap matriks peubah bebas *( )'
1xp
D n
(D-1 sampai D-10) dengan menggunakan metode regresi kontinum.
Sedangkan dalam mencari matriks pembobot digunakan dua pendekatan yaitu pendekatan 1 dan pendekatan 2. Pada pendekatan 1, langkah ini diulang pada δ tertentu yang terletak antara 0≤δ ≤1 sampai mendapatkan model terbaik, sehingga mendapatkan model : y=D*β+ε. Karena pada matriks D* masih terdapat masalah kolinearitas ganda, maka dilakukan transformasi Th =D*Wh sehingga model menjadi y=Thξ +ε . Selanjutnya dilakukan pendugaan parameter regresi dengan metode kuadrat terkecil sebagai berikut :
(
h)
hT y Th ThT 1T
,
ˆδ = −
ξ
β ξ
ξ δ
δ ˆ ˆ ˆ
ˆ , =T =D*W , =D*
h h
y h
Tahap 2
Validasi model dengan langkah-langkah sebagai berikut :
a. Melakukan prediksi nilai y pada kelompok data validasi dengan menggunakan model yang dihasilkan pada tahap 1, dengan langkah- langkah sebagai berikut :
• Perkalian antara vektor pengamatan ke-i xT(i) berukuran (1xp) dengan matriks transformasi wavelet B* sehingga diperoleh vektor d*(Ti) dengan rumus d*(iT) = xT(i)B*(Tpxp)'.
• Selanjutnya dapatkan tT(i) =d*(Ti)W.
• Memprediksi nilai y dengan rumus :
yˆ(i) = ypredik(i) =t(Ti)ξˆ=d(Ti)Wξˆ=d(Ti)βˆ ; i=1,2,...,n2. b. Selanjutnya dilakukan validasi model dengan kriteria :
• RMSEP yang merupakan salah satu ukuran kebaikan hasil prediksi
• koefisien determinasi hasil prediksi
(
R2predik)
• sifat-sifat statistik dari hasil dugaan regresi kontinum.
Untuk mengevalusi kinerja RK-TWD ada beberapa kriteria yang dibandingkan, antara lain : R2,R2,s,R2predik, RMSEP, plot antara y dengan yˆ, plot antara y dengan ypredik, serta lebar selang prediksi. Model dikatakan lebih baik jika
2 2 2,R ,Rpredik
R lebih tinggi, s dan RMSEP lebih kecil, hasil pengepasan lebih dekat ke garis lurus dengan gradien 450 melalui pusat, serta lebar selang prediksi yang sempit.
Sifat-sifat Statistik dari Regresi Kontinum
Sifat-sifat statistik yang dikaji meliputi : bias, ragam dari penduga parameter regresi dan prediksi, serta selang prediksi.
Ketakbiasan dalam Pendugaan Parameter
Model umum regresi ganda y= Χ
β
+ε
. Karena pada matriks X terdapat masalah singularitas dan atau ill conditioned, maka dilakukan transformasi peubah dengan formula sebagai berikut : Th =XWh dan Wh =(
w1,w2,...,wh)
matriks berukuran (pxh) dengan {h<p<(n−1)} dan disebut matriks pembobot, Th adalah matriks peubah baru berukuran (nxh).Dengan demikian model dapat diubah menjadi y=Thξ +ε . Karena pada matriks T sudah tidak ada masalah singularitas atau ill conditioned, maka h pendugaan parameter ξ dapat dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut :
(
h)
hT y Th ThT 1T
ˆδ, = −
ξ . (78)
Nilia harapan dari ξˆ dengan syarat W ditentukan (fixed variable) adalah :
( )
[
T T T W]
ˆ W 1
, E y
E hT h hT
h
= −
⎥⎦⎤
⎢⎣⎡
ξδ
=E[(ThTTh)−1ThT(Thξ +ε)W] = + ξ E[(ThTTh)−1ThTε W]
= ξ +E[(WhTXTXWh)−1WhTXTε W] = + ξ [(WhTXTXWh)−1WhTXTE(ε)]
= ξ. (79)
Jadi ˆ ,h
ξδ merupakan penduga takbias bagi ξ bila matriks W bersifat fixed variable (bukan peubah acak).
Prisnsip dari matriks pembobot W pada RK sama dengan peranan matriks pembobot pada regresi kuadrat terkecil tertimbang (weighted least squares). Pada regresi kuadrat terkecil tertimbang, bila matriks pembobot diketahui (fixed variable), maka penduga yang dihasilkan bersifat takbias dengan ragam minimum.
Dalam prakteknya hal tersebut sulit dipenuhi, sehingga matriks pembobot diperoleh dari hasil pendugaan. Pada keadaan ini harus hati-hati, karena bagaimanapun penggunaan penduga sebagai pengganti tidak mungkin sesuai jika didasarkan pada informasi yang terbatas (Myers 1990). Logika inilah yang digunakan untuk mempelajari sifat-sifat statistik dari RK, khususnya dalam menyikapi matriks pembobot W.
Ragam dan Simpangan Baku untuk
,h
ˆδ
ξ
Untuk mendapatkan ragam dari ξˆ dengan syarat W diketahui digunakan formula sebagai berikut :
] )
[(
ˆ )
( , W Var T T 1Τ yW
Var hT h Th
h
= −
ξδ
=Var[(WhTXTXWh)−1WhTXT yW]
=
( )
−1 ( ) ( h)−1 TT h h T
T h h T T
hX XW W X Var y XW W X XW
W
= (WhTXTXWh)−1σ2. (80)
Pendugaan y untuk data rata-rata
Salah satu tujuan dari pemodelan adalah menduga (meramal) nilai peubah respon Y berdasarkan nilai peubah bebas X yang dimiliki. Misalkan terdapat nilai pengamatan x untuk menduga nilai 0 y digunakan formula sebagai berikut : 0
h h T h
T x
t
yˆ0 = 0ξˆδ, = 0W ξˆδ, . (81) Sedangkan untuk mencari ragam dan simpangan baku digunakan formula :
(
W)
W) ( ˆ )
(yˆ0 Var t0T ,h
Var = ξδ
=
(
( 0Wh ˆ ,h)W)
xT
Var ξδ
= x0TWhVar
( )
ξˆWWhTx0Sedangkan untuk simpangan baku digunakan formula : ˆ )
( ˆ )
(y0 Var y0
s = . (82)
Prediksi nilai y untuk Pengamatan Baru
Untuk memprediksi nilai peubah respon pengamatan baru digunakan formula sebagai berikut :
h T h i T
i i i
predik y t x
y () = ˆ() = ()ξˆδ, = ()Wξˆδ, . (83) Untuk mendapatkan selang prediksi dari y digunakan formula :
x(RMSEP) ˆ 2
x(SEP)
ˆ(i) ±2 ≈ y(i) ±
y (84)
yang merupakan aproksimasi selang prediksi 95%.
Regresi Kontinum dengan prapemrosesan transformasi wavelet diskret (RK-TWD) pada dasarnya adalah regresi kontinum terhadap koefisien wavelet.
Sehingga matriks peubah bebas X pada regresi kontinum diganti dengan matriks koefisien wavelet D*. Dengan demikian sifat-sifat statistik dari RK-TWD sama dengan pada RK dengan mengganti matriks peubah bebas X dengan matriks koefisien wavelet D*.
Hasil Simulasi
Pemodelan antara peubah respon Y terhadap matriks koefisien wavelet diskret (D) dilakukan dengan menggunakan data kelompok-1. Model terbaik terbentuk dengan mengambil 16 koefisien wavelet pada resolusi 0, 1, 2, 3 serta 1 koefisien untuk fungsi skala untuk mother wavelet Daubechies-10. Ringkasan ukuran kebaikan model disajikan pada Tabel 7.
Tabel 7 Ringkasan ukuran kebaikan model
δ h R2 R2 s Rpredik2 RMSEP
Pendekatan-1
0.125 2 0.9321 0.9291 0.0709 0.968 0.0443 0.200 2 0.9268 0.9255 0.0727 0.945 0.0589 0.250 2 0.9268 0.9255 0.0727 0.957 0.0534 0.300 2 0.9268 0.9237 0.0736 0.955 0.0555 0.450 2 0.9176 0.9140 0.0781 0.953 0.0602 (RKTP) 0.500 2 0.9122 0.9084 0.0806 0.953 0.0617 (RKU) 1.000 2 0.8935 0.8888 0.0888 0.883 0.0831 Pendekatan-2
3 0.9245 0.9176 0.0760 0.944 0.0598
Dari Tabel 7 tersebut dapat dilihat bahwa model terbaiknya adalah hasil metode RK pada δ =0.125, karena pada kondisi tersebut diperoleh R2,R2predik serta RMSEP terbaik. Selanjutnya model yang dianalisis adalah model RK pada
125 .
=0
δ .
Tabel 8 menyajikan dugaan dari y serta ragam dari yˆ , sedangkan Tabel 9 menyajikan prediksi dan selang prediksi untuk y yang diperoleh dari aproksimasi.
Dari Tabel 8 dapat dilihat bahwa selang prediksi untuk y relative sempit dan semua nilai μy maupun nilai pengamatan y berada dalam selang prediksi.
Tabel 8 Nilai dugaan y untuk data kelompok 1
asli y = y
μ y yˆ s( yˆ)
0.94064 1.09311 1.0397 0.0106210 1.12288 1.34589 1.3043 0.0130583 1.31909 1.48550 1.413 0.0208842 0.81541 0.81581 0.8542 0.0131145 0.93446 0.90300 0.8777 0.0122812 1.01848 0.99009 1.0516 0.0107356 0.57549 0.57864 0.5728 0.0098598 0.92242 0.88554 0.9605 0.0291648 0.90469 0.90095 0.8156 0.0329777 1.23650 1.11228 1.2538 0.0138891 1.34353 1.27481 1.3099 0.0197314 0.77198 0.81608 0.8602 0.0166272 1.01421 1.06923 1.0539 0.0111853 0.97891 1.03137 1.0817 0.0183996 1.05472 1.09139 1.1330 0.0157096 0.98066 1.07211 1.0279 0.0257986 0.62839 0.70565 0.6915 0.0139662 0.47088 0.47593 0.5652 0.0462254 1.23178 1.05922 1.1309 0.0354258 1.13605 1.41614 1.2807 0.0130686 1.17056 1.27384 1.2271 0.0428627 0.90895 0.89968 0.7905 0.0139753 1.45847 1.47027 1.5342 0.0283029 1.28500 1.28511 1.2684 0.0118321 0.93130 1.01107 0.9642 0.0132541
Tabel 9 Hasil prediksi nilai y untuk data kelompok validasi Selang prediksi 95%
asli y = y
μ y ypredik Batas
bawah
Batas atas
Lebar selang 0.98135 1.17228 1.09616 1.00756 1.18476 0.1772 1.29393 1.29776 1.30266 1.21406 1.39126 0.1772 0.60471 0.64659 0.65368 0.56508 0.74228 0.1772 1.25904 1.24146 1.19549 1.10689 1.28409 0.1772 1.15720 1.18232 1.22551 1.13691 1.31411 0.1772
Simpulan
Pada RK dengan model y= Χ