(R.2) PERBANDINGAN METODE BOOTSTRAP DAN JACKKNIFE DALAM PENDUGAAN PARAMETER REGRESI DENGAN PARTIAL LEAST SQUARE REGRESSION

(1)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 355 (R.2)

PERBANDINGAN METODE BOOTSTRAP DAN JACKKNIFE DALAM PENDUGAAN PARAMETER REGRESI DENGAN PARTIAL LEAST SQUARE

REGRESSION

I Gede Nyoman Mindra Jaya

Jurusan Statistika FMIPA Universitas Padjadjaran [email protected]

ABSTRAK

Metode Partial Least Square Regression salah satu metode yang ditawarkan untuk pemodelan persamaan regresi jika terdapat kasus multikolenieritas. Sama halnya seperti metode Principal Component Regression dan Ridge Regression, metode Partial Least

Square Regression tidak memberikan standard error pendugaan parameter regresi karena dalam pemodelan tidak mengasumsikan sebaran dari error. Pendekatan umum yang digunakan untuk mendapatkan standar error dan interval konfidensi dari pendugaan parameter regresi adalah dengan menggunakan metode Bootstrap dan

Jackknife. Dalam penelitian ini, penulis bertujuan untuk membandingkan bias

pendugaan parameter regresi, standar error dan interval konfidensi pendugaan. Dengan menggunakan metode simulasi ditetapkan B=1000 dan sampel bootstrap n=(10, 30, 50, 100, 200) dan Jackknife n-1, dengan korelasi antara prediktor sebesar ρ=0.9 diperoleh metode Bootstrap relatif lebih baik untuk ukuran sampel besar (n>30) dibandingkan dengan metode Jackknife dilihat dari bias pendugaan, standar error dan lebar interval konfidensinya .

Keyword : Regresi, Multikolenieritas, Bootstrap, dan Jackknife PENDAHULUAN

Analisis regresi adalah teknik analisis statistik yang mencirikan hubungan antara dua buah variabel atau lebih untuk tujuan prediksi dan estimasi dengan model statistik yang disebut sebagai model regresi. Khusus untuk tujuan prediksi, semakin banyak variabel yang terlibat dalam model regresi maka semakin akurat dan reliable nilai prediksinya karena tentunya dengan melibatkan banyak variabel prediktor, proporsi varians dari variabel respon yang dapat dijelaskan oleh variabel prediktor akan semakin tinggi yang ditunjukkan oleh nilai koefisien determinasi R2 yang semakin besar. Namun, terdapat satu masalah klasik diantara banyak masalah dalam analisis regresi multipel adanya korelasi sempurna atau hampir sempurna antara variabel prediktor. Dalam bahasa regresi persamasalahan ini dikenal dengan nama multikolenieritas.

Beberapa teknik statistik yang sering digunakan dalam penanggulangan multikolenieritas adalah Principal Component Regression (PCAR), Ridge Regression (RR) dan Partial Least Square Regression (PLSR). Kajian yang telah dilakukan oleh Norliza (2006) menunjukkan bahwa metode PLSR adalah metode yang terbaik dibandingkan metode yang lain dilihat dari Means Square Error (MSE) pendugaan parameter regresi.

Konsep dari PLSR adalah mereduksi variabel prediktor menjadi k komponen dengan memperhatikan korelasi antara set variabel prediktor dengan set variabel respon. PLSR merupakan gabungan dari Principal Component Regression (PCR) dengan

(2)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 356 adalah pada tahap pengujian signifikansi parameter regresi karena dalam metode PLSR tidak mengasumsikan sebaran dari data. Sehingga standar error pendugaan tidak bisa diturunkan dari aspek teoritis. Pendekatan yang dapat digunakan untuk mendpatkan standar error dari pendugaan parameter yaitu metode resampling (Bootstrap) atau dengan menggunakan metode Jackknife. Dalam penelitian ini, penulis mencoba membandingkan metode Bootstrap dan Jackknife dalam menduga (1) bias parameter, (2) standard error dan (3) interval konfidensi pada Partial Least Square Regression.

TUJUAN PENELITIAN

Tujuan dari penelitian ini adalah membandingkan metode Bootstrap dan Jackknife dalam menduga (1) bias parameter, (2) standard error dan (3) interval konfidensi pada

Partial Least Square Regression

KERANGKA KONSEPTUAL Partial Least Square Regression

PLS merupakan metode yang cukup baru yang dikembangkan oleh Herman Wold di Tahun 1960-an sebagai sebuah metode yang digunakan untuk membangun model prediksi saat variabel prediktor banyak dan saling berkorelasi. PLS dapapat digunakan untuk jumlah variabel prediktor yang sangat banyak bahkan lebih banyak dari ukuran sampelnya.

Untuk regresi variabel Y dengan variabel prediktor X1,..,Xp, PLS mencoba

menemukan faktor-faktor baru yang akan memainkan peran yang sama dengan X. Faktor-faktor baru sering disebut variabel laten atau komponen. Masing-masing komponen adalah kombinasi linear dari X1,..,Xp. Ada beberapa kesamaan dengan PCR.

Kedua metode, sama-sama menemukan faktor baru yang akan diregresikan dengan Y. Perbedaan utamanya adalah ketika PCR hanya menggunakan variasi X untuk membangun faktor-faktor baru, PLS menggunakan kedua variasi X dan Y untuk membangun faktor-faktor baru yang akan memainkan peran sebagai variabel prediktor.

Intensi dari PLS adalah untuk membentuk komponen yang menangkap sebagian besar informasi dalam variabel X, yang berguna untuk memprediksi y1,..,yq, dengan

menggunakan komponen lebih sedikit dari jumlah variabel X. Sekarang kita akan menurunkan penduga PLS β dan B. Matriks X dapat dilakukan dekomposisi bilinier sebagai berikut : = = + + + =

∑

= p / / / / / 1 1 2 2 p p i i i 1 X t p t p ... t p t p TP (1)

Di sini ti adalah kombinasi linear dari X, yang ditulis sebagai Xri. Kemudian p x 1 vektor pi yang sering disebut vektor loading. Berbeda dengan bobot di PCR (yaitu

eigenvektor γi), ri tidak ortonormal. Namun bagaimanapun ti, seperti komponen utama

Zi, yang ortogonal. Ada dua algoritma populer untuk mendapatkan penduga PLS. Satu

disebut NIPALS dan yang lainnya disebut algoritma SIMPLS

Tahap awal dalam pendugaan parameter adalah menghitung ti yang merupakan

kombinasi linier dari matriks residual Ei sebagai berikut :

− = = = −

∑

= i / i i 1 i i j j 0 j 1 t E w , E X t p , E X (2)

(3)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 357 dimana wi adalah ortonormal. Kemudian ri , wi, i = 1, 2,..,m adalah set vektor loading.

Dalam algoritma PLS baik untuk multivariat dan univariat, langkah pertama adalah menghitung nilai vektor ti kemudian menghitung pi. Secara jelas algoritmanya sebagai

berikut :

Tm=XRm

Pm=X/Tm(T/m/Tm)-1

Rm=Wm (P/mWm)-1 (3)

Dimana m adalah banyak komponen yang dominan. Sehingga penduga parameter β dengan PLS adalah : OLS / / m 1 m / / m m m PLS R (R X XR ) R X Xβ βˆ = − ˆ ₍₄₎ Metode Bootstrap

Metode Bootstrap adalah metode resampling dengan penggantian dari sampel asli untuk memperkirakan ketepatan statistik dari data dalam suatu sampel. Idenya adalah untuk meniru proses pemilihan banyak sampel untuk menemukan kemungkinan bahwa nilai-nilai statistik uji mereka jatuh dalam berbagai interval (Efron, 1979). Dengan demikian distribusi dari statistik uji sampel di ini ditetapkan dari distribusi sampling empiris. Pada metode bootstrap dibentuk B buah sampel Bootstrap, masing-masing merupakan sampel acak berukuran n yang diambil dengan pengembalian dari populasi n pengamatan. Pengamatan ke-i (i=1,2,...,n) dari sampel awal mungkin muncul beberapa kali pada sampel Bootstrap ke-r (r=1,2,..,B). Sedangkan pengamatan lain mungkin tidak muncul sama sekali.

Bootstrap Untuk Bias Pendugaan

Jika θˆ adalah penduga tak bias dari θ, E[θˆ]=θ . Bias penduga dari θˆ adalah : θ θ θ θ θˆ)= [ˆ− ]= [ˆ]− ( E E bias ₍₅₎

Dan bias dari bootstrap adalah :

θ θ θˆ) ˆ ˆ ( ( ) ^ − = r bias ₍₆₎

Bootstrap Untuk Standar Error

Bila θˆ₍_r₎ adalah dugaan parameter β yang diperoleh dari sampel Bootstrap ke-r (r=1,2,...,B) maka dugaan simpangan baku dari parameter β adalah :

∑

= = =         −       ₋ = B r r B r r B B B e s 1 ) ( (.) 2 / 1 2 1 (.) ) ( / ˆ ˆ ) 1 /( ˆ ˆ ˆ θ θ θ θ (7)

Bootstrap Untuk Interval Konfidensi

Untuk interval konfidensi digunakan pendekatan normal sebagai berikut : B p n r B p n r t seˆ ˆ t seˆ ˆ 2 / , ) ( 2 / , ) ( α θ θ α θ − − < < + − ₍₈₎

Bootstrap Untuk Uji Signifikansi

Untuk uji signifikansi dengan menggunkan Bootstrap pada PLSR dapat dilakukan dengan formulasi sebagai berikut :

(4)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 358 ˆ ˆ PLS i i B t se β ₋ = (9)

Dengan s ˆe_B diperoleh dari proses Bootstrap

2 / 1 2 1 (.) ) ( ˆ /( 1) ˆ ˆ         −       ₋ =

∑

= B e s B r r B θ θ Kriteria penerimaan H0 :

Terima hipotesis nol jika nilai |t hitung| lebih kecil dari t tabel pada tingkat signifikansi α dan derajat bebas db=n-p dengan p adalah banyak parameter yang ditaksir dalam penelitian. Tolak hipotesis nol jika terjadi sebaliknya.

Jackknife

Jackknife adalah metode resampling yang lain diperkenalkan oleh Quenouille (1949) untuk estimasi bias dan Tukey (1958) memperkenalkan Jackknife untuk menduga standar error . Jackknife seperti halnya metode cross validation leave one out. Misalkan

x=(x1,…,xn) adalah set obervasi acak dan didefnisikan sampel jackknife ke-i x(i) adalah

set data dari x tanpa melibatkan observasi xi sehingga : x(i) =(x1,…,xi-1, xi+1,…,xn)

Jika θˆ=T_n(x), definisikan replikasi jackknife ke-i sebagai θˆ(i) =Tn−1(x(i)), i=1,…,n .

Misalkan parameter θ =t(F) adalah fungsi dari distribusi F. Misalkan Fn adalah empirical cumulatif distribution function (ecdf) . Taksiran dari θ adalah θˆ=t(F_n).

Jackknife Untuk Bias Pendugaan

Jika θˆ adalah sebuah statistik, kemudian θˆ(i) =t(Fn−1(x(i))), jackknife untuk bias

pendugaan parameter adalah :

) ˆ ˆ )( 1 ( _(.) ^ θ θ − − = n biasjack (10) Dimana

∑

= = n i i n 1 ) ( (.) ˆ 1 ˆ _θ

θ adalah rata-rata dugaan setelah proses penghilangan satu unit pengamatan ke-i, dan θˆ=θˆ(x)adalah penduga yang dihitung dari data sampel sebenarnya.

Jackknife Untuk Bias Pendugaan

Jackknife untuk standar error penduga dari θˆ adalah : 2 1 (.) ) ( ^ ˆ ˆ ) 1 (

_∑

=       ₋ − = n i i jack n n se θ θ (11) METODOLOGI

(5)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 359 Untuk memilih metode terbaik dalam pendugaan parameter regresi dengan partial

least square akan dilakukan dengan metode simulasi monte carlo. Prosedur simulasinya adalah sebagai berikut :

1. Membangkitkan data sampel n=(10, 30, 50, 100, 200) variabel prediktor x1 dan

x2 dengan korelasi antara prediktor ini ditetapkan sebesar ρ=0.9

2. Melakukan pendugaan parameter regresi dengan metode Partial Least Square dengan banyak komponen adalah satu

3. Menghitung bias pendugaan, standar error, dan interval konfidensi dengan metode Bootstrap dan Jackknife

HASIL PENELIITAN

Setelah dilakukan simulasi menggunakan software R dengan replikasi sebanyak 100 kali, sampel bootstrap B=1000 dengan n=(10, 30, 50, 100, 200) serta mempertimbangkan adanya multikolenieritas dengan korelasi antara variabel prediktor ditetapkan sebesar ρ=0.90 serta γ=0.95 diperoleh hasil simulasi sebagai berikut :

Tabel 1. Hasil Simulasi Metode Bootstrap dan Jacknife (B=1000, n=(10, 30, 50, 100, 200))

Method Sampel Size

Standardized

Coefficient Observed Average Bias S.E

Confident Interval 95% Wide C.I L.B U.B Bootstrap N=10 b1 0.5020237 0.5076099 0.0002856 0.0117674 0.4797845 0.5354353 0.0556508 b2 0.5049639 0.5214075 0.0025445 0.0205651 0.4727787 0.5700363 0.0972576 Jackknife b1 0.5020237 0.5074083 0.0007563 0.0068359 0.491244 0.5235726 0.0323286 b2 0.5049639 0.5190643 0.001812 0.0150016 0.4835913 0.5545374 0.0709461 Bootstrap N=30 b1 0.510419 0.507501 0.000153 0.003112 0.501115 0.513886 0.012771 b2 0.526704 0.519248 0.000631 0.007515 0.503828 0.534668 0.030840 Jackknife b1 0.510419 0.507353 0.000168 0.003092 0.501008 0.513698 0.012690 b2 0.526704 0.518640 0.000663 0.007407 0.503442 0.533837 0.030394 Bootstrap N=50 b1 0.509982 0.507986 0.000188 0.002599 0.502758 0.513214 0.010457 b2 0.525522 0.520316 0.000550 0.006137 0.507970 0.532662 0.024692 Jackknife b1 0.509982 0.507801 0.000179 0.002582 0.502608 0.512995 0.010388 b2 0.525522 0.519777 0.000534 0.006133 0.507439 0.532116 0.024677 Bootstrap N=100 b1 0.508369 0.507279 0.000065 0.001592 0.504120 0.510439 0.006319 b2 0.521213 0.518390 0.000187 0.003750 0.510948 0.525833 0.014885 Jackknife b1 0.508369 0.507216 0.000069 0.001595 0.504049 0.510382 0.006332 b2 0.521213 0.518205 0.000204 0.003766 0.510731 0.525679 0.014948 Bootstrap N=200 b1 0.508496 0.507213 0.000034 0.001095 0.505054 0.509371 0.004317 b2 0.521550 0.518199 0.000104 0.002592 0.513088 0.523311 0.010223 Jackknife b1 0.508496 0.507179 0.000029 0.001095 0.505020 0.509338 0.004319 b2 0.521550 0.518096 0.000092 0.002605 0.512960 0.523233 0.010273

Sumber : Hasil Simulasi

0.0001 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 T a k si ra n P a ra m e te r B e ta 1 0.0020 0.0040 0.0060 0.0080 0.0100 0.0120 0.0140 T a k si ra n P a ra m e te r B e ta 2

(6)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 360 Gambar 1. Bootstrap dan Jackknife Gambar 2. Bootstrap dan Jackknife

Bias Parameter Beta 1 Bias Parameter Beta 2

Gambar 3. Bootstrap dan Jackknife Gambar 2. Bootstrap dan Jackknife Standar Error Beta 1 Standar Error Beta

Secara umum hasil simulasi menunjukkan bahwa metode Bootstrap relative lebih baik untuk ukuran sampel besar baik dilihat dari bias pendugaan parameter, standar error dan interval konfidensinya. Namun untuk ukuran sampel kecil kurang dari 30, jackknife relatif lebih baik dibandingkan Bootstrap.

Distribusi Bootstrap Beta-1

B1 F re q u e n c y 0.505 0.510 0.515 0 5 1 0 1 5 2 0 2 5

B2 F re q u e n c y 0.51 0.52 0.53 0.54 0.55 0 5 1 0 1 5

Distribusi Jackknife Beta-1

B1 F re q u e n c y 0.505 0.510 0.515 0 5 1 0 1 5 2 0 2 5

B2 F re q u e n c y 0.51 0.52 0.53 0.54 0.55 0 5 1 0 1 5

B1 F re q u e n c y 0.50 0.51 0.52 0.53 0.54 0.55 0 5 1 0 2 0 3 0

B2 F re q u e n c y 0.50 0.52 0.54 0.56 0.58 0.60 0 5 1 0 1 5 2 0

B1 F re q u e n c y 0.500 0.510 0.520 0.530 0 5 1 0 1 5 2 0

B2 F re q u e n c y 0.50 0.52 0.54 0.56 0.58 0 5 1 0 1 5 2 0 0.0000 0.0005 0.0010 0.0015 0.0020 0.0025 0.0030 0 50 100 150 200 250 T a k si ra n S .E B e ta 1 Ukura n Sampel (n) Bootstrap Jackknife 0.0000 0.0050 0.0100 0.0150 0.0200 0.0250 0 50 100 150 200 250 T a k si ra n S .E B e ta 2 Ukura n Sa mpel (n) Bootstra p Jackknife

(7)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 361 Gambar 1. Bootstrap dan Jackknife Gambar 2. Bootstrap dan Jackknife

n = 10 n = 30

Untuk ukuran sampel kurang dari 30, terlihat distribusi sampling dari parameter regresi partial least square menyimpang dari sebaran normal. Sehingga dengan ukuran sampel ini, baik pendekatan Bootstrap maupun Jackknife kurang baik digunakan dalam mendapatkan standar error yang akan digunakan dalam pengujian hipotesis.

Gambar 3. Bootstrap dan Jackknife Gambar 4. Bootstrap dan Jackknife n = 50 n = 100

B1 F req u e nc y 0.504 0.508 0.512 0 2 4 6 8 1 2

B2 F req u e nc y 0.510 0.520 0.530 0 2 4 6 8 1 0

B1 F re q ue n c y 0.504 0.508 0.512 0 2 4 6 8 12

B1 F re q ue n c y 0.510 0.520 0.530 0 2 4 6 8 1 0

B1 F re q u e n c y 0.505 0.507 0.509 0 2 4 6 8 1 0

B2 F re q u e n c y 0.515 0.520 0.525 0 5 1 0 1 5

B1 F re q u e n c y 0.505 0.507 0.509 0 2 4 6 8 1 0

B1 F re q u e n c y 0.515 0.520 0.525 0 5 1 0 1 5 B2

B1 F re q u e n c y 0.504 0.508 0.512 0 5 1 0 1 5 2 0

B2 F re q u e n c y 0.510 0.520 0.530 0 5 1 0 1 5

B1 F re q u e n c y 0.504 0.506 0.508 0.510 0.512 0 5 1 0 1 5 2 0

B1 F re q u e n c y 0.510 0.515 0.520 0.525 0.530 0 5 1 0 1 5 B2 B2

Untuk ukuran sampel relative besar, terlihat dari hasil simulasi (n>30) distribusi sampling dari dugaan parameter relatif menyebar normal. Sehinggau untuk ukuran sampel relatif besar, pendekatan Bootstrap dan Jacknife sangat baik digunakan dalam menaksir standar error dugaan parameter yang akan digunakan dalam pengujian hipotesis signifikansi parameter regresi partial least square.

(8)

Manajemen Risiko di Bidang Perbankan dan Asuransi | 362 Gambar 5. Bootstrap dan Jackknife

n = 200

KESIMPULAN

Partial Least Square Regression adalah analisis regresi yang dapat digunakan sebagai salah satu solusi menanggulangi terjadinya pelangagran asumsi non kolenearitas dalam variabel prediktor. Hasil simulasi menunjukkan bahwa bias pendugaan parameter relatif rendah dengan standar error dugaan relatif kecil. Untuk ukuran sampel relatif besar (n>30), metode Bootstrap dan Jackknife baik digunakan untuk menaksir standar error dugaan parameter yang dapat digunakan untuk menghitung nilai statistik uji dalam uji hipotesis. Metode Boostrap relatif lebih baik untuk ukuran sampel besar dibandingkan metode Jackknife namun untuk ukuran sampel kecil, terlihat Jackknife relatif lebih baik.

DAFTAR PUSTAKA

Draper,N.R. dan H. Smith.1991. Applied Regression Analysis.2nd Ed. New York : John Willey & Sons.

Jollife, I. T. 1986. Principal Komponen Analysis. Springer-Verlag, New York.

Mayers, R.H. 1990.Classical and Modern Regression With Application.2nded.New York : John Willey & Sons.

Norliza Adnan, Maizah Hura Ahmad, Robiah Adnan. A Comparative Study On Some Methods For Handling Multicollinearity Problems, Journal MATEMATIKA, Volume 22 (2006), Number 2, pp. 109–119

Sahinler, Topuz. 2007. “Bootstrap and Jackknife Resampling Algorithm For Estimation of Regression Parameters, Journal of Applied Quantitative Research, Vol 2. No. 2