PENDUGAAN SELANG KEPERCAYAAN BOOTSTRAP PADA REGRESI NON PARAMETRIK KERNEL
Gusti Ngurah Adhi Wibawa1), Bahriddin Abapihi1)
1)
Staf Pengajar Jurusan Matematika, FMIPA, Universitas Haluoleo, Kendari 93231
ABSTRAK
Regresi nonparametrik Kernel merupakan salah satu metode untuk menduga kurva regresi secara nonparametrik. Untuk menduga selang kepercayaan kurva dugaan pada regresi nonparametrik dapat menggunakan metode bootstrap persentil dan bootstrap terbaik. Dari hasil analisis, Hasil dugaan selang kepercayaan bootstrap terbaik cenderung lebih baik dibandingkan dengan selang kepercayaan bootstrap persentil.
Kata kunci: Regresi nonparametrik kernel, selang kepercayaan, bootstrap persentil , bootstrap
terbaik.
ABSTRACT
Kernel nonparametric regression is one method to estimate the nonparametric regression curve. To estimate the confidence interval curve in nonparametric regression can use the percentile bootstrap method and better bootstrap. From the analysis, the curve results of the better bootstrap confidence intervals tend to be better than the percentile bootstrap confidence interval.
Keywords : Kernel nonparametric regression, confidence interval, percentile bootstrap, better
bootstrap.
Diterima: November 2012
Disetujui untuk dipublikasikan: Februari 2013
1. PENDAHULUAN
Teknik statistika yang digunakan untuk menerangkan pola hubungan antara satu atau lebih peubah bebas x dengan suatu peubah tak bebas y adalah analisis regresi. Analisis regresi dapat didekati dengan metode parametrik maupun non parametrik. Pendekatan non parametrik digunakan jika asumsi tentang kenormalan dan kelinearan model sulit dipenuhi, sedangkan jika asumsi tersebut dapat terpenuhi maka lebih baik menggunakan pendekatan parametrik.
Pendekatan yang dapat digunakan dalam regresi nonparametrik antara lain regresi monoton, pemulus (kernel, spline, local regression). Dari beberapa pendekatan yang ada, penulis akan mengulas tentang pendekatan kernel. Untuk menilai kebaikan kurva dugaan
yang dihasilkan biasanya dapat dilihat dari dugaan selang kepercayaan untuk kurva dugaan. Suatu metode penduga selang kepercayaan yang perkembangannya cukup pesat adalah metode bootstrap. Dalam tulisan ini, metode bootstrap yang digunakan adalah bootstrap persentil (percentile bootstrap) dan bootstrap terbaik (better bootstrap).Tulisan ini membahas hasil pendekatan bootstrap persentil dan bootstrap terbaik dalam menduga selang kepercayaan dari kurva dugaan.
2. TINJAUAN PUSTAKA 2.1. Model Regresi
Model dasar yang digunakan dalam regresi parametrik adalah fungsi pemulus r(.) sebagai penghubung antara y dengan prediktor x, sebagai berikut:
yi = r(xi) + εi, untuk i=1,2,...,n, dimana εi℘ g(µ, σε 2
(x))
Dari model tersebut, g umumnya diasumsikan menyebar normal dengan ragam konstan sebesar σε2 .
Fungsi regresi teoritis didefinisikan sebagai berikut [1]
. ) , ( ) , ( ) / ( ) / ( ) (
∫
∫
∫
= = = = dy y x f dy y x yf dy x y yf x X Y E x rPenduga regresi nonparametrik dapat dihitung dengan menggunakan penduga kernel bivariate [2], [3]: ) ( ) ( 1 1 ) , ( ˆ i h i h y i x i y x y y K x x K n h y y K h x x K h nh y x f y x − − = − − =
∑
selanjutnya diperoleh penduga regresi yang dikenal dengan penduga Nadaraya-Watson sebagai berikut
∑
∑
= = − − = n i i h n i i h i x x K n x x K y n x r x x 1 1 ) ( / 1 ) ( / 1 ) ( ˆ atau∑
= = n i i i h x x y w x r x 1 ) , ( ) ( ˆ dengan . ) ( ) ( ) , ( 1∑
= − − = n i i h i h i h x x K x x K x x w x x xPenduga dari Nadaraya-Watson yang diperoleh di atas merupakan kombinasi linear dari pengamatan respon dengan bobot w.
2.2. Penentuan Ukuran Bandwidht
Meskipun pemulusan dengan kernel diharapkan dapat mengurangi bias, tetapi pemulusan itu sendiri tergantung pada besarnya h (parameter pemulus). Pemilihan bandwidth (h) yang optimal adalah usaha untuk mencari keseimbangan antara besarnya bias dan ragam dugaan kurva pemulus yang dihasilkan. Penduga pemulus yang dipilih adalah yang memberikan nilai ragam minimum. Secara umum penilaian ragam dilakukan dengan menggunakan kriteria MSE dan MISE.
Karakteristik dari penduga regresi kernel Nadaraya-Watson dapat diturunkan sebagai berikut [1]: + + ≈ + + + + ≈ ) ( ) ( ' ) ( ' 2 ) ( '' 2 1 r(x) )] 2 /( '' 1 ).[ ( }] 2 / '' ) 2 /( '' / ' ' { ) ( ).[ ( )) ( ˆ ( 2 2 2 2 2 2 x f x f x r x r h f f h x f r f r f f r f h x r x f x r E K K K σ σ σ
dengan menggunakan pendekatan (1+h2c2)-1≈(1-h2c) untuk h≈0.
) ( ) ( ) ( ˆ ( 2 x nhf K R x r Var ≈ σε .
Dengan demikian bias dari penduga regresi diperoleh sebagai berikut . ) ( ) ( ' ) ( ' 2 ) ( ' ' 2 1 ) ( )) ( ˆ ( )) ( ˆ ( 2 2 + ≈ − = x f x f x r x r h x r x r E x r Bias σK
Sedangkan jika data dalam bandwiht cukup besar maka bias pendugaan akan menjadi h2σK
2
AMSE dari penduga Nadaraya-Watson adalah . ) ( ) ( ' ) ( ' 2 ) ( '' 4 1 ) ( ) ( )} ( { 2 4 4 2 + + = x f x f x r x r h x nhf K R x r AMSE σK σε )
Pemilihan parameter pemulus dengan validasi silang (VC) dalam regresi nonparametrik lebih mudah daripada fungsi kepekatan. Terdapat dua algoritma umum dalam pendugaan h yaitu dengan memodifikasi rata-rata dari kuadrat simpangan, yaitu [4]:
{
}
∑
= − = n i i i r x y n h G 1 2 ) ( ˆ 1 ) (selanjutnya simbol r-i (.) adalah simbol penduga Nadaray-Watson dengan menghilangkan pengamatan ke-i. Pemilihan h dapat dilakukan dengan mencari nilai
) ( min arg ˆ hCV h hCV = dengan
{
ˆ ( )}
. 1 CV(h) 1 2∑
= − − = n i i i i r x y nPendekatan lain yaitu dengan mengalikan faktor koreksi ). ( ) 0 ( 2 1 min arg ˆ h G h nh K h × + =
2.3. Pendugaan Selang Kepercayaan
Metode bootstrap dapat digunakan untuk menduga selang kepercayaan kurva dugaan pada regresi nonparametrik. Terdapat beberapa metode bootstrap yang dapat digunakan untuk menduga selang kepercayaan, dua diantaranya adalah bootstrap persentil dan bootstrap terbaik [5].
Sebaran data pada metode bootstrap persentil yang digunakan sebagai referensi adalah sebaran empirik dari hasil pengulangan bootstrap. Kuantil dari sebaran empirik adalah penduga dari kuantil sebaran contoh dugaan parameter. Selang kepercayaan 95% artinya batas bawah dari selang adalah nilai quantil 2.5 dan batas atas selang adalah nilai quantil 97.5.
Metode bootstrap terbaik (better bootstrap) merupakan modifikasi dari bootstrap persentil [6]. Pada metode ini terdapat koreksi terhadap bias dan skewness (kemenjuluruan). Selang kepercayaan boostrap terbaik dikenal sebagai bias-corrected and accelerated (BCa). Untuk selang kepercayaan BCa bootstrap 100(1-α)% hitung:
= Φ + 1 − ( + / + /) = Φ + 1 − ( + / + /) dengan = Φ() ̂ = Φ 1 () < ! = ∑ #($)* ($)#&&&&&(.) ' +,∑ #($)* ($)#&&&&&(.) -. '/- .
Nilai ̂ adalah dugaan dari bias dan I(.) merupakan fungsi indikator. Nilai ̂= 0 jika adalah median dari ulangan bootstrap. Adapun nilai merupakan ukuran skewness yang diduga dari ulangan Jackknife.Selang BCa adalah ( ∗ , ∗ ). Batas atas dari selang adalah quantil empirik α1 dan batas bawah selang adalah kuantil α2 dari ulangan bootstrap.
3. SUMBER DATA
Data yang digunakan diambil dari gudang data pada software Systat “Damp.syz”dengan y sebagai variabel respon dan x sebagai variabel bebas. Tahapan analisis yang akan dilakukan dalam kajian ini adalah tahap pertama menelusuri pola hubungan data dengan pendekatan regresi linear. Hasil dari tahap pertama ini ditujukan untuk mengevaluasi apakah perlu didekati dengan regresi nonparameterik. Jika pola data tidak mengikuti trend linear maka dilanjutkan ke tahap dua yaitu analisis regresi non parametrik kernel. Fungsi pemulus kernel yang akan digunakan adalah Gaussian. Tahap selanjutnya adalah menduga selang kepercayaan dari kurva menggunakan metode bootstrap persentil dan terbaik.
4. HASIL DAN PEMBAHASAN 4.1. Pola Hubungan Antara y dan x
Gambar 1 menyajikan pola hubungan antara x dan y. Terlihat bahwa pola hubungan tidak linear. Kondisi ini merupakan salah satu alasan mengapa model hubungan antara x dan y didekati dengan regresi nonparametrik. Pendekatan regresi nonparameterik yang akan digunakan adalah regresi kernel.
Gambar 1. Pola hubungan antara x dan y.
Dengan menggunakan fungsi kernel Gaussian dan metode pemulusannya menggunakan rataan terboboti kernel diperoleh bandwidth optimal sebesar 3.19. Hasil dugaan kurvanya seperti yang disajikan pada Gambar 2.
4.2. Dugaan Selang Kepercayaan
Nilai dugaan selang kepercayaan 95% menggunakan metode bootstrap persentil dan bootstrap terbaik atau disebut juga dengan BCa dapat dilihat pada Gambar 3. Dari Gambar 3 terlihat bahwa selang kepercayaan yang diperoleh dengan metode persentil bootstrap cenderung lebih lebar dibanding selang kepercayaan BCa. Selang kepercayaan yang lebarnya relatif kecil mengindikasikan dugaan kurva sudah cukup baik dalam menduga model regresi.
Gambar 3. Selang kepercayaan 95% dengan bootstrap.
Meskipun selang kepercayaan BCa cenderung lebih baik, namun untuk beberapa nilai dugaan juga cukup lebar yang hampir sama dengan dugaan selang kepercayaan persentil, seperti dugaan selang untuk nilai-nilai awal (untuk x < 0,2) . Hal ini kemungkinan terjadi karena untuk nilai-nilai x kurang dari 0,2 variasi nilai y cukup besar. Dengan variasi nilai y yang cukup besar menghasilkan selang kepercayaan yang relatif sama antara bootstrap persentil dan BCa.
5. KESIMPULAN
Hasil dugaan selang kepercayaan bootstrap terbaik cenderung lebih baik dibandingkan dengan selang kepercayaan bootstrap persentil, kecuali untuk data dengan variasi yang cukup besar keduanya memberikan hasil yang relatif sama.
DAFTAR PUSTAKA
[1] Scott, D.W.1995.Multivariate Density Estimation. John Wiley & Sons, Inc. New York. [2] Nadaraya, E. A. 1964. On estimating regression. Theory of Probability and Its
Applications, Vol. 9, p: 141-142.
[3] Watson, G. S. 1964. Smooth regression analysis. Sankhya Series A, Vol. 26, p: 359-372. [4] Wand M.P and M.C Jones. 1995. Kernel Smoothing. Chapman & Hall. New york. [5] Gentle, G.E. 2002. The Element of Computation Statistics. Springer-Verlag. New York. [6] Efron, B. 1987. Better bootstrap confidence intervals (with Discussion). Journal of the