Aproksimasi Interval Konfidensi Bootstrap

(1)

Aproksimasi Interval Konfidensi Bootstrap

Approximate Confidence Interval Bootstrap

Haeruddin

Program Studi Statistika FMIPA Universitas Mulawarman

Abstract

We consider the problem of constructing approximate confidence intervals for a single parameter based on bootstrap computation percentile of a statistics. The standard approximate based on maximum likelihood



ˆ 



ˆ

z

_ can be quite misleading and inaccurate. In practice, tricks based on transformation are often used to improve their accuracy.

The confidence intervals

[

θˆ

 α

,

θˆ

 1α

]

_{constructed by using this approach arc also based on}

existence monoton transformation and have transformation-respecting property that is not possessed by standard normal approximate.

The advantage of this approach, at least in practicing, is that it is automatically in corporate the transformation without requiring the statistician to think them through for each new application. It is handled by bootstrap computation.

It is shown that the percentile interval is exact whenever the transformation known and it is consistent also by mean of confidence set i.e

P



θ



[

θˆ

 α

,

θˆ

 1α

]





(

1 



)

convergen to 0.

In practice we must use some finite number B reptication, so that in setting these intervals we use Monte Carlo simulation that produce

[

θˆ

 α

,

θˆ

 1α

]

_{as an approximate to the ideal bootstrap interval. All of}

the process are done by a computer program in S-PLUS.

Keywords : Bootstrap, confidence interval, bootstrap percentile, Monte Carlo, transformation.

PENDAHULUAN

Dalam banyak masalah inferensi statistik seorang peneliti tertarik untuk mengkontruksi suatu keluarga himpunan yang memuat nilai parameter yang benar dengan probabilitas yang tinggi. Dalam hal ini yang dikerjakan adalah suatu penaksiran selang (estimasi interval), yakni bagaimana membentuk interval random





 x







atau disingkat

 



,



yang mempunyai peluang tinggi memuat . Misalkan gL(x) dan gu(x) adalah statistik sedemikian hingga

berlaku :

 



g

x

θ

g

x



1 2α

P

_L



_U





Interval random [gL(x); gu(x)] dinamakan interval

konfidensi 1 – 2α untuk parameter  dengan koefisien konfidensi (1 – 2α).

Dalam tulisan ini dipertimbangkan masalah membangun aproksimasi interval-interval konfidensi bootstrap untuk suatu parameter tunggal.

Interval-interval konfidensi exact dapat dikonstruksi hanya dalam kasus parametrik dan dalam sedikit situasi-situasi khusus sehingga umumnya yang dibangun adalah aproksimasi dari interval tersebut. Fokus utama dalam teori asimtotik interval konfidensi adalah apakah cakupan probabilitas suatu interval konvergen ke level nominal interval tersebut.

Dalam banyak kasus, himpunan kepercayaan dikonstruksi dengan mempertimbangkan suatu kuantitas pivotal



_n





_n



X

₁

,...,

X

_n

,

F



berdistribusi Gn. Jika kita dapat menurunkan

θ



dari pertidaksamaan



L

U



1 2α

P





_n







, maka

 



,



merupakan interval konfidensi dengan level 1 -2α. Untuk kasus dimana  parameter lokasi, maka

n



biasanya berbentuk n n

σˆ

θ

θˆ



, dimana

θˆ

_n estimator  dan 2 n

σˆ

estimator varians untuk

θˆ

_n

maka interval konfidensi exact 1 - 2α untuk  adalah:

]

)

(

G

σˆ

θˆ

α),

(1

G

σˆ

θˆ

[

1 n n n 1 n n n



 

_



Untuk mencari kuantitas pivotal seperti di atas dalam suatu masalah yang diberikan biasanya tidak mudah, dengan kata lain tidak mudah mencari



_n dengan Gndistribusi yang diketahui.

Jika Gn tidak diketahui maka interval (1,1) tidak

dapat digunakan sebagai interval konfidensi dan untuk itu digunakan aproksimasi dari Gn. Dalam

pendekatan asimptotik tradisional Gn diganti

dengan limitnya. Jika limit Gn adalah G

(2)

Aproksimasi yang paling banyak dipakai adalah interval aproksimasi normal standar dengan menggunakan Teorema Limit Pusat yakni:

α

z

σˆ

θˆ



(1.2)

Suatu pendekatan interval konfidensi berdasarkan komputasi bootstrap ditulis oleh Efron.

R.Helmers (1995) memberikan perbandingan antara interval konfidensi standar dengan interval konfidensi bootstrap untuk parameter





μ

x

dF(x)

θ

dengan F tidak diketahui. Beberapa teori asimptotik untuk bootstrap dibahas oleh Bickel dan Freedman (1981) tentang keakuratan ditulis oleh Singh (1981).

Hall (1986) memberikan cacah simulasi bootstrap yang dibutuhkan untuk membangun suatu interval konfidensi khusus interval konfidensi persentil-t berdasarkan n sampel distribusi kontinu. Sebagai pedoman Efron dan Tibshirani menyarankan untuk mengambil B antara 50 sampai dengan 200 yang cukup memberikan estimasi yang baik dari

se

F

 

θˆ

untuk interval konfidensi bootstrap dibutuhkan B yang lebih besar lagi.

Dalam tesis ini dibahas tentang pengkonstruksian interval konfidensi berdasarkan persentil bootstrap yakni interval persentil BP dan BC. Kedua interval ini dibangun didasarkan kepada asumsi adanya transformasi monoton , namun untuk interval BC asumsi yang dipakai lebih umum dari interval BP yaitu adanya suku koreksi bias z0.

Dalam penelitian ini akan dilihat tingkat akurasi kedua interval persentil tersebut dan perbandingannya dengan interval aproksimasi normal standar. Sebagai penunjang diberikan simulasi perbandingan interval-interval persentil dengan interval berdasarkan aproksimasi normal standar dan dengan aproksimasi normal berdasarkan transformasi.

PENGERTIAN DASAR BOOTSTRAP Prinsip Dasar Bootstrap

Definisi

Jika X = (X1, X2, …, Xn) sampel random dari

F maka

X

*





X

₁*

,

X

*₂

,...,

X

*_n



adalah sampel random bootstrap yaitu sampel yang diperoleh dari X secara random dengan pengembalian

* n * 2 * 1

,

X

,...,

X

independen dan identik

berdistribusi bersyarat terhadap X.

Prosedur bootstrap dapat diterapkan untuk kasus non parametrik maupun parametrik. Dalam kedua kasus tersebut, inferensi didasarkan pada suatu sampel X dan n random iid observasi dari populasi.

Dalam kasus non-parametrik, distribusi sampel Fndiambil dari distribusi populasi F yang

tidak diketahui, Fndisebut distribusi empirik dari

X, yakni fungsi distribusi yang mempunyai massa 1/n untuk setiap titik pada X, sedangkan untuk kasus parametrik F diketahui. Dalam kedua kasus tersebut sampel X* _{diambil dengan resampling}

dari suatu distribusi yang ditentukan sampel asli X.

Prinsip dasar dalam pembentukan sampel dengan metode bootstrap non-parametrik adalah sebagai berikut:

1. Konstruksi distribusi probabilitas dari sampel, yaitu Fn dengan massa 1/n pada

setiap titik x1, x2, …, xn.

2. Dengan Fn tetap, ambil sampel random

dengan ukuran n dari Fn sebut

X

*_i dengan:

n ind * i * i * i

x

,

X

~

F

X



, i = 1, 2, 3, …, n. Selanjutnya sampel ini disebut sampel bootstrap,

X

*





X

*₁

,

X

*₂

,...,

X

_n*



3. Aproksimasi distribusi sampling



_n



X,

F

_n



dengan distribusi bootstrap



*_n



X

*

,

F

_n*



Dalam kasus parametrik, F diketahui kecuali parameter yang tidak diketahui. Jadi pada kasus parametrik F diganti dengan F(), suatu anggota

dari klas {F(), 



}. Misalkan

λˆ

estimator

dari  dihitung dari X ditulis (X). maka

 

λˆ

F

n



fungsi distribusi yang diperoleh

dengan mengganti nilai parameter denan estimasi sampelnya.

Misalkan X* _{sampai random dari}

_F

 

_λˆ

n



dan misalkan

λˆ

*

 X

λ

 



menyatakan versi

λˆ

yang dihitung dari X*_{. Maka} *

 

*

λˆ

F



.

Bagian yang sulit dari prosedur bootstrap ini adalah perhitungan yang sebenarnya dari bootstrap. Tiga metode perhitungan yang mungkin, yaitu:

1. Metode 1. Perhitungan secara langsung. 2. Metode 2. Metode perluasan deret Taylor

dapat digunakan untuk memperoleh perkiraan mean dan varians dari distribusi bootstrap R*_.

3. Metode 3. Dengan simulasi Monte Carlo untuk distribusi bootstrap. Dengan merealisasikan X* _{yang dibangun dengan}

mengambil sampel random berukuran n dan Fosebut x*1, x*2, …, x*α, dan histogram yang

bersesuaian dengan nilai



x

*1

,

F

n

 

,



x

*2

,

F

n



,

...,





x

*n

,

F

n





diambil sebagai perkiraan untuk distribusi bootstrap yang sebenarnya.

Prosedur bootstrap untuk estimasi adalah sebagai berikut:

(3)

1. Estimasi F dengan Fn dan hitung

 

n n

θ

F

θˆ



. 2. Diberikan X1, X2, …, Xn, misalkan * n * 2 * 1

,

X

,...,

X

adalah suatu sampel iid

dengan distribusi Fn. 3. Misalkan







n



* n * 2 * 1 n n * n



b

θˆ

X

,

X

,...,

X



θˆ



adalah

versi bootstrap dari



_n.

4. Distribusi n di bawah F, yaitu F(n)

diestimasi dengan

F

_n

 



*_n , distribusi dari

* n



di bawah Fn.

Untuk menjelaskan metode bootstrap secara umum dipandang n= n(X1, X2, …, Xn) yaitu

besaran yang tergantung dari sampel X = (Xt, X2,

…, Xn) dan fungsi distribusi F. Untuk kasus

khusus dapat diambil



n



n



θˆ

n



θ



,

dimana

θˆ

adalah statistik untuk . Selanjutnya akan dicari distribusi darinsebagai berikut.

 























x

,

x

F

X

,...,

X

,

X

P

x

G

_n _n ₁ ₂ _n

Jelas Gn yaitu fungsi distribusi dari nini tidak

diketahui, karena F tidak diketahui. Dalam hal ini Gnakan diestimasi dengan bootstrap yaitu :

 

x

P





X

,

X

,...,

X



X





G

* n * 2 * 1 n * * n





dimana:



*



n * 2 * 1 *

_X

_,

_X

_,...,

_X

X



adalah sampel bootstrap

dan P* adalah probabilitas yang bersesuaian dengan

Fˆ

_n. Karena X1= x1, X2= x2, …, Xn= xn

diketahui maka X* _dan

n

Fˆ

diketahui, sehingga pada prinsipnya

G

*_ndapat dihitung.

Syarat Bootstrap Bekerja

Diperhatikan kasus khusus yaitu jika = (F) = mean populasi dari F dan

θˆ

_n



X

_n = sampel mean maka



n



n



θˆ

n



θ



dan didapat:

 

x

P





X

,

X

,...,

X



x



G

* _n ₁ ₂ _n n







  









n

X

x



P

n * n







 * n

X

merupakan sampel bootstrap dari distribusi



θˆ

θ



n

n n







, dengan







* i 1 * n

n

X

Teorema 2.1.2 (Singh, Teorema A)

Jika X1, …, Xn sampel iid dengan ukuran n

dari suatu populasi berdistribusi F dan EX2_{< ∞,}

maka







n X μ x



P



n



X X



x



0 P n   * *n  n   a.s.

Teorema 2.13

Andaikan X1, …, Xn p-vektor random iid

dengan distribusi

F





_2,_p dan



X

μ



n







dimana

X



n

1

ΣX

_i dan

 

X

μ

E

₁



HBOOT versi bootstrap dari Hn maka

HBOOTkonsisten.

Dua teorema di atas menunjukkan bahwa bootstrap dengan sampel iid bekerja dengan baik untuk kasus

θˆ



X

_n.

Simulasi Monte Carlo

Diberikan sampel random X1, X2, …, Xndari

distribusi F. Estimasi bootstrap memerlukan sampel bootstrap

X

₁*

,

X

*₂

,...,

X

*_n dari distribusi Fn. Untuk distribusi dari kuantitas statistik



X

1

,

X

2

,...,

X

n



n





, estimator bootstrap

merupakan distribusi bersyarat



*



n * 2 * 1 *

_X

_,

_X

_,...,

_X

n n





, jika diberikan

sampel (X1, X2, …, Xn). Pada prinsipnya

distribusi ini diketahui. Untuk sampel X1, X2, …,

Xndari n bilangan yang berbeda, ada (2n – 1)!/(n

– 1)!n! sampel bootstrap yang berbeda, jadi distribusi



*_n dapat diperoleh kembali dengan enumerasi lengkap. Untuk n = 10 biasanya mendekati 100.000 sampel bootstrap yang dapat dienumerasi. Jadi metode ini sulit bahkan tidak mungkin untuk dikerjakan, untuk itu kita gunakan suatu metode yang sangat populer saat ini yaitu metode Monte Carlo.

Proses kerja simulasi Monte Carlo adalah sebagai berikut:

1. Dengan bantuan komputer, bangun suatu sampel iid



X

₁*

,

X

*₂

,...,

X

*_n



dengan ukuran n, menurut distribusi Fn.

2. Karena Fndiketahui, juga Fndiketahui dan

dapat dihitung



X

,

X

,...,

X

*

Fˆ



n * 2 * 1 * n n





3. Ulangi bagian (1) dan (2) sebanyak B kali, sehingga diperoleh



*_n_,₁

,



*_n_,₂

,...,



_n*_,_B. 4. Kumpulkan nilai



*_n_,₁

,



*_n_,₂

,...,



*_n_,_B dan

hitung distribusi empiris

 



_

B









i * i n, B n,

I

x

B

1 x

F

.

Misalkan distribusi bootstrap dai H adalah:

 

x

P



n



θˆ

θ



x



H

* _n n 1/2 * BOOT







Maka pendekatan Monte Carlonya adalah:

 



_

B













i n * n (B) BOOT

_B

I

n

θˆ

θ

x

1 x

H

Babu dan Singh (dalam Shao (1995)) menunjukkan bahwa aproksimasi monte carlo

(4)

(B) BOOT

H

adalah second order accurate sebagai estimator dari distribusi n, dengan

n 1 n n

σˆ

EX

X







yang diringkas dalam

teorema berikut: Definisi 2.1.4

Jika X1, …, Xn sampel random iid dan



n



n



X



μ

/

σˆ



dan B adalah suatu fungsi

dari n yang memenuhi B/(log log n) → ∞ maka untuk n → ∞,

 

X

H

 

X

0 H

sup

n

(B) _BOOT BOOT x





a.s Interval Konfidensi Himpunan kepercayaan Definisi 2.2.1

Misalkan X1, …, Xn sampel random iid dari

suatu distribusi F yang tidak diketahui dan  = T(F) parameter yang akan dicari interval konfidensinya.

Jika Cn= Cn(X1, …, Xn) subset dari  yang

hanya tergantung pada X1, …, Xndan



θ



C





1 



P

_n (2.2.1)

Definisi 2.2.2

Jika

P



θ



C

_n





1 



maka Cn disebut

sebagai himpunan kepercayaan dengan koefisien kepercayaan 1 – α atau himpunan kepercayaan 1 – α.

Definisi 2.2.3

Level yang diinginkan dalam suatu himpunan kepercayaan disebut level nominal (nominal coverage) yang biasanya diberikan. Biasanya digunakan 1 – α dan 1 – 2α masing-masing sebagai level nominal dari interval konfidensi 1 dan 2 sisi.

Definisi 2.2.4

Misal I interval 1 sisi







,

θ



atau



θ

,





sedemikian hingga

 

θ

I

1 α

P







, maka:

(i) 1 – α disebut cakupan nominal dari I (ii)

P

 

θ



I

disebut coverage sesungguhnya (iii) Coverage error dari I adalah



θ

I

 

1 α



P







Definisi 2.2.5

Jika {an} dan {bn} masing-masing barisan

bilangan real, {Xn} dan {Yn} adalah barisan

variabel random, maka:

a. an = O(bn) jika |an/bn| ≤ untuk semua n dan

suaru konstanta c.

b. an= o(bn) jika an/bn → 0 untuk n → ∞

c. Xn = Op(Yn) jika





ε



0 



M

,



N

sehingga

P



X

_n

/Y

_n



M





ε



n



N

d. Xn = Op(Yn) jika





ε



0 

Lim

_n__



X

_n

/Y

_n









0

.

Dalam pembicaraan selanjutnya dipertimbangkan suatu titik ujung

θ

interval satu sisi yang mengcover 1 – α.



θ









1 

α,





P

Definisi 2.2.6

Suatu himpunan konfidensi Cn dikatakan

akurat asimptotik berorder k jika:



 



 

-1/2 n

1 α

O

n

C

θ

P







Akibat 2.2.7

Titik konfidensi aproksimasi

θ

disebut akurat asimptotik tingkat 1 (first order accurate) jika



_θ



₁

_α

_O

 

_n

-1/2

P









Titik konfidensi aproksimasi

θ

disebut akurat asimptotik tingkat 2 (second order accurate) jika



_θ



₁

_α

_O

 

_n

-1

P









Definisi 2.2.8

Suatu fungsi distribusi (x) dikatakan simetris jika dan hanya

Ψ

 

x



1 

Ψ

 



x

. Contoh Φ(x), fungsi distribusi normal.

Ekspansi Edgeworth

Dalam pembahasan tentang tingkat akurasi suatu titik konfidensi atau probabilitas cakupan dari daerah kepercayaan, ekspansi Edgeworth dan Cornish Fisher sangat besar kontribusinya. Untuk itu dalam pasal ini diberikan secara ringkas tentang ekspansi-ekspansi tersebut, khususnya untuk statistik yang akan dibahas dalam bab III.

Misalkan X1, X2, …, Xn variabel random iid

dengan = μ dan varians σ2_{< ∞. Estimasi dari}_

adalah

θˆ

_n



n

1



X

_i dengan varians n-1_σ2_.

Berdasarkan Teorema Limit Pusat,



θˆ

θ



/σ

n

S

n



n



~ AN(0,1). Hall (1992)

memberikan ekspansi dari distribusi Sn sebagai

deret pangkat dalam n-1/2_yakni:









 

x

..

.

p

n

...

x

p

n

x

Φ

x

/σ

θ

θˆ

n

P

j j/2 1 1/2 n











 



dimana

   

x

_

2π

1/2

eks



_

x

2

/2





adalah fungsi

densitas normal standar dan

Φ

 

x



φ

 

u

du

  



fungsi distribusi normal standar

Formula (2.3.1) dikenal sebagai ekspansi Edgeworth. Fungsi pj adalah polinomial dengan

koefisien tergantung pada kumulan dari

θˆ

n



θ

.

Untuk mencari polinom-polinom dibuktikan dulu beberapa lemma berikut:

(5)

Lemma 2.3.1

Jika X1, X2, …, Xn adalah sampel iid dari

distribusi dengan mean μ dan variansi



X

θ



/σ

Y

,

σ

2

_

_

_

_

_dan



θˆ

θ



/σ

n

S

n



n



maka

 









n Y Sn

t

n

2 / 1

/





. Definisi 2.3.2

Untuk suatu variabel random umum Y dengan fungsi karakteristik χY, kumulan ke j, κj, dari Y

didefinisikan sebagai koefisien dari

 

it

j

j!

1

dalam ekspansi dari deret pangkat log χY(t)

dimana

 

















κ

it

...

j!

1 ...

it

κ

2

1 it

κ

exp

t

j j 2 2 1 Y



(2.3.2) Lemma 2.3.3

Untuk variabel random Y seperti dalam definisi diatas berlaku:

 

   

 





 

2

 

2

 

4





4 2 2 3 4 4 3 3 2 3 3 2 2 2 1

6

12

3 Y

E

4 Y

E

κ

EY

Y

E

Y

E

2 Y

E

Y

E

3 Y

E

κ

Y

Var

Y

E

Y

E

κ

Y

E

κ

EY

Y

E

Y

E

Y

E

Y

E

Y

E

Y

E



























Lemma 2.3.4

Untuk Sn dan Y seperti didefinisikan

sebelumnya maka:

 



t22



Sn

it

e

χ

(2.3.3) dengan:

 



1 n

r

it

n

r

it

...

n

j/2

r

_j

it



2 1 1 1/2   

_







dimana:

rj polinomial dengan koefisien real dengan

derajat 3j, tergantung pada κ3, κ4, …, κj+2 dan

tidak tergantung pada n yaitu:

 

2 6 3 4 4 2 3 3 1

u

1/3!

κ

u

;

r

u

1/24κ

u

1/72κ

u

r





Lemma 2.3.5

Diberikan lemma 2.3.2 dan didefinisikan

   

t22 j j itx

_dR

_x

_r

_x

_e

e

   





dimana Rj(x) adalah

fungsi yang memiliki transformasi Fourier-Stieltjes sama dengan

 

t22

j

x

e

r

 maka distribusi

Sn dapat ditulis sebagai:





 

x

...

R

n

...

x

R

n

x

Φ

x

S

P

j j/2 1 1/2 n







 

Teorema 2.3.6 (Metode Delta untuk Ekspansi Edgeworth)

Jika Sn dan Tn dua statistik yang

masing-masing berdistribusi Normal Asimptotik yang memenuhi

S

_n



T

_n



O

_p

 

n

j/2 untuk setiap j ≥ 1 maka Ekspansi Edgeworth distribusi Sn dan Tn

hanya berbeda dalam suku-suku berorder n-j/2_atau

lebih kecil, yakni:



 



 

j/2 p n n

x

P

T

x

O

n

S

P









 Ekspansi Cornish-Fisher Misalkan

S

n



n



θˆ

n



θ



/σ

dan



θˆ

θ



/

σˆ

n

T

_n



_n



merupakan statistik yang dapat diekspansi dalam Ekspansi Edgeworth Misal

  



 

   







 









k 1 i 1)/2 (k -i 1/2 n n

n

O

x

p

n

x

Φ

x

S

P

x

H

~



dan

  



 

_

   





 









k 1 i 1)/2 (k -i 1/2 n n

n

O

x

q

n

x

Φ

x

S

P

x

G



Maka kuantil dari

H

~

 

x

dan Gndapat diekspansi

sebagai deret dalam n-j/2_berikut:

 

_

 





 





k 1 i 1)/2 (k -i 1/2 1 -n

x

z

n

p

z

O

n

H

~



_ _ _

 

_

 





 





k 1 i 1)/2 (k -i 1/2 1 -n

y

z

n

q

z

O

n

G



_ _ _

Dengan zα, xα, yαdidefinisikan sebagai:

  

z

α

P

S

n

x

α

 

P

T

n

y

α



Φ













dan

pj1dan qj1 polinom ganjil(genap) dengan derajar

j+1 jika j genap(ganjil) dan dapat dinyatakan dalam pjdan qj.

Ekspansi (2.4.1) dan (2.4.2) disebut sebagai ekspansi (invers) Cornish-Fisher.

Teorema 2.4.1

Diberikan Ekspansi Edgeworth dari

H

~

n

 

x

dan Cornish-Fisher

H

~

1

 

x

n

 _{seperti dalam}

definisi dimuka, maka:

 

x

p

 

x

p

₁₁





₁ , dan

   

x

p

x

1/2xp

 

x

p

 

x

p

2 2 1 ' 1 1 21





(2.4.3)

(6)

INTERVAL KONFIDENSI BOOTSTRAP Motivasi Interval Bootstrap

Jika

I



 

θ

,

θ

interval konfidensi untuk kuantitas  dan  fungsi monoton naik yang diketahui maka sangat ideal bila kita berharap bahwa

 

 

I





 

θ

,



 

θ



merupakan interval konfidensi untuk (). Sebaliknya jika

 





θ

,



θ



merupakan interval dari() maka invers dari masing-masing titik ujung interval tersebut merupakan interval dari . Dengan kata lain  bersifat transformasi repecting. Interval yang dihasilkan oleh pendekatan di atas didasarkan asumsi adanya tansformasi 

sedemikian hingga

 



ˆ

θ

x



~

AN

 

0,1

P







.

Kesulitan dalam pendekatan metode standar berdasarkan transformasi adalah bahwa kita harus mengetahui transformasi yang berbeda untuk setiap parameter yang akan diestimasi.

Diinginkan membangun interval konfidensi dengan sifat transformasi respecting namun tanpa perlu mencari/mengetahui transformasi tersebut. Dengan kata lain metode ini dapat dipandang sebagai metode yang selalu “tahu” transformasi yang diperlukan. Metode ini dikerjakan dengan perhitungan bootstrap, tanpa perlu mengetahui.

Interval Persentil BP

Misalkan

θˆ

_n estimator dari  dari suatu distribusi F dan

θˆ

*n estimator bootstrap dari 

berdasarkan

X

*₁

,

X

*₂

,

...,

X

*_n sehingga fungsi distribusi kumulatif dari

θˆ

*_n adalah:

 





_



 

 







* * θˆ * n * BOOT

x

P

θˆ

x

f

θˆ

d

θˆ

K

(3.2.1)

Maka interval persentil bootstrap didefinisikan sebagai:

 











*(1α)



n (αα * n 1 BOOT 1 BOOT

α

,

K

1 α

θˆ

,

θˆ

K

 

_

_

 _(3.2.2)

dengan

K

_BOOT1

 

α



θˆ

*(_n) adalah persentil ke 100.α dari distribusi bootstrap. Ekspresi (3.2.2) merujuk kepada situasi dimana replikasi bootstrap tak hingga (bootstrap ideal). Dalam praktek kita harus menggunakan cacah replikasi B yang berhingga, sehingga didapat interval aproksimasi persentil bootstrap:







 









*(1 α)



n *(α( n 1 BOOT 1 BOOT

θˆ

,

θˆ

α

1 K

,

α

K

,

  







BP BP



dimana

θˆ

*(n ) 

adalah persentil ke 100.α dari nilai-nilai

θˆ

*

 

b

yakni nilai ke B.α dalam daftar urutan B replikasi dari

θˆ

*. Jika B.α tidak bulat maka quantile empirik α dan 1 – α didefinisikan masing-masing sebagai nilai terbesar ke k dan ke (B+1-k) dari

_θˆ

*

 

b

_{dengan k = [(B+1).α],}

bilangan bulat terbesar ≤ (B+1).α.

Karena sifat similaritas diantara batas-batas interval untuk pembicaraan selanjutnya hanya dibahas batas bawah interval saja.

Teorema 3.2.1

Jika ada transformasi naik (x) sedemikian hingga untuk semua F (dan

Fˆ

) yang mungkin berlaku:

 



ˆ

θ

x

  

ψ

x

P











dimana

 

ˆ



 

θ

dan (x) adalah fungsi distribusi kontinu, naik dan simetris maka: Jika  dan  diketahui maka batas bawah exact untuk adalah:



α



1 EX

ˆ

z

θ



_



_



_{, dengan}

_z

_ψ

1

 

_α

α



 Teorema 3.2.2

Jika asumsi seperti pada teorema 3.2.1 dipenuhi untuk

Fˆ

maka:

EX BP

θ



. Dimana

θ

_BP batas interval persentil bootstrap.

Teorema 3.2.2 menunjukkan bahwa batas bawah interval persentil bootstrap adalah exact untuk semua n jika asumsi pada teorema 3.2.1 tepat dipenuhi (dipenuhi secara exact). Umumnya asumsi tersebut dipenuhi secara asimptotik untuk n besar maka batas bawah persentil tersebut adalah valid secara asimptotik dan penampilannya tergantung pada bagaimana baiknya aproksimasi tersebut. Namun, biasanya tidak linier dan bias

 

θ

ˆ



 

tidak menuju nol secara cepat untuk n → ∞. Akibatnya asumsi pada  dipenuhi secara aproksimasi, aproksimasi ini baik hanya untuk n cukup besar. Aproksimasi yang biasa dipakai adalah aproksimasi normal.

Interval Persentil BC

Interval Persentil BC (Bias Corrected) diturunkan dengan asumsi yang lebih umum dari teorema 3.3.1 dengan memasukkan suku koreksi bias dalam asumsi tersebut.

Teorema 3.3.1

Andai ada transformasi naik  sedemikian hingga untuk semua F (dan

Fˆ

) yang mungkin memenuhi.

P





ˆ





 

θ



z

₀



x

  



ψ

x

dengan z0konstanta yang mungkin tergantung

(7)

maka:

θ

_EX



_

1



_

ˆ



z

₀



z

_α



(3.3.1) Teorema 3.3.2

Misalkan ada  seperti pada teorema 3.3.1, maka konstanta bias z0adalah:

 



BOOT n



1 0

ψ

K

θˆ

z



 (3.2.2) Teorema 3.3.3

Dengan

θ

_EX seperti yang didapat di atas maka

θ

_EX dapat dinyatakan sebagai:







α 0



1 BOOT EX

K

Φ

z

2z

θ







Untuk membuktikan teorema di atas dibuktikan dulu lemma berikut:

Lemma 3.3.4

Untuk setiap x, 0 < x < 1 berlaku:

 



 

0



1 1 1 BOOT

x

ˆ

ψ

x

z

K





_



_





(3.3.4) Teorema 3.3.5

Batas bawah interval Persentil BC untuk  adalah:

 











BOOT n



1 -α 1 BOOT BC

K

ψ

z

2ψ

K

θˆ

θ







Konsistensi

Berdasarkan konsistensi dari distribusi bootstrap maka dapat ditunjukkan konsistensi himpunan kepercayaan bootstrap.

Teorema 3.4.1

Jika

H

n



P



n



θˆ

n



θ





x



, HBOOT(x)

bootstrap dari Hn, dan andaikan bahwa HBOOT

konsisten serta

lim

_n_

ρ





H

n

,

H



untuk suatu

fungsi distribusi kontinu, stricly increasing dan simetri H maka:

BC BP

,

θ

adalah konsisten.

Perbandingan Teoritis Interval Konfidensi

Dalam pasal ini akan dilihat tingkat akurasi dari interval-interval konfidensi yang diterangkan di muka dan yang dihasilkan dengan pendekatan normal. Untuk membandingkan sifat-sifat tersebut maka distribusi dari statistik dan titik kritisnya terlebih dahulu dinyatakan dalam ekspansi Edgeworth dan ekspansi Cornish Fisher.

Titik kritis interval konfidensi

Dalam penjelasan ini diperhatikan kasus dimana X1 iid dan  = μ = EX1,

θ

n



X

n dan







1 _i

n

X

. Andaikan g terdifferensial dan kontinu pada p _dan



_g

 

_μ



₀

_{maka varians}

asimptotik dari

n



θˆ

n



θ



dan estimatornya

masing-masing adalah:

 

μ

'

g

 

μ

g

n

σ

2 -1 n









dan

 

n

 

n -1 2 n

n

g

X

'

ˆ

g

X

σˆ









dimana Σ = var(Xi) dan



X

-

X



X

-

X



'

n

ˆ

n 1 n 1 -1

_





Lemma 3.5.1 Misalkan Gn dan

H

n

~

masing-masing distribusi pivotal studentized





ˆ 

_n





/



ˆ

_n dan variabel standardized





ˆ 

_n





/



_n. Misalkan

 

α

H

~

x

1 n α 



,

y

G

1

 

α

α 



dan

 







1

z

[analog untuk indeks 1 – α],

BOOT

H

~

versi bootstrap dari

H

~

n

maka batas bawah

θ

_NOR,

θ

_EX,

θ

_BP dan

θ

_BC masing-masing adalah: (i)

θ

_NOR



θˆ

_n



σˆ

_n

z

₁__α



θˆ

_n



σˆ

_n

Φ

1



1 

α



(ii)

θ

_EX



θˆ

_n



σˆ

_n

y

₁__α



θˆ

_n



σˆ

_n

G

1



1 

α



(iii)

θ

_BP



θˆ

_n



σˆ

_n

xˆ

_α



θˆ

_n



σˆ

_n

H

~

1_BOOT

 

α

(iv)

θ

_BC



θˆ

_n



σˆ

_n

xˆ

 



_BC



θˆ

_n



σˆ

_n

H

~

1_BOOT

 

α

_BC dengan

α

_BC



Φ



z

_α



2 zˆ

₀



,

 



BOOT n



1 0

Φ

K

θ

zˆ

_



Ekspansi Edgeworth dan Ekspansi Cornish Fisher

Gn(x) dan

H

~

n

 

x

dapat diekspansi Ekspansi

Edgeworth sebagai:

 

   

 

3/2 2 1 1 1/2 n

n

O

x

q

n

x

q

n

x

Φ

x

G

  







(3.5.5)

 

   

 

3/2 2 1 1 1/2 n

n

O

x

p

n

x

p

n

x

Φ

x

H

~

  







(3.5.6)

dengan ekspansi (invers) Cornish Fisher dari

 

α

G

y

1 n α 



dan

x

_α



H

~

_n1

 

x

adalah:

 

   

 

3/2 21 1 11 1/2 -1 n

n

O

x

q

n

x

q

n

z

G

y

  

_









  (3.5.7)

 

   

 

3/2 21 1 11 1/2 -1 n

n

O

x

p

n

x

p

n

z

H

~

x

  

_









  (3.5.8)

(8)

 

   

 

3/2 2 1 1 1/2 BOOT

n

O

x

qˆ

n

x

qˆ

n

x

Φ

x

G

  

_







(3.5.9)

 

   

 

3/2 2 1 1 1/2 BOOT

n

O

x

pˆ

n

x

pˆ

n

x

Φ

x

H

~

  







(3.5.10)

 

   

 

3/2 21 1 11 1/2 -1 BOOT

n

O

x

qˆ

n

x

qˆ

n

z

G

yˆ

  









  (3.5.11)

 

   

 

3/2 21 1 11 1/2 -1 BOOT

n

O

x

pˆ

n

x

pˆ

n

z

H

~

xˆ

  









  (3.5.12) Lemma 3.5.2

Dari hasil ekspansi-ekspansi di atas maka titik-titik kritis

θ

_NOR,

θ

_EX,

θ

_BP dan

θ

_BC dapat dinyatakan dalam ekspansi-ekspansi berikut: (i)

θ

_NOR



θˆ

_n



σˆ

_n

Φ

1



1 

α





θ

_n



σˆ

_n

z

₁__α (ii)





 



1



p α -1 11 1/2 α -1 n n 1 n n EX

O

z

q

n

z

σˆ

θˆ

α

1 G

σˆ

θˆ

θ

  











n

(iii)

 



1



p α -1 11 1/2 α -1 n n -1 BOOT n n BP

O

z

pˆ

n

z

σˆ

θˆ

α

H

~

σˆ

θˆ

θ

 

_









n

(iv)

 





















   1 p α -1 11 1/2 α -1 1 1/2 α -1 n n BC -1 BOOT n n BC

O

z

pˆ

n

z

pˆ

2 n

z

σˆ

θˆ

α

H

~

σˆ

θˆ

θ

n

Tingkat Akurasi Interval Konfidensi Bootstrap

Dalam pasal ini akan ditunjukkan bahwa interval konfidensi Persentil BP dan BC mempunyai tingkat akurasi pertama (first order accurate). Disamping itu juga ditunjukkan bahwa Interval bootstrap BC lebih baik dari aproksimasi normal ditinjau dari coverage error dari interval tersebut.

Teorema 3.5.3

Jika

θ

_BP,

θ

_BC adalah interval-interval bootstrap seperti pada lemma 3.5.1 maka:









 

1/2 BP

,

1 α

O

n

θ

P

_

_

_

_

_

 _dan









 

1/2 BC

,

1 α

O

n

θ

P

_

_

_

_

_



Coverage Error Interval Konfidensi

Interval-interval satu sisi yang dihasilkan oleh metoda bootstrap persentil BP, BC dan Aproksimasi Normal adalah dari tingkat akurasi

pertama. Ketiga interval tersebut dapat dibandingkan dengan melihat error dalam probabilitas cakupannya.

Untuk titik kritis Bootstrap Persentil:





 























_H

~



_α

σˆ

θ

θˆ

P

θ

1 BOOT n BP

P



2α



 

α

_O

_{ }

_n

1

n

6 z

1 z

3

1 _

_



_











(1)

Untuk titik kritis Bootstrap BC:









 



  

1 1 α 1 1/2 α BP θ P z n p z 2p 0 On θ P _ _ _ _  _ _ 





 

α

_{ }

1 2 α _O_n n 6 z 2 z 1     







(2)

Untuk titik kritis dengan pendekatan normal:



























_α n NOR

z

σˆ

θ

θˆ

P

θ

P





 

α

_{ }

1 2 α

_O

_n

n

6 z

1 2z

1 













(3) Misalkan

e

  





P







 



1 





error dalam probabilitas cakupan untuk batas bawah kepercayaan



. Maka dari (1), (2) dan (3) didapat:

  



 

1 α n NOR BP

θ

Α

z

O

n

θ

 e





e

dan



  

 

1 α n BC NOR

θ

Α

z

O

n

θ

_{ e}

_



e

dengan

 





 

n

6 z

φ

1 z

γ

z

Α

α 2 α α n





Dengan asumsi γ ≠ 0, Bila 2

_

1



z

maka

 



0 

_n

z

_ sehingga bootstrap BC lebih baik dari aproksimasi normal yang lebih baik dari bootstrap persentil BP ditinjau dari harga mutlak dari error probabilitas cakupan.

APLIKASI DAN SIMULASI Teori Asimptotik Koefisien Korelasi

Dalam bab ini diberikan contoh penggunaan dari metode penkonstruksian masin-masing interval yang diterangkan pada Bab III untuk koefisien korelasi ρ dari (X,Y). Misalkan (Xi,Yi),

…, (Xn,Yn) adalah n sampel random iid

berdistribusi bivariat dari suatu populasi dengan fungsi distribusi tidak diketahui F pada

2



dengan EX1 = μx= dan EY1 = μY, var(X1) =

2

x



, cov(X,Y) = σXY. Misalkan ρ = ρ(F)

koefisien korelasi dari (X,Y) parameter yang akan diestimasi yang didefinisikan sebagai:

(9)









 





₂ ₂



1/2 Y X XY

EY

E

,

EX

X

E

EY

Y

EX

X

E

σ

ρ





(4.1)

Dengan

ρˆ

_n estimator dari ρ yakni koefisien korelasi sampel:

















2 1/2 n 2 n n n

Y

,

X

n

1 Y

Y

X

n

1 ˆ













_







n



(4.2)

Yang dapat dihitung bila nilai observasi diberikan.

Teorema 4.1

Koefisien korelasi sampel

ρˆ

_n merupakan estimator konsisten konsisten dari ρ yakni jika

 







 







2

_,

₀

2

0 E

X

E

Y

, maka









σ,

n

ρˆ

a.s n . Bukti:

(i) Karena E(X2_{) < ∞ maka dengan SLLN}

2 X a.s 2 n X a.s n

μ

X

μ

X











(1) Akibatnya:



X

μ



0

0 μ

X

a.s X n a.s X n















Telah diketahui bahwa:





2 X

σ

a.s

2 X

μ

2 X

n

1 X

2μ

2 X

n

1 X

μ

n

X

n

1 

















Dengan Lemma Slutsky

2 X a.s 2 n 2 2 nX

X

σ

n

1 S











dan

dengan mengambil g(x) = x1/2 _didapat:

X a.s

nX

σ

S





(2)

(ii) Analog dengan (i) didapat

Y a.s

nY

σ

S





(3)

(iii)

X

_n

Y

_n





a.s

μ

_X

μ

_Y (Dengan Lemma Slutsky)







XY

σ

a.s

Y

μ

X

μ

Y

X

μ

X

n

1 Y

μ

XY

n

1 Y

μ

n

Y

X

μ

n

X

n

1 





















Maka dengan Lemma Slutsky:

Y X XY a.s

_σ

_μ

XY

n

1 _

_

_

_

(4)









XY a.s n n n n Y n X n

σ

Y

X

Y

n

1 X

X

n

1 Y

XY

n

1 μ

Y

μ

X

n

1 













(5)

Dari (1) sampai (5) dan dengan Lemma Slutsky maka didapatkan bahwa:

σ

ρˆ

a.s

n





Misalkan



n



n



ρˆ

n



ρ



kuantitas statistik

maka fungsi distribusi Exact dari



_n adalah

 

x

P



n



ρˆ

ρ



x



G

1/2 _n

n







untuk -∞ < x <

∞. Karena F tidak diketahui maka Gn tidak

diketahui, sehingga perlu diestimasi. Teorema 4.2 Jika

EX

₁4





,

EY

₁4





maka





d

 

2 n

ρ

N

0,

τ

ρˆ

n







Bukti:

Misalkan Z1=



X

₁

,

X

₁2

,

Y

₁

,

Y

₁2

,

X

₁

Y

₁



adalah iid

dan μ=



EX

₁

,

EX

₁2

,

EY

₁

,

EY

₁2

,

EX

₁

Y

₁



Dengan Teorema Limit Pusat Lindeberg-Levy untuk kasus multivariat, maka untuk {Zi}, I = 1,

2, …, n iid berdistribusi bersama F dan EZ1 = μ,

Var(Z1) = Σ, maka:

 



















_

_Z

_

_μ

_N

_0,

n

1 n

d i

Dengan Σ matriks varians-covarians simetrik:

 





















 





















 





















 





















 

                 XY Var XY , Y Cov XY Y, Cov XY , X Cov XY X, Cov XY , Y Cov Y Var Y Y, Cov Y , X Cov Y X, Cov XY Y, Cov Y Y, Cov Y Var Y , X Cov Y X, Cov XY , X Cov Y , X Cov Y , X Cov X Var X X, Cov XY X, Cov Y X, Cov Y X, Cov X X, Cov X Var 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

Dengan elemen dari Σ adalah: 1)

Var

  

X



E

X

₁



EX

₁





σ

2_X 2)

Cov



X,

X

2

 



E

X

₁3



EX

₁3

 



E

X

₁3



μ

_X3



μ

_X



_X2



2 X X 30



μ



 M

3)

Var

  

X

2



E

X

₁2



EX

₁2

 



E

X

3₁

-

μ

3_X

-

μ

_X

σ

2_X



4 X 2 X 2 X 30 X 40

4μ

M

4μ

σ

M







4)

Cov



X,

Y

 



E

X

₁



μ

_X



Y

₁



μ

_Y





ρσ

_X

σ

_Y 5)

Cov



X

2

,

Y

 



E

X

₁2



σ

2_X



μ

_X2





Y

₁



μ

_Y



Y X X 21

2ρ

σ

M







6)

Var

  

Y



E

Y

₁



μ

_Y





σ

_Y 7)

Cov



X,

Y

2





M

₂₁



2ρ



_X

σ

_X

σ

_Y (Analog dengan 5)

(10)

8) Cov



X2,Y2

 

E X₁2 σ2_X μ_X2



Y₁μ_Y _Y2



2 Y 2 X Y X Y X 12 X 21 Y 22

σ

μ

4μ

M

2μ

M

2μ

M









9)

Cov



Y,

Y

2



 M

₀₃



μ

_Y



_Y2 (Analog dengan (2)) 10)

Var

 

Y

2



M

₀₄



4μ

_Y

M

₀₃



4μ

2_Y

σ

2_Y



σ

_Y4 (Analog dengan (3)) 11)

Cov



X,

XY

 



E

X

₁



μ

_X



X

₁

Y

₁



EX

₁

Y

₁



Y X X 2 X Y 21

μ

σ

ρμ

σ

M







12) Cov



X2,XY

 

 EX₁2 _x2μ2_x





X₁Y₁EX₁Y₁



Y X 2 X 2 X Y X Y 2 X 21 X 30 Y 31

σ

2ρρ

σ

μ

2μ

σ

ρσ

M

3μ

M

μ

M









13)

C

ov



Y,

XY





M

₁₂



μ

_X

σ

_Y2



ρμ

_X

σ

_X



_Y (Analog dengan 11) 14)





Y X 2 Y 2 Y Y X 3 X X 12 Y 03 X 13 2

σ

2ρρ

σ

μ

2μ

σ

ρσ

M

3μ

M

μ

M

XY

,

Y

Cov









(Analog dengan 12) 15)

_

  

_



Y X Y X 1 1 1 1 1 1

μ

σ

ρσ

Y

X

E

Y

EX

Y

X

E

XY

Var









21 M Y 2μ 12 M X 2μ 2 Y σ 2 X μ 2 X σ 2 Y μ 22 M      2 2 X 2 Y X Y X

μ

σ

ρ

σ

2ρ





_Y Dengan

M

_ab



E



X



μ

_X

 

a

Y



μ

_Y



b Misalkan

q

T





q

_1,

q

₂

,

q

₃

,

q

₄

,

q

₅



















2



_i _i i 2 i

₂

X

Y

1 ,

Y

n

1 ,

Y

,

X

n

1 ,

X

Maka (4.3) dapat ditulis sebagai:



q









N



0,





n

_

d

(4.4)

Definisikan fungsi

r

 

:



2





d



sedemikian hingga koefisien korelasi dapat dibentuk sebagai suatu fungsi rata-rata observasi, yakni:

 

_

_{ }

_

_1/2 2 3 4 1/2 2 1 2 2 1 3 n

q

r

ρˆ





dan (4.1)

dapat ditulis sebagai

ρ



r

 

μ

.

Karena r(.) kontinu dan terdifferensial, dengan menggunakan ekspansi Taylor multivariat maka didapat bentuk berikut: Efron & Tibshirani, 1993)

   



  

i i n i 5 1 i i i

q

μ

R

q

r

μ

q

μ

r

q

r















 (4.5)

dimana Rn, suku sisa dengan order lebih kecil dari

(qi – μi) i = 1, 2, 3, 4, 5.

Misalkan



r

  

μ

T

q



μ



sebagai perkalian vektor dari suku kedua dari persamaan di sebelah kanan (4.5), kemudian persamaan itu dikalikan dengan

n

dan ditulis:





  



n T n

ρ

r

μ

q

μ

n

R

ρˆ

n











Dari (4.4)

n



q







~

AN



0,





, maka dengan “Cramer Wold device” (Teorema 2.5.5) dapat disimpulkan:

  



d

 

2

τ

0,

N

μ

q

μ

r

n



T







dan varians



2 dapat dicari dengan metode delta:

 

μ

r

 

μ

r

τ

2

_

_

T

_

_

(4.7)

Karena

n



q



μ



asimptotik normal dan Rn

berorder lebih kecil dari (q – μ) maka

0 n

_

_

d

n

R

, sehingga dengan menggunakan lemma Slutsky pada (4.6) maka:





d

 

2

n

ρ

N

0,

τ

ρˆ

n







Dari (4.7), dengan menghitung turunan parsial dari r(q) untuk q = μ didapat:

 

_











_



_







Y X 2 Y Y X Y 2 Y Y X Y 2 X X T

σ

1 ,

2σ

ρ

,

σ

ρμ

2σ

ρ

,

σ

μ

σ

ρμ

μ

r

 



1 2 3 4 5



T

_τ

_,

_τ

_,

_τ

_,

_τ

_,

_τ

μ

r







dengan: 21 Y X 12 2 Y 30 2 X 1

M

σ

1 M

2σ

ρ

M

2σ

ρ

τ







21 Y X X 31 Y X 12 2 X X 22 2 Y 30 2 X X 40 2 X 2

M

σ

2μ

M

σ

1 M

σ

ρμ

M

2σ

ρ

M

σ

ρμ

M

2σ

ρ

τ







12 Y X 03 2 Y 21 2 X 3

_σ

M

1 M

2σ

ρ

M

2σ

ρ

τ







12 Y X Y 13 Y X 03 2 X Y 04 2 Y 21 2 X Y 22 2 X 4

M

σ

2μ

M

σ

1 M

σ

ρμ

M

2σ

ρ

M

σ

ρμ

M

2σ

ρ

τ







03 M 2 X σ X ρμ 30 M 2 Y σ Y ρμ 12 M 2 Y 2σ X ρ 21 M 2 X 2σ X ρμ 03 M 2 Y 2σ ρ 31 M 2 X 2σ ρ 5 τ        