Aproksimasi Interval Konfidensi Bootstrap
Approximate Confidence Interval Bootstrap
Haeruddin
Program Studi Statistika FMIPA Universitas Mulawarman
AbstractWe consider the problem of constructing approximate confidence intervals for a single parameter based on bootstrap computation percentile of a statistics. The standard approximate based on maximum likelihood
ˆ
ˆ
z
can be quite misleading and inaccurate. In practice, tricks based on transformation are often used to improve their accuracy.The confidence intervals
[
θˆ
α,
θˆ
1α]
constructed by using this approach arc also based onexistence monoton transformation and have transformation-respecting property that is not possessed by standard normal approximate.
The advantage of this approach, at least in practicing, is that it is automatically in corporate the transformation without requiring the statistician to think them through for each new application. It is handled by bootstrap computation.
It is shown that the percentile interval is exact whenever the transformation known and it is consistent also by mean of confidence set i.e
P
θ
[
θˆ
α,
θˆ
1α]
(
1
)
convergen to 0.In practice we must use some finite number B reptication, so that in setting these intervals we use Monte Carlo simulation that produce
[
θˆ
α,
θˆ
1α]
as an approximate to the ideal bootstrap interval. All ofthe process are done by a computer program in S-PLUS.
Keywords : Bootstrap, confidence interval, bootstrap percentile, Monte Carlo, transformation.
PENDAHULUAN
Dalam banyak masalah inferensi statistik seorang peneliti tertarik untuk mengkontruksi suatu keluarga himpunan yang memuat nilai parameter yang benar dengan probabilitas yang tinggi. Dalam hal ini yang dikerjakan adalah suatu penaksiran selang (estimasi interval), yakni bagaimana membentuk interval random
x
atau disingkat
,
yang mempunyai peluang tinggi memuat . Misalkan gL(x) dan gu(x) adalah statistik sedemikian hinggaberlaku :
g
x
θ
g
x
1
2α
P
L
U
Interval random [gL(x); gu(x)] dinamakan interval
konfidensi 1 – 2α untuk parameter dengan koefisien konfidensi (1 – 2α).
Dalam tulisan ini dipertimbangkan masalah membangun aproksimasi interval-interval konfidensi bootstrap untuk suatu parameter tunggal.
Interval-interval konfidensi exact dapat dikonstruksi hanya dalam kasus parametrik dan dalam sedikit situasi-situasi khusus sehingga umumnya yang dibangun adalah aproksimasi dari interval tersebut. Fokus utama dalam teori asimtotik interval konfidensi adalah apakah cakupan probabilitas suatu interval konvergen ke level nominal interval tersebut.
Dalam banyak kasus, himpunan kepercayaan dikonstruksi dengan mempertimbangkan suatu kuantitas pivotal
n
n
X
1,...,
X
n,
F
berdistribusi Gn. Jika kita dapat menurunkanθ
θ
θ
dari pertidaksamaan
L
U
1
2α
P
n
, maka
,
merupakan interval konfidensi dengan level 1 -2α. Untuk kasus dimana parameter lokasi, maka
n
biasanya berbentuk n nσˆ
θ
θˆ
, dimanaθˆ
n estimator dan 2 nσˆ
estimator varians untukθˆ
nmaka interval konfidensi exact 1 - 2α untuk adalah:
]
)
(
G
σˆ
θˆ
α),
(1
G
σˆ
θˆ
[
1 n n n 1 n n n
Untuk mencari kuantitas pivotal seperti di atas dalam suatu masalah yang diberikan biasanya tidak mudah, dengan kata lain tidak mudah mencari
n dengan Gndistribusi yang diketahui.Jika Gn tidak diketahui maka interval (1,1) tidak
dapat digunakan sebagai interval konfidensi dan untuk itu digunakan aproksimasi dari Gn. Dalam
pendekatan asimptotik tradisional Gn diganti
dengan limitnya. Jika limit Gn adalah G
Aproksimasi yang paling banyak dipakai adalah interval aproksimasi normal standar dengan menggunakan Teorema Limit Pusat yakni:
α
z
σˆ
θˆ
(1.2)Suatu pendekatan interval konfidensi berdasarkan komputasi bootstrap ditulis oleh Efron.
R.Helmers (1995) memberikan perbandingan antara interval konfidensi standar dengan interval konfidensi bootstrap untuk parameter
μ
x
dF(x)
θ
dengan F tidak diketahui. Beberapa teori asimptotik untuk bootstrap dibahas oleh Bickel dan Freedman (1981) tentang keakuratan ditulis oleh Singh (1981).Hall (1986) memberikan cacah simulasi bootstrap yang dibutuhkan untuk membangun suatu interval konfidensi khusus interval konfidensi persentil-t berdasarkan n sampel distribusi kontinu. Sebagai pedoman Efron dan Tibshirani menyarankan untuk mengambil B antara 50 sampai dengan 200 yang cukup memberikan estimasi yang baik dari
se
F
θˆ
untuk interval konfidensi bootstrap dibutuhkan B yang lebih besar lagi.
Dalam tesis ini dibahas tentang pengkonstruksian interval konfidensi berdasarkan persentil bootstrap yakni interval persentil BP dan BC. Kedua interval ini dibangun didasarkan kepada asumsi adanya transformasi monoton , namun untuk interval BC asumsi yang dipakai lebih umum dari interval BP yaitu adanya suku koreksi bias z0.
Dalam penelitian ini akan dilihat tingkat akurasi kedua interval persentil tersebut dan perbandingannya dengan interval aproksimasi normal standar. Sebagai penunjang diberikan simulasi perbandingan interval-interval persentil dengan interval berdasarkan aproksimasi normal standar dan dengan aproksimasi normal berdasarkan transformasi.
PENGERTIAN DASAR BOOTSTRAP Prinsip Dasar Bootstrap
Definisi
Jika X = (X1, X2, …, Xn) sampel random dari
F maka
X
*
X
1*,
X
*2,...,
X
*n
adalah sampel random bootstrap yaitu sampel yang diperoleh dari X secara random dengan pengembalian* n * 2 * 1
,
X
,...,
X
X
independen dan identikberdistribusi bersyarat terhadap X.
Prosedur bootstrap dapat diterapkan untuk kasus non parametrik maupun parametrik. Dalam kedua kasus tersebut, inferensi didasarkan pada suatu sampel X dan n random iid observasi dari populasi.
Dalam kasus non-parametrik, distribusi sampel Fndiambil dari distribusi populasi F yang
tidak diketahui, Fndisebut distribusi empirik dari
X, yakni fungsi distribusi yang mempunyai massa 1/n untuk setiap titik pada X, sedangkan untuk kasus parametrik F diketahui. Dalam kedua kasus tersebut sampel X* diambil dengan resampling
dari suatu distribusi yang ditentukan sampel asli X.
Prinsip dasar dalam pembentukan sampel dengan metode bootstrap non-parametrik adalah sebagai berikut:
1. Konstruksi distribusi probabilitas dari sampel, yaitu Fn dengan massa 1/n pada
setiap titik x1, x2, …, xn.
2. Dengan Fn tetap, ambil sampel random
dengan ukuran n dari Fn sebut
X
*i dengan:n ind * i * i * i
x
,
X
~
F
X
, i = 1, 2, 3, …, n. Selanjutnya sampel ini disebut sampel bootstrap,X
*
X
*1,
X
*2,...,
X
n*
3. Aproksimasi distribusi sampling
n
X,
F
n
dengan distribusi bootstrap
*n
X
*,
F
n*
Dalam kasus parametrik, F diketahui kecuali parameter yang tidak diketahui. Jadi pada kasus parametrik F diganti dengan F(), suatu anggotadari klas {F(),
}. Misalkanλˆ
estimatordari dihitung dari X ditulis (X). maka
λˆ
F
F
n
fungsi distribusi yang diperolehdengan mengganti nilai parameter denan estimasi sampelnya.
Misalkan X* sampai random dari
F
F
λˆ
n
dan misalkan
λˆ
* X
λ
menyatakan versi
λˆ
yang dihitung dari X*. Maka *
*λˆ
F
F
.Bagian yang sulit dari prosedur bootstrap ini adalah perhitungan yang sebenarnya dari bootstrap. Tiga metode perhitungan yang mungkin, yaitu:
1. Metode 1. Perhitungan secara langsung. 2. Metode 2. Metode perluasan deret Taylor
dapat digunakan untuk memperoleh perkiraan mean dan varians dari distribusi bootstrap R*.
3. Metode 3. Dengan simulasi Monte Carlo untuk distribusi bootstrap. Dengan merealisasikan X* yang dibangun dengan
mengambil sampel random berukuran n dan Fosebut x*1, x*2, …, x*α, dan histogram yang
bersesuaian dengan nilai
x
*1,
F
n
,
x
*2,
F
n
,
...,
x
*n,
F
n
diambil sebagai perkiraan untuk distribusi bootstrap yang sebenarnya.
Prosedur bootstrap untuk estimasi adalah sebagai berikut:
1. Estimasi F dengan Fn dan hitung
n nθ
F
θˆ
. 2. Diberikan X1, X2, …, Xn, misalkan * n * 2 * 1,
X
,...,
X
X
adalah suatu sampel iiddengan distribusi Fn. 3. Misalkan
n
* n * 2 * 1 n n * n
b
θˆ
X
,
X
,...,
X
θˆ
adalahversi bootstrap dari
n.4. Distribusi n di bawah F, yaitu F(n)
diestimasi dengan
F
n
*n , distribusi dari* n
di bawah Fn.Untuk menjelaskan metode bootstrap secara umum dipandang n= n(X1, X2, …, Xn) yaitu
besaran yang tergantung dari sampel X = (Xt, X2,
…, Xn) dan fungsi distribusi F. Untuk kasus
khusus dapat diambil
n
n
θˆ
n
θ
,dimana
θˆ
adalah statistik untuk . Selanjutnya akan dicari distribusi darinsebagai berikut.
x
,
x
F
X
,...,
X
,
X
P
x
G
n n 1 2 nJelas Gn yaitu fungsi distribusi dari nini tidak
diketahui, karena F tidak diketahui. Dalam hal ini Gnakan diestimasi dengan bootstrap yaitu :
x
P
X
,
X
,...,
X
X
G
* n * 2 * 1 n * * n
dimana:
*
n * 2 * 1 *X
,
X
,...,
X
X
adalah sampel bootstrapdan P* adalah probabilitas yang bersesuaian dengan
Fˆ
n. Karena X1= x1, X2= x2, …, Xn= xndiketahui maka X* dan
n
Fˆ
diketahui, sehingga pada prinsipnyaG
*ndapat dihitung.Syarat Bootstrap Bekerja
Diperhatikan kasus khusus yaitu jika = (F) = mean populasi dari F dan
θˆ
n
X
n = sampel mean maka
n
n
θˆ
n
θ
dan didapat:
x
P
X
,
X
,...,
X
x
G
* n 1 2 n n
n
X
X
x
P
n * n
* nX
merupakan sampel bootstrap dari distribusi
θˆ
θ
n
n n
, dengan
* i 1 * nn
X
X
Teorema 2.1.2 (Singh, Teorema A)
Jika X1, …, Xn sampel iid dengan ukuran n
dari suatu populasi berdistribusi F dan EX2 < ∞,
maka
n X μ x
P
n
X X
x
0 P n * *n n a.s.Teorema 2.13
Andaikan X1, …, Xn p-vektor random iid
dengan distribusi
F
2,p dan
X
μ
n
nn
dimanaX
n
1ΣX
i dan
X
μ
E
1
HBOOT versi bootstrap dari Hn makaHBOOTkonsisten.
Dua teorema di atas menunjukkan bahwa bootstrap dengan sampel iid bekerja dengan baik untuk kasus
θˆ
X
n.Simulasi Monte Carlo
Diberikan sampel random X1, X2, …, Xndari
distribusi F. Estimasi bootstrap memerlukan sampel bootstrap
X
1*,
X
*2,...,
X
*n dari distribusi Fn. Untuk distribusi dari kuantitas statistik
X
1,
X
2,...,
X
n
n
n
, estimator bootstrapmerupakan distribusi bersyarat
*
n * 2 * 1 *X
,
X
,...,
X
n n
, jika diberikansampel (X1, X2, …, Xn). Pada prinsipnya
distribusi ini diketahui. Untuk sampel X1, X2, …,
Xndari n bilangan yang berbeda, ada (2n – 1)!/(n
– 1)!n! sampel bootstrap yang berbeda, jadi distribusi
*n dapat diperoleh kembali dengan enumerasi lengkap. Untuk n = 10 biasanya mendekati 100.000 sampel bootstrap yang dapat dienumerasi. Jadi metode ini sulit bahkan tidak mungkin untuk dikerjakan, untuk itu kita gunakan suatu metode yang sangat populer saat ini yaitu metode Monte Carlo.Proses kerja simulasi Monte Carlo adalah sebagai berikut:
1. Dengan bantuan komputer, bangun suatu sampel iid
X
1*,
X
*2,...,
X
*n
dengan ukuran n, menurut distribusi Fn.2. Karena Fndiketahui, juga Fndiketahui dan
dapat dihitung
X
,
X
,...,
X
*Fˆ
n * 2 * 1 * n n
3. Ulangi bagian (1) dan (2) sebanyak B kali, sehingga diperoleh
*n,1,
*n,2,...,
n*,B. 4. Kumpulkan nilai
*n,1,
*n,2,...,
*n,B danhitung distribusi empiris
B
i * i n, B n,I
x
B
1
x
F
.Misalkan distribusi bootstrap dai H adalah:
x
P
n
θˆ
θ
x
H
* n n 1/2 * BOOT
Maka pendekatan Monte Carlonya adalah:
B
i n * n (B) BOOTB
I
n
θˆ
θ
x
1
x
H
Babu dan Singh (dalam Shao (1995)) menunjukkan bahwa aproksimasi monte carlo
(B) BOOT
H
adalah second order accurate sebagai estimator dari distribusi n, dengann 1 n n
σˆ
EX
X
yang diringkas dalamteorema berikut: Definisi 2.1.4
Jika X1, …, Xn sampel random iid dan
n
nn
X
μ
/
σˆ
dan B adalah suatu fungsidari n yang memenuhi B/(log log n) → ∞ maka untuk n → ∞,
X
H
X
0
H
sup
n
(B) BOOT BOOT x
a.s Interval Konfidensi Himpunan kepercayaan Definisi 2.2.1Misalkan X1, …, Xn sampel random iid dari
suatu distribusi F yang tidak diketahui dan = T(F) parameter yang akan dicari interval konfidensinya.
Jika Cn= Cn(X1, …, Xn) subset dari yang
hanya tergantung pada X1, …, Xndan
θ
C
1
P
n (2.2.1)Definisi 2.2.2
Jika
P
θ
C
n
1
maka Cn disebutsebagai himpunan kepercayaan dengan koefisien kepercayaan 1 – α atau himpunan kepercayaan 1 – α.
Definisi 2.2.3
Level yang diinginkan dalam suatu himpunan kepercayaan disebut level nominal (nominal coverage) yang biasanya diberikan. Biasanya digunakan 1 – α dan 1 – 2α masing-masing sebagai level nominal dari interval konfidensi 1 dan 2 sisi.
Definisi 2.2.4
Misal I interval 1 sisi
,
θ
atau
θ
,
sedemikian hingga
θ
I
1
α
P
, maka:(i) 1 – α disebut cakupan nominal dari I (ii)
P
θ
I
disebut coverage sesungguhnya (iii) Coverage error dari I adalah
θ
I
1
α
P
Definisi 2.2.5
Jika {an} dan {bn} masing-masing barisan
bilangan real, {Xn} dan {Yn} adalah barisan
variabel random, maka:
a. an = O(bn) jika |an/bn| ≤ untuk semua n dan
suaru konstanta c.
b. an= o(bn) jika an/bn → 0 untuk n → ∞
c. Xn = Op(Yn) jika
ε
0
M
,
N
sehingga
P
X
n/Y
n
M
ε
n
N
d. Xn = Op(Yn) jika
ε
0
Lim
n
X
n/Y
n
0
.Dalam pembicaraan selanjutnya dipertimbangkan suatu titik ujung
θ
interval satu sisi yang mengcover 1 – α.
θ
1
α,
P
Definisi 2.2.6
Suatu himpunan konfidensi Cn dikatakan
akurat asimptotik berorder k jika:
-1/2 n1
α
O
n
C
θ
P
Akibat 2.2.7Titik konfidensi aproksimasi
θ
disebut akurat asimptotik tingkat 1 (first order accurate) jika
θ
θ
1
α
O
n
-1/2P
Titik konfidensi aproksimasi
θ
disebut akurat asimptotik tingkat 2 (second order accurate) jika
θ
θ
1
α
O
n
-1P
Definisi 2.2.8
Suatu fungsi distribusi (x) dikatakan simetris jika dan hanya
Ψ
x
1
Ψ
x
. Contoh Φ(x), fungsi distribusi normal.Ekspansi Edgeworth
Dalam pembahasan tentang tingkat akurasi suatu titik konfidensi atau probabilitas cakupan dari daerah kepercayaan, ekspansi Edgeworth dan Cornish Fisher sangat besar kontribusinya. Untuk itu dalam pasal ini diberikan secara ringkas tentang ekspansi-ekspansi tersebut, khususnya untuk statistik yang akan dibahas dalam bab III.
Misalkan X1, X2, …, Xn variabel random iid
dengan = μ dan varians σ2 < ∞. Estimasi dari
adalah
θˆ
n
n
1
X
i dengan varians n-1σ2.Berdasarkan Teorema Limit Pusat,
θˆ
θ
/σ
n
S
n
n
~ AN(0,1). Hall (1992)memberikan ekspansi dari distribusi Sn sebagai
deret pangkat dalam n-1/2yakni:
x
..
.
p
n
...
x
p
n
x
Φ
x
/σ
θ
θˆ
n
P
j j/2 1 1/2 n
dimana
x
2π
1/2eks
x
2/2
adalah fungsidensitas normal standar dan
Φ
x
φ
u
du
fungsi distribusi normal standar
Formula (2.3.1) dikenal sebagai ekspansi Edgeworth. Fungsi pj adalah polinomial dengan
koefisien tergantung pada kumulan dari
θˆ
n
θ
.Untuk mencari polinom-polinom dibuktikan dulu beberapa lemma berikut:
Lemma 2.3.1
Jika X1, X2, …, Xn adalah sampel iid dari
distribusi dengan mean μ dan variansi
X
θ
/σ
Y
,
σ
2
dan
θˆ
θ
/σ
n
S
n
n
maka
n Y Snt
t
n
2 / 1/
. Definisi 2.3.2Untuk suatu variabel random umum Y dengan fungsi karakteristik χY, kumulan ke j, κj, dari Y
didefinisikan sebagai koefisien dari
it
jj!
1
dalam ekspansi dari deret pangkat log χY(t)
dimana
κ
it
...
j!
1
...
it
κ
2
1
it
κ
exp
t
j j 2 2 1 Y
(2.3.2) Lemma 2.3.3Untuk variabel random Y seperti dalam definisi diatas berlaku:
2
2
4
4 2 2 3 4 4 3 3 2 3 3 2 2 2 16
12
3
Y
E
4
Y
E
κ
EY
Y
E
Y
E
2
Y
E
Y
E
3
Y
E
κ
Y
Var
Y
E
Y
E
κ
Y
E
κ
EY
Y
E
Y
E
Y
E
Y
E
Y
E
Y
E
Lemma 2.3.4Untuk Sn dan Y seperti didefinisikan
sebelumnya maka:
t22
Snit
e
χ
(2.3.3) dengan:
1
n
r
it
n
r
it
...
n
j/2r
jit
2 1 1 1/2
dimana:rj polinomial dengan koefisien real dengan
derajat 3j, tergantung pada κ3, κ4, …, κj+2 dan
tidak tergantung pada n yaitu:
2 6 3 4 4 2 3 3 1u
1/3!
κ
u
;
r
u
1/24κ
u
1/72κ
u
r
Lemma 2.3.5Diberikan lemma 2.3.2 dan didefinisikan
t22 j j itxdR
x
r
x
e
e
dimana Rj(x) adalahfungsi yang memiliki transformasi Fourier-Stieltjes sama dengan
t22j
x
e
r
maka distribusiSn dapat ditulis sebagai:
x
...
R
n
...
x
R
n
x
Φ
x
S
P
j j/2 1 1/2 n
Teorema 2.3.6 (Metode Delta untuk Ekspansi Edgeworth)
Jika Sn dan Tn dua statistik yang
masing-masing berdistribusi Normal Asimptotik yang memenuhi
S
n
T
n
O
p
n
j/2 untuk setiap j ≥ 1 maka Ekspansi Edgeworth distribusi Sn dan Tnhanya berbeda dalam suku-suku berorder n-j/2atau
lebih kecil, yakni:
j/2 p n nx
P
T
x
O
n
S
P
Ekspansi Cornish-Fisher MisalkanS
n
n
θˆ
n
θ
/σ
dan
θˆ
θ
/
σˆ
nn
T
n
n
merupakan statistik yang dapat diekspansi dalam Ekspansi Edgeworth Misal
k 1 i 1)/2 (k -i 1/2 n nn
O
x
x
p
n
x
Φ
x
S
P
x
H
~
dan
k 1 i 1)/2 (k -i 1/2 n nn
O
x
x
q
n
x
Φ
x
S
P
x
G
Maka kuantil dari
H
~
x
dan Gndapat diekspansisebagai deret dalam n-j/2berikut:
k 1 i 1)/2 (k -i 1/2 1 -nx
z
n
p
z
O
n
H
~
k 1 i 1)/2 (k -i 1/2 1 -ny
z
n
q
z
O
n
G
Dengan zα, xα, yαdidefinisikan sebagai:
z
αP
S
nx
α
P
T
ny
α
Φ
danpj1dan qj1 polinom ganjil(genap) dengan derajar
j+1 jika j genap(ganjil) dan dapat dinyatakan dalam pjdan qj.
Ekspansi (2.4.1) dan (2.4.2) disebut sebagai ekspansi (invers) Cornish-Fisher.
Teorema 2.4.1
Diberikan Ekspansi Edgeworth dari
H
~
n
x
dan Cornish-Fisher
H
~
1
x
n seperti dalam
definisi dimuka, maka:
x
p
x
p
11
1 , dan
x
p
x
1/2xp
x
p
x
p
p
2 2 1 ' 1 1 21
(2.4.3)INTERVAL KONFIDENSI BOOTSTRAP Motivasi Interval Bootstrap
Jika
I
θ
,
θ
interval konfidensi untuk kuantitas dan fungsi monoton naik yang diketahui maka sangat ideal bila kita berharap bahwa
I
θ
,
θ
merupakan interval konfidensi untuk (). Sebaliknya jika
θ
,
θ
merupakan interval dari() maka invers dari masing-masing titik ujung interval tersebut merupakan interval dari . Dengan kata lain bersifat transformasi repecting. Interval yang dihasilkan oleh pendekatan di atas didasarkan asumsi adanya tansformasi sedemikian hingga
ˆ
θ
x
~
AN
0,1
P
.Kesulitan dalam pendekatan metode standar berdasarkan transformasi adalah bahwa kita harus mengetahui transformasi yang berbeda untuk setiap parameter yang akan diestimasi.
Diinginkan membangun interval konfidensi dengan sifat transformasi respecting namun tanpa perlu mencari/mengetahui transformasi tersebut. Dengan kata lain metode ini dapat dipandang sebagai metode yang selalu “tahu” transformasi yang diperlukan. Metode ini dikerjakan dengan perhitungan bootstrap, tanpa perlu mengetahui.
Interval Persentil BP
Misalkan
θˆ
n estimator dari dari suatu distribusi F danθˆ
*n estimator bootstrap dari berdasarkan
X
*1,
X
*2,
...,
X
*n sehingga fungsi distribusi kumulatif dariθˆ
*n adalah:
* * θˆ * n * BOOTx
P
θˆ
x
f
θˆ
d
θˆ
K
(3.2.1)Maka interval persentil bootstrap didefinisikan sebagai:
*(1α)
n (αα * n 1 BOOT 1 BOOTα
,
K
1
α
θˆ
,
θˆ
K
(3.2.2)dengan
K
BOOT1
α
θˆ
*(n) adalah persentil ke 100.α dari distribusi bootstrap. Ekspresi (3.2.2) merujuk kepada situasi dimana replikasi bootstrap tak hingga (bootstrap ideal). Dalam praktek kita harus menggunakan cacah replikasi B yang berhingga, sehingga didapat interval aproksimasi persentil bootstrap:
*(1 α)
n *(α( n 1 BOOT 1 BOOTθˆ
,
θˆ
α
1
K
,
α
K
,
BP BP
dimanaθˆ
*(n ) adalah persentil ke 100.α dari nilai-nilai
θˆ
*
b
yakni nilai ke B.α dalam daftar urutan B replikasi dariθˆ
*. Jika B.α tidak bulat maka quantile empirik α dan 1 – α didefinisikan masing-masing sebagai nilai terbesar ke k dan ke (B+1-k) dariθˆ
*
b
dengan k = [(B+1).α],bilangan bulat terbesar ≤ (B+1).α.
Karena sifat similaritas diantara batas-batas interval untuk pembicaraan selanjutnya hanya dibahas batas bawah interval saja.
Teorema 3.2.1
Jika ada transformasi naik (x) sedemikian hingga untuk semua F (dan
Fˆ
) yang mungkin berlaku:
ˆ
θ
x
ψ
x
P
dimana
ˆ
θ
dan (x) adalah fungsi distribusi kontinu, naik dan simetris maka: Jika dan diketahui maka batas bawah exact untuk adalah:
α
1 EXˆ
z
θ
, denganz
ψ
1
α
α
Teorema 3.2.2Jika asumsi seperti pada teorema 3.2.1 dipenuhi untuk
Fˆ
maka:EX BP
θ
θ
. Dimanaθ
BP batas interval persentil bootstrap.Teorema 3.2.2 menunjukkan bahwa batas bawah interval persentil bootstrap adalah exact untuk semua n jika asumsi pada teorema 3.2.1 tepat dipenuhi (dipenuhi secara exact). Umumnya asumsi tersebut dipenuhi secara asimptotik untuk n besar maka batas bawah persentil tersebut adalah valid secara asimptotik dan penampilannya tergantung pada bagaimana baiknya aproksimasi tersebut. Namun, biasanya tidak linier dan bias
θ
ˆ
tidak menuju nol secara cepat untuk n → ∞. Akibatnya asumsi pada dipenuhi secara aproksimasi, aproksimasi ini baik hanya untuk n cukup besar. Aproksimasi yang biasa dipakai adalah aproksimasi normal.Interval Persentil BC
Interval Persentil BC (Bias Corrected) diturunkan dengan asumsi yang lebih umum dari teorema 3.3.1 dengan memasukkan suku koreksi bias dalam asumsi tersebut.
Teorema 3.3.1
Andai ada transformasi naik sedemikian hingga untuk semua F (dan
Fˆ
) yang mungkin memenuhi.P
ˆ
θ
z
0
x
ψ
x
dengan z0konstanta yang mungkin tergantung
maka:
θ
EX
1
ˆ
z
0
z
α
(3.3.1) Teorema 3.3.2
Misalkan ada seperti pada teorema 3.3.1, maka konstanta bias z0adalah:
BOOT n
1 0ψ
K
θˆ
z
(3.2.2) Teorema 3.3.3Dengan
θ
EX seperti yang didapat di atas makaθ
EX dapat dinyatakan sebagai:
α 0
1 BOOT EXK
Φ
z
2z
θ
Untuk membuktikan teorema di atas dibuktikan dulu lemma berikut:
Lemma 3.3.4
Untuk setiap x, 0 < x < 1 berlaku:
0
1 1 1 BOOTx
ˆ
ψ
x
z
K
(3.3.4) Teorema 3.3.5Batas bawah interval Persentil BC untuk adalah:
BOOT n
1 -α 1 BOOT BCK
ψ
z
2ψ
K
θˆ
θ
KonsistensiBerdasarkan konsistensi dari distribusi bootstrap maka dapat ditunjukkan konsistensi himpunan kepercayaan bootstrap.
Teorema 3.4.1
Jika
H
n
P
n
θˆ
n
θ
x
, HBOOT(x)bootstrap dari Hn, dan andaikan bahwa HBOOT
konsisten serta
lim
nρ
H
n,
H
untuk suatufungsi distribusi kontinu, stricly increasing dan simetri H maka:
BC BP
,
θ
θ
adalah konsisten.Perbandingan Teoritis Interval Konfidensi
Dalam pasal ini akan dilihat tingkat akurasi dari interval-interval konfidensi yang diterangkan di muka dan yang dihasilkan dengan pendekatan normal. Untuk membandingkan sifat-sifat tersebut maka distribusi dari statistik dan titik kritisnya terlebih dahulu dinyatakan dalam ekspansi Edgeworth dan ekspansi Cornish Fisher.
Titik kritis interval konfidensi
Dalam penjelasan ini diperhatikan kasus dimana X1 iid dan = μ = EX1,
θ
n
X
n dan
1 in
n
X
X
. Andaikan g terdifferensial dan kontinu pada p dan
g
μ
0
maka variansasimptotik dari
n
θˆ
n
θ
dan estimatornyamasing-masing adalah:
μ
'
g
μ
g
n
σ
2 -1 n
dan
n
n -1 2 nn
g
X
'
ˆ
g
X
σˆ
dimana Σ = var(Xi) dan
X
-
X
X
-
X
'
n
ˆ
n 1 n 1 -1
Lemma 3.5.1 Misalkan Gn danH
n~
masing-masing distribusi pivotal studentized
ˆ
n
/
ˆ
n dan variabel standardized
ˆ
n
/
n. Misalkan
α
H
~
x
1 n α
,y
G
1
α
α
dan
1z
[analog untuk indeks 1 – α],BOOT
H
~
versi bootstrap dariH
~
n
maka batas bawahθ
NOR,θ
EX,θ
BP danθ
BC masing-masing adalah: (i)θ
NOR
θˆ
n
σˆ
nz
1α
θˆ
n
σˆ
nΦ
1
1
α
(ii)θ
EX
θˆ
n
σˆ
ny
1α
θˆ
n
σˆ
nG
1
1
α
(iii)θ
BP
θˆ
n
σˆ
nxˆ
α
θˆ
n
σˆ
nH
~
1BOOT
α
(iv)θ
BC
θˆ
n
σˆ
nxˆ
BC
θˆ
n
σˆ
nH
~
1BOOT
α
BC denganα
BC
Φ
z
α
2
zˆ
0
,
BOOT n
1 0Φ
K
θ
zˆ
Ekspansi Edgeworth dan Ekspansi Cornish Fisher
Gn(x) dan
H
~
n
x
dapat diekspansi EkspansiEdgeworth sebagai:
3/2 2 1 1 1/2 nn
O
x
x
q
n
x
x
q
n
x
Φ
x
G
(3.5.5)
3/2 2 1 1 1/2 nn
O
x
x
p
n
x
x
p
n
x
Φ
x
H
~
(3.5.6)dengan ekspansi (invers) Cornish Fisher dari
α
G
y
1 n α
danx
α
H
~
n1
x
adalah:
3/2 21 1 11 1/2 -1 nn
O
x
x
q
n
x
x
q
n
z
G
y
(3.5.7)
3/2 21 1 11 1/2 -1 nn
O
x
x
p
n
x
x
p
n
z
H
~
x
(3.5.8)
3/2 2 1 1 1/2 BOOTn
O
x
x
qˆ
n
x
x
qˆ
n
x
Φ
x
G
(3.5.9)
3/2 2 1 1 1/2 BOOTn
O
x
x
pˆ
n
x
x
pˆ
n
x
Φ
x
H
~
(3.5.10)
3/2 21 1 11 1/2 -1 BOOTn
O
x
x
qˆ
n
x
x
qˆ
n
z
G
yˆ
(3.5.11)
3/2 21 1 11 1/2 -1 BOOTn
O
x
x
pˆ
n
x
x
pˆ
n
z
H
~
xˆ
(3.5.12) Lemma 3.5.2Dari hasil ekspansi-ekspansi di atas maka titik-titik kritis
θ
NOR,θ
EX,θ
BP danθ
BC dapat dinyatakan dalam ekspansi-ekspansi berikut: (i)θ
NOR
θˆ
n
σˆ
nΦ
1
1
α
θ
n
σˆ
nz
1α (ii)
1
p α -1 11 1/2 α -1 n n 1 n n EXO
z
q
n
z
σˆ
θˆ
α
1
G
σˆ
θˆ
θ
n
(iii)
1
p α -1 11 1/2 α -1 n n -1 BOOT n n BPO
z
pˆ
n
z
σˆ
θˆ
α
H
~
σˆ
θˆ
θ
n
(iv)
1 p α -1 11 1/2 α -1 1 1/2 α -1 n n BC -1 BOOT n n BCO
z
pˆ
n
z
pˆ
2
n
z
σˆ
θˆ
α
H
~
σˆ
θˆ
θ
n
Tingkat Akurasi Interval Konfidensi BootstrapDalam pasal ini akan ditunjukkan bahwa interval konfidensi Persentil BP dan BC mempunyai tingkat akurasi pertama (first order accurate). Disamping itu juga ditunjukkan bahwa Interval bootstrap BC lebih baik dari aproksimasi normal ditinjau dari coverage error dari interval tersebut.
Teorema 3.5.3
Jika
θ
BP,θ
BC adalah interval-interval bootstrap seperti pada lemma 3.5.1 maka:
1/2 BP,
1
α
O
n
θ
θ
P
dan
1/2 BC,
1
α
O
n
θ
θ
P
Coverage Error Interval Konfidensi
Interval-interval satu sisi yang dihasilkan oleh metoda bootstrap persentil BP, BC dan Aproksimasi Normal adalah dari tingkat akurasi
pertama. Ketiga interval tersebut dapat dibandingkan dengan melihat error dalam probabilitas cakupannya.
Untuk titik kritis Bootstrap Persentil:
H
~
α
σˆ
θ
θˆ
P
θ
θ
1 BOOT n BPP
2α
αO
n
1n
6
z
1
z
3
1
(1)Untuk titik kritis Bootstrap BC:
1 1 α 1 1/2 α BP θ P z n p z 2p 0 On θ P
α
1 2 α On n 6 z 2 z 1
(2)Untuk titik kritis dengan pendekatan normal:
α n NORz
σˆ
θ
θˆ
P
θ
θ
P
α
1 2 αO
n
n
6
z
1
2z
1
(3) Misalkane
P
1
error dalam probabilitas cakupan untuk batas bawah kepercayaan
. Maka dari (1), (2) dan (3) didapat:
1 α n NOR BPθ
Α
z
O
n
θ
e
e
dan
1 α n BC NORθ
Α
z
O
n
θ
e
e
dengan
n
6
z
φ
1
z
γ
z
Α
α 2 α α n
Dengan asumsi γ ≠ 0, Bila 2
1
z
maka
0
nz
sehingga bootstrap BC lebih baik dari aproksimasi normal yang lebih baik dari bootstrap persentil BP ditinjau dari harga mutlak dari error probabilitas cakupan.APLIKASI DAN SIMULASI Teori Asimptotik Koefisien Korelasi
Dalam bab ini diberikan contoh penggunaan dari metode penkonstruksian masin-masing interval yang diterangkan pada Bab III untuk koefisien korelasi ρ dari (X,Y). Misalkan (Xi,Yi),
…, (Xn,Yn) adalah n sampel random iid
berdistribusi bivariat dari suatu populasi dengan fungsi distribusi tidak diketahui F pada
2
dengan EX1 = μx= dan EY1 = μY, var(X1) =2
x
, cov(X,Y) = σXY. Misalkan ρ = ρ(F)koefisien korelasi dari (X,Y) parameter yang akan diestimasi yang didefinisikan sebagai:
2 2
1/2 Y X XYEY
E
E
,
EX
X
E
EY
Y
EX
X
E
σ
σ
σ
ρ
(4.1)Dengan
ρˆ
n estimator dari ρ yakni koefisien korelasi sampel:
2 1/2 n 2 n n nY
Y
,
X
X
n
1
Y
Y
X
X
n
1
ˆ
n
(4.2)Yang dapat dihitung bila nilai observasi diberikan.
Teorema 4.1
Koefisien korelasi sampel
ρˆ
n merupakan estimator konsisten konsisten dari ρ yakni jika
2,
0
20
E
X
E
Y
, maka
σ,
n
ρˆ
a.s n . Bukti:(i) Karena E(X2) < ∞ maka dengan SLLN
2 X a.s 2 n X a.s n
μ
X
μ
X
(1) Akibatnya:
X
μ
0
0
μ
X
a.s X n a.s X n
Telah diketahui bahwa:
2
X
σ
a.s
2
X
μ
2
X
n
1
X
2μ
2
X
n
1
X
μ
n
X
n
1
Dengan Lemma Slutsky
2 X a.s 2 n 2 2 nX
X
X
σ
n
1
S
dandengan mengambil g(x) = x1/2 didapat:
X a.s
nX
σ
S
(2)(ii) Analog dengan (i) didapat
Y a.s
nY
σ
S
(3)
(iii)
X
nY
n
a.sμ
Xμ
Y (Dengan Lemma Slutsky)
XY
σ
a.s
Y
μ
X
μ
Y
X
μ
X
n
1
Y
μ
XY
n
1
Y
μ
n
Y
X
μ
n
X
n
1
Maka dengan Lemma Slutsky:
Y X XY a.s
σ
μ
μ
XY
n
1
(4)
XY a.s n n n n Y n X nσ
Y
X
Y
n
1
X
X
n
1
Y
XY
n
1
μ
Y
μ
X
n
1
(5)Dari (1) sampai (5) dan dengan Lemma Slutsky maka didapatkan bahwa:
σ
ρˆ
a.sn
Misalkan
n
n
ρˆ
n
ρ
kuantitas statistikmaka fungsi distribusi Exact dari
n adalah
x
P
n
ρˆ
ρ
x
G
1/2 nn
untuk -∞ < x <∞. Karena F tidak diketahui maka Gn tidak
diketahui, sehingga perlu diestimasi. Teorema 4.2 Jika
EX
14
,EY
14
maka
d
2 nρ
N
0,
τ
ρˆ
n
Bukti:Misalkan Z1=
X
1,
X
12,
Y
1,
Y
12,
X
1Y
1
adalah iiddan μ=
EX
1,
EX
12,
EY
1,
EY
12,
EX
1Y
1
Dengan Teorema Limit Pusat Lindeberg-Levy untuk kasus multivariat, maka untuk {Zi}, I = 1,
2, …, n iid berdistribusi bersama F dan EZ1 = μ,
Var(Z1) = Σ, maka:
Z
μ
N
0,
n
1
n
d iDengan Σ matriks varians-covarians simetrik:
XY Var XY , Y Cov XY Y, Cov XY , X Cov XY X, Cov XY , Y Cov Y Var Y Y, Cov Y , X Cov Y X, Cov XY Y, Cov Y Y, Cov Y Var Y , X Cov Y X, Cov XY , X Cov Y , X Cov Y , X Cov X Var X X, Cov XY X, Cov Y X, Cov Y X, Cov X X, Cov X Var 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2Dengan elemen dari Σ adalah: 1)
Var
X
E
X
1
EX
1
σ
2X 2)Cov
X,
X
2
E
X
13
EX
13
E
X
13
μ
X3
μ
X
X2
2 X X 30
μ
M
3)Var
X
2
E
X
12
EX
12
E
X
31-
μ
3X-
μ
Xσ
2X
4 X 2 X 2 X 30 X 404μ
M
4μ
σ
σ
M
4)Cov
X,
Y
E
X
1
μ
X
Y
1
μ
Y
ρσ
Xσ
Y 5)Cov
X
2,
Y
E
X
12
σ
2X
μ
X2
Y
1
μ
Y
Y X X 212ρ
σ
σ
M
6)Var
Y
E
Y
1
μ
Y
σ
Y 7)Cov
X,
Y
2
M
21
2ρ
Xσ
Xσ
Y (Analog dengan 5)8) Cov
X2,Y2
E X12 σ2X μX2
Y1μY Y2
2 Y 2 X Y X Y X 12 X 21 Y 22σ
σ
σ
σ
μ
4μ
M
2μ
M
2μ
M
9)Cov
Y,
Y
2
M
03
μ
Y
Y2 (Analog dengan (2)) 10)Var
Y
2
M
04
4μ
YM
03
4μ
2Yσ
2Y
σ
Y4 (Analog dengan (3)) 11)Cov
X,
XY
E
X
1
μ
X
X
1Y
1
EX
1Y
1
Y X X 2 X Y 21μ
σ
ρμ
σ
M
12) Cov
X2,XY
EX12 x2μ2x
X1Y1EX1Y1
Y X 2 X 2 X Y X Y 2 X 21 X 30 Y 31σ
σ
2ρρ
σ
μ
2μ
σ
ρσ
M
3μ
M
μ
M
13)C
ov
Y,
XY
M
12
μ
Xσ
Y2
ρμ
Xσ
X
Y (Analog dengan 11) 14)
Y X 2 Y 2 Y Y X 3 X X 12 Y 03 X 13 2σ
σ
2ρρ
σ
μ
2μ
σ
ρσ
M
3μ
M
μ
M
XY
,
Y
Cov
(Analog dengan 12) 15)
Y X Y X 1 1 1 1 1 1μ
μ
σ
ρσ
Y
X
E
Y
EX
Y
X
E
XY
Var
21 M Y 2μ 12 M X 2μ 2 Y σ 2 X μ 2 X σ 2 Y μ 22 M 2 2 X 2 Y X Y Xμ
σ
σ
ρ
σ
σ
2ρ
Y DenganM
ab
E
X
μ
X
aY
μ
Y
b Misalkanq
T
q
1,q
2,
q
3,
q
4,
q
5
2
i i i 2 i2
X
Y
1
,
Y
n
1
,
Y
,
X
n
1
,
X
Maka (4.3) dapat ditulis sebagai:
q
N
0,
n
d(4.4)
Definisikan fungsi
r
:
2
d
sedemikian hingga koefisien korelasi dapat dibentuk sebagai suatu fungsi rata-rata observasi, yakni:
1/2 2 3 4 1/2 2 1 2 2 1 3 nq
q
q
q
q
q
q
q
r
ρˆ
dan (4.1)dapat ditulis sebagai
ρ
r
μ
.Karena r(.) kontinu dan terdifferensial, dengan menggunakan ekspansi Taylor multivariat maka didapat bentuk berikut: Efron & Tibshirani, 1993)
i i n i 5 1 i i iq
μ
R
q
q
r
μ
q
μ
r
q
r
(4.5)dimana Rn, suku sisa dengan order lebih kecil dari
(qi – μi) i = 1, 2, 3, 4, 5.
Misalkan
r
μ
Tq
μ
sebagai perkalian vektor dari suku kedua dari persamaan di sebelah kanan (4.5), kemudian persamaan itu dikalikan dengann
dan ditulis:
n T nρ
r
μ
q
μ
n
R
ρˆ
n
Dari (4.4)n
q
~
AN
0,
, maka dengan “Cramer Wold device” (Teorema 2.5.5) dapat disimpulkan:
d
2τ
0,
N
μ
q
μ
r
n
T
dan varians
2 dapat dicari dengan metode delta:
μ
r
μ
r
τ
2
T
(4.7)
Karena
n
q
μ
asimptotik normal dan Rnberorder lebih kecil dari (q – μ) maka
0
n
dn
R
, sehingga dengan menggunakan lemma Slutsky pada (4.6) maka:
d
2n
ρ
N
0,
τ
ρˆ
n
Dari (4.7), dengan menghitung turunan parsial dari r(q) untuk q = μ didapat: