METODE BOOTSTRAP DAN APLIKASINYA

(1)

METODE BOOTSTRAP DAN APLIKASINYA

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Program Studi Matematika

Oleh:

Amelia Enrika

NIM: 083114001

PROGRAM STUDI MATEMATIKA, JURUSAN MATEMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(2)

i

METODE BOOTSTRAP DAN APLIKASINYA

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Program Studi Matematika

Oleh:

Amelia Enrika

NIM: 083114001

PROGRAM STUDI MATEMATIKA, JURUSAN MATEMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(3)

ii

BOOTSTRAP METHOD AND ITS APPLICATIONS

Thesis

Presented as Partial Fulfillment of the Requirements

to Obtain the Sarjana Sains Degree in Mathematics

By:

Amelia Enrika

Student Number: 083114001

MATHEMATICS STUDY PROGRAM, DEPARTMENT OF MATHEMATICS

FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY

(4)

(5)

(6)

v

To reach a port, we must sail

Sail, not tie at anchor

Sail, not drift.

-Franklin Roosevelt-

(7)

(8)

vii

ABSTRAK

Tulisan ini membahas tentang metode bootstrap yang prinsipnya adalah memperlakukan sampel acak asli sebagai populasi, kemudian melakukan resampel sebanyak 𝑏𝑏 kali sebanyak mungkin, sehingga diharapkan distribusi dari sampel bootstrap tersebut mendekati normal. Dengan demikian, distribusi sampling bootstrap tersebut dapat digunakan untuk memberikan penjelasan tentang distribusi sampling, serta distribusi populasi.

Aplikasi metode bootstrap dalam statistika yang dibahas adalah pada pendugaan parameter populasi rata-rata, galat standar dan koefisien regresi linear berganda, serta pendugaan selang kepercayaan untuk rata-rata populasi dan koefisien regresi linear berganda. Pada pendugaan parameter rata-rata populasi dan galat standar digunakan metode bootstrap biasa, sedangkan untuk pendugaan selang kepercayaannya digunakan metode persentil bootstrap. Persentil bootstrap membentuk selang kepercayaan (1− 𝛼𝛼)% dengan cara mengambil data persentil ke (𝛼𝛼⁄2)100 dan (1−(𝛼𝛼⁄2))100 sebagai batas bawah dan atas selang, dari 𝑏𝑏 buah replikasi bootstrap. Pada regresi linear berganda, metode bootstrap dibedakan menjadi dua, yaitu resampling pasangan terurut observasi dan resampling galat dari model regresi linear berganda. Selang kepercayaan koefisien regresi dipadukan antara kedua metode tersebut dengan metode persentil bootstrap.

Pendugaan parameter populasi dengan bootstrap dianggap cukup mendekati parameter penduga asli dan distribusinya mendekati normal seiring membesarnya nilai 𝑏𝑏 dan selang kepercayaan yang dibentuk dengan persentil bootstrap selalu menghasilkan selang yang lebih sempit dibandingkan dengan selang kepercayaan secara teoritis dengan tingkat signifikansi yang sama.

(9)

viii

ABSTRACT

This thesis discusses bootstrap method which treats original random sample as a population. The original random sample was resampled 𝑏𝑏 times as many as we can, so that the bootstrap sampling distribution approximates the normal distribution. Thus, the bootstrap distribution could be used to explain the sampling distribution and the population distribution.

Bootstrap method is applied in estimation of population mean, standard error, and multiple linear regression coefficients. In the estimation of mean and standard error of population, we use ordinary bootstrap method, while percentile bootstrap is used to estimate the confidence interval. Percentile bootstrap constructs a (1− 𝛼𝛼)100% confidence interval by taking the (𝛼𝛼⁄2)100 and

(1−(𝛼𝛼⁄2))100 percentile data of 𝑏𝑏 bootstrap replications as a lower limit and upper limit respectively. In multiple linear regression, there are two bootstrap methods, those are pair observation resampling and error/residual resampling. Confidence interval of regression coefficient is built by combining those two methods and percentile bootstrap.

The use of bootstrap method to estimate the population parameter is considered close to ordinary estimator and its distribution is approximate normal distribution as the increasing the value of 𝑏𝑏. At the same level of significance, the percentile bootstrap confidence interval always narrower than theoretical confidence interval.

(10)

(11)

x

KATA PENGANTAR

Puji dan syukur penulis haturkan kepada Tuhan Yesus Kristus atas berkat

dan rahmat-Nya sehingga penulis dapat menyelesaikan skripsi ini.

Penulis dapat menyusun skripsi ini bukan hanya atas kemampuan dan usaha

penulis semata, tetapi juga berkat bantuan dan dukungan berbagai pihak, oleh

karena itu penulis ingin mengucapkan terima kasih kepada:

1. Bapak Ir. Ig. Aris Dwiatmoko, M.Sc. selaku dosen pembimbing yang telah

dengan sabar memberikan pengarahan dan bimbingan selama proses

penyusunan skripsi ini.

2. Ibu Lusia Krismiyati Budiasih, S.Si., M.Si. selaku Ketua Program Studi

Matematika yang telah memberikan banyak nasehat dan bimbingan selama

penyusunan skripsi, serta Ibu Ch. Enny Murwaningtyas, S.Si., M.Si. yang

telah memberikan banyak bimbingan dalam hal akademik dan perkuliahan.

3. Seluruh bapak dan ibu dosen yang telah memberikan banyak ilmu

pengetahuan kepada penulis.

4. Perpustakaan Universitas Sanata Dharma dan staf sekretariat yang telah

memberikan fasilitas dan kemudahan pembelajaran, serta administrasi bagi

penulis selama masa perkuliahan.

5. Keluarga tersayang, yaitu kedua orang tua, beserta kedua saudari penulis:

Seniyawati dan Novia Paulien yang banyak direpotkan, tetapi terus

memberikan semangat, dukungan, dan doa kepada penulis.

6. Aga Hutama Tirta yang tidak kunjung bosan dan lelah mendukung,

menyemangati, menasehati dan mendengarkan keluh kesah penulis selama

proses penyusunan skripsi ini.

7. Teman-teman penulis: Shelli Moniaga dan Agustina Viktrisia Lily Hertati

yang selalu membantu, serta menyertai penulis dengan doa dan semangat.

Tak lupa terima kasih kepada Irene Saskia atas jempolnya yang setia

(12)

xi

8. Teman-teman angkatan 2008 dan 2007 dari Program Studi Matematika yang

telah memberikan banyak pengalaman berharga, baik suka maupun duka,

dalam pembelajaran maupun kehidupan sehari-hari.

9. Semua pihak yang telah membantu penulis, tetapi tidak dapat disebutkan satu

persatu.

Hal yang juga disadari oleh penulis adalah masih banyaknya kekurangan

yang terdapat dalam tulisan ini, namun diharapkan agar hasil tulisan ini tetap

dapat memberikan manfaat bagi kemajuan ilmu pengetahuan, khususnya dalam

bidang matematika serta bagi pembaca tulisan ini. Kritik dan saran yang

membangun sangat penulis harapkan bagi kesempurnaan skripsi ini.

Yogyakarta, Desember 2011

(13)

xii

DAFTAR ISI

Halaman

HALAMAN JUDUL ……… i

HALAMAN JUDUL DALAM BAHASA INGGRIS ……… ii

HALAMAN PERSETUJUAN PEMBIMBING ……….. iii

HALAMAN PENGESAHAN ………... iv

HALAMAN PERSEMBAHAN ……… v

HALAMAN PERNYATAAN KEASLIAN KARYA ……….. vi

HALAMAN ABSTRAK ……….. vii

HALAMAN ABSTRACT ………. viii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ……….. ix

KATA PENGANTAR ………... x

DAFTAR ISI ………. xii

DAFTAR GAMBAR ……… xv

DAFTAR TABEL ………. xvi

DAFTAR PROGRAM ……….. xix

BAB I PENDAHULUAN A. Latar Belakang Masalah ………. 1

B. Perumusan Masalah ………... 7

C. Pembatasan Masalah ………. 7

D. Tujuan Penulisan ………... 8

(14)

xiii

F. Metode Penulisan ……….. 8

G. Sistematika Penulisan ……… 9

BAB II LANDASAN TEORI A. Teori Sampling 1. Sampling ……… 11

2. Bilangan Random ……….. 14

3. Pembangkit Bilangan Random ……….. 15

4. Distribusi Sampling ……… 16

B. Estimasi 1. Estimasi Titik ………. 26

2. Estimasi Interval ………. 26

C. Regresi Linear Berganda 1. Model Regresi Linear Berganda ……… 28

2. Metode Kuadrat Terkecil ……….. 30

3. Sifat-Sifat Penduga Kuadrat Terkecil ……… 32

4. Selang Kepercayaan Untuk Parameter Regresi ………. 34

BAB III METODE BOOTSTRAP A. Prinsip Dasar Dan Algoritma Metode Bootstrap ………. 35

B. Aplikasi Pendekatan Galat Standar Dari Mean Dengan Metode Bootstrap ………. 46

BAB IV APLIKASI METODE BOOTSTRAP

A. Metode Persentil Bootstrap

(15)

xiv

Metode Persentil Bootstrap ……… 54

2. Pembentukan Selang Kepercayaan Dengan Metode Persentil Bootstrap ………. 57

B. Regresi Linear Bootstrap 1. Metode Bootstrap Untuk Pendugaan Parameter Dalam Regresi Linear Berganda ……… 64

a. Algoritma Metode Bootstrap Untuk Meresampling Observasi ……….. 65

b. Algoritma Metode Bootstrap Untuk Meresampling Galat ………. 72

2. Pembentukan Selang Kepercayaan Bootstrap Untuk Parameter Regresi ……… 79

BAB V PENUTUP A. Kesimpulan ……… 87

B. Saran ……….. 88

DAFTAR PUSTAKA ……….. 89

(16)

xv

DAFTAR GAMBAR

Halaman

GAMBAR 1.1. ... 4

GAMBAR 2.1. ... 25

GAMBAR 2.2. ... 25

GAMBAR 3.1. ... 35

GAMBAR 3.2. ... 41

GAMBAR 3.3. ... 42

GAMBAR 3.4. ... 42

GAMBAR 3.5. ... 44

GAMBAR 3.6. ... 45

GAMBAR 3.7. ... 115

GAMBAR 3.8. ... 52

GAMBAR 4.1. ... 116

GAMBAR 4.2. ... 66

GAMBAR 4.3. ... 66

GAMBAR 4.4. ... 117

GAMBAR 4.5. ... 118

GAMBAR 4.6. ... 75

GAMBAR 4.7. ... 119

(17)

xvi

DAFTAR TABEL

Halaman

TABEL 3.1. ……… 91

TABEL 3.2. ………... 91

TABEL 3.3. ……… 91

TABEL 3.4. ……… 92

TABEL 3.5. ……… 92

TABEL 3.6. ……… 93

TABEL 4.1. ……… 94

TABEL 4.2. ……… 94

TABEL 4.3. ……… 95

TABEL 4.4. ……… 95

TABEL 4.5. ……… 96

TABEL 4.6. ……… 97

TABEL 4.7. ……… 98

TABEL 4.8. ……… 99

TABEL 4.9. ……… 100

TABEL 4.10. ………. 101

TABEL 4.11. ……….. 102

TABEL 4.12. ………. 102

(18)

xvii

TABEL 4.14. ………. 103

TABEL 4.15. ………. 103

TABEL 4.16. ………. 103

TABEL 4.17. ………. 104

TABEL 4.18. ………. 104

TABEL 4.19. ………. 104

TABEL 4.20. ………. 105

TABEL 4.21. ………. 105

TABEL 4.22. ………. 106

TABEL 4.23. ………. 106

TABEL 4.24. ………. 106

TABEL 4.25. ………. 107

TABEL 4.26. ………. 107

TABEL 4.27. ………. 107

TABEL 4.28. ………. 108

TABEL 4.29. ………. 108

TABEL 4.30. ………. 108

TABEL 4.31. ………. 109

TABEL 4.32. ………. 109

TABEL 4.33. ………. 109

(19)

xviii

TABEL 4.35. ………. 110

TABEL 4.36. ………. 111

(20)

xix

DAFTAR PROGRAM

Halaman

PROGRAM 3.1. ……… 121

PROGRAM 4.1. ……… 123

PROGRAM 4.2. ……… 124

PROGRAM 4.3. ……… 127

PROGRAM 4.4. ……… 130

(21)

BAB I PENDAHULUAN

A. Latar Belakang Masalah

Sampling, yang berarti pengambilan sampel sering digunakan oleh para

statistikawan atau ilmuwan untuk mempermudah penelitian mereka, karena

ketidakmungkinan peneliti untuk mengobservasi objek-objek populasi secara

menyeluruh. Keterbatasan biaya, waktu, tenaga peneliti dan juga kesulitan

pe-ngumpulan data populasi adalah alasan-alasan dilakukannya sampling.

Ba-nyak metode sampling yang telah diciptakan oleh para peneliti, sebagai contoh

Metode Sampel Acak Sederhana, Metode Stratifikasi, Metode Cluster, dan

se-bagainya. Dari metode sampling ini, muncul pengembangannya, yaitu

resam-pling. Selama beberapa dekade terakhir, telah dilakukan pengembangan

me-tode resampling, Meme-tode Jackknife, Meme-tode Cross-validation dan Meme-tode

Bootstrap merupakan teknik resampling yang sering digunakan para peneliti

dalam menganalisis data.

Dalam kondisi praktis dan statistikal, bentuk distribusi sampling jarang

diketahui secara pasti. Pendekatan parametrik tradisional lebih menekankan

pendugaan distribusi sampling dibandingkan pembuatan inferensi terhadap

pa-rameter populasi dari sebuah sampel. Cara yang digunakan adalah dengan

mengasumsikan bentuk distribusi sampling dari parameter penduga yang

dike-tahui sifat-sifat probabilitasnya (contohnya distribusi normal atau

eksponen-sial). Dalam pendekatan parametrik tradisional, parameter dari distribusi

(22)

perhitungan secara analitik menggunakan rumus yang rumit. Namun sering

kali ditemukan kendala berkaitan dengan distribusi sampling. Biasanya

ken-dala tersebut berupa kesulitan mendekati distribusi sampling secara analitik,

baik karena perhitungan yang terlalu sulit atau rumus yang rumit. Selain itu,

pendekatan secara analitik menggunakan asumsi-asumsi tertentu seperti

ben-tuk distribusi, apakah data tersebut normal atau tidak, ataupun bergantung

pa-da Teorema Limit Pusat. Papa-da kenyataannya secara praktis, terkapa-dang para

peneliti tidak bisa bergantung pada asumsi-asumsi tersebut. Kesulitan untuk

mendekati distribusi sampling secara analitik tersebut menyebabkan data tidak

bisa diolah secara analitik. Akibatnya, parameter populasi pun sulit untuk

di-dekati secara analitik. Maka dari itu, banyak dilakukan riset untuk mengolah

data secara langsung dengan komputer untuk menanggulangi

masalah-masalah tersebut.

Perkembangan teknologi komputer yang sangat signifikan dalam

bebe-rapa dekade terakhir ini memberikan pengaruh yang besar dalam bidang

statis-tika. Analisis data menjadi lebih mudah dilakukan dengan adanya otomatisasi

penggambaran grafik dan perhitungan data. Studi statistikal yang melibatkan

himpunan data yang besar dan kompleks sekarang ini mampu dianalisa

de-ngan lebih mudah, sehingga juga berpengaruh pada efisiensi biaya penelitian.

Penelitian dapat dilakukan lebih cepat dan lebih sedikit biaya dibandingkan

dulu karena banyak muncul metode yang menerapkan komputasi yang

sebe-lumnya tidak terpikirkan untuk pendugaan parameter populasi, pembentukan

(23)

Pada tahun 1979, Bradley Efron mengembangkan metode Bootstrap

un-tuk pertama kalinya. Metode resampling yang berbasis komputer ini, bukan

metode resampling yang pertama kali muncul. Menurut Kvam dan Vidakovic

(2007), sebelum Metode Bootstrap, ada metode permutasi Fisher, Pitman, dan

metode Jackknife, tetapi metode Bootstrap adalah metode resampling yang

paling populer yang digunakan para peneliti pada saat ini. Metode ini sangat

popular di kalangan para peneliti karena metode ini langsung mengolah data,

menggunakan komputer sebagai pengolah datanya. Lagipula, para peneliti

ti-dak membutuhkan hitungan teoritis untuk mencapai parameter populasi

tu-juannya. Bootstrap baru-baru dikembangkan karena sangat bergantung pada

kecanggihan teknologi komputer untuk melakukan perhitungannya. Dengan

menyimulasikan langsung data-data yang ada, bootstrap menghindarkan kita

dari pembuatan model dan asumsi-asumsi yang tak dibutuhkan tentang

para-meter. Secara imajinatif, metode ini seolah-olah menarik diri sendiri dengan

tali sepatu sendiri (dengan mengambil sampel dari sampel itu sendiri)

diban-ding menggantungkan diri pada bantuan luar (dari asumsi-asumsi parametrik).

Dari sisi tersebut, metode bootstrap terlihat seperti sebuah prosedur

nonpara-metrik. Kenyataannya, bootstrap merupakan teknik resampling yang

meli-batkan bentuk parametrik dan nonparametrik, tetapi pada esensinya,

merupa-kan prosedur yang lebih bersifat empiris.

Efron menganalogikan istilah bootstrap dengan cerita rakyat Inggris,

ya-itu cerita Petualangan Baron von Munchausen. Dikisahkan sang Baron

(24)

ta-li sepatunya sendiri. Keadaan di mana sang Baron menggunakan tata-li

sepa-tunya sendiri untuk menyelamatkan dirinya, inilah yang dianalogikan Efron

dalam metode Bootstrap.

Peneliti menggunakan sampel dari sampel itu sendiri untuk mengetahui

parameter populasi. Efron ingin mendeskripsikan metode ini dengan istilah

bootstrap untuk membantu kita memahami karakteristik dari suatu estimator

tanpa bantuan dari model probabilitas tambahan atau asumsi-asumsi

parame-trik. Ketika memperkenalkan versi bootstrap, Efron termotivasi oleh dua

ma-salah yang paling penting dalam statistika terapan, yaitu penentuan penduga

untuk suatu parameter tujuan dan evaluasi dari keakuratan dari penduga

terse-but melalui galat standar dari penduga dan penentuan selang kepercayaan

un-tuk parameter tujuan tersebut. Sampel asli yang pertama kali diambil

dipan-dang sebagai suatu populasi karena sampel asli sebanyak 𝑛𝑛 buah itu dianggap

(25)

mewakili karakteristik-karakteristik dari populasi (karena pengambilannya

di-lakukan secara acak). Karena perlakuan itu, metode bootstrap tidak

memerlu-kan asumsi kuat terhadap distribusi sampling dari statistik penduga untuk

mendekati distribusi samplingnya. Jadi begitu pula dengan resampel atau

sampel bootstrap yang diambil dengan pengembalian juga dianggap

merepre-sentasikan populasi sama halnya seperti bila kita mengambil banyak sampel

dari populasi. Banyak dilakukan simulasi dari data-data sampel yang telah

tersedia sangatlah menguntungkan peneliti atau statistikawan. Hal itu

meng-hindarkan kita dari pembuatan asumsi-asumsi yang tidak dibutuhkan tentang

parameter dan model. Bila dibandingkan dengan pendekatan parametrik

tradi-sional, metode bootstrap memuat lebih banyak repetisi dari komputasi data

sampel untuk mendekati bentuk distribusi sampling suatu statistik bila

diban-ding asumsi distribusional yang kuat ataupun formula analitik. Kelebihan

yang lain dari metode ini adalah dapat diterapkan seberapapun sulitnya

ke-mungkinan pencapaian nilai penduga parameter populasi. Para peneliti

ba-nyak menggunakan metode ini untuk diterapkan dalam berbagai bidang,

con-tohnya di bidang psikologi, geologi, ekonometrika, biologi, teknik, kimia dan

akunting. Bootstrap sering digunakan pada bidang-bidang tersebut karena

se-ring kali para peneliti hanya memiliki data sampel yang sangat sedikit.

Metode ini sering digunakan ketika distribusi sampling dari statistik

ti-dak dapat diasumsikan berdistribusi normal (seperti mengestimasi koefisien

regresi dengan Ordinary Least Square), atau ketika distribusi sampling tidak

(26)

analitik. Selain itu, bila ukuran populasinya cukup besar sehingga sulit untuk

menentukan kerangka sampel, lebih baik dilakukan resampling dengan

me-tode ini.

Dalam statistika, kita mengenal penduga parameter populasi berupa

se-lang kepercayaan. Sese-lang kepercayaan suatu parameter θ dibentuk dengan

menentukan suatu selang nilai yang dengan peluang besar memuat parameter

yang diduga (parameter populasi) dan erornya harus minimum. Bentuk selang

kepercayaan ada tiga, yaitu:

�∞,𝜃𝜃�_𝑈𝑈�,�𝜃𝜃�_𝐿𝐿,∞�,�𝜃𝜃�_𝐿𝐿,𝜃𝜃�_𝑈𝑈�

dengan 𝜃𝜃�_𝑈𝑈 adalah batas atas selang dan 𝜃𝜃�_𝐿𝐿 adalah batas bawah selang. Dalam tulisan ini, akan diulas bagaimana membentuk selang kepercayaan tersebut

de-ngan metode Bootstrap. Pembentukan selang kepercayaan yang akan diulas

adalah pembentukan selang kepercayaan dengan metode Persentil Bootstrap.

Metode Persentil Bootstrap menghasilkan selang kepercayaan yang lebih

pen-dek, variansi yang lebih kecil, dan tingkat kepercayaan yang lebih tinggi jika

dibandingkan dengan metode lain yang selama ini digunakan.

Metode Bootstrap juga dapat diterapkan pada regresi linear untuk

mere-sampling sampelnya dalam upaya mendekati koefisien-koefisien model

regre-si linear. Prinregre-sip resampling bootstrap dalam regreregre-si linear dibedakan

(27)

B. Perumusan Masalah

Permasalahan yang akan dibahas dalam tulisan ini akan dirumuskan

se-bagai berikut:

1. Apakah yang dimaksud dengan metode Bootstrap dan bagaimana landasan

teoritiknya?

2. Bagaimana penerapan metode Bootstrap pada pendugaan selang parameter

populasi dan parameter regresi linear berganda?

3. Bagaimana algoritma dan pemrograman MATLAB untuk pendugaan

se-lang parameter populasi dengan menggunakan metode Bootstrap?

4. Bagaimana algoritma dan pemrograman MATLAB untuk pendugaan

pa-rameter regresi dengan menggunakan metode Bootstrap?

C. Pembatasan Masalah

Penulis akan membatasi beberapa hal untuk uraian masalah yang akan

dibahas, yaitu:

1. Distribusi normal dan Student-t tidak dibahas dalam tulisan ini.

2. Pembentukan selang parameter populasi dengan prinsip Bootstrap dibatasi

hanya menggunakan metode Persentil Bootstrap.

3. Aplikasi metode bootstrap hanya dibatasi pada pendugaan parameter

rata-rata populasi, parameter koefisien regresi berganda, selang kepercayaan

(28)

D. Tujuan Penulisan

Tulisan ini disusun dengan tujuan agar dapat lebih memahami salah satu

teknik resampling yang sering digunakan dalam statistika, yaitu Metode

Boot-strap. Terlebih lagi, akan dipelajari prinsip Bootstrap dalam metode Persentil

Bootstrap untuk membangun selang kepercayaan parameter populasi. Selain

itu, prinsip bootstrap dalam regresi linear berganda juga dipelajari dalam

tuli-san ini. Sebagai tambahan, kitapun akan mempelajari bagaimana penerapan

prinsip-prinsip tersebut dalam pemrograman MATLAB. Tulisan ini juga

di-susun sebagai pemenuhan tugas akhir dalam Program Studi Matematika

Un-iversitas Sanata Dharma.

E. Manfaat Penulisan

Dengan memperlajari topik ini kita dapat mempelajari

kegunaan-kegunaan metode Bootstrap dalam membangun selang penduga parameter

po-pulasi dengan memanfaatkan data-data yang ada. Kita juga dapat mempelajari

prinsip bootstrap dalam pengambilan sampel dalam regresi linear berganda.

Terlebih dari itu, kita juga dapat menerapkan metode tersebut dalam algoritma

dan pemrograman MATLAB sehingga proses komputasi lebih efektif dan

efi-sien.

F. Metode Penulisan

Penulis menggunakan metode studi kepustakaan, yaitu dengan

(29)

sam-pling guna mencari perannya dalam membangun selang penduga parameter

populasi dan penduga parameter regresi linear berganda.

G. Sistematika Penulisan

BAB I. PENDAHULUAN

A. Latar Belakang Masalah

B. Perumusan Masalah

C. Pembatasan Masalah

D. Tujuan Penulisan

E. Manfaat Penulisan

F. Metode Penulisan

G. Sistematika Penulisan

BAB II. LANDASAN TEORI

A. Teori Sampling

B. Estimasi

C. Regresi Linear Berganda

BAB III. METODE BOOTSTRAP

A. Prinsip Dasar Dan Algoritma Metode Bootstrap

B. Aplikasi Pendekatan Galat standar Dari Mean Dengan Metode

(30)

BAB IV. APLIKASI METODE BOOTSTRAP

A. Metode Persentil Bootstrap

B. Regresi Bootstrap

BAB V. PENUTUP

A. Kesimpulan

B. Saran

DAFTAR PUSTAKA

(31)

BAB II

LANDASAN TEORI

A. Teori Sampling 1. Sampling

Dalam statistika, selalu ditemui istilah populasi atau semesta. Istilah

ini mengacu pada sekumpulan dari individu-individu atau atributnya, yang

dapat dispesifikasikan secara numerik. Contohnya, populasi dari berat

ba-dan, harga beras, dan sebagainya. Populasi yang memiliki elemen yang

terhingga jumlahnya disebut sebagai populasi terhingga. Contohnya

ada-lah populasi dari berat badan 48 siswa di suatu kelas. Istiada-lah yang juga

sering dijumpai adalah sampel. Sampel merupakan bagian yang terpilih

dari suatu populasi dan proses pemilihan bagian terpilih tersebut disebut

sebagai sampling.

Sampling atau penarikan sampel, bertujuan untuk memperoleh

in-formasi (sebanyak mungkin) yang mendukung pengamatan variabel

ter-tentu guna mendapatkan keterangan tentang suatu populasi. Secara

khu-sus, sampling dilakukan untuk mengestimasi parameter tertentu dari suatu

populasi. Pemilihan sampel harus dilakukan secara acak (sampling acak)

agar semua elemen populasi memiliki peluang yang sama untuk terpilih.

Bilangan random (yang akan dibahas dalam subbab berikutnya) digunakan

(32)

Definisi 2.1.

Diberikan 𝑁𝑁 dan 𝑛𝑛 yang mewakili banyaknya elemen dari ukuran populasi dan ukuran sampel secara berturut-turut. Bila samplingnya diperoleh

den-gan suatu cara sedemikian sehingga setiap dari �𝑁𝑁𝑛𝑛� buah sampel memiliki

probabilitas yang sama untuk terpilih, sampling tersebut dikatakan acak

dan hasilnya dikatakan sampel acak.

Dengan sampling sederhana, kita bermaksud melakukan sampling

acak secara bersamaan. Cara ini merupakan cara untuk memilih 𝑛𝑛 buah sampel acak dari 𝑁𝑁 anggota populasi, sehingga 𝐶𝐶_𝑛𝑛𝑁𝑁 sampel yang berbeda memiliki peluang yang sama untuk dipilih. Dengan begitu, setiap sampel

memiliki probabilitas yang independen dan konstan. Tiap sampel diambil

satu-persatu setelah sebelumnya dinomori dari 1 sampai 𝑁𝑁. Kemudian, bi-langan-bilangan random bernilai di antara 1 sampai 𝑁𝑁 dibangkitkan dan digunakan untuk memilih secara acak.

Terdapat dua macam cara penarikan sampel berdasarkan

pengemba-lian sampel, yaitu sampling tanpa pengembalian dan sampling dengan

pe-ngembalian. Menurut buku Encyclopedia of Statistical Sciences (2006),

“Sampling is said to be with or without replacement according as to

whether or not the same member of the population may be selected more

than once.”, kemungkinan suatu anggota dari populasi dapat dipilih lebih

(33)

Bila sebuah sampel yang diambil pada pengambilan pertama tidak

dikembalikan sebelum pengambilan sampel yang kedua, dan begitu

sete-rusnya, maka cara ini disebut dengan sampling tanpa pengembalian.

Sam-pling dengan metode ini tidak termasuk dalam samSam-pling sederhana karena

probabilitas terpilihnya sampel tidak konstan. Pada sampling tanpa

pen-gembalian, pengambilan pertama pada sebuah himpunan sampel

berukur-an 𝑛𝑛 memiliki probabilitas sebesar 𝑛𝑛 𝑁𝑁⁄ . Pengambilan kedua memiliki probabilitas sebesar (𝑛𝑛 −1) (⁄ 𝑁𝑁 −1) karena anggota sampel dan populasi masing-masing berkurang 1 anggota dengan tidak dilakukannya

pengem-balian sampel. Begitu pula untuk pengambilan ketiga dan seterusnya.

Maka dari itu, untuk sampling tanpa pengembalian, probabilitas semua 𝑛𝑛 buah sampel dapat dipilih dalam 𝑁𝑁 kali pengambilan adalah:

𝑛𝑛

Pada sampling dengan pengembalian, sampel yang sebelumnya telah

diambil, dikembalikan terlebih dulu sebelum mengambil sampel

berikut-nya. Jadi, sampel ke-i dapat muncul 0,1,2, … ,𝑛𝑛 kali dalam himpunan sampelnya. Karena adanya pengembalian, seluruh unit sampel memiliki

peluang yang sama untuk dipilih, berapa kalipun sampel tersebut sudah

terpilih sebelumnya. Jadi, pada sampling dengan pengembalian,

probabili-tas masing-masing 𝑛𝑛 buah sampel untuk terpilih adalah 1⁄𝑁𝑁.

Alasan dilakukannya sampling yaitu, adalah suatu hal yang mustahil

bila seorang peneliti mengamati seluruh anggota dari populasi. Kalaupun

(34)

waktu dan sumber daya manusia yang tidak sedikit. Suatu populasi,

mi-salnya darah dalam tubuh manusia, tidak mungkin diobservasi seluruhnya

karena pengamatan seperti itu bersifat destruktif bagi populasi. Sering kali

pula populasi dianggap terlalu dinamis, dapat berubah-ubah

sewaktu-waktu, contohnya populasi penduduk suatu daerah. Sebenarnya

peng-amatan secara keseluruhan anggota populasi mungkin saja dilakukan dan

akan menghasilkan keterangan tentang populasi yang lebih tepat dan

aku-rat dibandingkan dengan mengamati sampel. Meskipun begitu, kita perlu

menjaga keseimbangan antara ketepatan hasil dengan banyaknya sumber

daya yang harus dikorbankan dengan mengamati populasi secara

menyelu-ruh. Karena itulah, para peneliti lebih memilih untuk mengamati sampel,

dengan syarat galat pengamatan diminimalisir daripada mengorbankan

ba-nyak sumber daya untuk penelitian populasi. Keterangan tentang populasi

dengan galat yang minimal dianggap cukup memuaskan bagi peneliti.

2. Bilangan Random

Sebelum teknologi komputer dan simulasi matematis berkembang

seperti sekarang ini, bilangan random biasanya didapat dari tabel bilangan

random yang disusun oleh L. H. C. Tippet. Tabel tersebut terdiri dari

10.400 buah bilangan empat digit. Bilangan random ini sangat diperlukan

untuk metode statistika yang bersifat probabilistik, seperti metode

(35)

dibang-kitkan dengan menggunakan komputer, sehingga simulasi matematis dapat

dilakukan dengan mudah.

Sifat bilangan random yang acak diterapkan untuk membangkitkan

nilai dari variabel-variabel random untuk sembarang distribusi. Bilangan

random dibangkitkan dengan menggunakan algoritma numerik. Algoritma

numerik tersebut membuat barisan bilangan yang bersifat deterministik.

Bila dilihat tanpa mengetahui algoritmanya, bilangan-bilangan tersebut

terlihat acak. Sifat acak yang sebenarnya didapatkan dari algoritma inilah

yang menyebabkan sifat semu dari bilangan random tersebut. Maka dari

itu, bilangan random sering kali disebut sebagai bilangan pseudorandom.

3. Pembangkit Bilangan Random

Cara yang paling sederhana untuk membangkitkan bilangan random

yaitu dengan menggunakan Linear Congruential Generators.

Langkah pertama dimulai dengan nilai awal 𝑥𝑥0, lalu secara rekursif menghitung nilai-nilai selanjutnya 𝑥𝑥_𝑛𝑛, 𝑛𝑛 ≥1, dengan rumus:

𝑥𝑥𝑛𝑛 =𝑚𝑚𝑥𝑥𝑛𝑛−1+𝑐𝑐 modulo 𝑛𝑛

di mana 𝑚𝑚,𝑛𝑛 ∈ ℤ+ (ℤ+ adalah himpunan bilangan bulat positif) dan

𝑚𝑚𝑥𝑥𝑛𝑛−1 dapat dibagi oleh 𝑛𝑛 dan sisanya diambil sebagai nilai dari 𝑥𝑥𝑛𝑛.

Se-tiap 𝑥𝑥_𝑛𝑛, nilainya bisa bernilai 0, 1, … ,𝑛𝑛 −1 dan nilai dari 𝑥𝑥_𝑛𝑛⁄𝑛𝑛 lah yang disebut sebagai bilangan random. Bilangan ini diambil sebagai

(36)

Sebagai contoh, bila diambil 𝑚𝑚 = 13, 𝑐𝑐 = 0, 𝑛𝑛= 31, dan 𝑥𝑥0 = 1,

akan didapatkan deret sebagai berikut:

1, 13, 14, 27, 10, 6, 16, 22, …

Rumus rekursif untuk 𝑥𝑥_𝑛𝑛 akan menghasilkan 30 bilangan bulat yang me-rupakan permutasi dari 1 sampai 30. Hal ini akan berulang ketika ketiga

puluh bilangan sudah termuat dalam 30 bilangan pertama dalam deret.

Pe-riode perulangan ini biasanya terjadi pada saat 𝑛𝑛 −1.

Sesuai dengan aturan bilangan random, kita telah mendapatkan

bari-san untuk 𝑥𝑥_𝑛𝑛 dan untuk membangkitkan bilangan random, kita tinggal membagi masing-masing 𝑥𝑥_𝑛𝑛 dengan 𝑛𝑛 = 31. Dengan begitu, kita akan mendapatkan barisan:

0.03225, 0.41935, 0.45161, 0.87097, 0.32258, 0.19355, 0.51613, 0.70968, …

Barisan bilangan itu disebut dengan bilangan pseudorandom.

Pada program MATLAB, bilangan random dapat dibangkitkan

de-ngan mudah, dede-ngan menggunakan fungsi tertentu. Matriks akan

dibang-kitkan dalam bentuk vektor kolom atau matriks. Fungsi pembangkit

bi-langan randomnya adalah

rand(n) dan rand(m,n)

di mana m adalah banyaknya baris dan n adalah banyaknya kolom.

4. Distribusi Sampling

Sebuah statistik pada dasarnya adalah penduga bagi parameter

(37)

popu-lasi tersebut. Statistik berkaitan erat dengan distribusi dari sampel yang

te-lah diamati. Distribusi ini yang menentukan kesimpulan tentang distribusi

dari populasi.

Definisi 2.2.

Statistik adalah sebuah fungsi dari variabel random yang dapat diobservasi

dalam sebuah sampel dan diketahui sebagai konstanta. Statistik digunakan

untuk membuat inferensi (estimasi atau keputusan) tentang parameter

po-pulasi yang tidak diketahui.

Karena statistik adalah fungsi dari variabel random yang diobservasi

dalam sebuh sampel, jadi statistik itu sendiri adalah variabel random.

Dis-tribusi probabilitas dari suatu statistik tersebut disebut distribusi sampling.

Untuk membentuk distribusi sampling secara teoritis dari sebuah statistik,

akan bergantung pada distribusi dari random variabel yang dapat

diobser-vasi pada sampel.

Distribusi sampling yang berkaitan dengan distribusi normal sangat

diperlukan karena dibutuhkan untuk mendekati distribusi normal. Hal ini

disebabkan oleh banyaknya pengamatan konkrit yang memiliki distribusi

yang dapat dimodelkan dengan distribusi normal. Misalkan diberikan

va-riabel random 𝑋𝑋₁,𝑋𝑋2, … ,𝑋𝑋_𝑛𝑛 yang dapat diobservasi pada suatu sampel acak, teorema berikut membentuk distribusi sampling dari statistik

(38)

Teorema 2.1.

Diberikan variabel random 𝑋𝑋1,𝑋𝑋₂, … ,𝑋𝑋_𝑛𝑛 yang secara independen berdis-tribusi normal dengan 𝑆𝑆(𝑋𝑋_𝑡𝑡) =𝜇𝜇_𝑡𝑡 dan 𝑉𝑉𝑚𝑚𝑛𝑛(𝑋𝑋_𝑡𝑡) =𝜎𝜎_𝑡𝑡2_,_𝑡𝑡_{= 1,2, … ,}_𝑛𝑛_.

Di-definisikan 𝑈𝑈 sebagai

𝑈𝑈 =� 𝑚𝑚_𝑡𝑡𝑋𝑋_𝑡𝑡

𝑛𝑛

𝑡𝑡=1

= 𝑚𝑚1𝑋𝑋1+𝑚𝑚2𝑋𝑋2 +⋯+𝑚𝑚𝑛𝑛𝑋𝑋𝑛𝑛

di mana 𝑚𝑚1,𝑚𝑚2, … ,𝑚𝑚_𝑛𝑛 konstan. Maka 𝑈𝑈 adalah variabel random yang ber-distribusi normal dengan

𝑆𝑆(𝑈𝑈) =� 𝑚𝑚_𝑡𝑡𝜇𝜇_𝑡𝑡

𝑛𝑛

𝑡𝑡=1

𝑉𝑉𝑚𝑚𝑛𝑛(𝑈𝑈) =� 𝑚𝑚_𝑡𝑡2_𝜎𝜎

𝑡𝑡2 𝑛𝑛

𝑡𝑡=1 Bukti:

Karena 𝑋𝑋_𝑡𝑡 berdistribusi normal dengan mean 𝜇𝜇_𝑡𝑡 dan variansi 𝜎𝜎_𝑡𝑡2, 𝑋𝑋_𝑡𝑡 memiliki Fungsi Pembangkit Momen (FPM)

𝑛𝑛𝑋𝑋𝑡𝑡(𝑡𝑡) = exp�𝜇𝜇𝑡𝑡𝑡𝑡+

𝜎𝜎𝑡𝑡2𝑡𝑡2

2 �

maka dari itu, 𝑚𝑚_𝑡𝑡𝑋𝑋_𝑡𝑡 memiliki FPM

𝑛𝑛𝑚𝑚𝑡𝑡𝑋𝑋𝑡𝑡(𝑡𝑡) =𝑆𝑆(𝑃𝑃𝑡𝑡𝑚𝑚𝑡𝑡𝑋𝑋𝑡𝑡) =𝑛𝑛𝑋𝑋𝑡𝑡(𝑚𝑚𝑡𝑡𝑡𝑡) = exp�𝜇𝜇𝑡𝑡𝑚𝑚𝑡𝑡𝑡𝑡+

𝑚𝑚𝑡𝑡2𝜎𝜎𝑡𝑡2𝑡𝑡2

2 �

Karena 𝑋𝑋_𝑡𝑡 independen, maka 𝑚𝑚_𝑡𝑡𝑋𝑋_𝑡𝑡 juga independen untuk 𝑡𝑡 = 1,2, … ,𝑛𝑛, maka

(39)

(40)

dengan 𝑚𝑚1 = 1⁄𝑛𝑛, 𝑡𝑡= 1,2, … ,𝑛𝑛.

Maka dari itu, Teorema 2.1 dapat digunakan untuk menyimpulkan bahwa

𝑋𝑋� berdistribusi normal dengan

𝑆𝑆(𝑋𝑋�) =𝑆𝑆 �1

Efron (1993) menjelaskan bahwa bila diberikan variabel random 𝑋𝑋 dengan fungsi probabilitas 𝑓𝑓(𝑋𝑋), nilai harapan 𝑆𝑆(𝑋𝑋), dan variansi

𝑉𝑉𝑚𝑚𝑛𝑛(𝑋𝑋), galat standar dari mean 𝑋𝑋�, yang dinotasikan sebagai 𝑆𝑆𝑆𝑆(𝑋𝑋�)

ada-lah akar dari variansi dari 𝑋𝑋�, yaitu

(41)

Teorema 2.3. (Teorema Limit Pusat)

maka fungsi distribusi dari 𝑈𝑈_𝑛𝑛 akan mendekati fungsi distribusi normal stan-dar dengan 𝑛𝑛 → ∞.

Bukti:

Sebuah variabel random didefinisikan sebagai berikut

(42)

Mengingat bahwa fungsi pembangkit momen dari jumlahan

variabel-variabel random yang independen adalah perkalian dari fungsi pembangkit

momen individualnya masing-masing, maka

𝑛𝑛𝑛𝑛(𝑡𝑡) =�𝑛𝑛𝑍𝑍� 𝑡𝑡

𝑛𝑛 → ∞. Salah satu cara untuk menghitung nilai limit tersebut adalah

den-gan menggunakan ln𝑛𝑛_𝑛𝑛(𝑡𝑡), di mana

di mana suku-suku selanjutnya dalam ekspansi tersebut melibatkan 𝑥𝑥3,𝑥𝑥4, dan seterusnya. Dengan dikalikan dengan 𝑛𝑛, tampak bahwa suku pertama,

(43)

me-miliki 𝑛𝑛 dengan pangkat positif pada penyebutnya. Maka dari itu, dapat ditunjukkan bahwa

lim

𝑛𝑛→∞ln𝑛𝑛𝑛𝑛(𝑡𝑡) =

𝑡𝑡2 2

atau

lim

𝑛𝑛→∞𝑛𝑛𝑛𝑛(𝑡𝑡) =𝑃𝑃 𝑡𝑡2

2

adalah fungsi pembangkit momen untuk variabel random normal standar.

Dengan begitu, kita dapat menyimpulkan bahwa 𝑈𝑈_𝑛𝑛 memiliki fungsi dis-tribusi yang mendekati variabel random normal standar.

Galat standar adalah cara yang paling umum dan sederhana untuk

mengindikasikan keakuratan secara statistikal. Kita mengharapkan 𝑋𝑋� akan berada kurang dari satu galat standar dari 𝜇𝜇, ekspektasinya berkisar 68% dan kurang dari dua galat standar, ekspektasinya sekitar 95%. Persentase

tersebut berasal dari Teorema Limit Pusat, dalam kondisi umum, distribusi

dari 𝑋𝑋� akan mendekati distribusi normal seiring dengan membesarnya nilai

𝑛𝑛. Pada kondisi inilah metode Bootstrap lebih menguntungkan kita.

Teo-rema Limit Pusat tersebut tidak perlu dijadikan pedoman utama untuk

mendapatkan pernyataan keakuratan statistik penduga mengenai populasi.

Galat standar dari mean dapat kita dekati langsung dengan bootstrap.

Terdapat contoh yang sederhana yang menunjukkan keterbatasan

da-ri Teorema Limit Pusat. Dibeda-rikan 𝑋𝑋₁,𝑋𝑋2, … ,𝑋𝑋_𝑛𝑛 adalah variabel random yang saling independen dan nilai-nilainya memiliki dua kemungkinan,

(44)

berdistribusi binomial dengan 𝑛𝑛 kali ulangan dan probabilitas sukses sebe-sar 𝑝𝑝 dan 𝑌𝑌 adalah jumlahan dari 𝑋𝑋₁,𝑋𝑋2, … ,𝑋𝑋_𝑛𝑛.

𝑌𝑌= � 𝑋𝑋_𝑡𝑡

𝑛𝑛

𝑡𝑡=1

Variabel random 𝑋𝑋₁,𝑋𝑋2, … ,𝑋𝑋_𝑛𝑛 saling independen karena ulangannya saling bebas. Maka dari itu, untuk 𝑛𝑛 yang besar, proporsi ulangan yang sukses adalah

𝑌𝑌 𝑛𝑛 =

1 𝑛𝑛 � 𝑋𝑋𝑡𝑡

𝑛𝑛

𝑡𝑡=1

= 𝑋𝑋�

Jadi 𝑋𝑋� akan memiliki distribusi sampling yang mendekati distribusi nor-mal dengan mean 𝑆𝑆(𝑋𝑋_𝑡𝑡) =𝑝𝑝 dan 𝑉𝑉𝑚𝑚𝑛𝑛(𝑋𝑋_𝑡𝑡)⁄𝑛𝑛= 𝑝𝑝(1− 𝑝𝑝)⁄𝑛𝑛.

Pendekatan normal untuk distribusi binomial akan bekerja dengan

efektif untuk 𝑛𝑛 yang besar, tetapi ketika nilai 𝑝𝑝 mendekati 0 atau 1, atau dapat juga dikatakan nilai 𝑝𝑝 yang berada di sekitar 0.5, pendekatan ini ti-dak lagi efektif. Gambar 2.1 dan Gambar 2.2 berikut menggambarkan

ke-lemahan Teorema Limit Pusat dalam pendekatan normal untuk distribusi

binomial tersebut. Hal ini terjadi karena Teorema Limit Pusat memiliki

kesimetrisan dalam segi bentuk, dan untuk nilai 𝑝𝑝 yang berada di sekitar 0.5, distribusi binomial memiliki kesimetrisan, sehingga pendekatan

(45)

B. Estimasi

Penentuan penduga atau estimator untuk suatu parameter populasi

(con-tohnya: mean, proporsi, dll) merupakan salah satu masalah yang mendasar

da-lam statistika. Cara untuk mengestimasi penduga tersebut dibedakan menjadi

dua, yaitu estimasi titik dan estimasi interval.

Gambar 2.1. Untuk 𝑛𝑛= 25 dan 𝑝𝑝= 0.25, pendekatan normal untuk dis-tribusi binomial memberikan pendekatan yang baik.

Gambar 2.2. Untuk 𝑛𝑛 = 25 dan 𝑝𝑝= 0.95, pendekatan normal untuk dis-tribusi binomial tidak memberikan pendekatan yang baik karena nilai

(46)

Definisi 2.3.

Estimator adalah aturan yang menentukan bagaimana menghitung sebuah

penduga berdasarkan pengukuran (observasi) yang termuat dalam sebuah

sampel.

1. Estimasi Titik Definisi 2.4.

Penentuan suatu nilai tunggal yang dapat sebaik-baiknya mendekati nilai

parameter populasi yang tidak diketahui disebut sebagai estimasi titik.

Bila 𝜃𝜃 adalah parameter populasi dan 𝜃𝜃� adalah penduga dari 𝜃𝜃, maka kita berharap nilai-nilai dugaan akan berada di sekitar parameter yang

di-tuju. Ada banyak kemungkinan, bisa saja penduga akan berpusat di

seki-tar parameter tujuan ataupun tidak. Bila penduga berada di sekiseki-tar

para-meter tujuan, maka nilai harapan dari distribusi nilai dugaan akan sama

dengan parameter yang diduga (𝑆𝑆�𝜃𝜃��=𝜃𝜃). Sebagai contoh, 𝑋𝑋�, 𝑝𝑝̂, dan

𝑋𝑋�1− 𝑋𝑋�2 adalah penduga titik yang baik.

2. Estimasi Interval Definisi 2.5.

Penentuan suatu selang nilai yang dengan peluang besar memuat

(47)

Estimasi interval bertujuan untuk membangun suatu selang nilai dari

parameter tujuan yang berpeluang besar memuat nilai sebenarnya dari

pa-rameter tujuan. Selang kepercayaan dari papa-rameter populasi juga

diguna-kan untuk mengindikasidiguna-kan reliabilitas dari sebuah penduga.

Informasi-informasi yang terdapat pada sampel digunakan untuk membentuk dua

buah nilai yang membentuk batas atas dan batas bawah selang. Bila

dike-tahui 𝜃𝜃 dan 𝜃𝜃� (penduga dari 𝜃𝜃), maka berdasarkan batas atas dan bawah selang, terdapat tiga bentuk selang kepercayaan yaitu, �𝜃𝜃�_𝑐𝑐,𝜃𝜃�_𝑟𝑟�,�𝜃𝜃�_𝑐𝑐,∞�,

dan �∞,𝜃𝜃�_𝑟𝑟�.

Definisi 2.6.

Diberikan 𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛 memiliki fungsi distribusi probabilitas

𝑓𝑓(𝑥𝑥₁,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛;𝜃𝜃);𝜃𝜃 ∈ 𝛀𝛀, di mana 𝛀𝛀 adalah sebuah selang. Diketahui 𝐿𝐿 dan 𝑈𝑈 adalah statistik, misalkan 𝐿𝐿= 𝑐𝑐(𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛) dan 𝑈𝑈 = 𝑟𝑟(𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛). Bila dalam sebuah data percobaan 𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛,

ke-mudian telah dicari nilai 𝑐𝑐(𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛) dan 𝑟𝑟(𝑥𝑥₁,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛).

Selang �𝑐𝑐(𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛),𝑟𝑟(𝑥𝑥1,𝑥𝑥2, … , 𝑥𝑥_𝑛𝑛)� dikatakan selang kepercayaan

(1− 𝛼𝛼)100% untuk 𝜃𝜃 bila

𝑃𝑃[𝑐𝑐(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛) <𝜃𝜃 <𝑟𝑟(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛)] = 1− 𝛼𝛼

di mana 0 < (1− 𝛼𝛼) < 1. Nilai observasi 𝑐𝑐(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛) dan 𝑟𝑟(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛)

secara berturut-turut disebut sebagai batas bawah dan batas atas selang

(48)

(1− 𝛼𝛼) adalah simbol untuk probabilitas dari selang kepercayaan atau juga disebut sebagai koefisien kepercayaan atau tingkat kepercayaan.

Tingkat kepercayaan ini menentukan seberapa sering atau seberapa besar

peluang sebuah selang memuat parameter populasi tujuan.

Bentuk selang pada Definisi 2.6 merupakan bentuk selang

keper-cayaan dua sisi sedangkan pada Definisi 2.7 berikut akan didefinisikan

bentuk selang kepercayaan satu sisi.

Definisi 2.7.

Selang Kepercayaan Satu Sisi

a. Bila

𝑃𝑃[𝑐𝑐(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛) <𝜃𝜃] = 1− 𝛼𝛼

maka 𝑐𝑐(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛) disebut sebagai batas bawah selang kepercayaan

(1− 𝛼𝛼)100% satu sisi b. Bila

𝑃𝑃[𝜃𝜃< 𝑟𝑟(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛)] = 1− 𝛼𝛼

maka 𝑟𝑟(𝑥𝑥1, … ,𝑥𝑥_𝑛𝑛) disebut sebagai batas atas selang kepercayaan

(1− 𝛼𝛼)100% satu sisi

C. Regresi Linear Berganda

1. Model Regresi Linear Berganda

Dalam analisis regresi, model regresi linear memuat dua variabel

(49)

ju-ga disebut sebaju-gai variabel respons), 𝑥𝑥_{𝑡𝑡𝑗𝑗} = (𝑥𝑥_𝑡𝑡1,𝑥𝑥𝑡𝑡2, … ,𝑥𝑥𝑡𝑡𝑘𝑘) adalah

varia-bel independen atau regressor, di mana 𝑡𝑡= 1,2, … ,𝑛𝑛 dan 𝑗𝑗 = 1,2, … ,𝑘𝑘. Pada dasarnya, persamaan regresi linear merupakan kombinasi linear dari

𝑥𝑥𝑡𝑡𝑗𝑗 dan 𝛽𝛽𝑗𝑗.

𝑦𝑦𝑡𝑡 =� 𝛽𝛽𝑗𝑗𝑥𝑥𝑡𝑡𝑗𝑗 𝑘𝑘

𝑗𝑗=1

di mana 𝛽𝛽_𝑗𝑗 = (𝛽𝛽1,𝛽𝛽2, … ,𝛽𝛽_𝑘𝑘) adalah koefisien regresi yang merupakan tu-juan dari analisis regresi yang disimpulkan berdasarkan observasi 𝑥𝑥_{𝑡𝑡𝑗𝑗}.

Ni-lai-nilai 𝛽𝛽_𝑗𝑗 didekati dengan menggunakan 𝛽𝛽̂_𝑗𝑗 sebagai penduga.

Struktur probabilitas dari model regresi linear biasanya dinyatakan

dalam bentuk matriks dan vektor adalah sebagai berikut.

(50)

2. Metode Kuadrat Terkecil

Metode kuadrat terkecil adalah sebuah prosedur untuk mendekati

pa-rameter yang tidak diketahui dari sebuah model linear. Pengilustrasian

prosedur ini secara sederhana adalah dengan mencocokkannya dengan

ga-ris lurus yang paling dekat dengan himpunan titik-titik. Bila kita

meng-inginkan untuk menentukan model

𝑦𝑦=𝛽𝛽0+𝛽𝛽1𝑥𝑥1+𝛽𝛽2𝑥𝑥2+⋯+𝛽𝛽_𝑘𝑘𝑥𝑥_𝑘𝑘+𝜀𝜀

di mana model tersebut linear dalam parameter 𝛽𝛽_𝑡𝑡. Bila nilai-nilai penga-matan dinyatakan sebagai 𝑥𝑥_𝑡𝑡₁,𝑥𝑥_𝑡𝑡2, … ,𝑥𝑥𝑡𝑡𝑘𝑘,𝑦𝑦𝑡𝑡 diambil secara acak dari suatu

populasi untuk 𝑡𝑡 = 1,2, … ,𝑛𝑛 dan 𝜀𝜀 adalah galatnya, yang memiliki nilai harapan 𝑆𝑆(𝜀𝜀|𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑘𝑘) = 0 yang mengakibatkan 𝑆𝑆(𝜀𝜀) = 0. Agar lebih jelas, galat dari suatu model akhir regresi linear

𝑦𝑦�𝑡𝑡 =𝛽𝛽̂0+𝛽𝛽̂1𝑥𝑥𝑡𝑡1+𝛽𝛽̂2𝑥𝑥𝑡𝑡2+⋯+𝛽𝛽̂𝑘𝑘𝑥𝑥𝑡𝑡𝑘𝑘

adalah

𝜀𝜀𝑡𝑡 = 𝑦𝑦𝑡𝑡 − 𝑦𝑦�𝑡𝑡

𝜀𝜀𝑡𝑡 = 𝑦𝑦𝑡𝑡 − 𝛽𝛽̂0− 𝛽𝛽̂1𝑥𝑥𝑡𝑡1− 𝛽𝛽̂2𝑥𝑥𝑡𝑡2− ⋯ − 𝛽𝛽̂𝑘𝑘𝑥𝑥𝑡𝑡𝑘𝑘

Maka tujuan utama dari metode kuadrat terkecil adalah mencari

per-samaan yang meminimalkan jumlahan dari kuadrat selisih antara titik-titik

dan garisnya atau galatnya.

� 𝜀𝜀𝑡𝑡2 𝑛𝑛

𝑡𝑡=1

=��𝑦𝑦_𝑡𝑡− 𝛽𝛽̂0− 𝛽𝛽̂1𝑥𝑥_𝑡𝑡1− 𝛽𝛽̂2𝑥𝑥𝑡𝑡2− ⋯ − 𝛽𝛽̂𝑘𝑘𝑥𝑥𝑡𝑡𝑘𝑘� 2

𝑛𝑛

𝑡𝑡=1

Persamaan di atas adalah jumlahan kuadrat dari galat atau sering kali

(51)

atas minimum, akan memenuhi untuk seluruh nilai 𝛽𝛽_𝑗𝑗 untuk 𝑗𝑗 = 0,1, … ,𝑘𝑘. Dengan mengambil turunan parsial dari persamaan kuadrat tersebut

terha-dap 𝛽𝛽_𝑗𝑗 dan menyamakannya dengan nol, akan diperoleh

𝜕𝜕(∑𝑛𝑛 𝜀𝜀_𝑡𝑡2

Keseluruh persamaan di atas akan diselesaikan dalam bentuk

ma-triks. Jumlahan pada ruas sebelah kanan, mengandung elemen-elemen

(52)

3. Sifat-Sifat Penduga Kuadrat Terkecil

Dalam metode kuadrat terkecil, terdapat sifat-sifat penduga yang

baik. Bila dipandang model umum regresi linear yang berbentuk

𝐘𝐘=𝐗𝐗𝛃𝛃+𝛆𝛆

dan dianggap bahwa 𝜀𝜀_𝑡𝑡 saling bebas satu sama lain, serta 𝑆𝑆(𝜀𝜀_𝑡𝑡) = 0,

𝑉𝑉𝑚𝑚𝑛𝑛(𝜀𝜀_𝑡𝑡) =𝜎𝜎2_{, untuk setiap}_𝑡𝑡 _{= 1,2, … ,}_𝑛𝑛_{. Dalam lambang matriks, ini}

be-rarti 𝑉𝑉𝑚𝑚𝑛𝑛(𝜀𝜀_𝑡𝑡) =𝜎𝜎2_𝐼𝐼_{, bila}_𝐼𝐼_{menyatakan matriks satuan berukuran}_𝑛𝑛_×_𝑛𝑛_,

dengan demikian bila 𝐗𝐗 tidak memiliki distribusi sehingga diperlakukan sebagai konstanta, maka

𝑆𝑆(𝐘𝐘) =𝐗𝐗𝛃𝛃

dan

𝑉𝑉𝑚𝑚𝑛𝑛(𝑌𝑌) =𝜎𝜎2𝐼𝐼

Jadi sifat-sifat dari penduga 𝛃𝛃�= (𝐗𝐗′𝐗𝐗)−1𝐗𝐗′𝐘𝐘adalah a. Tak Bias (𝑆𝑆�𝛽𝛽̂_𝑗𝑗�= 𝛽𝛽_𝑗𝑗,𝑡𝑡= 0,1, … ,𝑘𝑘)

𝑆𝑆�𝛃𝛃��=𝑆𝑆((𝐗𝐗′𝐗𝐗)−1_𝐗𝐗′_𝐘𝐘₎ = (𝐗𝐗′𝐗𝐗)−1_𝐗𝐗′_𝐄𝐄₍_𝐘𝐘₎ = (𝐗𝐗′𝐗𝐗)−1_𝐗𝐗′_{𝐗𝐗𝛃𝛃} =𝛃𝛃

b. Variansi Minimum 𝑉𝑉𝑚𝑚𝑛𝑛�𝛽𝛽̂_𝑗𝑗�= 𝜎𝜎2_𝑐𝑐

𝑡𝑡𝑡𝑡,𝑐𝑐𝑡𝑡𝑡𝑡 adalah elemen pada baris ke-𝑡𝑡 dan kolom ke-𝑡𝑡 dari matriks (𝐗𝐗′𝐗𝐗)−1

(53)

=𝜎𝜎2(𝐗𝐗′𝐗𝐗)−1

Variansi dari 𝛃𝛃� merupakan variansi minimum dari semua penduga tak bias. Hal ini dijamin oleh teorema Gauss-Markov berikut.

Teorema 2.4.

Penduga kuadrat terkecil 𝛃𝛃�= (𝐗𝐗′𝐗𝐗)−1𝐗𝐗′𝐘𝐘 memiliki variansi terkecil da-lam himpunan semua penduga linear tak bias.

Bukti:

Misalkan 𝛂𝛂 adalah penduga linear lain dari 𝛃𝛃yang juga tak bias, ka-rena itu 𝛂𝛂dapat di misalkan dengan bentuk berikut

𝛂𝛂= [(𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′ +𝐔𝐔]𝐘𝐘

di mana 𝐔𝐔 adalah suatu matriks yang merupakan fungsi dari 𝐗𝐗, maka

𝐄𝐄(𝛂𝛂) =𝐄𝐄[((𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′ +𝐔𝐔)𝐘𝐘]

= [(𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′ +𝐔𝐔]𝐄𝐄(𝐘𝐘) = [(𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′ +𝐔𝐔](𝐗𝐗𝛃𝛃) = (𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′𝐗𝐗𝛃𝛃+𝐔𝐔𝐗𝐗𝛃𝛃 = (𝐼𝐼+𝐔𝐔𝐗𝐗)𝛃𝛃

agar 𝛂𝛂menjadi penduga tak bias dari 𝛃𝛃, maka 𝐔𝐔𝐗𝐗=𝟎𝟎. Jadi,

𝑉𝑉𝑚𝑚𝑛𝑛(𝛂𝛂) = ((𝐗𝐗′𝐗𝐗)−𝟏𝟏𝐗𝐗′ +𝐔𝐔)𝑉𝑉𝑚𝑚𝑛𝑛(𝐘𝐘)(𝐔𝐔′ +𝐗𝐗(𝐗𝐗′𝐗𝐗)−𝟏𝟏)

(54)

Karena 𝐔𝐔𝐗𝐗= 𝐗𝐗′𝐔𝐔′ =𝟎𝟎 dan matriks 𝐔𝐔𝐔𝐔′ adalah definit tak negatif, semua unsur diagonalnya berbentuk kuadrat. Jadi terbukti bahwa variansi

dari setiap unsur dari vektor 𝛂𝛂 selalu lebih besar atau paling kecil sama dengan variansi unsur 𝛃𝛃� yang bersesuaian. Seringkali 𝛃𝛃� disebut sebagai

Best Linear Unbiased Estimator (BLUE).

4. Selang Kepercayaan Untuk Parameter Regresi

Dalam model regresi linear berganda, dapat pula ditentukan selang

kepercayaan untuk parameter regresi. Untuk 𝑛𝑛< 30, diberikan statistik

𝑡𝑡(𝑡𝑡,𝛼𝛼⁄2) dengan derajat bebas 𝑡𝑡 =𝑛𝑛 − 𝑝𝑝, di mana 𝑛𝑛 adalah ukuran sampel

dan 𝑝𝑝= 𝑘𝑘+ 1 ditentukan dari banyaknya parameter. Maka selang keper-cayaan (1− 𝛼𝛼)100% untuk 𝛽𝛽_𝑡𝑡 adalah

𝛽𝛽̂𝑡𝑡 − 𝑡𝑡(𝑡𝑡,𝛼𝛼⁄2)𝑠𝑠�𝑐𝑐𝑡𝑡𝑡𝑡 <𝛽𝛽𝑡𝑡 <𝛽𝛽̂𝑡𝑡 +𝑡𝑡(𝑡𝑡,𝛼𝛼⁄2)𝑠𝑠�𝑐𝑐𝑡𝑡𝑡𝑡

dengan 𝑡𝑡= 0,1,2, … ,𝑘𝑘 di mana 𝑐𝑐_{𝑡𝑡𝑡𝑡} adalah elemen dari baris ke-𝑡𝑡 dan ko-lom ke-𝑡𝑡 dari matriks (𝐗𝐗′𝐗𝐗)−1 dan 𝑠𝑠 adalah penduga tak bias dari 𝜎𝜎 dan didefinisikan sebagai berikut.

𝑠𝑠2 ₌𝐘𝐘′𝐘𝐘 − 𝛃𝛃�′𝐗𝐗′𝐘𝐘 𝑛𝑛 − 𝑝𝑝

Variansi dari model regresi linear tersebut diduga dengan

(55)

BAB III

METODE BOOTSTRAP

A. Prinsip Dasar dan Algoritma Metode Bootstrap

Kvam dan Vidakovic (2007) menyatakan bahwa dengan resampling, kita

berniat untuk mengambil sampel acak dari sampel. Misalkan sampel yang

te-lah diambil adate-lah 𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛 dipandang sebagai sampel asli yang mewakili suatu populasi terhingga dengan ukuran n. Sampel baru (biasanya berukuran

n pula) diambil secara “sampling dengan pengembalian”, maka beberapa dari

n sampel asli dapat muncul lebih dari satu kali. Kumpulan sampel baru ini

disebut sampel bootstrap. Metode tersebut dinamakan dengan Metode

Boot-strap. Agar lebih dapat memahami metode bootstrap, Gambar 3.1

menje-laskan tahapannya dalam bentuk skema.

Dari sampel asli 𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛 diambil b buah sampel bootstrap. Setiap sampel bootstrap (x*1, x*2, …, x*b) memiliki n buah anggota yang diambil

se-𝑥𝑥∗1 𝑥𝑥∗2 𝑥𝑥∗𝑏𝑏

𝑠𝑠(𝑥𝑥∗1) 𝑠𝑠(𝑥𝑥∗2) … 𝑠𝑠(𝑥𝑥∗𝑏𝑏)

…

𝑋𝑋= {𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛} _{Sampel Asli}

Sampel Bootstrap Replikasi bootstrap

(56)

cara sampling dengan pengembalian n kali dari data sampel asli. Replikasi

bootstraps(x*1), s(x*2), …, s(x*b) didapatkan dengan menghitung nilai statistik

tertentu, misalkan s(x) pada setiap sampel bootstrap. Akhirnya, standar

devia-si dari nilai-nilai s(x*1), s(x*2), …, s(x*b) adalah penduga dari galat standar dari

s(x). Galat standar inilah yang merupakan tujuan utama dari metode bootstrap,

yang kemudian dapat digunakan untuk membangun selang kepercayaan

boot-strap.

Secara umum, kita dapat mengurutkan langkah-langkah untuk metode

bootstrap secara umum. Misalkan pada suatu populasi, diambil 𝑛𝑛 buah sam-pel acak yaitu 𝑋𝑋= {𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛}. Dari 𝑛𝑛 buah sampel acak tersebut, akan di-ambil sebanyak 𝑏𝑏 unit sampel bootstrap, yaitu 𝑥𝑥∗1,𝑥𝑥∗2, … ,𝑥𝑥∗𝑏𝑏. Masing-masing unit sampel tersebut adalah vektor yang terdiri dari 𝑛𝑛 buah sampel yang diambil dengan pengembalian. Notasi bintang tersebut menandakan

bahwa vektor kumpulan data tersebut adalah hasil resampel dari sampel asli.

𝑋𝑋∗_{bukanlah himpunan data sampel asli}₍_𝑥𝑥₎_.

Sampel bootstrap tersebut akan berupa vektor-vektor yang

masing-masing terdiri dari 𝑛𝑛 buah nilai. Nilai-nilai dari sampel asli dapat muncul be-berapa kali karena adanya pengembalian sampel sebelum pengambilan

kem-bali sampel berikutnya. Dengan begitu setiap sampel bootstrap juga bisa

me-miliki beberapa data asli yang terwakili lebih dari sekali, atau bahkan tidak

terwakili sama sekali. Maka dari itu, sampel bootstrap ini bisa saja sama

(57)

Pengambilan unit-unit sampel bootstrap dengan pengembalian dilakukan

sampai 𝑏𝑏 kali sehingga terdapat 𝑏𝑏 unit sampel bootstrap. Besarnya nilai 𝑏𝑏 umumnya diambil dalam jumlah yang besar, karena semakin besar nilai 𝑏𝑏, maka distribusi sampling yang didekati akan semakin mendekati distribusi

normal. Secara teoritis, besar nilai 𝑏𝑏 tidak pernah dibatasi, bisa sebesar mungkin, asal kita memiliki kesabaran untuk membentuk sampel-sampel

bootstrap tersebut. Lagipula, jikalau nilai 𝑏𝑏 terlampau besar, hal itu tidak lagi menjadi masalah karena semua proses penghitungan dilakukan dengan

kom-puter. Setelah didapatkan 𝑏𝑏 buah sampel bootstrap, hal yang dilakukan selan-jutnya adalah menghitung statistik dari masing-masing sampel bootstrap untuk

menduga galat standar dari parameter penduga yang disimbolkan 𝜃𝜃�. Statistik uji untuk masing-masing sampel bootstrap disimbolkan sebagai

𝑠𝑠(𝑥𝑥∗1),𝑠𝑠(𝑥𝑥∗2), … ,𝑠𝑠(𝑥𝑥∗𝑏𝑏). Statistik uji tersebut bisa berupa mean, median, atau proporsi. Seluruh standar deviasi dari statistik uji tersebut akan

diguna-kan untuk mengestimasi galat standar dari 𝑠𝑠(𝑥𝑥)atau 𝜃𝜃�. Pendugaan galat stan-dar stan-dari 𝜃𝜃� tersebut adalah tujuan utama dari metode bootstrap ini. Seluruh proses pendekatan nilai ini akan langsung menggunakan kalkulasi dengan

komputer tanpa memerlukan kalkulasi teoritis.

Untuk setiap pengambilan kesimpulan langsung berdasarkan

distribu-sinya, terlihat jelas bahwa sampel bootstrap tidak sebaik sampel asli. Bila kita

(58)

be-rubah-ubah dari sampel ke sampel. Hal ini disebabkan karena elemen-elemen

dari masing-masing sampel bootstrap bisa sama atau sama sekali berbeda

den-gan sampel asli seperti yang telah dijelaskan sebelumnya. Daripada kita

hanya dapat menghitung 𝜃𝜃�_𝑛𝑛 sekali saja karena hanya dimiliki satu buah sam-pel sebanyak 𝑛𝑛, lebih baik kita meresampel (sebanyak tak hingga kali secara teoritis) dan membentuk sampel bootstrap. Sebuah meta-estimator dibentuk

dari estimator untuk estimator awal bagi parameter populasi. Dengan begitu,

sebenarnya kita telah membangun sebuah meta-estimator dari sampel

boot-strap (misalkan 𝜃𝜃�∗ =𝑠𝑠(𝑥𝑥∗)) dan meta-estimator tersebut menjelaskan tentang

𝜃𝜃�𝑛𝑛, bukan 𝜃𝜃. Bila kita membangun sampel bootstrap berulang kali, kita dapat

membentuk gambaran secara tak langsung tentang distribusi 𝜃𝜃�_𝑛𝑛 dan dari situ, kita dapat membentuk suatu pernyataan tentang 𝜃𝜃.

Secara sederhana, metode bootstrap untuk pengambilan sampel dapat

di-tuliskan dalam algoritma berikut:

1. Bangun distribusi probabilitas empiris 𝑓𝑓̂(𝑥𝑥) dari sampel acak 𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛

dengan menempatkan probabilitas 1⁄𝑛𝑛 pada setiap titik di 𝑥𝑥1,𝑥𝑥2, … ,𝑥𝑥_𝑛𝑛. Ini adalah fungsi distribusi empiris dari 𝑥𝑥, yang merupakan pendekatan (kemungkinan maksimum) maximum likelihood dari fungsi distribusi

pro-babilitas untuk populasi 𝑓𝑓(𝑥𝑥).

2. Dari distribusi probabilitas empiris tersebut, ambil sampel acak sederhana

sebanyak 𝑛𝑛 buah dengan pengembalian. Sampel inilah yang disebut sam-pel bootstrap. Notasikan kumpulan samsam-pel bootstrap ini dengan tanda

(59)

3. Hitung statistik yang dituju, yaitu 𝜃𝜃� (mean, proporsi, dst) untuk masing-masing sampel bootstrap. Notasikan dengan 𝜃𝜃�∗𝑏𝑏.

4. Ulangi langkah ke-2 dan ke-3 sebanyak 𝑏𝑏 kali, di mana 𝑏𝑏 adalah bilangan yang besar nilainya. Biasanya 𝑏𝑏 tidak dibatasi, tetapi diambil antara 50 sampai 200 untuk mengestimasi galat standar dari 𝜃𝜃� dan minimal 𝑏𝑏 berni-lai 1000 untuk mengestimasi interval kepercayaan di sekitar 𝜃𝜃�. (Mooney & Duval, 1993)

5. Bangun distribusi probabilitas dari 𝑏𝑏 buah 𝜃𝜃�∗𝑏𝑏 dengan menempatkan pro-babilitas 1⁄𝑏𝑏 pada setiap titik 𝜃𝜃�∗1,𝜃𝜃�∗2, … ,𝜃𝜃�∗𝑏𝑏. Distribusi ini adalah esti-masti bootstrap dari distribusi sampling 𝜃𝜃�, 𝑓𝑓∗(𝜃𝜃�∗).

Basis pendekatan bootstrap secara statistikal adalah memperlakukan

sampel seolah-olah sampel tersebut adalah populasi dan menerapkan metode

sampling Monte Carlo (random sampling) untuk membangkitkan pendekatan

empiris dari statistik distribusi samplingnya. Prosedur dalam metode

boot-strap secara garis besar adalah sebagai berikut:

Langkah 1: Resampling

Pada awal pengambilan sampel acak dari suatu populasi, biasanya hanya

diambil satu unit sampel acak berukuran 𝑛𝑛 buah (untuk selanjutnya akan dis-ebut sebagai sampel asli). Agar memiliki jumlah sampel yang lebih banyak,

maka dilakukan resampling dari satu buah sampel acak tersebut. Resampling

dilakukan dengan metode sampling dengan pengembalian dan berukuran sama

(60)

Setiap kali kita mengambil sebuah resampel acak dari sampel asli,

sam-pel tersebut dikembalikan terlebih dahulu sebelum dilakukannya pengambilan

resampel yang berikutnya, inilah yang dimaksud dengan resampling dengan

pengembalian. Dengan adanya pengembalian sampel, nilai-nilai observasi

pada sampel acak asli tersebut akan dapat diambil lebih dari sekali, ataupun

sama sekali tidak terambil. Bila yang dilakukan adalah sampling tanpa

pen-gembalian, yang akan kita dapatkan hanyalah satu buah sampel acak yang

me-rupakan permutasi dari sampel asli. Tak menutup kemungkinan pula, hasil

re-sampel akan sama dengan re-sampel asli. Kumpulan hasil rere-sampel baru ini

di-sebut sampel bootstrap.

Contoh berikut diharapkan dapat memberikan gambaran besar tentang

langkah di atas.

Contoh 3.1. (Sumber: Introduction of the Practice Statistics oleh D. Moore, hal. 16-3)

Di Amerika, banyak terdapat perusahaan yang menawarkan jasa layanan

telepon lokal. Bukanlah suatu ketertarikan publik untuk mendapati seluruh

perusahaan tersebut menggali jalan hanya untuk memendam kabel, jadi

peru-sahaan telepon lokal utama di setiap daerah harus (untuk bayaran tertentu)

berbagi jaringan dengan kompetitornya. Istilah legal untuk perusahaan

tele-pon lokal utama ini adalah Incumbent Local Exchange Carrier, ILEC. Para

(61)

Verizon adalah ILEC untuk suatu area besar di Amerika bagian timur,

seperti seharusnya, mereka harus menyediakan jasa perbaikan untuk

pelang-gan dari CLECs di area tersebut. Apakah Verizon memberikan layanan

per-baikan untuk pelanggan CLEC secepat (dalam rata-rata) seperti kepada

pe-langgannya sendiri? Bila tidak, itu keputusan pelanggan untuk meminta ganti

rugi. Komisi Perangkat Publik lokal memerlukan penggunaan dari tes uji sig-nifikansi untuk membandingkan waktu perbaikan untuk kedua grup pelanggan.

Waktu perbaikan jauh dari normal. Gambar 3.2 dan 3.3 menggambarkan

distribusi dari sampel random dari 1664 kali perbaikan untuk pelanggan

Veri-zon sendiri. Distribusinya memiliki ekor kanan yang sangat panjang.

Me-diannya adalah 3.59 jam, tetapi meannya adalah 8.41 jam dan waktu perbaikan

terlama adalah 191.6 jam. Kita ragu untuk menggunakan prosedur 𝑡𝑡 untuk da-ta seperti itu, teruda-tama karena ukuran sampel bagi pelanggan CLEC lebih kecil

dari pelanggan Verizon sendiri.

Gambar 3.2. Distribusi dari 1664 kali perbaikan untuk pelanggan Verizon.

Waktu perbaikan (dalam jam)

B

anya

knya

pe

rba

ik

(62)

Resampling dan sampling dengan pengembalian pada Contoh 3.1

dije-laskan dalam Gambar 3.4 berikut.

Gambar 3.3. Plot quantil normal untuk jumlah waktu perbaikan. Distribusinya sangat condong ke kanan.

Nilai normal

W

ak

tu

p

erb

aik

an

(d

ala

m ja

m)

𝑥𝑥∗1 _𝑥𝑥∗2 _𝑥𝑥∗3

Gambar 3.4. Kotak teratas adalah sampel acak asli dengan

𝑛𝑛 = 6 dari data Verizon. Tiga kotak di bawahnya adalah tiga unit resampel dari sampel asli (𝑏𝑏= 3). Beberapa nilai dari sam-pel asli muncul berulang kali dalam resamsam-pel.

𝑥𝑥̅∗1_{= 4.13} {1,57; 0,22; 19,67;

0,00; 0,22; 3,12}

{0,00; 2,20; 2,20; 2,20; 19,67; 1.57}

𝑥𝑥̅∗2_{= 4.64} _𝑥𝑥̅∗3_{= 1.74} {0,22; 3,12; 1,57;

3,12; 2,20; 0,22}

(63)

Setelah dilakukan resampling, hal berikutnya yang dilakukan adalah

menghitung replikasi bootstrap (pada contoh ini akan dihitung rata-rata

sam-pel) untuk sampel asli dan setiap sampel bootstrap. Gambar 3.4 menunjukkan

bahwa bagaimana nilai replikasi bootstrap, dalam hal ini rata-rata sampel

bootstrap dapat berubah-ubah di setiap sampel bootstrap. Pada sampel

boot-strap ke-1, ke-2, dan ke-3, secara berturut-turut rata-ratanya adalah 4.13, 4.64,

dan 1.74. Nilai-nilai observasi dari sampel asli juga ada yang muncul

bebera-pa kali di sampel bootstrap.

Secara umum, rumus untuk menghitung rata-rata sampel bootstrap, yang

disimbolkan menjadi mean_{𝑏𝑏𝑛𝑛𝑛𝑛𝑡𝑡} adalah sebagai berikut.

mean_{𝑏𝑏𝑛𝑛𝑛𝑛𝑡𝑡} =1

𝑏𝑏 � 𝑥𝑥̅∗𝑡𝑡

𝑏𝑏

𝑡𝑡=1

Setelah itu, galat standar dari mean sampel bootstrap juga dapat

dipero-leh dengan rumus berikut ini.

SE_{𝑏𝑏𝑛𝑛𝑛𝑛𝑡𝑡} =� 1

𝑏𝑏 −1�(𝑥𝑥̅∗𝑡𝑡 −mean𝑏𝑏𝑛𝑛𝑛𝑛𝑡𝑡) 2

𝑏𝑏

𝑡𝑡=1

Langkah 2: Distribusi Bootstrap

Dari statistik yang telah dihitung nilainya, dapat diperoleh distribusi

samplingnya. Distribusi bootstrap dari sebuah statistik menghimpun seluruh

nilai-nilai tersebut dari hasil resampel pada Langkah 1. Distribusi bootstrap

inilah yang nantinya akan memberikan gambaran tentang distribusi sampling

(64)

Contoh 3.2.

Pada Contoh 3.1, kita menginginkan untuk mengestimasi rata-rata

popu-lasi untuk waktu perbaikan (𝜇𝜇), jadi statistiknya adalah mean sampel (𝑥𝑥̅). Untuk satu sampel random dari 1664 waktu perbaikan, 𝑥𝑥̅= 8.41 jam. Ketika kita meresampel, kita mendapatkan nilai-nilai yang berbeda untuk 𝑥𝑥̅, seperti yang kita inginkan bila kita mengambil sampel baru dari populasi seluruh

waktu perbaikan.

Gambar 3.5 dan Gambar 3.6 berikut menjelaskan tentang distribusi

boot-strap dari rata-rata dari 1000 buah resampel dari data waktu perbaikan Verizon,

menggunakan histogram terlebih dahulu dan kurva densitas, kemudian plot

kuantil normal. Garis lurus pada histogram menandakan rata-rata sebesar 8.41

dari sampel asli, dan garis putus-putus menandakan rata-rata dari sampel

boot-strap. Menurut prinsip bootstrap, distribusi bootstrap merepresentasikan

dis-tribusi sampling. Akan dibandingkan disdis-tribusi bootstrap dengan apa yang

ki-ta keki-tahui tenki-tang distribusi sampling.

Gambar 3.5. Distribusi Bootstrap untuk rata-rata 1000 resampel dari sampel waktu perbaikan Verizon.

Waktu perbaikan dari resampel (dalam jam) Rata-rata sampel asli