METODE UNTUK SAMPLING BERKELOMPOK
STRATIFIKASI DENGAN STRATIFIKASI
INFORMASI
TESIS
Oleh SUSIANA
097021008/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN
2011
METODE UNTUK SAMPLING BERKELOMPOK
STRATIFIKASI DENGAN STRATIFIKASI
INFORMASI
T E S I S
Diajukan Sebagai Salah Satu Syarat
untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
SUSIANA
097021008/MT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN
Judul Tesis : METODE UNTUK SAMPLING BERKELOMPOK STRATIFIKASI DENGAN STRATIFIKASI
INFORMASI Nama Mahasiswa : Susiana
Nomor Pokok : 097021008 Program Studi : Matematika
Menyetujui, Komisi Pembimbing
(Prof. Dr. Herman Mawengkang) (Prof. Dr. Opim Salim S, M.Sc)
Ketua Anggota
Ketua Program Studi Dekan
(Prof. Dr. Herman Mawengkang) (Dr. Sutarman, M.Sc)
Tanggal lulus: 16 Juni 2011
Telah diuji pada
Tanggal 16 Juni 2011
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Opim Salim S, M.Sc
ABSTRAK
Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Pemilihan metode sampling yang tepat untuk suatu kasus dengan mem-perhatikan karakteristik-karakteristiknya dapat memberikan hasil yang lebih aku-rat. Tesis ini mengkaji tentang metode estimasi berbobot (weighted estima-tion method) dan metode semi-parametrik maksimum likelihood (semi-parametric maximum likelihood method) untuk sampling berkelompok stratifikasi dengan stratifikasi informasi. Metode estimasi berbobot (weighted estimation method) relatif jelas, sederhana untuk diimplementasikan tetapi tidak efisien untuk peneli-tian yang bersifat retrospective. Sedangkan metode semi-parametrik efisien tetapi sulit untuk diimplementasikan karena memerlukan distribusi gabungan dari selu-ruh kovariat.
Kata kunci: Sampling berkelompok stratifikasi, Metode estimasi berbobot, Meto-de semi-parametrik maksimum likelihood.
i
ABSTRACT
Using of sampling method aims to make withdrawal of sampel more efficient. Election of correct sampling method for a case with it attends its characteristics can gives a result more accurate. This thesis concerns about weighted estima-tion method and semi-parametric maximum likelihood method for stratified cluster sampling with informative stratification. Weighted estimation method is relatively obvious, simply for implementation but inefficient for the retrospective research. Meanwhile,the method semi-parametric is more efficient but difficult to implement because it requires the joint distribution of all covariates.
KATA PENGANTAR
Puji syukur kepada Allah SWT atas anugrah yang telah diberikan-Nya, serta shalawat teruntuk Nabi Muhammad SAW sehingga penulis dapat menye-lesaikan tesis dengan judul: METODE UNTUK SAMPLING BERKE-LOMPOK STRATIFIKASI DENGAN STRATIFIKASI INFORMASI. Penulis menyampaikan terima kasih yang sebesar-besarnya kepada :
Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.
Bapak Prof.Dr.Ir. A.Rahim Matondang, MSIE, Direktur Sekolah Pas-casarjana Universitas Sumatera Utara.
Bapak Dr. Sutarman, M.Sc, Dekan Fakultas Matematika dan Ilmu Penge-tahuan Alam Universitas Sumatera Utara, yang telah memberikan kesempatan kepada penulis untuk mengikuti Program Magister Matematika di FMIPA Uni-versitas Sumatera Utara.
Bapak Prof. Dr. Herman Mawengkang, Ketua Program Studi Magister Matematika FMIPA Universitas Sumatera Utara, yang juga sebagai pembimbing utama, dan banyak memberikan arahan dalam menyelesaikan tesis ini.
Bapak Dr. Saib Suwilo, M.Sc selaku Sekretaris Program Studi Magister Matematika FMIPA Universitas Sumatera Utara.
Bapak Prof. Dr. Opim Salim S, M.Sc, Pembimbing II yang telah membim-bing dan mengarahkan dalam penulisan tesis ini.
Bapak Dr. Marwan Ramli M.Si, Pembanding - I yang telah memberikan masukan dan saran dalam penyempurnaan tesis ini.
Bapak Drs. Open Darnius, MSc, Pembanding II yang memberikan masukan dan saran dalam penyempurnaan tesis ini.
Bapak / Ibu Dosen Program Studi Magister Matematika FMIPA Universitas Sumatera Utara yang telah memberikan ilmunya selama masa perkuliahan.
iii
Ibu Misiani, S.Si, staf administrasi Program Studi Magister Matematika FMI-PA Universitas Sumatera Utara yang banyak membantu proses administrasi.
Ucapan terimakasih juga penulis sampaikan kepada :
Pemerintah Indonesia melalui Direktorat Jenderal Pendidikan Tinggi yang telah membiayai pendidikan ini melalui program BPPS.
Bapak Rektor Universitas Negeri Medanyang telah memberikan dukungan kepada penulis selama pendidikan di FMIPA Universitas Sumatera Utara.
Ibunda dan ayahanda tercinta,Kancina dan Alm.Yunus dan mertua tercinta, Fahyuril Azian Nasution dan Norma Pasaribu beserta anggota keluarga lainnya yang telah memberikan bantuan dan dukungan baik moril maupun ma-teriil selama penulis dalam pendidikan.
Suami tersayang, Faisal Roni Nasution yang telah begitu banyak memban-tu dan memberikan motivasi kepada penulis selama menjalani smemban-tudi, juga kepa-da anak-anakku yang terkasih kepa-dan ku-banggakan, Safinah Annajah, Shada Fathimah, Shada Zainab, dan Musa Husayn Nasutionatas semua kesabaran dan pengertian yang telah diberikan kepada bunda baik selama pendidikan maupun dalam proses penyelesaian tesis ini.
Rekan-rekan mahasiswa Program Studi Magister Matematika FMIPA Universitas Sumatera Utara khususnya angkatan reguler tahun 2009, dan semua pihak yang tidak dapat penulis sebutkan satu persatu pada tesis ini. Semoga Allah SWT membalas segala kebaikan dan bantuan yang telah diberikan.
Medan, Juni 2011
Penulis,
RIWAYAT HIDUP
Susiana, dilahirkan di Desa Telaga Sari Kecamatan Tanjung Morawa Kabu-paten Deli Serdang pada tanggal 19 Mei 1979, merupakan anak kedelapan dari Sembilan bersaudara dari ayah Almarhum Yunus dan ibunda Kancina.Penulis menyelesaikan pendidikan Sekolah Dasar (SD) di SD Negeri 101881 Tanjung Morawa pada tahun 1992, Sekolah Lanjutan tingkat Pertama (SLTP) di SMP Negeri 1 Tanjung Morawa pada tahun 1995,dan Sekolah Menengah Umum (SMU) di SMU Negeri Tanjung Morawa pada tahun 1998.
Pada tahun 1999 penulis melanjutkan pendidikan sarjana Strata-1 pada Fakultas Matematika dan Ilmu Pengetahuan Alam jurusan matematika di Uni-versitas Sumatera Utara dan memperoleh gelar Sarjana Sains pada tahun 2003. Selama menjalani pendidikan sarjana strata-1, penulis juga mengajar di bebera-pa sekolah menengah pertama (SMP) dan Sekolah Menengah Kejuruan (SMK)di kota Tanjung Morawa. Pada tahun 2005, penulis diterima sebagai staf pengajar di Universitas Negeri Medan dan berlanjut hingga sekarang. Pada tahun itu pula penulis menikah dengan Faisal Roni Nasution dan telah dikaruniai 3(tiga) orang putri dan 1(satu) orang putra. Pada tahun 2009, penulis melanjutkan studi pada Program Studi Magister Matematika di FMIPA Universitas Sumetera Utara.
v
DAFTAR ISI
Halaman
ABSTRAK i
ABSTRACT ii
KATA PENGANTAR iii
RIWAYAT HIDUP v
DAFTAR ISI vi
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 3
1.3 Tujuan Penelitian 3
1.4 Manfaat Penelitian 3
1.5 Metode Penelitian 4
BAB 2 TINJAUAN PUSTAKA 5
BAB 3 LANDASAN TEORI 8
3.1 Teori Dasar Sampling 8
3.2 Fungsi Likelihood 11
3.3 Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi 13
BAB 4 PEMBAHASAN 16
4.1 Metode Estimasi Berbobot (Weighted Estimation Method) 16 4.2 Metode Semi-parametrik Maksimum Likelihood (Semi-parametric
4.3 Efisiensi Profile Likelihood 21
BAB 5 KESIMPULAN DAN SARAN 23
5.1 Kesimpulan 23
5.2 Saran 23
DAFTAR PUSTAKA 24
vii
ABSTRAK
Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Pemilihan metode sampling yang tepat untuk suatu kasus dengan mem-perhatikan karakteristik-karakteristiknya dapat memberikan hasil yang lebih aku-rat. Tesis ini mengkaji tentang metode estimasi berbobot (weighted estima-tion method) dan metode semi-parametrik maksimum likelihood (semi-parametric maximum likelihood method) untuk sampling berkelompok stratifikasi dengan stratifikasi informasi. Metode estimasi berbobot (weighted estimation method) relatif jelas, sederhana untuk diimplementasikan tetapi tidak efisien untuk peneli-tian yang bersifat retrospective. Sedangkan metode semi-parametrik efisien tetapi sulit untuk diimplementasikan karena memerlukan distribusi gabungan dari selu-ruh kovariat.
ABSTRACT
Using of sampling method aims to make withdrawal of sampel more efficient. Election of correct sampling method for a case with it attends its characteristics can gives a result more accurate. This thesis concerns about weighted estima-tion method and semi-parametric maximum likelihood method for stratified cluster sampling with informative stratification. Weighted estimation method is relatively obvious, simply for implementation but inefficient for the retrospective research. Meanwhile,the method semi-parametric is more efficient but difficult to implement because it requires the joint distribution of all covariates.
Keyword: Stratified cluster sampling, Weighted estimation method, Semi-parame-tric maximum likelihood method.
ii
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Sampling adalah cara pengumpulan data jika hanya elemen sampel (seba-gian dari elemen populasi) yang diteliti (Cochran, 1977). Saat ini kecenderungan untuk melakukan survei sampel semakin meningkat, baik yang dilakukan oleh pemerintah, perusahaan maupun secara personal.
Misalnya saja, untuk mengetahui hasil pemilukada (pemilihan umum kepala daerah) dengan cepat, dilakukan pengambilan sampel daerah pemilihan (tempat pemungutan suara). Pemerintah menggunakan survei sampel untuk mendapatkan informasi yang dibutuhkan guna perencanaan pembangunan. Perusahaan mela-kukan penelitian pasar untuk mengetahui respons pembeli terhadap produk yang dihasilkannya.
Adanya keterbatasan dan kendala kendala untuk melakukan survei seluruh populasi telah memunculkan berbagai jenis teknik sampling, diantaranya adalah sampling berkelompok stratifikasi. Kendala-kendala tersebut diantaranya sebagai berikut :
1. Untuk anggota populasi yang besar, sering tidak ada data yang lengkap dan terbaru(up to date)tentang orang-orang, perumahan, atau tanah pertanian dalam wilayah geografis yang luas. Solusi dari masalah ini adalah pemba-gian wilayah menjadi unit-unit daerah seperti blok-blok dikota atau segmen tanah dengan batas-batas yang jelas untuk dipedesaan.
2. Seringkali, daftar perumahan individual tersedia, pertimbangan biaya dapat mengarah pada pemilihan sebuah unit kelompok yang lebih besar.
2
4. Adanya adat kebiasaan yang berbeda dalam suatu populasi dapat diper-lakukan atas strata-strata yang berbeda, misalnya untuk orang-orang yang hidup di lingkungan rumah sakit dan penjara ditempatkan dalam strata yang berbeda dengan orang-orang yang hidup dilingkungan rumah-rumah biasa.
St.Peter et al.(1992) melakukan analisis data dari National health Inter-view Survey on Child Health tahun 1988. Analisis ini bertujuan menentukan apakah adanya jaminan kesehatan mempengaruhi penggunaan tindakan preventif (sebagai upaya pencegahan) bagi anak-anak dari keluarga tidak mampu (miskin). Penelitian ini mencakup 17.710 responden yang dipilih berdasarkan sampling ber-kelompok stratifikasi.
Whittemore dan Jerry Halperin(2003) melakukan sebuah penelitian ten-tang hubungan antara resiko penyakit dengan faktor genetik ataupun lingku-ngan. Dalam penelitian ini, data yang diolah adalah data tentang kasus penyakit kanker ovarium dimana yang menjadikelompokadalah pasangan ibu dengan anak gadisnya. Kelompok-kelompok tersebut dibagi menjadi dua strata yaitu case dan control. Yang diperlakukan sebagai case adalah pasangan yang anak gadisnya terdeteksi mengidap kanker ovarium, sedangkan sebagai control adalah pasangan yang tidak terdeteksi mengidap penyakit tersebut.
Lin et al.(2004) melakukan analisis data dari hasil survei nasional tahun 1983-2000 tentang prevalensi dari kasus myopi pada anak-anak usia sekolah di Taiwan. Dalam hal ini respons yang dipertimbangkan adalah jenis kelamin dan prestasi akademik dari anak-anak tersebut.
Misalkanymenyatakan vektor respons untuk unit-unit dalam sebuah kelom-pok dan andaikanXmatriks yang bersesuaian dengan nilai kovariat. Didefinisikan sebuah variabel indikator stratum, Z dengan nilaiZ =hjika kelompok diberikan pada stratum ke-h(h = 1, ..., L). Diasumsikan bahwa nilai-nilai populasi ter-batas dariN kelompok dibangun oleh sampling dari distribusi bersama (y, X, Z). Kelompok-kelompok dibagi menjadi L stratum, S1, ..., SLberdasarkan nilai-nilai
Z, menghasilkan Nh kelompok dalam Sh(PL1 Nh = N).Kemudian diambil
3
pel acak sederhana, Dh, nh kelompok dari Nh kelompok dalam Sh(h = 1, ..., L)
dan diamati dengan nilai (y, X). Andaikan (yhj, Xhj) menyatakan nilai-nilai yang
diobservasi untuk kelompok ke-j dalam strata ke-h, maka bentuk data observasi tersebut menjadi {(yhj, Xhj, j ∈Dh), Nh;h= 1, ..., L}.
Tehnik pengambilan sampel sebagaimana digambarkan diatas adalah tehnik pengambilan sampel berkelompok stratifikasi. Pertanyaaan selanjutnya adalah bagaimana cara menentukan perkiraan-perkiraan parameter dalam sampling ber-kelompok stratifikasi. Tesis ini bertujuan mengkaji metode-metode yang berkai-tan dengan teknik sampling tersebut dengan judul “Metode untuk Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi“. Informasi yang dimaksud adalah respons yang diberikan oleh objek penelitian atau informasi lain yang diperoleh setelah pembentukan kelompok. Jadi, kelompok-kelompok dima-sukkan dalam strata menurut respons/informasi yang diperoleh dari observasi awal sedemikian hingga probabilitas sebuah kelompok masuk ke stratum tertentu bergantung pada nilai dari respons yang diberikan.
1.2 Perumusan Masalah
Rumusan permasalahan dalam penelitian ini adalah mengkaji metode es-timasi berbobot, metode semi-parametrik maksimum likelihood dalam sampling berkelompok stratifikasi dengan stratifikasi informasi.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk menentukan metode yang tepat dalam sam-pling berkelompok stratifikasi dengan stratifikasi informasi.
1.4 Manfaat Penelitian
4
1.5 Metode Penelitian
Penelitian ini merupakan penelitian yang bersifat literature kepustakaan. Adapun langkah-langkah yang akan dilakukan dalam penelitian ini adalah sebagai berikut:
1. Menjelaskan setiap terminologi yang digunakan.
2. Menjelaskan metode-metode yang telah digunakan dalam bidang penelitian yang sama.
3. Menjelaskan metode estimasi berbobot
4. Menjelaskan metode semi parametrik maksimum likelihood
5. Menarik kesimpulan dan memberikan saran-saran berkaitan dengan tindak lanjut penelitian.
BAB 2
TINJAUAN PUSTAKA
Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Metode sampling mencoba untuk mengembangkan metode pemilihan sampel dan metode perkiraan dengan biaya yang sekecil mungkin dan perkiraan yang cukup teliti untuk tujuan tertentu (Cochran, 1977).
Beberapa metode sampling yang biasa digunakan diantaranya adalah :
1. Sampling acak sederhana (Simple Random Sampling), yaitu memilihn unit dariN anggota populasi sehingga setiap elemen dariCN
n sampel yang
berbe-da mempunyai kesempatan yang sama untuk dipilih.
2. Sampel stratifikasi (Stratified Sampling), yaitu membagiN anggota populasi menjadiL strata (subpopulasi), masing-masingN1, N2, ..., NLunit, dimana
N1 +N2+NL = N . Kemudian sebuah sampel diambil secara bebas dari
tiap strata sebanyakn1, n2, ..., nL.
3. Sampel berkelompok (Cluster Sampling), yaitu membagi populasi menja-di beberapa kelompok, kemumenja-dian memilih kelompok yang menjamenja-di sampel, selanjutnya elemen-elemen dalam kelompok yang terpilih diteliti.
4. Sampling berkelompok stratifikasi (Stratified Cluster Sampling), yaitu mem-bagi populasi menjadi N kelompok. Setiap kelompok dipilih untuk dibagi menjadi L strata. Dari tiap strata diambil sampel sebanyak nh kelompok,
selanjutnya diambil dh elemen darinh kelompok.
6
Rao et al. ( 1998 ) mengkaji pendekatan survei standar yaitu melalui per-samaan estimasi berbobot dengan bobot berbanding terbalik dengan peluang yang terpilih. Andaikan untuk semua unit dari populasi terbatas yang berukuran N. Terdapat (xi, yi) dimana x adalah vektor dari variabel-variabel penjelas dan Y
adalah variabel respon. Asumsikan bahwa untuk nilai x yang diketahui , Y
di-generate oleh beberapa proses acak dengan rata-rata :
E(Yi) =µi =µ(xi, β) (2.1)
dan anggap bahwa model untuk variansinya adalah:
var(Yi) =V0i =V0(µi) (2.2)
untuki= 1, , N. Tentunya tidak semua nilai-nilai unit populasi diobservasi tetapi hanya sampel yang diambil dari populasi terbatas berdasarkan desain sampling yang telah ditentukan.
Selanjutnya, anggap bahwa, jika nilai-nilai untuk seluruh populasi terbatas diperoleh, dapat ditentukan estimator konsisten dariβ dengan menyelesaikan per-samaan estimasi :
S(β) =PN1 ui(β) = 0 (2.3)
dimanaui(β) mempunyai komponen ke-kyakniuik = (∂µi/∂βk)(yi−µi)/Voi.
Ka-rena pada kenyataannya, nilai-nilai untuk seluruh populasi tidak dapat diketahui maka diambil beberapa sampel dari populasi tersebut. Anggap bahwa desain sam-pel memberikan konsistensi, estimator yang normal asymtotik dari total populasi dan diasosiasikan dengan standard error. Maka, karena S(β) adalah sebuah vek-tor dari total populasi untuk nilai β, dapat diperoleh sebuah estimator dariS(β) sebagai berikut :
b
S(β) =Pi∈swisui(β) (2.4)
dimana bobot survei wis, bergantung pada sampel s, estimator sampel β, diten-b
tukan dengan menyelesaikanSbβb= 0.
Scott dan Wild (2007) melakukan pendekatan estimator semi-parametrik
7
untuk sampling berkelompok stratifikasi. Estimator maximum likelihood semi-parametrik,θ danγ diperoleh dengan memaksimumkanℓ(θ, γ, g) = logL(θ, γ, g). Dimulai dengan mereduksi masalah menjadi case yang lebih sederhana dimana anggota stratum ditentukan oleh respons kelompok. Kemudian tambahkan vektor respons y dengan indikator stratum Z untuk membentuk variabel respons yang dimodifikasi ey= yz . Selanjutnya⌣θ = γθ dan masalahtersebut menjadi :
fey|X;⌣θ=f(z, y, X;γ)f(y|X;θ) =Pz(y, X;γ)f(y|X;θ) (2.5)
untuk data yang berasal dari sampel stratifikasi dimana stratum Sh(h = 1, , L)
BAB 3
LANDASAN TEORI
Pemilihan metode sampel sebagai sumber data berarti menarik kesimpulan tentang karakteristik suatu populasi berdasarkan informasi-informasi yang dipe-roleh dari sampel. Hal ini dilakukan mengingat adanya beberapa alasan seperti biaya yang lebih kecil dibandingkan jika melakukannya dengan cara sensus, wak-tu yang lebih singkat, atau kemungkinan akses pada responden lebih mudah. Meskipun begitu, jikalau memang tersedia waktu dan dana yang tak terbatas, sensus mungkin menjadi pilihan yang lebih baik.
3.1 Teori Dasar Sampling
Definisi-definisi dari teori dasar sampling yang digunaka dalam tesis ini se-bagian besar dikutip dari (Kapoor, 2002), (Cochran, 1977) dan sumber referensi lainnya, diantaranya sebagai berikut :
1. Populasi dan sampel
Populasi adalah kumpulan individu-individu atau atribut-atribut atau hasil-hasil dari suatu operasi yang dapat dijelaskan secara numerik (Kapoor, 2002). Suatu populasi terdiri atas keseluruhan pengamatan yang menjadi objek penelitian. Terdapat dua macam populasi yaitu populasi tak terbatas (infinite) dan populasi terbatas (finite). Populasi dalam metode sampling adalah populasi yang terbatas dan ditentukan batasnya (finite and delimi-ted), seperti penduduk suatu kota, mesin-mesin dalam suatu pabrik, ikan-ikan dalam suatu danau(Cochran, 1977).
Sedangkan sampel adalah sebagian dari anggota-anggota populasi. Ukuran dalam populasi disebut sebagai parameter, biasanya menggunakan simbol µ untuk rata-rata,σ untuk varian. Ukuran yang diperoleh dari pengolahan sampel disebut sebagai statistik dan sifatnya adalah sebagai estimator bagi parameter. Sampel dengan ukuran lebih dari 30 disebut sampel berukuran
8
9
besar. Sedangkan sampel dengan ukuran kurang dari 30 disebut sampel berukuran kecil (Kapoor, 2002).
2. Variabel acak
Suatu variabel acakXialah suatu fungsi bernilai real dengan daerah definisi ω yakni, untuk setiap ω ∈ Ω, X(ω) ∈ ℜ ={y:−∞< y <+∞}. Variabel acak terbagi atas dua jenis yakni variabel acak diskrit dan variabel acak kontinu.
3. Parameter dalam populasi terbatas
Parameter-parameter dalam populasi terbatas adalah fungsi-fungsi dari ka-rakteristik yang diteliti yang diasosiasikan dengan unit-unit sampling dalam populasi terbatas dengan asumsi-asumsi. Masalah mendasar dalam survei sampling adalah menarik kesimpulan(inferensi) terhadap parameter- para-meter ini berdasarkan sampel-sampel yang terpilih menurut desain sampling berpeluang dari populasi terbatas (Chen dan Rao, 2007).
Dalam suatu sampling survei, parameter yang akan diestimasi biasanya meliputi rata-rata, jumlah total, rasio dan proporsi untuk parameter yang sederhana. Beberapa parameter tersebut dirumuskan sebagai berikut : Asumsikan bahwa tiap unit dalam populasi merupakan pasangan karakte-ristik (xi, yi), i= 1, ..., N.
Fungsi f(x, y) adalah fungsi padat gabungan variabel acak kontinu X dan Y jika :
10
(b) R−∞∞ R−∞∞ f(x, y)dx dy = 1
(c) P[(X, Y)∈A] =RAR f(x, y)dx dy untuk tiap daerah A di bidang xy
5. Fungsi peluang marginal
Fungsi peluang marginal dari adalahXil, ..., Xil adalah :
6. Fungsi peluang bersyarat
Fungsi peluang bersyarat Xil, ..., Xil bila diketahui Xil+1 = xil+1, ..., Xis =
xis adalah, bila P
Xit+1 =xit+1, ..., Xis =xis
>0( untuk himpunan varia-bel yang terpisah ) ;
Pn X1 =x1, ..., Xn=xn
7. Ekspektasi (nilai harapan)
Ekspektasi atau nilai harapan dari variabel acak X adalah
EX = R−∞∞ xfx(x)dx, jika X kontinu dengan fungsi padat peluang fx(x)
dan EX =Pxipx(xi)jika X diskret dengan fungsi peluang px(xi).
8. Variansi dan kovarian
Variansi dari variabel acakX adalah : σ2
x =E[X−EX]
2
Kovarian dari variabel acak X dan Y adalah : Cov(X, Y) =E{[X−EX] [X−EY]}
9. Kesalahan sampling
Misalkan θ adalah sebuah parameter dan θbadalah estimator dari θ , maka yang dimaksud dengan kesalahan sampling adalah θˆ−θ.
11
10. Sifat-sifat estimator
Sebuah estimator dikatakan konsisten jika hasil estimasi tepat sama de-ngan nilai populasi (sensus). Meskipun konsistensi merupakan sifat yang diinginkan pada estimator, tapi pada sisi lain estimator yang tidak konsis-ten masih berguna bilan kecil dibandingkan dengan N.
Sebuah statistiktdikatakan estimator tak bias dari sebuah parameterθjika E(t) = θ. (Kapoor, 2002)
Sebuah statistik t dikatakan estimator tak bias asymtotik dari sebuah pa-rameterθ jikaLtn→∞E(tn) =θ, dimana n adalah ukuran sampel.
3.2 Fungsi Likelihood
1. Full semiparametric likelihood
Pandang bahwaN unit (yi, Xi), i= 1,2, ..., N ada atau dibangkitkan ( gene-rated) dari f(y|X;θ)g(X). Range dari (y, X) di-partisi menjadi L strata S1, ..., SL. Andaikan G() menyatakan fungsi distribusi yang bersesuaian
ke-g(X),
Misalkan strata didefinisikan untuk semua unit, fungsi full semiparametric likelihooddalam berbagai metode sampling yang telah dijelaskan diatas da-pat dituliskan sebagai :
LF(θ, G) = Pada intinya, perlu diasumsikan bahwa nilai-nilai (x, y) yang record-nya ada dalam strata Sh adalah sampel acak dari distribusi bersyarat (y, X)
12
Pada kasus sampling berkelompok stratifikasi, fungsi likelihood dapat ditu-liskan sebagai berikut :
L(θ, γ, g) = QLh=1DQj∈D dimanag(X) menyatakan fungsi peluang marginal dariXdari populasi dan Qh = Qh(θ, γ, g) =P (Z =h)
=RR Ph(y, X, γ)fhy|X;θig(X) dydx (3.2.6)
menyatakan peluang marginal bahwa sebuah kelompok masuk ke dalam strata Sh.
2. Pseudo-likelihood
Fungsi pseudo-likelihood dapat diestimasi dengan memaksimumkanLF
θ,G˜ dimana ˜G adalah nilai estimasi dari G yang dapat dihitung secara empiris. Selanjutnya ˜G(x) = PKj=1G˜j(x)
tribusi kumulatif atasxi untuk unit-unit∈Dj , yaitu unit-unit yang secara
lengkap diobservasi dalam stratum ke-j. Sehingga nilai dari log pseudo-likelihood dapat dihitung berdasarkan :
lp(θ) =Pi=1log fhyhj |Xhj;θi
3. Weighted pseudo-likelihood ( pseudo-likelihood berbobot )
Andaikan semua N unit telah diobservasi secara lengkap, maka fungsi log-likelihood menjadi Plog f(yi|Xi;θ). Sebuah estimasi dari perhitungan
ini dapat diperoleh jika menggunakan unit-unit observasi yang lengkap dan bobotnya secara terbalik berdasarkan peluang dari terpilihnya. Fungsi log pseudo-likelihood diberikan oleh :
ℓw(θ) =PKj=1pˆ−j1
P
i∈Djlogf(yi|Xi;θ) (3.2.8)
Untuk sampling stratifikasi dipergunakan ˆpj = nj/Nj yang memberikan
se-buah persamaan estimasi tak bias untukθ.
13
3.3 Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi
Metode penarikan sampling secara umum terbagi atas dua jenis yakni:
1. Sampling berpeluang (probability sampling) adalah teknik pengambilan sam-pel yang memberikan sam-peluang yang sama bagi setiap unsur (anggota) po-pulasi untuk dipilih menjadi anggota sampel. Yang termasuk dalam jenis ini diantaranya sampling acak sederhana, sampling berkelompok, sampling stratifikasi dan sampling berkelompok stratifikasi.
2. Sampling tak berpeluang (non-probability sampling) adalah teknik sampling yang memberi peluang atau kesempatan tidak sama bagi setiap unsur atau anggota populasi untuk dipilih menjadi sampel. Teknik sampling non pe-luang meliputi :sampling aksidental, sampling purposive, dan sampling kuo-ta.
Dalam sampling berkelompok stratifikasi berarti melakukan penstrataan de-ngan menggunakan kelompok-kelompok. Populasi dibagi atas beberapa kelom-pok, selanjutnya kelompok-kelompok tersebut dibagi menjadi strata-strata. Dari tiap strata dipilih beberapa kelompok sebagai sampel. Akhirnya, dari sampel kelompok-kelompok yang terpilih diambil sampel acak sederhana (unit sampel) yang akan diobservasi.
14
Misalkanymenyatakan vektor respons untuk unit-unit dalam sebuah kelom-pok dan andaikanX matriks yang bersesuaian dengan nilai kovariat. Didefinisikan sebuah variabel indikator stratum, Z dengan nilaiZ =hjika kelompok diberikan pada stratum ke-h (h = 1, , L). Diasumsikan bahwa nilai-nilai populasi terbatas dari N kelompok dibangun oleh sampling dari distribusi bersama (y, X, Z).
Kelompok-kelompok dibagi menjadi L strata, S1, ..., SL berdasarkan
nilai-nilai Z, menghasilkan Nh kelompok dalamShPL1 Nh =N
. Kemudian diambil sampel acak sederhana,Dh, nhkelompok dariNhkelompok dalamSh (h= 1, ..., L)
dan diamati dengan nilai (y, X).
Andaikan (yhj, Xhj) menyatakan nilai-nilai yang diobservasi untuk
kelom-pok ke-j dalam stratum ke-h, maka bentuk data observasi tersebut menjadi
{(yhj, Xhj, j ∈Dh), Nh;h= 1, ..., L},dan ukuran sampel N1, ..., NL merupakan
variabel yang bersifat acak. (Scott dan Wild, 2007).
Penyelesaian masalah diatas, dapat dilakukan dengan model parametrik, Ph(y, X;γ), dimana untuk peluang bersyarat dari sebuah kelompok yang
terma-suk kedalam strata ke-hdiberikan oleh nilai-nilai vektor respons, y, dan matriks kovariat, X. Tidaklah menjadi masalah jika strata yang termasuk dalam model ini hanya mengandungX. Akan tetapi, jika model bergantung pada respons, atau bergantung pada sebuah variabel buatan yang diasosiasikan denganytetapi tidak termasuk dalam model, maka sampling (penarikan sampel) tidak dapat diabaikan, dan tentunya akan mempengaruhi nilai likelihood.
Dalam sebuah proses yang menghasilkan data berdasarkan modelfhy|X;θi
g(X). Disini, y menyatakan variabel respons, yang mungkin saja bersifat mul-tivariat, dan X merupakan vektor kovariat yang dapat bersifat diskret ataupun kontinu. Sedangkan fhy|X;θi adalah fungsi distribusi bersyarat dari vektor re-spons kelompok y jika diketahui nilai matriks kovariat kelompok X, dan g(X) adalah fungsi distribusi marginal dari X .Tujuan dari penggunaan θ adalah un-tuk membuat distribusi bersyarat dariyjika diketahuiX sedemikian hinggag(X) tidak mengandung θ. Karena itu tujuannya adalah estimasi terhadap θ (Lawless et al.,1999).
15
Peluang bersyarat bahwa sebuah kelompok masuk kedalam stratum ke-h, Sh(h= 1, ..., L) jika diketahuiy dan X :
Phkelompok ∈Sh |y, Xi = P hZ =h |y, Xi =Ph(y, X;γ) (3.3.1)
BAB 4
PEMBAHASAN
4.1 Metode Estimasi Berbobot (Weighted Estimation Method)
Misalkan nilai-nilai dari (y, X, Z) untuk setiap kelompok dalam populasi yang terbatas telah diobservasi, maka estimasi θ dapat diperoleh dengan menye-lesaikan persamaan likelihood berikut :
S(θ) =PLh=1PNh
j=1Uhj(θ) = 0 (4.1.1)
dimanaUhj(θ) =∂logf(yhj|Xhj;θ)/∂θ. Diasumsikan bahwa kondisi
regu-ler standard untuk fungsi likelihood dipenuhi sedemikian hingga :
E{S(θ)}= 0,Cov{S(θ)}=−En∂S∂θ(θ)o=NJ(θ), (4.1.2)
pada saat θ =θ0
Untuk sebarang nilai θ yang telah ditentukan , S(θ) merupakan sebuah vektor dari populasi total yang dapat diestimasi dari observasi sampel dengan menggunakan nilai sampel berbobot berikut :
Sw(θ) =PhPD
h
Nh
nh Uhj(θ) (4.1.3)
Estimator berbobot, ˆθwdidefinisikan sebagai solusi untuk persamaan
pseudo-likelihood berbobot Sw(θ) = 0.
Pada kondisi{Uhj}standard (normal),ˆθw merupakan estimator yang
konsis-ten dari parameter θC untuk populasi terbatas (sensus), dimanaθC didefinisikan
sebagai solusi dari persamaan (4.1) (Rao et al., 1998).
Dalam terminologi sampling, materi dalam tesis ini dapat juga dikategorikan sebagai stratifikasi dua tahap. Tahap pertama, populasi terbatas dibangkitkan se-bagai sampel acak berukuranN dari sebuah super-populasi (tak terbatas) dan pe-nentuan kelompok-kelompok menjadi stratum-stratum. Sedangkan sebagai tahap keduanya adalah proses pengambilan sampel acak sederhana yang berukuran nh
16
17
dari Nh-kelompok dalam stratum Sh, dengan nilai n1, ..., nL bergantung pada
N1, ..., NL dan observasi yhj, Xhj, j ∈Dh untuk h= 1, ..., L.
Selanjutnya akan dibangun solusi dengan pengkondisian pada ZN,vektor
in-dikator stratum untuk populasi terbatas yang tercapai dan kemudian menentukan distribusi dariZN. DiketahuiZN ,N1, ..., NLdan disinin1, ..., nLadalah
konstan-ta yang telah ditentukan dan Uhj(θ), j ∈Dh. Observasi-observasi dari distribusi
bersyarat U(θ) = (∂logf(y|X;θ))/∂θ diketahui Z =h.
Andaikan µh(θ) dan Phθ menyatakan vektor rata-rata dan matriks
ko-varian dari distribusi bersyarat ini, dan andaikan µ(θ) dan P(θ) menyatakan nilai-nilai yang bersesuaian dengan distribusi tak-bersyarat U(θ). Pandang kem-bali bahwa µ(θ0) = 0 dan P(θ0) = J(θ0) dibawah kondisi standard. Distribusi
tak-bersyarat dari N1, ..., NL bersifat multinomial (N;Q1,· · · , QL) dimana Qh
merupakan peluang marginal bahwa Z =h untuk h= 1, ..., L.
Diketahui bahwa:
untuk varians bersyarat diperoleh :
Cov{Sw(θ)}= Cov{
Selanjutnya, untuk menentukan nhS ,diasumsikan fraksi nh/N
18
Terminologi yang pertama merupakan matriks kovarian yang akan diperoleh jika bobot diketahui, dan terminologi kedua menyatakan bentuk akhir dari bobot tersebut. Dengan menggunakan relasi berikut:
Cov{U(θ)}=E{Cov{U|Z =h}}+ Cov{E{U|Z =h}}, (4.1.8)
Varian diatas dapat juga dinyatakan dalam bentuk berikut :
Cov{C}=NnP(θ) +Ph Qh
Terminologi pertama menunjukkan matriks kovarian yang akan dihitung berdasarkan sampling semua kelompok dalam populasi terbatas. Sedangkan ter-minologi yang kedua menunjukkan bahwa bentuk akhir dari penghitungannya pada tahap kedua.
Akhirnya, merujuk hasil dari Chen dan Rao (2007) bahwa SW(θ)
bersi-fat multivariat normal asymtotis karena N → ∞ dengan nh/N
h → fh untuk
h = 1, ..., L ditetapkan. Setelah pembentukan sifat-sifat dari SW(θ), dengan
menggunakan hasil standard untuk persamaan estimasi tak bias untuk mencari invers persamaanSw
ˆ θw
= 0 dan menyimpulkan hasil untuk ˆθw. Secara khusus,
hal itu menunjukkan bahwa r
Nθˆw−θ
konvergen dalam distribusi menuju se-buah variabel acak normal yang bersifat multivariat dengan vektor rata-rata 0 dan matriks kovarianNV θˆ dimana:
kita dapat menuliskan kembaliV θˆsebagai berikut :
V θˆ= N1 hJ−1(θ
(hal ini dilakukan dengan menggunakan nilaiCovSW(θ) pada persamaan (4.1.9)).
19
Estimasi V θˆ dilakukan dengan substitusi ˆJ = −(1/N)∂Swθˆ.∂θT
un-tuk J(θ0),µˆhPjUhj
.
nh untukµh, Wh =Nh/N untukQhvariansi sampel dalam
stratum untuk Ph. Bersamaan dengan persamaan (4.10), diperoleh estimator yakni:
Terminologi pertama dari persamaan (4.13), adalah (1/n), yaitu estimasi
va-riansi yang akan digunakan jika diasumsikan bahwa Nhs ditetapkan dan
termi-nologi kedua O(1/n) , mengukur efek dari jika Nhs tidak diketahui. Terminologi
kedua dapat diabaikan dalam beberapa aplikasi.
Pada umumnya, metode estimasi berbobot (weighted estimation method) bekerja dengan baik untuk situasi-situasi sampling yang standar dimana fraksi-fraksi tidak begitu banyak bervariasi diantara strata. Sebaliknya, metode ini tidak cukup baik jika fraksi-fraksi terlalu luas (Lawless et al., 1999).
Keuntungannya adalah bahwa tidak diperlukan banyak pemodelan dari stra-tum termasuk peluang-peluangnya. Konsekuensi yang cukup penting dalam hal ini adalah bahwa prosedur yang sama dapat digunakan untuk sampling stra-tifikasi dua tahap, dimana sub-sampel acak sederhana dipilih dari tiap kelom-pok yang terpilih. Banyak bentuk-bentuk sub-sampling yang lebih lengkap da-pat dijadikan sederhana dengan menyesuaikan bobot-bobotnya dalam persamaan pseudo-likelihood (4.1).
4.2 Metode Semi-parametrik Maksimum Likelihood (Semi-parametric Maximum Likelihood Method)
Pandang kembali fungsi likelihoodL(θ, γ, g) yang diberikan pada persamaan (3.6). Estimatorθ, γdiperoleh dengan memaksimumkanl(θ, γ, g) = logL(θ, γ, g).
res-20
pon yang dimodifikasi yakni :ye= yz dan eθ = γθ . Selanjutnya masalah yang telah direduksi dicocokkan pada modelfy˜X; ˜θ, dimana :
fy˜X; ˜θ=f(z|y, X;y)f(y|X;θ) (4.2.1)
untuk data dari sampel stratifikasi dimana strata, Sh(h= 1, ..., L), ditentukan
secara lengkap oleh respon y. Lee (2007) telah menunjukkan dalam tulisannyae keefisienan asymtotik dari estimator ini dan menunjukkan bahwa J∗( ˆϕ)−1
mem-berikan sebuah estimator konsisten dari variansi. Sejalan dengan hal itu, Lee dan Hirose (2007) menggunakan pendekatan yang berbeda yakni berdasarkan metode
profile likelihood
Didefinisikan fungsi pseudo-log-likelihood :
ℓ∗(θ, γ, π) =P
dan φ adalah L-dimensi vektor dari parameter gangguan. Selanjutnya estimator-estimator semi-parametrik maksimum likelihood,θedaneγ, dariθdanγmerupakan komponen yang tepat dari ˆϕ, solusi dari persamaan pseudo-score,
S∗(ϕ) = ∂ℓ∗(ϕ)
∂ϕ = 0, (4.2.4)
dimana ϕ = θT, γT, πTTIni berarti bahwa, untuk tujuan-tujuan perhitungan,
estimasi maksimum likelihood dari γθ , dapat dilakukan karena ℓ∗(ϕ)
meru-pakan log-likelihood.
Pseudo-score,S∗(ϕ), mempunyai banyak sifat-sifat dari fungsi score standar.
Pertama, dengan standarisasi yang tepat, S∗ secara asymtotis normal, karena
N → ∞ memberikan nh/N
h → fhdengan 0 <fh ≤ 1 untuk h = 1, ..., L. Kedua,
E{S∗(ϕ)} = 0 pada nilai kebenaran, meskipun istilah individual dalam S∗(ϕ)
tidak berdistribusi secara identik maupun mempunyai ekspektasi nilai nol dengan desain sampling stratifikasi.
21
Akhirnya, andaikan J∗ menyatakan matriks informasi observasi (pseudo):
J∗(ϕ) =−∂ℓ∗(ϕ)
∂ϕ =−
∂2ℓ∗
∂ϕ∂ϕT, (4.2.5)
Andaikan J∗ menyatakan nilai ekspektasi, maka S∗(ϕ) bersifat asymtotis
normal dengan matriks asymtotis kovarian :
Cov{S∗(ϕ)}=J∗(ϕ
dimana K adalah matriks simetri L× L. Lebih khusus, ˆϕ bersifat asymtotis normal dengan rata-rata ϕ0 dan matriks kovarian :
J∗(ϕ
Untuk tujuan mengestimasiθdanγ, dapat dilakukan dengan semi-parametrik maksimum likelihood yaitu pada saat S∗(ϕ) = 0 dan matriks kovariannya dapat
diestimasi dengan menggunakan komponen yang tepat dari invers matriks infor-masi observasi J∗(ϕ
0)−1.
Pada prinsipnya, yang dilakukan adalah memperluas hasil-hasil pada sam-pling dua-tahap dimana subsampel diambil dari kelompok-kelompok yang terpilih (unit sampling primer). Untuk mengaplikasikan persamaan (5.3) diperlukan pe-luang bersyarat dari anggota stratum jika diketahui observasi (y, X), yang memer-lukan integrasi nilai-nilai unit yang tak tersampel dalam kelompok.
4.3 Efisiensi Profile Likelihood
22
Andaikan terdapat model semi-parametrik sebagai berikut:
P ={p(x, β, µ)β ∈ θβ ⊂Rm, µ ∈θµ} (4.3.1)
Dimana β parameter n- dimensi dan µ parameter pengganggu yang dapat saja berdimensi tak hingga. Ambil (β0, µ0) nilai sebenarnya dari (β, µ). Andaikan
θβ himpunan kompak yang mengandung neighbourhood terbuka β0 dalam Rm,
dan θµ himpunan konveks yang mengandung µ∂ dalam ruang Banach B.
Andaikan juga bahwa untuk setiapβ ∈θβ, ekspektasi log-likelihood adalah
Eβ0,µ0logp(X;β, µ) secara tunggal diminimumkan terhadapµ∈θβ. Untuk setiap merupakan fungsi skor efisien.
Sebaliknya, andaikan :
ˆ
µn(β) = arg maxµ∈θµ
Pn
i=1logp(Xi;β, µ) (4.3.4)
Fungsi profile log-likelihood untukβ adalah log-likelihood :
ln(β,µˆn(β)) =
P
logp(Xi;β,µˆn(β)) (4.3.5)
yang diperlakukan sebagai fungsi dari βsaja. Penyelesaian terhadap profile likeli-hood dengan mengestimasi persamaan ∂
∂βln
= 0 memberikan nilai MLE (Maximum Likelihood Estimator) ˆβn.
BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Tesis ini mengajukan metode untuk mengestimasi sampling berkelompok terstratifikasi. Metode ini mencakup metode estimasi berbobot yang dipero-leh melalui persamaan likelihood. Selanjutnya diajukan metode semi-parametrik maksimum dengan mengetengahkan fungsi pseudo log-likelihood. Metode ini rela-tive lebih efisien daripada metode yang pertama, namun sulit diimplementasikan. Efisiensi profile likelihood juga diajukan untuk dapat menghasilkan nilai maksi-mum likelihood estimator.
5.2 Saran
DAFTAR PUSTAKA
Bichel, J.Klassen, C.A.J, Ritov, Y dan Wellner, J.A, 1993, Effesient and Adap-tive Estimation for Semi-parametric Models, John Hopkins University Press, Baltimore.
Chen, J dan J.N.K.Rao, 2007, Asymtotic Normality Under Two Phase Sampling Designs, Statisca Sinica, 17:1047-1064.
Cochran, William G, 1977, Sampling Techniques, Jhon Wiley and Sons Inc, New York.
Kapoor, N.M, 2002, A Text Book of Statistics, Pitambar Publishing Company (P) LTD, New Delhi, India.
Newey, W.K, 1994, The asymptotic Variance of Semi-parametric Estimators,
Econometrica, 62:1349-1382.
Lawless, J.F, J.D.Kalbfleisch dan C. Wild, 1999, Semiparametric Methods for Response-Selective and Missing Data Problems in regression, Journal of the Royal Statistical Society, 61:413-438.
Lin, LLK, YF Shih, CK Hsiao, CJ Chen, 2004, Prevalence of Myopia Schoolchil-dren:1983 to 2000,Annals Academy of Medicine,33.
Rao, J. N. K, A. Scott, and C. J. Skinner,1998, Quasi-score test with survei data,
Statistica Sinica,8:1059 -1070.
Scott,A and C. Wild, 2007, Methods for Stratified Cluster Sampling with Infor-mative Stratification, Journal of Applied Mathematics and Decision Scien-ces,2007:ID56372.
St.Peter, Robert F, Paul W.Newachek and Neal Halfon, 1992, Access to Care for Poor Children,JAMA,267.
Whittemore, Alice S dan Jerry Halperin, 2003, Logistic Regression of Family Data from retrospective Study Designs, Genetic Epidemiology,25: 177-189.
24