Metode Untuk Sampling Berkelompok Stratifikasi Dengan Stratifikasi Informasi

(1)

METODE UNTUK SAMPLING BERKELOMPOK

STRATIFIKASI DENGAN STRATIFIKASI

INFORMASI

TESIS

Oleh SUSIANA

097021008/MT

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN

2011

(2)

METODE UNTUK SAMPLING BERKELOMPOK

STRATIFIKASI DENGAN STRATIFIKASI

INFORMASI

T E S I S

Diajukan Sebagai Salah Satu Syarat

untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Sumatera Utara

Oleh

SUSIANA

097021008/MT

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA

MEDAN

(3)

Judul Tesis : METODE UNTUK SAMPLING BERKELOMPOK STRATIFIKASI DENGAN STRATIFIKASI

INFORMASI Nama Mahasiswa : Susiana

Nomor Pokok : 097021008 Program Studi : Matematika

Menyetujui, Komisi Pembimbing

(Prof. Dr. Herman Mawengkang) (Prof. Dr. Opim Salim S, M.Sc)

Ketua Anggota

Ketua Program Studi Dekan

(Prof. Dr. Herman Mawengkang) (Dr. Sutarman, M.Sc)

Tanggal lulus: 16 Juni 2011

(4)

Telah diuji pada

Tanggal 16 Juni 2011

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Opim Salim S, M.Sc

(5)

ABSTRAK

Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Pemilihan metode sampling yang tepat untuk suatu kasus dengan mem-perhatikan karakteristik-karakteristiknya dapat memberikan hasil yang lebih aku-rat. Tesis ini mengkaji tentang metode estimasi berbobot (weighted estima-tion method) dan metode semi-parametrik maksimum likelihood (semi-parametric maximum likelihood method) untuk sampling berkelompok stratifikasi dengan stratifikasi informasi. Metode estimasi berbobot (weighted estimation method) relatif jelas, sederhana untuk diimplementasikan tetapi tidak efisien untuk peneli-tian yang bersifat retrospective. Sedangkan metode semi-parametrik efisien tetapi sulit untuk diimplementasikan karena memerlukan distribusi gabungan dari selu-ruh kovariat.

Kata kunci: Sampling berkelompok stratifikasi, Metode estimasi berbobot, Meto-de semi-parametrik maksimum likelihood.

i

(6)

ABSTRACT

Using of sampling method aims to make withdrawal of sampel more efficient. Election of correct sampling method for a case with it attends its characteristics can gives a result more accurate. This thesis concerns about weighted estima-tion method and semi-parametric maximum likelihood method for stratified cluster sampling with informative stratification. Weighted estimation method is relatively obvious, simply for implementation but inefficient for the retrospective research. Meanwhile,the method semi-parametric is more efficient but difficult to implement because it requires the joint distribution of all covariates.

(7)

KATA PENGANTAR

Puji syukur kepada Allah SWT atas anugrah yang telah diberikan-Nya, serta shalawat teruntuk Nabi Muhammad SAW sehingga penulis dapat menye-lesaikan tesis dengan judul: METODE UNTUK SAMPLING BERKE-LOMPOK STRATIFIKASI DENGAN STRATIFIKASI INFORMASI. Penulis menyampaikan terima kasih yang sebesar-besarnya kepada :

Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc(CTM), Sp.A(K) selaku Rektor Universitas Sumatera Utara.

Bapak Prof.Dr.Ir. A.Rahim Matondang, MSIE, Direktur Sekolah Pas-casarjana Universitas Sumatera Utara.

Bapak Dr. Sutarman, M.Sc, Dekan Fakultas Matematika dan Ilmu Penge-tahuan Alam Universitas Sumatera Utara, yang telah memberikan kesempatan kepada penulis untuk mengikuti Program Magister Matematika di FMIPA Uni-versitas Sumatera Utara.

Bapak Prof. Dr. Herman Mawengkang, Ketua Program Studi Magister Matematika FMIPA Universitas Sumatera Utara, yang juga sebagai pembimbing utama, dan banyak memberikan arahan dalam menyelesaikan tesis ini.

Bapak Dr. Saib Suwilo, M.Sc selaku Sekretaris Program Studi Magister Matematika FMIPA Universitas Sumatera Utara.

Bapak Prof. Dr. Opim Salim S, M.Sc, Pembimbing II yang telah membim-bing dan mengarahkan dalam penulisan tesis ini.

Bapak Dr. Marwan Ramli M.Si, Pembanding - I yang telah memberikan masukan dan saran dalam penyempurnaan tesis ini.

Bapak Drs. Open Darnius, MSc, Pembanding II yang memberikan masukan dan saran dalam penyempurnaan tesis ini.

Bapak / Ibu Dosen Program Studi Magister Matematika FMIPA Universitas Sumatera Utara yang telah memberikan ilmunya selama masa perkuliahan.

iii

(8)

Ibu Misiani, S.Si, staf administrasi Program Studi Magister Matematika FMI-PA Universitas Sumatera Utara yang banyak membantu proses administrasi.

Ucapan terimakasih juga penulis sampaikan kepada :

Pemerintah Indonesia melalui Direktorat Jenderal Pendidikan Tinggi yang telah membiayai pendidikan ini melalui program BPPS.

Bapak Rektor Universitas Negeri Medanyang telah memberikan dukungan kepada penulis selama pendidikan di FMIPA Universitas Sumatera Utara.

Ibunda dan ayahanda tercinta,Kancina dan Alm.Yunus dan mertua tercinta, Fahyuril Azian Nasution dan Norma Pasaribu beserta anggota keluarga lainnya yang telah memberikan bantuan dan dukungan baik moril maupun ma-teriil selama penulis dalam pendidikan.

Suami tersayang, Faisal Roni Nasution yang telah begitu banyak memban-tu dan memberikan motivasi kepada penulis selama menjalani smemban-tudi, juga kepa-da anak-anakku yang terkasih kepa-dan ku-banggakan, Safinah Annajah, Shada Fathimah, Shada Zainab, dan Musa Husayn Nasutionatas semua kesabaran dan pengertian yang telah diberikan kepada bunda baik selama pendidikan maupun dalam proses penyelesaian tesis ini.

Rekan-rekan mahasiswa Program Studi Magister Matematika FMIPA Universitas Sumatera Utara khususnya angkatan reguler tahun 2009, dan semua pihak yang tidak dapat penulis sebutkan satu persatu pada tesis ini. Semoga Allah SWT membalas segala kebaikan dan bantuan yang telah diberikan.

Medan, Juni 2011

Penulis,

(9)

RIWAYAT HIDUP

Susiana, dilahirkan di Desa Telaga Sari Kecamatan Tanjung Morawa Kabu-paten Deli Serdang pada tanggal 19 Mei 1979, merupakan anak kedelapan dari Sembilan bersaudara dari ayah Almarhum Yunus dan ibunda Kancina.Penulis menyelesaikan pendidikan Sekolah Dasar (SD) di SD Negeri 101881 Tanjung Morawa pada tahun 1992, Sekolah Lanjutan tingkat Pertama (SLTP) di SMP Negeri 1 Tanjung Morawa pada tahun 1995,dan Sekolah Menengah Umum (SMU) di SMU Negeri Tanjung Morawa pada tahun 1998.

Pada tahun 1999 penulis melanjutkan pendidikan sarjana Strata-1 pada Fakultas Matematika dan Ilmu Pengetahuan Alam jurusan matematika di Uni-versitas Sumatera Utara dan memperoleh gelar Sarjana Sains pada tahun 2003. Selama menjalani pendidikan sarjana strata-1, penulis juga mengajar di bebera-pa sekolah menengah pertama (SMP) dan Sekolah Menengah Kejuruan (SMK)di kota Tanjung Morawa. Pada tahun 2005, penulis diterima sebagai staf pengajar di Universitas Negeri Medan dan berlanjut hingga sekarang. Pada tahun itu pula penulis menikah dengan Faisal Roni Nasution dan telah dikaruniai 3(tiga) orang putri dan 1(satu) orang putra. Pada tahun 2009, penulis melanjutkan studi pada Program Studi Magister Matematika di FMIPA Universitas Sumetera Utara.

v

(10)

DAFTAR ISI

Halaman

ABSTRAK i

ABSTRACT ii

KATA PENGANTAR iii

RIWAYAT HIDUP v

DAFTAR ISI vi

BAB 1 PENDAHULUAN 1

1.1 Latar Belakang 1

1.2 Perumusan Masalah 3

1.3 Tujuan Penelitian 3

1.4 Manfaat Penelitian 3

1.5 Metode Penelitian 4

BAB 2 TINJAUAN PUSTAKA 5

BAB 3 LANDASAN TEORI 8

3.1 Teori Dasar Sampling 8

3.2 Fungsi Likelihood 11

3.3 Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi 13

BAB 4 PEMBAHASAN 16

4.1 Metode Estimasi Berbobot (Weighted Estimation Method) 16 4.2 Metode Semi-parametrik Maksimum Likelihood (Semi-parametric

(11)

4.3 Efisiensi Profile Likelihood 21

BAB 5 KESIMPULAN DAN SARAN 23

5.1 Kesimpulan 23

5.2 Saran 23

DAFTAR PUSTAKA 24

vii

(12)

ABSTRAK

Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Pemilihan metode sampling yang tepat untuk suatu kasus dengan mem-perhatikan karakteristik-karakteristiknya dapat memberikan hasil yang lebih aku-rat. Tesis ini mengkaji tentang metode estimasi berbobot (weighted estima-tion method) dan metode semi-parametrik maksimum likelihood (semi-parametric maximum likelihood method) untuk sampling berkelompok stratifikasi dengan stratifikasi informasi. Metode estimasi berbobot (weighted estimation method) relatif jelas, sederhana untuk diimplementasikan tetapi tidak efisien untuk peneli-tian yang bersifat retrospective. Sedangkan metode semi-parametrik efisien tetapi sulit untuk diimplementasikan karena memerlukan distribusi gabungan dari selu-ruh kovariat.

(13)

ABSTRACT

Using of sampling method aims to make withdrawal of sampel more efficient. Election of correct sampling method for a case with it attends its characteristics can gives a result more accurate. This thesis concerns about weighted estima-tion method and semi-parametric maximum likelihood method for stratified cluster sampling with informative stratification. Weighted estimation method is relatively obvious, simply for implementation but inefficient for the retrospective research. Meanwhile,the method semi-parametric is more efficient but difficult to implement because it requires the joint distribution of all covariates.

Keyword: Stratified cluster sampling, Weighted estimation method, Semi-parame-tric maximum likelihood method.

ii

(14)

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Sampling adalah cara pengumpulan data jika hanya elemen sampel (seba-gian dari elemen populasi) yang diteliti (Cochran, 1977). Saat ini kecenderungan untuk melakukan survei sampel semakin meningkat, baik yang dilakukan oleh pemerintah, perusahaan maupun secara personal.

Misalnya saja, untuk mengetahui hasil pemilukada (pemilihan umum kepala daerah) dengan cepat, dilakukan pengambilan sampel daerah pemilihan (tempat pemungutan suara). Pemerintah menggunakan survei sampel untuk mendapatkan informasi yang dibutuhkan guna perencanaan pembangunan. Perusahaan mela-kukan penelitian pasar untuk mengetahui respons pembeli terhadap produk yang dihasilkannya.

Adanya keterbatasan dan kendala kendala untuk melakukan survei seluruh populasi telah memunculkan berbagai jenis teknik sampling, diantaranya adalah sampling berkelompok stratifikasi. Kendala-kendala tersebut diantaranya sebagai berikut :

1. Untuk anggota populasi yang besar, sering tidak ada data yang lengkap dan terbaru(up to date)tentang orang-orang, perumahan, atau tanah pertanian dalam wilayah geografis yang luas. Solusi dari masalah ini adalah pemba-gian wilayah menjadi unit-unit daerah seperti blok-blok dikota atau segmen tanah dengan batas-batas yang jelas untuk dipedesaan.

2. Seringkali, daftar perumahan individual tersedia, pertimbangan biaya dapat mengarah pada pemilihan sebuah unit kelompok yang lebih besar.

(15)

2

4. Adanya adat kebiasaan yang berbeda dalam suatu populasi dapat diper-lakukan atas strata-strata yang berbeda, misalnya untuk orang-orang yang hidup di lingkungan rumah sakit dan penjara ditempatkan dalam strata yang berbeda dengan orang-orang yang hidup dilingkungan rumah-rumah biasa.

St.Peter et al.(1992) melakukan analisis data dari National health Inter-view Survey on Child Health tahun 1988. Analisis ini bertujuan menentukan apakah adanya jaminan kesehatan mempengaruhi penggunaan tindakan preventif (sebagai upaya pencegahan) bagi anak-anak dari keluarga tidak mampu (miskin). Penelitian ini mencakup 17.710 responden yang dipilih berdasarkan sampling ber-kelompok stratifikasi.

Whittemore dan Jerry Halperin(2003) melakukan sebuah penelitian ten-tang hubungan antara resiko penyakit dengan faktor genetik ataupun lingku-ngan. Dalam penelitian ini, data yang diolah adalah data tentang kasus penyakit kanker ovarium dimana yang menjadikelompokadalah pasangan ibu dengan anak gadisnya. Kelompok-kelompok tersebut dibagi menjadi dua strata yaitu case dan control. Yang diperlakukan sebagai case adalah pasangan yang anak gadisnya terdeteksi mengidap kanker ovarium, sedangkan sebagai control adalah pasangan yang tidak terdeteksi mengidap penyakit tersebut.

Lin et al.(2004) melakukan analisis data dari hasil survei nasional tahun 1983-2000 tentang prevalensi dari kasus myopi pada anak-anak usia sekolah di Taiwan. Dalam hal ini respons yang dipertimbangkan adalah jenis kelamin dan prestasi akademik dari anak-anak tersebut.

Misalkanymenyatakan vektor respons untuk unit-unit dalam sebuah kelom-pok dan andaikanXmatriks yang bersesuaian dengan nilai kovariat. Didefinisikan sebuah variabel indikator stratum, Z dengan nilaiZ =hjika kelompok diberikan pada stratum ke-h(h = 1, ..., L). Diasumsikan bahwa nilai-nilai populasi ter-batas dariN kelompok dibangun oleh sampling dari distribusi bersama (y, X, Z). Kelompok-kelompok dibagi menjadi L stratum, S1, ..., SLberdasarkan nilai-nilai

Z, menghasilkan Nh kelompok dalam Sh(PL₁ Nh = N).Kemudian diambil

(16)

3

pel acak sederhana, Dh, nh kelompok dari Nh kelompok dalam Sh(h = 1, ..., L)

dan diamati dengan nilai (y, X). Andaikan (yhj, Xhj) menyatakan nilai-nilai yang

diobservasi untuk kelompok ke-j dalam strata ke-h, maka bentuk data observasi tersebut menjadi {(yhj, Xhj, j ∈Dh), Nh;h= 1, ..., L}.

Tehnik pengambilan sampel sebagaimana digambarkan diatas adalah tehnik pengambilan sampel berkelompok stratifikasi. Pertanyaaan selanjutnya adalah bagaimana cara menentukan perkiraan-perkiraan parameter dalam sampling ber-kelompok stratifikasi. Tesis ini bertujuan mengkaji metode-metode yang berkai-tan dengan teknik sampling tersebut dengan judul “Metode untuk Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi“. Informasi yang dimaksud adalah respons yang diberikan oleh objek penelitian atau informasi lain yang diperoleh setelah pembentukan kelompok. Jadi, kelompok-kelompok dima-sukkan dalam strata menurut respons/informasi yang diperoleh dari observasi awal sedemikian hingga probabilitas sebuah kelompok masuk ke stratum tertentu bergantung pada nilai dari respons yang diberikan.

1.2 Perumusan Masalah

Rumusan permasalahan dalam penelitian ini adalah mengkaji metode es-timasi berbobot, metode semi-parametrik maksimum likelihood dalam sampling berkelompok stratifikasi dengan stratifikasi informasi.

1.3 Tujuan Penelitian

Penelitian ini bertujuan untuk menentukan metode yang tepat dalam sam-pling berkelompok stratifikasi dengan stratifikasi informasi.

1.4 Manfaat Penelitian

(17)

4

1.5 Metode Penelitian

Penelitian ini merupakan penelitian yang bersifat literature kepustakaan. Adapun langkah-langkah yang akan dilakukan dalam penelitian ini adalah sebagai berikut:

1. Menjelaskan setiap terminologi yang digunakan.

2. Menjelaskan metode-metode yang telah digunakan dalam bidang penelitian yang sama.

3. Menjelaskan metode estimasi berbobot

4. Menjelaskan metode semi parametrik maksimum likelihood

5. Menarik kesimpulan dan memberikan saran-saran berkaitan dengan tindak lanjut penelitian.

(18)

BAB 2

TINJAUAN PUSTAKA

Penggunaan metode sampling bertujuan untuk membuat penarikan sampel lebih efisien. Metode sampling mencoba untuk mengembangkan metode pemilihan sampel dan metode perkiraan dengan biaya yang sekecil mungkin dan perkiraan yang cukup teliti untuk tujuan tertentu (Cochran, 1977).

Beberapa metode sampling yang biasa digunakan diantaranya adalah :

1. Sampling acak sederhana (Simple Random Sampling), yaitu memilihn unit dariN anggota populasi sehingga setiap elemen dariCN

n sampel yang

berbe-da mempunyai kesempatan yang sama untuk dipilih.

2. Sampel stratifikasi (Stratified Sampling), yaitu membagiN anggota populasi menjadiL strata (subpopulasi), masing-masingN1, N2, ..., NLunit, dimana

N1 +N2+NL = N . Kemudian sebuah sampel diambil secara bebas dari

tiap strata sebanyakn1, n2, ..., nL.

3. Sampel berkelompok (Cluster Sampling), yaitu membagi populasi menja-di beberapa kelompok, kemumenja-dian memilih kelompok yang menjamenja-di sampel, selanjutnya elemen-elemen dalam kelompok yang terpilih diteliti.

4. Sampling berkelompok stratifikasi (Stratified Cluster Sampling), yaitu mem-bagi populasi menjadi N kelompok. Setiap kelompok dipilih untuk dibagi menjadi L strata. Dari tiap strata diambil sampel sebanyak nh kelompok,

selanjutnya diambil dh elemen darinh kelompok.

(19)

6

Rao et al. ( 1998 ) mengkaji pendekatan survei standar yaitu melalui per-samaan estimasi berbobot dengan bobot berbanding terbalik dengan peluang yang terpilih. Andaikan untuk semua unit dari populasi terbatas yang berukuran N. Terdapat (xi, yi) dimana x adalah vektor dari variabel-variabel penjelas dan Y

adalah variabel respon. Asumsikan bahwa untuk nilai x yang diketahui , Y

di-generate oleh beberapa proses acak dengan rata-rata :

E(Yi) =µi =µ(xi, β) (2.1)

dan anggap bahwa model untuk variansinya adalah:

var(Yi) =V0i =V0(µi) (2.2)

untuki= 1, , N. Tentunya tidak semua nilai-nilai unit populasi diobservasi tetapi hanya sampel yang diambil dari populasi terbatas berdasarkan desain sampling yang telah ditentukan.

Selanjutnya, anggap bahwa, jika nilai-nilai untuk seluruh populasi terbatas diperoleh, dapat ditentukan estimator konsisten dariβ dengan menyelesaikan per-samaan estimasi :

S(β) =PN₁ ui(β) = 0 (2.3)

dimanaui(β) mempunyai komponen ke-kyakniuik = (∂µi/∂βk)(yi−µi)/Voi.

Ka-rena pada kenyataannya, nilai-nilai untuk seluruh populasi tidak dapat diketahui maka diambil beberapa sampel dari populasi tersebut. Anggap bahwa desain sam-pel memberikan konsistensi, estimator yang normal asymtotik dari total populasi dan diasosiasikan dengan standard error. Maka, karena S(β) adalah sebuah vek-tor dari total populasi untuk nilai β, dapat diperoleh sebuah estimator dariS(β) sebagai berikut :

b

S(β) =P_i∈swisui(β) (2.4)

dimana bobot survei wis, bergantung pada sampel s, estimator sampel β, diten-b

tukan dengan menyelesaikanSbβb= 0.

Scott dan Wild (2007) melakukan pendekatan estimator semi-parametrik

(20)

7

untuk sampling berkelompok stratifikasi. Estimator maximum likelihood semi-parametrik,θ danγ diperoleh dengan memaksimumkanℓ(θ, γ, g) = logL(θ, γ, g). Dimulai dengan mereduksi masalah menjadi case yang lebih sederhana dimana anggota stratum ditentukan oleh respons kelompok. Kemudian tambahkan vektor respons y dengan indikator stratum Z untuk membentuk variabel respons yang dimodifikasi ey= y_z . Selanjutnya⌣θ = _γθ dan masalahtersebut menjadi :

fey|X;⌣θ=f(z, y, X;γ)f(y|X;θ) =Pz(y, X;γ)f(y|X;θ) (2.5)

untuk data yang berasal dari sampel stratifikasi dimana stratum Sh(h = 1, , L)

(21)

BAB 3

LANDASAN TEORI

Pemilihan metode sampel sebagai sumber data berarti menarik kesimpulan tentang karakteristik suatu populasi berdasarkan informasi-informasi yang dipe-roleh dari sampel. Hal ini dilakukan mengingat adanya beberapa alasan seperti biaya yang lebih kecil dibandingkan jika melakukannya dengan cara sensus, wak-tu yang lebih singkat, atau kemungkinan akses pada responden lebih mudah. Meskipun begitu, jikalau memang tersedia waktu dan dana yang tak terbatas, sensus mungkin menjadi pilihan yang lebih baik.

3.1 Teori Dasar Sampling

Definisi-definisi dari teori dasar sampling yang digunaka dalam tesis ini se-bagian besar dikutip dari (Kapoor, 2002), (Cochran, 1977) dan sumber referensi lainnya, diantaranya sebagai berikut :

1. Populasi dan sampel

Populasi adalah kumpulan individu-individu atau atribut-atribut atau hasil-hasil dari suatu operasi yang dapat dijelaskan secara numerik (Kapoor, 2002). Suatu populasi terdiri atas keseluruhan pengamatan yang menjadi objek penelitian. Terdapat dua macam populasi yaitu populasi tak terbatas (infinite) dan populasi terbatas (finite). Populasi dalam metode sampling adalah populasi yang terbatas dan ditentukan batasnya (finite and delimi-ted), seperti penduduk suatu kota, mesin-mesin dalam suatu pabrik, ikan-ikan dalam suatu danau(Cochran, 1977).

Sedangkan sampel adalah sebagian dari anggota-anggota populasi. Ukuran dalam populasi disebut sebagai parameter, biasanya menggunakan simbol µ untuk rata-rata,σ untuk varian. Ukuran yang diperoleh dari pengolahan sampel disebut sebagai statistik dan sifatnya adalah sebagai estimator bagi parameter. Sampel dengan ukuran lebih dari 30 disebut sampel berukuran

8

(22)

9

besar. Sedangkan sampel dengan ukuran kurang dari 30 disebut sampel berukuran kecil (Kapoor, 2002).

2. Variabel acak

Suatu variabel acakXialah suatu fungsi bernilai real dengan daerah definisi ω yakni, untuk setiap ω ∈ Ω, X(ω) ∈ ℜ ={y:−∞< y <+∞}. Variabel acak terbagi atas dua jenis yakni variabel acak diskrit dan variabel acak kontinu.

3. Parameter dalam populasi terbatas

Parameter-parameter dalam populasi terbatas adalah fungsi-fungsi dari ka-rakteristik yang diteliti yang diasosiasikan dengan unit-unit sampling dalam populasi terbatas dengan asumsi-asumsi. Masalah mendasar dalam survei sampling adalah menarik kesimpulan(inferensi) terhadap parameter- para-meter ini berdasarkan sampel-sampel yang terpilih menurut desain sampling berpeluang dari populasi terbatas (Chen dan Rao, 2007).

Dalam suatu sampling survei, parameter yang akan diestimasi biasanya meliputi rata-rata, jumlah total, rasio dan proporsi untuk parameter yang sederhana. Beberapa parameter tersebut dirumuskan sebagai berikut : Asumsikan bahwa tiap unit dalam populasi merupakan pasangan karakte-ristik (xi, yi), i= 1, ..., N.

Fungsi f(x, y) adalah fungsi padat gabungan variabel acak kontinu X dan Y jika :

(23)

10

(b) R_−∞∞ R_−∞∞ f(x, y)dx dy = 1

(c) P[(X, Y)∈A] =R_AR f(x, y)dx dy untuk tiap daerah A di bidang xy

5. Fungsi peluang marginal

Fungsi peluang marginal dari adalahXil, ..., Xil adalah :

6. Fungsi peluang bersyarat

Fungsi peluang bersyarat Xil, ..., Xil bila diketahui Xil+1 = xil+1, ..., Xis =

xis adalah, bila P

Xit+1 =xit+1, ..., Xis =xis

>0( untuk himpunan varia-bel yang terpisah ) ;

Pn X1 =x1, ..., Xn=xn

7. Ekspektasi (nilai harapan)

Ekspektasi atau nilai harapan dari variabel acak X adalah

EX = R_−∞∞ xfx(x)dx, jika X kontinu dengan fungsi padat peluang fx(x)

dan EX =Pxipx(xi)jika X diskret dengan fungsi peluang px(xi).

8. Variansi dan kovarian

Variansi dari variabel acakX adalah : σ2

x =E[X−EX]

2

Kovarian dari variabel acak X dan Y adalah : Cov(X, Y) =E{[X−EX] [X−EY]}

9. Kesalahan sampling

Misalkan θ adalah sebuah parameter dan θbadalah estimator dari θ , maka yang dimaksud dengan kesalahan sampling adalah θˆ−θ.

(24)

11

10. Sifat-sifat estimator

Sebuah estimator dikatakan konsisten jika hasil estimasi tepat sama de-ngan nilai populasi (sensus). Meskipun konsistensi merupakan sifat yang diinginkan pada estimator, tapi pada sisi lain estimator yang tidak konsis-ten masih berguna bilan kecil dibandingkan dengan N.

Sebuah statistiktdikatakan estimator tak bias dari sebuah parameterθjika E(t) = θ. (Kapoor, 2002)

Sebuah statistik t dikatakan estimator tak bias asymtotik dari sebuah pa-rameterθ jikaLtn→∞E(tn) =θ, dimana n adalah ukuran sampel.

3.2 Fungsi Likelihood

1. Full semiparametric likelihood

Pandang bahwaN unit (yi, Xi), i= 1,2, ..., N ada atau dibangkitkan ( gene-rated) dari f(y|X;θ)g(X). Range dari (y, X) di-partisi menjadi L strata S1, ..., SL. Andaikan G() menyatakan fungsi distribusi yang bersesuaian

ke-g(X),

Misalkan strata didefinisikan untuk semua unit, fungsi full semiparametric likelihooddalam berbagai metode sampling yang telah dijelaskan diatas da-pat dituliskan sebagai :

LF(θ, G) = Pada intinya, perlu diasumsikan bahwa nilai-nilai (x, y) yang record-nya ada dalam strata Sh adalah sampel acak dari distribusi bersyarat (y, X)

(25)

12

Pada kasus sampling berkelompok stratifikasi, fungsi likelihood dapat ditu-liskan sebagai berikut :

L(θ, γ, g) = QL_h₌₁DQ_j∈D dimanag(X) menyatakan fungsi peluang marginal dariXdari populasi dan Qh = Qh(θ, γ, g) =P (Z =h)

=RR Ph(y, X, γ)fhy|X;θig(X) dydx (3.2.6)

menyatakan peluang marginal bahwa sebuah kelompok masuk ke dalam strata Sh.

2. Pseudo-likelihood

Fungsi pseudo-likelihood dapat diestimasi dengan memaksimumkanLF

θ,G˜ dimana ˜G adalah nilai estimasi dari G yang dapat dihitung secara empiris. Selanjutnya ˜G(x) = PK_j₌₁G˜j(x)

tribusi kumulatif atasxi untuk unit-unit∈Dj , yaitu unit-unit yang secara

lengkap diobservasi dalam stratum ke-j. Sehingga nilai dari log pseudo-likelihood dapat dihitung berdasarkan :

lp(θ) =P_i₌₁log fhyhj |Xhj;θi

3. Weighted pseudo-likelihood ( pseudo-likelihood berbobot )

Andaikan semua N unit telah diobservasi secara lengkap, maka fungsi log-likelihood menjadi Plog f(yi|Xi;θ). Sebuah estimasi dari perhitungan

ini dapat diperoleh jika menggunakan unit-unit observasi yang lengkap dan bobotnya secara terbalik berdasarkan peluang dari terpilihnya. Fungsi log pseudo-likelihood diberikan oleh :

ℓw(θ) =PK_j₌₁pˆ−j1

P

i∈Djlogf(yi|Xi;θ) (3.2.8)

Untuk sampling stratifikasi dipergunakan ˆpj = nj/Nj yang memberikan

se-buah persamaan estimasi tak bias untukθ.

(26)

13

3.3 Sampling Berkelompok Stratifikasi dengan Stratifikasi Informasi

Metode penarikan sampling secara umum terbagi atas dua jenis yakni:

1. Sampling berpeluang (probability sampling) adalah teknik pengambilan sam-pel yang memberikan sam-peluang yang sama bagi setiap unsur (anggota) po-pulasi untuk dipilih menjadi anggota sampel. Yang termasuk dalam jenis ini diantaranya sampling acak sederhana, sampling berkelompok, sampling stratifikasi dan sampling berkelompok stratifikasi.

2. Sampling tak berpeluang (non-probability sampling) adalah teknik sampling yang memberi peluang atau kesempatan tidak sama bagi setiap unsur atau anggota populasi untuk dipilih menjadi sampel. Teknik sampling non pe-luang meliputi :sampling aksidental, sampling purposive, dan sampling kuo-ta.

Dalam sampling berkelompok stratifikasi berarti melakukan penstrataan de-ngan menggunakan kelompok-kelompok. Populasi dibagi atas beberapa kelom-pok, selanjutnya kelompok-kelompok tersebut dibagi menjadi strata-strata. Dari tiap strata dipilih beberapa kelompok sebagai sampel. Akhirnya, dari sampel kelompok-kelompok yang terpilih diambil sampel acak sederhana (unit sampel) yang akan diobservasi.

(27)

14

Misalkanymenyatakan vektor respons untuk unit-unit dalam sebuah kelom-pok dan andaikanX matriks yang bersesuaian dengan nilai kovariat. Didefinisikan sebuah variabel indikator stratum, Z dengan nilaiZ =hjika kelompok diberikan pada stratum ke-h (h = 1, , L). Diasumsikan bahwa nilai-nilai populasi terbatas dari N kelompok dibangun oleh sampling dari distribusi bersama (y, X, Z).

Kelompok-kelompok dibagi menjadi L strata, S1, ..., SL berdasarkan

nilai-nilai Z, menghasilkan Nh kelompok dalamShPL₁ Nh =N

. Kemudian diambil sampel acak sederhana,Dh, nhkelompok dariNhkelompok dalamSh (h= 1, ..., L)

dan diamati dengan nilai (y, X).

Andaikan (yhj, Xhj) menyatakan nilai-nilai yang diobservasi untuk

kelom-pok ke-j dalam stratum ke-h, maka bentuk data observasi tersebut menjadi

{(yhj, Xhj, j ∈Dh), Nh;h= 1, ..., L},dan ukuran sampel N1, ..., NL merupakan

variabel yang bersifat acak. (Scott dan Wild, 2007).

Penyelesaian masalah diatas, dapat dilakukan dengan model parametrik, Ph(y, X;γ), dimana untuk peluang bersyarat dari sebuah kelompok yang

terma-suk kedalam strata ke-hdiberikan oleh nilai-nilai vektor respons, y, dan matriks kovariat, X. Tidaklah menjadi masalah jika strata yang termasuk dalam model ini hanya mengandungX. Akan tetapi, jika model bergantung pada respons, atau bergantung pada sebuah variabel buatan yang diasosiasikan denganytetapi tidak termasuk dalam model, maka sampling (penarikan sampel) tidak dapat diabaikan, dan tentunya akan mempengaruhi nilai likelihood.

Dalam sebuah proses yang menghasilkan data berdasarkan modelfhy|X;θi

g(X). Disini, y menyatakan variabel respons, yang mungkin saja bersifat mul-tivariat, dan X merupakan vektor kovariat yang dapat bersifat diskret ataupun kontinu. Sedangkan fhy|X;θi adalah fungsi distribusi bersyarat dari vektor re-spons kelompok y jika diketahui nilai matriks kovariat kelompok X, dan g(X) adalah fungsi distribusi marginal dari X .Tujuan dari penggunaan θ adalah un-tuk membuat distribusi bersyarat dariyjika diketahuiX sedemikian hinggag(X) tidak mengandung θ. Karena itu tujuannya adalah estimasi terhadap θ (Lawless et al.,1999).

(28)

15

Peluang bersyarat bahwa sebuah kelompok masuk kedalam stratum ke-h, Sh(h= 1, ..., L) jika diketahuiy dan X :

Phkelompok ∈Sh |y, Xi = P hZ =h |y, Xi =Ph(y, X;γ) (3.3.1)

(29)

BAB 4

PEMBAHASAN

4.1 Metode Estimasi Berbobot (Weighted Estimation Method)

Misalkan nilai-nilai dari (y, X, Z) untuk setiap kelompok dalam populasi yang terbatas telah diobservasi, maka estimasi θ dapat diperoleh dengan menye-lesaikan persamaan likelihood berikut :

S(θ) =PL_h₌₁PNh

j=1Uhj(θ) = 0 (4.1.1)

dimanaUhj(θ) =∂logf(yhj|Xhj;θ)/∂θ. Diasumsikan bahwa kondisi

regu-ler standard untuk fungsi likelihood dipenuhi sedemikian hingga :

E{S(θ)}= 0,Cov{S(θ)}=−En∂S_∂θ(θ)o=NJ(θ), (4.1.2)

pada saat θ =θ0

Untuk sebarang nilai θ yang telah ditentukan , S(θ) merupakan sebuah vektor dari populasi total yang dapat diestimasi dari observasi sampel dengan menggunakan nilai sampel berbobot berikut :

Sw(θ) =P_hP_D

h

Nh

nh Uhj(θ) (4.1.3)

Estimator berbobot, ˆθwdidefinisikan sebagai solusi untuk persamaan

pseudo-likelihood berbobot Sw(θ) = 0.

Pada kondisi{Uhj}standard (normal),ˆθw merupakan estimator yang

konsis-ten dari parameter θC untuk populasi terbatas (sensus), dimanaθC didefinisikan

sebagai solusi dari persamaan (4.1) (Rao et al., 1998).

Dalam terminologi sampling, materi dalam tesis ini dapat juga dikategorikan sebagai stratifikasi dua tahap. Tahap pertama, populasi terbatas dibangkitkan se-bagai sampel acak berukuranN dari sebuah super-populasi (tak terbatas) dan pe-nentuan kelompok-kelompok menjadi stratum-stratum. Sedangkan sebagai tahap keduanya adalah proses pengambilan sampel acak sederhana yang berukuran nh

16

(30)

17

dari Nh-kelompok dalam stratum Sh, dengan nilai n1, ..., nL bergantung pada

N1, ..., NL dan observasi yhj, Xhj, j ∈Dh untuk h= 1, ..., L.

Selanjutnya akan dibangun solusi dengan pengkondisian pada ZN,vektor

in-dikator stratum untuk populasi terbatas yang tercapai dan kemudian menentukan distribusi dariZN. DiketahuiZN ,N1, ..., NLdan disinin1, ..., nLadalah

konstan-ta yang telah ditentukan dan Uhj(θ), j ∈Dh. Observasi-observasi dari distribusi

bersyarat U(θ) = (∂logf(y|X;θ))/∂θ diketahui Z =h.

Andaikan µh(θ) dan P_hθ menyatakan vektor rata-rata dan matriks

ko-varian dari distribusi bersyarat ini, dan andaikan µ(θ) dan P(θ) menyatakan nilai-nilai yang bersesuaian dengan distribusi tak-bersyarat U(θ). Pandang kem-bali bahwa µ(θ0) = 0 dan P(θ0) = J(θ0) dibawah kondisi standard. Distribusi

tak-bersyarat dari N1, ..., NL bersifat multinomial (N;Q1,· · · , QL) dimana Qh

merupakan peluang marginal bahwa Z =h untuk h= 1, ..., L.

Diketahui bahwa:

untuk varians bersyarat diperoleh :

Cov{Sw(θ)}= Cov{

Selanjutnya, untuk menentukan nhS ,diasumsikan fraksi nh/_N

(31)

18

Terminologi yang pertama merupakan matriks kovarian yang akan diperoleh jika bobot diketahui, dan terminologi kedua menyatakan bentuk akhir dari bobot tersebut. Dengan menggunakan relasi berikut:

Cov{U(θ)}=E{Cov{U|Z =h}}+ Cov{E{U|Z =h}}, (4.1.8)

Varian diatas dapat juga dinyatakan dalam bentuk berikut :

Cov{C}=NnP(θ) +Ph Qh

Terminologi pertama menunjukkan matriks kovarian yang akan dihitung berdasarkan sampling semua kelompok dalam populasi terbatas. Sedangkan ter-minologi yang kedua menunjukkan bahwa bentuk akhir dari penghitungannya pada tahap kedua.

Akhirnya, merujuk hasil dari Chen dan Rao (2007) bahwa SW(θ)

bersi-fat multivariat normal asymtotis karena N → ∞ dengan nh/_N

h → fh untuk

h = 1, ..., L ditetapkan. Setelah pembentukan sifat-sifat dari SW(θ), dengan

menggunakan hasil standard untuk persamaan estimasi tak bias untuk mencari invers persamaanSw

ˆ θw

= 0 dan menyimpulkan hasil untuk ˆθw. Secara khusus,

hal itu menunjukkan bahwa r

Nθˆw−θ

konvergen dalam distribusi menuju se-buah variabel acak normal yang bersifat multivariat dengan vektor rata-rata 0 dan matriks kovarianNV θˆ dimana:

kita dapat menuliskan kembaliV θˆsebagai berikut :

V θˆ= _N1 hJ−1_(θ

(hal ini dilakukan dengan menggunakan nilaiCovSW(θ) pada persamaan (4.1.9)).

(32)

19

Estimasi V θˆ dilakukan dengan substitusi ˆJ = −(1_/_N₎_∂S_w_θˆ._∂θT

un-tuk J(θ0),µˆhP_jUhj

.

nh untukµh, Wh =Nh/N untukQhvariansi sampel dalam

stratum untuk Ph. Bersamaan dengan persamaan (4.10), diperoleh estimator yakni:

Terminologi pertama dari persamaan (4.13), adalah (1_/_n_{), yaitu estimasi}

va-riansi yang akan digunakan jika diasumsikan bahwa Nhs ditetapkan dan

termi-nologi kedua O(1_/_n_{) , mengukur efek dari jika} _N_hs _{tidak diketahui. Terminologi}

kedua dapat diabaikan dalam beberapa aplikasi.

Pada umumnya, metode estimasi berbobot (weighted estimation method) bekerja dengan baik untuk situasi-situasi sampling yang standar dimana fraksi-fraksi tidak begitu banyak bervariasi diantara strata. Sebaliknya, metode ini tidak cukup baik jika fraksi-fraksi terlalu luas (Lawless et al., 1999).

Keuntungannya adalah bahwa tidak diperlukan banyak pemodelan dari stra-tum termasuk peluang-peluangnya. Konsekuensi yang cukup penting dalam hal ini adalah bahwa prosedur yang sama dapat digunakan untuk sampling stra-tifikasi dua tahap, dimana sub-sampel acak sederhana dipilih dari tiap kelom-pok yang terpilih. Banyak bentuk-bentuk sub-sampling yang lebih lengkap da-pat dijadikan sederhana dengan menyesuaikan bobot-bobotnya dalam persamaan pseudo-likelihood (4.1).

4.2 Metode Semi-parametrik Maksimum Likelihood (Semi-parametric Maximum Likelihood Method)

Pandang kembali fungsi likelihoodL(θ, γ, g) yang diberikan pada persamaan (3.6). Estimatorθ, γdiperoleh dengan memaksimumkanl(θ, γ, g) = logL(θ, γ, g).

(33)

res-20

pon yang dimodifikasi yakni :ye= y_z dan eθ = _γθ . Selanjutnya masalah yang telah direduksi dicocokkan pada modelfy˜X; ˜θ, dimana :

fy˜X; ˜θ=f(z|y, X;y)f(y|X;θ) (4.2.1)

untuk data dari sampel stratifikasi dimana strata, Sh(h= 1, ..., L), ditentukan

secara lengkap oleh respon y. Lee (2007) telah menunjukkan dalam tulisannyae keefisienan asymtotik dari estimator ini dan menunjukkan bahwa J∗_{( ˆ}_ϕ)−1

mem-berikan sebuah estimator konsisten dari variansi. Sejalan dengan hal itu, Lee dan Hirose (2007) menggunakan pendekatan yang berbeda yakni berdasarkan metode

profile likelihood

Didefinisikan fungsi pseudo-log-likelihood :

ℓ∗_{(θ, γ, π) =}P

dan φ adalah L-dimensi vektor dari parameter gangguan. Selanjutnya estimator-estimator semi-parametrik maksimum likelihood,θedaneγ, dariθdanγmerupakan komponen yang tepat dari ˆϕ, solusi dari persamaan pseudo-score,

S∗_{(ϕ) =} ∂ℓ∗₍_ϕ₎

∂ϕ = 0, (4.2.4)

dimana ϕ = θT_{, γ}T_{, π}TT_{Ini berarti bahwa, untuk tujuan-tujuan perhitungan,}

estimasi maksimum likelihood dari _γθ , dapat dilakukan karena ℓ∗_(ϕ)

meru-pakan log-likelihood.

Pseudo-score,S∗_{(ϕ), mempunyai banyak sifat-sifat dari fungsi score standar.}

Pertama, dengan standarisasi yang tepat, S∗ _{secara asymtotis normal, karena}

N → ∞ memberikan nh/_N

h → fhdengan 0 <fh ≤ 1 untuk h = 1, ..., L. Kedua,

E{S∗_(ϕ)_} _{= 0 pada nilai kebenaran, meskipun istilah individual dalam} _S∗_(ϕ)

tidak berdistribusi secara identik maupun mempunyai ekspektasi nilai nol dengan desain sampling stratifikasi.

(34)

21

Akhirnya, andaikan J∗ _{menyatakan matriks informasi observasi (pseudo):}

J∗_{(ϕ) =}₋∂ℓ∗₍_ϕ₎

∂ϕ =−

∂2_ℓ∗

∂ϕ∂ϕT, (4.2.5)

Andaikan J∗ _{menyatakan nilai ekspektasi, maka} _S∗_{(ϕ) bersifat asymtotis}

normal dengan matriks asymtotis kovarian :

Cov{S∗_(ϕ)_}₌_J∗_(ϕ

dimana K adalah matriks simetri L× L. Lebih khusus, ˆϕ bersifat asymtotis normal dengan rata-rata ϕ0 dan matriks kovarian :

J∗_(ϕ

Untuk tujuan mengestimasiθdanγ, dapat dilakukan dengan semi-parametrik maksimum likelihood yaitu pada saat S∗_{(ϕ) = 0 dan matriks kovariannya dapat}

diestimasi dengan menggunakan komponen yang tepat dari invers matriks infor-masi observasi J∗_(ϕ

0)−1.

Pada prinsipnya, yang dilakukan adalah memperluas hasil-hasil pada sam-pling dua-tahap dimana subsampel diambil dari kelompok-kelompok yang terpilih (unit sampling primer). Untuk mengaplikasikan persamaan (5.3) diperlukan pe-luang bersyarat dari anggota stratum jika diketahui observasi (y, X), yang memer-lukan integrasi nilai-nilai unit yang tak tersampel dalam kelompok.

4.3 Efisiensi Profile Likelihood

(35)

22

Andaikan terdapat model semi-parametrik sebagai berikut:

P ={p(x, β, µ)β ∈ θβ ⊂Rm, µ ∈θµ} (4.3.1)

Dimana β parameter n- dimensi dan µ parameter pengganggu yang dapat saja berdimensi tak hingga. Ambil (β0, µ0) nilai sebenarnya dari (β, µ). Andaikan

θβ himpunan kompak yang mengandung neighbourhood terbuka β0 dalam Rm,

dan θµ himpunan konveks yang mengandung µ∂ dalam ruang Banach B.

Andaikan juga bahwa untuk setiapβ ∈θβ, ekspektasi log-likelihood adalah

Eβ0,µ0logp(X;β, µ) secara tunggal diminimumkan terhadapµ∈θβ. Untuk setiap merupakan fungsi skor efisien.

Sebaliknya, andaikan :

ˆ

µn(β) = arg maxµ∈θµ

Pn

i=1logp(Xi;β, µ) (4.3.4)

Fungsi profile log-likelihood untukβ adalah log-likelihood :

ln(β,µˆn(β)) =

P

logp(Xi;β,µˆn(β)) (4.3.5)

yang diperlakukan sebagai fungsi dari βsaja. Penyelesaian terhadap profile likeli-hood dengan mengestimasi persamaan ∂

∂βln

= 0 memberikan nilai MLE (Maximum Likelihood Estimator) ˆβn.

(36)

BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Tesis ini mengajukan metode untuk mengestimasi sampling berkelompok terstratifikasi. Metode ini mencakup metode estimasi berbobot yang dipero-leh melalui persamaan likelihood. Selanjutnya diajukan metode semi-parametrik maksimum dengan mengetengahkan fungsi pseudo log-likelihood. Metode ini rela-tive lebih efisien daripada metode yang pertama, namun sulit diimplementasikan. Efisiensi profile likelihood juga diajukan untuk dapat menghasilkan nilai maksi-mum likelihood estimator.

5.2 Saran

(37)

DAFTAR PUSTAKA

Bichel, J.Klassen, C.A.J, Ritov, Y dan Wellner, J.A, 1993, Effesient and Adap-tive Estimation for Semi-parametric Models, John Hopkins University Press, Baltimore.

Chen, J dan J.N.K.Rao, 2007, Asymtotic Normality Under Two Phase Sampling Designs, Statisca Sinica, 17:1047-1064.

Cochran, William G, 1977, Sampling Techniques, Jhon Wiley and Sons Inc, New York.

Kapoor, N.M, 2002, A Text Book of Statistics, Pitambar Publishing Company (P) LTD, New Delhi, India.

Newey, W.K, 1994, The asymptotic Variance of Semi-parametric Estimators,

Econometrica, 62:1349-1382.

Lawless, J.F, J.D.Kalbfleisch dan C. Wild, 1999, Semiparametric Methods for Response-Selective and Missing Data Problems in regression, Journal of the Royal Statistical Society, 61:413-438.

Lin, LLK, YF Shih, CK Hsiao, CJ Chen, 2004, Prevalence of Myopia Schoolchil-dren:1983 to 2000,Annals Academy of Medicine,33.

Rao, J. N. K, A. Scott, and C. J. Skinner,1998, Quasi-score test with survei data,

Statistica Sinica,8:1059 -1070.

Scott,A and C. Wild, 2007, Methods for Stratified Cluster Sampling with Infor-mative Stratification, Journal of Applied Mathematics and Decision Scien-ces,2007:ID56372.

St.Peter, Robert F, Paul W.Newachek and Neal Halfon, 1992, Access to Care for Poor Children,JAMA,267.

Whittemore, Alice S dan Jerry Halperin, 2003, Logistic Regression of Family Data from retrospective Study Designs, Genetic Epidemiology,25: 177-189.

24