Logistic Regression Model Studies on Case-Control Data with Three-Stage Sampling

(1)

KAJIAN MODEL REGRESI LOGISTIK PADA DATA

KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN

CONTOH

RATNA CHRISTIANINGRUM

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(2)

PERNYATAAN MENGENAI TESIS DAN

SUMBER INFORMASI

Dengan ini saya menyatakan bahwa tesis Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh adalah karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Bogor, Agustus 2011

Ratna Christianingrum

(3)

ABSTRACT

RATNA CHRISTIANINGRUM. Logistic Regression Model Studies on Case-Control Data with Three-Stage Sampling . Under direction of BUDI SUSETYO, and KUSMAN SADIK

If the sample is taken by using multistage random sampling, through reducing sample size in the next stage, then the ordinary logistic models can’t be used. This data will be analyzed using logistic models with the additional intercept. This research studied the application of addition intercept terms in logistic regression for case control study used multi stage random sampling. Furthermore, this research compared between the model which was formed and the model of the frame sampling data. The addition intercept in logistic models was able to describe the pattern of relationship explanatory variable with response variable. Missing information decreases with increasing number of samples that observed. Average of missing information in the third stage tends to be smaller than in the second stage, because the third stage has more homogeneous sample units than the second stage. The average of missing information is smaller than the average reduction in the number of samples when using multi-stage random sampling, so this sampling technique is also suitable for use in research aimed at predicting the probability of case. Moreover the use of the sampling technique can reduce the sampling cost.

(4)

RINGKASAN

RATNA CHRISTIANINGRUM. Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh. Dibimbing oleh BUDI SUSETYO dan KUSMAN SADIK

Rancangan penelitian yang banyak digunakan dalam bidang epidemiologi adalah rancangan penelitian kasus-kontrol. Dalam penelitian kasus-kontrol, contoh kasus dan contoh kontrol diambil secara terpisah. Kasus merupakan unit contoh yang memiliki karakteristik tertentu yang diamati, sedangkan kontrol merupakan unit contoh yang tidak memiliki karakteristik tertentu yang diamati. Teknik pengambilan contoh dengan beberapa tahap dapat digunakan untuk mengambil contoh kasus dan kontrol.

Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.

Konsekuensi dari penggunaan teknik pengambilan contoh dengan beberapa tahap adalah proses analisa data yang lebih komplek. Penelitian ini mengkaji penerapan regresi logistik dengan penambahan konstanta pada penelitian kasus-kontrol yang menggunakan teknik pengambilan contoh dengan beberapa tahap. Selain itu akan membandingkan model yang terbentuk dengan model dari data hasil pembangkitan.

Data yang digunakan merupakan data berpasangan yang diperoleh dari proses pembangkitan. Terdapat tida peubah penjelas yang digunakan, yaitu X1,

X2, dan X3. Peubah X1 memiliki dua nilai yang mungkin (0, 1) dan dibangkitkan

secara acak dari distribusi binomial dengan n=1 dan p=0.3. Peubah X2 memiliki

tiga nilai yang mungkin (0, 1, 2) yang dibangkitkan secara acak dari distribusi multinomial dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5 untuk masing-masing nilai kategori secara berurutan. Peubah X3

Model regresi logistik dengan penambahan konstanta dibangun dari data contoh. Terdapat 2 macam model yang dibentuk, yaitu model regresi logistik dengan satu konstanta tambahan dan model regresi logistik dengan dua konstanta tambahan. Model regresi logistik dengan satu konstanta tambahan dibangun dari data dengan dua tahap pengambilan contoh, sedangkan model lainnya dibangun dari data dengan tiga tahap pengambilan contoh. Konstanta tambahan (α

memiliki empat nilai yang mungkin yaitu 0, 1, 2, dan 3. Peubah ini dibangkitkan secara acak dari distribusi multinomial dengan nilai peluang yang digunakan adalah 0.1, 0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan. Peubah Y akan bernilai 1 apabila nilai probabilitas > z dan bernilai 0 untuk lainnya. Nilai z dibangkitkan secara acak dari distribusi uniform.

i) tidak hanya berfungsi untuk mengkoreksi β0, namun juga βi

Hasil pengujian terhadap parameter dari model regresi logistik dengan penambahan konstanta, hampir semua parameter yang dimiliki memberikan hasil yang sama dengan parameter dari model untuk data hasil pembangkitan. Selain itu, parameter ini memiliki tanda yang sama dengan parameter dari model untuk

(5)

data hasil pembangkitan. Jadi dapat disimpulkan bahwa regresi logistik dengan penambahan konstanta mampu menggambarkan pola hubungan antara peubah respon dengan peubah penjelas.

Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-3 cenderung lebih kecil dari rata-rata informasi yang hilang pada tahap ke-2. Hal ini dikarenakan tahap ke-3 memiliki unit contoh yang lebih homogen dari tahap ke-2.

(6)

© Hak Cipta milik IPB, tahun 2011

Hak Cipta dilindungi Undang-undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan yang wajar bagi IPB

(7)

KAJIAN MODEL REGRESI LOGISTIK PADA DATA

KASUS-KONTROL DENGAN TIGA TAHAP PENGAMBILAN

CONTOH

RATNA CHRISTIANINGRUM

Tesis

Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada

Program Studi Statistika

SEKOLAH PASCASARJANA

INSTITUT PERTANIAN BOGOR

(8)

(9)

Judul Penelitian : Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh

Nama : Ratna Christianingrum

NRP : G151090191

Program Studi : Statistika

Disetujui

Komisi Pembimbing

Ketua

Dr. Ir. Budi Susetyo, MS Dr. Kusman Sadik, MSi Anggota

Diketahui,

Ketua Program Studi S2 Statistika

Dr. Ir. Erfiani, MSi

Dekan Sekolah Pascasarjana IPB

Dr. Ir. Dahrul Syah, M.Sc. Agr.

(10)

PRAKATA

Puji dan syukur penulis panjatkan kepada Tuhan atas segala rahmat dan karunia-Nya sehingga karya ilmiah ini dapat diselesaikan. Judul karya ilmiah ini adalah “Kajian Model Regresi Logistik pada Data Kasus-Kontrol dengan Tiga Tahap Pengambilan Contoh”.

Terima kasih penulis ucapkan kepada Dr. Ir. Budi Susetyo, M.S selaku pembimbing I dan Dr. Kusman Sadik, M.Si selaku pembimbing II, terima kasih atas bimbingan, saran dan waktunya. Disamping itu penulis juga mengucapkan terima kasih kepada Dr. Ir. Aji Hamim Wigena, M.Sc. selaku penguji luar komisi pada ujian tesis dan seluruh staf Program Studi Statistika.

Ungkapan terima kasih juga disampaikan kepada Bapak, Ibu dan adik serta seluruh keluarga atas doa, dukungan dan kasih sayangnya. Terima kasih kepada teman-teman Statistika angkatan 2009 atas bantuan dan kebersamaannya.

Semoga karya ilmiah ini dapat bermanfaat.

Bogor, Agustus 2011

(11)

RIWAYAT HIDUP

Penulis dilahirkan di Semarang, pada tanggal 30 Juni 1987 sebagai anak pertama dari pasangan Bapak Suparman, S.Pd dan Ibu Amini, S.Pd.

(12)

DAFTAR ISI

Halaman

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiv

PENDAHULUAN Latar Belakang ... 1

Tujuan ... 2

TINJAUAN PUSTAKA Pengertian ... 3

Teknik Pengambilan Contoh ... 4

Teknik Analisis ... 6

METODOLOGI Sumber Data ... 13

Metode Analisis ... 13

HASIL DAN PEMBAHASAN Model Regresi Logistik Biner untuk Data Hasil Pembangkitan ... 17

Model Regresi Logistik Biner dengan Penambahan Konstanta ... 19

Pengujian Parameter ... 24

Informasi yang Hilang ... 26

SIMPULAN DAN SARAN Simpulan ... 31

Saran ... 31

DAFTAR PUSTAKA ... 33

(13)

DAFTAR TABEL

Halaman 1 Proses pengambilan contoh dengan tiga tahap ... 5

2 Nilai parameter model Y terhadap X1 dan X2

3 Nilai parameter model Y terhadap X

untuk N=300 ... 18

1, X2, dan X3

4 Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda dari model data hasil pembangkitan untuk N=300... 24

untuk N=300 ... 19

5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh untuk N=300 ... 25

(14)

DAFTAR GAMBAR

Halaman 1 Skema proses pengambilan contoh ... 20

2 Rata-rata informasi hilang pada tahap kedua proses pengambilan

contoh ... 26

3 Rata-rata persentase total informasi hilang………... 28

4 Rata-rata persentase informasi hilang pada tahap kedua dan ketiga

(15)

DAFTAR LAMPIRAN

Halaman 1 Program di SAS 6.2 ... 37

2 Program di Matlab ... 39

3 Nilai parameter model Y terhadap X1 dan X2 untuk data hasil

pembangkitan

………... 44

4 Nilai parameter model Y terhadap X1, X2, dan X3 untuk data hasil 46

pembangkitan ………...

5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh ………...

48

(16)

PENDAHULUAN

Latar Belakang

Rancangan penelitian kasus-kontrol merupakan rancangan penelitian yang

banyak digunakan dalam bidang epidemiologi. Rancangan ini digunakan untuk

menelusuri faktor resiko dari suatu penyakit. Rancangan ini memiliki hubungan

sebab-akibat yang lebih kuat daripada cross section. Breslow (1996) dalam Scott

(2006) menyatakan bahwa penelitian kasus-kontrol merupakan tulang belakang

dari epidemiologi.

Contoh kasus dan kontrol diambil secara terpisah dalam penelitian

kasus-kontrol. Kasus merupakan kumpulan unit contoh yang memiliki karakteristik

tertentu yang akan diamati, misalnya orang yang terjangkit penyakit tertentu.

Adapun kontrol merupakan kumpulan unit contoh yang tidak memiliki

karakteristik yang akan diamati. Proses pengambilan contoh, baik dalam kasus

maupun kontrol menggunakan teknik pengambilan contoh yang sederhana.

Teknik pengambilan contoh tersebut antara lain menggunakan teknik

pengambilan contoh acak sederhana (simple random sampling) atau teknik pengambilan contoh acak bersrata (stratified random sampling). Scott (2006) lebih menyarankan penggunaan teknik pengambilan contoh yang lebih kompleks

daripada yang sederhana, yaitu teknik pengambilan contoh acak dengan beberapa

tahap.

Manfaat lain dari penggunaan teknik pengambilan contoh dengan beberapa

tahap yaitu dapat mengurangi biaya pengambilan contoh. Hal ini mungkin terjadi

apabila penelitian memiliki biaya pengamatan suatu peubah lebih mahal dari

peubah yang lain. Dengan menggunakan teknik pengambilan contoh dengan

beberapa tahap, peubah yang memiliki biaya pengamatan yang mahal diamati di

tahap terakhir pengambilan contoh dan hanya sebagian yang diamati.

Terdapat beberapa metode yang dapat digunakan untuk menganalisis data

kasus-kontrol, salah satunya dengan menggunakan regresi logistik. Regresi

logistik merupakan metode yang digunakan untuk menggambarkan hubungan

(17)

responnya diskrit yang mempunyai dua atau lebih nilai yang mungkin (Hosmer &

Lemeshow 2000). Apabila peubah respon yang digunakan merupakan data biner

maka disebut regresi logistik biner. Dalam regresi logistik terdapat asumsi yang

harus dipenuhi (Meyers, et al. 2006) yaitu: 1. Tidak ada multikolinearitas yang sempurna

2. Tidak terdapat kesalahan spesifikasi (semua prediktor yang relevan harus

disertakan, sedangkan prediktor yang tidak relevan dapat dihilangkan).

3. Peubah bebas harus diukur pada tingkat skala respon sumatif, interval atau

rasio, meskipun peubah dikotomus diperbolehkan.

Data kasus-kontrol dapat dianalisis dengan regresi logisitik biner apabila

proses pengambilan contoh dilakukan dengan satu tahap pengambilan contoh.

Data kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan

contoh dengan beberapa tahap tidak dapat dianalisis menggunakan regresi logistik

biner. Contoh tersebut diambil dari distribusi bersyarat Y dan X yang telah

diamati di tahap sebelumnya. Akibatnya konstanta yang dihasilkan akan berbias.

Penambahan konstanta pada model regresi logistik dilakukan untuk mengatasi

permasalahan tersebut (Lee, et al. 2010)

Penelitian ini mengkaji penerapan regresi logistik dengan penambahan

konstanta pada penelitian kasus-kontrol yang menggunakan teknik penarikan

contoh acak dengan beberapa tahap. Selain itu akan membandingkan model yang

terbentuk dengan model dari data hasil pembangkitan.

Tujuan Penelitian

Tujuan dari penelitian ini adalah untuk

1. Mengkaji penerapan regresi logistik dengan penambahan konstanta pada

penelitian kasus-kontrol yang menggunakan teknik pengambilan contoh acak

dengan beberapa tahap.

2. Membandingkan model yang terbentuk dari data contoh dengan model dari

(18)

TINJAUAN PUSTAKA

Pengertian

Rancangan penelitian kasus-kontrol di bidang epidemiologi didefinisikan

sebagai rancangan epidemiologi yang mempelajari hubungan antara faktor

penelitian dengan penyakit, dengan cara membandingkan kelompok kasus dan

kelompok kontrol berdasarkan faktor penelitian yang diamati (Warti 2010). Kasus

merupakan unit pengamatan yang memiliki karakteristik tertentu, biasanya unit

pengamatan yang mengidap penyakit tertentu. Kontrol merupakan unit

pengamatan yang tidak memiliki karakteristik tertentu (Lee et al. 2010). Scott dan Wild (1991) menyatakan bahwa epidemiologi digunakan untuk memprediksi

hubungan antara peubah penjelas, misalnya faktor-faktor resiko dari suatu

penyakit dan peubah respon yang diskrit.

Langkah awal dari penelitian kasus-kontrol yaitu pengidentifikasian

kelompok orang yang mengidap penyakit tertentu dan yang tidak untuk melihat

faktor resiko keduanya (Woodward 2005 dalam Warti 2010). Langkah selanjutnya

dilakukan penelusuran riwayat penyakit tersebut dengan rancangan penelitian

kasus-kontrol. Rancangan ini memberikan cara yang efisien dalam

mengumpulkan faktor-faktor penelitian dari penyakit yang jarang terjadi.

Misalkan ada seorang peneliti yang akan mengidentifikasi faktor-faktor

yang dapat meningkatkan resiko seseorang terkena penyakit jantung pada usia

produktif, untuk pasien rumah sakit A yang datang dalam kurun waktu setahun

terakhir. Setelah mendapatkan kerangka contoh yang berupa daftar pasien

dilakukan identifikasi pasien yang mengindap penyakit jantung dan yang tidak.

Orang yang mengindap penyakit jantung dimasukkan dalam kelompok kasus,

sedangkan sisanya sebagai kontrol.

Contoh kasus dan kontrol diperoleh dengan menggunakan teknik

pengambilan contoh di masing-masing kelompok kasus dan kelompok kontrol.

Dalam penelitian tersebut, peubah yang diamati tahap pertama adalah jenis

kelamin, tekanan darah dan berat badan. Peubah-peubah ini diamati pada tahap

(19)

ini hampir tidak memerlukan biaya. Untuk mendapatkan nilai dari peubah,

peneliti hanya perlu mengunjungi rumah sakit. Peubah yang diamati di tahap

terakhir pengambilan contoh merupakan peubah yang berhubungan dengan

tingkah laku dan kebiasaan, misalkan kebiasaan merokok, kebiasaan

mengkonsumsi alkohol, dan pola konsumsi makanan. Peubah-peubah ini

diletakkan di tahap terakhir proses pengambilan contoh, karena biaya memperoleh

nilai peubah-peubah tersebut relatif mahal. Peneliti harus mengunjungi langsung

orang yang terpilih sebagai contoh untuk mendapatkan nilai peubahnya.

Teknik Pengambilan Contoh

Teknik pengambilan contoh digunakan untuk memperoleh contoh yang

mampu menggambarkan keadaan sebenarnya dari populasi yang diamati.

Penelitian kasus-kontrol menggunakan teknik pengambilan contoh yang biasa

digunakan. Namun dalam penelitian ini, contoh untuk kasus dan kontrol diambil

secara terpisah. Teknik pengambilan contoh yang digunakan merupakan teknik

pengambilan contoh acak sederhana dan teknik pengambilan contoh acak bersrata.

Scott (2006) menyatakan bahwa lebih baik menggunakan rancangan pengambilan

contoh yang lebih kompleks yaitu rancangan pengambilan contoh yang terbagi

dalam beberapa tahap. Teknik pengambilan contoh tersebut dapat menurunkan

biaya pengambilan contoh dan mampu mengatasi data hilang.

Langkah awal proses pengambilan contoh dalam penelitian kasus-kontrol

adalah membagi populasi ke dalam dua kelompok berdasarkan status karakteristik

yang diamati. Kelompok pertama adalah kumpulan unit pengamatan yang

memiliki karakteristik tertentu dan kelompok ini disebut kasus. Kelompok kedua

adalah kumpulan unit pengamatan yang tidak memiliki karakteristik tertentu.

Kelompok ini disebut kontrol. Contoh kasus dan kontrol diambil secara terpisah di

masing-masing kelompok kasus dan kontrol. Teknik pengambilan contoh acak

sederhana digunakan untuk memperoleh contoh kasus ataupun kontrol.

Pada tahap pertama pengambilan contoh, unit contoh terbagi dalam

beberapa kelompok berdasarkan jumlah faktor penelitian dan taraf dari

masing-masing faktor penelitian yang diamati. Misalkan pada tahap pertama terdapat dua

(20)

Tabel 1 Proses pengambilan contoh dengan tiga tahap

Populasi Tahap pertama Tahap kedua Tahap ketiga

(21)

faktor kedua mempunyai dua taraf. Jumlah kelompok yang ada pada tahap

pertama ini adalah 2 x 3= 6 kelompok. Pada tahap pertama, faktor penelitian yang

diamati biasanya berupa data kategori.

Tahap kedua dimulai setelah unit pengamatan terbagi ke dalam beberapa

kelompok. Dari masing-masing kelompok diamati seluruh anggota kelompok atau

hanya sub-contohnya. Jika hanya diambil sub-contoh, maka proses pengambilan

contohnya menggunakan teknik pengambilan contoh acak sederhana. Selanjutnya

dilakukan pengukuran faktor penelitian yang akan diamati pada tahap ini.

Tahap ketiga pengambilan contoh dilakukan setelah tahap kedua. Cara

memperoleh contoh pada tahap ketiga dan tahap-tahap selanjutnya sama dengan

cara memperoleh contoh pada tahap kedua. Pada tahap terakhir pengambilan

contoh, data yang diamati dapat berupa data diskrit atau kontinu. Tabel proses

pengambilan contoh dengan menggunakan tiga tahap dapat dilihat pada Tabel 1.

Teknik Analisis

Metode yang banyak digunakan untuk menganalisis data kasus-kontrol

adalah regresi logistik. Regresi logistik merupakan suatu metode yang digunakan

untuk menggambarkan hubungan antara peubah respon yang berupa data kategori

dengan satu atau lebih peubah penjelas.

Model

Respon yang diamati dalam penelitian kasus-kontrol adalah status dari

karakteristik yang akan diamati, misalnya status penyakit. Unit yang berasal dari

kelompok kasus diberi nilai peubah respon Y=1. Unit yang berasal dari kelompok

kontrol diberi nilai peubah respon Y=0. Peubah penjelas yang dinyatakan dalam

bentuk vektor penjelas dituliskan dengan notasi X. Nilai peluang untuk kasus

dengan X = x adalah

(1)

Sedangkan nilai peluang untuk kontrol adalah

(22)

Model ini merupakan model regresi logistik biner. Namun model ini hanya dapat

digunakan pada rancangan penelitian kasus-kontrol dengan satu tahap.

Model regresi logistik biner yang biasa tidak dapat digunakan pada

rancangan kasus-kontrol dengan menggunakan dua tahap atau lebih dalam proses

pengambilan contoh. Hal ini dikarenakan konstanta dari model regresi logistik

biasa berbias. Untuk mengatasi permasalahan tersebut maka dilakukan modifikasi

terhadap model regresi logistik. Modifikasi yang dilakukan adalah dengan menambahkan konstanta tambahan yang dinotasikan dengan α. Nilai α muncul sebagai akibat penggunaan skema pengambilan contoh kasus kontrol yang dapat

dilihat di Tabel 1 (Scott & Wild 1997). Model baru yang terbentuk adalah sebagai

berikut: • Dua tahap

(3)

(4)

• Tiga tahap

(5)

(6)

dengan

merupakan konstanta tambahan untuk strata ke-i yang terbentuk pada tahap

kedua (i = 1, 2, ..., a)

merupakan konstanta tambahan untuk strata ke-i yang terbentuk di tahap kedua

dan strata ke-j yang terbentuk dari tahap ke-3 (i = 1, 2, ..., a dan j=1, 2, ..., b)

merupakan vektor contoh acak bagi peubah penjelas

merupakan vektor parameter

Pendugaan Parameter

(23)

(7)

Sedangkan fungsi likelihood bagi model dengan tiga tahap pengambilan contoh adalah sebagai berikut:

(8)

dengan

C =

D =

dengan

Y merupakan peubah respon

h merupakan nilai dari peubah respon (h=0,1)

merupakan peubah penjelas yang diamati pada tahap pertama proses

pengambilan contoh

merupakan nilai dari peubah penjelas ke-i yang diamati pada tahap pertama

proses pengambilan contoh (i = 1, 2, ..., a)

merupakan peubah penjelas yang diamati pada tahap kedua proses

pengambilan contoh

merupakan nilai dari peubah penjelas ke-j yang diamati pada tahap kedua

proses pengambilan contoh (j = 1, 2, ..., b)

merupakan nilai dari peubah penjelas ke-k yang diamati pada tahap ketiga

proses pengambilan contoh dan berasal dari kelompok peubah respon ke-h,

kelompok peubah penjelas ke-i dan ke-j (i = 1, 2, ..., a dan j=1, 2, ..., b)

merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah

respon h dan nilai peubah penjelas yang diamati pada tahap pertama proses

pengambilan contoh

merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai

peubah respon h dan nilai peubah penjelas yang diamati pada tahap pertama

proses pengambilan contoh

merupakan jumlah seluruh anggota kelompok yang memiliki nilai peubah

(24)

pengambilan contoh , dan nilai peubah penjelas yang diamati pada

tahap kedua proses pengambilan contoh

merupakan jumlah contoh yang diambil dari kelompok yang memiliki nilai

peubah respon h, nilai peubah penjelas yang diamati pada tahap pertama

proses pengambilan contoh , dan nilai peubah penjelas yang diamati

pada tahap kedua proses pengambilan contoh

Secara umum proses pengambilan contoh dalam penelitian kasus kontrol,

contoh berukuran ni

(9)

diambil dari untuk setiap kategori respon i=1, 2, ...,

a. Peluang Y terpilih sebagai contoh adalah sebesar dan peluang x terpilih

sebesar . Sehingga persamaan (1) dapat ditulis kembali menjadi (Scot dan

Wild 1997):

dengan

merupakan perbandingan antara peluang individu terpilih sebagai contoh

pada kelompok ke-i dengan peluang individu terpilih dari populasi

merupakan jumlah anggota kelompok ke-i

n merupakan jumlah keseluruhan data

Dalam penelitian kasus kontrol, respon yang diamati adalah ada atau

tidaknya karakteristik yang diamati, misalnya status penyakit. Sehingga peubah

responnya merupakan data biner. Apabila dilakukan pengambilan contoh dengan

tiga tahap pengambilan contoh, maka persamaan (9) dapat ditulis kembali

menjadi:

(10)

dengan merupakan nilai pobabilitas contoh terpilih jika Y=h,

. t merupakan indek yang menunjukkan kelompok

yang terbentuk pada setiap tahap pengambilan contoh. Jika dilakukan dua tahap

pengambilan contoh, maka t dapat digantikan dengan i. Jika dilakukan tiga tahap

pengambilan contoh, maka t dapat digantikan dengan kombinasi i dan j (ij).

(25)

(11)

dengan =

Persamaan (11) disebut juga sebagai pseudo-likelihood.

Pendugaan konstanta tambahan ( ) dari persamaan (3) dan (5) dapat dicari

dengan menggunakan metode Conditional Maximum Likelihood (CML). CML memperlakukan α sebagai konstanta yang fix. Penduga yang konsisten dapat diperoleh dengan memaksimalkan persamaan (11) dan menggantikan pada

persamaan (9) dengan penduga yang konsisten. Wild (1991) menyatakan bahwa

P(Y=h) dapat digantikan dengan dan pada persamaan (9) dapat digantikan

dengan sampling fraksional .

Sehingga dapat diduga dengan:

Berdasarkan model di persamaan (3) dan (5), maka t dapat digantikan dengan i

dan ij.Penduga dengan menggunakan CML merupakan penduga yang konsisten.

Evaluasi Model

Pengujian parameter secara parsial menggunakan uji Wald dengan

merasionalkan nilai dugaan parameter dengan simpangan bakunya. Hipotesis yang

akan diuji adalah:

H0

H

:

1

Statistik uji yang digunakan adalah : , i=1, 2, ..., p

Jika H0

Proses pengambilan contoh dikatakan efisien apabila biaya yang diperlukan

untuk memperoleh contoh sekecil mungkin, namun contoh yang terambil mampu

memberikan informasi semaksimal mungkin. Besarnya informasi yang hilang

dapat dilihat dari besarnya simpangan.

(26)

dengan

P : nilai estimasi peluang dari model untuk data populasi

: nilai estimasi peluang dari model untuk data contoh

Apabila yang dilakukan adalah simulasi, maka ukuran kebaikan model tidak

cukup dengan menggunakan rataan simpangan, namun menggunakan rataan dari

(27)

(28)

METODOLOGI

Sumber Data

Sumber data yang digunakan dalam penelitian ini adalah data hasil simulasi.

Data yang dibangkitkan merupakan data berpasangan, yaitu Y, X1, X2, dan X3. Y

merupakan peubah respon yang berdistibusi binomial dan bersifat acak. Peubah

X1, X2, dan X3 merupakan peubah penjelas yang berperan sebagai faktor

penelitian. Peubah X1 merupakan faktor penelitian yang berupa data kategori

yang terdiri atas dua kategori. Peubah X2 merupakan faktor penelitian yang

berupa data kategori yang terdiri atas tiga kategori, sedangkan X3

Jumlah data yang dibangkitkan adalah 300, 500, 700, 900 dan 1000. Tiap

jumlah data diulang sebanyak 10 kali. Proses pembangkitan data dan estimasi parameter β menggunakan SAS 9.2, dengan program yang terlampir di Lampiran 1. Proses pengambilan contoh, pendugaan nilai konstanta tambahan (α), dan perhitungan besar informasi yang hilang menggunakan Matlab R2009a dengan

program yang terlampir di Lampiran 2. Asumsi yang digunakan dalam penelitian

ini yaitu peubah X

merupakan

faktor penelitian yang berupa data kategori yang terdiri atas empat kategori.

1 memiliki biaya pengamatan yang paling murah, peubah X2

memiliki biaya pengamatan yang lebih mahal daripada peubah X1, namun masih

lebih murah daripada biaya pengamatan peubah X3 dan peubah X3 memiliki biaya

pengamatan peubah yang paling mahal.

Metode Analisis

Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan

penelitian terbagi menjadi lima tahap. Tahap-tahap tersebut yaitu:

Tahap Pertama

Langkah awal yang dilakukan adalah membangkitkan data secara acak.

Proses pembangkitan data sebagai berikut:

(29)

2. Membangkitkan nilai yang berdistribusi binomial secara acak dengan n=1

dan p=0.3

3. Membangkitkan nilai yang berdistribusi multinomial dengan tiga kategori

secara acak dengan nilai peluang yang digunakan adalah 0.3, 0.2, dan 0,5

untuk masing-masing nilai kategori secara berurutan

4. Membangkitkan nilai yang berdistribusi berdistribusi multinomial dengan

empat kategori secara acak dengan nilai peluang yang digunakan adalah 0.1,

0.2, 0.3, dan 0.4 untuk masing-masing nilai kategori secara berurutan.

5. Membangkitkan nilai z yang berdistribusi uniform secara acak

6. Menghitung nilai probabilitas dengan menggunakan persamaan regresi

logisitik, yaitu:

= dimana

7. Mencari nilai Y dengan kriteria sebagai berikut:

• Y = 1 apabila > z • Y = 0 apabila ≤ z

Tahap Kedua

1. Memodelkan peubah Y terhadap peubah X1, X2, dan X3

2. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk

nilai-nilai peubah X

dengan regresi

logistik biner pada data hasil pembangkitan

1, X2, dan X3

3. Memodelkan peubah Y terhadap peubah X yang mungkin

1 dan X2

4. Menghitung nilai peluang dengan menggunakan model yang terbentuk untuk

nilai-nilai peubah X

dengan regresi logistik

biner pada data hasil pembangkitan

1 dan X2

5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald pada

model yang terbentuk di nomor 1

yang mungkin

Tahap Ketiga

1. Mengelompokkan data hasil pembangkitan berdasarkan nilai peubah Y dan

(30)

2. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan

contoh acak sederhana di tiap kelompok yang terbentuk di nomor 1 dengan

kriteria pengambilan contoh sebagai berikut:

• Apabila jumlah anggota kelompok kurang dari atau sama dengan 5,

maka seluruh anggota kelompok diambil sebagai contoh

• Apabila jumlah anggota kelompok lebih dari 5, maka jumlah contoh

yang diambil adalah sebesar 70 %, 75%, 80%, 85%, 90%, dan 95%

dari jumlah anggota kelompok

Proses pengambilan contoh ini akan diulang sebanyak 10 kali untuk setiap

persentase pengambilan contoh

3. Mengamati nilai peubah X

4. Mengelompokkan contoh yang terambil pada proses pengambilan contoh di

nomor 2 berdasarkan nilai peubah Y, X

2

1, dan X

5. Melakukan pengambilan contoh dengan menggunakan teknik pengambilan

contoh acak sederhana di tiap kelompok yang terbentuk di nomor 4 dengan

kriteria pengambilan contoh dan besar presentase jumlah contoh yang diambil

sama dengan yang digunakan di nomor 2

2

6. Mengamati nilai peubah X3

Tahap Keempat

1. Melakukan estimasi parameter menggunakan regresi logistik biner dengan

penambahan satu konstanta untuk contoh yang terambil pada proses

pengambilan contoh di tahap ketiga nomor 2

2. Mengestimasi nilai peluang untuk nilai peubah X1 dan X2

3. Mencari nilai estimasi parameter dengan menggunakan regresi logistik

dengan penambahan dua konstanta untuk contoh yang diperoleh dari proses

pengambilan contoh pada tahap ketiga nomor 5

yang mungkin

dengan menggunakan model yang terbentuk pada nomor 1

4. Mengestimasi nilai peluang untuk nilai peubah X1, X2, dan X3

5. Melakukan uji signifikansi parameter dengan menggunakan uji Wald untuk

model yang terbentuk di nomor 3

yang mungkin

(31)

Tahap Kelima

1. Menghitung besar informasi yang hilang pada tahap kedua proses

pengambilan contoh dengan cara membandingkan nilai peluang yang

diperoleh di tahap kedua nomor 4 dan nilai peluang yang diperoleh pada

tahap keempat nomor 2

2. Menghitung besar informasi yang hilang pada tahap ketiga proses

pengambilan contoh dengan cara membandingkan nilai peluang yang

diperoleh di tahap kedua nomor 2 dan nilai peluang yang diperoleh pada

tahap keempat nomor 4

3. Membandingkan hasil uji signifikansi parameter pada tahap kedua nomor 5

dengan hasil uji signifikansi parameter pada tahap keempat nomor 5

(32)

HASIL DAN PEMBAHASAN

Model Regresi Logistik Biner untuk data Hasil Pembangkitan

Model regresi logistik digunakan untuk menggambarkan hubungan antara

peubah respon dan peubah penjelas pada data hasil pembangkitan. Model regresi

logistik biner yang dibangun ada dua macam, yaitu model regresi logistik Y

terhadap dua peubah (X1 dan X2) dan model regresi logistik Y terhadap tiga

peubah (X1, X2, dan X3

Proses pembangkitan data diawali dengan menentukan model regresi yang

akan dibangkitkan. Model tersebut adalah sebagai berikut:

). Kedua model ini digunakan sebagai model pembanding

bagi model-model yang terbentuk dari data hasil pengambilan contoh.

Data hasil pembangkitan dianggap sebagai kerangka contoh.

Model Y terhadap X1 dan X

Model untuk peubah respon, X 2

1 dan X2 yang terbentuk adalah sebagai

berikut:

dengan

Nilai parameter dari model peubah Y terhadap peubah X1 dan X2

Model dari data hasil pembangkitanpertama menunjukkan semua parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap

parameter dari peubah X

untuk

masing-masing kerangka contoh dapat dilihat di tabel 2.

2 yang bernilai 1 memiliki tanda negatif. Hal ini

menunjukkan bahwa peubah X2 apabila bernilai 1 maka memiliki kecenderungan

untuk menghasilkan respon kasus yang lebih kecil daripada peubah

pembandingnya. Sedangkan peubah lainnya memberikan kecenderungan untuk

(33)

Tabel 2 Nilai parameter model Y terhadap X1 dan X2 untuk N=300

Model Y terhadap X1, X2, dan X

Model regresi logistik biner Y terhadap X 3

1, X2, dan X3 yang diperoleh

adalah sebagai berikut:

dengan

.

Nilai parameter dari model peubah Y terhadap peubah X1, X2 dan X3

Semua nilai parameter dalam di kesepuluh model tersebut signifikan pada taraf α = 5%. Model dari data hasil pembangkitan pertama menunjukkan semua parameter dalam model tersebut signifikan pada α = 5%. Hal ini berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon.

Setiap parameter dari peubah X

untuk

masing-masing kerangka contoh dapat dilihat di Tabel 3.

2 dan X3 yang bernilai 1 memiliki tanda negatif.

Hal ini menunjukkan bahwa apabila nilai dari peubah X2 dan X3 adalah 1, maka

peubah X2 dan X3

Nilai parameter model regresi logistik biner untuk Y terhadap X

memiliki kecenderungan untuk menghasilkan respon kasus

yang lebih kecil daripada peubah pembandingnya. Sedangkan peubah lainnya

memberikan kecenderungan untuk menghasilkan respon kasus yang lebih besar

daripada peubah pembandingnya.

1 dan X2

(34)

parameter model regresi logistik biner untuk Y terhadap X1, X2, dan X3

Apabila nilai parameter dari model Y terhadap X

dari data

hasil pembangkitan secara keseluruhan dapat dilihat di Lampiran 4.

1, X2, dan X3

dibandingkan dengan parameter model yang dibangkitkan, terlihat bahwa

nilai-nilai parameter dari model Y terhadap X1, X2, dan X3 berada di sekitar parameter

model yang dibangkitkan. Misalkan dilakukan perbandingan nilai . Nilai

dari parameter model yang dibangkitkan adalah 1, sedangkan nilai dari

model Y terhadap X1, X2, dan X3 berada dalam rentang 0.5618 sampai 1.5154.

Nilai rata-rata dari parameter-parameter ini sebesar 1.0605 dengan ragam sebesar

0.0897.

(35)

Pada sub-bab ini akan dilakukan pembahasan tentang model regresi

logistik dengan penambahan konstanta sebagai akibat penggunaan teknik

(36)

Gambar 1 Skema proses pengambilan contoh

pengambilan contoh dengan tiga tahap. Sebagai contoh pada kerangka contoh

pertama untuk jumlah data sebesar 300 data dengan jumlah contoh yang diambil

pada setiap proses pengambilan contoh sebesar 70% dari jumlah data yang ada.

Gambar 1 merupakan skema pengambilan contoh pada salah satu kasus

simulasi. Kasus simulasi yang digunakan adalah data pada kerangka contoh

pertama dengan jumlah contoh yang diambil adalah sebesar 70% pada setiap

pengambilan contoh pada ulangan pertama.

Model regresi logistik dengan konstanta berdasarkan skema pengambilan

contoh (Gambar 1) sebagai berikut:

Model 1 (Y terhadap X1 dan X2)

dengan i = 0,1

Nilai untuk masing-masing αiadalah α0 = -0.03198 dan α1

Model 2 (Y terhadap X

= -0.03953.

1, X2 dan X2)

dengan

i = 0,1

j = 0, 1, 2

Nilai untuk masing-masing αidan αij

= 0.0168 = -0.0395

adalah sebagai berikut:

= 0.0083 = 0.0295 = -0.06899

= 0.3102 = 0.3365 = 0.3365

Model peubah Y terhadap peubah X1 dan X2 dari kerangka contoh

(37)

Nilai αi merupakan konstanta untuk mengkoreksi nilai β0 dan β1(0). Berdasarkan

skema pengambilan contoh yang digunakan, pembagian kelompok (i)

menggunakan nilai peubah X1. Misalkan pada saat X1

Dari contoh diatas dapat dilihat bahwa dengan menggunakan , maka

nilai lebih mendekati nilai dari model untuk

data hasil pembangkitan. Nilai parameter dan dari model 1 mendekati

nilai parameter dan dari model model untuk data hasil pembangkitan.

Hal ini menunjukkan bahwa penambahan α mampu mengkoreksi model regresi logistik yang biasa.

= 0, maka nilai

untuk model dari data hasil pembangkitan adalah -0.8175. Sedangkan

nilai untuk model 1 adalah -0.82478. Apabila dengan

menggunakan model 1 namun tanpa memasukkan nilai , maka nilai

yang diperoleh sebesar -0.7928.

Selanjutnya dibandingkan tanda dari parameter model 1 dengan tanda dari

parameter model data hasil pembangkitan. Dari kedua model tersebut, tanda yang

dimiliki oleh parameternya sama. Misalkan untuk tanda dari dan untuk

model data hasil pembangkitan adalah positif dan negatif. Tanda dari dan

dari model 1 juga positif dan negatif.

Apabila dilakukan uji Wald pada setiap parameter di model yang terbentuk

dari data hasil pembangkitan, maka semua parameternya signifikan pada tingkat α = 5%, yang berarti bahwa semua peubah penjelas memberikan pengaruh yang nyata terhadap peubah respon. Setiap parameter dari model 1 dilakukan uji Wald, maka diperoleh bahwa semua parameter signifikan pada tingkat α = 5%, sehingga dapat disimpulkan bahwa dengan menggunakan model 1 semua peubah bebas

memberikan pengaruh yang nyata terhadap peubah respon. Kesimpulan yang

dihasilkan oleh model 1 sama dengan kesimpulan yang dihasilkan oleh model dari

data hasil pembangkitan. Hal ini menunjukkan bahwa model 1 mampu

menggambarkan pola hubungan antara peubah respon dan peubah penjelas dengan

baik.

Model Y terhadap X1, X2, dan X3 dari sampling frame pertama adalah

(38)

dengan

Nilai merupakan konstanta untuk mengkoreksi nilai dan , sedangkan

berfungsi untuk mengkoreksi nilai , , dan . Hal ini terjadi

sebagai akibat dari penggunaan teknik pengambilan contoh dengan tiga tahap.

Misalkan pada saat nilai x1= 0 dan x2= 0, maka nilai

untuk model untuk data hasil pembangkitan adalah

0.3494. Nilai adalah

0.3276. Apabila dengan menggunakan model 2, namun tanpa memasukkan nilai

, maka nilai sebesar

0.3024. Terlihat bahwa dengan menggunakan penambahan konstanta nilai

estimasi dari model 2 lebih

mendekati nilai dari model untuk data

hasil pembangkitan. Selain itu nilai juga menunjukkan pengaruh interaksi

antara i dan j. Berdasarkan skema pengambilan contoh yang digunakan, i

terbentuk berdasarkan nilai X1 sedangkan j terbentuk berdasarkan nilai X2.

Sehingga dapat dikatakan bahwa nilai-nilai menggambarkan pengaruh

interaksi antara peubah X1 dan X2

Perbandingan tanda dari nilai estimasi parameter model 2 dengan model

dari data hasil pembangkitan, maka diperoleh bahwa tanda dari parameter di

kedua model sama. Tanda pada parameter dari model untuk

data hasil pembangkitan dan model 2 adalah positif, negatif, dan positif.

Kemudian dilakukan uji Wald untuk masing-masing parameter dari model 2.

Hasil uji Wald menunjukkan bahwa semua parameter dari model 2 signifikan pada tingkat α = 5%, yang berarti bahwa pengaruh yang diberikan oleh peubah penjelas terhadap varibel respon nyata pada α = 5%. Jadi, dapat disimpulkan bahwa model 2 mampu menggambarkan pola hubungan antara peubah penjelas

(39)

Pengujian Parameter

Pada setiap model yang terbentuk dari proses simulasi pengambilan

contoh dilakukan uji Wald untuk mengetahui parameter model signifikan atau

tidak. Hipotesis yang digunakan yaitu H0 : lawan H1

Tabel 2 menunjukkan nilai rata-rata persentase jumlah parameter yang

memberikan kesimpulan yang berbeda dengan parameter dari model populasi pada taraf α = 5%. Model yang digunakan adalah model variabel Y terhadap peubah X

: , i=1, 2, ..., p

Kemudian dihitung jumlah parameter yang memberikan hasil uji Wald yang

berbeda dengan hasil uji Wald bagi parameter model dari data hasil

pembangkitan. Setelah jumlah diketahui maka dihitung persentase jumlah

parameter yang memberikan kesimpulan yang berbeda dengan model untuk data

hasil pembangkitan. Selama proses simulasi dilakukan pengulangan, maka

diperoleh nilai rata-rata persentase jumlah parameter yang memberikan

kesimpulan yang berbeda denganmodel untuk data hasil pembangkitan.

1, X2, dan X3, karena pada saat dilakukan survei dengan beberapa tahap

pengambilan contoh model yang digunakan hanyalah model Y terhadap seluruh

peubah penjelas yang diamati (X1, X2, dan X3).

Tabel 4 Nilai rata-rata persentase jumlah parameter yang memberikan kesimpulan yang berbeda dari model data hasil pembangkitan untuk N=300

Kerangka contoh

(40)

Saat terjadi pengurangan jumlah contoh sebesar 30 % di masing-masing

tahap pengambilan contoh, maka persentase rata-rata jumlah parameter yang

berbeda dengan parameter model populasi sebesar 24.56 % (Tabel 4). Hal ini

berarti bahwa pada saat diambil contoh sebesar 49% dari jumlah keseluruhan

populasi, maka terdapat 24.56% parameter yang tidak menggambarkan hubungan

antar peubah yang sebenarnya. Apabila terjadi pengurangan jumlah contoh

sebesar 20% dan 25% di masing-masing tahap pengambilan contoh, maka

rata-rata persentase jumlah parameter yang tidak menggambarkan hubungan peubah

respon dengan peubah penjelas berkisar 15%. Nilai rata-rata persentase jumlah

parameter yang tidak mennggambarkan hubungan yang sebenarnya akan menurun

seiring dengan bertambahnya jumlah contoh yang digunakan.

Tanda positif atau negatif dari parameter memiliki peranan yang penting

dalam menggambarkan pola hubungan antara peubah respon dan peubah penjelas.

Tanda positif pada parameter menunjukkan kecenderungan yang lebih besar

daripada peubah pembandingnya. Tanda negatif menunjukkan kecenderungan

yang lebih kecil dari peubah pembandingnya. Hampir semua model yang

dibangun dari data hasil pengambilan contoh memberikan tanda positif atau

negatif yang sama dengan model dari data hasil pembangkitan. Tanda positif dan

negatif dari 600 model yang terbentuk, hanya 13 parameter dalam 13 model yang

berbeda dari model pembanding.

Tabel 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh untuk N=300

Kerangka contoh

(41)

Informasi yang Hilang

Model yang baik merupakan model yang mampu menggambarkan

keadaan populasi yang sebenarnya. Informasi akan hilang dalam setiap

pengurangan jumlah data. Pengurangan jumlah data pertama kali terjadi pada

tahap kedua proses pengambilan contoh. Besar rata-rata persentase informasi yang

hilang dapat dilihat pada Tabel 5.

Pengurangan contoh sebesar 30% mengakibatkan kehilangan informasi

rata-rata sebesar 23.55% (Tabel 5). Pengurangan jumlah contoh sebesar 5% sampai

25% maka akan kehilangan informasi sebesar 15% sampai 16%.

Gambar 2 menunjukkan rata-rata persentase informasi yang hilang pada

tahap kedua proses pengambilan contoh untuk semua data yang dibangkitkan.

Gambar 2 diperoleh dari data pada Lampiran 5.

Gambar 2 Rata-rata informasi hilang pada tahap kedua proses pengambilan contoh

Persentase pengambilan contoh (%)

(42)

Penurunan jumlah informasi yang hilang terjadi seiring dengan

bertambahnya jumlah contoh yang diambil (Gambar 2). Jumlah data hasil

pembangkitan 500, 700, dan 1000 menghasilkan rata-rata persentase informasi

yang hilang cenderung sama. Jumlah data hasil pembangkitan sebesar 900

mengakibatkan informasi yang hilang selalu lebih rendah dari jumlah yang lain.

Hal ini mungkin terjadi apabila data hasil pembangkitan dengan jumlah 900 data

lebih homogen dari data hasil pembangkitan yang lainnya. Rata-rata informasi

yang hilang paling banyak ditunjukkan saat jumlah data hasil pembangkitan

sebesar 300, karena jumlah contoh yang terambil lebih kecil dari yanglainnya.

Pengurangan jumlah data yang kedua terjadi pada awal tahap ketiga proses

pengambilan contoh. Besar rata-rata persentase informasi yang hilang dapat

dilihat pada Tabel 6.

Pengurangan jumlah contoh sebesar 30% di masing-masing tahap

pengambilan contoh atau sebesar 51% dari jumlah total populasi, maka nilai

rata-rata informasi yang hilang sebesar 41%. Pengurangan jumlah data sebesar 43.75%

dan 36% dari jumlah total populasi mengakibatkan informasi yang hilang sebesar

33% dan 32%. Persentase kehilangan informasi ini akan menurun seiring dengan

bertambahnya jumlah contoh yang diamati.

Tabel 6 Rata-rata persentase total informasi hilang untuk N=300 Kerangka

contoh

Jml contoh yang diambil di setiap pengambilan contoh

70% 75% 80% 85% 90% 95%

1 29.52 16.82 18.95 12.80 19.07 17.52 2 57.76 41.63 41.63 28.48 17.62 7.59 3 59.86 42.68 52.47 39.55 30.32 31.28 4 70.20 56.26 49.26 32.22 24.43 19.40 6 22.20 18.35 24.39 12.41 21.89 8.66 7 29.13 32.55 24.79 21.92 21.68 18.92 8 49.07 37.39 31.12 21.00 16.26 16.02 9 31.72 29.09 28.09 18.00 17.45 16.66 10 20.43 21.83 17.14 13.79 14.99 12.56 Rata-rata 41.10 32.95 31.98 22.24 20.41 16.51

Gambar 3 diperoleh dari data di Lampiran 6, dimana terjadi penurunan

jumlah informasi yang hilang seiring dengan bertambahnya jumlah contoh yang

(43)

semakin banyak dan informasi yang hilang semakin kecil. Besar informasi yang

hilang sebagai akibat dari pengurangan jumlah contoh yang diambil selalu lebih

kecil daripada besar pengurangan contoh. Penghematan biaya akan menjadi

berarti apabila biaya untuk memperoleh contoh sangat mahal.

Gambar 3 Rata-rata persentase total informasi hilang

Besarnya informasi yang hilang pada tahap kedua dan ketiga sebanding

dengan jumlah pengurangan contoh. Informasi yang hilang sebesar 23.55%

apabila terjadi pengurangan contoh sebesar 30% pada tahap kedua. Total

informasi yang hilang pada tahap ketiga sebesar 41.11% apabila terjadi

pengurangan jumlah contoh sebesar 51%. Jumlah informasi yang hilang pada

tahap ini sebesar 17.56%, apabila terjadi pengurangan jumlah contoh sebesar 30%

di tahap tiga.

(44)

Gambar 4 Rata-rata persentase informasi hilang pada tahap kedua dan ketiga dengan N=300

Penurunan rata-rata informasi yang hilang seiring dengan bertambahnya

jumlah contoh yang diambil pada tahap ketiga (Gambar 4). Rata-rata informasi

yang hilang pada tahap ketiga proses pengambilan contoh hampir semua lebih

kecil dari rata-rata informasi yang hilang di tahap kedua pengambilan contoh. Hal

ini terjadi karena pada tahap ketiga, unit contoh yang ada lebih homogen dari unit

contoh pada tahap kedua. Kehomogenan dari unit contoh terjadi sebagai akibat

dari proses pengelompokan yang dilakukan pada akhir tahap kedua pengambilan

contoh.

(45)

SIMPULAN DAN SARAN

Simpulan

Penggunaan regresi logistik biner dengan penambahan konstanta pada data

kasus-kontrol yang diperoleh dengan menggunakan teknik pengambilan contoh

acak dengan beberapa tahap mampu menggambarkan pola hubungan antara

peubah penjelas dan peubah respon. Teknik pengambilan contoh dengan beberapa

tahap dapat digunakan pada penelitian yang bertujuan untuk melihat pola

hubungan antara peubah respon dengan peubah penjelas.

Informasi yang hilang akan menurun seiring dengan bertambahnya jumlah

contoh yang diamati. Rata-rata informasi yang hilang pada tahap ke-j cenderung

lebih kecil dari rata-rata informasi yang hilang pada tahap sebelumnya. Unit

contoh pada tahap ke-j lebih homogen daripada unit contoh di tahap ke-(j – 1).

Penggunaan teknik pengambilan contoh dengan beberapa tahap memberikan

rata-rata informasi yang lebih kecil dari rata-rata-rata-rata pengurangan contoh, sehingga teknik

pengambilan contoh ini juga cocok digunakan pada penelitian yang bertujuan

memprediksi nilai peluang suatu kasus.

Saran

Penelitian ini menggunakan metode Conditional Maksimum Likelihood

(CML), yang memiliki bound information yang belum mencapai nilai variannya dalam proses estimasi parameter. Penelitian selanjutnya sebaiknya menggunakan

metode Profile Likelihood yang memiliki nilai bound information yang sama dengan nilai variannya. Selain itu, perlu adanya kajian lebih lanjut mengenai sifat

(46)

(47)

DAFTAR PUTAKA

Breslow NE, Cain KN. 1988. Logistic Regression for tow-stage case-control data. Biometrika 75;1: 11-20.

Chatterjee N, Carroll RJ. 2005. Semiparametric Maximum Likelihood Estimation Exploiting gene-Environment Independence in Case-Control Studies. Biometrika 92; 2: 399-418.

Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Canada: John Wiley & Sons, Inc.

Lee AJ, Scott AJ, Wild CJ. 2010. Efficient Estimation in Multi-Phase Case-Control Studies. Biometrika97; 2: 361-374.

Meyers LS, Gamst G, Guarino AJ. 2006. Applied Multivariate Research Desaign and Interpretation. California: SAGE Publication.

Rose S, van der Laan MJ. 2008. Why Match? Investigating Matched Case-Control Study Design with Causal Effect Estimation. UC Berkeley Division of Biostatistic Working; Paper Series 240.

Scott AJ, Wild CJ. 1991. Fitting Logistic Regression Models in Stratified Case-Control Studies. Biometrics; 47: 497-510.

Scott AJ, Wild CJ. 1997. Fitting regression models to case-control data by Maximum Likelihood. Biometrika84; 1: 57-71.

Scott A. 2006. Population-Based Case Control Studies. Statistics Canada, CatalogueNo. 12-001: 32 No 2: 123-132.

Warti R. 2010. Analisis Regresi Dummy pada Hasil Belajar Siswa SMA di Kota Jambi Berdasarkan Pendekatan Matched Case-Control [tesis]. Bogor: Sekolah Pascasarjana, Institut Pertanian Bogor.

(48)

(49)

Lampiran 1 Program di SAS 6.2

Proses Pembangkitan Data

proc iml;

(50)

end;

print y x; dataall=y||x;

varnames={y x1 x2 x3};

create datareg from dataall(|colnames=varnames|); append from dataall;

quit;

Estimasi nilai β

proc logistic data=datareg; class x1 x2 x3;

model y(event='1')=x1 x2 x3/rsquare lackfit;

(51)

Lampiran 2 Program di Matlab

Proses pengambilan contoh

function sampelakhir(yx,persen) for(i=1:10)

filename = strcat('data/',int2str(i),'.txt'); m1 = sammpel1tahap(yx,persen);

dlmwrite(filename,m1,'delimiter','\t');

filename = strcat('data/',int2str(i),int2str(i),'.txt');

(52)

end

% fungsi tahap 2

(53)

[nb,r]=size(b);

Menghitung nilai α

%menghitung jumlah populasi & contoh (matrix N & n) function [N,n]=rekapn(yx,tahap1,tahap2,tahap)

RN0(i,:)=ones(1,12)*N0([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:);

RN1(i,:)=ones(1,12)*N1([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:);

Rn0(i,:)=ones(1,12)*n0([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:);

Rn1(i,:)=ones(1,12)*n1([1+12*(i-1) 2+12*(i-1) 3+12*(i-1) 4+12*(i-1) 5+12*(i-1) 6+12*(i-1) 7+12*(i-1) 8+12*(i-1) 9+12*(i-1) 10+12*(i-1) 11+12*(i-1) 12+12*(i-1)],:);

[n00,n10]=matrikn(tahap2) for i=1:6

(54)

else

alpha(i,:)=log((n(i,2))/(N(i,2)))-log((n(i,1))/(N(i,1)))

end end

pj=length(alpha);gNaN=isnan(alpha); for i=1:pj

if gNaN(i)==1 alpha(i)=0; end

end

awal=[alpha;ones(4,1)]; else

pj=length(alpha);gNaN=isnan(alpha); for i=1:pj

if gNaN(i)==1 alpha(i)=0; end

end

awal=[alpha;ones(7,1)]; end

awal;

(55)

]; end x;

[b,r]=size(x); [z]=matrikz(x,tahap) [dumx]=dummyx(x,tahap) xdum=[ones(b,1) dumx] lf=z*delta;

pop=xdum*bpop; for i=1:b

ppop(i,:)=exp(pop(i,:))/(1+exp(pop(i,:))) P1(i,:)=exp(lf(i,:))/(1+exp(lf(i,:))) end

ppop; P1;

for i=1:b

sim(i,:)=abs(ppop(i,:)-P1(i,1))/ppop(i,:) end

sim;

(56)

Lampiran 3 Nilai parameter model Y terhadap X1, dan X2 untuk data hasil

1 -1,4635 0,646 0,887 -0,9334

2 -1,9009 1,2736 0,6911 -0,876

3 -1,4903 0,741 0,6342 -0,7128

4 -1,9505 1,0435 0,7227 -0,8475

5 -2,0145 1,383 0,6586 -0,6747

6 -1,2473 0,5251 0,7721 -0,7764 7 -1,4282 0,9258 0,4699 -0,7175 8 -1,6445 1,0149 0,4589 -0,5733 9 -1,4519 0,7598 0,4948 -0,5426 10 -1,8188 1,1658 0,6379 -0,7992

N=500

1 -1,8589 1,0393 0,7293 -0,814

2 -1,8463 0,7706 0,4655 -0,7937 3 -1,6602 0,9199 0,3374 -0,5284 4 -1,5895 0,9513 0,7393 -0,9116 5 -1,3306 0,6424 0,6004 -0,7868 6 -1,4985 0,7542 0,5531 -0,7594 7 -1,5052 0,8102 0,4939 -0,7223 8 -1,3623 0,5647 0,7051 -0,9257

9 -1,366 0,6698 0,3277 -0,6077

10 -1,8188 1,1658 0,6379 -0,7992 N=700

1 -1,8452 0,983 0,6888 -0,7314

2 -1,6265 0,8488 0,5007 -0,6917 3 -1,8307 0,9374 0,4102 -0,5878 4 -1,3307 0,7931 0,6631 -0,7146

5 -1,8258 0,8955 0,7836 -0,652

6 -1,4575 0,9746 0,4673 -0,7115 7 -1,6455 0,8931 0,6791 -0,5413 8 -1,4259 0,8509 0,5598 -0,7383 9 -1,6382 0,8258 0,4797 -0,6962 10 -1,8188 1,1658 0,6379 -0,7992

N=900

1 -1,5389 0,8406 0,7615 -0,8

2 -1,5976 0,9799 0,5263 -0,5509

3 -1,57 0,7735 0,4898 -0,5794

(57)

5 -1,6773 0,9254 0,4082 -0,3671

6 -1,88 1,2275 0,6561 -0,7197

7 -1,5256 0,7522 0,7169 -0,8436

8 -1,6848 0,8839 0,6037 -0,688

9 -1,6698 1,0289 0,5649 -0,5791 10 -1,8188 1,1658 0,6379 -0,7992

n=1000

1 -1,5635 0,7735 0,5799 -0,6349 2 -1,5431 0,8989 0,6712 -0,9316 3 -1,5429 0,7837 0,6065 -0,4285 4 -1,7373 1,0873 0,8067 -0,8229 5 -1,7983 1,0545 0,4213 -0,7003 6 -1,6111 0,8462 0,5224 -0,7153

7 -1,7221 1,0292 0,5549 0,7316

(58)

Lampiran 4 Nilai parameter model Y terhadap X1, X2, dan X3 untuk data hasil

1 -1,5297 0,8013 1,0778 -1,1948 1,1054 -2,2634 0,7132 2 -1,8214 1,5154 0,9441 -1,1691 1,1557 -1,7595 0,6406 3 -1,8437 1,0006 1,1479 -0,79 1,666 -1,7595 0,9785 4 -1,8821 1,1717 0,8415 -0,9654 0,8639 -1,4424 0,5752 5 -2,1577 1,5825 0,8243 -0,9001 1,1429 -1,7614 0,952 6 -1,2831 0,5618 0,9462 -0,8024 1,017 -1,8485 0,5312 7 -1,6128 1,0139 0,5053 -0,8573 0,8584 -1,5921 1,0884 8 -1,5451 1,18 0,8593 -0,8564 1,2157 -1,7827 0,5578 9 -1,383 0,8163 0,7934 -0,7343 1,1668 -1,6208 0,6511 10 -1,5634 0,9611 0,8038 -0,8096 0,8107 -1,8169 0,6102

N=500

1 -2,2438 1,246 0,8446 -1,0065 1,3965 -1,8059 1,0827 2 -2,421 0,9764 0,5439 -0,9263 1,7422 -1,2976 1,1739 3 -1,8401 0,9947 0,3827 -0,6552 1,1302 -1,3451 0,6932 4 -1,7542 1,1088 0,909 -1,0926 0,9712 -1,2971 0,8683 5 -1,6847 0,7067 0,6891 -0,9401 1,3918 -1,6621 1,0607 6 -1,6671 0,9538 0,8198 -0,9574 0,7084 -1,4118 1,2155 7 -1,7347 0,9609 0,5841 -0,9355 1,1902 -1,388 0,6832 8 -1,4328 0,7014 0,8776 -1,1064 0,9051 -1,5832 0,8499 9 -1,3085 0,6899 0,4798 -0,667 0,8085 -1,7326 0,6824 10 -2,2872 1,2893 0,6877 -0,7172 1,2306 -1,2941 0,9193

N=700

1 -2,1145 1,1879 0,9494 -0,97 1,4502 -1,7635 0,9352 2 -1,849 1,0538 0,641 -0,9166 1,2962 -1,5319 0,7631 3 -1,8948 1,0377 0,7928 -0,7756 1,1235 -1,3855 0,6321 4 -1,3138 0,8992 0,8614 -1,0219 1,2658 -1,6967 0,4814 5 -2,2478 1,1643 1,0514 -0,8969 1,4024 -1,6261 1,2683 6 -1,7193 1,1216 0,462 -0,8301 1,1915 -1,5647 1,072 7 -1,7292 1,0537 0,8733 -0,6704 0,9451 -1,7899 0,6333 8 -1,7422 1,0429 0,7835 -0,9204 1,3635 -1,7649 0,9621 9 -1,6834 0,8643 0,5593 -0,8016 1,0611 -1,3806 0,5529 10 -1,9548 0,9114 0,3668 -0,8361 1,7092 -1,4383 1,0101

N=900

(59)

6 -2,0598 1,3592 0,8155 -0,8243 1,0273 -1,513 0,7952 7 -1,8091 0,8481 0,9064 -1,0136 1,2801 -1,6119 0,9981 8 -1,7117 1,0386 0,8411 -0,88 1,3824 -1,6681 0,4544 9 -1,7792 1,1758 0,6294 -0,7427 0,8367 -1,4426 0,7826 10 -1,672 1,1245 0,7635 -0,9929 1,2398 -1,9038 0,6343

n=1000

(60)

Lampiran 5 Rata-rata persentase informasi hilang pada tahap kedua pengambilan contoh

Sampling frame

Jumlah sampel yg diambil

70% 75% 80% 85% 0,9 0,95 N=300

1 0,08430 0,05151 0,05378 0,15477 0,12803 0,23614

2 0,29603 0,25375 0,19153 0,17480 0,09295 0,06553

3 0,28249 0,21477 0,37380 0,30578 0,23612 0,31318

4 0,32208 0,28309 0,21984 0,17008 0,14848 0,11934

6 0,42305 0,06312 0,04316 0,05484 0,03034 0,04379

7 0,19430 0,14105 0,14439 0,17900 0,19503 0,13441

8 0,16862 0,15806 0,13669 0,13643 0,15328 0,18937

9 0,17143 0,15496 0,16393 0,15663 0,19225 0,14416

10 0,17725 0,10081 0,12581 0,14890 0,18249 0,11409

Rata-rata 0,23551 0,15790 0,16144 0,16458 0,150997 0,151112 N=500

1 0,04089 0,04892 0,03679 0,07002 0,06186 0,05471

2 0,04431 0,03451 0,05214 0,04143 0,06247 0,06318

3 0,03963 0,02481 0,05005 0,03498 0,05211 0,05876

4 0,03614 0,02286 0,04295 0,03354 0,06148 0,03643

5 0,01743 0,02827 0,03357 0,03424 0,04883 0,06578

6 0,02674 0,03147 0,03507 0,04816 0,03708 0,0462

7 0,03418 0,02906 0,03983 0,03397 0,05296 0,05081

8 0,01680 0,02194 0,03805 0,03621 0,04503 0,04508

9 0,02297 0,03901 0,03226 0,04086 0,04203 0,04186

10 0,07626 0,13282 0,09238 0,09730 0,10368 0,14424

Rata-rata 0,03554 0,04137 0,04531 0,04707 0,056753 0,060705 N=700

1 0,04055 0,05574 0,03212 0,03943 0,02212 0,03428

2 0,04861 0,04176 0,04530 0,02140 0,03377 0,01664

3 0,04738 0,04624 0,03792 0,03455 0,02713 0,03598

4 0,03767 0,02966 0,02566 0,01655 0,0143 0,0126

5 0,06837 0,04993 0,04888 0,03358 0,0229 0,03338

6 0,06207 0,02879 0,03307 0,02800 0,03195 0,01512

7 0,04106 0,04755 0,03130 0,02314 0,0314 0,01923

8 0,04066 0,03502 0,03204 0,03109 0,02578 0,01667

9 0,04945 0,03591 0,03876 0,02633 0,0326 0,02219

10 0,19666 0,20824 0,20747 0,20747 0,20892 0,21164

Rata-rata 0,06325 0,05788 0,05325 0,04615 0,045087 0,041773 N=900

1 0,02683 0,03003 0,02820 0,02328 0,01716 0,01815

(61)

3 0,04603 0,03412 0,03579 0,02409 0,01985 0,01553

4 0,04892 0,04592 0,02525 0,02177 0,02819 0,02069

5 0,03560 0,04014 0,02969 0,03153 0,02551 0,01332

6 0,03834 0,05792 0,02685 0,04729 0,01347 0,03796

7 0,03969 0,03441 0,02500 0,03232 0,01731 0,01657

8 0,04948 0,02864 0,03525 0,02161 0,01532 0,01165

9 0,02786 0,02808 0,02836 0,02798 0,02953 0,01545

10 0,11862 0,11220 0,11210 0,12337 0,12071 0,12767

Rata-rata 0,04580 0,04466 0,03829 0,03870 0,030607 0,028752 N=1000

1 0,03313 0,02545 0,0294 0,02361 0,01936 0,01309

2 0,03746 0,03363 0,03196 0,02712 0,02773 0,01314

3 0,03955 0,03498 0,02361 0,02213 0,02147 0,0139

4 0,04188 0,03091 0,03469 0,02529 0,02107 0,01512

5 0,04687 0,04579 0,03219 0,02253 0,02579 0,01696

6 0,03724 0,02749 0,03078 0,02037 0,02038 0,01314

7 0,08275 0,06841 0,07494 0,07806 0,07236 0,06481

8 0,03703 0,02721 0,02284 0,02697 0,02446 0,00992

9 0,02588 0,03068 0,02435 0,01949 0,01771 0,01437

10 0,21669 0,21609 0,20023 0,18749 0,22338 0,21535

(62)

Lampiran 6 Rata-rata persentase total informasi hilang

Sampling frame

Jumlah sampel yg diambil

70% 75% 80% 85% 90% 95% N=300

1 0,29516 0,16817 0,18949 0,12795 0,19072 0,17523

2 0,57761 0,41634 0,41634 0,28479 0,1762 0,0759

3 0,59864 0,42678 0,52467 0,3955 0,30317 0,31279

4 0,70201 0,56264 0,49264 0,32218 0,24434 0,19395

6 0,22198 0,18348 0,24393 0,12406 0,2189 0,08658

7 0,29134 0,32552 0,2479 0,21922 0,21678 0,18915

8 0,49065 0,37387 0,31121 0,20997 0,16259 0,16021

9 0,31719 0,29085 0,28086 0,18 0,17448 0,16662

10 0,20434 0,21828 0,17144 0,13791 0,14993 0,12563

Rata-rata 0,410991 0,329548 0,319831 0,222398 0,204123 0,165118 N=500

1 0,08656 0,09481 0,16448 0,28704 0,26135 0,33126

2 0,12165 0,14276 0,29728 0,321 0,33319 0,36054

3 0,09351 0,08175 0,19867 0,1737 0,27618 0,27764

4 0,07423 0,08788 0,14772 0,17534 0,27665 0,28071

5 0,05118 0,08957 0,10846 0,1505 0,1593 0,27418

6 0,03653 0,09914 0,10928 0,1262 0,20134 0,20087

7 0,04364 0,09909 0,10891 0,21894 0,22734 0,32409

8 0,04744 0,08547 0,09431 0,14883 0,18265 0,23398

9 0,04853 0,09272 0,08132 0,13339 0,1889 0,24808

10 0,08669 0,09103 0,12442 0,19611 0,38552 0,31412

Rata-rata 0,068996 0,096422 0,143485 0,193105 0,249242 0,284547 N=700

1 0,29675 0,19106 0,15936 0,09158 0,08981 0,03607

2 0,33536 0,16598 0,17967 0,1062 0,09942 0,04495

3 0,27305 0,21427 0,16847 0,09742 0,08879 0,03842

4 0,19884 0,1254 0,10742 0,08329 0,06046 0,03954

5 0,2661 0,23911 0,17491 0,0957 0,07519 0,04545

6 0,29218 0,19454 0,16748 0,09653 0,10315 0,04338

7 0,21279 0,19554 0,13264 0,10994 0,07863 0,03727

8 0,19104 0,1708 0,13145 0,09637 0,06368 0,04083

9 0,23123 0,15999 0,13505 0,1086 0,07647 0,034

10 0,30212 0,18407 0,12263 0,12263 0,09844 0,05661

Rata-rata 0,259946 0,184076 0,147908 0,100826 0,083404 0,041652 N=900

1 0,22459 0,14656 0,1223 0,08785 0,06439 0,0435

(63)

3 0,14285 0,10897 0,10863 0,0683 0,05633 0,05671

4 0,14283 0,11466 0,08045 0,05208 0,04536 0,03013

5 0,25386 0,15035 0,13382 0,08311 0,05637 0,04151

6 0,29019 0,30984 0,18745 0,17915 0,0902 0,08142

7 0,16133 0,14407 0,09053 0,07505 0,06535 0,04914

8 0,22399 0,1648 0,10997 0,07179 0,06517 0,04272

9 0,19801 0,16956 0,10874 0,08128 0,05671 0,03477

10 0,2035 0,13244 0,07781 0,07242 0,04908 0,04758

Rata-rata 0,205281 0,158901 0,11486 0,084036 0,061083 0,046876 N=1000

1 0,12307 0,07815 0,07866 0,06295 0,04293 0,0507

2 0,1499 0,12201 0,09642 0,07688 0,05733 0,04111

3 0,12861 0,12103 0,06666 0,05857 0,04914 0,04723

4 0,15291 0,1379 0,11421 0,05868 0,06159 0,03301

5 0,30758 0,25182 0,14406 0,12526 0,11032 0,04071

6 0,1781 0,12665 0,09527 0,06261 0,05464 0,04982

7 0,24122 0,19812 0,13154 0,12672 0,06356 0,03839

8 0,13829 0,13586 0,09788 0,05918 0,05922 0,04634

9 0,19847 0,13992 0,11191 0,09218 0,06016 0,04511

10 0,15478 0,12278 0,08529 0,06319 0,07326 0,04412

Rata-rata 0,177293 0,143424 0,10219 0,078622 0,063215 0,043654

(64)

ABSTRACT

RATNA CHRISTIANINGRUM. Logistic Regression Model Studies on Case-Control Data with Three-Stage Sampling . Under direction of BUDI SUSETYO, and KUSMAN SADIK

If the sample is taken by using multistage random sampling, through reducing sample size in the next stage, then the ordinary logistic models can’t be used. This data will be analyzed using logistic models with the additional intercept. This research studied the application of addition intercept terms in logistic regression for case control study used multi stage random sampling. Furthermore, this research compared between the model which was formed and the model of the frame sampling data. The addition intercept in logistic models was able to describe the pattern of relationship explanatory variable with response variable. Missing information decreases with increasing number of samples that observed. Average of missing information in the third stage tends to be smaller than in the second stage, because the third stage has more homogeneous sample units than the second stage. The average of missing information is smaller than the average reduction in the number of samples when using multi-stage random sampling, so this sampling technique is also suitable for use in research aimed at predicting the probability of case. Moreover the use of the sampling technique can reduce the sampling cost.

(65)