• Tidak ada hasil yang ditemukan

(R.6) REGRESI MULTILEVEL ZERO INFLATED POISSON UNTUK PEMODELAN DATA RESPON COUNT (Studi Kasus: Kejadian Kematian Bayi)

N/A
N/A
Protected

Academic year: 2021

Membagikan "(R.6) REGRESI MULTILEVEL ZERO INFLATED POISSON UNTUK PEMODELAN DATA RESPON COUNT (Studi Kasus: Kejadian Kematian Bayi)"

Copied!
9
0
0

Teks penuh

(1)

(R.6)

REGRESI MULTILEVEL ZERO INFLATED POISSON

UNTUK PEMODELAN DATA RESPON COUNT

(Studi Kasus: Kejadian Kematian Bayi)

1 Parwoto, 2 Septiadi Padmadisastra, 3 Anna Chadidjah

1 Mahasiswa Magister Statistika Terapan Universitas Padjadjaran 2,3 Dosen Jurusan Statistika Universitas Padjadjaran Email : 1parwoto@bps.go.id, 2 s_padmadisastra@yahoo.com, 3

anna_chadidjah@yahoo.co.id

Abstrak

Kematian bayi merupakan salah satu indikator pembangunan yang tertuang dalam Millennium Development Goals (MDGs). Pengamatan terhadap kejadian kematian bayi dalam rumah tangga akan menghasilkan data yang berbentuk diskrit, non-negative dan bukan biner (count data) serta mengandung banyak nilai nol (excess zeros). Untuk meneliti faktor-faktor atau penyebab kematian bayi, model regresi Poisson dapat diterapkan dengan menjadikan kejadian kematian bayi sebagai variabel respon. Salah satu masalah pada regresi Poisson adalah jika data respon mengandung nilai nol dengan proporsi yang relatif besar, sehingga parameter yang dihasilkan menjadi tidak tepat. Dalam keadaan tersebut penggunaan regresi Zero Inflated Poisson (ZIP) lebih disarankan. Namun demikian, pada data yang berhirarki (multilevel), model regresi ZIP menjadi kurang cocok karena tidak memperhatikan variasi antar level. Untuk mengatasi masalah tersebut dapat digunakan model regresi Multilevel ZIP. Penaksiran parameter pada regresi Multilevel ZIP menggunakan expectation-maximization (EM) algorithm dan estimasi komponen varians menggunakan residual maximum likelihood. Aplikasi analisis ini menggunakan data Survei Demografi dan Kesehatan Indonesia (SDKI) 2007.

Kata Kunci: multilevel, count data, zero inflated poisson, excess zeros, EM algorithm

I. PENDAHULUAN

Salah satu tujuan dalam Tujuan Pembangunan Milenium/Millennium Development Goals (MDGs) adalah menurunkan angka kematian anak dengan salah satu indikator di dalamnya yaitu menurunkan angka kematian bayi (BAPENAS, 2007). Angka kematian bayi (AKB) didefinisikan sebagai jumlah kematian bayi per seribu kelahiran hidup. Pada tahun 2007, berdasarkan hasil Survei Demografi dan Kesehatan Indonesia, AKB di Indonesia tercatat 34 per 1000 kelahiran untuk periode 5 (lima) tahun sebelum survei (BPS & Macro International, 2007). Jika dibandingkan dengan negara lain, AKB di Indonesia masih relatif tinggi. Untuk lingkup Asia Tenggara, AKB di Indonesia masih lebih tinggi dari negara-negara lain seperti: Singapura (2,30), Brunei Darussalam (13,12), Malaysia (16,62), Thailand (18,85), Philipina (22,12), dan Vietnam (24,37).

(2)

Pengamatan tehadap fenomena kejadian kematian bayi dalam suatu rumah tangga akan menghasilkan data yang berbentuk frekuensi/cacahan (count) dan mengandung banyak nilai nol (excess zeros), karena kejadian kematian bayi merupakan kejadian yang jarang terjadi. Untuk meneliti faktor-faktor atau penyebab kematian bayi, model regresi dapat diterapkan dengan menjadikan kejadian kematian bayi sebagai variabel respon.

Model regresi yang dapat diterapkan dimana variabel respon berupa data count adalah model regresi Poisson (Agresti, 2002). Namun demikian, model regresi Poisson seringkali menjadi tidak sesuai jika terdapat banyak data bernilai nol (excess zeros) yang mengakibatkan overdispersi (Ridout dkk., 1998). Terjadinya overdispersi mengakibatkan model yang dihasilkan menjadi tidak sesuai dan penaksiran parameter menjadi bias. Menurut Lambert (1992), jika data yang bernilai nol (zero inflation) dijumpai pada data jenis count dan proporsinya relatif besar, maka model regresi Zero Inflated Poisson (ZIP) lebih disarankan untuk digunakan. Namun demikian model regresi ZIP mempunyai kelemahan jika bekerja pada data berhirarki (multilevel) karena tidak memperhitungkan variasi dan korelasi antar level.

2. MODEL-MODEL REGRESI DENGAN DATA RESPON COUNT 2.1 Regresi Poisson

Model regresi Poisson merupakan model regresi standar untuk data cacahan (count) yang merupakan model regresi nonlinear (Cameron & Trivedi, 1998). Model ini diturunkan dari distribusi Poisson dimana parameter intensitas (µ) bergantung pada kovariat (regressor). Model regresi Poisson dari sejumlah k variabel prediktor dapat dituliskan dalam bentuk:

( ) = = (1) sehingga:

= exp ( ) (2) dengan xi merupakan vektor kovariat dan adalah vektor ( + 1) × 1 sebagai parameter regresi yang akan ditaksir yang menunjukkan besarnya pengaruh variabel prediktor terhadap variabel respon yang diteliti.

2.2 Regresi Zero Inflated Poisson

Menurut Lambert (1992) dalam Kristiono (2010), model Zero Inflated Poisson mengasumsikan bahwa populasi atau pengamatan terdiri dari dua kelompok laten (tidak teramati/unobserved). Suatu individu (unit observasi) akan masuk pada kelompok A yang nilainya selalu nol (zero state) dengan peluang atau akan masuk kelompok A (non-zero

(3)

dengan peluang 1− , sehingga fungsi peluang untuk nilai nol dan nilai positif dapat dituliskan dalam persamaan sebagai berikut:

(1 ) , 0 Pr( ) 1 ) , 1, 2,.. ! i i i y i i i i e untuk y Y y e untuk y y

             

Model regresi ZIP dengan parameter = ( , , … , ) dan = ( , , … , ) dibentuk oleh persamaan:

( ) = dan ( ) = = (4)

dengan X dan Z adalah matriks kovariat yang terdiri dari variabel-variabel prediktor, dan

merupakan parameter koefisien regresi.

Karena fleksibilitasnya, model regresi ZIP banyak digunakan dalam berbagai disiplin ilmu. Namun demikian, pada data yang berhirarki (multilevel), data yang berklaster dan data yang diperoleh dari sampling multi stages, model ZIP kurang cocok karena tidak memperhatikan variasi dan korelasi antar level (Lee dkk., 2006; Moghimbeigi dkk., 2009).

2.3 Regresi Multilevel Zero Inflated Poisson

2.3.1 Model Regresi Multilevel Zero Inflated Poisson

Model Multilevel ZIP merupakan salah satu model yang dapat mengatasi masalah pada data respon count yang mengandung banyak nilai nol (excess zeros) dan mempunyai struktur berhirarki (Lee dkk., 2006). Pada penelitian ini dengan menggunakan data Survei Demografi dan Kesehatan Indonesia (SDKI) 2007 Provinsi Jawa Barat, digunakan model 3-level dengan level-1 yaitu rumah tangga sebagai unit observasi, blok sensus sebagai level-2 dan kabupaten/kota sebagai level-3.

Misalkan merupakan data count yang merepresentasikan jumlah kejadian kematian bayi di kabupaten/kota ke-i, blok sensus ke-j, rumah tangga ke-k = 1,2, … , ; = 1,2, … , ; = 1,2, … , ) menjadi variabel respon, dimana n merupakan jumlah blok sensus yaitu =∑ dan jumlah rumah tangga keseluruhan adalah =∑ ∑ . Pemodelan regresi Multilevel ZIP dengan random effects pada prediktor linier sebagai berikut (Lee dkk., 2006):

log

1− = = + + (5)

log = = + +

dimana dan merupakan kovariat pada logistic part dan poisson part. Koefisien regresi ditunjukkan oleh dan . Random effects pada level kabupaten/kota dinotasikan

(4)

dan serta random variations pada level blok sensus dinotasikan dan . Model pada Persamaan (5) dapat dituliskan dalam bentuk vektor sebagai berikut:

log

1− = = + + (6)

log[ ] = = + +

dimana , , , , dan merupakan matriks desain. Random effects w, s, u dan v diasumsikan independen dan berdistribusi normal dengan mean nol dan varians masing-masing , , dan .

2.3.2 Penaksiran Parameter

Penaksiran parameter model regresi Multilevel ZIP memerlukan prosedur numerik EM Algorithm yang terbagi 2 (dua) langkah:

E-step: menghitung nilai ekspektasi dari log-likelihood yang dievaluasi menggunakan current estimates dari parameter-parameter;

M-step: menghitung parameter-parameter dengan memaksimalkan log-likelihood yang dihasilkan pada E-step.

Penaksiran dilakukan dengan pendekatan penalized log-likelihood yang dirumuskan dengan = + , dimana adalah fungsi log-likelihood ketika random effects-nya conditionally fixed dan adalah log-likelihood dari random effects (Lee dkk., 2006):

= log exp( ) + exp(−exp( ))

1 + exp( )

+ −exp( )−log( !)−log(1 + exp( ))

(7) = −1

2[ log(2 ) + + log(2 ) + ]

−1

2[ log(2 ) + + log(2 ) + ]

Proses estimasi dilakukan dengan memaksimalkan dengan komponen varians fixed pada nilai sekarang (current values). Selanjutnya pada proses iterasi, updating nilai dari komponen varians menggunakan estimasi residual maximum likelihood (REML) yang diperoleh dengan mempertimbangkan . Untuk data lengkap dirumuskan = + dengan:

= −log(1 + exp( ))

−1

(5)

= (1− ) ( −exp( )−log( !) −1 2[ log(2 ) + ]− 1 2[ log(2 ) + ] (8)

dimana adalah variabel biner yang tidak teramati yang menunjukkan berasal dari kelompok laten zero ( = 1) atau non-zero ( = 0).

Penaksiran parameter dilakukan dengan memaksimalkan kedua fungsi dan secara terpisah. Pada langkah ekspektasi (E-step), diganti dengan conditional expectation ( ( )) (g menunjukkan iterasi) di bawah kondisi current estimates ( ), ( ), ( ), ( ), ( )dan

( ): ( )

=

1

1 + exp − ( ) ( )− ̂( )exp( ( ) ( ) ( )) , jika = 0

0, jika ≥1

(9)

Selanjutnya dengan fixed pada ( ), kemudian dan dimaksimalkan secara terpisah untuk ( ), ( ), ( ) dan ( ), ( ), ( ) pada partisi ortogonal

= + .

Estimasi parameter dihasilkan dari M-step dalam EM Algorithm dengan parameter-parameter varians ( , ) dan ( , ) fixed. Estimasi dilakukan dengan dua set persamaan rekursif sebagai berikut:

= + , , ⎣ ⎢ ⎢ ⎢ ⎡ ⎦ ⎥ ⎥ ⎥ ⎤ dan = + , , ⎣ ⎢ ⎢ ⎢ ⎡ ⎦ ⎥ ⎥ ⎥ ⎤ (10) dengan , , = − [ ] + (11) dan , , = − [ ] + (12)

dimana ( , , ) dan ( , , ) adalah initial values dari parameter-parameter yang di-update dengan proses iterasi hingga konvergen.

(6)

2.3.3 Estimasi Komponen Varians

Estimasi varians dari random effects pada model regresi Multilevel ZIP memerlukan penghitungan matriks informasi sebagai berikut (Lee dkk., 2006):

, , , , , = + ⎣ ⎢ ⎢ ⎢ ⎢ ⎡ ⎦ ⎥ ⎥ ⎥ ⎥ ⎤ (13)

dimana H merupakan matriks Hessian yang diperoleh dari persamaan:

= ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤ ⎝ ⎜ ⎛ − − − − ⎠ ⎟ ⎞ (14)

Apabila invers dari , , , , , dinotasikankan dengan = ( ), dengan i = 1,…,6 dan

j = 1,…,6, maka , , dan merupakan matriks persegi yang menghubungkan masing-masing random effects w, s, u dan v. Komponen varians diperoleh dari:

= ( ); = ( );

= ( ); = ( )

(15)

Adapun akar kuadrat dari elemen dan merupakan standard error dari masing-masing koefisien regresi dan .

2.3.4 Uji Parameter Model

Pengujian parameter regresi pada logistic part ( ) dan poisson part ( ) dilakukan dengan menggunakan Wald test. Pada pengujian parameter , hipotesis yang digunakan adalah:

H0 : = 0

H1 : ≠0 untuk = 1,2, … , (k : banyaknya variabel prediktor)

Pengujian menggunakan statistik uji Wald yang dirumuskan (Agresti, 2002): =

(7)

Statistik Wald mengikuti distribusi normal standar sehingga kriteria pengujiannya adalah tolak H0 jika > / atau p-value < , dimana adalah tingkat signifikansi dalam

pengujian, SE adalah standard error.

Hipotesis untuk pengujian parameter koefisien regresi pada poisson part ( ) sebagai berikut:

H0 : = 0

H1 : ≠0 untuk = 1,2, … , (k : banyaknya variabel prediktor). Statistik uji yang digunakan adalah statistik Wald (Agresti, 2002):

=

SE( ) (17)

Kriteria pengujiannya yaitu tolak H0 jika > / atau p-value < , dimana

merupakan tingkat signifikansi, SE adalah standard error.

3. HASIL DAN PEMBAHASAN

Variabel respon dan variabel-variabel prediktor yang digunakan dalam penelitian ini sebagai berikut:

Tabel 1. Variabel-variabel dalam Penelitian

Variabel Deskripsi Kategori

Respon Y Jumlah kejadian kematian bayi dalam rumah tangga

Prediktor

X1 Status tempat tinggal 10 Pedesaan Perkotaan X2 Pendidikan kepala rumah

tangga

1 SLTP ke bawah 0 SLTA ke atas X3 Umur kepala rumah tangga -

X4 Sumber air minum 10 Bukan air bersih Air bersih

X5 Jenis lantai 1 Bukan tanah

0 Tanah X6 Jumlah anggota rumah

tangga -

Ukuran sampel yang digunakan sebanyak 1411 rumah tangga sampel SDKI 2007 Provinsi Jawa Barat yang terdapat dalam 86 blok sensus (BS) pada 26 kabupaten/kota. Frekuensi kejadian kematian bayi dalam rumah tangga ditunjukkan pada tabel dan gambar berikut:

(8)

Tabel 2. Distribusi Persentase Kejadian

Kematian Bayi dalam Rumah Tangga Jumlah Kejadian Kematian Bayi Freku ensi Persen tase 0 1243 88.1 1 129 9.1 2 27 1.9 3 8 0.6 4 0 0.0 5 4 0.3 Jumlah 1411 100. 0

Gambar 1. Grafik Persentase

Kejadian Kematian Bayi dalam Rumah Tangga

Hasil estimasi parameter regresi untuk model regresi Poisson, ZIP dan Multilevel ZIP sebagai berikut:

Tabel 2. Hasil Estimasi Parameter Regresi

Variabel Poisson ZIP Multilevel ZIP

Logistic part Poisson part Logistic part Poisson part

Intercep t -2.551(0.000) 0.294(0.878) -1.228(0.126) 0.527(0.734) -1.130(0.129) X1 -0.062(0.662) -0.243(0.529) -0.179(0.473) -0.287(0.476) -0.218(0.400) X2 -0.570(0.001) 0.236(0.627) -0.347(0.351) 0.155(0.745) -0.331(0.370) X3 0.030(0.000) -0.087(0.001) -0.015(0.203) -0.090(0.000) -0.016(0.148) X4 0.092(0.547) 1.608(0.004) 0.913(0.001) 1.290(0.007) 0.670(0.009) X5 -0.608(0.018) 2.903(0.030) 0.611(0.108) 3.175(0.006) 0.817(0.038) X6 0.014(0.688) 0.081(0.412) 0.051(0.411) 0.125(0.185) 0.063(0.299) 2(kab/kota) 0.772 0.214 2 (BS) 0.004 0.001

Keterangan: - Hasil Olahan Data SDKI 2007 Provinsi Jawa Barat

- Angka dalam kurung menunjukkan p-value

Dari tabel di atas, pada taraf α=5%, dapat dilihat bahwa pada regresi Poisson, variabel

pendidikan kepala rumah tangga berpengaruh signifikans pada terhadap frekuensi kejadian kematian bayi namun pengaruh ini tidak ditemukan pada model regresi ZIP dan Multilevel ZIP. Hal ini berkebalikan dengan sumber air minum yang tidak signifikans pada model regresi Poisson namun justru berpengaruh signifikans pada model regresi ZIP dan Multilevel ZIP baik pada logistic part maupun poisson part. Variabel prediktor umur kepala rumah tangga, berpengaruh signifikans terhadap kejadian kematian bayi pada regresi Poisson dan pada model regresi ZIP dan Multilevel ZIP pengaruh tersebut signifikans pada logistic part namun

(9)

tidak signifikans pada poisson part, adapun untuk variabel jenis lantai, pengaruh yang signifikans pada regresi Poisson juga sejalan dengan hasil regresi Multilevel ZIP baik pada logistic part maupun poisson part.

4. KESIMPULAN

Variabel prediktor yang pengaruhnya signifikans pada model regresi Poisson ternyata belum tentu signifikans pada model regresi ZIP dan Multilevel ZIP. Sebaliknya variabel prediktor yang pengaruhnya tidak signifikans pada model regresi Poisson ternyata dapat menjadi signifikans pada model regresi ZIP dan Multilevel ZIP.

Jika membandingkan model single level (ZIP) dengan model multilevel (Multilevel ZIP) berdasarkan hasil di atas, variabel prediktor yang tidak signifikans pada model single level dapat menjadi signifikans pada model multilevel. Perbedaan tersebut dikarenakan pada model multilevel penaksiran parameter dilakukan dengan mempertimbangkan variasi dan korelasi antar level.

5. DAFTAR PUSTAKA

Agresti, A. (2002). Categorical Data Analysis, Second Edition. New York: John Wiley & Sons. Badan Perencanaan Pembangunan Nasional (BAPPENAS). (2007). Laporan Perkembangan

Pencapaian Milennium Development Goals Indonesia 2007. Jakarta: Kementrian PPN/BAPPENAS.

Badan Pusat Statistik (BPS) & Macro International. (2007). Survei Demografi dan Kesehatan Indonesia 2007. Calvertorn, Maryland, USA: BPS dan Macro International.

Cameron, A.C. & Trivedi, P.K. (1998), Regression Analysis of Count Data. Cambridge: Cambridge University Press.

Kristiono, C. (2010). Regresi ZINB untuk Pemodelan Data Respon Count dengan Excess Zeros (Studi Kasus: Konsumsi Miras pada Remaja). Thesis, Universitas Padjadjaran, Bandung.

Lambert, D. (1992). Zero-Inflated Poisson Regression, With an Aplication to Defect in Manufacturing. Technometrics, 34: 1-14.

Lee, A.H, Wang, K., Scott, J.A., Yau, K.K.W. & McLachlan, G.J. (2006). Multilevel Zero-Inflated Poisson Regression Modeling of Correlated Count Data with Excess Zeros. Statist. Methods Med. Res. 15: 47–61.

Moghimbeigi, A., Eshraghian, M.R., Mohammad, K., Nourijelyani, K. & Husseini, M. (2009). Determinants Number of Cigarette Smoked with Iranian Adolescents: A Multilevel Zero Inflated Poisson Regression Model. Iranian Journal Public Health. 38: 91-96. Ridout, M., Demétrio, C.G.B. & Hinde, J. (1998). Models for Count Data with Many Zeros.

Gambar

Tabel 2. Distribusi Persentase Kejadian

Referensi

Dokumen terkait

Tujuan dari penelitian ini adalah untuk mendapatkan model terbaik terhadap jumlah kematian akibat difteri tahun 2012 di Provinsi Jawa Timur dengan menggunakan regresi

model yang mengandung x1 x2 x3 dan x5 Dari model regresi generalized model yang mengandung x1,x2, x3 dan x5 Dari model regresi generalized poisson yang diperoleh dapat dilihat