POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN
Karima Puspita Sari, Respatiwulan, dan Bowo Winarno Program Studi Matematika FMIPA UNS
Abstrak. Model regresi zero-inflated Poisson(ZIP) adalah suatu model regresi
di-mana variabel dependen berdistribusi Poisson dan memiliki banyak nilai nol. Regresi ini terbangun oleh regresi Poisson dan regresi logistik. Estimasi parameter model regresiZIP dapat menggunakan metode Bayesian. Dalam metode Bayesian terdapat dua distribusi yaitu distribusiprior dan distribusi posterior. Jika distribusi posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung, maka dilakukan pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode MarkovchainMonte Carlo (MCMC). Tujuan penelitian ini adalah untuk mengestima-si parameter model regremengestima-siZIP menggunakan metode Bayesian dan menerapkannya pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah kasus difteri. Estima-si parameter dilakukan dengan menentukan distribuEstima-siprior dan posterior, kemudian melakukan simulasi dengan menetapkan nilai awal parameter. Hasil estimasi para-meternya adalah ˆα = 0.06335 dan ˆβ = 0.1372. Pada contoh penerapan, estimasi parameternya diperoleh αb = (0.3003,0.01,0.0056,0.0064) dan βb = (−0.1386,0.101). Hasil estimasi parameter α menjelaskan bahwa besarnya peluang penderita difteri yang tidak meninggal dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah pen-derita difteri berturut-turut sebesar 1%, 0.56%, dan 0.64%. Hasil estimasi parameter βmenjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh vaksin dan jumlah penderita difteri sebesar 13.86% dan 10.1%.
Kata kunci: overdispersi, zero-inflated Poisson (ZIP), metode Bayesian, Gibbs sam-pling.
1. PENDAHULUAN
Model regresi digunakan untuk menduga pola hubungan antara dua varia-bel. Variabel dibedakan menjadi dua, yaitu variabel dependen atau disebut juga variabel respon dan variabel independen atau disebut juga variabel prediktor (Nawari [8]).
Variabel dependen dapat bernilai kontinu atau diskrit. Model regresi Po-isson merupakan model regresi yang digunakan untuk menduga pola hubungan variabel dependen berdistribusi Poisson dan benilai diskrit dengan variabel in-dependen bernilai diskrit atau kontinu. Tidak semua variabel in-dependen bernilai diskrit cocok menggunakan model Poisson karena model Poisson mensyaratkan
nilai rata-rata (mean) sama dengan nilai variansi. Jika nilai mean sama dengan
nilai variansi, maka hal ini disebut equidispersi (Kusuma dkk. [6]).
Dalam aplikasinya seringkali equidispersi tidak dapat dipenuhi. Ismail dan Jemain [4] menyatakan bahwa variansi data lebih kecil dari rata-ratanya disebut dengan underdispersi dan variansi data lebih besar dari rata-ratanya disebut de-ngan overdispersi. Salah satu penyebab terjadinya overdispersi adalah banyak
nilai nol pada variabel dependen dapat diatasi menggunakan model regresi zero-inflated Poisson (ZIP). Menurut Famoye dan Singh [2] proporsi data yang bernilai
nol sekitar 63.7%.
Estimasi parameter model regresi ZIP dapat menggunakan metode
maxi-mum likelihood estimation (MLE) atau metode Bayesian. Liu dan Powers [7]
dalam penelitiannya membandingkan metode MLE dan Bayesian untuk estimasi
parameter model regresiZIP dan diperoleh hasil yaitu metode Bayesian lebih
ba-ik daripadaMLE yang ditandai dengan nilai eror dari metode Bayesian lebih kecil
dibandingkan dengan nilai eror pada metode MLE. Pada metode Bayesian
terda-pat dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi
posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung,
maka dilakukan pembangkitan sampel yang mendekati distribusi posterior
pa-rameter dengan metode Markov chain Monte Carlo (MCMC). Liu dan Powers
[7] menggunakan metode MCMC untuk menentukan distribusi posterior dengan
algoritme Gibbs sampling. Tujuan penelitian ini adalah untuk mengestimasi
pa-rameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya
pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah kasus difteri.
2. MODEL REGRESI ZIP
Model regresi ini terbangun oleh regresi Poisson dan regresi logistik. Jika
va-riabel dependen Y mengikuti modelZIP, maka fungsi kepadatan probabilitasnya
dituliskan sebagai
P(Yi = 0) =
eX1jα
1 +eX1jα + (
1− e
X1jα
1 +eX1jα )
e−eX2jβ
P(Yi =y) =
(
1− e
X1jα
1 +eX1jα )
e−e(X2jβ)(eX2jβ)yj
yj!
, y = 1,2,3, . . . . (2.1)
Hubungan antara variabel dependen Y dan variabel independen X dapat
dimo-delkan menggunakan model linier tergeneralisasi sehingga dapat dibentuk model
regresi ZIP yang terbangun oleh model regresi Poisson dan transformasi regresi
logistik, yaitu
logit[(1−pp )] =X1α=α0+α1X11+α2X12+. . .+αmX1m
log(λ) = X2β =β0+β1X21+β2X22+. . .+βlX2l,
(2.2)
dengan X1 = (1, X11, X12, . . . , X1m) adalah matriks variabel independen dari
re-gresi logistik danX2 = (1, X21, X22, . . . , X2l) adalah matriks variabel independen
3. METODE BAYESIAN
Metode Bayesian merupakan metode estimasi yang berbasis pada aturan Bayes yang menggabungkan informasi dari data observasi baru dan informasi yang telah diperoleh sebelumnya. Pada estimasi parameter menggunakan metode
Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior.
Menurut Soejoeti dan Soebanar [10], distribusi prior merupakan distribusi awal
parameter sebelum dilakukan analisis data. Distribusi prior dinotasikan sebagai
f(θ). Soejoeti dan Soebanar [10] juga mendefinisikan distribusi posterior sebagai fungsi densitas bersyarat θ jika nilai observasi xdiketahui dan dituliskan sebagai
f(θ|x) = f(θ, x)
f(x) .
Fungsi kepadatan bersama dan marginal yang diperlukan dapat ditulis da-lam bentuk distribusi fungsi likelihood dan prior f(θ, x) = f(x|θ)f(θ) dengan
f(x|θ) merupakan fungsi likelihood danf(θ) merupakan distribusi prior. Metode Bayesian didasarkan pada distribusi posterior, yang dituliskan sebagai
f(θ|x) = f(x|θ)f(θ)
f(x) .
Menurut Ntzoufras [9], teorema Bayes lebih dikenal dengan
f(θ|x)∝f(x|θ)f(θ).
4. MARKOV CHAIN MONTE CARLO (MCMC)
MCMC merupakan metode pendekatan untuk inferensi Bayesian.
Menu-rut Walsh [11], MCMC digunakan untuk mendapatkan nilai estimasi parameter
dengan mensimulasikan pengambilan sampel secara langsung dari distribusi
pos-terior. Konsep utama dalam MCMC adalah membuat sampel pendekatan
da-ri distda-ribusi posteda-rior parameter dengan membangkitkan sebuah rantai Markov yang memiliki distribusi limit mendekati distribusi posterior parameter. Pada
MCMC terdapat algoritme Gibbs sampling. Algoritme ini digunakan apabila
terdapat lebih dari satu parameter yang tidak diketahui.
Menurut Casella dan George [1], Gibbs sampling merupakan teknik
5. HASIL DAN PEMBAHASAN
5.1. Estimasi Parameter Model.
Model regresi ZIP memiliki parameter yang belum diketahui nilainya dan
perlu diestimasi, yaitu α dan β. Berdasarkan fungsi kepadatan ZIP pada
persa-maan (2.1) dapat dibentuk fungsi likelihood yang merupakan distribusi bersama
untuk n observasi, yaitu
f(Y|α, β) =
k
∏
j=1
[
eX1jα
1 +eX1jα + (
1− e
X1jα
1 +eX1jα )
e−eX2jβ
]
×
n
∏
j=k+1
[(
1− e
X1jα
1 +eX1jα )
e−eX2jβ
(eX2jβ)yj
yj!
]
, (5.1)
dengank adalah banyaknya observasi yang menghasilkan nilai variabel dependen
y= 0 dan yk+1, . . . , yn adalah observasi yang tidak bernilai nol. Fungsi likelihood
pada persamaan (5.1) digunakan untuk menentukan distribusi posterior parame-ter. Estimasi parameter model menggunakan metode Bayes terdapat dua
distri-busi yaitu prior dan posterior. Berikut adalah penjelasan dari masing-masing
distribusi prior dan posterior model ZIP.
5.1.1. DistribusiPrior ModelZIP.
Pemilihan distribusiprior dalam metode Bayesian sangat penting untuk
me-nentukan distribusi posterior karena pemilihan distribusi prior yang tepat akan
mempermudah estimasi. Penambahan variabel independen dalam regresi ZIP
tanpa informasi prior dapat menggunakan prior non informatif. Untuk model
zero-inflated, distribusi prior normal dapat digunakan untuk parameter β dan
distribusi prior beta dapat digunakan untuk parameter α. Jika tidak ada
infor-masi yang tersedia, maka distribusiprior uniform yang didefinisikan pada interval
(0,1) dapat digunakan (Ntzoufras [9]). Distribusiprior untuk model ZIP dapat
dituliskan sebagai
f(α, β|a, b, µ, σ2) = 1
b−a
l
∏
j=0
√ 1
2πσβj
e −(βj−µβ
j)2
2σ2 βj
, (5.2)
dengan (a, b) adalah parameter distribusi uniform dan (µ, σ2) parameter distribusi
5.1.2. Distribusi Posterior ModelZIP.
Distribusi posterior parameter dapat diperoleh dengan mengalikan persama-an (5.1) dengpersama-an persamapersama-an (5.2). Berikut merupakpersama-an distribusi posterior
para-meter model ZIP.
f(α, β|Y) ∝ f(Y|α, β)f(α, β)
∝
k
∏
j=1
[
eX1jα
1 +eX1jα + (
1− e
X1jα
1 +eX1jα )
e−eX2jβ
]
×
n
∏
j=k+1
[(
1− e
X1jα
1 +eX1jα )
e−eX2jβ
(eX2jβ)yj
yj!
]
×b 1 −a
l
∏
j=0
√ 1
2πσβj
e
−(βj−µβj)2 2σ2
βj
. (5.3)
Distribusi posterior pada persamaan (5.3) digunakan untuk menentukan nilai
estimasi parameter.
5.2. Algoritme Gibbssampling.
Menurut Casella dan George [1] Gibbssampling merupakan teknik
pembang-kitan variabel random yang menggunakan sampel sebelumnya untuk membang-kitkan nilai sampel berikutnya secara random sehingga akan didapatkan suatu
rantai Markov. Berikut diberikan langkah-langkah algoritme Gibbs sampling.
(1) Menentukan parameter dan distribusi bersyaratnya.
(2) Melakukan simulasi dengan pembangkitan data menggunakan algoritme
Gibbs sampling dengan langkah berikut.
(a) Menetapkan nilai awal masing-masing parameter.
(b) Menentukan ukuran iterasiN.
(c) Melakukan simulasi untuk i= 1,2,3, . . . , N.
(d) Memperbarui nilai-nilai parameter dari nilai-nilai hasil simulasi.
(3) Melakukan estimasi parameter model regresiZIP.
Berdasarkan langkah-langkah tersebut, dilakukan pembangkitan data
ber-distribusi Poisson dengan n= 100. Nilai awal parameter α dan β yang
dipergu-nakan dapat dilihat pada Tabel 1.
Tabel 1. Nilai estimasi parameter model regresi ZIP dengan simulasi berdasarkan algoritme Gibbs sampling
Nilai awal parameter Nilai estimasi Std dev
α= 0 0.0632 0.05755
β = 0.2 0.1372 0.01936
α= 0 0.0632 0.05755
β = 0.8 0.1372 0.01936
α= 0.2 0.06335 0.05667
β = 0.2 0.1372 0.1938
α= 0.2 0.06337 0.05756
β = 0.8 0.1372 0.01935
α= 0.8 0.06389 0.05919
β = 0.2 0.1372 0.01937
α= 0.8 0.06398 0.05987
β = 0.8 0.1372 0.01937
5.3. Contoh Penerapan.
Data diambil dari Profil Kesehatan Indonesia Tahun 2014 [5] tentang jumlah
kematian difteri tahun 2014. Penyakit difteri disebabkan oleh bakteri
Coryne-bacterium diphtheriae yang menyerang sistem pernapasan bagian atas. Jumlah
kasus meninggal sebanyak 16 kasus.
Pada contoh penerapan ini ditentukan hubungan antara jumlah kematian
difteri (Y) yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah
sakit, dan jumlah kasus difteri. Data jumlah kematian difteri menunjukkan
ba-nyak nilai nol yaitu 69.7%. Estimasi parameter model dilakukan dengan bantuan
software WinBUGS. Nilai awal parameterα untuk distribusi uniform (0,1) yaitu
0.02 dan parameter β untuk distribusi normal (0,1000) yaitu 0.001. Estimasi
dilakukan dengan membangkitkan suatu rantai Markov dan dilakukan percobaan beberapa iterasi sampai mencapai konvergen.
Hasil estimasi parameter model menggunakan software WinBUGS dapat
dilihat dalam Tabel 2.
Hasil estimasi parameter pada Tabel 2 merupakan hasil dari pembangkitan
rantai Markov dengan 4170 iterasi. Model regresi ZIP dapat dituliskan sebagai
logit( p
1−p) = 0.2779 + 0.0051X11+ 0.0049X12+ 0.0031X13 log(λ) = −0.078−0.133X21−0.01773X22+ 0.1X23,
[image:6.595.167.439.105.333.2]Tabel 2. Nilai estimasi parameter menggunakan metode Bayesian untuk α dan β
Estimasi Nilai 2.5 Persentil 97.5 Persentil Hasil uji parameter
ˆ
α1 0.2779 0.0076 0.9121 Signifikan
ˆ
α2 0.0051 0.0182 0.0560 Signifikan
ˆ
α3 0.0049 0.0180 0.0371 Signifikan
ˆ
α4 0.0031 0.0125 0.0369 Signifikan
ˆ
β1 −0.0780 −1.5460 1.1170 Tidak signifikan
ˆ
β2 −0.1330 −0.1556 −0.1123 Signifikan
ˆ
β3 −0.0177 −0.0569 0.0179 Tidak signifikan
ˆ
β4 0.1000 0.1080 0.0896 Signifikan
Setelah mendapatkan model regresi, selanjutnya dilakukan pengujian para-meter untuk mengetahui pengaruh variabel independen terhadap variabel
depen-den. Pengujian hipotesis terhadap parameter dilakukan dengan pendekatan
cre-dible interval. Parameter model yang telah dihasilkan diuji menggunakancredible
interval pada tingkat kepercayaan 95% yang ditandai dengan persentil 2,5% dan
97,5%. Parameter dikatakan signifikan jika selang interval pada tingkat
keperca-yaan 95% parameter tidak memuat nilai nol. Parameter yang signifikan menun-jukkan variabel independen berpengaruh terhadap variabel dependen (Hestiana [3]). Berdasarkan Tabel 2 parameter yang signifikan yaitu ˆα1,αˆ2,αˆ3,αˆ4,βˆ2,βˆ4
sehingga dilakukan estimasi ulang dan diperoleh hasil sebagai berikut.
logit( p
1−p) = 0.3003 + 0.01X11+ 0.0056X12+ 0.0064X13 (5.4)
log(λ) = −0.1386X21+ 0.101X23. (5.5)
Persamaan (5.4) menjelaskan bahwa peluang terjadinya penderita difteri yang tidak meninggal dipengaruhi oleh banyaknya pemberian vaksin, jumlah ru-mah sakit, dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin meningkatkan peluang penderita difteri yang tidak meninggal sebesar 1%, setiap pertambahan 1 unit rumah sakit meningkatkan peluang penderita difteri yang
tidak meninggal sebesar 0.56%, dan setiap pertambahan jumlah kasus difteri
me-ningkatkan peluang penderita difteri yang tidak meninggal sebesar 0.64%.
Persamaan (5.5) menjelaskan bahwa banyaknya kasus difteri yang mening-gal dipengaruhi oleh banyaknya pemberian vaksin dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin maka terjadinya kasus difteri yang
me-ninggal menurun sebesar 13.86% dan setiap kenaikan jumlah kasus difteri maka
6. KESIMPULAN
Berdasarkan hasil dan pembahasan, hasil estimasi parameter model regresi
ZIP diperoleh setelah dilakukan simulasi dan diterapkan pada contoh kasus.
Dis-tribusiprior untuk parameterαyaitu distribusi uniform (a, b) dan untuk parame-ter β yaitu distribusi normal (µ, σ2), sehingga distribusi prior model regresiZIP
dapat dilihat pada persamaan (5.2). Distribusi posterior model regresiZIP dapat
dilihat pada persamaan (5.3). Untuk mendekati distribusi posterior parameter
model regresi ZIP digunakan algoritme Gibbs sampling dengan ditentukan nilai
awal parameter αyaitu 0,02 dan β yaitu 0,001. Hasil estimasi parameter model
regresi ZIP adalah αb= (0.3003,0.01,0.0056,0.0064) dan βb= (−0.1386,0.101).
DAFTAR PUSTAKA
[1] Casella, G. and E. I. George,Explaining the Gibbs Sampler, The American Statistisian46
(1992), no. 3, pp 167-174.
[2] Famoye, F. and K. P. Singh,Zero-Inflated Generalized Poisson Regression Model with an Application to Domestic Violence Data, Journal of Data Science4(2006), pp 117-130.
[3] Hestiana, F., Mixture Count Regression dengan Pendekatan Bayesian, Jurnal Aplikasi Statistik & Komputasi Statistik1(2004), pp 56-73.
[4] Ismail, N. dan A. A. Jemain, Generalized Poisson Regression :An Alternative for Risk Classification, Jurnal Teknologi Universiti Teknologi Malaysia43(2005), pp 39-54.
[5] Kementerian Kesehatan Republik Indonesia,Profil Kesehatan Indonesia Tahun 2014, Ke-menterian Kesehatan RI, Jakarta, 2015.
[6] Kusuma, W, D. Komalasari, dan M. Hadijati,Model Regresi Zero Inflated Poisson, Jurnal Matematika3(2013), no. 2, pp 71-85.
[7] Liu, H. and D. A. Powers,Bayesian Inference for Zero-Inflated Poisson Regression Models, Journal of Statistics: Advances in Theory and Applications7(2012), no. 2, pp 155-188.
[8] Nawari,Analisis Regresi dengan MS Excel 2007 dan SPSS 17, PT Elex Media Komputindo, Jakarta, 2010.
[9] Ntzoufras, I.,Bayesian Modeling Using WinBUGS, John Wiley, Greece, 2009.
[10] Soejoeti, Z. dan Soebanar, Inferensi Bayesian, Karunika Universitas Terbuka, Jakarta, 1988.