• Tidak ada hasil yang ditemukan

Karima Puspita Sari M0112047

N/A
N/A
Protected

Academic year: 2017

Membagikan "Karima Puspita Sari M0112047"

Copied!
8
0
0

Teks penuh

(1)

POISSON (ZIP) MENGGUNAKAN METODE BAYESIAN

Karima Puspita Sari, Respatiwulan, dan Bowo Winarno Program Studi Matematika FMIPA UNS

Abstrak. Model regresi zero-inflated Poisson(ZIP) adalah suatu model regresi

di-mana variabel dependen berdistribusi Poisson dan memiliki banyak nilai nol. Regresi ini terbangun oleh regresi Poisson dan regresi logistik. Estimasi parameter model regresiZIP dapat menggunakan metode Bayesian. Dalam metode Bayesian terdapat dua distribusi yaitu distribusiprior dan distribusi posterior. Jika distribusi posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung, maka dilakukan pembangkitan sampel yang mendekati distribusi posterior parameter dengan metode MarkovchainMonte Carlo (MCMC). Tujuan penelitian ini adalah untuk mengestima-si parameter model regremengestima-siZIP menggunakan metode Bayesian dan menerapkannya pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah sakit, dan jumlah kasus difteri. Estima-si parameter dilakukan dengan menentukan distribuEstima-siprior dan posterior, kemudian melakukan simulasi dengan menetapkan nilai awal parameter. Hasil estimasi para-meternya adalah ˆα = 0.06335 dan ˆβ = 0.1372. Pada contoh penerapan, estimasi parameternya diperoleh αb = (0.3003,0.01,0.0056,0.0064) dan βb = (−0.1386,0.101). Hasil estimasi parameter α menjelaskan bahwa besarnya peluang penderita difteri yang tidak meninggal dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah pen-derita difteri berturut-turut sebesar 1%, 0.56%, dan 0.64%. Hasil estimasi parameter βmenjelaskan bahwa banyaknya kasus difteri yang meninggal dipengaruhi oleh vaksin dan jumlah penderita difteri sebesar 13.86% dan 10.1%.

Kata kunci: overdispersi, zero-inflated Poisson (ZIP), metode Bayesian, Gibbs sam-pling.

1. PENDAHULUAN

Model regresi digunakan untuk menduga pola hubungan antara dua varia-bel. Variabel dibedakan menjadi dua, yaitu variabel dependen atau disebut juga variabel respon dan variabel independen atau disebut juga variabel prediktor (Nawari [8]).

Variabel dependen dapat bernilai kontinu atau diskrit. Model regresi Po-isson merupakan model regresi yang digunakan untuk menduga pola hubungan variabel dependen berdistribusi Poisson dan benilai diskrit dengan variabel in-dependen bernilai diskrit atau kontinu. Tidak semua variabel in-dependen bernilai diskrit cocok menggunakan model Poisson karena model Poisson mensyaratkan

nilai rata-rata (mean) sama dengan nilai variansi. Jika nilai mean sama dengan

nilai variansi, maka hal ini disebut equidispersi (Kusuma dkk. [6]).

Dalam aplikasinya seringkali equidispersi tidak dapat dipenuhi. Ismail dan Jemain [4] menyatakan bahwa variansi data lebih kecil dari rata-ratanya disebut dengan underdispersi dan variansi data lebih besar dari rata-ratanya disebut de-ngan overdispersi. Salah satu penyebab terjadinya overdispersi adalah banyak

(2)

nilai nol pada variabel dependen dapat diatasi menggunakan model regresi zero-inflated Poisson (ZIP). Menurut Famoye dan Singh [2] proporsi data yang bernilai

nol sekitar 63.7%.

Estimasi parameter model regresi ZIP dapat menggunakan metode

maxi-mum likelihood estimation (MLE) atau metode Bayesian. Liu dan Powers [7]

dalam penelitiannya membandingkan metode MLE dan Bayesian untuk estimasi

parameter model regresiZIP dan diperoleh hasil yaitu metode Bayesian lebih

ba-ik daripadaMLE yang ditandai dengan nilai eror dari metode Bayesian lebih kecil

dibandingkan dengan nilai eror pada metode MLE. Pada metode Bayesian

terda-pat dua distribusi yaitu distribusi prior dan distribusi posterior. Jika distribusi

posterior parameter sangat rumit dan tidak dapat dikerjakan secara langsung,

maka dilakukan pembangkitan sampel yang mendekati distribusi posterior

pa-rameter dengan metode Markov chain Monte Carlo (MCMC). Liu dan Powers

[7] menggunakan metode MCMC untuk menentukan distribusi posterior dengan

algoritme Gibbs sampling. Tujuan penelitian ini adalah untuk mengestimasi

pa-rameter model regresi ZIP menggunakan metode Bayesian dan menerapkannya

pada data jumlah kematian difteri di Indonesia tahun 2014 yang dipengaruhi oleh vaksin, jumlah rumah sakit, dan jumlah kasus difteri.

2. MODEL REGRESI ZIP

Model regresi ini terbangun oleh regresi Poisson dan regresi logistik. Jika

va-riabel dependen Y mengikuti modelZIP, maka fungsi kepadatan probabilitasnya

dituliskan sebagai

P(Yi = 0) =

eX1jα

1 +eX1jα + (

1 e

X1jα

1 +eX1jα )

e−eX2jβ

P(Yi =y) =

(

1 e

X1jα

1 +eX1jα )

e−e(X2jβ)(eX2jβ)yj

yj!

, y = 1,2,3, . . . . (2.1)

Hubungan antara variabel dependen Y dan variabel independen X dapat

dimo-delkan menggunakan model linier tergeneralisasi sehingga dapat dibentuk model

regresi ZIP yang terbangun oleh model regresi Poisson dan transformasi regresi

logistik, yaitu

logit[(1−pp )] =X1α=α0+α1X11+α2X12+. . .+αmX1m

log(λ) = X2β =β01X212X22+. . .+βlX2l,

(2.2)

dengan X1 = (1, X11, X12, . . . , X1m) adalah matriks variabel independen dari

re-gresi logistik danX2 = (1, X21, X22, . . . , X2l) adalah matriks variabel independen

(3)

3. METODE BAYESIAN

Metode Bayesian merupakan metode estimasi yang berbasis pada aturan Bayes yang menggabungkan informasi dari data observasi baru dan informasi yang telah diperoleh sebelumnya. Pada estimasi parameter menggunakan metode

Bayesian terdapat dua distribusi yaitu distribusi prior dan distribusi posterior.

Menurut Soejoeti dan Soebanar [10], distribusi prior merupakan distribusi awal

parameter sebelum dilakukan analisis data. Distribusi prior dinotasikan sebagai

f(θ). Soejoeti dan Soebanar [10] juga mendefinisikan distribusi posterior sebagai fungsi densitas bersyarat θ jika nilai observasi xdiketahui dan dituliskan sebagai

f(θ|x) = f(θ, x)

f(x) .

Fungsi kepadatan bersama dan marginal yang diperlukan dapat ditulis da-lam bentuk distribusi fungsi likelihood dan prior f(θ, x) = f(x|θ)f(θ) dengan

f(x|θ) merupakan fungsi likelihood danf(θ) merupakan distribusi prior. Metode Bayesian didasarkan pada distribusi posterior, yang dituliskan sebagai

f(θ|x) = f(x|θ)f(θ)

f(x) .

Menurut Ntzoufras [9], teorema Bayes lebih dikenal dengan

f(θ|x)f(x|θ)f(θ).

4. MARKOV CHAIN MONTE CARLO (MCMC)

MCMC merupakan metode pendekatan untuk inferensi Bayesian.

Menu-rut Walsh [11], MCMC digunakan untuk mendapatkan nilai estimasi parameter

dengan mensimulasikan pengambilan sampel secara langsung dari distribusi

pos-terior. Konsep utama dalam MCMC adalah membuat sampel pendekatan

da-ri distda-ribusi posteda-rior parameter dengan membangkitkan sebuah rantai Markov yang memiliki distribusi limit mendekati distribusi posterior parameter. Pada

MCMC terdapat algoritme Gibbs sampling. Algoritme ini digunakan apabila

terdapat lebih dari satu parameter yang tidak diketahui.

Menurut Casella dan George [1], Gibbs sampling merupakan teknik

(4)

5. HASIL DAN PEMBAHASAN

5.1. Estimasi Parameter Model.

Model regresi ZIP memiliki parameter yang belum diketahui nilainya dan

perlu diestimasi, yaitu α dan β. Berdasarkan fungsi kepadatan ZIP pada

persa-maan (2.1) dapat dibentuk fungsi likelihood yang merupakan distribusi bersama

untuk n observasi, yaitu

f(Y|α, β) =

k

j=1

[

eX1jα

1 +eX1jα + (

1 e

X1jα

1 +eX1jα )

e−eX2jβ

]

×

n

j=k+1

[(

1 e

X1jα

1 +eX1jα )

e−eX2jβ

(eX2jβ)yj

yj!

]

, (5.1)

dengank adalah banyaknya observasi yang menghasilkan nilai variabel dependen

y= 0 dan yk+1, . . . , yn adalah observasi yang tidak bernilai nol. Fungsi likelihood

pada persamaan (5.1) digunakan untuk menentukan distribusi posterior parame-ter. Estimasi parameter model menggunakan metode Bayes terdapat dua

distri-busi yaitu prior dan posterior. Berikut adalah penjelasan dari masing-masing

distribusi prior dan posterior model ZIP.

5.1.1. DistribusiPrior ModelZIP.

Pemilihan distribusiprior dalam metode Bayesian sangat penting untuk

me-nentukan distribusi posterior karena pemilihan distribusi prior yang tepat akan

mempermudah estimasi. Penambahan variabel independen dalam regresi ZIP

tanpa informasi prior dapat menggunakan prior non informatif. Untuk model

zero-inflated, distribusi prior normal dapat digunakan untuk parameter β dan

distribusi prior beta dapat digunakan untuk parameter α. Jika tidak ada

infor-masi yang tersedia, maka distribusiprior uniform yang didefinisikan pada interval

(0,1) dapat digunakan (Ntzoufras [9]). Distribusiprior untuk model ZIP dapat

dituliskan sebagai

f(α, β|a, b, µ, σ2) = 1

ba

l

j=0

  1

2πσβj

e −(βj−µβ

j)2

2σ2 βj

, (5.2)

dengan (a, b) adalah parameter distribusi uniform dan (µ, σ2) parameter distribusi

(5)

5.1.2. Distribusi Posterior ModelZIP.

Distribusi posterior parameter dapat diperoleh dengan mengalikan persama-an (5.1) dengpersama-an persamapersama-an (5.2). Berikut merupakpersama-an distribusi posterior

para-meter model ZIP.

f(α, β|Y) f(Y|α, β)f(α, β)

k

j=1

[

eX1jα

1 +eX1jα + (

1 e

X1jα

1 +eX1jα )

e−eX2jβ

]

×

n

j=k+1

[(

1 e

X1jα

1 +eX1jα )

e−eX2jβ

(eX2jβ)yj

yj!

]

×b 1 −a

l

j=0

  1

2πσβj

e

−(βj−µβj)2 2σ2

βj 

. (5.3)

Distribusi posterior pada persamaan (5.3) digunakan untuk menentukan nilai

estimasi parameter.

5.2. Algoritme Gibbssampling.

Menurut Casella dan George [1] Gibbssampling merupakan teknik

pembang-kitan variabel random yang menggunakan sampel sebelumnya untuk membang-kitkan nilai sampel berikutnya secara random sehingga akan didapatkan suatu

rantai Markov. Berikut diberikan langkah-langkah algoritme Gibbs sampling.

(1) Menentukan parameter dan distribusi bersyaratnya.

(2) Melakukan simulasi dengan pembangkitan data menggunakan algoritme

Gibbs sampling dengan langkah berikut.

(a) Menetapkan nilai awal masing-masing parameter.

(b) Menentukan ukuran iterasiN.

(c) Melakukan simulasi untuk i= 1,2,3, . . . , N.

(d) Memperbarui nilai-nilai parameter dari nilai-nilai hasil simulasi.

(3) Melakukan estimasi parameter model regresiZIP.

Berdasarkan langkah-langkah tersebut, dilakukan pembangkitan data

ber-distribusi Poisson dengan n= 100. Nilai awal parameter α dan β yang

dipergu-nakan dapat dilihat pada Tabel 1.

(6)

Tabel 1. Nilai estimasi parameter model regresi ZIP dengan simulasi berdasarkan algoritme Gibbs sampling

Nilai awal parameter Nilai estimasi Std dev

α= 0 0.0632 0.05755

β = 0.2 0.1372 0.01936

α= 0 0.0632 0.05755

β = 0.8 0.1372 0.01936

α= 0.2 0.06335 0.05667

β = 0.2 0.1372 0.1938

α= 0.2 0.06337 0.05756

β = 0.8 0.1372 0.01935

α= 0.8 0.06389 0.05919

β = 0.2 0.1372 0.01937

α= 0.8 0.06398 0.05987

β = 0.8 0.1372 0.01937

5.3. Contoh Penerapan.

Data diambil dari Profil Kesehatan Indonesia Tahun 2014 [5] tentang jumlah

kematian difteri tahun 2014. Penyakit difteri disebabkan oleh bakteri

Coryne-bacterium diphtheriae yang menyerang sistem pernapasan bagian atas. Jumlah

kasus meninggal sebanyak 16 kasus.

Pada contoh penerapan ini ditentukan hubungan antara jumlah kematian

difteri (Y) yang dipengaruhi oleh banyaknya pemberian vaksin, jumlah rumah

sakit, dan jumlah kasus difteri. Data jumlah kematian difteri menunjukkan

ba-nyak nilai nol yaitu 69.7%. Estimasi parameter model dilakukan dengan bantuan

software WinBUGS. Nilai awal parameterα untuk distribusi uniform (0,1) yaitu

0.02 dan parameter β untuk distribusi normal (0,1000) yaitu 0.001. Estimasi

dilakukan dengan membangkitkan suatu rantai Markov dan dilakukan percobaan beberapa iterasi sampai mencapai konvergen.

Hasil estimasi parameter model menggunakan software WinBUGS dapat

dilihat dalam Tabel 2.

Hasil estimasi parameter pada Tabel 2 merupakan hasil dari pembangkitan

rantai Markov dengan 4170 iterasi. Model regresi ZIP dapat dituliskan sebagai

logit( p

1p) = 0.2779 + 0.0051X11+ 0.0049X12+ 0.0031X13 log(λ) = 0.0780.133X21−0.01773X22+ 0.1X23,

[image:6.595.167.439.105.333.2]
(7)
[image:7.595.102.503.84.248.2]

Tabel 2. Nilai estimasi parameter menggunakan metode Bayesian untuk α dan β

Estimasi Nilai 2.5 Persentil 97.5 Persentil Hasil uji parameter

ˆ

α1 0.2779 0.0076 0.9121 Signifikan

ˆ

α2 0.0051 0.0182 0.0560 Signifikan

ˆ

α3 0.0049 0.0180 0.0371 Signifikan

ˆ

α4 0.0031 0.0125 0.0369 Signifikan

ˆ

β1 −0.0780 −1.5460 1.1170 Tidak signifikan

ˆ

β2 −0.1330 −0.1556 −0.1123 Signifikan

ˆ

β3 −0.0177 −0.0569 0.0179 Tidak signifikan

ˆ

β4 0.1000 0.1080 0.0896 Signifikan

Setelah mendapatkan model regresi, selanjutnya dilakukan pengujian para-meter untuk mengetahui pengaruh variabel independen terhadap variabel

depen-den. Pengujian hipotesis terhadap parameter dilakukan dengan pendekatan

cre-dible interval. Parameter model yang telah dihasilkan diuji menggunakancredible

interval pada tingkat kepercayaan 95% yang ditandai dengan persentil 2,5% dan

97,5%. Parameter dikatakan signifikan jika selang interval pada tingkat

keperca-yaan 95% parameter tidak memuat nilai nol. Parameter yang signifikan menun-jukkan variabel independen berpengaruh terhadap variabel dependen (Hestiana [3]). Berdasarkan Tabel 2 parameter yang signifikan yaitu ˆα1,αˆ2,αˆ3,αˆ4,βˆ2,βˆ4

sehingga dilakukan estimasi ulang dan diperoleh hasil sebagai berikut.

logit( p

1p) = 0.3003 + 0.01X11+ 0.0056X12+ 0.0064X13 (5.4)

log(λ) = 0.1386X21+ 0.101X23. (5.5)

Persamaan (5.4) menjelaskan bahwa peluang terjadinya penderita difteri yang tidak meninggal dipengaruhi oleh banyaknya pemberian vaksin, jumlah ru-mah sakit, dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin meningkatkan peluang penderita difteri yang tidak meninggal sebesar 1%, setiap pertambahan 1 unit rumah sakit meningkatkan peluang penderita difteri yang

tidak meninggal sebesar 0.56%, dan setiap pertambahan jumlah kasus difteri

me-ningkatkan peluang penderita difteri yang tidak meninggal sebesar 0.64%.

Persamaan (5.5) menjelaskan bahwa banyaknya kasus difteri yang mening-gal dipengaruhi oleh banyaknya pemberian vaksin dan jumlah penderita difteri. Setiap bertambahnya pemberian vaksin maka terjadinya kasus difteri yang

me-ninggal menurun sebesar 13.86% dan setiap kenaikan jumlah kasus difteri maka

(8)

6. KESIMPULAN

Berdasarkan hasil dan pembahasan, hasil estimasi parameter model regresi

ZIP diperoleh setelah dilakukan simulasi dan diterapkan pada contoh kasus.

Dis-tribusiprior untuk parameterαyaitu distribusi uniform (a, b) dan untuk parame-ter β yaitu distribusi normal (µ, σ2), sehingga distribusi prior model regresiZIP

dapat dilihat pada persamaan (5.2). Distribusi posterior model regresiZIP dapat

dilihat pada persamaan (5.3). Untuk mendekati distribusi posterior parameter

model regresi ZIP digunakan algoritme Gibbs sampling dengan ditentukan nilai

awal parameter αyaitu 0,02 dan β yaitu 0,001. Hasil estimasi parameter model

regresi ZIP adalah αb= (0.3003,0.01,0.0056,0.0064) dan βb= (0.1386,0.101).

DAFTAR PUSTAKA

[1] Casella, G. and E. I. George,Explaining the Gibbs Sampler, The American Statistisian46

(1992), no. 3, pp 167-174.

[2] Famoye, F. and K. P. Singh,Zero-Inflated Generalized Poisson Regression Model with an Application to Domestic Violence Data, Journal of Data Science4(2006), pp 117-130.

[3] Hestiana, F., Mixture Count Regression dengan Pendekatan Bayesian, Jurnal Aplikasi Statistik & Komputasi Statistik1(2004), pp 56-73.

[4] Ismail, N. dan A. A. Jemain, Generalized Poisson Regression :An Alternative for Risk Classification, Jurnal Teknologi Universiti Teknologi Malaysia43(2005), pp 39-54.

[5] Kementerian Kesehatan Republik Indonesia,Profil Kesehatan Indonesia Tahun 2014, Ke-menterian Kesehatan RI, Jakarta, 2015.

[6] Kusuma, W, D. Komalasari, dan M. Hadijati,Model Regresi Zero Inflated Poisson, Jurnal Matematika3(2013), no. 2, pp 71-85.

[7] Liu, H. and D. A. Powers,Bayesian Inference for Zero-Inflated Poisson Regression Models, Journal of Statistics: Advances in Theory and Applications7(2012), no. 2, pp 155-188.

[8] Nawari,Analisis Regresi dengan MS Excel 2007 dan SPSS 17, PT Elex Media Komputindo, Jakarta, 2010.

[9] Ntzoufras, I.,Bayesian Modeling Using WinBUGS, John Wiley, Greece, 2009.

[10] Soejoeti, Z. dan Soebanar, Inferensi Bayesian, Karunika Universitas Terbuka, Jakarta, 1988.

Gambar

Tabel 1.Nilai estimasi parameter model regresialgoritme Gibbs ZIP dengan simulasi berdasarkan sampling
Tabel 2. Nilai estimasi parameter menggunakan metode Bayesian untuk α dan β

Referensi

Dokumen terkait

Pertemuan pertama itu pasti perkenalan dulu nanti baru evaluasi selanjutnya dilihat coba kamu bangun dan sampaikan materimu kalau tidak siap nanti sudah keluar keringat.”

1) Mengakses Informasi tentang perbaikan sistem pengapian sepeda motor dengan benar. 2) Melakukan pengujian kinerja sistem pengapian sesuai petunjuk buku manual

Berdasarkan hasil penelitian dan pembahasan, dapat disimpulkan bahwa problem posing dalam pembelajaran matematika pada materi segitiga dan segiempat merupakan

Tujuan dari penelitian ini adalah menentukan estimasi parameter model survival yang berdistribusi Pareto pada data tersensor dengan metode Bayesian LINEX Loss Function

Penelitian ini bertujuan untuk menghasilkan bahan ajar yang berbentuk modul yang valid sesuai teori, menghasilkan bahan ajar yang berbentuk modul yang praktis

Sebagai masyarakat desa Sukaraja mayoritas petani sawah mengatakan ketika panen sawah berkeinginan untuk membeli lahan sawah yang lebih luas, karna semakin banyak lahan

DOSEN PEMBIMBING TESIS DAN MAHASISWA YANG DIBIMBING TAHUN GENAP AKADEMIK 2014/2015. PROGRAM

Dengan demikian, sistem PBE diharapkan dapat menunjang pendidikan dari segi materi pengajaran karena mesin-mesin yang digunakan untuk praktek dan pekerjaannya sendiri