UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON
Ade Susanti, Dewi Retno Sari Saputro, dan Nughthoh Arfawi Kurdhi Program Studi Matematika FMIPA UNS
Abstrak. Model regresi Poisson digunakan untuk memodelkan hubungan antara
va-riabel respon yang diasumsikan berdistribusi Poisson dengan vava-riabel prediktor. Pa-da distribusi Poisson asumsi equidispersi (nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali terjadi overdispersi (nilai variansi lebih besar dari rata-rata). Untuk mengatasinya dapat digunakan model regresi Poisson yang diperumum. Tujuan penelitian ini untuk mengkaji ulang model regresi Poisson yang diperumum untuk mengatasi overdispersi pada model regresi Poisson dan menerapkannya pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Model regresi Poisson yang diperumum dituliskan sebagaiYbi=exp(βb0+βb1X1i+βb2X2i+. . .+βbpXpi) dengan fungsi densitas peluang f(yi;µ;k) = (1+kµµ )yi(1+kyi)yi−1
yi! exp
(
−µ(1+kyi) 1+kµ
)
. Model pada penerapan adalahYbi=exp(−25,549+0,3348X1+0,0199X2−0,0171X3− 0,0867X4−0,0155X5+0,0107X6−0,00226X7+0,0178X8+0,00000599X9−0,00898X10).
Kata kunci : model regresi Poisson, overdispersi, model regresi Poisson yang diper-umum
1. Pendahuluan
Model regresi digunakan untuk memodelkan hubungan antara variabel
res-pon dengan variabel prediktor (Gujarati [3]). Menurut Long [6] pada model
re-gresi variabel respon diasumsikan berdistribusi normal. Generalized linear models
(GLM) telah dikembangkan oleh McCullagh dan Nelder [7] untuk menganalisis
hubungan antara variabel respon dan variabel prediktor dengan variabel respon
tidak harus berdistribusi normal, tetapi termasuk keluarga eksponensial.
Model regresi Poisson dapat digunakan untuk memodelkan hubungan
an-tara variabel respon yang diasumsikan berdistribusi Poisson terhadap variabel
prediktor (Casella dan Berger [2]). Pada distribusi Poisson asumsi equidispersi
(nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali
asum-si tersebut tidak dipenuhi, yaitu nilai varianasum-si lebih besar dari rata-rata atau
disebut overdispersi (Wang dan Famoye [8]).
Overdispersi dapat dideteksi dengan statistik uji skor. Menurut Hinde dan
Demetrio [4] overdispersi dapat terjadi karena adanya sumber keragaman yang
tidak teramati, adanya pengaruh variabel lain yang mengakibatkan peluang
sua-tu kejadian tergansua-tung pada kejadian sebelumnya, adanya pencilan, dan peluang
[7] jika tetap digunakan model regresi Poisson pada data yang mengalami
ove-rdispersi, maka diperoleh kesimpulan yang kurang valid.
Untuk mengatasi overdispersi dapat digunakan model regresi Poisson yang
diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang
diper-umum (Listiyani dan Purhadi [5]). Pada penelitian ini dikaji ulang model regresi
Poisson yang diperumum untuk mengatasi overdispersi dan diterapkan pada data
banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014.
2. Model Regresi Poisson
Regresi Poisson dapat digunakan untuk menunjukkan hubungan antara
va-riabel prediktor terhadap vava-riabel respon yang berdistribusi Poisson. Diketahui
suatu variabel respon Y dan p variabel prediktor X1, X2, . . . , Xp dengan
penga-matan ke−idari variabelY danX1, X2, . . . , Xp adalahyi dan x1, x2, . . . , xp. Jika
yi merupakan variabel random yang berdistribusi Poisson dengan i= 1,2, . . . , n
dan n menyatakan banyaknya data, maka fungsi densitas peluang distribusi
Poi-sson adalah
f(yi;µ) = µ yie−µ
yi!
dengan µ >0 dan µmerupakan rata-rata dari variabel respon Y.
Model regresi Poisson dapat digunakan untuk memodelkan hubungan
an-tara variabel prediktor terhadap variabel respon yang diasumsikan berdistribusi
Poisson (Casella dan Berger [2]). Model regresi Poisson dituliskan sebagai
Yi =exp(β0+β1X1i+β2X2i+...+βpXpi) +εi, i= 1,2, . . . , n.
Estimasi model regresi Poisson adalah
b
Yi =exp(βb0+βb1X1i+βb2X2i+. . .+βbpXpi), i= 1,2, . . . , n
3. Overdispersi
Menurut Cameron dan Trivedi [1] dalam model regresi Poisson terdapat
asumsi yang harus dipenuhi, yaitu variabel respon harus berdistribusi Poisson.
Karakteristik distribusi Poisson adalah equidispersi (nilai variansi sama dengan
rata-rata). Namun asumsi tersebut seringkali tidak dipenuhi, yaitu nilai variansi
Menurut McCullagh dan Nelder [7] kondisi overdispersi dapat dideteksi
de-ngan statistik uji skor. Jika nilai statistik uji skor kurang dari Zα/2, maka terjadi
overdispersi. Jika terjadi overdispersi pada data, maka model regresi Poisson
ku-rang akurat digunakan untuk memodelkan karena berdampak pada nilaistandard
error dari taksiran parameter yang dihasilkan cenderung menjadiunderestimate,
sehingga kesimpulan yang diperoleh menjadi kurang valid (McCullagh dan Nelder
[7]). Ada beberapa hal yang menyebabkan terjadinya overdispersi dalam suatu
pengamatan diantaranya karena adanya sumber keragaman yang tidak teramati,
adanya pengaruh variabel lain yang mengakibatkan peluang suatu kejadian
ter-gantung pada kejadian sebelumnya, adanya pencilan, dan peluang nilai nol yang
berlebih pada variabeel respon (Hinde dan Demetrio [4]).
4. Model Regresi Poisson yang Diperumum
Menurut Listiyani dan Purhadi [5] salah satu model regresi yang dapat
digunakan untuk mengatasi masalah overdispersi adalah model regresi Poisson
yang diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang
diperumum. Fungsi densitas peluang distribusi Poisson yang diperumum adalah
f(yi;µ;k) = (
µ
1 +kµ
)yi
(1 +kyi)yi−1
yi!
exp
(
−µ(1 +kyi)
1 +kyi )
, i= 0,1,2, ...
dengan k merupakan parameter dispersi. Nilai rata-rata dan nilai variansi
dis-tribusi Poisson yang diperumum adalah E(Y|x) = µ dan V(Y|x) = µ(1 +kµ)2.
Model regresi Poisson yang diperumum dituliskan sebagai
Yi =exp(β0 +β1X1i+β2X2i+...+βpXpi) +εi.
5. Metode Penelitian
Penelitian ini merupakan penelitian kajian teori dan penerapannya
mempe-lajari model regresi Poisson yang diperumum yang diterapkan pada data
banyak-nya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Berikut ini uraian
langkah-langkahnya.
Untuk teori dilakukan kajian ulang model regresi Poisson yang diperumum
dengan melakukan estimasi parameter β0, β1, . . . , βp. Digunakan metode
maxi-mum likelihood estimation (MLE) untuk mengestimasi dengan membentuk fungsi
mengoptimasi parameter β dan k. Karena sulit ditentukan penyelesaiannya
di-gunakan metode Newton-Raphson dengan menentukan nilai awal dari parameter b
β dan bk, dan mengiterasi parameterβ dan k hingga konvergen.
Untuk penerapan digunakan data banyaknya kematian ibu bersalin di Jawa
Tengah untuk 33 provinsi pada tahun 2014 yang dilakukan dengan langkah
memi-lih variabel respon, memimemi-lih variabel prediktor, menghitung statistik deskriptif,
meguji distribusi Poisson pada variabel respon, menguji overdispersi, membentuk
model regresi Poisson yang diperumum, dan mengestimasi model regresi Poisson
yang diperumum.
6. Hasil dan Pembahasan
6.1. Estimasi Model Regresi Poisson yang Diperumum. Pada model re-gresi Poisson yang diperumum harus dilakukan estimasi pada parameterβ0, β1, . . . ,
βp. Metode yang digunakan untuk mengestimasi adalah metode MLE. Fungsi
li-kelihood untuk model regresi Poisson yang diperumum adalah
L(β, k) = n ∏
i=1
[(
exp(β0+∑pj=1βjxji) 1 +kexp(β0+∑pj=1βjxji)
)yi
(1 +kyi)yi−1 yi!
]
(6.1)
n ∏
i=1
[
exp
(
−(1 +kyi)exp(β0 +
∑p
j=1βjxji)
1 +k exp(β0+∑pj=1βjxji) )]
. (6.2)
Selanjutnya fungsi likelihood pada persamaan (6.1) diambil nilai logaritma
naturalisnya sehingga diperoleh fungsi ln-likelihood berikut.
lnL(β, k) = n ∑
i=1
yi (
β0+
p ∑
j=1
βjxji )
−
n ∑
i=1
yiln [
1 +k exp
(
β0 +
p ∑
j=1
βjxji )]
+
n ∑
i=1
(yi−1) ln(1 +kyi)− n ∑
i=1
ln(yi!)− n ∑
i=1
[
(1 +kyi)exp(β0 +∑pj=1βjxji) 1 +k exp(β0+∑pj=1βjxji)
]
,
Fungsi ln-likelihood merupakan fungsi maksimum apabila dipenuhi turunan
parsial pertama terhadap masing-masing parameter bernilai nol. Karena
sis-tem persamaan yang diperoleh dari turunan parsial pertama tersebut merupakan
sistem persamaan nonlinier yang sulit ditentukan penyelesaiannya sehingga
di-gunakan pendekatan numerik, yaitu metode Newton Raphson. Berikut adalah
langkah-langkah untuk mengestimasi parameterβ0, β1, β2, . . . , βp,dank
(1) Menentukan nilai awal dari parameter b dan k.
(2) Melakukan proses iterasi dengan prosedur
k(t+1)=k(t)−H−1
(t)G(t),
b(t+1) =b(t)−H−1
(t)G(t),
denganG merupakan vektor gradien,H merupakan matriks hessian, dan
t merupakan banyaknya iterasi. b, k,G, dan H dituliskan sebagai
b = β0 β1 β2 ... βp
, k= [k], G=
∂
∂β0 lnL(β;k)
∂
∂β1 lnL(β;k)
∂
∂β2 lnL(β;k)
... ∂
∂βplnL(β;k)
∂
∂klnL(β;k) , dan H= ∂2 ∂β2 0 ln
L(β;k) ∂β∂02∂β1 lnL(β;k) . . . ∂β∂2
0∂βplnL(β;k)
∂2
∂β0∂klnL(β;k)
∂2
∂β1β0 lnL(β;k)
∂2
∂β2 1 ln
L(β;k) . . . ∂β∂2
1∂βplnL(β;k)
∂2
∂β1∂klnL(β;k)
∂2
∂β2β0 lnL(β;k)
∂2
∂β2∂β1 lnL(β;k) . . .
∂2
∂β2∂βplnL(β;k)
∂2
∂β0∂klnL(β;k)
... ... ... ... ...
∂2
∂βpβ0 lnL(β;k)
∂2
∂βp∂β1 lnL(β;k) . . .
∂2
∂β2
p lnL(β;k)
∂2
∂βp∂klnL(β;k)
∂2
∂βkβ0 lnL(β;k)
∂2
∂βk∂β1 lnL(β;k) . . .
∂2
∂βk∂βp lnL(β;k)
∂2
∂k2 lnL(β;k)
. 7. Penerapan
Pada penelitian ini model regresi Poisson dengan overdispersi
di-terapkan pada data banyaknya kematian ibu bersalin di Jawa Tengah
untuk 33 provinsi pada tahun 2014. Data banyaknya kematian ibu
ber-salin di Jawa Tengah tersebut diperoleh dari dinas kesehatan. Variabel
respon pada penerapan ini adalah banyaknya kematian ibu bersalin di
Jawa Tengah pada tahun 2014, sedangkan variabel prediktornya adalah
persentase mendapatkan pelayanan K1 (X1), persentase mendapatkan
pe-layanan K4 (X2), persentase persalinan dibantu tenaga kesehatan (X3),
persentase mendapatkan tablet Fe1 (X4, persentase mendapatkan tablet
rumah tangga berprilaku hidup bersih dan sehat (X7), persentase
ba-nyaknya rumah sakit (X8), persentase banyaknya puskesmas (X9), dan
persentase banyaknya penduduk miskin (X10).
Berdasarkan hasil perhitungan diketahui bahwa banyaknya kematian
ibu bersalin terendah adalah 0 jiwa yang terjadi di kabupaten
Banjarne-gara, Kebumen, Wonosobo, Boyolali, Karanganyar, dan Grobogan, serta
Kota Magelang, Surakarta, dan Salatiga, banyaknya kematian ibu
bersa-lin tertinggi adalah 14 jiwa yang terjadi di Kabupaten Brebes, rata-rata
kematian ibu bersalin di Jawa Tengah adalah 3 jiwa, dan variansi
kema-tian ibu bersalin di Jawa Tengah adalah 9.
Sebelum menentukan model regresi Poisson, terlebih dahulu
dilakuk-an pengujidilakuk-an distribusi Poisson pada variabel respon untuk mengetahui
apakah variabel respon berdistribusi Poisson atau tidak. Pengujian ini
di-lakukan dengan uji Kolmogorov Smirnov. Berdasarkan hasil perhitungan
diperoleh kesimpulan variabel respon berdistribusi Poisson.
Setelah diuji variabel respon berdistribusi Poisson selanjutnya
di-tentukan model regresi Poisson. Model regresi Poisson yang diperoleh
adalah
b
Yi = exp(−29,093 + 0,335X1+ 0,022X2+ 0,005X3−0,094x4−
0,007X5+ 0,01X6+ 0,003X7+ 0,022X8+ 0,005X9+
0,013X10)
Overdispersi pada data banyaknya kematian ibu bersalin di Jawa
Tengah terlihat dari hasil statistik deskriptif yang telah diuji sebelumnya,
yaitu nilai variansi Y lebih besar dari nilai rata-rata Y. Selain itu,
ove-rdispersi juga dapat dilihat dari nilai statistik uji skor. Hasil nilai statistik
uji skor adalah 49,24078. Karena lebih besar dari Zα/2 = −1,96 dapat
disimpulkan terjadi overdispersi pada data banyaknya kematian ibu
ber-salin di Jawa Tengah pada tahun 2014. Oleh karena itu, digunakan model
regresi Poisson yang diperumum untuk mengatasi overdispersi. Model
b
Yi = exp(−25,549 + 0,3348X1+ 0,0199X2−0,0171X3 −
0,0867X4−0,0155X5+ 0,0107X6−0,00226X7+
0,0178X8+ 0,00000599X9−0,00898X10).
Berikut merupakan langkah-langkah untuk mengestimasi parameter
β0, β1, β2, . . . , βp dan k pada model regresi model regresi Poisson yang
diperumum.
(a) Menentukan nilai awal dari parameter b dan k.
Nilai awal dari parameter
b= β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10 =
−29,093
0,335
0,022
0,005
−0,094
−0,007
0,01
0,003
0,022
0,005
0,013
dan k = 1.
(b) Melakukan iterasi parameter β dan k hingga konvergen. Parameter
b dan k konvergen setelah 8 iterasi. Diperoleh β0 =−25,549, β1 =
0,2248, β2 = 0,0199, β3 = −0,0171, β4 = −0,0867, β5 = −0,015,
β6 = 0,0107, β7 = −0,0022, β8 = 0,0178, β9 = 0,0000599, β10 =
−0.00898 dan k = 0,6028.
8. Kesimpulan
Berikut ini adalah kesimpulan yang diperoleh.
(a) Model regresi Poisson yang diperumum untuk mengatasi overdispersi
pada model regresi Poisson adalah
b
dengan fungsi densitas dituliskan sebagai
f(yi;µ;k) = (
µ
1 +kµ
)yi
(1 +kyi)yi−1 yi!
exp
(
−µ(1 +kyi)
1 +kµ
)
,
dan i= 0,1,2, . . . , n.
(b) Berdasarkan penerapan diperoleh model regresi Poisson yang
diper-umum
b
Yi = exp(−25,549 + 0,3348X1+ 0,0199X2−0,0171X3 −
0,0867X4−0,0155X5+ 0,0107X6−0,00226X7+
0,0178X8+ 0,00000599X9−0,00898X10).
Kenaikan banyaknya kematian ibu bersalin dipengaruhi oleh
kenaik-an persentase mendapatkkenaik-an pelaykenaik-ankenaik-an k1, persentase mendapatkkenaik-an
pelayanan k4, persentase penanganan komplikasi kebidanan,
persen-tase banyaknya rumah sakit, dan persenpersen-tase banyaknya puskesmas.
Banyaknya kematian ibu bersalin turun dipengaruhi oleh
persense persalinan dibantu tenaga kepersensehatan, perpersensentapersense mendapatkan
ta-blet Fe1, persentase mendapatkan tata-blet Fe3, serta persentase rumah
tangga berprilaku hidup bersih dan sehat.
DAFTAR PUSTAKA
[1] Cameron, A.C. and P.K. Trivedi,Regression Analysis of Count Data, Cambridge University Press, Cambridge, 1998.
[2] Casella, G. and R. L. Berger, Statistical Inference, Wadsworth Inc., California, 1990.
[3] Gujarati, D.,Ekonometrika Dasar, Erlangga, Jakarta, 1978.
[4] Hinde, J. and C.G.B. Demetrio,Overdispersion: Models and Estimation, Brazilian Symposium of Probability and Statistics (13o SINAPE), Caxambu, Minas Gerais, Brazil, April 2007.
[5] Listiyani, Y., dan Purhadi, Pemodelan Generalized Regresi Poisson pada Faktor -Faktor yang Mempengaruhi Angka Kematian Bayi di Provinsi Jawa Timur Tahun 2007, Jurnal Statistika ITS 2 (2007), 1-7.
[6] Long, J. S., Regression Models for Categorical and Limited Dependent Variables, Sage Publications, California, 1997.
[7] McCullagh, P. and J.A. Nelder,Generalized Linier Models, 2nd edition, Chapman and Hall, London, 1989.