Artikel Ade Susanti M0112001 11jan2017

(1)

UNTUK MENGATASI OVERDISPERSI PADA MODEL REGRESI POISSON

Ade Susanti, Dewi Retno Sari Saputro, dan Nughthoh Arfawi Kurdhi Program Studi Matematika FMIPA UNS

Abstrak. _{Model regresi Poisson digunakan untuk memodelkan hubungan antara}

va-riabel respon yang diasumsikan berdistribusi Poisson dengan vava-riabel prediktor. Pa-da distribusi Poisson asumsi equidispersi (nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali terjadi overdispersi (nilai variansi lebih besar dari rata-rata). Untuk mengatasinya dapat digunakan model regresi Poisson yang diperumum. Tujuan penelitian ini untuk mengkaji ulang model regresi Poisson yang diperumum untuk mengatasi overdispersi pada model regresi Poisson dan menerapkannya pada data banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Model regresi Poisson yang diperumum dituliskan sebagaiYbi=exp(βb0+βb1X1i+βb2X2i+. . .+βbpXpi) dengan fungsi densitas peluang f(yi;µ;k) = (_1+kµµ )yi(1+kyi)yi−1

yi! exp

(

−µ(1+kyi) 1+kµ

)

. Model pada penerapan adalahYbi=exp(−25,549+0,3348X1+0,0199X2−0,0171X3− 0,0867X4−0,0155X5+0,0107X6−0,00226X7+0,0178X8+0,00000599X9−0,00898X10).

Kata kunci _{: model regresi Poisson, overdispersi, model regresi Poisson yang} diper-umum

1. Pendahuluan

Model regresi digunakan untuk memodelkan hubungan antara variabel

res-pon dengan variabel prediktor (Gujarati [3]). Menurut Long [6] pada model

re-gresi variabel respon diasumsikan berdistribusi normal. Generalized linear models

(GLM) telah dikembangkan oleh McCullagh dan Nelder [7] untuk menganalisis

hubungan antara variabel respon dan variabel prediktor dengan variabel respon

tidak harus berdistribusi normal, tetapi termasuk keluarga eksponensial.

Model regresi Poisson dapat digunakan untuk memodelkan hubungan

an-tara variabel respon yang diasumsikan berdistribusi Poisson terhadap variabel

prediktor (Casella dan Berger [2]). Pada distribusi Poisson asumsi equidispersi

(nilai variansi sama dengan rata-rata) harus dipenuhi. Namun seringkali

asum-si tersebut tidak dipenuhi, yaitu nilai varianasum-si lebih besar dari rata-rata atau

disebut overdispersi (Wang dan Famoye [8]).

Overdispersi dapat dideteksi dengan statistik uji skor. Menurut Hinde dan

Demetrio [4] overdispersi dapat terjadi karena adanya sumber keragaman yang

tidak teramati, adanya pengaruh variabel lain yang mengakibatkan peluang

sua-tu kejadian tergansua-tung pada kejadian sebelumnya, adanya pencilan, dan peluang

(2)

[7] jika tetap digunakan model regresi Poisson pada data yang mengalami

ove-rdispersi, maka diperoleh kesimpulan yang kurang valid.

Untuk mengatasi overdispersi dapat digunakan model regresi Poisson yang

diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang

diper-umum (Listiyani dan Purhadi [5]). Pada penelitian ini dikaji ulang model regresi

Poisson yang diperumum untuk mengatasi overdispersi dan diterapkan pada data

banyaknya kematian ibu bersalin di Jawa Tengah pada tahun 2014.

2. Model Regresi Poisson

Regresi Poisson dapat digunakan untuk menunjukkan hubungan antara

va-riabel prediktor terhadap vava-riabel respon yang berdistribusi Poisson. Diketahui

suatu variabel respon Y dan p variabel prediktor X1, X2, . . . , Xp dengan

penga-matan ke−idari variabelY danX₁, X₂, . . . , X_p adalahy_i dan x₁, x₂, . . . , x_p. Jika

y_i merupakan variabel random yang berdistribusi Poisson dengan i= 1,2, . . . , n

dan n menyatakan banyaknya data, maka fungsi densitas peluang distribusi

Poi-sson adalah

f(y_i;µ) = µ yi_e−µ

yi!

dengan µ >0 dan µmerupakan rata-rata dari variabel respon Y.

Model regresi Poisson dapat digunakan untuk memodelkan hubungan

an-tara variabel prediktor terhadap variabel respon yang diasumsikan berdistribusi

Poisson (Casella dan Berger [2]). Model regresi Poisson dituliskan sebagai

Y_i =exp(β₀+β₁X₁_i+β₂X₂_i+...+β_pX_pi) +ε_i, i= 1,2, . . . , n.

Estimasi model regresi Poisson adalah

b

Yi =exp(βb0+βb1X1i+βb2X2i+. . .+βbpXpi), i= 1,2, . . . , n

3. Overdispersi

Menurut Cameron dan Trivedi [1] dalam model regresi Poisson terdapat

asumsi yang harus dipenuhi, yaitu variabel respon harus berdistribusi Poisson.

Karakteristik distribusi Poisson adalah equidispersi (nilai variansi sama dengan

rata-rata). Namun asumsi tersebut seringkali tidak dipenuhi, yaitu nilai variansi

(3)

Menurut McCullagh dan Nelder [7] kondisi overdispersi dapat dideteksi

de-ngan statistik uji skor. Jika nilai statistik uji skor kurang dari Zα/2, maka terjadi

overdispersi. Jika terjadi overdispersi pada data, maka model regresi Poisson

ku-rang akurat digunakan untuk memodelkan karena berdampak pada nilaistandard

error dari taksiran parameter yang dihasilkan cenderung menjadiunderestimate,

sehingga kesimpulan yang diperoleh menjadi kurang valid (McCullagh dan Nelder

[7]). Ada beberapa hal yang menyebabkan terjadinya overdispersi dalam suatu

pengamatan diantaranya karena adanya sumber keragaman yang tidak teramati,

adanya pengaruh variabel lain yang mengakibatkan peluang suatu kejadian

ter-gantung pada kejadian sebelumnya, adanya pencilan, dan peluang nilai nol yang

berlebih pada variabeel respon (Hinde dan Demetrio [4]).

4. Model Regresi Poisson yang Diperumum

Menurut Listiyani dan Purhadi [5] salah satu model regresi yang dapat

digunakan untuk mengatasi masalah overdispersi adalah model regresi Poisson

yang diperumum dengan variabel respon diasumsikan berdistribusi Poisson yang

diperumum. Fungsi densitas peluang distribusi Poisson yang diperumum adalah

f(yi;µ;k) = (

µ

1 +kµ

)yi

(1 +kyi)yi−1

yi!

exp

(

−µ(1 +kyi)

1 +kyi )

, i= 0,1,2, ...

dengan k merupakan parameter dispersi. Nilai rata-rata dan nilai variansi

dis-tribusi Poisson yang diperumum adalah E(Y|x) = µ dan V(Y|x) = µ(1 +kµ)2_.

Model regresi Poisson yang diperumum dituliskan sebagai

Yi =exp(β0 +β1X1i+β2X2i+...+βpXpi) +εi.

5. Metode Penelitian

Penelitian ini merupakan penelitian kajian teori dan penerapannya

mempe-lajari model regresi Poisson yang diperumum yang diterapkan pada data

banyak-nya kematian ibu bersalin di Jawa Tengah pada tahun 2014. Berikut ini uraian

langkah-langkahnya.

Untuk teori dilakukan kajian ulang model regresi Poisson yang diperumum

dengan melakukan estimasi parameter β0, β1, . . . , βp. Digunakan metode

maxi-mum likelihood estimation (MLE) untuk mengestimasi dengan membentuk fungsi

(4)

mengoptimasi parameter β dan k. Karena sulit ditentukan penyelesaiannya

di-gunakan metode Newton-Raphson dengan menentukan nilai awal dari parameter b

β dan bk, dan mengiterasi parameterβ dan k hingga konvergen.

Untuk penerapan digunakan data banyaknya kematian ibu bersalin di Jawa

Tengah untuk 33 provinsi pada tahun 2014 yang dilakukan dengan langkah

memi-lih variabel respon, memimemi-lih variabel prediktor, menghitung statistik deskriptif,

meguji distribusi Poisson pada variabel respon, menguji overdispersi, membentuk

model regresi Poisson yang diperumum, dan mengestimasi model regresi Poisson

yang diperumum.

6. Hasil dan Pembahasan

6.1. Estimasi Model Regresi Poisson yang Diperumum. Pada model re-gresi Poisson yang diperumum harus dilakukan estimasi pada parameterβ0, β1, . . . ,

βp. Metode yang digunakan untuk mengestimasi adalah metode MLE. Fungsi

li-kelihood untuk model regresi Poisson yang diperumum adalah

L(β, k) = n ∏

i=1

[(

exp(β0+∑p_j₌₁βjxji) 1 +kexp(β0+∑p_j₌₁βjxji)

)yi

(1 +ky_i)yi−1 yi!

]

(6.1)

n ∏

i=1

[

exp

(

−(1 +kyi)exp(β0 +

∑p

j=1βjxji)

1 +k exp(β0+∑p_j₌₁βjxji) )]

. (6.2)

Selanjutnya fungsi likelihood pada persamaan (6.1) diambil nilai logaritma

naturalisnya sehingga diperoleh fungsi ln-likelihood berikut.

lnL(β, k) = n ∑

i=1

yi (

β0+

p ∑

j=1

βjxji )

−

n ∑

i=1

yiln [

1 +k exp

(

β0 +

p ∑

j=1

βjxji )]

+

n ∑

i=1

(yi−1) ln(1 +kyi)− n ∑

i=1

ln(yi!)− n ∑

i=1

[

(1 +kyi)exp(β0 +∑pj=1βjxji) 1 +k exp(β₀+∑p_j₌₁β_jx_ji)

]

,

Fungsi ln-likelihood merupakan fungsi maksimum apabila dipenuhi turunan

parsial pertama terhadap masing-masing parameter bernilai nol. Karena

sis-tem persamaan yang diperoleh dari turunan parsial pertama tersebut merupakan

sistem persamaan nonlinier yang sulit ditentukan penyelesaiannya sehingga

di-gunakan pendekatan numerik, yaitu metode Newton Raphson. Berikut adalah

langkah-langkah untuk mengestimasi parameterβ0, β1, β2, . . . , βp,dank

(5)

(1) Menentukan nilai awal dari parameter b dan k.

(2) Melakukan proses iterasi dengan prosedur

k₍_t₊₁₎₌k₍_t₎₋_H−1

(t)G(t),

b₍_t₊₁₎ ₌b₍_t₎₋_H−1

(t)G(t),

denganG _{merupakan vektor gradien,}H _{merupakan matriks hessian, dan}

t merupakan banyaknya iterasi. b_, k_,G_{, dan} H _{dituliskan sebagai}

b ₌           β₀ β1 β2 ... β_p          

, k_{= [}_k_], _G₌

             ∂

∂β0 lnL(β;k)

∂

∂β1 lnL(β;k)

∂

∂β2 lnL(β;k)

... ∂

∂βplnL(β;k)

∂

∂klnL(β;k)              , dan H=              ∂2 ∂β2 0 ln

L(β;k) _∂β∂₀2_∂β₁ lnL(β;k) . . . _∂β∂2

0∂βplnL(β;k)

∂2

∂β0∂klnL(β;k)

∂2

∂β1β0 lnL(β;k)

∂2

∂β2 1 ln

L(β;k) . . . _∂β∂2

1∂βplnL(β;k)

∂2

∂β1∂klnL(β;k)

∂2

∂β2β0 lnL(β;k)

∂2

∂β2∂β1 lnL(β;k) . . .

∂2

∂β2∂βplnL(β;k)

∂2

∂β0∂klnL(β;k)

... ... ... ... ...

∂2

∂βpβ0 lnL(β;k)

∂2

∂βp∂β1 lnL(β;k) . . .

∂2

∂β2

p lnL(β;k)

∂2

∂βp∂klnL(β;k)

∂2

∂βkβ0 lnL(β;k)

∂2

∂βk∂β1 lnL(β;k) . . .

∂2

∂βk∂βp lnL(β;k)

∂2

∂k2 lnL(β;k)

             . 7. Penerapan

Pada penelitian ini model regresi Poisson dengan overdispersi

di-terapkan pada data banyaknya kematian ibu bersalin di Jawa Tengah

untuk 33 provinsi pada tahun 2014. Data banyaknya kematian ibu

ber-salin di Jawa Tengah tersebut diperoleh dari dinas kesehatan. Variabel

respon pada penerapan ini adalah banyaknya kematian ibu bersalin di

Jawa Tengah pada tahun 2014, sedangkan variabel prediktornya adalah

persentase mendapatkan pelayanan K1 (X1), persentase mendapatkan

pe-layanan K4 (X2), persentase persalinan dibantu tenaga kesehatan (X3),

persentase mendapatkan tablet Fe1 (X4, persentase mendapatkan tablet

(6)

rumah tangga berprilaku hidup bersih dan sehat (X7), persentase

ba-nyaknya rumah sakit (X8), persentase banyaknya puskesmas (X9), dan

persentase banyaknya penduduk miskin (X10).

Berdasarkan hasil perhitungan diketahui bahwa banyaknya kematian

ibu bersalin terendah adalah 0 jiwa yang terjadi di kabupaten

Banjarne-gara, Kebumen, Wonosobo, Boyolali, Karanganyar, dan Grobogan, serta

Kota Magelang, Surakarta, dan Salatiga, banyaknya kematian ibu

bersa-lin tertinggi adalah 14 jiwa yang terjadi di Kabupaten Brebes, rata-rata

kematian ibu bersalin di Jawa Tengah adalah 3 jiwa, dan variansi

kema-tian ibu bersalin di Jawa Tengah adalah 9.

Sebelum menentukan model regresi Poisson, terlebih dahulu

dilakuk-an pengujidilakuk-an distribusi Poisson pada variabel respon untuk mengetahui

apakah variabel respon berdistribusi Poisson atau tidak. Pengujian ini

di-lakukan dengan uji Kolmogorov Smirnov. Berdasarkan hasil perhitungan

diperoleh kesimpulan variabel respon berdistribusi Poisson.

Setelah diuji variabel respon berdistribusi Poisson selanjutnya

di-tentukan model regresi Poisson. Model regresi Poisson yang diperoleh

adalah

b

Yi = exp(−29,093 + 0,335X1+ 0,022X2+ 0,005X3−0,094x4−

0,007X₅+ 0,01X₆+ 0,003X₇+ 0,022X₈+ 0,005X₉+

0,013X10)

Overdispersi pada data banyaknya kematian ibu bersalin di Jawa

Tengah terlihat dari hasil statistik deskriptif yang telah diuji sebelumnya,

yaitu nilai variansi Y lebih besar dari nilai rata-rata Y. Selain itu,

ove-rdispersi juga dapat dilihat dari nilai statistik uji skor. Hasil nilai statistik

uji skor adalah 49,24078. Karena lebih besar dari Z_α/₂ = −1,96 dapat

disimpulkan terjadi overdispersi pada data banyaknya kematian ibu

ber-salin di Jawa Tengah pada tahun 2014. Oleh karena itu, digunakan model

regresi Poisson yang diperumum untuk mengatasi overdispersi. Model

(7)

b

Yi = exp(−25,549 + 0,3348X1+ 0,0199X2−0,0171X3 −

0,0867X4−0,0155X5+ 0,0107X6−0,00226X7+

0,0178X₈+ 0,00000599X₉−0,00898X₁₀).

Berikut merupakan langkah-langkah untuk mengestimasi parameter

β0, β1, β2, . . . , βp dan k pada model regresi model regresi Poisson yang

diperumum.

(a) Menentukan nilai awal dari parameter b _dan k_.

Nilai awal dari parameter

b₌                            β0 β1 β2 β3 β4 β5 β6 β7 β8 β9 β10                            =                           

−29,093

0,335

0,022

0,005

−0,094

−0,007

0,01

0,003

0,022

0,005

0,013                           

dan k _{= 1}_.

(b) Melakukan iterasi parameter β dan k _{hingga konvergen. Parameter}

b _dan k _{konvergen setelah 8 iterasi. Diperoleh} _β₀ ₌₋₂₅_,_549, _β₁ ₌

0,2248, β₂ = 0,0199, β₃ = −0,0171, β₄ = −0,0867, β₅ = −0,015,

β6 = 0,0107, β7 = −0,0022, β8 = 0,0178, β9 = 0,0000599, β10 =

−0.00898 dan k = 0,6028.

8. Kesimpulan

Berikut ini adalah kesimpulan yang diperoleh.

(a) Model regresi Poisson yang diperumum untuk mengatasi overdispersi

pada model regresi Poisson adalah

b

(8)

dengan fungsi densitas dituliskan sebagai

f(y_i;µ;k) = (

µ

1 +kµ

)yi

(1 +ky_i)yi−1 yi!

exp

(

−µ(1 +kyi)

1 +kµ

)

,

dan i= 0,1,2, . . . , n.

(b) Berdasarkan penerapan diperoleh model regresi Poisson yang

diper-umum

b

Yi = exp(−25,549 + 0,3348X1+ 0,0199X2−0,0171X3 −

0,0867X4−0,0155X5+ 0,0107X6−0,00226X7+

0,0178X₈+ 0,00000599X₉−0,00898X₁₀).

Kenaikan banyaknya kematian ibu bersalin dipengaruhi oleh

kenaik-an persentase mendapatkkenaik-an pelaykenaik-ankenaik-an k1, persentase mendapatkkenaik-an

pelayanan k4, persentase penanganan komplikasi kebidanan,

persen-tase banyaknya rumah sakit, dan persenpersen-tase banyaknya puskesmas.

Banyaknya kematian ibu bersalin turun dipengaruhi oleh

persense persalinan dibantu tenaga kepersensehatan, perpersensentapersense mendapatkan

ta-blet Fe1, persentase mendapatkan tata-blet Fe3, serta persentase rumah

tangga berprilaku hidup bersih dan sehat.

DAFTAR PUSTAKA

[1] Cameron, A.C. and P.K. Trivedi,Regression Analysis of Count Data, Cambridge University Press, Cambridge, 1998.

[2] Casella, G. and R. L. Berger, Statistical Inference, Wadsworth Inc., California, 1990.

[3] Gujarati, D.,Ekonometrika Dasar, Erlangga, Jakarta, 1978.

[4] Hinde, J. and C.G.B. Demetrio,Overdispersion: Models and Estimation, Brazilian Symposium of Probability and Statistics (13o _{SINAPE), Caxambu, Minas Gerais,} Brazil, April 2007.

[5] Listiyani, Y., dan Purhadi, Pemodelan Generalized Regresi Poisson pada Faktor -Faktor yang Mempengaruhi Angka Kematian Bayi di Provinsi Jawa Timur Tahun 2007, Jurnal Statistika ITS 2 (2007), 1-7.

[6] Long, J. S., Regression Models for Categorical and Limited Dependent Variables, Sage Publications, California, 1997.

[7] McCullagh, P. and J.A. Nelder,Generalized Linier Models, 2nd _{edition, Chapman} and Hall, London, 1989.