• Tidak ada hasil yang ditemukan

Prosiding Seminar Nasional Statistika ke-9 (SNS IX) ISBN NEGATIVE BINOMIAL REGRESSION FOR MODELLING OVERDISPERSED COUNT DATA

N/A
N/A
Protected

Academic year: 2021

Membagikan "Prosiding Seminar Nasional Statistika ke-9 (SNS IX) ISBN NEGATIVE BINOMIAL REGRESSION FOR MODELLING OVERDISPERSED COUNT DATA"

Copied!
6
0
0

Teks penuh

(1)

1

NEGATIVE BINOMIAL REGRESSION FOR MODELLING OVERDISPERSED COUNT DATA

Erni Tri Astuti1, I Nyoman Budiantara2, Sony Sunaryo2, M.Dokhi3 1

Mahasiswa S-3 pada Jurusan Statistika, FMIPA, ITS, e-mail: [email protected] 2

Staf Pengajar pada Jurusan Statistika, FMIPA, ITS 3Staf Pengajar pada Sekolah Tinggi Ilmu Statisik, Jakarta

ABSTRACT

Poisson Regression (PR) is a commonly used methods for modeling relationship between some covariates with dependent variables in form of counts. But PR has assumed Equi-Dispersion for the dependent variables. In real-life situations count data often have variance which exceeds the mean or greater than predicted by a simple Poisson model which assumes Equi-Dispersion. This phenomenon known as overdispersion and become a most concern in analyzing count data. Failure to properly address existing overdispersion leads to serious underestimation of standard estimation and misleading inference for regression parameters . There are many parametric model developed for allowing this overdispersion problem, these include regression models based on mixtures of Poisson’s. Most commonly used are Negative Binomial Regression (NBR) because of its simplicity and optimum properties of its parameter estimates. In this paper we studied about the methods and the application to real data sets.

Key Words: Equi-Dispersion, overdispersion, Poisson Regression, Negative Binomial Regression

I Pendahuluan

Regresi Poisson (PR) merupakan model yang umum digunakan jika kita ingin menganalisis hubungan antara suatu peubah respons yang berupa jumlah (counts) dengan satu atau beberapa peubah penjelas. Akan tetapi ada salah satu sifat dalam sebaran Poisson yang dirasakan sangat mengganggu dan sulit dipenuhi oleh data observasi yaitu kesamaan antara nilai rataan dan variansnya (Equi-Dispersion), E(Y)=V(Y). Seringkali data observasi di lapangan menunjukkan hal yang bertentangan dengan kondisi Equi Dispersion. Dengan kata lain data observasi menunjukaan nilai varians yang lebih besar atau lebih kecil dari nilai rataannya. Fenomena seperti ini dikenal luas dengan istilah over atau under dispersi. Salah satu indikator yang dapat menunjukkan adanya over atau under dispersi adalah dengan melihat rasio dari nilai varians sampel dengan rata-ratanya (Famoye, et al, 2004). Jika rasio menunjukkan angka lebih dari 1 hal tersebut mengindikasikan adanya overdispersi, sebaliknya jika kurang dari 1 menunjukkan adanya underdispersi.

Mc Cullagh & Nelder (1983) menyatakan bahwa fenomena under-over dispersi ini dapat muncul secara alamiah antara lain dikarenakan adanya efek random (random effect) dari setiap observasinya atau disebut juga inter subject variability. Selain itu juga karena adanya kecenderungan pengelompokan dalam observasi, dimana observasi-observasi yang berada pada kelompok (cluster) yang sama akan cenderung saling berkorelasi (intra class correlation).

Data pada tabel 1 berikut (Bailer & Oris, 1993),merupakan contoh dari situasi dimana asumsi Equi-Dispersion dari sebaran Poisson mungkin tidak terpenuhi. Data pada tabel merupakan hasil studi mengenai pengaruh kadar nitrogen herbisida (herbicide nitrofen) dalam air terhadap tingkat reproduksi

(2)

2

suatu organisme air (Ceriodaphnia Dubia). Jumlah keturunan (offspring counts) dari sampel C. Dubia perempuan digunakan sebagai ukuran tingkat reproduksi.

Tabel 1: Jumlah Keturunan (Offsping Counts) dari C. Dubia berdasarkan Kadar (Dose) dari Nitrogen yang diberikan

Dose (μg/liter)

Number of offspring Mean Variance

Control 27 34 32 33 34 30 33 24 36 31 31.4 12.93 80 33 26 33 27 35 31 33 32 36 29 31.5 10.72 160 29 31 29 30 23 26 27 29 30 29 28.3 5.57 235 23 16 21 13 7 15 12 21 27 17 17.2 34.84 310 6 5 6 6 7 4 0 6 15 5 6.0 13.78

Dari tabel 1 di atas, terlihat bahwa terdapat hubungan yang negatif antara tingkat reproduksi dengan kadar Nitrogen dalam air. Yang perlu dicermati adalah terlihat adanya perbedaan yang sangat nyata antara nilai rata-rata dan variansnya. Pada 3 kelompok pertama rasio antara varians dengan rataannya kurang dari 1, yang mengindikasikan adanya under dispersi. Sementara itu pada 2 kelompok terakhir terlihat secara jelas indikasi adanya over dispersi. Tentu saja signifikansi dari adanya under-over dispersi ini dapat diuji lebih lanjut dengan uji-uji statistik yang antara lain dikembangkan oleh Dean, 1992; Wang & Famoye, 1997 serta Yang et al, 2009

Penggunaan model yang baku seperti Poisson Regression (PR) pada data yang mengalami (khususnya) over dispersi akan membawa konsekuensi pada nilai penduga bagi kesalahan baku yang lebih kecil (underestimate) yang selanjutnya dapat mengakibatkan kesalahan (misleading) pada inferensia bagi parameter modelnya (Astuti & Yanagawa, 2002). Telah banyak dikembangkan model regresi untuk mengatasi masalah over dispersi ini, dengan pendekatan yang berbeda-beda. Apabila dirasakan adanya inter subject variability , salah satu pendekatan klasik dengan menganggap rataan dari sebaran Poisson merupakan suatu peubah laten yang memiliki sebaran peluang tertentu. Lawess (1987) memperkenalkan suatu prosedur berhirarki dengan mengasumsikan data jumlah pada nilai rataan tertentu mengikuti sebaran Poisson, sementara nilai rataanya sendiri terdistribusi Gamma ( Poisson-Gamma Mixture distribution). Prosedur berhirarki ini pada akhirnya merupakan bentuk lain dari Sebaran Binomial Negatif (Negative Binomial / NB Distribution). Pada sebaran Binomial Negatif ini, nilai harapan atau rataannya sama dengan nilai rataan pada sebaran Poisson, sementara pada komponen variansnya terdapat suatu parameter dispersi yang memungkinkan nilai variansnya berlebih dibandingkan nilai varians dari sebaran Poisson. Masih banyak lagi model sebaran yang ditawarkan dengan pendekatan seperti ini, misalnya model Poisson-Invers Gaussion (PIG) atau Poisson Log Normal (PLN) seperti diuraikan dalam Boucher & Dunoit, 2005. Selain itu juga terdapat sebaran Poisson Tergeneralisir (Generalized Poisson) Poisson) yang pertama kali diperkenalkan oleh Consul & Jain (1973). Joe & Zhu (2005) juga menunjukkan bahwa sebaran GP merupakan salah satu bentuk sebaran Mixture Poisson Akan tetapi NB lebih sering digunakan dengan alasan lebih sederhana dalam permodelannya sementara iu dalam pengepasan (fitting) data tidak menunjukkan perbedaan yang berarti dinandingkan sebaran mixture Poisson lainnya (Famoye et al, 2004 dan Joe & Zhu, 2005).

(3)

3

Tulisan ini kemudian akan menyajikan secara berturut-turut, pengenalan tentang model regresi Biomial Negatif, serta penurunan fungsi likelihood serta statistic ujinya, kemudian mengaplikasikan model ini pada beberapa set data yang diduga mengalami overdispersi.

II. Model Regresi Binomial Negatif

Seperti sudah diuraikan sebelumnya, bahwa salah satu cara untuk mengatasi masalah overdispersi yang disebabkan oleh inter subject variability adalah dengan menganggap rataan dari sebaran Poisson merupakan peubah acak dengan sebaran peluang tertentu. Lawless (1987) memperkenalkan suatu prosedur berhirarki dengan mengasumsikan data jumlah pada nilai rataan tertentu mengikuti sebaran Poisson, sementara nilai rataanya sendiri terdistribusi Gamma ( Poisson-Gamma Mixture distribution). Prosedur berhirarki ini pada akhirnya akan membawa sebaran marginal dari variabel respons merupakan bentuk lain dari Sebaran Binomial Negatif (Negative Binomial / NB Distribution).

Misalkan

Y|z ( )

( ⁄ )

Dengan ( ) ( ) ( ) ( )

Karena ( ) ( | ) ( ), maka sebaran marginal dari Y didapat dari ( ) ∫ ( )  , 2 , 1 , 0 ; ) 1 ( 1 1 ) / 1 ( ! ) / 1 ( ) , ; ( 1/              y y y y f y







(

1

)

Bentuk di atas merupakan bentuk lain dari fungsi kepekatan peluang dari Sebaran Binomial Negatif. Seperti telah diketahui peubah acak pada sebaran binomial negatif menyatakan jumlah gagal sampai diperoleh sukses yang ke k, dan kita terbiasa untuk menuliskan fungsi kepekatan Binomial Negatif sebagai:   , 1 , 0 , 1 0 , 2 , 1 , 0 ; ) 1 ( ) ( ! ) ( ) , ; (          k p y p p k y k y p k y f y k

)

2

(

Maka dengan reparameterisasi dan diperoleh bentuk yang similar dengan persamaan (1) di atas. Nilai harapan dan varians dari Y dicari dengan menggunakan Conditional Expectation

( ) ( ( | )) ( ) ( ) ( )

( ) ( ( | )) ( ( | )) ( ) Jika dibandingkan dengan nilai harapan dan varians dari sebaran Poisson, maka dapat dianggap sebagai parameter overdispersi. Jika , maka nilai harapan dan variansnya akan similar dengan sebaran poisson. Sehingga dapat dikatakan sebaran Binomial negatif ini akan lebih robust terhadap kasus overdispersi.

Fungsi likelihood dari n sampel acak yang saling bebas dari sebaran Binomial Negatif adalah:

              n i i y i i i i i i n i i i y y y f L 1 / 1 1 (1 ) 1 1 ) / 1 ( ! ) / 1 ( ) , ; ( ) ; (







(4)

4

Dalam model regresi, nilai harapan dari Y (μi) diasumsikan bergantung pada vector kovariat melalui fungsi ∑ . Jika untuk sembarang c>0,

(

1

)

(

1

)

)

(

)

(

y

c

c

c

c

c

y

i

jika y adalah bilangan bulat ≥1, fungsi likelihood di atas proporsional dengan bentuk fungsi log-likelihood berikut:

 

 

n i i i i y j i

y

y

j

i 1 1

)

1

log(

)

/

1

(

log

)

1

log(

)

;

(

*



β

(

5

)

Dimana -1 dan ∑ saat Turunan pertama dan kedua dari adalah;

p

r

x

y

ir n i i i i r

,

,

1

,

1

)

(

1



(6)

 

  









n i y j i i i i i

y

j

j

1 0 2 "

1

)

/

1

(

)

1

log(

1





(7)

p

s

r

x

x

y

is ir n i i i i s r

,

,

1

,

,

)

1

(

)

1

(

1 2 2



(8)

p

r

x

y

ir n i i i i i r

,

,

1

,

)

1

(

)

(

1 2 2



(9)

 

   









n i y j i i i i i i i

y

j

j

1 0 2 2 2 3 2 2 2 "

)

1

(

)

/

1

(

1

2

)

1

log(

2

1







(10) Nilai harapan dari minus turunan kedua di atas akan membentuk matriks informasi Fisher ( ) yang elemennya adalah;

p

s

r

x

x

n i i is ir i s r

,

,

1

,

,

1

)

,

(

1 ,



β

I

(11)

p

r

p r, 1

(

β

,

)

0

,

1

,

,

I

(12)

 

       





n i y j i i p p

E

j

i

i 1 1 1 2 1 4 1 , 1

(

,

)

(

)

(

,

)

"



β

β

I

(13)

(5)

5

Ekspresi dari Ip1,p1(β,

)paling mudah ditentukan dengan menuliskannya kembali l dalam vector

parameter β dan , menghitung 2

2

k

kemudian dengan sifat

E

(



2

/

2

)

4

E

(



2

/

k

2

)

, suku ke i dari Ip1,p1(β,

)dapat dituliskan sebagai:





      0 1 2 1 4

)

Pr(

)

(

j i i i

j

Y

j



(14)

Cara paling mudah untuk memperoleh penduga bagi vector parameter model (βˆ,

ˆ) adalah dengan memaksimumkan

l

(

β

,

)

terhadap

β

untuk beberapa nilai

yang ditentukan. Hal ini dapat diselesaikan dengan metoda numerik diantaranya dengan Newton Raphson atau Scoring Algorithm (Lawless, 1987). Dengan menganggap nilai parameter dispersi dan beberapa asumsi lainnya dari vector covariate

xiguna menjamin ( ) akan menuju limit nilai positif tertentu jika ,maka untuk nilai n

yang besar √ ( ̂ ̂ ) akan terdistribusi normal dengan rataan 0 dan matriks kovarians

 1 1 1 1

)

ˆ

,

ˆ

(

i

)

ˆ

,

ˆ

(

)

ˆ

,

ˆ

(

β

0

0

β

I

β

I

n

n

(15) Dengan dasar ini maka kita dapat membentuk Score test ataupun Wald test untuk pengujian signifikansi parameter model regresi di atas ataupun mendapatkan penduga selangnya. Jika n tidak terlalu besar, maka dapat digunakan Likelihood Ratio test dengan sebaran pendekatan Chi Square. Untuk mengetahui sifat-sifat dari penduga yang diperoleh secara lebih rinci, serta pembentukan statisti uji, pembaca dapat merefer pada Lawless, 1987.

III. Contoh Aplikasi Data

Sebagai contoh aplikasi model pada data yang sebenarnya, dilakukan uji terhadap data contoh pada halaman kedua model regresi . Perbandingan pada kedua model akan dilihat dari goodness f fit test, nilai penduga parameter dan signifikansinya dalam pengujian. Dari data pada halaman 2 terlihat adanya overdispersi yang nyata. Kemudian terlihat pula adanya hubungan yang sifatnya negatif dari dosis nitrogen yang diberikan terhadap tingkat reproduksi. Adapun hasil perbandingan antara model Poisson dan Binomial Negatif dapat dilihat pada tabel 2 berikut.

Tabel 2. Perbandingan Nilai penduga Parameter dan Goodness Of Fit

Model ̂ Se(̂) Sig Log L AIC/BIC

Poisson -0.004 0.0030 0.00 -182.096 368.448/372.017

Negative Binomial -0.050 0.0015 0.02 -202.540 409.335/414.904

(6)

6

Dari tabel 1 terlihat bahwa secaraumum kadar nitrogen dalam air berpengaruh negatif terhadap tingkat reproduksi dari C. Dubia, dimana makin tinggi kadar nitrogen makin sedikit jumlah anak/keturuan yang dimiliki. Dari perbandingan nilai signifikansi dari, pada model Poisson diperoleh nilai signifikansi yang lebih kecil. Hal sejalan dengan hasil dari Astuti TA & Yanagawa (2002), yaitu bila model poisson diterapkan pada data yang mengalami overdispersi akan mengakibatkan meningkatnya proporsi kesalahan jenis I empiris dibandingkan dengan nilai yang telah ditetapkan, atau dapat diartikan lebih cenderung untuk menolak Ho.

Referensi:

Astuti, E.T & Yanagawa, T. (2002).Testing Trend for Count Data wit Extra-Poisson Variability. Biometrics, 58, 398-402

Bailer, A.J & Oris, J.T. (1993). Modeling Reproductive Toxicity in Ceriodaphnia tests. Environmental Toxicology and Chemistry, 12, 787-791

Mc. Cullagh & Nelder FRS. (1989). Generalized Linear Models, 2nd ed, , Chapman & Hall, London

Dean, C.B, (1992). Testing for Overdispersion in Poisson and Binomial Regression Models. Journal of the American Statistical Association, 87, 451-457

Joe, H. & Zhu, R.(2005). Generalized Poisson Distribution: the Property of mixture of Poisson and Comparison with Negative Binomial Distribution. Biometrical Journal, 47,219-229.

Lawless, J.F (1987). Negative Binomial and Mixed Poisson Regression. The Canadian Journal of Statistics, 15, 209-225

Yang,Z., Hardin, J.W & Addy, C.L (2009).A Score test for Overdispersion in Poisson Regression based on the Generalized Poisson-2 Model. Journal of Statistical Planning and Inference, 139, 1514-1521.

Gambar

Tabel 2. Perbandingan Nilai penduga Parameter dan Goodness Of Fit

Referensi

Dokumen terkait