1
BINOMIAL NEGATIF VS GENERALIZED POISSON REGRESSION
DALAM MENGATASI OVERDISPERSION PADA REGRESI
POISSON
Oleh : A’yunin SofroJurusan Matematika FMIPA Universitas Negeri Surabaya ayunin_sofro@yahoo.co.uk
Abstrak
.
Kasus overdispersion pada regresi poisson mengakibatkan estimasi parameter yang dihasilkan menjadi kurang tepat. Beberapa pendekatan yang telah dilakukan antara lain dengan binomial negatif dan generalized Poisson regression (GPR). Hasil penelitian menunjukkan bahwa dengan pendekatan binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada GPR. Hal ini ditandai dengan nilai dari kriteria AIC yang diperoleh sebagai goodness of fit dari model GPR lebih kecil daripada dengan Binomial Negatif.Kata kunci: AIC, Binomial Negatif, Generalized Poisson Regression, Overdispersion, Regresi Poisson
1. Pendahuluan
Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variable respon adalah sama. Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (overdispersion), misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson akan mengakibatkan estimasi parameter yang dihasilkan kurang tepat karena kemungkinan adanya overdispersion. Menurut Ismail dan Jemain (2007) perlu dilakukan pendekatan yang lain, salah satunya dengan menggunakan pendekatan binomial negatif dan Generalized Poisson Regression (GPR).
Beberapa peneliti yang mengembangkan kasus ini adalah Gardner dan Ester (1995) di bidang psikologi dan kriminilitas, Lee, dkk (2003) di bidang biomedical untuk mengetahui peluang penyakit yang belum diketahui berdasarkan karakter indek stroke pada pasien. Famoye, Wulu dan Singh (2004) meneliti data kecelakaan, Ismail dan Jemain (2005) di bidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia dan Lu dan Zeger (2007) di bidang epidemiologi lingkungan yang mengetahui peluang dari polusi udara yang terjadi setiap hari dan Ismail dan Jemain (2007) dibidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia. Pada penelitian Sofro (2008) dinyatakan bahwa GPR mampu menurunkan nilai deviasi dari regresi Poisson sehingga dapat disimpulkan bahwa GPR memberikan hasil yang lebih baik dari regresi Poisson. Sedangkan pendekatan binomial negatif juga memberikan hasil yang lebih baik dari regresi Poisson dengan menurunnya nilai deviasi dan AIC yang diperoleh (Sofro, 2009). Dari uraian diatas, maka tujuan penelitian adalah mengkaji model binomial negatif dan GPR untuk mengatasi adanya overdispersion pada Regresi Poisson.
Seminar Nasional Statistika IX
2
2. Tinjauan Pustaka2.1 Model Binomial Negatif
Misal
Y
i adalah variabel random untuk distribusi binomial negatif. Fungsi kepadatan peluang adalah i i i i i v i i i i i i i i iv
v
v
v
y
v
y
y
Y
P
)
(
)
1
(
)
(
)
(
(1)dimana meannya adalah
E
Y
ix
i
i dan variannya adalahVar
Y
ix
i
i2
iv
i1.Jika
v
i
dan parameter penyebaran
sama dengan nol, maka fungsi kepadatan peluang ditunjukkan pada (3) akan menurun menjadi model regresi Poisson sehingga mean sama dengan varian
Y
i i
E x
Var x
Y
i i . Jika
> 0, makaE x
Y
i i <Var x
Y
i i , menunjukkan model data diskret yang overdispersion.Fungsi likelihoodnya dari GPR adalah sebagai berikut.
n i iy
P
L
1)
,
;
(
)
,
(
β
β
dan persamaan log likelihood adalah
,
log(
1
)
log(
)
log(
!
)
log(
)
(
1)
log(
1
)
1 1 i i i i i i y r i
y
y
y
y
r
LnL
i
β
(2)Taksiran MLE untuk parameter model binomial negatif dinyatakan dengan
βˆ
dan diperoleh dari solusi dari turunan pertama fungsi log likelihoodnya, yaitu :
j
k
L
k
j,
,
2
,
1
,
,
ln
)
;
(
β
β
Untuk mendapatkan taksiran
βˆ
selain menggunakan metode maksimum likelihood dapat menggunakan prosedur Itertatively Rewighted Least Square (IRLS).Dan taksiran parameter dispersion
diperoleh dengan turunan pertama dan kedua dari fungsi log likelihood, diperoleh :
)
ln
,
;
(
β
L
β
h
(3)
2 2ln
,
)
;
(
β
β
L
m
(4)Untuk mendapatkan taksiran parameter
, maka persamaan (3) dan (4) diatas diselesaikan secara simultan secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).2.2 Ukuran Goodness of Fit Model Binomial Negatif
Akaike Information Criterion (AIC)
Akaike memperkenalkan kriteria informasi yang mempertimbangkan banyaknya parameter. Untuk menghitung nilai AIC digunakan definisi sebagai berikut :
3
AIC = -
p
dimana
adalah hasil dari log likelihood dari
p adalah banyaknya parametersemakin kecil nilai AIC nya maka model semakin baik.
2.3 Model GPR
Misal
Y
i adalah variabel random. Fungsi kepadatan peluang adalah
,
1
,
0
,
1
1
exp
!
1
1
)
Pr(
1
i i i i i y i y i i i iy
y
y
y
y
Y
i i
(6)dimana meannya adalah
E
Y
ix
i
i dan variannya adalahVar
Y
ix
i
i
1
i
2.Ketika parameter penyebaran
sama dengan nol, maka fungsi kepadatan peluang ditunjukkan pada (2.4) akan menjadi model regresi Poisson sehingga mean sama dengan varianE
Y
ix
i
Var x
Y
i i . Jika
> 0, makaE
Y
ix
i <Var x
Y
i i , menunjukkan model data diskrit yang overdispersion. Jika
< 0,
Y
i iE
x
>Var x
Y
i i menunjukkan model data diskrit yang underdispersion. Kategori yang digunakan untuk mendeteksi keberadaan overdispersion atau underdispersion adalah nilai devians dan pearson chi square yang dibagi dengan derajad bebas. Nilai atau hasil bagi yang lebih besar dari satu mengindikasikan adanya overdispersion, sedangkan nilai atau hasil bagi yang lebih kecil dari satu mengindikasikan adanya underdispersion (Cameron dan Trivedi, 1998).Fungsi likelihoodnya dari GPR adalah sebagai berikut.
n i iy
P
L
1)
,
;
(
)
,
(
β
β
dan persamaan log likelihood adalah
(
!
)
1
1
1
1
1
,
i i i i i i i i i iLn
y
y
y
Ln
y
Ln
y
LnL
β
(7) Taksiran MLE untuk parameter model GPR dinyatakan denganβˆ
dan diperoleh dari solusi dari turunan pertama fungsi log likelihoodnya, yaitu :
j
k
L
k
j,
,
2
,
1
,
,
ln
)
;
(
β
β
Untuk mendapatkan taksiran
βˆ
selain menggunakan metode maksimum likelihood dapat menggunakan prosedur Itertatively Rewighted Least Square (IRLS).4
Dan taksiran parameter dispersion
diperoleh dengan turunan pertama dan kedua dari fungsi log likelihood, diperoleh :
)
ln
,
;
(
β
L
β
h
(8)Untuk mendapatkan taksiran parameter
, maka persamaan (8) diatas diselesaikan secara simultan secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).2.3 Goodness-of-fit Dari GPR
Ada beberapa ukuran goodness of fit pada model GPR, salah satunya yang biasa digunakan adalah Akaike information criterion (AIC) yang didefinisikan sebagai berikut.
AIC = -
p
dengan
adalah hasil dari log likelihood dari model yang diestimasi p adalah banyaknya parameter yang diestimasisemakin kecil nilai AIC nya maka model semakin baik.
3. Metodologi Penelitian
Data yang digunakan adalah data sekunder yang berasal dari PT Asuransi Tripakarta khusus untuk jenis asuransi kendaraan bermotor. Data yang akan diambil adalah data tentang klaim tipe resiko sendiri periode 2007. Berdasarkan form yang ada pada PT Asuransi Tripakarta maka variabel penelitian yang diteliti terdiri dari variabel prediktor (X) dan variabel responnya (Y), yang didefinisikan sebagai berikut : Y = Banyaknya pengajuan klaim pertahun
X1 = Negara pembuat kendaraan, didefinisikan sebagai asal negara pembuat kendaraan dengan kategori: 1 = Jepang, 3= Jerman, 5= Prancis 2 = Korea, 4= Italia, 6= Amerika X2 = Gender Use, didefinisikan sebagai pengguna dari kendaraan bermotor
yang diasuransikan dengan kategori: 1 = pengguna pribadi 2 = pengguna bisnis
X3 = Umur kendaraan, didefinisikan sebagai tahun mulai pembuatan kendaraan sampai dengan tahun pengajuan asuransi kendaraan
Langkah-langkah penelitiannya adalah terlebih dahulu memodelkan dengan model binomial negatif dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel kemudian dimodelkan dengan menggunakan GPR. Nilai deviasi yang dihasilkan oleh Binomial negatif akan dibandingkan dengan nilai deviasi dan AIC yang dihasilkan oleh GPR.
4. Analisis Data Dan Pembahasan
4.1 Pemodelkan Data Dengan Model Binomial Negatif
Berdasarkan pada penelitian Sofro (2009) yang menyatakan bahwa data klaim resiko sendiri mengalami kasus overdispersion jika menggunakan regresi Poisson. Sehingga langkah pertama untuk mengatasinya data klaim resiko sendiri dimodelkan dengan menggunakan model binomial negatif
5
dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variable. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model binomial negatif sebagai berikut.
Tabel 1. Hasil Taksiran Parameter Dengan Binomial Negatif
Parameter Estimasi SE P value
X0 -0,9639 0,3082 0,0018 X1 0,3481 0,2584 0,1779 X2 1,2543 0,2708 <,0001 X3 0,3613 0,1004 0,0003
Pada Tabel 1 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter secara berurutan untuk
X
0,
X
2,
X
3 adalah 0,0018; 0,0001 dan 0,0003 yang lebih kecil dari = 0,05. Sedangkan untukX
1tidak signifikan dengan nilai p_value bernilai sebesar 0,1779 yang lebih besar dari = 0,05.4.2 Pemodelan Data Dengan Model GPR
Langkah berikutnya adalah data klaim resiko sendiri dimodelkan dengan menggunakan model GPR dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model GPR sebagai berikut.
Tabel 3. Hasil Taksiran Parameter dengan GPR
Parameter Estimasi SE P value
X0 -1,1932 0,3670 0,0012 X1 0,3143 0,2584 0,2602 X2 1,5058 0,4401 0,0007 X3 0,4609 0,1502 0,0023
1,6876 0,1630 <,0001Pada Tabel 3 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh
nilai p-value masing-masing parameter secara berurutan untuk
X
0,
X
2,
X
3 adalah 0,0012; 0,0007 dan 0,0023 yang lebih kecil dari = 0,05. Sedangkan untukX
1tidak signifikan dengan nilai p_value bernilai sebesar 0,2602 yang lebih besar dari = 0,05. Berdasarkan Tabel 1 dan Tabel 2 dapat diketahui bahwa parameter yang signifikan yang diperoleh sama dan hasil estimasinya tidak jauh berbeda. Begitu juga dengan parameter yang tidak signifikanX
1, hasil yang diperoleh baik dengan binomil negatif maupun dengan GPR memberikan hasil yang sama.6
4.3 Perbandingan Model Binomial Negatif terhadap Regresi Poisson
Langkah terakhir adalah membandingkan model Binomial Negatif dengan GPR. Dengan menggunakan program SAS 9.1 prosedur GENMOD akan diperoleh kriteria goodness of fit dari model binomial negatif dan regresi Poisson. Hasil dapat dilihat pada Tabel 3
Tabel 3. Kriteria Kebaikan Model dari Binomial Negatif dan GPR Kriteria Binomial
Negatif GPR
AIC 3402,8 1497,5
Pada penelitian ini kriteria pembanding yang digunakan adalah kriteria AIC, dimana semakin kecil nilai AIC maka semakin baik model tersebut. Dari Tabel 3, pemodelan dengan menghasilkan nilai AIC lebih kecil dari pada nilai AIC pada binomial negatif , yaitu secara berurutan 3402,8 dan 1497,5. Model yang baik memiliki nilai AIC yang lebih kecil. Berdasarkan kriteria tersebut dapat disimpulkan bahwa pemodelan dengan model GPR pada data Resiko Sendiri di PT Asuransi Tripakarta kantor cabang Surabaya Diponegoro memberikan hasil yang lebih baik daripada dengan menggunakan pemodelan regresi Poisson.
5. Kesimpulan
Pendekatan model GPR maupun model binomial negatif memberikan hasil taksiran parameter signifikan yang sama dan nilai yang diperoleh tidak jauh berbeda. Tetapi dengan menggunakan model GPR pada data klaim resiko sendiri memberikan hasil lebih baik daripada binomial negatif dengan menurunnya nilai AIC yang diperoleh.
6. Daftar Pustaka
Brockman, M. J., and Wright, T. S. (1992), Statistical Motor Rating: Making Effective Use of Your Data, Journal of the Institute of Actuaries, 119: 3, p. 457-543.
Cameron, A.C., and Trivedi, P.K. (1998), Regression Analysis Of Count Data, Cambridge University Press, Cambridge.
Famoye, F., Wulu, T., Singh K.P. (2004), On The Generalized Poisson Regression Model With An Application To Accident Data, Journal Of Data Science, 2, p. 287 – 295.
Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404.
Ismail, N., and Jemain, A. A. (2005), Generalized Poisson Regression : An Alternative For Risk Classification, Jurnal Teknologi Malaysia, Universiti Teknologi Malaysia, Kuala Lumpur, p. 39-54. ________________________. (2007), Handling Overdispersionwith Negative Binomial and
Generalized Poisson Regression Model, Casualty Actuarial Society Forum, Malaysia.
Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.
McCullagh, P., and Nelder, J. A. (1989), Generalized Linear Models. 2nd Edition. Chapman and Hall, London.
Renshaw, A. E. (1994), Modeling the Claims Process in the Presence of Covariates, ASTIN Bulletin. 24: 2, p.265-285.
Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404. Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed
Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.
7
Lu, Y., Zeger S.L. (2007), On The Equivalence Of Case-Crossover And Time Series MethResiko Sendiris In Environmental Epidemiology, Biostatistics, 8:2, p.337-344.