PENANGANAN OVERDISPERSI DENGAN MODEL REGRESI BINOMIAL NEGATIF I PADA STUDI KASUS PENGGOLONGAN RESIKO JUMLAH
KLAIM ASURANSI KENDARAAN DI MALAYSIA
Devni Prima Sari1
ABSTRACT
Poisson regression model is one of the regression models which are often used to analyze discrete data. Poisson regression has the assumption of equi-dispersion, a condition in which the value of the mean and variance of the response variable the same value. In fact, often found in data the variance of response variable greater than of the mean value (overdispersion). So used Negative Binomial I to handling overdispersion. In this paper, the Negative Binomial I regression models will be applied to the data by type of vehicle insurance claims Malaysia's; Third Party Property Damage (TPPD).
Keywords: Poisson regression model, Negative Binomial, overdispersion INTISARI
Model regresi Poisson adalah salah satu model regresi yang sering digunakan untuk menganalisis data diskrit. Metode regresi Poisson mempunyai asumsi
equi-dispersion, yaitu kondisi dimana nilai rataan dan variansi dari variabel
respon bernilai sama. Pada kenyataannya, pada data sering dijumpai variansi dari variabel respon lebih besar nilai rataannya (overdispersi). Untuk mengatasi permasalahan tersebut digunakan model regresi binomial negatif I. Dalam tulisan ini, model regresi binomial negatif I akan diterapkan pada data asuransi kendaraan Malaysia dengan jenis klaim Third Party Property Damage (TPPD).
Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi
PENDAHULUAN
Pengelompokan resiko adalah proses dari pemodelan statistik dengan mengelompokan resiko menurut rating factors dengan karakteristik-karakteristik yang dibentuk ke dalam rating classes. Sebagai contoh, di dalam asuransi motor yang bisa diberlakukan sebagai faktor-faktor penilaian dapat dilihat pada coverage type, vehicle
make, vehicle use and driver’s gender, vehicle year, dan location.
Model regresi Poisson telah banyak digunakan untuk memodelkan penggolongan resiko. Sebagai contoh, McCullagh dan Nelder [1] dalam buku Generalized
Linear Models menggunakan model
regresi Poisson untuk untuk memodelkan jumlah klaim pada peristiwa kerusakan muatan yang dibawa kapal-kapal di dalam asuransi laut. Di dalam asuransi motor, Brockman dan Wright [2] menerapkan model itu pada klaim kerusakan kepemilikan motor di UK, dan Renshaw [3] memakai model tersebut untuk klaim-klaim motor yang disediakan oleh suatu perusahaan asuransi yang terkemuka di dalam UK. Selanjutnya, model regresi Poisson diterapkan oleh Ismail dan Jemain [4] pada himpunan dari klaim
kerusakan kendaraan pribadi yang disediakan oleh satu perusahaan asuransi di Malaysia.
Bagaimanapun, model regresi Poisson adalah suatu metode statistika yang digunakan untuk menganalisis hubungan antara variabel dependen yang dapat dihitung (data cacah/count) dengan satu atau lebih variabel independen, dimana rataan dan variansinya sama. Pada prakteknya seringkali data cacah memperlihatkan variansi yang sangat besar, dimana variansi sampel lebih besar dari rataan sampel (overdispersion). Ketika model Poisson diaplikasikan untuk data overdispersi, efisiensi dari estimasi parameter masih tinggi tetapi estimasi dari standar error-nya akan tidak tepat. Sehingga probabilitas dari interval konfidensi dan tingkat signifikansinya tidak valid dan menghasilkan suatu hasil yang tidak tepat. Oleh karena itu, sasaran dari penelitian ini untuk menggunakan model regresi binomial negatif I sebagai alternatif jika terjadi kasus overdispersi. Selanjutnya, model-model regresi Poisson dan binomial negatif I dicoba, diuji dan dibandingkan pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party
Property Damage (TPPD)
PENDEKATAN PEMECAHAN MASALAH
Model Regresi Poisson
Pada regresi Poisson diasumsikan bahwa variabel dependen yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen . Yi mengikuti distribusi Poisson, fungsi kepadatan peluang adalah,
(1 )
atau .
Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk:
atau dalam bentuk vektor ditulis sebagai
(0) Karena nilai , maka digunakan
fungsi link atau
untuk menghubungkan
dengan fungsi linear , sehingga
menjadi tepat. Dengan demikian, model regresi dapat ditulis dalam bentuk:
(2 ) Untuk memasukkan covariates dan untuk menjamin non-negatif, mean atau fitted value diasumsikan sebagai perkalian, yaitu,
, (3) di mana ei menunjukkan ukuran
paparan (exposure), xi merupakan vektor p x 1 dari variabel penjelas, dan β merupakan vektor p x 1 dari parameter regresi.
Untuk mengestimasi
parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood
(MLE). Langkah pertama yang dilakukan adalah menentukan fungsi
likelihood dari model regresi
Poisson. Selanjutnya dari fungsi
likelihood diambil nilai lognya
sehingga diperoleh fungsi log-likelihood dari persamaan di atas
sebagai berikut:
(4 ) Kemudian persamaan (4) diturunkan terhadap dan disamakan dengan nol, yaitu:
(5 ) Sehingga persamaan (5) sama dengan weighted least square
(WLS), estimasi likelihood
maksimum, , dapat diestimasi dengan menggunakan Iterative Weighted Least Squares (IWLS).
Binomial Negatif I (NB I)
Diasumsi untuk berdisribusi gamma dengan mean
dan varians , dan
menjadi berdisribusi Poisson dengan rataan bersyarat dapat ditunjukkan
bahwa distribusi marjinal mengikuti distribusi binomial negatif dengan fungsi kepadatan peluang,
( 6 )
di mana mean , dan
variansi adalah
.
Parameter berbeda dapat menghasilkan berbagai jenis distribusi Binomial Negatif. Misalnya, dengan mengambil vi = -1, mengikuti sebuah distribusi Binomial Negatif dengan mean E ( )
= dan variansi Var ( ) = (1 +
), di mana menunjukkan
parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (6) menjadi,
( 7 ) Jika sama dengan nol, mean dan variansi akan sama, E( ) = Var( ), akan menjadi distribusi Poisson. Jika > 0, variansi akan melebihi mean, Var( ) > E( ), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai Binomial Negatif I.
Untuk mengestimasi
parameter dan dalam regresi binomial negatif I dapat digunakan metode Maximum Likelihood Estimation (MLE). Jika diasumsikan
bahwa mean atau fitted value adalah
multiplikatif, yaitu,
,
diperoleh fungsi log-likelihood untuk regresi Binomial Negatif I sebagai berikut:
(8)
Oleh karena itu, estimasi kemungkinan maksimum, , dapat diperoleh dengan memaksimalkan terhadap dan . Persamaan terkait adalah,
(9 ) dan,
(10)
Pendekatan yang lebih mudah untuk mengestimasi adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson
Chi-Square Statistic dengan derajat
bebas,
(11) di mana n menunjukkan jumlah
rating classes dan p jumlah
parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari dan estimasi moment dari , .
Dalam tulisan ini, ketika diestimasi dengan MLE, model akan disebut sebagai Binomial Negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai Binomial Negatif I (moment).
Evaluasi Model
Pearson Chi-Square
Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu statistik Pearson Chi- Square
(McCullagh & Nelder, 1989) yang didefinisikan sebagai
(12)
Deviance
Deviance yaitu logaritma dari uji
rasio likelihood-nya (McCullagh & Nelder, 1989). Uji rasio likelihoodnya membandingkan current model-nya dengan saturated model-nya. Deviance dituliskan sebagai berikut:
(13)
di mana dan adalah
model log likelihood yang dievaluasi masing-masing di bawah dan . Untuk model yang memadai, D juga memiliki asimtotik distribusi
chi-squre dengan n - p derajat
kebebasan. Oleh karena itu, jika nilai-nilai untuk kedua Pearson
Chi-Square dan D adalah dekat dengan
derajat kebebasan, model dapat dianggap memadai.
AIC dan BIC
Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa kemungkinan langkah-langkah yang telah diusulkan dalam literatur statistik. Dua yang paling sering digunakan adalah ukuran
Akaike Information Criteria (AIC) dan
Bayesian Schwartz Information
Criteria (BIC). AIC didefinisikan
sebagai
(14) dimana menunjukkan log-likelihood dievaluasi di bawah dan jumlah parameter.
Untuk ukuran ini, semakin kecil AIC, semakin baik model.
BIC didefinisikan sebagai (Schwarz, 1978),
(15) mana menunjukkan log-likelihood dievaluasi di bawah , p jumlah parameter dan n jumlah rating
classes. Untuk ukuran ini, semakin
HASIL DAN PEMBAHASAN Data
Asuransi kendaraan pada umumnya menangani tiga jenis klaim, yaitu kerusakan kendaraan karena kecelakaan/kesalahan sendiri (Own Damage/OD),
terjadinya luka-luka pihak ketiga (Third Party Bodily Injury/TPBI), dan kerusakan properti pihak ketiga
(Third Party Property
Damage/TPPD). Dalam penelitian
ini, akan disajikan aplikasi numerik dari model regresi Poisson pada data TPPD klaim asuransi untuk mobil pribadi dari perusahaan asuransi di Malaysia. Secara khusus, klaim TPPD mencakup kewajiban hukum untuk penggunaan kendaraan bermotor yang
diasuransikan. Data, yang didasarkan pada kebijakan 170.000 mobil pribadi selama tiga tahun, periode 1998-2000, telah disediakan oleh Asosiasi Asuransi Umum Malaysia (PIAM). Pemaparan ini dinyatakan dalam unit mobil per tahun dan terjadi klaim terdiri dari klaim yang sudah dibayar maupun yang outstanding. Tabel 3.1 menunjukkan rating factors dan
rating classes untuk exposure dan
klaim yang dikeluarkan. Dalam hal ini, terdapat 2 × 2 × 3 x 4 x 5 = 240 perkalian rating classes yang diklasifikasikan menurut frekuensi klaim. Data lengkap, yang berisi
exposure, claim counts, rating
factors dan rating classes
ditampilkan pada lampiran.
Tabel 1 Rating factors dan rating classes untuk data Malaysia
Rating Factors Rating Classes
Coverage type Comprehensive
Non-Comprehensive
Vehicle make Local
Foreign
Vehicle use and driver’s gender Private-male
Privat-female Business Vehicle year 0-1 year 2-3 year 4-5 year 6+ year Location Central North East South East Malaysia
Pencocokan hanya melibatkan data sejumlah 108 poin karena terdapat tujuh kelas yang memiliki nilai exposure sama dengan nol dan 125 poin yang memiliki jumlah klaim sama dengan nol. Variabel dalam
penelitian ini terdiri dari variabel respon dan prediktor.
Hasil Analisis Data
Data jumlah klaim dimodelkan dengan menggunakan model regresi Poisson untuk mengetahui
hubungan antar variabel respon dengan rating factors. Selanjutnya, untuk mengetahui pengaruh yang diberikan setiap rating factors
tersebut, dilakukan analisis
Deviance dengan menggunakan
program R. Tabel 2 memberikan hasil analisis deviance model regresi Poisson yang memuat rating factors.
Tabel 2. Analisis deviance model regresi Poisson untuk masing-masing rating
factors
Berdasarkan analisis deviance,
model terbaik adalah model yang semua rating factors signifikan. Selanjutnya untuk mengetahui pengaruh yang diberikan setiap
variabel penjelas dilakukan pengujian parameter. Hasil estimasi parameter untuk masing-masing
rating factors, dapat dilihat pada
tabel 3.
Tabel 3. Estimasi Parameter untuk model regresi Poisson
Nilai p-value untuk parameter
business, non-comprehensive dan non-comprehensive, 2-3year sama
dengan 0.30089, 0.54663 dan 0,35649, nilai ini mengidentifikasikan bahwa estimasi parameter tidak
signifikan. Dengan demikian nilai-nilai parameter yang tidak signifikan tersebut dikombinasikan dengan
intercept. Kemudian dilakukan
estimasi ulang sampai semua nilai signifikan.
Tabel 4. Poisson vs Binomial Negatif I
est std.error p-value est std.error p-value est std.error p-value
a 0,002 0,048 Intercept -2,495 0,032 0,000 -2,512 0,037 0,000 -2,597 0,079 0,000 Foreign -0,093 0,028 0,001 -0,091 0,031 0,004 -0,077 0,061 0,203 Private-female -0,505 0,033 0,000 -0,507 0,035 0,000 -0,514 0,062 0,000 North -0,218 0,031 0,000 -0,204 0,035 0,000 -0,161 0,073 0,027 East -0,424 0,059 0,000 -0,418 0,061 0,000 -0,396 0,094 0,000 East-Malaysia -0,510 0,062 0,000 -0,508 0,064 0,000 -0,498 0,093 0,000 Comprehensive, 2-3 year -0,386 0,037 0,000 -0,380 0,043 0,000 -0,330 0,088 0,000 Comprehensive, 4-5 year -0,633 0,041 0,000 -0,618 0,046 0,000 -0,546 0,091 0,000 Comprehensive, 6+ year -0,788 0,039 0,000 -0,765 0,044 0,000 -0,666 0,088 0,000 Non-comprehensive, 4-5 year -0,903 0,269 0,001 -0,895 0,270 0,001 -0,835 0,294 0,005 Non-comprehensive, 6+ year -1,293 0,069 0,000 -1,283 0,073 0,000 -1,235 0,117 0,000 df 97 96 96 Pearson's X^2 297,78 262,32 97,00 Deviance 149,31 261,75 97,21 Deviance 149,31 261,75 97,21 log L -409,99 -41280,26 -24475,29
Parameter Poisson Binomial Negatif I (MLE) Binomial Negatif I (moment)
Tabel. 4 memperlihatkan perbandingan antara model regresi Poisson dengan model regresi binomial negatif I. Parameter regresi untuk semua model memberikan nilai-nilai yang mendekati. Nilai standar error untuk model regresi binomial negatif I (MLE) dan binomial negatif I (moment) besar dari Poisson. Walaupun nilai standar error untuk binomial negatif I (moment) paling besar, tetapi parameter regresi tidak signifikan. Dalam kasus ini, model terbaik adalah model regresi binomial negatif I (MLE).
KESIMPULAN
Pertama, analisis regresi Poisson adalah analisis regresi dimana variabel dependennya diasumsikan berdistribusi Poisson dan nilai dari variabel dependennya adalah count (cacah) dan non negatif. Sedangkan nilai untuk variabel independennya dapat saja bernilai real, cacah atau kategorik. Asumsi pada regresi Poisson , pada kenyataannya sering ditemukan kasus dimana maka dikatakan terjadi overdispersi, untuk mengetahui adanya overdispersi adalah dengan melihat nilai
deviance yang dibagi dengan derajat
bebasnya atau Pearson Chi-Square yang dibagi dengan derajat bebasnya. Model regresi Binomial Negatif I dapat digunakan untuk
mengatasi permasalahan
overdispersi yang terjadi pada model regresi poison. Kedua, cara menguji model regresi Binomial Negatif I terbaik untuk penggolongan resiko pada jumlah klaim yaitu pengujian signifikansi parameter regresi menggunakan uji normalitas dengan melihat p-value nya. Ketiga, hasil dari beberapa contoh analisis data pada jenis data jumlah klaim Asuransi motor di Malaysia; Third
Party Property Damage (TPPD)
menunjukkan bahwa model regresi Binomial Negatif I (MLE) merupakan model yang paling tepat digunakan untuk data yang bersifat overdispersi dibandingkan dengan model regresi Poisson.
DAFTAR PUSTAKA
[1] McCullagh, P., & Nelder, J. 1989. Generalized Linear
Models (2nd Edition ed.).
London: Chapman and Hall.
[2] Cameron, A. C., & Trivedi, P. K. 1986. Econometric Models
Based on Count Data:
Comparisons and Applications of Some Estimators and Tests.
Journal of Applied Econometrics, 29-53.
[3] Breslow, N. E. 1984. Extra-Poisson Variation in Log-Linear Models. Journal of the Royal
Statistical Society , Blackwell
Publishing for the Royal Statistical Society.
[4] Ismail N & AA. Jemain. 2007. Handling Overdispersion with Negative Binomial and
Generalized Poisson
Regression Models. Casualty
Actuarial Society Forum,
LAMPIRAN Program R
a. Model Regresi Poisson Poisson<- function(data7) { x=as.matrix(data7[,-(11:12)]) X=cbind(1,x) count=as.vector(data7[,12]) x=0 exposure=as.vector(data7[,11]) new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(count)) { beta=new.beta miul=exposure*exp(as.vector (X%*%beta)) W=diag(miul) I.inverse=solve(t(X)%*%W%* %X) k=(count-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.in verse%*%z) new.miul=exposure*exp(as.v ector(X%*%new.beta)) loglikelihood=sum((count*log (new.miul))-new.miul-lfactorial(count)) Deviance=sum(count*log(cou nt/miul)-(count-miul)) pearson=sum((count-miul)^2/new.miul) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2] n=dim(X)[1] p=dim(X)[2] AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n) coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval=2*pnorm(-abs(tstat)) cat("===================== ======================== ==","\n") frame=data.frame(beta=c("interc ept","Foreign","Private_female"," North","East","East_Malaysia","c omp_2_3year","comp_4_5year", "comp_6year","noncomp_4_5ye ar","noncomp_6year"),nilai_beta =new.beta,standar.error=std.err or,varians=round(varians,3),pval =round(pval,5))
cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("===================== ======================== ==","\n") cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } Poisson(data7)