JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 6 NO. 1 Maret 2013

(1)

PENANGANAN OVERDISPERSI DENGAN MODEL REGRESI BINOMIAL NEGATIF I PADA STUDI KASUS PENGGOLONGAN RESIKO JUMLAH

KLAIM ASURANSI KENDARAAN DI MALAYSIA

Devni Prima Sari1

ABSTRACT

Poisson regression model is one of the regression models which are often used to analyze discrete data. Poisson regression has the assumption of equi-dispersion, a condition in which the value of the mean and variance of the response variable the same value. In fact, often found in data the variance of response variable greater than of the mean value (overdispersion). So used Negative Binomial I to handling overdispersion. In this paper, the Negative Binomial I regression models will be applied to the data by type of vehicle insurance claims Malaysia's; Third Party Property Damage (TPPD).

Keywords: Poisson regression model, Negative Binomial, overdispersion INTISARI

Model regresi Poisson adalah salah satu model regresi yang sering digunakan untuk menganalisis data diskrit. Metode regresi Poisson mempunyai asumsi

equi-dispersion, yaitu kondisi dimana nilai rataan dan variansi dari variabel

respon bernilai sama. Pada kenyataannya, pada data sering dijumpai variansi dari variabel respon lebih besar nilai rataannya (overdispersi). Untuk mengatasi permasalahan tersebut digunakan model regresi binomial negatif I. Dalam tulisan ini, model regresi binomial negatif I akan diterapkan pada data asuransi kendaraan Malaysia dengan jenis klaim Third Party Property Damage (TPPD).

Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi

(2)

PENDAHULUAN

Pengelompokan resiko adalah proses dari pemodelan statistik dengan mengelompokan resiko menurut rating factors dengan karakteristik-karakteristik yang dibentuk ke dalam rating classes. Sebagai contoh, di dalam asuransi motor yang bisa diberlakukan sebagai faktor-faktor penilaian dapat dilihat pada coverage type, vehicle

make, vehicle use and driver’s gender, vehicle year, dan location.

Model regresi Poisson telah banyak digunakan untuk memodelkan penggolongan resiko. Sebagai contoh, McCullagh dan Nelder [1] dalam buku Generalized

Linear Models menggunakan model

regresi Poisson untuk untuk memodelkan jumlah klaim pada peristiwa kerusakan muatan yang dibawa kapal-kapal di dalam asuransi laut. Di dalam asuransi motor, Brockman dan Wright [2] menerapkan model itu pada klaim kerusakan kepemilikan motor di UK, dan Renshaw [3] memakai model tersebut untuk klaim-klaim motor yang disediakan oleh suatu perusahaan asuransi yang terkemuka di dalam UK. Selanjutnya, model regresi Poisson diterapkan oleh Ismail dan Jemain [4] pada himpunan dari klaim

kerusakan kendaraan pribadi yang disediakan oleh satu perusahaan asuransi di Malaysia.

Bagaimanapun, model regresi Poisson adalah suatu metode statistika yang digunakan untuk menganalisis hubungan antara variabel dependen yang dapat dihitung (data cacah/count) dengan satu atau lebih variabel independen, dimana rataan dan variansinya sama. Pada prakteknya seringkali data cacah memperlihatkan variansi yang sangat besar, dimana variansi sampel lebih besar dari rataan sampel (overdispersion). Ketika model Poisson diaplikasikan untuk data overdispersi, efisiensi dari estimasi parameter masih tinggi tetapi estimasi dari standar error-nya akan tidak tepat. Sehingga probabilitas dari interval konfidensi dan tingkat signifikansinya tidak valid dan menghasilkan suatu hasil yang tidak tepat. Oleh karena itu, sasaran dari penelitian ini untuk menggunakan model regresi binomial negatif I sebagai alternatif jika terjadi kasus overdispersi. Selanjutnya, model-model regresi Poisson dan binomial negatif I dicoba, diuji dan dibandingkan pada jenis data jumlah klaim Asuransi motor di Malaysia; Third Party

Property Damage (TPPD)

PENDEKATAN PEMECAHAN MASALAH

Model Regresi Poisson

Pada regresi Poisson diasumsikan bahwa variabel dependen yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen . Yi mengikuti distribusi Poisson, fungsi kepadatan peluang adalah,

(1 )

atau .

Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk:

atau dalam bentuk vektor ditulis sebagai

(0) Karena nilai , maka digunakan

fungsi link atau

untuk menghubungkan

dengan fungsi linear , sehingga

(3)

menjadi tepat. Dengan demikian, model regresi dapat ditulis dalam bentuk:

(2 ) Untuk memasukkan covariates dan untuk menjamin non-negatif, mean atau fitted value diasumsikan sebagai perkalian, yaitu,

, (3) di mana ei menunjukkan ukuran

paparan (exposure), xi merupakan vektor p x 1 dari variabel penjelas, dan β merupakan vektor p x 1 dari parameter regresi.

Untuk mengestimasi

parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood

(MLE). Langkah pertama yang dilakukan adalah menentukan fungsi

likelihood dari model regresi

Poisson. Selanjutnya dari fungsi

likelihood diambil nilai lognya

sehingga diperoleh fungsi log-likelihood dari persamaan di atas

sebagai berikut:

(4 ) Kemudian persamaan (4) diturunkan terhadap dan disamakan dengan nol, yaitu:

(5 ) Sehingga persamaan (5) sama dengan weighted least square

(WLS), estimasi likelihood

maksimum, , dapat diestimasi dengan menggunakan Iterative Weighted Least Squares (IWLS).

Binomial Negatif I (NB I)

Diasumsi untuk berdisribusi gamma dengan mean

dan varians , dan

menjadi berdisribusi Poisson dengan rataan bersyarat dapat ditunjukkan

bahwa distribusi marjinal mengikuti distribusi binomial negatif dengan fungsi kepadatan peluang,

( 6 )

di mana mean , dan

variansi adalah

.

Parameter berbeda dapat menghasilkan berbagai jenis distribusi Binomial Negatif. Misalnya, dengan mengambil vi = -1, mengikuti sebuah distribusi Binomial Negatif dengan mean E ( )

= dan variansi Var ( ) = (1 +

), di mana menunjukkan

parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (6) menjadi,

( 7 ) Jika sama dengan nol, mean dan variansi akan sama, E( ) = Var( ), akan menjadi distribusi Poisson. Jika > 0, variansi akan melebihi mean, Var( ) > E( ), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai Binomial Negatif I.

Untuk mengestimasi

parameter dan dalam regresi binomial negatif I dapat digunakan metode Maximum Likelihood Estimation (MLE). Jika diasumsikan

bahwa mean atau fitted value adalah

multiplikatif, yaitu,

,

diperoleh fungsi log-likelihood untuk regresi Binomial Negatif I sebagai berikut:

(4)

(8)

Oleh karena itu, estimasi kemungkinan maksimum, , dapat diperoleh dengan memaksimalkan terhadap dan . Persamaan terkait adalah,

(9 ) dan,

(10)

Pendekatan yang lebih mudah untuk mengestimasi adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson

Chi-Square Statistic dengan derajat

bebas,

(11) di mana n menunjukkan jumlah

rating classes dan p jumlah

parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari dan estimasi moment dari , .

Dalam tulisan ini, ketika diestimasi dengan MLE, model akan disebut sebagai Binomial Negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai Binomial Negatif I (moment).

Evaluasi Model

Pearson Chi-Square

Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu statistik Pearson Chi- Square

(McCullagh & Nelder, 1989) yang didefinisikan sebagai

(12)

Deviance

Deviance yaitu logaritma dari uji

rasio likelihood-nya (McCullagh & Nelder, 1989). Uji rasio likelihoodnya membandingkan current model-nya dengan saturated model-nya. Deviance dituliskan sebagai berikut:

(13)

di mana dan adalah

model log likelihood yang dievaluasi masing-masing di bawah dan . Untuk model yang memadai, D juga memiliki asimtotik distribusi

chi-squre dengan n - p derajat

kebebasan. Oleh karena itu, jika nilai-nilai untuk kedua Pearson

Chi-Square dan D adalah dekat dengan

derajat kebebasan, model dapat dianggap memadai.

AIC dan BIC

Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa kemungkinan langkah-langkah yang telah diusulkan dalam literatur statistik. Dua yang paling sering digunakan adalah ukuran

Akaike Information Criteria (AIC) dan

Bayesian Schwartz Information

Criteria (BIC). AIC didefinisikan

sebagai

(14) dimana menunjukkan log-likelihood dievaluasi di bawah dan jumlah parameter.

Untuk ukuran ini, semakin kecil AIC, semakin baik model.

BIC didefinisikan sebagai (Schwarz, 1978),

(15) mana menunjukkan log-likelihood dievaluasi di bawah , p jumlah parameter dan n jumlah rating

classes. Untuk ukuran ini, semakin

(5)

HASIL DAN PEMBAHASAN Data

Asuransi kendaraan pada umumnya menangani tiga jenis klaim, yaitu kerusakan kendaraan karena kecelakaan/kesalahan sendiri (Own Damage/OD),

terjadinya luka-luka pihak ketiga (Third Party Bodily Injury/TPBI), dan kerusakan properti pihak ketiga

(Third Party Property

Damage/TPPD). Dalam penelitian

ini, akan disajikan aplikasi numerik dari model regresi Poisson pada data TPPD klaim asuransi untuk mobil pribadi dari perusahaan asuransi di Malaysia. Secara khusus, klaim TPPD mencakup kewajiban hukum untuk penggunaan kendaraan bermotor yang

diasuransikan. Data, yang didasarkan pada kebijakan 170.000 mobil pribadi selama tiga tahun, periode 1998-2000, telah disediakan oleh Asosiasi Asuransi Umum Malaysia (PIAM). Pemaparan ini dinyatakan dalam unit mobil per tahun dan terjadi klaim terdiri dari klaim yang sudah dibayar maupun yang outstanding. Tabel 3.1 menunjukkan rating factors dan

rating classes untuk exposure dan

klaim yang dikeluarkan. Dalam hal ini, terdapat 2 × 2 × 3 x 4 x 5 = 240 perkalian rating classes yang diklasifikasikan menurut frekuensi klaim. Data lengkap, yang berisi

exposure, claim counts, rating

factors dan rating classes

ditampilkan pada lampiran.

Tabel 1 Rating factors dan rating classes untuk data Malaysia

Rating Factors Rating Classes

Coverage type _{Comprehensive}

Non-Comprehensive

Vehicle make _Local

Foreign

Vehicle use and driver’s gender _Private-male

Privat-female Business Vehicle year 0-1 year 2-3 year 4-5 year 6+ year Location Central North East South East Malaysia

Pencocokan hanya melibatkan data sejumlah 108 poin karena terdapat tujuh kelas yang memiliki nilai exposure sama dengan nol dan 125 poin yang memiliki jumlah klaim sama dengan nol. Variabel dalam

penelitian ini terdiri dari variabel respon dan prediktor.

Hasil Analisis Data

Data jumlah klaim dimodelkan dengan menggunakan model regresi Poisson untuk mengetahui

(6)

hubungan antar variabel respon dengan rating factors. Selanjutnya, untuk mengetahui pengaruh yang diberikan setiap rating factors

tersebut, dilakukan analisis

Deviance dengan menggunakan

program R. Tabel 2 memberikan hasil analisis deviance model regresi Poisson yang memuat rating factors.

Tabel 2. Analisis deviance model regresi Poisson untuk masing-masing rating

factors

Berdasarkan analisis deviance,

model terbaik adalah model yang semua rating factors signifikan. Selanjutnya untuk mengetahui pengaruh yang diberikan setiap

variabel penjelas dilakukan pengujian parameter. Hasil estimasi parameter untuk masing-masing

rating factors, dapat dilihat pada

tabel 3.

Tabel 3. Estimasi Parameter untuk model regresi Poisson

Nilai p-value untuk parameter

business, non-comprehensive dan non-comprehensive, 2-3year sama

dengan 0.30089, 0.54663 dan 0,35649, nilai ini mengidentifikasikan bahwa estimasi parameter tidak

signifikan. Dengan demikian nilai-nilai parameter yang tidak signifikan tersebut dikombinasikan dengan

intercept. Kemudian dilakukan

estimasi ulang sampai semua nilai signifikan.

(7)

Tabel 4. Poisson vs Binomial Negatif I

est std.error p-value est std.error p-value est std.error p-value

a 0,002 0,048 Intercept -2,495 0,032 0,000 -2,512 0,037 0,000 -2,597 0,079 0,000 Foreign -0,093 0,028 0,001 -0,091 0,031 0,004 -0,077 0,061 0,203 Private-female -0,505 0,033 0,000 -0,507 0,035 0,000 -0,514 0,062 0,000 North -0,218 0,031 0,000 -0,204 0,035 0,000 -0,161 0,073 0,027 East -0,424 0,059 0,000 -0,418 0,061 0,000 -0,396 0,094 0,000 East-Malaysia -0,510 0,062 0,000 -0,508 0,064 0,000 -0,498 0,093 0,000 Comprehensive, 2-3 year -0,386 0,037 0,000 -0,380 0,043 0,000 -0,330 0,088 0,000 Comprehensive, 4-5 year -0,633 0,041 0,000 -0,618 0,046 0,000 -0,546 0,091 0,000 Comprehensive, 6+ year -0,788 0,039 0,000 -0,765 0,044 0,000 -0,666 0,088 0,000 Non-comprehensive, 4-5 year -0,903 0,269 0,001 -0,895 0,270 0,001 -0,835 0,294 0,005 Non-comprehensive, 6+ year -1,293 0,069 0,000 -1,283 0,073 0,000 -1,235 0,117 0,000 df 97 96 96 Pearson's X^2 297,78 262,32 97,00 Deviance 149,31 261,75 97,21 Deviance 149,31 261,75 97,21 log L -409,99 -41280,26 -24475,29

Parameter Poisson Binomial Negatif I (MLE) Binomial Negatif I (moment)

Tabel. 4 memperlihatkan perbandingan antara model regresi Poisson dengan model regresi binomial negatif I. Parameter regresi untuk semua model memberikan nilai-nilai yang mendekati. Nilai standar error untuk model regresi binomial negatif I (MLE) dan binomial negatif I (moment) besar dari Poisson. Walaupun nilai standar error untuk binomial negatif I (moment) paling besar, tetapi parameter regresi tidak signifikan. Dalam kasus ini, model terbaik adalah model regresi binomial negatif I (MLE).

KESIMPULAN

Pertama, analisis regresi Poisson adalah analisis regresi dimana variabel dependennya diasumsikan berdistribusi Poisson dan nilai dari variabel dependennya adalah count (cacah) dan non negatif. Sedangkan nilai untuk variabel independennya dapat saja bernilai real, cacah atau kategorik. Asumsi pada regresi Poisson , pada kenyataannya sering ditemukan kasus dimana maka dikatakan terjadi overdispersi, untuk mengetahui adanya overdispersi adalah dengan melihat nilai

deviance yang dibagi dengan derajat

bebasnya atau Pearson Chi-Square yang dibagi dengan derajat bebasnya. Model regresi Binomial Negatif I dapat digunakan untuk

mengatasi permasalahan

overdispersi yang terjadi pada model regresi poison. Kedua, cara menguji model regresi Binomial Negatif I terbaik untuk penggolongan resiko pada jumlah klaim yaitu pengujian signifikansi parameter regresi menggunakan uji normalitas dengan melihat p-value nya. Ketiga, hasil dari beberapa contoh analisis data pada jenis data jumlah klaim Asuransi motor di Malaysia; Third

Party Property Damage (TPPD)

menunjukkan bahwa model regresi Binomial Negatif I (MLE) merupakan model yang paling tepat digunakan untuk data yang bersifat overdispersi dibandingkan dengan model regresi Poisson.

DAFTAR PUSTAKA

[1] McCullagh, P., & Nelder, J. 1989. Generalized Linear

Models (2nd Edition ed.).

London: Chapman and Hall.

[2] Cameron, A. C., & Trivedi, P. K. 1986. Econometric Models

Based on Count Data:

Comparisons and Applications of Some Estimators and Tests.

(8)

Journal of Applied Econometrics, 29-53.

[3] Breslow, N. E. 1984. Extra-Poisson Variation in Log-Linear Models. Journal of the Royal

Statistical Society , Blackwell

Publishing for the Royal Statistical Society.

[4] Ismail N & AA. Jemain. 2007. Handling Overdispersion with Negative Binomial and

Generalized Poisson

Regression Models. Casualty

Actuarial Society Forum,

(9)

LAMPIRAN Program R

a. Model Regresi Poisson Poisson<- function(data7) { x=as.matrix(data7[,-(11:12)]) X=cbind(1,x) count=as.vector(data7[,12]) x=0 exposure=as.vector(data7[,11]) new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(count)) { beta=new.beta miul=exposure*exp(as.vector (X%*%beta)) W=diag(miul) I.inverse=solve(t(X)%*%W%* %X) k=(count-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.in verse%*%z) new.miul=exposure*exp(as.v ector(X%*%new.beta)) loglikelihood=sum((count*log (new.miul))-new.miul-lfactorial(count)) Deviance=sum(count*log(cou nt/miul)-(count-miul)) pearson=sum((count-miul)^2/new.miul) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2] n=dim(X)[1] p=dim(X)[2] AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n) coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval=2*pnorm(-abs(tstat)) cat("===================== ======================== ==","\n") frame=data.frame(beta=c("interc ept","Foreign","Private_female"," North","East","East_Malaysia","c omp_2_3year","comp_4_5year", "comp_6year","noncomp_4_5ye ar","noncomp_6year"),nilai_beta =new.beta,standar.error=std.err or,varians=round(varians,3),pval =round(pval,5))

cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("===================== ======================== ==","\n") cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } Poisson(data7)