• Tidak ada hasil yang ditemukan

BINOMIAL NEGATIF VS GENERALIZED POISSON REGRESSION DALAM MENGATASI OVERDISPERSION PADA REGRESI POISSON

N/A
N/A
Protected

Academic year: 2021

Membagikan "BINOMIAL NEGATIF VS GENERALIZED POISSON REGRESSION DALAM MENGATASI OVERDISPERSION PADA REGRESI POISSON"

Copied!
7
0
0

Teks penuh

(1)

1

BINOMIAL NEGATIF VS GENERALIZED POISSON REGRESSION

DALAM MENGATASI OVERDISPERSION PADA REGRESI

POISSON

Oleh : A’yunin Sofro

Jurusan Matematika FMIPA Universitas Negeri Surabaya ayunin_sofro@yahoo.co.uk

Abstrak

.

Kasus overdispersion pada regresi poisson mengakibatkan estimasi parameter yang dihasilkan menjadi kurang tepat. Beberapa pendekatan yang telah dilakukan antara lain dengan binomial negatif dan generalized Poisson regression (GPR). Hasil penelitian menunjukkan bahwa dengan pendekatan binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada GPR. Hal ini ditandai dengan nilai dari kriteria AIC yang diperoleh sebagai goodness of fit dari model GPR lebih kecil daripada dengan Binomial Negatif.

Kata kunci: AIC, Binomial Negatif, Generalized Poisson Regression, Overdispersion, Regresi Poisson

1. Pendahuluan

Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variable respon adalah sama. Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (overdispersion), misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson akan mengakibatkan estimasi parameter yang dihasilkan kurang tepat karena kemungkinan adanya overdispersion. Menurut Ismail dan Jemain (2007) perlu dilakukan pendekatan yang lain, salah satunya dengan menggunakan pendekatan binomial negatif dan Generalized Poisson Regression (GPR).

Beberapa peneliti yang mengembangkan kasus ini adalah Gardner dan Ester (1995) di bidang psikologi dan kriminilitas, Lee, dkk (2003) di bidang biomedical untuk mengetahui peluang penyakit yang belum diketahui berdasarkan karakter indek stroke pada pasien. Famoye, Wulu dan Singh (2004) meneliti data kecelakaan, Ismail dan Jemain (2005) di bidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia dan Lu dan Zeger (2007) di bidang epidemiologi lingkungan yang mengetahui peluang dari polusi udara yang terjadi setiap hari dan Ismail dan Jemain (2007) dibidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia. Pada penelitian Sofro (2008) dinyatakan bahwa GPR mampu menurunkan nilai deviasi dari regresi Poisson sehingga dapat disimpulkan bahwa GPR memberikan hasil yang lebih baik dari regresi Poisson. Sedangkan pendekatan binomial negatif juga memberikan hasil yang lebih baik dari regresi Poisson dengan menurunnya nilai deviasi dan AIC yang diperoleh (Sofro, 2009). Dari uraian diatas, maka tujuan penelitian adalah mengkaji model binomial negatif dan GPR untuk mengatasi adanya overdispersion pada Regresi Poisson.

Seminar Nasional Statistika IX

(2)

2

2. Tinjauan Pustaka

2.1 Model Binomial Negatif

Misal

Y

i adalah variabel random untuk distribusi binomial negatif. Fungsi kepadatan peluang adalah i i i i i v i i i i i i i i i

v

v

v

v

y

v

y

y

Y

P









)

(

)

1

(

)

(

)

(

(1)

dimana meannya adalah

E

 

Y

i

x

i

i dan variannya adalah

Var

 

Y

i

x

i

i2

i

v

i1.

Jika

v

i

dan parameter penyebaran

sama dengan nol, maka fungsi kepadatan peluang ditunjukkan pada (3) akan menurun menjadi model regresi Poisson sehingga mean sama dengan varian

 

Y

i i

E x

Var x

 

Y

i i . Jika

> 0, maka

E x

 

Y

i i <

Var x

 

Y

i i , menunjukkan model data diskret yang overdispersion.

Fungsi likelihoodnya dari GPR adalah sebagai berikut.

n i i

y

P

L

1

)

,

;

(

)

,

(

β

β

dan persamaan log likelihood adalah

 

,

log(

1

)

log(

)

log(

!

)

log(

)

(

1

)

log(

1

)

1 1 i i i i i i y r i

y

y

y

y

r

LnL

i













  

β

(2)

Taksiran MLE untuk parameter model binomial negatif dinyatakan dengan

βˆ

dan diperoleh dari solusi dari turunan pertama fungsi log likelihoodnya, yaitu :

 

j

k

L

k

j

,

,

2

,

1

,

,

ln

)

;

(

β

β

Untuk mendapatkan taksiran

βˆ

selain menggunakan metode maksimum likelihood dapat menggunakan prosedur Itertatively Rewighted Least Square (IRLS).

Dan taksiran parameter dispersion

diperoleh dengan turunan pertama dan kedua dari fungsi log likelihood, diperoleh :

 

)

ln

,

;

(

β

L

β

h

(3)

 

2 2

ln

,

)

;

(

β

β

L

m

(4)

Untuk mendapatkan taksiran parameter

, maka persamaan (3) dan (4) diatas diselesaikan secara simultan secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).

2.2 Ukuran Goodness of Fit Model Binomial Negatif

Akaike Information Criterion (AIC)

Akaike memperkenalkan kriteria informasi yang mempertimbangkan banyaknya parameter. Untuk menghitung nilai AIC digunakan definisi sebagai berikut :

(3)

3

AIC = -

p

dimana

adalah hasil dari log likelihood dari

p adalah banyaknya parameter

semakin kecil nilai AIC nya maka model semakin baik.

2.3 Model GPR

Misal

Y

i adalah variabel random. Fungsi kepadatan peluang adalah

,

1

,

0

,

1

1

exp

!

1

1

)

Pr(

1









i i i i i y i y i i i i

y

y

y

y

y

Y

i i





(6)

dimana meannya adalah

E

 

Y

i

x

i

i dan variannya adalah

Var

 

Y

i

x

i

i

1



i

2.

Ketika parameter penyebaran

sama dengan nol, maka fungsi kepadatan peluang ditunjukkan pada (2.4) akan menjadi model regresi Poisson sehingga mean sama dengan varian

E

 

Y

i

x

i

Var x

 

Y

i i . Jika

> 0, maka

E

 

Y

i

x

i <

Var x

 

Y

i i , menunjukkan model data diskrit yang overdispersion. Jika

< 0,

 

Y

i i

E

x

>

Var x

 

Y

i i menunjukkan model data diskrit yang underdispersion. Kategori yang digunakan untuk mendeteksi keberadaan overdispersion atau underdispersion adalah nilai devians dan pearson chi square yang dibagi dengan derajad bebas. Nilai atau hasil bagi yang lebih besar dari satu mengindikasikan adanya overdispersion, sedangkan nilai atau hasil bagi yang lebih kecil dari satu mengindikasikan adanya underdispersion (Cameron dan Trivedi, 1998).

Fungsi likelihoodnya dari GPR adalah sebagai berikut.

n i i

y

P

L

1

)

,

;

(

)

,

(

β

β

dan persamaan log likelihood adalah

 

 

 

(

!

)

1

1

1

1

1

,

i i i i i i i i i i

Ln

y

y

y

Ln

y

Ln

y

LnL

β









(7) Taksiran MLE untuk parameter model GPR dinyatakan dengan

βˆ

dan diperoleh dari solusi dari turunan pertama fungsi log likelihoodnya, yaitu :

 

j

k

L

k

j

,

,

2

,

1

,

,

ln

)

;

(

β

β

Untuk mendapatkan taksiran

βˆ

selain menggunakan metode maksimum likelihood dapat menggunakan prosedur Itertatively Rewighted Least Square (IRLS).

(4)

4

Dan taksiran parameter dispersion

diperoleh dengan turunan pertama dan kedua dari fungsi log likelihood, diperoleh :

 

)

ln

,

;

(

β

L

β

h

(8)

Untuk mendapatkan taksiran parameter

, maka persamaan (8) diatas diselesaikan secara simultan secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).

2.3 Goodness-of-fit Dari GPR

Ada beberapa ukuran goodness of fit pada model GPR, salah satunya yang biasa digunakan adalah Akaike information criterion (AIC) yang didefinisikan sebagai berikut.

AIC = -

p

dengan

adalah hasil dari log likelihood dari model yang diestimasi p adalah banyaknya parameter yang diestimasi

semakin kecil nilai AIC nya maka model semakin baik.

3. Metodologi Penelitian

Data yang digunakan adalah data sekunder yang berasal dari PT Asuransi Tripakarta khusus untuk jenis asuransi kendaraan bermotor. Data yang akan diambil adalah data tentang klaim tipe resiko sendiri periode 2007. Berdasarkan form yang ada pada PT Asuransi Tripakarta maka variabel penelitian yang diteliti terdiri dari variabel prediktor (X) dan variabel responnya (Y), yang didefinisikan sebagai berikut : Y = Banyaknya pengajuan klaim pertahun

X1 = Negara pembuat kendaraan, didefinisikan sebagai asal negara pembuat kendaraan dengan kategori: 1 = Jepang, 3= Jerman, 5= Prancis 2 = Korea, 4= Italia, 6= Amerika X2 = Gender Use, didefinisikan sebagai pengguna dari kendaraan bermotor

yang diasuransikan dengan kategori: 1 = pengguna pribadi 2 = pengguna bisnis

X3 = Umur kendaraan, didefinisikan sebagai tahun mulai pembuatan kendaraan sampai dengan tahun pengajuan asuransi kendaraan

Langkah-langkah penelitiannya adalah terlebih dahulu memodelkan dengan model binomial negatif dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel kemudian dimodelkan dengan menggunakan GPR. Nilai deviasi yang dihasilkan oleh Binomial negatif akan dibandingkan dengan nilai deviasi dan AIC yang dihasilkan oleh GPR.

4. Analisis Data Dan Pembahasan

4.1 Pemodelkan Data Dengan Model Binomial Negatif

Berdasarkan pada penelitian Sofro (2009) yang menyatakan bahwa data klaim resiko sendiri mengalami kasus overdispersion jika menggunakan regresi Poisson. Sehingga langkah pertama untuk mengatasinya data klaim resiko sendiri dimodelkan dengan menggunakan model binomial negatif

(5)

5

dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variable. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model binomial negatif sebagai berikut.

Tabel 1. Hasil Taksiran Parameter Dengan Binomial Negatif

Parameter Estimasi SE P value

X0 -0,9639 0,3082 0,0018 X1 0,3481 0,2584 0,1779 X2 1,2543 0,2708 <,0001 X3 0,3613 0,1004 0,0003

Pada Tabel 1 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter secara berurutan untuk

X

0

,

X

2

,

X

3 adalah 0,0018; 0,0001 dan 0,0003 yang lebih kecil dari  = 0,05. Sedangkan untuk

X

1tidak signifikan dengan nilai p_value bernilai sebesar 0,1779 yang lebih besar dari  = 0,05.

4.2 Pemodelan Data Dengan Model GPR

Langkah berikutnya adalah data klaim resiko sendiri dimodelkan dengan menggunakan model GPR dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model GPR sebagai berikut.

Tabel 3. Hasil Taksiran Parameter dengan GPR

Parameter Estimasi SE P value

X0 -1,1932 0,3670 0,0012 X1 0,3143 0,2584 0,2602 X2 1,5058 0,4401 0,0007 X3 0,4609 0,1502 0,0023

1,6876 0,1630 <,0001

Pada Tabel 3 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh

nilai p-value masing-masing parameter secara berurutan untuk

X

0

,

X

2

,

X

3 adalah 0,0012; 0,0007 dan 0,0023 yang lebih kecil dari  = 0,05. Sedangkan untuk

X

1tidak signifikan dengan nilai p_value bernilai sebesar 0,2602 yang lebih besar dari  = 0,05. Berdasarkan Tabel 1 dan Tabel 2 dapat diketahui bahwa parameter yang signifikan yang diperoleh sama dan hasil estimasinya tidak jauh berbeda. Begitu juga dengan parameter yang tidak signifikan

X

1, hasil yang diperoleh baik dengan binomil negatif maupun dengan GPR memberikan hasil yang sama.

(6)

6

4.3 Perbandingan Model Binomial Negatif terhadap Regresi Poisson

Langkah terakhir adalah membandingkan model Binomial Negatif dengan GPR. Dengan menggunakan program SAS 9.1 prosedur GENMOD akan diperoleh kriteria goodness of fit dari model binomial negatif dan regresi Poisson. Hasil dapat dilihat pada Tabel 3

Tabel 3. Kriteria Kebaikan Model dari Binomial Negatif dan GPR Kriteria Binomial

Negatif GPR

AIC 3402,8 1497,5

Pada penelitian ini kriteria pembanding yang digunakan adalah kriteria AIC, dimana semakin kecil nilai AIC maka semakin baik model tersebut. Dari Tabel 3, pemodelan dengan menghasilkan nilai AIC lebih kecil dari pada nilai AIC pada binomial negatif , yaitu secara berurutan 3402,8 dan 1497,5. Model yang baik memiliki nilai AIC yang lebih kecil. Berdasarkan kriteria tersebut dapat disimpulkan bahwa pemodelan dengan model GPR pada data Resiko Sendiri di PT Asuransi Tripakarta kantor cabang Surabaya Diponegoro memberikan hasil yang lebih baik daripada dengan menggunakan pemodelan regresi Poisson.

5. Kesimpulan

Pendekatan model GPR maupun model binomial negatif memberikan hasil taksiran parameter signifikan yang sama dan nilai yang diperoleh tidak jauh berbeda. Tetapi dengan menggunakan model GPR pada data klaim resiko sendiri memberikan hasil lebih baik daripada binomial negatif dengan menurunnya nilai AIC yang diperoleh.

6. Daftar Pustaka

Brockman, M. J., and Wright, T. S. (1992), Statistical Motor Rating: Making Effective Use of Your Data, Journal of the Institute of Actuaries, 119: 3, p. 457-543.

Cameron, A.C., and Trivedi, P.K. (1998), Regression Analysis Of Count Data, Cambridge University Press, Cambridge.

Famoye, F., Wulu, T., Singh K.P. (2004), On The Generalized Poisson Regression Model With An Application To Accident Data, Journal Of Data Science, 2, p. 287 – 295.

Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404.

Ismail, N., and Jemain, A. A. (2005), Generalized Poisson Regression : An Alternative For Risk Classification, Jurnal Teknologi Malaysia, Universiti Teknologi Malaysia, Kuala Lumpur, p. 39-54. ________________________. (2007), Handling Overdispersionwith Negative Binomial and

Generalized Poisson Regression Model, Casualty Actuarial Society Forum, Malaysia.

Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.

McCullagh, P., and Nelder, J. A. (1989), Generalized Linear Models. 2nd Edition. Chapman and Hall, London.

Renshaw, A. E. (1994), Modeling the Claims Process in the Presence of Covariates, ASTIN Bulletin. 24: 2, p.265-285.

Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404. Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed

Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.

(7)

7

Lu, Y., Zeger S.L. (2007), On The Equivalence Of Case-Crossover And Time Series MethResiko Sendiris In Environmental Epidemiology, Biostatistics, 8:2, p.337-344.

Gambar

Tabel 1. Hasil Taksiran Parameter Dengan Binomial Negatif  Parameter  Estimasi  SE  P value

Referensi

Dokumen terkait

Saya mengucapkan terima kasih yang sebesar-besarnya atas dukungan perusahaan selama ini kepada saya; sekaligus permintaan maaf atas kesalahan atau kekurangan yang

Syarief (1989) berpendapat bahwa struktur tanah merupakan suatu sifat fisik yang penting, karena dapat mempengaruhi pertumbuhan tanaman, mempengaruhi sifat dan keadaan tanah

Laporan Kinerja Biro Perencanaan secara keseluruhan menunjukkan capaian kinerja yang melebihi dari target yang sudah ditetapkan, namun demikian dengan adanya tantangan yang

Menurut Bernard(2005, p315) system data flow diagram yang lebih dikenal sebagai diagram aliran data yang dimaksudkan untuk menunjukkan proses dalam suatu sistem

Langkah tersebut secara normatif dilatarbelakangi oleh ketentuan Pasal 76 Undang-undang Nomor 33 Tahun 2004 tentang Perimbangan Keuangan antara Pemerintah Pusat dan

Jumlah soal pada tes KAM adalah 25 butir soal yang berbentuk pilihan ganda dengan lima pilihan jawaban. Penyekoran tes KAM dilakukan dengan memberikan skor 1