• Tidak ada hasil yang ditemukan

ABSTRAK. Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi

N/A
N/A
Protected

Academic year: 2021

Membagikan "ABSTRAK. Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi"

Copied!
17
0
0

Teks penuh

(1)
(2)
(3)
(4)
(5)

VOKASI, Vol.7 1 Januari 2011

ISSN 1693-9085 Page 1

Model Regresi Binomial Negatif I Sebagai Alternatif Penanganan Overdispersi Untuk Mengetahui Faktor-Faktor Yang Mempengaruhi Angka

Kematian Pada Kanker Paru-Paru Neva Satyahadewi

Jurusan Matematika FMIPA Universitas Tanjungpura

ABSTRAK

Salah satu model regresi yang sering kali digunakan untuk menganalisis data diskrit adalah model regresi Poisson. Metode regresi Poisson mempunyai asumsi

equi-dispersion, yaitu kondisi dimana nilai mean dan varians dari variabel respon

bernilai sama. Akan tetapi kenyataannya, seringkali dijumpai data dengan variansi dari variabel respon lebih besar dari pada nilai rataannya (overdispersi). Untuk itu digunakan model regresi Binomial Negatif I sebagai alternatif untuk mengatasi overdispersi. Model regresi Binomial Negatif I dapat untuk memodelkan faktor-faktor yang mempengaruhi angka kematian yang disebabkan oleh kanker paru-paru.

Kata kunci: model regresi Poisson, Binomial Negatif, overdispersi

Rokok disinyalir sebagai penyebab kanker tertinggi di Indonesia. Menurut data Yayasan Kanker Indonesia (YKI), hampir 80 persen pengidap kanker paru-paru mempunyai kebiasaan merokok. Semakin banyak jumlah batang rokok yang diisap, risiko terkena kanker pun semakin tinggi. Hal ini akan menyebabkan resiko angka kematian juga akan semakin tinggi. Penggolongan resiko adalah proses dari pemodelan alternatif dengan menggolongkan resiko menurut rating

factors dengan karakteristik-karakteristik yang dibentuk ke dalam rating classes.

Model regresi Poisson secara luas telah banyak digunakan untuk memodelkan penggolongan resiko. Bagaimanapun, model regresi Poisson adalah suatu metode statistika yang digunakan untuk menganalisis hubungan antara variabel dependen yang dapat dihitung (data cacah/count) dengan satu atau lebih variabel independen, dimana mean dan variansinya sama. Pada prakteknya seringkali data cacah memperlihatkan variansi yang sangat besar, dimana variansi sampel lebih

(6)

besar dari mean sample (overdispersion). Oleh karena itu, sasaran dari penelitian ini untuk menggunakan model regresi Negatif Binomial I sebagai satu alternatif jika terjadi kasus overdispersi. Selanjutnya, model regresi Poisson dan Negatif Binomial I dicoba, diuji dan dibandingkan pada data jumlah angka kematian yang disebabkan oleh kanker paru-paru.

METODE 2.1 Model Regresi Poisson

Pada regresi Poisson diasumsikan bahwa variabel dependen 𝑌𝑌𝑖𝑖 yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen 𝑥𝑥1, … , 𝑥𝑥𝑘𝑘. Yi

𝑃𝑃𝑃𝑃(𝑌𝑌𝑖𝑖|𝑥𝑥1, … , 𝑥𝑥𝑘𝑘) =𝑒𝑒 −𝜆𝜆𝑖𝑖𝜆𝜆𝑖𝑖𝑦𝑦𝑖𝑖

𝑦𝑦𝑖𝑖! , 𝑦𝑦𝑖𝑖 = 0,1, …

mengikuti distribusi Poisson, fungsi kepadatan peluang adalah,

(0.1)

atau 𝑌𝑌𝑖𝑖~𝑃𝑃𝑃𝑃𝑖𝑖(𝜆𝜆𝑖𝑖), 𝑖𝑖 = 1,2,3, … , 𝑛𝑛.

Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk:

𝐸𝐸[𝑌𝑌𝑖𝑖|𝑥𝑥𝑖𝑖] = 𝜆𝜆𝑖𝑖 = 𝛽𝛽0+ 𝑥𝑥1𝛽𝛽1+ ⋯ + 𝑥𝑥𝑘𝑘𝛽𝛽𝑘𝑘

atau dalam bentuk vektor ditulis sebagai

𝐸𝐸[𝑌𝑌𝑖𝑖|𝑥𝑥𝑖𝑖] = 𝜆𝜆𝑖𝑖 = 𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷 (0.2)

Karena nilai 𝜆𝜆𝑖𝑖 > 0, maka digunakan fungsi link 𝜂𝜂𝑖𝑖 = exp⁡(𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷) atau 𝜂𝜂𝑖𝑖 = 𝑙𝑙𝑃𝑃𝑙𝑙𝜆𝜆𝑖𝑖 = 𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷 untuk menghubungkan 𝜆𝜆𝑖𝑖 = 𝐸𝐸[𝑌𝑌𝑖𝑖|𝒙𝒙𝒊𝒊] dengan fungsi linear 𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷,

sehingga hubungan antara 𝜆𝜆𝑖𝑖 = 𝐸𝐸[𝑌𝑌𝑖𝑖|𝒙𝒙𝒊𝒊] dan 𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷 menjadi tepat. Dengan demikian, model regresi dapat ditulis dalam bentuk:

𝐸𝐸[𝑌𝑌𝑖𝑖|𝒙𝒙𝒊𝒊] = 𝜆𝜆𝑖𝑖 = 𝑒𝑒𝑥𝑥𝑒𝑒(𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷), 𝑖𝑖 = 1,2, … , 𝑛𝑛 (0.3)

Untuk memasukkan covariates dan untuk menjamin non-negatif, mean atau fitted value diasumsikan sebagai perkalian, yaitu,

𝐸𝐸(𝑌𝑌𝑖𝑖|𝒙𝒙𝒊𝒊) = 𝜆𝜆𝑖𝑖 = 𝑒𝑒𝑖𝑖𝑒𝑒𝑥𝑥𝑒𝑒(𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷), (0.4)

di mana ei menunjukkan ukuran paparan (exposure), xi merupakan vektor p x 1

(7)

Untuk mengestimasi parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood (MLE). Langkah pertama yang dilakukan adalah menentukan fungsi likelihood dari model regresi Poisson. Selanjutnya dari fungsi likelihood diambil nilai lognya sehingga diperoleh fungsi log-likelihood dari persamaan di atas sebagai berikut:

𝑙𝑙𝑃𝑃𝑙𝑙 𝐿𝐿(𝜷𝜷) = − � 𝜆𝜆𝑖𝑖 𝑛𝑛 𝑖𝑖=1 + � 𝑦𝑦𝑖𝑖𝑙𝑙𝑃𝑃𝑙𝑙𝜆𝜆𝑖𝑖 𝑛𝑛 𝑖𝑖=1 − � 𝑙𝑙𝑃𝑃𝑙𝑙𝑦𝑦𝑖𝑖! 𝑛𝑛 𝑖𝑖=1 (2.5)

Kemudian persamaan (2.5) diturunkan terhadap 𝛽𝛽𝑗𝑗 dan disamakan dengan nol, yaitu: 𝜕𝜕 l(𝜷𝜷) 𝜕𝜕𝛽𝛽𝑗𝑗 = �(𝑦𝑦𝑖𝑖− 𝜆𝜆𝑖𝑖)𝑥𝑥𝑖𝑖𝑗𝑗 𝑛𝑛 𝑖𝑖=1 = 0 , 𝑗𝑗 = 1,2, … , 𝑒𝑒 (0.6) Sehingga persamaan (0.6) sama dengan weighted least square (WLS), estimasi

likelihood maksimum, 𝜷𝜷�, dapat diestimasi dengan menggunakan Iterative

Weighted Least Squares (IWLS).

2.2 Binomial Negatif I (NB I)

Diasumsikan 𝜆𝜆𝑖𝑖 untuk berdisribusi gamma dengan mean 𝐸𝐸(𝜆𝜆𝑖𝑖) = 𝜇𝜇𝑖𝑖 dan varians 𝑉𝑉𝑉𝑉𝑃𝑃(𝜆𝜆𝑖𝑖) = 𝜇𝜇𝑖𝑖2𝑣𝑣𝑖𝑖−1, dan 𝑌𝑌𝑖𝑖|𝜆𝜆𝑖𝑖 menjadi berdisribusi Poisson dengan rataan

bersyarat 𝐸𝐸(𝑌𝑌𝑖𝑖|𝜆𝜆𝑖𝑖 ) = 𝜆𝜆𝑖𝑖 dapat ditunjukkan bahwa distribusi marjinal 𝑌𝑌𝑖𝑖 mengikuti distribusi binomial negatif dengan fungsi kepadatan peluang,

𝑃𝑃𝑃𝑃(𝑌𝑌𝑖𝑖 = 𝑦𝑦𝑖𝑖) =Γ(𝑦𝑦Γ(𝑦𝑦𝑖𝑖+ 𝑣𝑣𝑖𝑖) 𝑖𝑖 + 1)Γ(𝑣𝑣𝑖𝑖) � 𝑣𝑣𝑖𝑖 𝑣𝑣𝑖𝑖 + 𝜇𝜇𝑖𝑖� 𝑣𝑣𝑖𝑖 �𝑣𝑣 𝜇𝜇𝑖𝑖 𝑖𝑖 + 𝜇𝜇𝑖𝑖� 𝑦𝑦𝑖𝑖 (0.7) di mana mean 𝐸𝐸(𝑌𝑌𝑖𝑖) = 𝜇𝜇𝑖𝑖, dan variansi adalah 𝑉𝑉𝑉𝑉𝑃𝑃(𝑌𝑌𝑖𝑖) = 𝜇𝜇𝑖𝑖 + 𝜇𝜇𝑖𝑖2𝑣𝑣𝑖𝑖−1.

Parameter berbeda dapat menghasilkan berbagai jenis distribusi Binomial Negatif. Misalnya, dengan mengambil vi = 𝑉𝑉P

-1 𝑃𝑃𝑃𝑃(𝑌𝑌𝑖𝑖 = 𝑦𝑦𝑖𝑖) =𝛤𝛤(𝑦𝑦𝑖𝑖 + 𝑉𝑉 −1) 𝑦𝑦𝑖𝑖! 𝛤𝛤(𝑉𝑉−1) � 𝑉𝑉𝜇𝜇𝑖𝑖 1 + 𝑉𝑉𝜇𝜇𝑖𝑖� 𝑦𝑦𝑖𝑖 (1 + 𝑉𝑉𝜇𝜇𝑖𝑖)−𝑉𝑉−1

, 𝑌𝑌𝑖𝑖 mengikuti sebuah distribusi Binomial Negatif dengan mean E (𝑌𝑌𝑖𝑖) = 𝜇𝜇𝑖𝑖 dan variansi Var (𝑌𝑌𝑖𝑖) = 𝜇𝜇𝑖𝑖 (1 + 𝑉𝑉𝜇𝜇𝑖𝑖), di mana 𝑉𝑉

menunjukkan parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (0.7) menjadi,

(0.8)

Jika 𝑉𝑉 sama dengan nol, mean dan variansi akan sama, E(𝑌𝑌𝑖𝑖) = Var(𝑌𝑌𝑖𝑖), akan menjadi distribusi Poisson. Jika 𝑉𝑉 > 0, variansi akan melebihi mean, Var(𝑌𝑌𝑖𝑖) >

(8)

E(𝑌𝑌𝑖𝑖), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai Binomial Negatif I.

Untuk mengestimasi parameter 𝛽𝛽 dan 𝑉𝑉 dalam regresi binomial negatif I dapat digunakan metode Maximum Likelihood Estimation (MLE). Jika diasumsikan bahwa mean atau fitted value adalah multiplikatif, yaitu, 𝐸𝐸(𝑌𝑌𝑖𝑖|𝒙𝒙𝒊𝒊) = 𝜇𝜇𝑖𝑖 = 𝑒𝑒𝑖𝑖𝑒𝑒𝑥𝑥𝑒𝑒(𝒙𝒙𝒊𝒊𝑻𝑻𝜷𝜷), diperoleh fungsi log-likelihood untuk regresi Binomial Negatif I

sebagai berikut: 𝑙𝑙(𝜷𝜷, 𝑉𝑉) = � ��𝑙𝑙𝑃𝑃𝑙𝑙 � (1 + 𝑉𝑉𝑃𝑃) 𝑦𝑦𝑖𝑖−1 𝑃𝑃=0 � − 𝑦𝑦𝑖𝑖log⁡(𝑉𝑉) − 𝑙𝑙𝑃𝑃𝑙𝑙(𝑦𝑦𝑖𝑖!) 𝑛𝑛 𝑖𝑖=1 + 𝑦𝑦𝑖𝑖 𝑙𝑙𝑃𝑃𝑙𝑙(𝑉𝑉𝜇𝜇𝑖𝑖) − (𝑦𝑦𝑖𝑖 + 𝑉𝑉−1) 𝑙𝑙𝑃𝑃𝑙𝑙(1 + 𝑉𝑉𝜇𝜇𝑖𝑖)� (0.9)

Oleh karena itu, estimasi kemungkinan maksimum, �𝜷𝜷�, 𝑉𝑉��, dapat diperoleh dengan memaksimalkan 𝑙𝑙(𝜷𝜷, 𝑉𝑉)terhadap 𝜷𝜷 dan 𝑉𝑉. Persamaan terkait adalah,

𝜕𝜕𝑙𝑙(𝜷𝜷, 𝑉𝑉) 𝜕𝜕𝛽𝛽𝑗𝑗 = � (𝑦𝑦𝑖𝑖 − 𝜇𝜇𝑖𝑖)𝑥𝑥𝑖𝑖𝑗𝑗 1 + 𝑉𝑉𝜇𝜇𝑖𝑖 𝑛𝑛 𝑖𝑖=1 = 0, 𝑗𝑗 = 1,2, … , 𝑒𝑒, (0.10) dan, 𝜕𝜕𝑙𝑙(𝜷𝜷, 𝑉𝑉) 𝜕𝜕𝑉𝑉 = � �� � � 𝑃𝑃 1 + 𝑉𝑉𝑃𝑃� 𝑦𝑦𝑖𝑖−1 𝑃𝑃=1 � + 𝑉𝑉−2log(1 + 𝑉𝑉𝜇𝜇 𝑖𝑖) −(𝑦𝑦𝑖𝑖+ 𝑉𝑉 −1)𝜇𝜇 𝑖𝑖 (1 + 𝑉𝑉𝜇𝜇𝑖𝑖) � 𝑛𝑛 𝑖𝑖=1 = 0 (0.11)

Pendekatan yang lebih mudah untuk mengestimasi adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson Chi-Square Statistic dengan derajat bebas,

𝜇𝜇(𝑦𝑦𝑖𝑖 − 𝜇𝜇𝑖𝑖)2

𝑖𝑖(1 + 𝑉𝑉𝜇𝜇𝑖𝑖) 𝑖𝑖

= 𝑛𝑛 − 𝑒𝑒 (0.12)

di mana n menunjukkan jumlah rating classes dan p jumlah parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari 𝜷𝜷 dan estimasi moment dari 𝑉𝑉, �𝜷𝜷�, 𝑉𝑉��.

(9)

Dalam tulisan ini, ketika 𝑉𝑉 diestimasi dengan MLE, model akan disebut sebagai Binomial Negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai Binomial Negatif I (moment).

2.3 Evaluasi Model 2.3.1 Pearson Chi-Square

Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu statistik Pearson

Chi- Square (McCullagh & Nelder, 1989) yang didefinisikan sebagai

𝑋𝑋2 = �(𝑦𝑦𝑖𝑖 − 𝜇𝜇𝑖𝑖)2 𝑉𝑉𝑉𝑉𝑃𝑃(𝑌𝑌𝑖𝑖) 𝑛𝑛 𝑖𝑖=1 (0.13) 2.3.2 Deviance

Deviance yaitu logaritma dari uji rasio likelihood-nya (McCullagh & Nelder,

1989). Uji rasio likelihoodnya membandingkan current model-nya dengan

saturated model-nya. Deviance dituliskan sebagai berikut:

𝐷𝐷 = 2�𝑙𝑙(𝒚𝒚; 𝒚𝒚) − 𝑙𝑙(𝝁𝝁; 𝒚𝒚)� (0.14) di mana 𝑙𝑙(𝒚𝒚; 𝒚𝒚) dan 𝑙𝑙(𝝁𝝁; 𝒚𝒚) adalah model log likelihood yang dievaluasi masing-masing di bawah 𝝁𝝁 dan 𝒚𝒚. Untuk model yang memadai, D juga memiliki asimtotik distribusi chi-squre dengan n - p derajat kebebasan. Oleh karena itu, jika nilai-nilai untuk kedua Pearson Chi-Square dan D adalah dekat dengan derajat kebebasan, model dapat dianggap memadai.

2.4 AIC dan BIC

Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa kemungkinan langkah-langkah yang telah diusulkan dalam literatur statistik. Dua yang paling sering digunakan adalah ukuran Akaike Information Criteria (AIC) dan Bayesian Schwartz Information

Criteria (BIC). AIC didefinisikan sebagai

AIC = −2l + 2p (0.15)

dimana l menunjukkan log-likelihood dievaluasi di bawah μ dan p jumlah parameter.

Untuk ukuran ini, semakin kecil AIC, semakin baik model. BIC didefinisikan sebagai (Schwarz, 1978),

(10)

BIC = −2l + p log(n) (0.16) mana l menunjukkan log-likelihood dievaluasi di bawah μ, p jumlah parameter dan n jumlah rating classes. Untuk ukuran ini, semakin kecil BIC, semakin baik model.

HASIL DAN PEMBAHASAN 3.1 Data

Data yang digunakan dalam tulisan ini adalah data kematian yang disebabkan oleh kanker paru-paru didasarkan pada usia dan status merokok, dimana usia dikelompokkan atas 9 kelas yaitu, 40-44, 45-49, 50-54, 55-59, 60-64, 65-69, 70-74, 75-79, dan 80+. Status merokok terdiri atas 4 kelas yaitu, doesn't

smoke smokes, cigars or pipe only, smokes cigarrettes and cigar or pipe, dan smokes cigarrettes only. Data bisa diakses dari Internet dengan alamat website,

http://data.princeton.edu/wws509/datasets/#smoking

Tabel 3.1 menunjukkan rating factors dan rating classes untuk exposure dan klaim yang dikeluarkan. Dalam hal ini, terdapat 9 × 4 = 36 perkalian rating

classes yang diklasifikasikan menurut angka kematian.

Tabel 3.1 Rating factors dan rating classes

Rating factors Rating classes

Usia 45-59 50-54 55-59 60-64 65-69 70-74 75-79 80+ Status merokok No cigarPipeOnly cigarrettePlus cigarretteOnly

(11)

3.2 Hasil Analisis Data

Data jumlah angka kematian dimodelkan dengan menggunakan model regresi Poisson untuk mengetahui hubungan antar variabel respon dengan rating factors. Selanjutnya, untuk mengetahui pengaruh yang diberikan setiap rating factors tersebut, dilakukan analisis Deviance. Tabel 3.2 memberikan hasil analisis

deviance model regresi Poisson yang memuat rating factors.

Tabel 3.2 Analisis deviance model regresi Poisson untuk masing-masing

rating factors

Berdasarkan analisis deviance, model terbaik adalah model yang semua rating

factors signifikan. Adapun program R yang digunakan sebagai berikut:

Poisson<- function(smoking3) { x=as.matrix(smoking3[,-(11:12)]) X=cbind(1,x) Dead=as.vector(smoking3[,12]) x=0 Exposure=as.vector(smoking3[,11]) new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(Dead)) { beta=new.beta miul=Exposure*exp(as.vector(X%*%beta)) W=diag(miul) I.inverse=solve(t(X)%*%W%*%X) k=(Dead-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.inverse%*%z) new.miul=Exposure*exp(as.vector(X%*%new.beta)) loglikelihood=sum((Dead*log(new.miul))-new.miul-lfactorial(Dead)) Deviance=sum(Dead*log(Dead/miul)-(Dead-miul)) pearson=sum((Dead-miul)^2/new.miul) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2] n=dim(X)[1]

(12)

p=dim(X)[2] AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n) coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval=2*pnorm(-abs(tstat)) cat("======================================================= ==","\n")

frame=data.frame(beta=c("intercept","age 45-59","age 50-54","age 60-64","age 65-69","age70-74","age75-79","age

80+","cigarPipeOnly","cigarrettePlus","cigarretteOnly"),nilai_beta=new.beta,stan dar.error=std.error,varians=round(varians,3),pval=round(pval,3))

cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("======================================================= ==","\n") cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } Poisson(smoking3)

Selanjutnya untuk mengetahui pengaruh yang diberikan setiap variabel penjelas dilakukan pengujian parameter. Program R yang digunakan adalah:

Poisson<- function(smoking5) { x=as.matrix(smoking5[,-(12:13)]) X=cbind(1,x) Dead=as.vector(smoking5[,13]) x=0 Exposure=as.vector(smoking5[,12]) new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(Dead)) { beta=new.beta miul=Exposure*exp(as.vector(X%*%beta)) W=diag(miul) I.inverse=solve(t(X)%*%W%*%X) k=(Dead-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.inverse%*%z)

(13)

new.miul=Exposure*exp(as.vector(X%*%new.beta)) loglikelihood=sum((Dead*log(new.miul))-new.miul-lfactorial(Dead)) Deviance=sum(Dead*log(Dead/miul)-(Dead-miul)) pearson=sum((Dead-miul)^2/new.miul) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2] n=dim(X)[1] p=dim(X)[2] AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n) coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval=2*pnorm(-abs(tstat)) cat("======================================================= ==","\n")

frame=data.frame(beta=c("intercept","age 45-59","age 50-54","age 55-54","age

60-64","age65-69","age70-74","age75-79","age80+","cigarPipeOnly","cigarrettePlus","cigarretteOnly"),nilai_beta=new. beta,standar.error=std.error,varians=round(varians,3),pval=round(pval,3))

cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("======================================================= ==","\n") cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } Poisson(smoking5)

Hasil estimasi parameter untuk masing-masing rating factors, dapat dilihat pada tabel 3.3.

(14)

Nilai p-value untuk parameter cigarPipeOnly sama dengan 0.21, nilai ini mengidentifikasikan bahwa estimasi parameter tidak signifikan. Dengan demikian nilai-nilai parameter yang tidak signifikan tersebut dikombinasikan dengan intercept. Kemudian dilakukan estimasi ulang sampai semua nilai signifikan. Jika model empat faktor yang sama dicocokan dengan model regresi binomial negatif I, estimasi parameter dan standar error akan bisa dibandingkan. Contoh program R untuk model regresi Binomial Negatif I (MLE) disajikan berikut ini:

NB.mle<- function(smoking4) { x=as.matrix(smoking4[,-(9:10)]) X=cbind(1,x) Dead=as.vector(smoking4[,10]) R=Dead-1 nilai=1:max(R) sumr=0 sums=0 sumt=0 Exposure=as.vector(smoking4[,9]) new.a <- c(0.001)

new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(Dead))

(15)

a=new.a beta=new.beta miul=Exposure*exp(as.vector(X%*%beta)) W=diag(miul/(1+ a*miul)) I.inverse=solve(t(X)%*%W%*%X) k=(Dead-miul)/miul z=t(X)%*%W%*%k new.beta=as.vector(beta+I.inverse%*%z) new.miul=Exposure*exp(as.vector(X%*%new.beta)) Ri=R[i] r=nilai[0:Ri]

if (Dead[i]<1) sumr[i]=0 else sumr[i]=sum(r/(1+new.a*r)) if (Dead[i]<1) sums[i]=0 else sums[i]=sum((r/(1+new.a*r))^2) if (Dead[i]<1) sumt[i]=0 else sumt[i]=sum(log(1+new.a*r)) total1=sum(sumr)-sum(sumr[i]) total2=sum(-sums)-sum(sums[i]) total3=sum(sumt)-sum(sumt[i]) G=total1+sum((new.a^-2)*log(1+new.a*miul)-((Dead+(new.a^-1))*miul)/(1+new.a*miul)) G.Prime=total2+sum(-2*(new.a^-3)*log(1+new.a*miul)+(2*(new.a^-2)*miul)/(1+new.a*miul)+((Dead+(new.a^-1))*miul^2)/(1+new.a*miul)) new.a=a-G/G.Prime loglikelihood=(total3+sum(-(Dead*log(Dead))- lfactorial(Dead[i])+Dead*log(new.a*miul)-(Dead+(new.a^-1))*log(1+new.a*miul))) Deviance<-2*sum(Dead*log(Dead/miul)-(Dead+(new.a^-1))*log((1+new.a*Dead)/(1+new.a*miul))) pearson=sum((Dead-miul)^2/(miul*(1+new.a*miul))) } varians=as.vector (diag(I.inverse)) std.error=sqrt(varians) df=dim(X)[1]-dim(X)[2]-1 n=dim(X)[1] p=dim(X)[2] AIC<--2*loglikelihood+2*p BIC<--2*loglikelihood+p*log(n) cat("nilai a =",a,"\n") coef<-c(beta) SE<-c(std.error) tstat<-coef/SE pval<-2*pnorm(-abs(tstat)) cat("======================================================= ==","\n")

frame=data.frame(beta=c("intercept","age 45-59","age 60-64","age 65-69","age 70-74","age75-79","age

80+","cigarrettePlus","cigarretteOnly"),nilai_beta=new.beta,standar.error=std.erro r,varians=round(varians,3),pval=round(pval,3))

(16)

cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2) cat("======================================================= ==","\n") cat("df =",df,"\n") cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n") cat("BIC =",BIC,"\n") } NB.mle(smoking4)

Perbandingan antara ketiga model tersebut dapat dilihat pada tabel 3.4. Tabel 3.4 Poisson vs Binomial Negatif I

est std.error p-value est std.error p-value est std.error p-value

a 0,025 0,098 Intercept -2,720 0,034 0,000 -2,730 0,075 0,000 -2,750 0,120 0,000 45-59 -0,380 0,059 0,000 -0,340 0,127 0,008 -0,300 0,210 0,153 60-64 0,720 0,032 0,000 0,690 0,105 0,000 0,710 0,190 0,000 65-69 1,070 0,033 0,000 1,070 0,104 0,000 1,080 0,190 0,000 70-74 1,340 0,035 0,000 1,360 0,104 0,000 1,380 0,190 0,000 75-79 1,630 0,041 0,000 1,640 0,106 0,000 1,660 0,190 0,000 80+ 1,920 0,048 0,000 1,900 0,110 0,000 1,920 0,190 0,000 cigarrettePlus 0,190 0,029 0,000 0,200 0,076 0,010 0,210 0,140 0,128 cigarretteOnly 0,380 0,031 0,000 0,380 0,077 0,000 0,380 0,140 0,005 df 27 26 26 Pearson's X^2 539 76 27 Dev iance 293 92 33 log L -413 -51321 -37963

Parameter Poisson Binomial Negatif I (MLE) Binomial Negatif I (moment)

Tabel. 3.4 memperlihatkan perbandingan antara model regresi Poisson dengan model regresi binomial negatif I. Parameter regresi untuk semua model memberikan nilai-nilai yang mendekati. Nilai standar error untuk model regresi Binomial Negatif I (MLE) dan Binomial Negatif I (moment) lebih besar dari Poisson. Dalam kasus ini, model terbaik adalah model regresi binomial negatif I (MLE).

KESIMPULAN

Pertama, analisis regresi Poisson adalah analisis regresi dimana variabel dependennya diasumsikan berdistribusi Poisson dan nilai dari variabel dependennya adalah count (cacah) dan non negatif. Sedangkan nilai untuk variabel independennya dapat saja bernilai real, cacah atau kategorik. Asumsi

(17)

pada regresi Poisson E(Y) = Var(Y), pada kenyataannya sering ditemukan kasus dimana E(Y) > 𝑉𝑉𝑉𝑉𝑃𝑃(𝑌𝑌) maka dikatakan terjadi overdispersi, untuk mengetahui adanya overdispersi adalah dengan melihat nilai deviance yang dibagi dengan derajat bebasnya atau Pearson Chi-Square yang dibagi dengan derajat bebasnya. Model regresi Binomial Negatif I dapat digunakan untuk mengatasi permasalahan overdispersi yang terjadi pada model regresi poison. Kedua, cara menguji model regresi Binomial Negatif I terbaik untuk penggolongan resiko pada jumlah klaim yaitu pengujian signifikansi parameter regresi menggunakan uji normalitas dengan melihat p-value nya. Ketiga, hasil dari beberapa contoh analisis data pada jenis data angka kematian yang disebabkan oleh kanker paru-paru menunjukkan bahwa model regresi Binomial Negatif I (MLE) merupakan model yang paling tepat digunakan untuk data yang bersifat overdispersi dibandingkan dengan model regresi Poisson.

DAFTAR PUSTAKA

Breslow, N. E. (1984). Extra-Poisson Variation in Log-Linear Models. Journal of

the Royal Statistical Society , Blackwell Publishing for the Royal

Statistical Society.

Cameron, A. C., & Trivedi, P. K. (1986). Econometric Models Based on Count Data: Comparisons and Applications of Some Estimators and Tests.

Journal of Applied Econometrics , 29-53.

Lawless, J. F. (1987). Negative Binomial and Mixed Poisson Regression. The

Canadian Journal of Statistics , 209-225.

McCullagh, P., & Nelder, J. (1989). Generalized Linear Models (2nd Edition ed.). London: Chapman and Hall.

Schwarz, G. (1978). Estimating the Dimension of a Model. The Annals of

Gambar

Tabel  3.1 menunjukkan rating factors  dan  rating  classes  untuk  exposure  dan  klaim yang dikeluarkan
Tabel 3.2 Analisis deviance model regresi Poisson untuk masing-masing  rating factors
Tabel 3.4 Poisson vs Binomial Negatif I

Referensi

Dokumen terkait

Jaringan hati ikan patin ( P. djambal ) perlakuan yang di infeksi bakteri bakteri E. tarda menunjukan hasil berbeda-beda setiap perlakuan sesuai dengan dosis bakteri

Nilai-nilai Moral dalam tradisi Ngalap Berkah pada masyarakat di makam Mbah Ro Dukun di Desa Kuwu, Kecamatan Kradenan, Kabupaten Grobogan. Dalam setiap tradisi atau

Bagaimana solusi yang dilakukan dalam kendala pelaksanaan penilaian autentik berdasarkan Permendikbud Nomor 53 Tahun 2015 di SD Muhammadiyah 24 Gajahan Surakarta

Syarief (1989) berpendapat bahwa struktur tanah merupakan suatu sifat fisik yang penting, karena dapat mempengaruhi pertumbuhan tanaman, mempengaruhi sifat dan keadaan tanah

Sebuah proyek juga memiliki pengertian sebagai satu kegiatan bersifat sementara yang berlangsung dalam jangka waktu terbatas, dengan alokasi sumber daya tertentu dan dimaksudkan

Auditee telah memiliki dokumen Rencana Pemenuhan Bahan Baku Industri (RPBBI) untuk Industri Primer Hasil Hutan tahun 2013 dan telah dilaporkan dan disampaikan

Menurut Bernard(2005, p315) system data flow diagram yang lebih dikenal sebagai diagram aliran data yang dimaksudkan untuk menunjukkan proses dalam suatu sistem

Tantangan utama yang harus dipikirkan oleh Apple karena menjual produknya pada harga premium adalah produk yang dihasilkan juga harus premium tidak ada kompromi untuk