PEMODELAN REGRESI POISSON, BINOMIAL NEGATIF DAN POISSON TERGENERALISASI PADA KASUS KECELAKAAN KENDARAAN BERMOTOR DI LALU LINTAS

(1)

LAPORAN TAHUNAN PENELITIAN HIBAH BERSAING

PEMODELAN REGRESI POISSON, BINOMIAL NEGATIF DAN POISSON TERGENERALISASI PADA KASUS KECELAKAAN

KENDARAAN BERMOTOR DI LALU LINTAS

TAHUN KE I DARI RENCANA II TAHUN

TIM PENGUSUL

Dr. Irwan, M.Si 0005106509 KETUA Devni Prima Sari,S.Si,M.Sc. 0020128403 ANGGOTA

Dibiayai oleh DIPA Universitas Negeri Padang

Sesuai dengan Surat Penugasan Pelaksanaan Penelitian Desentralisasi Melalui DIPA UNP tahun anggaran 2013 No. 298.a.45/UN35.2/PG/2013

Tanggal 31 Mei 2013

(2)

(3)

iii RINGKASAN

Pemodelan Regresi Poisson, Binomial Negatif dan Poisson Tergeneralisasi pada Kasus Kecelakaan Kendaraan Bermotor Di Lalu Lintas

(4)

(5)

v DAFTAR ISI

HALAMAN PENGESAHAN ... ii

RINGKASAN ... iii

PRAKATA ... iv

DAFTAR ISI ... v

DAFTAR TABEL ... vii

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Perumusan Masalah ... 3

1.3 Tujuan Penelitian ... 3

1.4 Keutamaan dan Inovasi Penelitian ... 4

BAB 2 TINJAUAN PUSTAKA ... 5

2.1 Kendaraan Bermotor ... 5

2.2 Faktor-faktor Penyebab Kecelakaan Lalu Lintas ... 6

2.3 Variabel Random dan Fungsi Distribusi... 6

2.4 Keluarga Eksponensial ... 9

2.4.1 Distribusi keluarga eksponensial ... 9

2.4.2 Distribusi standar dalam format keluarga eksponensial ... 11

2.5 Estimasi Maksimum Likelihood (MLE) ... 14

2.6 Statistic Score ... 15

2.7 Generalized linear model (GLM) ... 18

2.7.1 Fungsi Link ... 20

2.7.2 Metode Iterasi Newton-Raphson ... 20

2.7.3 Estimasi Maksimum Likelihood ... 21

2.7.4 Fisher Scoring ... 23

2.7.5 Iteratively Weighted Least Square (IWLS) ... 23

2.8 Goodness Of Fit ... 24

2.8.1 Pearson Chi-square ... 25

2.8.2 Deviance ... 25

(6)

vi

BAB 3 TUJUAN DAN MANFAAT PENELITIAN ... 28

3.1 Tujuan Penelitian ... 28

3.2 Manfaat Penelitian ... 28

BAB 4 METODE PENELITIAN ... 29

BAB 5 HASIL DAN PEMBAHASAN ... 30

5.1 Model Regresi Poisson ... 30

5.1.1 Overdispersi ... 30

5.1.2 Percobaan Poisson ... 30

5.1.3 Distribusi Poisson ... 31

5.1.4 Model Regresi Poisson ... 33

5.1.5 Estimasi Parameter ... 34

5.1.6 Uji Ketepatan (Goodness of Fit) Model Regresi Poisson ... 35

5.2 Model Regresi Binomial Negatif ... 38

5.2.1 Overdispersi Metode Binomial Negatif ... 38

5.2.2 Distribusi Binomial Negatif ... 40

5.2.3 Estimasi parameter untuk model regresi binomial negatif ... 41

5.2.4 Uji ketepatan (goodness of fit) model regresi binomial negatif ... 44

5.3 Aplikasi Numerik ... 45

5.3.1 Data Penelitian ... 45

5.3.2 Proses Analisis Data ... 47

BAB 6 RENCANA TAHAPAN BERIKUTNYA ... 52

BAB 7 KESIMPULAN DAN SARAN ... 53

7.1 Kesimpulan ... 53

7.2 Saran ... 53

DAFTAR PUSTAKA ... 55

(7)

vii DAFTAR TABEL

Tabel 2.1 Faktor-faktor penyebab kecelakaan lalu-lintas jalan ... 6 Tabel 5.1 Rating factors dan ratingclasses untuk data penelitian ... 46 Tabel 5.2 Analisis deviance model regresi Poisson tiap rating classes ... 47 Tabel 5.3 Analisis deviance model regresi Poisson untuk tiap rating classes

yang sudah signifikan. ... 48 Tabel 5.4 Estimasi parameter untuk model Poisson rating classes yang

signifikan ... 49 Tabel 5.5 Estimasi parameter untuk model Binomial Negatif (MLE) rating

classes ... 49 Tabel 5.6 Estimasi parameter untuk model Binomial Negatif (MLE) rating

(8)

1 BAB 1 PENDAHULUAN

1.1 Latar Belakang

Kecelakaan lalu lintas merupakan masalah yang umum terjadi dalam penyelenggaraan sistem transportasi di banyak negara. Pada negara-negara berkembang, termasuk di Indonesia, kecelakaan lalu lintas ini cenderung mengalami peningkatan. PT Jasa Raharja (persero) mencatat, setiap 15 menit terdapat satu orang yang meninggal dunia di Indonesia karena kecelakaan lalu lintas. Ini terlihat dari tingginya biaya santunan kecelakaan yang diklaim kepada asuransi Jasa Raharja mencapai 1 Triliun rupiah setiap tahunnya. PT Jamsostek (Persero) mencatat klaim kecelakaan lalu lintas mendominasi dibanding kecelakaan kerja lainnya. Kepala PT Jamsostek (Persero) Cabang Tanjung Priok Muhammad Akip mengungkapkan, kecelakaan lalu lintas masih mendominasi daftar panjang kecelakaan kerja yang diklaim ke Jamsostek setiap tahunnya.

Jumlah kecelakaan yang tinggi akan menjadi salah satu faktor yang tidak menguntungkan bagi perusahaan asuransi kendaraan bermotor. Disamping itu, seluruh pihak harus lebih mewaspadai faktor-faktor yang menyebabkan terjadinya kecelakaan lalu lintas. Masih tingginya angka kecelakaan di jalan raya juga menjadi pekerjaan rumah besar bagi pemerintah.

(9)

faktor manusia memiliki kontribusi terbesar pada kecelakaan kendaraan bermotor, sehingga faktor tersebut sangat penting untuk diamati dalam upaya mengurangi terjadinya kecelakaan lalu lintas yang melibatkan kendaraan bermotor. Perbedaan karakteristik sosio-ekonomi, karakteristik pergerakan dan perilaku pengemudi kendaraan bermotor menjadi dasar pertimbangan dalam identifikasi faktor-faktor penyebab terjadinya kecelakaan.

(10)

kendaraan bermotor di lalu lintas, sehingga jumlah korban kecelakaan kendaraan bermotor akan semakin berkurang dari tahun ke tahun.

1.2 Perumusan Masalah

Dari latar belakang tersebut berikut ini dapat dirumuskan beberapa permasalahan yang menjadi kajian dalam penelitian ini, yaitu:

1. Mempelajari lebih jauh tentang estimasi parameter pada model regresi Poisson.

2. Mempelajari lebih jauh tentang masalah overdispersi yang sering terjadi pada model regresi Poisson.

3. Mempelajari model regresi Binomial Negatif dan Poisson Tergeneralisasi dalam mengatasi masalah overdispersi pada regresi Poisson.

4. Mengaplikasikan secara numerik model regresi Binomial Negatif dan Poisson Tergeneralisasi pada kasus kecelakaan kendaraan bermotor di lalu lintas di Kota Padang.

1.3 Tujuan Penelitian

(11)

1.4 Keutamaan dan Inovasi Penelitian

(12)

5 BAB 2

TINJAUAN PUSTAKA

Pada bab ini akan dibahas teori-teori yang digunakan sebagai dasar untuk membahas materi pada bab-bab selanjutnya.

2.1 Kendaraan Bermotor

Kendaraan adalah suatu sarana angkut di jalan yang terdiri atas kendaraan bermotor dan kendaraan tidak bermotor. Kendaraan bermotor adalah setiap kendaraan yang digerakkan oleh peralatan mekanik berupa mesin selain kendaraan yang berjalan di atas rel, terdiri dari kendaraan bermotor perseorangan dan kendaraan bermotor umum. Kendaraan tidak bermotor adalah kendaraan yang digerakkan oleh tenaga orang atau hewan (UU RI No. 22 Tahun 2009).

Jenis kendaraan bermotor, yaitu (UU RI No. 22 Tahun 2009):

1. Sepeda motor adalah kendaraan bermotor beroda dua dengan atau tanpa rumah-rumah dan dengan atau tanpa kereta samping atau kendaraan bermotor beroda tiga tanpa rumah-rumah.

2. Mobil penumpang adalah setiap kendaraan bermotor yang dilengkapi sebanyak-banyaknya 8 (delapan) tempat duduk tidak termasuk tempat duduk pengemudi, baik dengan maupun tanpa perlengkapan pengangkutan bagasi. 3. Mobil bus adalah setiap kendaraan bermotor yang dilengkapi lebih dari 8

(delapan) tempat duduk tidak termasuk tempat duduk pengemudi, baik dengan maupun tanpa perlengkapan pengangkutan bagasi.

4. Mobil barang adalah setiap kendaraan bermotor selain dari yang termasuk dalam sepeda motor, mobil penumpang dan mobil bus.

(13)

2.2 Faktor-faktor Penyebab Kecelakaan Lalu Lintas

Secara umum ada empat faktor utama penyebab kecelakaan; faktor pengemudi (road user), faktor kendaraan (vehicle), faktor lingkungan jalan (road environment) dan faktor cuaca. Kecelakaan yang terjadi pada umumnya tidak hanya disebabkan oleh satu faktor saja, melainkan hasil interaksi antar faktor lain.

Pada dasarnya faktor-faktor tersebut berkaitan atau saling menunjang bagi terjadinya kecelakaan. Namun, dengan diketahuinya faktor penyebab kecelakaan yang utama dapat ditentukan langkah-langkah penanggulangan untuk menurunkan jumlah kecelakaan. Berdasarkan penelitian yang pernah ada faktor penyebab kecelakaan dapat dikomposisikan dalam tabel 2.1 berikut :

Tabel 2.1 Faktor-faktor penyebab kecelakaan lalu-lintas jalan

FAKTOR PENYEBAB URAIAN

Pengemudi lengah, mengantuk, tidak terampil, lelah, mabuk, kecepatan

tinggi, tidak menjaga jarak, kesalahan pejalan, dan gangguan

binatang.

Kendaraan ban pecah, kerusakan sistem rem, kerusakan sistem kemudi,

as/kopel lepas, dan sistem lampu tidak berfungsi.

Jalan persimpangan, jalan sempit, akses yang tidak dikontrol/

dikendalikan, marka jalan kurang/tidak jelas, tidak ada rambu

batas kecepatan, dan permukaan jalan licin.

Lingkungan lalu-lintas campuran antara kendaraan cepat dengan kendaraan

lambat, interaksi/campur antara kendaraan dengan pejalan,

pengawasan dan penegakan hukum belum efektif, dan

pelayanan gawat darurat yang kurang cepat.

Cuaca gelap, hujan, kabut, dan asap

Sumber: Direktorat Jenderal Perhubungan Darat ± Dept.Perhubungan

2.3 Variabel Random dan Fungsi Distribusi

(14)

Definisi 2.1 Variabel random ࢄ adalah suatu fungsi dengan daerah asal ࡿ dan daerah hasil bilangan real sedemikian sehingga ሺࢋሻ ൌ ࢞, dengan ܍ א ܁ dan ܠ א ज.

Definisi 2.2 Fungsi ݂ሺݔሻ adalah fungsi padat peluang untuk variabel random kontinu ܺ jika dan hanya jika memenuhi sifat berikut,

݂ሺݔሻ ൒ Ͳǡ ݑ݊ݐݑ݇ݏ݁݉ݑܽݔݎ݈݁ܽǡ ݀ܽ݊

׬ ݂ሺݔሻ݀ݔ ൌ ͳ_ି .

Salah satu konsep penting dalam probabilitas adalah ekspektasi dan variansi dari variabel random. Berikut ini adalah beberapa definisi dan teorema mengenai ekspektasi dan variansi.

Teorema 2.1 Jika Y adalah suatu variabel random dengan fungsi densitas ݂ሺݕሻǡܽ dan ܾ adalah suatu konstanta, dan ݃ሺݕሻ dan ݄ሺݕሻ adalah fungsi real, maka

ܧሾܽ݃ሺܻሻ ൅ ܾ݄ሺܻሻሿ ൌ ܽܧሾ݃ሺܻሻሿ ൅ ܾܧሾ݄ሺܻሻሿ . Definisi 2.3 Variansi dari variabel random X diberikan oleh ܸܽݎሺܺሻ ൌ ܧሾሺܺ െ ߤሻଶ_ሿ_.

Teorema 2.2 Jika Y adalah suatu variabel random dari a dan b adalah suatu konstanta, maka

ܸܽݎሺܻܽ ൅ ܾሻ ൌ ܽଶ_{ܸܽݎሺܻሻ}_.

Distribusi kontinu yang sering terjadi dalam aplikasi adalah disribusi gamma. Distribusi ini berhubungan dengan suatu fungsi yang disebut fungsi gamma.

(15)

߁ሺ݊ሻ ൌ ׬ ݔ ௡

଴ ݁ି௫݀ݔ ൌ ݊Ǩ .

Teorema 2.3 Fungsi Gamma mendukung sifat-sifat berikut: ߁ሺߢሻ ൌ ሺߢ െ ͳሻ߁ሺߢ െ ͳሻߢ ൐ ͳ

߁ሺ݊ሻ ൌ ሺ݊ െ ͳሻǨ .

Banyak keadaan yang menghendakinya mencatat sekaligus nilai-nilai beberapa variabel random dan tidak hanya melibatkan satu variabel random saja. Sehingga fungsi padat peluang gabungannya dapat kita lihat dari definisi-definisi berikut.

Definisi 2.5 Fungsi padat peluang (fpp) gabungan dari k-dimensi variabel random diskret ܺ ൌ ሺܺ_ଵǡ ܺ_ଶǡ Ǥ Ǥ Ǥ ǡ ܺ_୩ሻ didefinisikan dengan

݂ሺݔଵǡ ݔଶǡ ǥ ǡ ݔ௞ሻ ൌ ܲሾܺଵൌ ݔଵǡ ܺଶൌ ݔଶǡ ǥ ǡ ܺ௞ ൌ ݔ௞ሿ

Untuk semua nilai ݔ ൌ ሺݔ_ଵǡ ݔ_ଶǡ ǥ ǡ ݔ_௞ሻܺǤ

Definisi 2.6 Jika pasangan ሺܺ_ଵǡ ܺ_ଶሻ dari variabel random kontinu dari fpp gabungan ݂ሺݔ_ଵǡ ݔ_ଶሻ, maka fpp marginal dari ܺ_ଵ dan ܺ_ଶ adalah

݂ଵሺݔଵሻ ൌ න ݂ሺݔଵǡ ݔଶሻ

ି ݀ݔଶ

݂ଶሺݔଶሻ ൌ ׬ ݂ሺݔ_ି ଵǡ ݔଶሻ݀ݔଵ.

Definisi dari peluang bersyarat suatu kejadian bisa dilanjutkan pada konsep varabel random bersyarat, didasarkan pada definisi berikut ini.

Definisi 2.7 Jika ܺ_ଵ dan ܺ_ଶ adalah variabel random kontinu atau diskret dengan fpp gabungan ݂ሺݔ_ଵǡ ݔ_ଶሻ, kemudian fungsi kepadatan peluang bersyarat (fpp bersyarat) dari ܺ_ଶ diberikan ܺ_ଵൌ ݔ_ଵ didefinisikan oleh

(16)

Untuk nilai ݔ_ଵݏ݄݂݁݅݊݃݃ܽ_ଵሺݔ_ଵሻ ൐ Ͳ, dan nol lainnya.

Definisi 2.8 Jika ܺ dan ܻ adalah variabel random distribusi gabungan, kemudian ekspektasi dari ܻ diberikan ܺ ൌ ݔ diberikan oleh

ܧሺܻȁݔሻ ൌ ෍ ݕ݂ሺݕȁݔሻ

௬

ܻܺ

ܧሺܻȁݔሻ ൌ ׬ ݕ݂ሺݕȁݔሻ_ି ݀ݕ jika X dan Y kontinu.

2.4 Keluarga Eksponensial

Distribusi keluarga eksponensial merupakan salah satu kunci pembangun

generalized linear modeling (GLM).

2.4.1 Distribusi keluarga eksponensial

Menurut (Jong & Heller, 2008) distribusi dari keluarga eksponensial dapat berbentuk:

݂ሺݕሻ ൌ ܿሺݕǡ ߶ሻ݁ݔ݌ ቊݕߠ െ ܽሺߠሻ_߶ ቋ (2.1)

dimana ߠ dan ߶ adalah parameter. Parameter ߠ disebut parameter kanonik dan ߶ parameter dispersi. Probabilitas fungsi yang dapat ditulis sebagai (2.1) dikatakan anggota keluarga eksponensial. Pemilihan fungsi ܽሺߠሻ dan ܿሺݕǡ ߶ሻ ditentukan oleh fungsi probabilitas aktual seperti binomial, normal atau Gamma

ܧሺݕሻ ൌ ܽሶሺߠሻǡܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ. (2.2) Dimana ܽሶሺߠሻ dan ܽሷሺߠሻ adalah turunan pertama dan kedua dari ܽሺߠሻterhadap ߠ.

Bukti: ߲݂ሺݕሻ

߲ߠ ൌ ݂ሺݕሻ ቈ

(17)

kemudian kedua ruas diintegralkan terhadap y, න߲݂ሺݕሻ_{߲ߠ ݀ݕ ൌ}න ݂ሺݕሻ ቈݕ െ ܽሶሺߠሻ_߶ ቉ ݀ݕ

߲

߲ߠන ݂ሺݕሻ ݀ݕ ൌ ܧ ቈ

ݕ െ ܽሶሺߠሻ ߶ ቉

dengan menggunakan Definisi 2.2 dan Teorema 2.1, kita peroleh sebagai berikut, ߲

߲ߠ ͳ ൌ

ܧሾݕሿ െ ܽሶሺߠሻ ߶

Ͳ ൌܧሾݕሿ െ ܽሶሺߠሻ_߶

ܧሾݕሿ ൌ ܽሶሺߠሻ ൌ ߤ (2.3) dan

߲ଶ_݂ሺݕሻ

߲ߠଶ ൌ ݂ሺݕሻ ቈݕ െ ܽሶሺߠሻ_߶ ቉ ଶ

െ ݂ሺݕሻܽሷሺߠሻ_߶

kemudian kedua ruas diintegralkan terhadap y,

න߲ଶ_߲ߠ݂ሺݕሻ_ଶ ݀ݕ ൌ න ݂ሺݕሻ ቈݕ െ ܽሶሺߠሻ_߶ ቉

ଶ

݀ݕ െ න ݂ሺݕሻܽሷሺߠሻ_{߶ ݀ݕ}

߲ଶ

߲ߠଶන ݂ሺݕሻ ݀ݕ ൌ ܧ ൥ቊ

ݕ െ ܽሶሺߠሻ ߶ ቋ

ଶ

൩ െ ܧ ቈܽሷሺߠሻ_߶ ቉

dengan mengunakan Definisi 2.2 dan Teorema 2.1, kita peroleh sebagai berikut, ߲ଶ

߲ߠଶͳ ൌ

ܧሾݕ െ ߤሿଶ

߶ଶ െ

ܽሷሺߠሻ ߶

Ͳ ൌܸܽݎሺݕሻ_߶_ଶ െܽሷሺߠሻ_߶

ܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ. (2.4)

(18)

ܽሷሺߠሻ ൌ߲ܽሶሺߠሻ_{߲ߠ ൌ}߲ߤ_{߲ߠ ؠ ܸ}ሺߤሻ (2.5)

dan karenanya ܸܽݎሺݕሻ ൌ ߶ܸሺߤሻ di mana ܸሺߤሻ disebut fungsi variansi, menunjukkan hubungan antara rataan dan varians.

2.4.2 Distribusi standar dalam format keluarga eksponensial

Beberapa anggota keluarga eksponensial, diantaranya adalah distribusi Poisson, distribusi normal, distribusi gamma dan distribusi binomial negatif. 1. Distribusi Poisson

Fungsi probabilitas Poisson adalah, ݂ሺݕሻ ൌ݁ିఓ_{ݕǨ ǡݕ ൌ Ͳǡͳǡʹǡ ǥ}ߤ௬

Maka,

݂ሺݕሻ ൌ ݁ିఓ_{ݕǨ ൌ െߤ ൅ ݕ ߤ ൅}ߤ௬ _ݕǨͳ

ൌ _{ݕǨ ൅ ሺݕ ߤ െ ߤሻ}ͳ

ൌ ܿሺݕǡ ߶ሻ ൅ݕߠ െ ܽሺߠሻ_߶ ǡ

dengan ܿሺݕǡ ߶ሻ ൌ ଵ

௬Ǩǡ ߶ ൌ ͳǡ ߠ ൌ ሺߤሻ ܽሺߠሻ ൌ ߤ ൌ ݁ఏ.

Ini menunjukkan bahwa Poisson adalah termasuk keluarga eksponensial dan ܧሺݕሻ ൌ ܽሶሺߠሻ ൌ ݁ఏ _{ൌ ߤ}

ܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ ൌ ͳ ൈ ݁ఏ _{ൌ ߤ}_.

Distribusi Normal

(19)

݂ሺݕሻ ൌ ͳ

Ini menunjukkan bahwa distribusi Normal adalah termasuk keluarga eksponensial dan

ܽሶሺߠሻ ൌ ߠ ൌ ߤǡ ܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ ൌ ߪଶ_Ǥ

2. Distribusi Gamma

Fungsi probabilitas Gamma adalah,

݂ሺݕሻ ൌ_īݕ_{ሺݒሻ ൬}ିଵ ݕݒ_{ߤ ൰}௩݁ି௬௩ ఓΤ _{ǡݕ ൐ Ͳǡ}

Maka,

(20)

ൌ െ ݕ െ īሺݒሻ ൅ ݒ ݕ ൅ ݒ ݒ െ ݒ ߤ െݕݒ_ߤ

ൌ ሺݒ െ ͳሻ ݕ െ īሺݒሻ ൅ ݒ ݒ െ ߤ_ݒ_ିଵ൅ݕሺെߤ_ݒ_ିଵିଵሻ

ൌ ݕሺ௩ିଵሻ_ī_{ሺݒሻ ൅ ቆ}Ǥ ݒ௩ ݕሺെߤିଵ_ݒ_ିଵሻ െ ߤቇ

ൌ ܿሺݕǡ ߶ሻ ൅ ൜ݕߠ ൅ ܽሺߠሻ_߶ ൠ

dengan ܿሺݕǡ ߶ሻ ൌ ୷ ቀభషದ_{ದ ቁ}

மభದ_ī_ቀభ ದቁ

ǡ ߶ ൌ ݒିଵ_{ǡ ߠ ൌ െߤ}ିଵ_{ܽሺߠሻ ൌ ሺെߠ}ିଵ_ሻ_.

Ini menunjukkan bahwa Gamma adalah termasuk keluarga eksponensial dengan

ܧሺݕሻ ൌ ܽሶሺߠሻ ൌ െߠሺߠିଶ_{ሻ ൌ ߤǡ ܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ ൌ ݒ}ିଵ ͳ

ߠଶ ൌߤ ଶ

ݒ Ǥ

Distribusi ߯_௩ଶ merupakan ܩሺݒǡ௩

ଶሻ, sehingga Chi-square juga merupakan

keluarga eksponensial. 3. Binomial negatif

Fungsi probabilitas binomial negatif adalah, ݂ሺݕሻ ൌ_ī_{ሺݕ ൅ ͳሻ}īሺݕ ൅ ݒሻ_ī_{ሺݒሻ ൬}_{ݒ ൅ ߤ൰}ݒ ௩൬_{ݒ ൅ ߤ൰}ߤ ௬

di mana rataan ܧሺݕሻ ൌ ߤ, dan variansi adalah ܸܽݎሺݕሻ ൌ ߤ ൅ ߤଶݒିଵ. Maka,

݂ሺݕሻ ൌ ቈ_ī_{ሺݕ ൅ ͳሻ}īሺݕ ൅ ݒሻ_ī_{ሺݒሻ ൬}_{ݒ ൅ ߤ൰}ݒ ௩൬_{ݒ ൅ ߤ൰}ߤ ௬቉

(21)

ൌ ܿሺݕǡ ߶ሻ ൅ ൜ݕߠ ൅ ܽሺߠሻ_߶ ൠ

dengan ܿሺݕǡ ߶ሻ ൌ īሺ௬ା௩ሻ

īሺ௬ାଵሻīሺ௩ሻǡ ߶ ൌ ͳǡ ߠ ൌ ቀ ఓ

௩ାఓቁ ܽሺߠሻ ൌ െݒ ൫ͳ െ

݁ఏ_ሻ_.

Ini menunjukkan bahwa binomial negatif termasuk keluarga eksponensial dengan

ܧሺݕሻ ൌ ܽሶሺߠሻ ൌ_{ͳ െ ݁}ݒ݁ఏ_ఏ ൌ ߤǡ ܸܽݎሺݕሻ ൌ ߶ܽሷሺߠሻ ൌ_{ሺͳ െ ݁}ݒ݁ఏ_ఏ_ሻ_ଶൌ ߤ ൅ ߤଶ_ݒିଵ_Ǥ

2.5 Estimasi Maksimum Likelihood (MLE)

MLE didasarkan pada pemilihan estimasi parameter yang memaksimalkan likelihood sampel yang diamati ݕ_ଵǡ ǥ ǡ ݕ_௡. Setiap ݕ_௜ merupakan realisasi dari ݂ሺݕሻ, dan demikian juga fungsi probabilitas ݂ሺݕ_௜ሻ. Probabilitas tergantung ߠ dan, jika ߶ ada, fungsi probabilitas ditulis sebagai ݂ሺݕ_௜Ǣ ߠǡ ߶ሻ. Jika ݕ_௜ independen maka fungsi probabilitas gabungan adalah

݂ሺݕǢ ߠǡ ߶ሻ ൌ ෑ ݂ሺݕ௜Ǣ ߠǡ ߶ሻ ௡

௜ୀଵ

ܮሺߠǡ ߶ሻ ൌ ෑ ݂ሺݕ௜Ǣ ߠǡ ߶ሻǤ ௡

௜ୀଵ

(2.6)

Maka untuk memperoleh nilai ߠ෠߶෠ yang memaksimalkan ܮሺߠǡ ߶ሻ harus diderivatifkan dengan langkah-langkah sebagai berikut:

1. Nilai ߠ෠ diperoleh dari derivatif pertama ߲

߲ߠ ܮሺߠǡ ߶ሻฬఏୀఏ෡ ൌ Ͳ

(22)

߲ଶ

߲ߠଶܮሺߠǡ ߶ሻቤ ఏୀఏ෡

൏ Ͳ

Log-likelihood ݈ሺߠǡ ߶ሻ adalah logaritma dari likelihood:

݈ሺߠǡ ߶ሻ ൌ ෍ ݈݊ ݂ሺݕ௜Ǣ ߠǡ ߶ሻ ௡

௜ୀଵ

Ǥ (2.7)

Metode maksimum likelihood memilih nilai-nilai ߠ dan ߶ yang memaksimalkan likelihood atau ekuivalen, likelihood. Maksimalisasi log-likelihood lebih disukai karena lebih mudah untuk bekerja dengan analitis. Penduga maksimum likelihood (MLE) dari ߠ dan ߶ dilambangkan sebagai ߠ෠߶෠.

2.6 Statistic Score

Misalkan suatu variabel random kontinu Y memiliki fungsi kepadatan ݂ሺݕǢ ߠሻ yang tergantung kepada parameter tunggal ߠ (atau dalam kasus diskret, ݂ሺݕǢ ߠሻ adalah fungsi peluang). Fungsi log-likelihood adalah algoritma dari ݂ሺݕǢ ߠሻ sebagai fungsi dari ߠ, yaitu

݈ሺߠǢ ݕሻ ൌ ݂ሺݕǢ ߠሻǤ

Banyak hasil-hasil kunci pada GLM berhubungan dengan turunan pertama dari fungsi turunan pertama dari fungsi likelihood ini yaitu

ܷ ൌ_݀ߠ݈݀

yang disebut dengan score.

(23)

݀ ݂ሺݕǢ ߠሻ ݀ߠ ൌ

ͳ ݂ሺݕǢ ߠሻ

݂݀ሺݕǢ ߠሻ

݀ߠ Ǥ (2.8)

Bila diambil ekspektasi dari (2.8), maka diperoleh ܧሺܷሻ ൌ න݀ ݂ሺݕǢ ߠሻ_݀ߠ ݂ሺݕǢ ߠሻ݀ݕ ൌ න݂݀ሺݕǢ ߠሻ_݀ߠ ݀ݕ

dengan pengintegralan terhadap y.

Selanjutnya, pengintegralan pada sisi kanan adalah න݂݀ሺݕǢ ߠሻ_݀ߠ ݀ݕ ൌ_݀ߠ݀ න ݂ሺݕǢ ߠሻ ݀ݕ ൌ_{݀ߠ ͳ ൌ Ͳ}݀

karena ׬ ݂ሺݕǢ ߠሻ ݀ݕ ൌ ͳ. Dengan demikian,

ܧሺܷሻ ൌ Ͳ (2.9)

Jika (2.8) diturunkan terhadap ߠ dan kemudian diambil ekspektasinya, maka

ܧ ቆ_݀ߠ݀ ݀ ݂ሺݕǢ ߠሻ_݀ߠ ቇ ൌ_{݀ߠ ܧ ቆ}݀ ݀ ݂ሺݕǢ ߠሻ_݀ߠ ቇ

ൌ_݀ߠ݀ න݀ ݂ሺݕǢ ߠሻ_݀ߠ ݂ሺݕǢ ߠሻ݀ݕ

ൌ_݀ߠ݀ න_{݂ሺݕǢ ߠሻ}ͳ ݂݀ሺݕǢ ߠሻ_݀ߠ ݂ሺݕǢ ߠሻ݀ݕ

ൌ_݀ߠ݀ଶ_ଶන ݂ሺݕǢ ߠሻ ݀ݕ

ൌ_݀ߠ݀ଶ_ଶͳ݀ݕ ൌ ͲǤ (2.10)

Karena ׬ ݂ሺݕǢ ߠሻ ݀ݕ ൌ ͳ. Bentuk ௗ

ௗఏ׬

ௗ ୪୭୥ ௙ሺ௬Ǣఏሻ

ௗఏ ݂ሺݕǢ ߠሻ݀ݕ dapat ditulis

(24)

݀ ݀ߠන

݀ ݂ሺݕǢ ߠሻ

݀ߠ ݂ሺݕǢ ߠሻ݀ݕ ൌ න ݀ ݀ߠቈ

݀ ݂ሺݕǢ ߠሻ

݀ߠ ݂ሺݕǢ ߠሻ቉ ݀ݕ

ൌ න݀ଶ ݂ሺݕǢ ߠሻ_݀ߠ_ଶ ݂ሺݕǢ ߠሻ݀ݕ ൅ න݀ ݂ሺݕǢ ߠሻ_݀ߠ ݂݀ሺݕǢ ߠሻ_݀ߠ ݀ݕǤ

Dengan mensubstitusi (2.8) pada bagian kedua dari persamaan di atas, diperoleh

ൌ න݀ଶ ݂ሺݕǢ ߠሻ_݀ߠ_ଶ ݂ሺݕǢ ߠሻ݀ݕ ൅ න ቈ݀ ݂ሺݕǢ ߠሻ_݀ߠ ቉

ଶ

݂ሺݕǢ ߠሻ݀ݕ ൌ Ͳ

dengan demikian,

ܧ ቈ݀ଶ ݂ሺݕǢ ߠሻ_݀ߠ_ଶ ቉ ൌ െܧ ൥ቈ݀ ݂ሺݕǢ ߠሻ_݀ߠ ቉

ଶ

൩ (2.11)

dalam terminologi statistic score ditulis sebagai ܧሾܷƍሿ ൌ െܧሾܷଶ_ሿ

dengan ܷƍ menotasikan turunan dari U terhadapߠ. Karena E[U] = 0, maka variansi dari U yang disebut dengan informasi, adalah

ܸܽݎሺܷሻ ൌ ܧሾܷଶ_{ሿ ൌെܧሾܷ}ƍ_ሿǤ _(2.12) Secara umum, misalkan variabel random ܻ_ଵǡ ܻ_ଶǡ ǥ ǡ ܻ_ே memiliki distribusi peluang yang bergantung kepada parameter-parameter ߚ_ଵǡ ߚ_ଶǡ ǥ ǡ ߚ_௣. Dengan fungsi log-likelihood dari ܻ_ଵǡ ܻ_ଶǡ ǥ ǡ ܻ_ே adalah

݈ሺߚǢ ݕሻ ൌ ෍ ݈௜ሺߚǢ ݕ௜ሻ ே

௜ୀଵ

(25)

ܷ௝ ൌ߲݈ሺߚǢ ݕሻ_߲ߚ ௝ ൌ ෍

߲݈ሺߚǢ ݕ௜ሻ

߲ߚ௝ ே

௜ୀଵ

dengan argumen yang sama dengan (2.9), maka

ܧ ቈ߲݈ሺߚǢ ݕ_߲ߚ ௜ሻ

௝ ቉ ൌ Ͳ (2.13)

dan dengan demikian ܧ൫ߚ௝൯ ൌ Ͳ untuk setiap j.

Matrik informasi (information matrix) didefinisikan sebagai matriks variansi±kovariansi (variance-covariance matrix) dari ܷ_௝, ܫ ൌ ܧሺ்ܷܷሻ dengan U

adalah vektor dari ܷ_ଵǡ ܷ_ଶǡ ǥ ǡ ܷ_௣, sehingga

ܫ௝௦ ൌ ܧൣܷ௝ܷ௦൧ ൌ ܧ ቈ_߲ߚ߲݈ ௝

߲݈ ߲ߚ௦቉Ǥ

Dengan argumen yang analog dengan kasus variabel random tunggal dengan parameter tunggal, maka

ܧ ቈ_߲ߚ߲ଶ݈

௝߲ߚ௦቉ ൌ െܧ ቈ

߲݈ ߲ߚ௝

߲݈

߲ߚ௦቉ (2.14)

sehingga dengan demikian, elemen dari matriks informasi adalah

ܫ௝௦ ൌ െܧ ቈ ߲ ଶ_݈

߲ߚ௝߲ߚ௦቉Ǥ (2.15)

2.7 Generalized linear model (GLM)

(26)

1. Distribusi dari variabel respon didasarkan pada keluarga ekponensial sehingga distribusi dari variabel respon tidak harus normal/mendekati normal. 2. Transformasi dari rataan variabel respon berhubungan linier dengan variabel

penjelas.

GLM penting dalam analisis data asuransi. Dengan data asuransi, asumsi model normal sering kali tidak berlaku. Sebagai contoh, ukuran klaim, frekuensi klaim dan terjadinya klaim pada satu polis adalah semua hasil yang tidak normal.

Diberi respon y, generalized linear model (GLM) adalah

݂ሺݕሻ ൌ ܿሺݕǡ ߶ሻ݁ݔ݌ ൜ݕߠ െ ܽሺߠሻ_߶ ൠ ǡ݃ሺߤሻ ൌ ݔ்_ߚǤ _(2.16)

dimana,

1. Persamaan ݂ሺݕሻ menyatakan bahwa distribusi respons merupakan keluarga eksponensial. Persamaan kedua menetapkan transformasi rataan, ݃ሺߤሻ , adalah berhubungan linear dengan variabel penjelas ݔ.

2. Pemilihan ܽሺߠሻ menentukan distribusi respon.

3. Pemilihan ݃ሺߤሻ, disebut link, menentukan bagaimana rataan terkait ke variabel penjelas ݔ. Dalam model linier normal, hubungan antara rataan dari y dan variabel-variabel penjelas ߤ ൌ ݔ்ߚ. Dalam GLM, diperumum menjadi ݃ሺߤሻ ൌ ݔ்_ߚ_{, di mana}_݃_{adalah monoton, fungsi terdiferensialkan (seperti log}

atau akar kuadrat).

(27)

5. Pengamatan pada ݕ diasumsikan independen.

2.7.1 Fungsi Link

Fungsi link adalah suatu fungsi yang menghubungkan ߤ_௜ ൌ ܧሺݕ_௜ሻ dengan fungsi linear ࢞_࢏ࢀࢼ. Sebagian besar hasil regresi bergantung pada pemilihan fungsi link-nya. Suatu fungsi link disebut fungsi link kanonik (canonical link function) apabila ݃ሺߤ_௜ሻ ൌ ߟ ൌ ߠ, dimana ߠ adalah parameter kanonik. Berikut beberapa fungsi link kanonik untuk beberapa distribusi.

Distribusi Fungsi Link Kanonik

Normal ߟ ൌ ߤ

Poisson ߟ ൌ ݈݋݃ߤ

Binomial ߟ ൌ ሾߨȀሺͳ െ ߨሻሿ

Gamma ߟ ൌ ߤିଵ

Invers ߟ ൌ ߤିଶ

2.7.2 Metode Iterasi Newton-Raphson

Metode Newton-Raphson adalah metode yang digunakan untuk menyelesaikan persamaan non-linear secara iteratif, misalnya mencari lokasi agar suatu fungsi maksimum pada persamaan likelihood. Dengan log-likelihood ݈ሺࢼሻ kita mengharapkan nilai డ௟ሺࢼሻ

డࢼ ൌ Ͳ dan maksimum.

Kita memperluas ߲݈ሺࢼሻȀ߲ࢼ mendekati ࢼ_଴ sehingga ߲݈ሺࢼሻ

߲ࢼ ൌ ݈ƍሺࢼሻ ൌሶ ݈ƍሺࢼ଴ሻ ൅

߲ଶ_݈ሺࢼሻ

߲ࢼ߲ࢼ࢚ሺࢼ െ ࢼ଴ሻǤ (2.17)

Persamaan (2.17) disamakan dengan nol sehingga diperoleh,

݈ƍ_ሺࢼ

଴ሻ ൅߲ ଶ_݈ሺࢼሻ

(28)

ࢼ ൌ ࢼ଴െ ቈ߲

ࢼሺ௠ሻ_{dinotasikan sebagai nilai}_ࢼ_{pada iterasi ke-m. Diperoleh iterasi sebagai}

berikut, merevisi ࢼ, mengarah pada urutan seperti yang dinyatakan di atas akan cepat konvergen. Pendekatan ini dapat diadaptasi ketika ࢼ adalah vektor. Perbarui persamaan (2.18) dengan matriks invers dimana ݈ƍሺࢼሻ adalah vektor dari turunan parsial ߲݈ ߲ߚΤ _௝. Vektor ݈ƍሺࢼሻ disebut score vector, dan ݈ƍƍሺࢼሻ, matriks dari turunan parsial perkalian ߲ଶ݈Ȁ൫߲ߚ_௝߲ߚ_௦൯, disebut matriks Hessian. Tata cara mengevaluasi perulangan pada vektor skor dan matrik Hessian untuk memperbarui perkiraan seperti pada (2.18) disebut iterasi Newton-Raphson.

2.7.3 Estimasi Maksimum Likelihood

MLE dari ߚ dan ߶ diturunkan dengan memaksimalkan log-likelihood, yang didefinisikan,

dimana ݕ_௜ diasumsikan independen.

Untuk mencari maksimal, ݈ሺߚǡ ߶ሻ diturunkan terhadap ߚ_௝.

(29)

(30)

2.7.4 Fisher Scoring

Fisher menyarankan menggantikan ݈ԢԢሺࢼሻ dalam (2.18) dengan ekspektasi ܧሾ݈ԢԢሺࢼሻሿ, dan menunjukkan bahwa ܧሾ݈ԢԢሺࢼሻሿ ൌ െܧሾ݈ᇱሺࢼሻ݈ᇱሺࢼሻ்ሿ.

Untuk menentukan ekspektasi dari turunan kedua, digunakan sifat pada (2.14) sehingga,

Matrik Hessian yang diharapkan (Expected Hessian Matrix) menjadi

െܧ ቆ_߲ߚ߲ଶ݈

Iterasi untuk Fisher scoring menjadi

ߚሺ௧ାଵሻ_{ൌ ߚ}ሺ௧ሻ_{൅ ሾࢄ}ࢀ_ࢃࢄሿି૚_ࢄࢀ_ࢃ࢑ _(2.25)

dimana ࢃǡ ࢄǡ ࢑ߚሺ௧ሻǤ

2.7.5 Iteratively Weighted Least Square (IWLS)

(31)

ߚሺ௧ାଵሻ_{ൌ ߚ}ሺ௧ሻ_{൅ ሾࢄ}ࢀ_ࢃࢄሿି૚_ࢄࢀ_ࢃ࢑Ǥ

Bentuk tersebut dapat dituliskan kembali menjadi: ߚሺ௧ାଵሻ_{ൌ ሾࢄ}ࢀ_ࢃࢄሿି૚_ࢄࢀ_ࢃࢄߚሺ௧ሻ_{൅ ሾࢄ}ࢀ_ࢃࢄሿି૚_ࢄࢀ_ࢃ࢑

ൌ ሾ்ܺ_ܹܺሿିଵ_൜்ܺ_ܹܺߚሺ௧ሻ_{൅ ܺ}்_{ܹ ൬}߲ߟ

߲ߤ൰ሺݕ െ ߤሻൠ

ൌ ሾ்ܺ_ܹܺሿିଵ_்ܺ_{ܹ ൜ܺߚ}ሺ௧ሻ_{൅ ൬}߲ߟ

ൌ ሾ்ܺ_ܹܺሿିଵ_்ܺ_{ܹ ൜ߟ ൅ ൬}߲ߟ

ൌ ሾ்ܺ_ܹܺሿିଵ_்ܺ_ܹ݃Ǥ _(2.26)

݃ sering disebut sebagai working variate, yaitu :

݃ ൌ ߟ ൅ ൬߲ߟ_߲ߤ൰ሺݕ െ ߤሻ (2.27)

݃௜ ൌ ߟ௜൅ ൬߲ߟ_߲ߤ௜

௜൰ ሺݕ௜െ ߤ௜ሻ

dimana ߟ_௜ ൌ ܺ_௜்ߚ adalah prediktor linear.

Persamaan (2.26) merupakan hasil modifikasi dari metode Fisher scoring yang dapat dipandang sebagai Iteratively Weighted Least Square.

2.8 Goodness Of Fit

Menentukan suatu model dari suatu data dianggap sebagai cara untuk mengganti satu set data observasi dengan satu set nilai prediksinya (fitted values), Ɋො, yang diperoleh dari suatu model yang biasanya menyertakan parameter dengan jumlah yang relatif sedikit.

(32)

2.8.1 Pearson Chi-square

Ukuran lain yang biasa digunakan untuk uji goodnes of fit adalah Pearson Chi-square statistic (McCullagh & Nelder, 1989) yang didefinisikan sebagai

߯ଶ _{ൌ ෍}ሺݕ௜െ ߤ௜ሻଶ

ܸܽݎሺߤ௜ሻ

௡

௜ୀଵ

(2.28) Dimana ܸܽݎሺߤ_௜ሻ yaitu fungsi variansi dari distribusi peluang datanya, dan ܸܽݎሺߤ௜ሻ ൌ௏௔௥ሺ௒_థ ೔ሻ. Untuk sampel yang besar, Pearson Chi-square statistic

berdistribusi Chi-square dengan derajat bebas n-p, dimana n yaitu jumlah observasi dan p yaitu jumlah parameternya. Hipotesis untuk Pearson Chi-square statistic, yaitu:

ܪ଴ǣ ߤ௜ ൌ ݁௜ሺߚ଴൅ ߚଵݔଵ൅ ڮ ൅ ߚ௣ݔ௣ሻ

ܪଵǣ ߤ௜ ് ݁௜ሺߚ଴൅ ߚଵݔଵ൅ ڮ ൅ ߚ௣ݔ௣ሻ

ܪ଴ diterima (yang berarti bahwa model regresinya tepat), yaitu jika nilai Pearson

Chi-square statistic, ܲ ൏ ߯_{ሺןǢ௡ି௣ሻ}ଶ . Atau bisa juga digunakan p-value

=൛߯_{ሺןǢ௡ି௣ሻ}ଶ ൒ ܲൟ untuk uji hipotesisnya, dimana ܪ_଴ diterima jika p-value !Į

2.8.2 Deviance

Deviance adalah sama dengan,

ܦ ൌ ʹ൫݈ሺ࢟Ǣ ࢟ሻ െ ݈ሺࣆǢ ࢟ሻ൯ (2.29)

di mana ݈ሺ࢟Ǣ ࢟ሻdan ݈ሺࣆǢ ࢟ሻadalah model log likelihood yang dievaluasi masing-masing di bawah ࣆ dan ࢟. Untuk sampel yang besar, Deviance-nya berdistribusi

Chi-square dengan derajat bebas n-p, di mana n adalah jumlah datanya dan p

adalah jumlah parameternya. Hipotesis yaitu:

ܪ଴ǣ ߤ௜ ൌ ݁௜݁ݔ݌ሺߚ଴൅ ߚଵݔଵ൅ ڮ ൅ ߚ௣ݔ௣ሻ

ܪଵǣ ߤ௜ ് ݁௜൫ߚ଴൅ ߚଵݔଵ൅ ڮ ൅ ߚ௣ݔ௣൯ (2.30)

ܪ଴ diterima berarti bahwa model regresinya tepat atau bisa digunakan, yaitu jika

(33)

Deviance bisa digunakan untuk membandingkan model bersarang (nested model) jika digunakan estimasi maksimum likelihood (McCullagh & Nelder, 1989). Membandingkan antara model tereduksi dengan model penuh. Misalkan ܦଵ dan ݂݀ଵ merupakan Deviance dan derajat bebas untuk model penuh, dan ܦଶ

dan ݂݀_ଶ merupakan Deviance dan derajat bebas untuk model yang tereduksi. Kemudian dicari selisih dari Deviance model tereduksi dengan Deviance model penuh,

οܦ ൌ ܦଶെ ܦଵ (2.31)

Dimana untuk sampel οܦ akan berdistribusi Chi-square dengan derajat bebasnya ݂݀ଶെ ݂݀ଵ (sebanyak j).

ܪ଴ diterima, yang berarti bahwa variabel independen yang dikeluarkan

dari model penuhnya itu bernilai nol, yang berarti bahwa model tereduksi lebih baik dari model penuh, jika οܦ ൏ ߯_{ሺןǢ௝ሻ}ଶ . Namun jika dari uji tersebut, model penuh masih lebih baik dari model reduksinya (ܪ_଴ ditolak), maka perlu dilihat lagi apakah masih ada variabel independen lain (selain yang pertama) yang tidak signifikan dalam model penuhnya. Jika tidak ada lagi maka model penuhnya bisa digunakan. Namun jika masih ada, maka dilakukan reduksi variabel lagi dan uji model reduksinya.

Keuntungan Deviance dibandingkan Pearson Chi-square statistic yaitu bahwa Deviance bisa digunakan untuk membandingkan model bersarang (nested model) jika digunakan estimasi maksimum likelihood (McCullagh & Nelder, 1989). Dalam hal ini membandingkan model tersarang berarti membandingkan antara model dengan nilai observasi sebenarnya dengan model dengan nilai prediksinya.

(34)

2.8.3 AIC dan BIC

Ketika beberapa model cocok, dapat membandingkan performa model-model alternatif berdasarkan beberapa likelihood langkah-langkah yang telah diusulkan dalam literatur statistik. Dua metode yang paling sering digunakan adalah ukuran Akaike Information Criteria (AIC) dan Bayesian Schwartz Information Criteria (BIC). AIC didefinisikan sebagai

ܣܫܥ ൌ െʹ݈ ൅ ʹ݌ (2.32) dimana ݈menunjukkan log-likelihood dievaluasi di bawah ࣆ dan ݌ jumlah parameter.

Untuk ukuran ini, semakin kecil AIC, semakin baik model. BIC didefinisikan sebagai (Schwarz, 1978),

(35)

28 BAB 3

TUJUAN DAN MANFAAT PENELITIAN

3.1 Tujuan Penelitian

Tujuan dalam penelitian ini adalah untuk mengatasi overdispersi yang terjadi pada model regresi Poisson dengan menggunakan model regresi model Binomial Negatif dan Poisson Tergeneralisasi, kemudian mengestimasi parameter kedua model regresi. Dari dua tipe model regresi yang diperoleh, akan diuji ketepatan model. Kemudian diimplementasikan pada kasus kecelakaan kendaraan bermotor di lalu lintas di Kota Padang.

3.2 Manfaat Penelitian

(36)

29 BAB 4

METODE PENELITIAN

Tahapan metode yang dilakukan dalam penelitian ini adalah sebagai berikut:

1. Pengumpulan literatur yang berhubungan dengan Model Regresi Poisson, Binomial Negatif dan Poisson Tergeneralisasi.

2. Menentukan variabel respon dan variabel bebas.

3. Melakukan uji signifikansi dan interaksi antara faktor utama pada model regresi Poisson dengan melakukan Analisis Deviance.

4. Melakukan uji signifikansi dan interaksi antara faktor cabang pada model regresi Poisson dengan melakukan Analisis Deviance.

5. Membentuk model dugaan regresi Poisson.

6. Mereduksi model yang diperoleh dengan menggunakan signifikansi.

7. Estimasi semua parameter yang telah signifikan untuk model regresi Poisson. 8. Pendeteksian overdispersi pada data dengan melihat nilai Pearson Chi-square

dan Deviance yang dibagi dengan derajat bebasnya.

9. Lakukan kembali langkah (7) dan (8) untuk model regresi Binomial Negatif. 10. Identifikasi kebaikan model regresi Poisson dan Binomial Negatif dengan

melihat Pearson Chi-square,Deviance dan log-likelihood dalam permasalah-an overdispersi.

11. Melakukan interpretasi terhadap hasil yang diperoleh.

(37)

30 BAB 5

HASIL DAN PEMBAHASAN

5.1 Model Regresi Poisson

5.1.1 Overdispersi

Overdispersi merupakan salah satu masalah yang sering terjadi dalam analisis regresi Poisson. Distribusi Poisson sering dianjurkan dalam menghitung data tetapi distribusi ini tidaklah mencukupi karena data menampilkan variansi yang lebih besar dari yang diprediksikan oleh Poisson. Hal ini diistilahkan dengan overdispersi atau variansi ekstra-Poisson. Overdispersi bisa terjadi karena pengelompokkan di dalam populasi dan pengukuran atau percobaan secara berulang pada objek yang sama (McCullagh & Nelder, 1989).

Ada atau tidaknya overdispersi dapat dilihat dari nilai Deviance atau

Pearson Chi-square yang dibagi dengan derajat bebasnya. Apabila nilai pearson Chi-square dibagi dengan derajat bebas lebih besar daripada 1, ini menunjukkan nilai variansi yang lebih besar daripada rataan; overdispersi telah terjadi.

Permasalahan overdispersi biasanya terjadi pada kasus-kasus nyata. Untuk mengatasinya dapat dilakukan dua metode, yaitu:

1. Dengan mengansumsikan ܸܽݎሺݕ_௜ሻ ൌ ߪଶߣ_௜ dan mengestimasi parameter ߪଶ, yang kemudian disebut dengan model Quasi-likelihood.

2. Dengan mengubah distribusi variabel respon menjadi binomial negatif, dimana lebih terdispersi daripada Poisson, yang kemudian disebut dengan model regresi binomial negatif.

5.1.2 Percobaan Poisson

(38)

kantor, banyaknya pertandingan yang ditunda karena hujan selama kompetisi sepak bola, dan sebagainya. Percobaan Poisson memiliki ciri-ciri sebagai berikut: 1. Banyaknya hasil percabaan yang terjadi dalam selang waktu atau daerah

tertentu tidak bergantung pada banyaknya hasil percobaan yang terjadi pada selang waktu atau daerah lain yang terpisah

2. Peluang terjadinya satu hasil percobaan selama selang waktu yang singkat sekali atau dalam suatu daerah yang kecil sebanding dengan panjang selang waktu tersebut/besarnya daerah tersebut dantik bergantung pada banyaknya hasil percobaan yang terjadi di luar selang waktu atau daerah tersebut.

3. Peluang bahwa lebih dari satu hasil percobaan akan terjadi dalam selang waktu yang relatif singkat atau dalam daerah yang kecil tersebut diabaikan. 5.1.3 Distribusi Poisson

Misalkan Yi merupakan variabel random hitungan klaim dalam i kelas, i = 1,2 ... n, dimana n menunjukkan jumlah rating classes. Jika Yi mengikuti distribusi Poisson, fungsi kepadatan peluang adalah,

ܲݎሺܻ௜ ൌ ݕ௜ሻ ൌ݁

(39)

(40)

ܸܽݎሺܻ௜ሻ ൌ ܧ൫ܻ௜ଶ൯ െ ൫ܧሺܻ௜ሻ൯ଶ

ൌ ߣ௜ଶ൅ ߣ௜െ ሺߣ௜ሻଶ

ൌ ߣ௜Ǥ

Terlihat bahwa: ܻ_௜̱ܲ݋݅ݏݏ݋݊ሺߣ_௜ሻǡ ܧሺܻ_௜ሻ ൌ ܸܽݎሺܻ_௜ሻ ൌ ߣ_௜ז 5.1.4 Model Regresi Poisson

Dalam berbagai eksperimen, seringkali data cacah yang merupakan objek penelitian dipengaruhi oleh sejumlah variabel penjelas (explanatory). Sehingga untuk mengetahui pola hubungan kedua variabel tersebut, dapat digunakan suatu model regresi yang didasarkan pada distribusi Poisson. Pada regresi Poisson diasumsikan bahwa variabel dependen ܻ_௜ yang menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah variabel independen ݔ_ଵǡ ǥ ǡ ݔ_௞.

Yi mengikuti distribusi Poisson, fungsi kepadatan peluang adalah, ܲݎሺܻ௜ȁݔଵǡ ǥ ǡ ݔ௞ሻ ൌ ݁

ିఒ೔ߣ_௜௬೔

ݕ௜Ǩ ǡ ݕ௜ ൌ Ͳǡͳǡ ǥ

atau ܻ_௜̱ܲ݋݅ሺߣ_௜ሻǡ ݅ ൌ ͳǡʹǡ͵ǡ ǥ ǡ ݊.

Salah satu tujuan dari analisis regresi adalah untuk menentukan pola hubungan antara variabel respon dengan variabel penjelas. Selanjutnya, dalam regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk:

ܧሾܻ௜ȁݔ௜ሿ ൌ ߣ௜ ൌ ߚ଴൅ ݔଵߚଵ൅ ڮ ൅ ݔ௞ߚ௞

atau dalam bentuk vektor ditulis sebagai

ܧሾܻ௜ȁݔ௜ሿ ൌ ߣ௜ൌ ࢞࢏ࢀࢼ (5.2)

Karena nilai ߣ_௜ ൐ Ͳ, maka digunakan fungsi link ߟ_௜ ൌ ሺ࢞_࢏ࢀࢼሻ atau ߟ௜ ൌ ݈݋݃ߣ௜ ൌ ࢞࢏ࢀࢼ untuk menghubungkan ߣ௜ ൌ ܧሾܻ௜ȁ࢞࢏ሿ dengan fungsi linear

࢞࢏ࢀࢼ, sehingga hubungan antara ߣ௜ ൌ ܧሾܻ௜ȁ࢞࢏ሿ dan ࢞࢏ࢀࢼ menjadi tepat. Dengan

demikian, model regresi dapat ditulis dalam bentuk:

ܧሾܻ௜ȁ࢞࢏ሿ ൌ ߣ௜ൌ ݁ݔ݌ሺ࢞࢏ࢀࢼሻǡ ݅ ൌ ͳǡʹǡ ǥ ǡ ݊Ǥ (5.3)

(41)

5.1.5 Estimasi Parameter

Untuk mengestimasi parameter-parameter dalam regresi Poisson dapat digunakan metode estimasi maksimum likelihood (MLE). Metode estimasi maksimum likelihood dapat dilakukan jika distribusi data diketahui.

Langkah pertama yang dilakukan adalah menentukan fungsi likelihood

dari model regresi Poisson. Dengan mengasumsikan ܻ_ଵǡ ܻ_ଶǡ ǥ ǡ ܻ_௡ adalah variabel random yang mutually independent atau Yi ~ Poisson (ߣ_௜), maka fungsi likelihood untuk model regresi Poisson adalah sebagai berikut:

ܮሺࢼሻ ൌ ෑ ܲሺݕ௜Ǣ ࢼሻ

Selanjutnya dari fungsi likelihood diambil nilai lognya sehingga diperoleh fungsi log-likelihood dari persamaan di atas sebagai berikut:

݈݋݃ܮሺࢼሻ ൌ ݈݋݃ ൝ෑ ܲሺݕ௜Ǣ ࢼሻ kovariat untuk observasi ke-i, maka diperoleh persamaan sebagai berikut:

(42)

Kemudian persamaan (5.5) diturunkan terhadap ߚ_௝ dan disamakan dengan

Setelah disamakan dengan nol, maka akan terdapat p (sejumlah parameter yang ada) persamaan. Dalam persamaan (5.6) terdapat suku ݁ݔ݌൫ࢄ_࢏ࢀࢼ൯ sehingga bentuk pasti (closed form) dari ȕ sulit ditentukan. Oleh karena itu, untuk mengestimasi parameter ȕ dilakukan secara iteratif dengan bantuan komputer yang didasarkan pada suatu prosedur (algoritma) iterasi yang disebut dengan

Iteratively Weighted Least Square (IWLS).

Untuk mempermudah penerapan pada regresi IWLS Poisson, notasi rataan Poisson, ߣ_௜, akan diganti dengan ߤ_௜. Dalam rangka mencari Ⱦ෠ pada regresi Poisson log LȕGDSDWGLPDNVLPDONDQGHQJDQPHQJJXQDNDQPHWRGH:/6

߲ ሺࢼሻ

menghasilkan perkiraan kuadrat terkecil, ࢼ෩.

Hal ini menunjukkan bahwa hasil estimasi dengan MLE dan WLS sama. 5.1.6 Uji Ketepatan (Goodness of Fit) Model Regresi Poisson

Uji ketepatan model regresi Poisson dilakukan dengan dua cara yaitu,

(43)

5.1.6.1 Pearson Chi-square statistic untuk Model Regresi Poisson

Ukuran lain yang bisa digunakan untuk uji goodness of fit yaitu Pearson Chi-square statistic (McCullagh & Nelder, 1989) yang didefinisikan sebagai ߯ଶ _{ൌ ෍}ሺݕ௜െ ߤ௜ሻଶ

ܸܽݎሺߤ௜ሻ ௡

௜ୀଵ

dimana ܸܽݎሺߤ_௜ሻ yaitu fungsi variansi dari distribusi peluang datanya dan ܸܽݎሺߤ௜ሻ ൌ௏௔௥ሺ௒_థ ೔ሻ. Karena data yang diobservasi itu berdistribusi Poisson, maka

ܸܽݎሺߤ௜ሻ ൌ ߤ௜ sehingga Statistik Pearson Chi-square untuk regresi Poissonnya

yaitu:

5.1.6.2 Deviance untuk Model Regresi Poisson

Deviance dapat diartikan sebagai logaritma dari uji likelihoodnya, yaitu: ܦ ൌ െʹ݈݋݃ ቂ௅ሺ࢟Ǣࣆሻ_{௅ሺ࢟Ǣ࢟ሻ}ቃ ൌ ʹሺ݈݋݃ܮሺ࢟Ǣ ࢟ሻ െ ݈݋݃ܮሺ࢟Ǣ ࣆሻሻǤ (5.9)

Dalam persamaan tersebut, ܮሺ࢟Ǣ ࣆሻ adalah fungsi likelihood current model

sedangkan ܮሺ࢟Ǣ ࢟ሻ adalah fungsi likelihood saturated model dari distribusi Poisson. Adapun fungsi log-likelihoodcurrent model dituliskan sebagai berikut: ݈ሺࣆǡ ࢟ሻ ൌ ݈݋݃ܮሺࣆǡ ࢟ሻ

ൌ ݈݋݃ ෑ݁ିఓ೔ߤ௜

௬೔

ݕ௜Ǩ ௡

௜ୀଵ

ൌ ෍ ݈݋݃ ቆ݁ିఓ೔ߤ௜

௬೔

ݕ௜Ǩ ቇ ௡

௜ୀଵ

ൌ ෍ሺݕ௜݈݋݃ߤ௜െ ߤ௜െ ݈݋݃ݕ௜Ǩሻ ௡

௜ୀଵ

Ǥ (5.10)

߯ଶ _{ൌ ෍}ሺݕ௜െ ߤ௜ሻଶ

ߤ௜ ௡

௜ୀଵ

(44)

Sedangkan untuk saturated model, dimana nilai-nilai ߤ_௜ diganti dengan nilai ݕ_௜ (tanpa asumsi tentang keeratan hubungannya dengan variabel x nya), fungsi likelihoodsaturated model-nya yaitu:

ܮሺ࢟Ǣ ࢟ሻ ൌ ෑ ݂ሺݕ௜ǡ ݕ௜ሻ

Sehingga fungsi log-likelihoodsaturated model-nya menjadi ݈ሺ࢟Ǣ ࢟ሻ ൌ ݈݋݃ܮሺ࢟Ǣ ࢟ሻ

Sehingga Deviance, D, bisa diperoleh dengan mensubstitusi (5.10) dan (5.11) ke dalam (5.9) dan diperoleh

(45)

5.2 Model Regresi Binomial Negatif

5.2.1 Overdispersi Metode Binomial Negatif

Berdasarkan Poisson, rataan, ߣ_௜, diasumsikan konstan atau homogen dalam kelas. Dengan asumsi ߣ_௜ untuk Gamma dengan rataan ܧሺߣ_௜ሻ ൌ ߤ_௜ dan varians ܸܽݎሺߣ௜ሻ ൌ ߤ௜ଶݒ௜ିଵ , dan ܻ௜ȁߣ௜ menjadi Poisson dengan rataan bersyarat

ܧሺܻ௜ȁߣ௜ሻ ൌ ߣ௜dapat ditunjukkan bahwa distribusi marjinal ܻ௜mengikuti distribusi

binomial negatif dengan fungsi kepadatan peluang,

ܲݎሺܻ௜ ൌ ݕ௜ሻ ൌ න ܲݎሺܻ௜ ൌ ݕ௜ȁߣ௜ሻ݂ሺߣ௜ሻ݀ߣ௜

Apabila overdispersi terjadi pada data yang dimodelkan dengan regresi Poisson, maka salah satu jalan yang dapat diambil adalah memodelkan ulang data tersebut dengan model yang lebih terdispersi. Dalam hal ini, model yang digunakan adalah model binomial negatif.

Misalkan Yi a 3RLVVRQȜi WHUKDGDS Ȝi itu sendiri adalah variabel

random dengan distribusi Gamma. Misalkan Yi_Ȝia3RLVVRQȜi)

Dapat ditunjukkan bahwa distribusi tak bersyarat dari yi adalah binomial

negatif, sebagai berikut:

Fungsi kepadatan peluang bersyarat dari yi adalah ܲݎሺܻ_௜ ൌ ݕ_௜ȁߣ_௜ሻ ൌ௘

షഊ೔ఒ೔೤೔

(46)

ܲݎሺߣ௜ሻ ൌ ͳ

Memanfaatkan definisi dari fungsi densitas bersyarat, maka didapat fungsi peluang bersama dari yiGDQȜi adalah

ܲݎሺݕ_௜ǡ ߣ_௜ሻ ൌ ܲݎሺߣ_௜ሻܲݎሺܻ_௜ൌ ݕ_௜ȁߣ_௜ሻ

Dengan diperolehnya fungsi peluang bersama dari yi GDQȜi, maka fungsi

peluang tak bersyarat dari yi adalah

ܲݎሺܻ௜ ൌ ݕ௜ሻ ൌ න ͳ maka dengan demikian didapatkan

(47)

ൌ_߁ሺݕ߁ሺݕ௜൅ݒ௜ሻ

Harga ekspektasi/rataan dari distribusi ini adalah ܧሺܻ௜ሻ ൌ ܧሾܧሺܻ௜ȁߣ௜ሻሿ ൌ ܧሺߣ௜ሻ ൌ ݒ௜Ǥߤ_ݒ௜

Dengan variansinya adalah ܸܽݎሺܻ௜ሻ ൌ ܧ൫ܻ௜ଶ൯ െ ሾܧሺܻ௜ሻሿଶ

5.2.2 Distribusi Binomial Negatif

Parameter berbeda dapat menghasilkan berbagai jenis distribusi binomial negatif. Misalnya, dengan mengambil vi = a-1, ܻ_௜mengikuti sebuah distribusi binomial negatif dengan rataan E (ܻ_௜) = ߤ_௜ dan variansi Var (ܻ_௜) = ߤ_௜ (1 + aߤ_௜), di mana ܽ menunjukkan parameter dispersi (Lawless, 1987); (Cameron & Trivedi, 1986). Sehingga persamaan (5.14) menjadi,

(48)

ܲݎሺܻ௜ൌ ݕ௜ሻ ൌ߁ሺݕ௜൅ ܽ akan menjadi distribusi Poisson. Jika a > 0, variansi akan melebihi rataan, Var(ܻ_௜) > E(ܻ_௜), dan distribusi memungkinkan overdispersi. Dalam tulisan ini, distribusi akan disebut sebagai binomial negatif.

5.2.3 Estimasi parameter untuk model regresi binomial negatif

Untuk mengestimasi parameter ߚ dan ܽ dalam regresi binomial negatif dapat digunakan metode estimasi maksimum likelihood (MLE) maupun metode moment. Langkah pertama yang dilakukan adalah menentukan fungsi likelihood

dari model regresi binomial negatif. ܧሺܻ_௜ȁ࢞_࢏ሻ ൌ ߤ_௜ ൌ ݁ݔ݌ሺ࢞_࢏ࢀࢼሻ, maka fungsi

likelihood untuk model regresi binomial negatif adalah sebagai berikut: ܮሺࢼǡ ܽሻ ൌ ෑ ܲሺࢼǡ ܽሻ

Selanjutnya dari fungsi likelihood diambil nilai lognya sehingga diperoleh fungsi log-likelihood dari persamaan di atas sebagai berikut:

(49)

ൌ ݈݋݃ ෑȞሺݕ_Ȟሺܽ௜ ൅ ܽ_ିଵ_{ሻ െ ݈݋݃ ෑ ݕ}ିଵሻ ௜Ǩ

Menurut Lawless (1987), ୻ሺூା௞ሻ

୻ሺ௞ሻ ൌ ݇ ൈ ሺͳ ൅ ݇ሻ ൈ ǥ ൈ ሺܫ െ ͳ ൅ ݇ሻ untuk I

bilangan bulat. Sehingga, ୻൫௬೔ା௔షభ൯

୻ሺ௔షభ_ሻ ൌ ܽିଵൈ ሺͳ ൅ ܽିଵሻ ൈ ǥ ൈ ሺݕ௜െ ͳ ൅ ܽିଵሻ. Maka, ݈݋݃ܮሺࢼǡ ܽሻ bisa ditulis tanpa fungsi Gamma dengan

݈݋݃ ቈȞሺݕ_Ȟሺܽ௜൅ ܽ_ିଵ_{ሻ ቉ ൌ ݈݋݃ܽ}ିଵሻ ିଵ_{൅ ሺͳ ൅ ܽ}ିଵ_{ሻ ൅ ڮ ൅ ݈݋݃ሺݕ}

௜െ ͳ ൅ ܽିଵሻ

݈݋݃ ቈȞሺݕ_Ȟሺܽ௜൅ ܽ_ିଵ_{ሻ ቉ ൌ ෍ ݈݋݃ ൬}ିଵሻ ͳ ൅ ܽݎ_{ܽ ൰}

௬೔ିଵ

௥ୀ଴

Likelihood untuk model regresi binomial negatif I dapat ditulis sebagai,

(50)

݈ሺࢼǡ ܽሻ ൌ ෍ ቐ቎݈݋݃ ෍ ሺͳ ൅ ܽݎሻ

Oleh karena itu, estimasi maksimum likelihood, ൫ࢼ෡ǡ ܽො൯, dapat diperoleh dengan memaksimalkan ݈ሺࢼǡ ܽሻterhadap ࢼ dan ܽ. Persamaan terkait adalah,

߲݈ሺࢼǡ ܽሻ

(51)

urutan kedua, dengan ࢼ tetap pada ࢼ_ሺଵሻ, ݈ሺࢼǡ ܽሻ adalah dimaksimalkan terhadap ܽ , menghasilkan ܽ_ሺଵሻ . Persamaan terkait adalah persamaan (5.18), dan permasalahan dapat dilakukan dengan menggunakan iterasi Newton-Raphson. Iterasi dengan ܽ dan ࢼ tetap, ൫ࢼ෡ǡ ܽො൯ nantinya akan diperoleh.

Pendekatan yang lebih mudah untuk mengestimasi ܽ adalah dengan menggunakan perkiraan yang disarankan oleh (Breslow, 1984), yaitu dengan menyamakan Pearson Chi-SquareStatistic dengan derajat bebas,

෍൫ݕ௜ െ ܧሺܻ௜ሻ൯

ଶ

ܸܽݎሺܻ௜ሻ ௜

ൌ ݊ െ ݌

sehingga diperoleh,

෍_ߤሺݕ௜െ ߤ௜ሻଶ

௜ሺͳ ൅ ܽߤ௜ሻ ௜

ൌ ݊ െ ݌ (5.19)

di mana n menunjukkan jumlah rating classes dan p jumlah parameter regresi. Prosedur iterasi seperti yang disebutkan di atas juga dapat digunakan, kali ini menghasilkan MLE dari ࢼ dan estimasi moment dari ܽ, ൫ࢼ෡ǡ ܽ෤൯.

Dalam tulisan ini, ketika ܽ diestimasi dengan MLE, model akan disebut sebagai binomial negatif I (MLE). Demikian juga, ketika diestimasi dengan metode moment, model akan disebut sebagai binomial negatif I (moment).

5.2.4 Uji ketepatan (goodness of fit) model regresi binomial negatif

Uji ketepatan model regresi binomial negatif dilakukan dengan dua cara yaitu, Pearson Chi-Square statistic dan deviance.

5.2.4.1 Pearson Chi-Square pada model regresi binomial negatif

Karena data yang diobservasi itu berdistribusi binomial negatif, maka ܸܽݎሺܻ_௜ሻ ൌ ߤ_௜ሺͳ ൅ ܽߤ_௜ሻ sehingga Pearson Chi-Square Statistic untuk regresi binomial negatif I yaitu:

߯ଶ_{ൌ ෍} ሺݕ௜െ ߤ௜ሻଶ

ߤ௜ሺͳ ൅ ܽߤ௜ሻ ௡

௜ୀଵ

(52)

5.2.4.2 Deviance pada model regresi binomial negatif

Uji kecocokan suatu model terhadap data adalah pertanyaan alami yang timbul pada semua model statistik. Salah satu cara untuk menilai kecocokan model adalah dengan membandingkannya dengan model penuh (saturated model).

Deviance dinotasikan dengan D, didefinisikan sebagai ukuran jarak antara

saturated model dengan current model:

ܦ ൌ ʹሺ݈݋݃ܮሺ࢟Ǣ ࢇሻ െ ݈݋݃ܮሺࣆǢ ࢇሻሻ.

Bila model cocok, maka current model diharapkan dekat dengan (tapi tidak lebih besar dari) saturated model. Nilai deviance yang besar menunjukkan bahwa current model tidak bagus.

Sehingga bentuk persamaan di atas menjadi, ܦ ൌ ʹ ෍ ൜ݕ௜݈݋݃ ൬ݕ_ߤ௜

௜൰ െ ሺݕ௜൅ ܽ

ିଵ_{ሻ ݈݋݃ ൬}ͳ ൅ ܽݕ௜

ͳ ൅ ܽߤ௜൰ൠ ௡

௜ୀଵ

Ǥ (5.21)

5.3 Aplikasi Numerik

5.3.1 Data Penelitian

Data yang digunakan dalam penelitian ini adalah data sekunder dari laporan Unit Lakalantas Poltabes Padang selama tahun 2012. Rating factor dan

(53)

Tabel 5.1Rating factors dan ratingclasses untuk data penelitian Rating

Factors Rating Classes

Pengemudi A1 Lengah

A2 Mengantuk A3 Tidak terampil

A4 Mabuk

A5 Kecepatan tinggi A6 Tidak menjaga jarak A7 Kesalahan pejalan A8 Gangguan binatang Kendaraan B1 Kerusakan sistem rem

B2 Ban pecah

B3 Sistem lampu tidak berfungsi B4 As/kopel lepas

B5 Kerusakan sistem kemudi

Jalan C1 Persimpangan

C2 Jalan sempit

C3 Akses yang tidak dikontrol / dikendalikan C4 Marka jalan kurang / tidak jelas

C5 Tidak ada rambu batas kecepatan C6 Permukaan jalan licin

Cuaca D1 Gelap

D2 Hujan Penyebab Lainnya Penyebab Lainnya

Tabel 5.1 menunjukkan rating factors dan rating classes untuk jumlah kecelakaan. Berdasarkan laporan dari Unit Lakalantas Poltabes Padang selama tahun 2012 terdapat 540 kasus kecelakaan lalu lintas yang terjadi di Kota Padang. Data tersebut kemudian dikelompokkan berdasarkan faktor penyebabnya.

Variabel dalam penelitian ini terdiri dari variabel respon dan prediktor. Adapun variabel yang digunakan pada penelitian ini adalah:

1. Variabel respon (Dependent variable)

Dalam penelitian ini yang menjadi variabel respon adalah data angka jumlah kecelakaan tahun 2012.

2. Variabel bebas (independent variable) atau variabel penjelas

(54)

Lakalantas Poltabes Padang dan dikutip dari Direktorat Jenderal Perhubungan Darat Departemen Perhubungan, www.dephub.go.id.

Ada kalanya kita melakukan suatu regresi dimana variabel penjelas berupa data kualitatif. Jika data kualitatif tersebut memiliki m kategori, maka jumlah variabel dummy yang dicantumkan di dalam model adalah (m - 1).

5.3.2 Proses Analisis Data

Penelitian ini menggunakan tiga model regresi yaitu model regresi poisson, binomial negatif dan poisson tergeneralisasi pada kasus kecelakaan kendaraan bermotor di lalu lintas di Kota Padang. Pada penelitian ini digunakan bantuan software R. Adapun langkah-langkah yang dilakukan adalah sebagai berikut:

1. Membentuk peubah dummy pada variabel bebas.

2. Menguji signifikansi tiap rating classes dengan menggunakan analisis

deviance.

3. Mengestimasi parameter untuk tiap rating classes yang signifikan pada model regresi Poisson.

4. Mengestimasi parameter untuk tiap rating classes yang signifikan pada model regresi Binomial Negatif.

5. Memilih model terbaik.

Untuk menguji signifikansi tiap rating classes digunakan analisis

deviance. Berikut ini akan disajikan hasil analisis deviance model regresi Poisson yang memuat tiap rating classes.

Tabel 5.2 Analisis deviance model regresi Poisson tiap rating classes

Df Deviance P(>|Chi|)

NULL 42 371.7

A1 Lengah 1 33.998 5.52E-09 ***

A2 Mengantuk 1 26.96 2.08E-07 ***

A3 Tidak terampil 1 28.561 9.08E-08 ***

A4 Mabuk 1 14.501 0.00014 ***

A5 Kecepatan tinggi 1 51.037 9.06E-13 ***

A6 Tidak menjaga jarak 1 12.516 0.000403 ***

(55)

A8 Gangguan binatang 1 11.286 0.000781 *** B1 Kerusakan sistem rem 1 11.279 0.000784 ***

B2 Ban pecah 1 5.088 0.024094 *

B3 Sistem lampu tidak berfungsi 1 1.927 0.165139

B4 As/kopel lepas 1 0.524 0.469311

B5 Kerusakan sistem kemudi 1 5.248 0.021972 *

C1 Persimpangan 1 14.557 0.000136 ***

C2 Jalan sempit 1 0.315 0.574905

C3 Akses yang tidak dikontrol / dikendalikan

Dari Error! Reference source not found. terlihat bahwa terdapat rating classes yang tidak signifikan. Sehingga harus dilakukan kembali analisis deviance

dengan membuang pasangan rating classes yang tidak signifikan. Berikut adalah ini adalah analisis deviance model regresi Poisson untuk tiap rating classes yang telah signifikan.

Tabel 5.3 Analisis deviance model regresi Poisson untuk tiap rating classes yang sudah signifikan.

Dari hasil analisis deviansi model regresi Poisson untuk tiap rating classes

(56)

tidak terampil, mabuk, kecepatan tinggi, tidak menjaga jarak, kesalahan pejalan, kerusakan sistem rem, kerusakan sistem kemudi, persimpangan dan gelap. Hasil estimasi parameter untuk rating classes yang signifikan, dapat dilihat pada Tabel 5.4.

Tabel 5.4 Estimasi parameter untuk model Poisson rating classes yang signifikan Nilai estimasi beta tiap dummy

No. Beta Nilai_beta Standar.error Varians Pval

Intercept 1.61 0.088 0.008 0

A1 Lengah 0.83 0.13 0.017 0

A2 Mengantuk 0.56 0.152 0.023 0.00024

A3 Tidak terampil 0.77 0.157 0.025 0

A4 Mabuk 0.94 0.163 0.026 0

A5 Kecepatan tinggi 0.99 0.16 0.026 0

A6 Tidak menjaga jarak 0.63 0.17 0.029 0.00022

A7 Kesalahan pejalan 0.82 0.199 0.04 0.00004

B1 Kerusakan sistem rem 0.72 0.214 0.046 0.00077

B5 Kerusakan sistem kemudi

0.51 0.157 0.025 0.00114

C1 Persimpangan 0.71 0.173 0.03 0.00003

D1 Gelap 0.68 0.168 0.028 0.00005

df 31

Pearson's X^2 126.7225

log L -154.4214

Nilai p-value untuk semua parameter kecil dari 0.005, nilai ini mengidentifikasikan bahwa estimasi parameter sudah signifikan. Dari Tabel 5.4 terlihat bahwa terjadi overdispersi pada data karena nilai Pearson Chi-square

dibagi dengan derajat bebas nilainya lebih besar dari 1. Untuk mengatasi masalah overdispersi pada data cacah ini dapat diatasi dengan memodel-ulangkan dengan regresi binomial negatif.

Tabel 5.5 Estimasi parameter untuk model Binomial Negatif (MLE) rating classes

Nilai a = 0.005753275

Nilai estimasi beta tiap dummy

Intercept 1.61 0.09 0.008 0

A1 Lengah 0.83 0.14 0.019 0

A2 Mengantuk 0.57 0.16 0.025 0.00029

(57)

A4 Mabuk 0.95 0.17 0.028 0

A5 Kecepatan tinggi 0.98 0.17 0.029 0

A6 Tidak menjaga jarak 0.62 0.18 0.031 0.00042

B5 Kerusakan sistem

kemudi 0.5 0.16 0.027 0.00246

C1 Persimpangan 0.7 0.18 0.033 0.00013

D1 Gelap 0.7 0.17 0.03 0.00006

df 30

Pearson's X^2 117.8985

log L -3372.09

Setelah data yang sama seperti data yang digunakan untuk Tabel 5.4 dimodel ulangkan dengan model Binomial Negatif (MLE), terlihat bahwa permasalahan overdispersi yang terjadi pada model Poison mulai dapat teratasi. Hal ini dapat dilihat pada Tabel 5.5, dimana nilai Pearson Chi-square dibagi dengan derajat bebas nilainya mulai mendekati 1. Semua parameter pada data yang dimodel-ulangkan ini tetap signifikan.

Kemudian dengan menggunakan data sama, dilakukan pemodelan ulang dengan model Binomial Negatif (Moment). Hasilnya dapat dilihat pada Tabel 5.4 di bawah:

Tabel 5.6 Estimasi parameter untuk model Binomial Negatif (MLE) rating classes

Nilai a = 0.2557075

Nilai estimasi beta tiap dummy

Intercept 1.56 0.15 0.024 0

A1 Lengah 0.94 0.28 0.078 0.00079

A2 Mengantuk 0.74 0.31 0.095 0.01593

A3 Tidak terampil 0.95 0.33 0.106 0.00333

A4 Mabuk 1.02 0.33 0.108 0.0019

A5 Kecepatan tinggi 0.92 0.38 0.144 0.01478

(58)

B5 Kerusakan sistem

kemudi 0.36 0.33 0.112 0.28433

C1 Persimpangan 0.49 0.39 0.156 0.21116

D1 Gelap 0.87 0.34 0.115 0.01027

df 30

Pearson's X^2 31

log L -1501.25

(59)

52 BAB 6

RENCANA TAHAPAN BERIKUTNYA

Setelah data yang sama seperti data yang digunakan untuk Tabel 5.4 dimodel ulangkan dengan model Binomial Negatif (MLE), terlihat bahwa permasalahan overdispersi yang terjadi pada model Poison mulai dapat teratasi. Hal ini dapat dilihat pada Tabel 5.5, dimana nilai Pearson Chi-square dibagi dengan derajat bebas nilainya mulai mendekati 1. Semua parameter pada data yang dimodel-ulangkan ini tetap signifikan.

(60)

53 BAB 7

KESIMPULAN DAN SARAN

7.1 Kesimpulan

Berdasarkan hasil analisis dan pembahasan model regresi Poisson yang diperoleh ternyata tidak memenuhi asumsi equi-dispersion sehingga digunakan model regresi binomial negatif untuk pemodelan kasus kecelakaan kendaraan bermotor di lalu lintas. Dari data diperoleh kesimpulan bahwa model regresi binomial negatif (MLE) dapat mengurangi permasalahan dalam data yang mengandung overdispersi. Dengan bentuk model sebagai berikut,

Ɋ ൌ ሺͳǤ͸ͳ ൅ ͲǤͺ͵ͳ ൅ ͲǤͷ͹ʹ ൅ ͲǤ͹ͺ͵ ൅ ͲǤͻͷͶ ൅ ͲǤͻͺͷ ൅ ͲǤ͸ʹ͸

൅ ͲǤͺ͵͹ ൅ ͲǤ͹Ͳͳ ൅ ͲǤͷͲͷ ൅ ͲǤ͹Ͳͳ ൅ ͲǤ͹Ͳͳሻ

Dimana faktor yang paling berpengaruh terhadap jumlah kecelakaan kendaraan bermotor di lalu lintas adalah pengemudi lengah, pengemudi mengantuk, pengemudi tidak terampil, pengemudi mabuk, kecepatan kendaraan tinggi, tidak menjaga jarak, kesalahan pejalan, kerusakan sistem rem, kerusakan sistem kemudi, jalan persimpangan dan cuaca gelap.

7.2 Saran

(61)

(62)

55 DAFTAR PUSTAKA

Bailey, Robert A., and Leroy J. Simon. "Two Studies in Automobile Insurance Ratemaking." ASTIN Bulletin, 1960: 192-217.

Bain, Lee J., and Max Engelhardt. Introduction to Probability and Matematical Statistic. California: Duxbury Press, 1991.

Breslow, N. E. "Extra-Poisson Variation in Log-Linear Models." Journal of the Royal Statistical Society, 1984: Blackwell Publishing for the Royal Statistical Society.

&DPHURQ$&ROLQGDQ3UDYLQ.7ULYHGL³(FRQRPHWULF0RGHOV%DVHGRQ&RXQW Data: Comparisons and Applications of Some EstimaWRUV DQG 7HVWV´

Journal of Applied Econometrics, 1986: 29-53.

&R['5³6RPH5HPDUNVRQ2YHUGLVSHUVLRQ´Biometrika, 1983: 269-274. Harrington, Scott E. "Estimation and Testing for Functional Form in Pure

Premium Regression Models." ASTIN Bulletin, 1986: 31-43.

Ismail, Noriszura, and Abdul Aziz Jemain. "Bridging Minimum Bias and Maximum Likelihood Methods through Weighted Equation." Casualty Actuarial Society Forum, 2005: 367-394.

Ismail, Noriszura, and Abdul Aziz Jemain. "Handling Overdispersion with Negative binomial and Generalized Poisson Regression Models." Casualty Actuarial Society Forum, 2007: 103-158.

Jong, P. d., & Heller, G. Z. (2008). Generalized Linear Models for Insurance Data. New York: Cambridge University Press.

/DZOHVV -HUDOG ) ³Negative binomial and Mixed Poisson 5HJUHVVLRQ´ The Canadian Journal of Statistics, 1987: 209-225.

McCullagh, P., dan J.A. Nelder. Generalized Linear Models. 2nd Edition. London: Chapman and Hall, 1989.

1HOGHU-$GDQ</HH³/LNHOLKRRG4XDVL-Likelihood and Pseudolikelihood: 6RPH&RPSDULVRQV´urnal of the Royal Statistical Society, 1992: 273-284. 5HQVKDZ $UWKXU ( ³0RGHOOLQJ WKH &ODLPV 3URFHVV LQ WKH 3UHVHQFH RI

(63)

Sari, Devni Prima. Penanganan Overdispersi dengan Model Regresi Binomial Negatif I Pada Faktor-Faktor yang Mempengaruhi Angka Kematian yang Disebabkan Oleh Kanker Paru-Paru. Prosiding Seminar Nasional Matematika UNS, 2010: 445-452.

Sari, Devni Prima. Penanganan Overdispersi dengan Model Regresi Binomial Negatif I dan Binomial Negatif II. Universitas Gadjah Mada, 2010.

Sari, Devni Prima. Kajian Overdispersi Pada Regresi Poisson dengan Menggunakan Regresi Poisson Tergeneralisasi I. Prosiding Seminar Nasional Matematika UNAND, 2011: 122-128.

Schwarz, Gideon. "Estimating the Dimension of a Model." The Annals of Statistics, 1978: 461-464.

UU RI No.22 Tahun 2009. Undang-Undang No. 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan. Diakses melalui www.polri.go.id tanggal 2 Januari 2013.

(64)

LAMPIRAN

1. INSTRUMENT

a) Model Regresi Poisson poisson<- function(data3) {

x=as.matrix(data3[,-(12)]) X=cbind(1,x)

Y=as.vector(data3[,12]) x=0

new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(Y))

{

beta=new.beta

miul=exp(as.vector(X%*%beta)) W=diag(miul)

I.inverse=solve(t(X)%*%W%*%X) k=(Y-miul)/miul

z=t(X)%*%W%*%k

new.beta=as.vector(beta+I.inverse%*%z) new.miul=exp(as.vector(X%*%new.beta))

loglikelihood=sum((Y*log(new.miul))-new.miul-lfactorial(Y)) Deviance=sum(Y*log(Y/miul)-(Y-miul))

pearson=sum((Y-miul)^2/new.miul) }

varians=as.vector (diag(I.inverse)) std.error=sqrt(varians)

df=dim(X)[1]-dim(X)[2] n=dim(X)[1]

p=dim(X)[2]

AIC=-2*loglikelihood+2*p BIC=-2*loglikelihood+p*log(n)

coef<-c(beta) SE<-c(std.error) tstat<-coef/SE

pval=2*pnorm(-abs(tstat))

(65)

frame=data.frame(beta=c("intercept","Lengah","Mengantuk","Tidak_terampi l","Mabuk","Kecepatan_tinggi","Tidak_menjaga_jarak","Kesalahan_pejalan" ,"Kerusakan_sistem_rem","Kerusakan_sistem_kemudi","Persimpangan","Gel ap"),nilai_beta=new.beta,standar.error=std.error,varians=round(varians,3),pv al=round(pval,5))

cat("nilai estimasi beta tiap dummy","\n") print(frame,digits=2)

cat("===============================================","\n") cat("df =",df,"\n")

cat("Pearson's X^2=",pearson,"\n") cat("Deviance =",Deviance,"\n") cat("log L =",loglikelihood,"\n") cat("AIC =",AIC,"\n")

cat("BIC =",BIC,"\n") }

poisson(data3)

b) Model Regresi Binomial Negatif (MLE) BN.mle<- function(data3)

new.beta <- rep(c(0.001), dim(X)[2]) for (i in 1:length(Y))

{ a=new.a beta=new.beta

miul= exp(as.vector(X%*%beta)) W=diag(miul/(1+ a*miul))

I.inverse=solve(t(X)%*%W%*%X) k=(Y-miul)/miul

z=t(X)%*%W%*%k