KAJIAN OVERDISPERSI PADA REGRESI POISSON
MENGGUNAKAN SEMIPARAMETRIK
ZERO-INFLATED
POISSON
NANDA PINANDITA RAMADHANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi yang berjudul Kajian Overdispersi pada Regresi Poisson Menggunakan Semiparametrik Zero-Inflated Poissonadalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, Agustus 2014
Nanda Pinandita ramadhani
ABSTRAK
NANDA PINANDITA RAMADHANI. Kajian Overdispersi pada Regresi Poisson Menggunakan Semiparametrik Zero-Inflated Poisson. KUSMAN SADIK dan DIAN KUSUMANINGRUM.
Salah satu penyebab overdispersi adalah banyaknya amatan bernilai nol pada peubah respon yang dapat dideteksi melalui nilai dispersi yaitu rasio antara
deviance dengan derajat bebas. Metode yang dapat digunakan untuk mengatasi permasalahan tersebut adalah Zero-Inflated Poisson (ZIP). Pendekatan semiparametrik menjadi model alternatif yang digunakan karena mengandung komponen parametrik dan nonparametrik sehingga memiliki tingkat fleksibilitas tinggi. Nilai bias relatif mutlak (BRM) digunakan untuk mengetahui tingkat akurasi penduga parameter dan akar kuadrat tengah galat (AKTG) digunakan untuk mendeteksi kebaikan model. Nilai BRM terkecil data simulasi terdapat pada ZIP untuk overdispersi sedangkan regresi Poisson untuk nonoverdispersi. Nilai AKTG terkecil secara keseluruhan terdapat pada model semiparametrik sehingga untuk jenis data campuran lebih baik menggunakan model semiparametrik. Pada model semiparametrik ZIP untuk data aplikasi angka kematian ibu hamil di Provinsi Jawa Timur terjadi overdispersi karena menunjukkan nilai dispersi yang lebih besar dari satu. Model semiparametrik ZIP ini juga merupakan model terbaik karena menghasilkan nilai AKTG terkecil. Peubah penjelas yang berpengaruh nyata terhadap jumlah kematian ibu hamil di Provinsi Jawa Timur berdasarkan model semiparametrik ZIP ini adalah peubah penjelas X1 (kunjungan ibu hamil K1).
Kata kunci : Overdispersi, Semiparametrik, Zero-Inflated Poisson
ABSTRACT
NANDA PINANDITA RAMADHANI. Overdispersion Assessment in Poisson Regression Using Semiparametric Zero-Inflated Poisson. Supervised by KUSMAN SADIK and DIAN Kusumaningrum.
indicated by the dispersion values is greater than one. This semiparametric ZIP model also has the smallest RMSE values so that it can be said to be the best model. Variable which affect the number of maternal mortality in East Java based on the semiparametric ZIP model is X1 (visits of pregnant women K1).
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada
Departemen Statistika
KAJIAN OVERDISPERSI PADA REGRESI POISSON
MENGGUNAKAN SEMIPARAMETRIK
ZERO-INFLATED
POISSON
NANDA PINANDITA RAMADHANI
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
Judul Skripsi : Kajian Overdispersi pada Regresi Poisson Menggunakan Semiparametrik Zero-Inflated Poisson
Nama : Nanda Pinandita Ramadhani NIM : G14100060
Disetujui oleh
Dr Kusman Sadik, MSi Pembimbing I
Dian Kusumaningrum, MSi Pembimbing II
Diketahui oleh
Dr Anang Kurnia, MSi Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kehadirat Allah SWT atas segala karunia-Nya sehingga penulis dapat menyelesaikan penelitian dan penulisan karya ilmiah yang berjudul Kajian Overdispersi pada Regresi Poisson Menggunakan Semiparametrik Zero-Inflated Poisson.
Terima kasih penulis ucapkan kepada Bapak Dr Kusman Sadik, MSi dan Ibu Dian Kusumaningrum, MSi selaku komisi pembimbing, atas bimbingan dan motivasi yang diberikan selama kegiatan penelitian dan penulisan karya ilmiah ini. Terima kasih juga penulis sampaikan kepada eyang yang selalu memberikan doa dan motivasi kepada penulis. Tidak lupa kepada teman-teman Statistika 47 tercinta, terima kasih atas perhatian dan motivasinya.
Terima kasih disampaikan juga kepada Program Beasiswa Bidikmisi Kementerian Pendidikan RI atas bantuan beasiswa yang diberikan sehingga penulis bisa menyelesaikan studi hingga selesai. Semoga karya ilmiah ini bermanfaat.
Bogor, Agustus 2014
DAFTAR ISI
DAFTAR TABEL ix
DAFTAR GAMBAR ix
DAFTAR LAMPIRAN ix
PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
TINJAUAN PUSTAKA 2
Regresi Poisson 2
Zero-Inflated Poisson 2
Model Semiparametrik 3
METODE 4
Data 4
Data Simulasi 4
Data Aplikasi 4
Prosedur Analisis Data 5
HASIL DAN PEMBAHASAN 6
Data Simulasi 6
Pendekatan Nonparametrik dengan B-Spline 6
Mendeteksi Overdispersi 8
Mendeteksi Multikolinieritas 9
Akurasi Penduga Parameter 9
Kebaikan Model 10
Data Aplikasi 11
Identifikasi Komponen Parametrik dan Nonparametrik 12
Letak Titik Knot dan Basis B-Spline 12
Identifikasi Multikolinieritas dan Overdispersi 13
Model Terbaik 14
Model Semiparametrik Zero-Inflated Poisson 14
SIMPULAN DAN SARAN 16
Saran 16
DAFTAR PUSTAKA 16
LAMPIRAN 18
DAFTAR TABEL
1 Nilai parameter koefisien regresi 4
2 Nilai dispersi dan jumlah peubah respon bernilai nol pada setiap n dan 8
3 Hasil uji multikolinieritas data simulasi 9
4 Nilai AKTG regresi Poisson dan ZIP model parametrik dan semiparametrik pada setiap n dan
10
5 Hasil uji multikolinieritas data aplikasi 13
6 Nilai AKTG 14
7 Nilai dugaan parameter semiparametrik ZIP 15
DAFTAR GAMBAR
1 Plot antara peubah penjelas dengan peubah respon yang dibangkitkan pada
7
2 Jumlah kematian ibu hamil di kabupaten/kota provinsi jawa timur 11 3 Plot pencar antara jumlah kematian ibu hamil dengan faktor yang diduga
mempengaruhi
12
DAFTAR LAMPIRAN
1 Nilai BRM regresi Poisson dan ZIP model Parametrik dan Semiparametrik pada setiap n dan
18
2 Algoritma data aplikasi 22
3 Penduga model semiparametrik Poisson data aplikasi 22 4 Penduga model parametrik Poisson data aplikasi 22
PENDAHULUAN
Latar Belakang
Analisis regresi merupakan metode dalam statistika yang digunakan untuk mengkaji hubungan antara peubah respon dengan peubah penjelas. Analisis regresi Poisson merupakan salah satu jenis analisis regresi yang digunakan untuk memodelkan kejadian yang jarang terjadi dengan peubah respon berupa data cacah atau data diskrit. Data cacah termasuk dalam data kuantitatif yang tidak berbentuk pecahan. Analisis regresi Poisson memiliki asumsi yaitu kesamaan nilai rata-rata dan nilai ragam yang disbut dengan equidispersi. Akan tetapi dalam kenyataannya, sering terjadi pelanggaran dalam asumsi tersebut. Pelanggaran yang terjadi adalah underdispersi yaitu nilai ragam yang lebih kecil dari rataan dan overdispersi yaitu nilai ragam yang lebih besar dari rataan (Long 1997). Penyebab overdispersi salah satunya adalah banyaknya amatan bernilai nol pada peubah respon. Metode yang dapat digunakan untuk menangani overdispersi pada regresi Poisson adalah regresi Zero-Inflated Poisson (ZIP) (Li 2012).
Regresi ZIP dengan model semiparametrik menjadi alternatif yang digunakan beberapa peneliti karena memiliki tingkat fleksibilitas tinggi. Penelitian menggunakan model semiparametrik pada ZIP diantaranya dapat dilihat pada Li (2012), Lam KF et al (2006), dan Chiogna M dan Gaetan C (2002). Model semiparametrik mampu menjelaskan hubungan antara peubah respon dengan peubah penjelas yang sebagian pola datanya diketahui dan sebagian lagi tidak diketahui. Hal ini dikarenakan, model semiparametrik mengandung komponen parametrik dan nonparametik (Sugiantari dan Budiantara 2013). Pendugaan koefisien regresi pada komponen parametrik dapat menggunakan metode kuadrat terkecil sedangkan pada nonparametrik dapat menggunakan berbagai pendekatan, salah satunya adalah spline (Wibowo et al 2009).
2
Tujuan Penelitian
Tujuan dilakukannya penelitian ini sebagai berikut:
1. Membandingkan keakuratan penduga parameter regresi Poisson dan ZIP pada data peubah respon yang mengandung banyak nilai nol.
2. Menentukan kebaikan model dengan membandingkan nilai RMSE model parametrik dan semiparametrik pada regresi Poisson dan ZIP.
TINJAUAN PUSTAKA
Regresi Poisson
Peluang data cacah pada regresi Poisson ditentukan berdasarkan sebaran Poisson. Fungsi peluang sebaran Poisson dengan parameter adalah:
Nilai rata-rata dan ragam sebaran Poisson bernilai sama yaitu kondisi ini disebut sebagai equidispersi. Nilai tengah parameter regresi Poisson adalah sehingga model regresi Poisson dituliskan sebagai berikut:
Regresi Zero-Inflated Poisson (ZIP) merupakan gabungan dari sebaran Poisson dengan sebaran kejadian bernilai nol. Kondisi tersebut dituliskan oleh Li (2012) sebagai berikut:
dengan adalah fungsi indikator, sebagai parameter sebaran Poisson, dan adalah peluang kejadian bernilai nol dengan 0 ≤ ≤1,ketika maka sebaran ZIP menjadi sebaran Poisson. Fungsi sebaran ZIP diatas dituliskan dengan lebih jelas sebagai berikut (Chiogna dan Gaeta 2007):
{
Berdasarkan fungsi sebaran diatas diperoleh nilai ragam yang lebih besar dari rataan yaitu dan (Xiang et al
3 Fungsi penghubung untuk dan menurut Xiang et al (2007) adalah :
dengan X adalah matriks peubah penjelas, dan adalah parameter model berukuran (p+1)x1 dan (q+1)x1 dengan . Menurut Ridout et al (1998) adalah parameter skalar yang menggambarkan banyak sedikitnya nilai nol pada peubah respon yang terbentuk namun tidak dapat mengontrol banyaknya nilai nol yang terbentuk. Nilai menghasilkan jumlah nol yang semakin kecil sedangkan menghasilkan nilai nol yang semakin besar.
Model Semiparametrik
Model semiparametrik mengandung dua komponen yaitu parametrik dan nonparametrik. Salah satu pendekatan nonparametrik dalam model semiparametrik adalah spline. Pendekatan spline yang biasa digunakan adalah
spline truncated dan B-Spline.
Bentuk umum regresi parametrik yaitu:
Bentuk matriksnya: Pendugaan koefisien regresi dapat menggunakan metode kuadrat terkecil dengan meminimumkan terhadap sehingga diperoleh penduga sebagai berikut: ̂ (Laome 2009). Bentuk umum regresi nonparametrik sebagai berikut:
merupakan kurva regresi yang tidak diketahui polanya. Fungsi yang didekati dengan B-Spline dapat dituliskan menjadi:
∑ Berdasarkan bentuk parametrik dan nonparametrik diatas maka bentuk regresi semiparametrik adalah:
Lam et al (2006) menuliskan model semiparametrik ZIP yang berasal dari model log seperti berikut :
4
METODE
Data
Data yang digunakan pada penelitian ini adalah data simulasi dan data aplikasi. Data simulasi dibangkitkan menggunakan software R 3.0.1 dan data aplikasi diperoleh dari Dinas Kesehatan Provinsi Jawa Timur pada Profil Kesehatan Provinsi Jawa Timur tentang Angka Kematian Ibu Hamil 2012.
Data Simulasi
Secara umum prosedur simulasi ini mengacu pada algoritma Setyawan (2012). Data yang dibangkitkan adalah data peubah respon yang memiliki banyak amatan bernilai nol dengan kondisi overdispersi dan nonoverdispersi. Model yang akan dibentuk seperti berikut:
dengan merupakan komponen nonparametrik yang mengikuti persamaan pada penelitian Wibowo (2009) bernilai Peubah penjelas dibangkitkan mengikuti sebaran seragam dan merupakan sebaran diskret, untuk mempermudah pemakaian dan meminimalisasi dummy maka digunakan peubah biner yang menghasilkan intersep berbeda. Peubah penjelas diasumsikan sebagai peubah tetap dengan n yang digunakan adalah 15, 30, 50, 100, dan 200. Nilai ditetapkan secara subjektif oleh peneliti yaitu . Parameter yang diperlukan terbagi menjadi dua komponen yaitu parametrik dan nonparametrik. Pendekatan nonparametrik menggunakan B-Spline dengan m=2 dan K=1. Model semiparametrik memiliki tingkat keefektifan lebih baik dibandingkan model parametrik, untuk mengkaji kondisi tersebut digunakan pula model parametrik dengan mengabaikan sebagai komponen nonparametrik sehingga diasumsikan sebagai Penentuan parameter ditentukan secara subjektif oleh peneliti sebagai berikut:
Tabel 1 Nilai parameter koefisien regresi
Parameter Parametrik Semiparametrik
Nonoverdispersi Overdispersi Nonoverdispersi Overdispersi
1 1 1 1
Peubah yang digunakan berdasarkan penelitian Kartiningrum (2013). Satuan pengamatan yang digunakan sebanyak 38 Kabupaten/Kota di Jawa Timur. Peubah respon (Y) adalah jumlah kematian Ibu Hamil dan peubah penjelas yang digunakan meliputi:
5 4. Persentase Ibu Hamil mendapat tablet FE3 (X4)
5. Persentase Komplikasi kehamilan yang ditangani (X5)
Prosedur Analisis Data
A.Tahapan analisis yang digunakan pada simulasi data adalah:
1. Membangkitkan n buah data peubah penjelas yang menyebar Seragam(1,2), yang bersifat biner(0,1), dan untuk komponen nonparametrik.
2. Mencatat nilai , , , dan nilai minimum , maksimum dari . 3. Model semiparametrik dilakukan tahapan:
a. Mencari nilai interval dan letak knot dengan rumus (Permatasari 2009): dengan nknot=K+2
b. Menentukan persamaan basis berdasarkan fungsi rekursif B-Spline.
c. Menghitung nilai masing-masing basis B-Spline.
4. Menghitung nilai masing-masing amatan dengan: a. Parametrik: b. Semiparametrik:
5. Membangkitkan peubah respon:
I. Nonoverdispersi: Membangkitkan n data respon yang menyebar Poisson( )
II. Overdispersi:
a. Menghitung parameter b. Menghitung nilai yaitu:
∑
∑
c. Membangkitkan n data yang menyebar Seragam(0,1) sebagai variabel c. d. Membangkitkan bilangan acak variabel yp yang menyebar Poisson( ).
e. Membandingkan variabel c setiap pengamatan dengan nilai . Jika maka dan jika maka .
6. Mencatat dan menghitung peubah respon yang bernilai nol.
7. Menghitung nilai dispersi yang merupakan rasio dari deviance dengan derajat bebas. Rodriguez (2007) menuliskan fungsi deviance sebagai berikut:
∑ { (
̂) ̂ }
8. Menghitung nilai Variance Inflation Factors (VIF) untuk memastikan tidak terjadi multikolinieritas seperti berikut:
6
9. Melakukan pendugaan parameter model parametrik dan semiparametrik pada regresi Poisson dan ZIP.
10. Menghitung nilai bias relatif mutlak (Savic 2009 dalam Setyawan 2012): ∑ | ̂ |
dengan r adalah banyaknya data dugaan, ̂ adalah penduga ke-i parameter , dan adalah parameter sebenarnya.
11. Mengulangi langkah 1-10 sebanyak 1000 kali
12. Menghitung rata-rata dari 1000 nilai dispersi yang dihasilkan regresi Poisson.
13. Menghitung rata-rata dari 1000 nilai BRM masing-masing penduga parameter.
14. Menghitung nilai AKTG sebagai berikut (Moses dan Devadas 2012):
√ ∑( ̂ )
15. Membandingkan nilai BRM dan AKTG model parametrik dan semiparametrik pada regresi Poisson dan ZIP. Nilai BRM terkecil menunjukkan penduga dengan akurasi baik dan AKTG terkecil menunjukkan model yang disarankan penggunaannya.
B.Tahapan untuk analisis dan pemodelan jumlah kematian ibu hamil adalah: 1. Membuat plot pencar untuk menentukan komponen parametrik dan
nonparametrik.
2. Memilih peubah penjelas untuk menghindari multikoliniearitas.
3. Menentukan letak titik knot dan basis menggunakan B-Spline untuk komponen nonparametrik.
4. Mengidentifikasi overdispersi dengan menghitung nilai dispersi.
5. Menghitung dan membandingkan nilai AKTG model semiparametrik dan parametrik pada regresi Poisson dan ZIP.
6. Melakukan pemodelan data dengan model yang menghasilkan AKTG terkecil.
HASIL DAN PEMBAHASAN
Data Simulasi Pendekatan Nonparametrik dengan B-Spline
7 kondisi data tersebut maka model alternatif berupa model semiparametrik dapat digunakan pada data simulasi ini.
Gambar 1 Plot antara peubah penjelas dengan peubah respon yang dibangkitkan pada
Komponen nonparametrik pada data simulasi dilakukan pendekatan fungsi B-Spline menggunakan orde sebanyak 2 dan knot asli sebanyak 1. Cara membentuk fungsi B-Spline diperlukan pendefinisian knot tambahan sebanyak 2m yaitu dengan dan dan perhitungan rekursif B-Spline (Permatasari 2009). Nilai interval yang terbentuk pada adalah 49.5. Data diurutkan dari yang terkecil sehingga knot asli terletak pada data ke-50.5, dilakukan pembulatan ke bawah maka knot asli terletak pada data ke-50. Pendefinisian nilai dari masing-masing knot adalah ; ; dengan adalah knot asli. Persamaan basis B-Spline ditentukan melalui fungsi rekursif B-Spline. Persamaan basis yang terbentuk adalah:
8
Mendeteksi Overdispersi
Adanya overdispersi pada data simulasi dideteksi dengan nilai dispersi . Halekoh et al (2007) menyatakan apabila nilai maka terjadi overdispersi. Hasil simulasi pada Tabel 2 menunjukkan bahwa data nonoverdispersi memiliki nilai sehingga terbukti bahwa peubah respon yang dibangkitkan tidak mengandung overdispersi sedangkan pada data overdispersi menghasilkan nilai yang berarti pada peubah respon yang dibangkitkan terbukti terjadi overdispersi. Tabel 2 juga menunjukkan bahwa semakin besar nilai memberikan hasil nilai nol yang semakin besar. Data dengan n kecil dan besar tidak bisa menghasilkan iterasi yang konvergen sehingga tidak dapat dideteksi jumlah amatan bernilai nol dan nilai dispersinya. Hal ini menunjukkan bahwa semakin besar nilai nol pada ukuran data yang semakin kecil tidak dapat dilakukan analisis lebih lanjut.
Tabel 2 Nilai dispersi dan jumlah peubah respon bernilai nol pada setiap n dan
9
Mendeteksi terjadi multikolinieritas diperlukan untuk menghindari besarnya nilai ragam pada peubah penjelas. Menurut Draper dan Smith (1998), salah satu metode untuk mengetahui adanya multikolineritas antar peubah bebas dengan melihat nilai VIF. Apabila nilai VIF > 10 maka menunjukkan terjadi multikolinieritas yang tinggi. Tabel 3 menunjukkan hasil dari nilai VIF data simulasi kurang dari 10 maka dapat dikatakan bahwa tidak terjadi multikolinieritas pada peubah penjelas yang digunakan sehingga data dapat digunakan untuk analisis lebih lanjut.
Tabel 3 Hasil uji multikolinieritas data simulasi n Parameter
skalar ( )
Nilai VIF Parametrik Nilai VIF Semiparametrik
10
Hasil tersebut menunjukkan bahwa ZIP memiliki tingkat keakuratan yang lebih baik dalam menduga parameter pada data yang mengalami overdispersi karena banyaknya peubah respon bernilai nol. Nilai BRM masing-masing penduga semakin kecil pada ukuran data yang semakin besar dan berlaku sebaliknya pada yang semakin besar.
Kebaikan Model
Pemilihan model terbaik antara model parametrik dan semiparametrik pada regresi Poisson dan ZIP dilakukan dengan melihat nilai AKTG yang dihasilkan model tersebut. Semakin kecil nilai AKTG yang dihasilkan maka model dikatakan semakin baik. Tabel 4 menunjukkan nilai AKTG regresi Poisson lebih besar daripada ZIP pada data yang mengalami overdispersi karena banyaknya peubah respon bernilai nol sehingga dapat dikatakan bahwa ZIP lebih baik digunakan.
Tabel 4 Nilai AKTG regresi Poisson dan ZIP model parametrik dan semiparametrik pada setiap n dan
N AKTG
Poisson ZIP
Parametrik Semiparametrik Parametrik Semiparametrik
15 - 3.36 2.37 3.57 2.43
0.1 4.69 3.88 4.86 3.27
0.4 Tidak Konvergen Tidak Konvergen
0.6 Tidak Konvergen Tidak Konvergen
30 - 2.53 2.67 2.31 2.58
0.1 10.91 9.76 8.56 4.76
0.4 4.67 4.21 3.71 3.65
0.6 Tidak Konvergen Tidak Konvergen
50 - 2.03 1.99 2.66 1.73
11 bahwa diperlukannya penentuan karakteristik dari komponen data yang digunakan sebelum memutuskan jenis metode yang diterapkan. Apabila kondisi nonparametrik diabaikan dan diasumsikan sebagai komponen parametrik akan memberikan hasil yang tidak efisien dan keakuratan penduga parameter yang kurang baik karena pada model parametrik dibutuhkan kondisi data dari peubah penjelas dan peubah respon yang linier atau menyebar normal.
Data Aplikasi
Data aplikasi yang digunakan berupa data Angka Kematian Ibu Hamil (AKIH) provinsi Jawa Timur pada tahun 2012. Provinsi Jawa Timur merupakan salah satu provinsi yang terletak di pulau Jawa yang memiliki 29 Kabupaten dan 9 Kota sehingga amatan yang digunakan pada data aplikasi sebanyak 38 Kabupaten/Kota. Peubah penjelas yang digunakan sebanyak lima peubah yang diduga dapat mempengaruhi banyak sedikitnya jumlah kematian ibu hamil dengan satuan yang digunakan adalah persentase. Persentase tersebut diperoleh dari jumlah ibu hamil yang tercatat dalam suatu kategori peubah penjelas dibagi jumlah ibu hamil, misalnya X1 (persentase kunjungan ibu hamil K1) untuk kabupaten Pacitan diperoleh dari jumlah kunjungan ibu hamil K1 di Pacitan dibagi jumlah ibu hamil di Pacitan seperti berikut:
12
Kabupaten Bangkalan, Kota Madiun, Kota Mojokerto, Kota Pasuruan, Kota Batu, dan Kota Probolinggo yang memiliki nilai AKIH nol yang berarti ±15% dari data. Identifikasi Komponen Parametrik dan Nonparametrik
Pola yang terbentuk antara Y dengan X1, X2, X3, dan X4 pada Gambar 3 cenderung mengikuti garis linier dan mayoritas data bergerombol mendekati garis linier, berbeda dengan pola Y dengan X5 yang mayoritas datanya menyebar menjauhi garis linier dan ketika dilakukan analisis regresi menghasilkan R2=0%. Perbedaan kelima plot pada Gambar 3 tidak terlalu signifikan namun secara sederhana kondisi tersebut dapat dikategorikan bahwa X1, X2, X3, dan X4 merupakan komponen parametrik sedangkan X5 adalah komponen nonparametrik.
Gambar 3 Plot pencar antara jumlah kematian ibu hamil dengan faktor yang diduga mempengaruhi
Letak Titik Knot dan Basis B-Spline
13 adalah , yaitu dan . Total knot yang terbentuk adalah 5 knot (4 knot tambahan dan 1 knot asli) yaitu .
Data yang digunakan dalam penelitian ini sebanyak 38 observasi dengan nilai interval sebesar 18.5 sehingga knot asli berada pada data ke-19.5, dilakukan pembulatan ke bawah berarti terletak pada data ke 19. Data ke-19 bernilai sebesar 82.23, nilai minimum sebesar 49.65 dan maksimum sebesar 125.84. Basis B-Spline yang dihasilkan sebanyak 3 basis yaitu dengan masing-masing basis mempunyai 2 fungsi berbeda setiap selangnya. Persamaan setiap basis B-Spline data aplikasi adalah:
{
Data aplikasi penelitian ini menggunakan lima peubah penjelas yang diduga mempengaruhi peubah respon berupa jumlah kematian ibu hamil dengan model semiparametrik dan parametrik. Peubah penjelas kelima (X5) merupakan komponen nonparametrik dalam model semiparametrik sehingga X5 terbagi menjadi tiga bagian
yaitu B1, B2, dan B3 berdasarkan hasil B-Spline. Model parametrik mengabaikan
kondisi X5 sebagai komponen nonparametrik yang berarti menganggap seluruh peubah penjelas merupakan komponen parametrik.
Tabel 5 Hasil uji multikolinieritas data aplikasi
Peubah VIF Peubah VIF
14
memiliki korelasi yang kuat sebesar 0.889. Berdasarkan hasil tersebut dilakukan pemilihan peubah penjelas, pemilihan peubah penjelas ini dilakukan secara subjektif karena antar peubah penjelas memiliki nilai korelasi yang sama kuat, dalam penelitian ini digunakan peubah penjelas X1, X3, dan X5.
Pendeteksian overdispersi secara sederhana dapat dilihat melalui nilai ragam yang lebih besar dari rataan. Peubah respon data aplikasi memiliki nilai rataan 3.026 dan nilai ragam sebesar 10.837. Hasil tersebut menunjukkan bahwa nilai ragam lebih besar dari rataan sehingga diduga terjadi overdispersi. Dugaan terjadinya overdispersi diperkuat dengan hasil nilai dispersi yang lebih besar dari 1, model semiparametrik memberikan hasil sebesar 3.385 dan model parametrik memiliki sebesar 3.307. Berdasarkan hasil tersebut dapat disimpulkan bahwa pada data aplikasi yang digunakan terjadi overdispersi.
Model terbaik
Pemilihan model antara model semiparametrik dan parametrik pada regresi Poisson dan ZIP dalam kasus jumlah kematian ibu hamil di Provinsi Jawa Timur dengan melihat nilai AKTG terkecil. Tabel 6 menunjukkan nilai AKTG pada semiparametrik ZIP lebih kecil dibandingkan model lain sehingga model semiparametrik ZIP lebih baik untuk digunakan dalam pemodelan kasus data penelitian ini. yang signifikan antar model, hal ini disebabkan oleh karakteristik data aplikasi masing-masing peubah penjelas memiliki kemiripan satu dengan yang lain sehingga hasilnya pun tidak berbeda jauh. Kementrian Kesehatan menyatakan beberapa penyebab lain dari kematian ibu hamil yaitu pendarahan, eklampsia, sepsis, dan infeksi. Penyebab tersebut dihasilkan berdasarkan kajian kinerja IGD Obstetri-Ginekologi dari RSUP Cipto Mangunkusumo. Namun, karena tidak ditemukan data yang jelas dari penyebab-penyebab tersebut maka pada penelitian ini hanya digunakan penyebab-penyebab berdasarkan dugaan Dinas Kesehatan. Model Semiparametrik Zero-Inflated Poisson (ZIP)
Model pada regresi ZIP terbagi menjadi dua jenis. Model pertama disebut
count model atau model log yang digunakan untuk menentukan peluang dari peubah respon suatu amatan bernilai selain nol sedangkan model kedua yaitu
15 Tabel 7 Nilai dugaan parameter semiparametrik ZIP
Count Model
Nilai Dugaan Galat Baku Nilai-Z Nilai-p
(Intercept) 2.84718 2.12699 1.339 0.1807
X1 -0.03184 0.01815 -1.755 * 0.0793
(Intercept) -16.67908 16.22252 -1.028 0.304
X1 0.07669 0.08991 0.853 0.394
X3 -0.00380 0.07647 -0.050 0.960
B1 9.09480 8.78226 1.036 0.300
B2 8.77352 9.27532 0.946 0.344
B3 -0.17111 4.29819 -0.040 0.968
*) signifikansi pada taraf nyata 10%
16
SIMPULAN DAN SARAN
Simpulan
Data yang digunakan pada penelitian ini merupakan jenis data campuran yang terdiri dari komponen parametrik dan nonparametrik dengan komponen nonparametriknya dilakukan pendekatan B-Spline. Berdasarkan jenis data tersebut, didapatkan penduga parameter regresi ZIP yang lebih baik daripada regresi Poisson untuk data kondisi overdispersi karena nilai nol berlebih pada peubah respon. Kebaikan model didapatkan pada model semiparametrik baik menggunakan regresi Poisson maupun ZIP sehingga untuk jenis data seperti penelitian ini lebih baik digunakan semiparametrik Poisson pada kasus nonoverdispersi dan semiparametrik ZIP pada kasus overdispersi karena nilai nol berlebih pada peubah respon.
Saran
Komponen nonparametrik pada penelitian ini dibentuk menggunakan fungsi
sinus sehingga pola yang terbentuk pun mengikuti fungsi sinus dengan pendekatan yang digunakan adalah B-Spline. Pada penelitian berikutnya disarankan untuk menggunakan fungsi matematika yang lain dalam pembentukan komponen nonparametrik. Disarankan pula untuk menggunakan pendekatan nonparametrik selain B-Spline sehingga dapat diketahui apakah kesimpulan pada penelitian ini juga berlaku untuk fungsi dan pendekatan nonparametrik yang lain. Pada data aplikasi yang digunakan dalam penelitian ini dihasilkan nilai AKTG yang tidak berbeda jauh. Hal ini disebabkan karakteristik data peubah penjelas yang digunakan memiliki kemiripan. Oleh karena itu pada penelitian berikutnya disarankan untuk menambahkan peubah penjelas berdasarkan faktor-faktor yang disebutkan oleh RSUP Cipto Mangunkusumo yang diharapkan dapat menghasilkan nilai lebih beragam.
DAFTAR PUSTAKA
Budiantara IN, Suryadi F et al. 2006. Pemodelan B-Spline dan MARS pada Nilai Ujian Masuk terhadap IPK Mahasiswa Jurusan Disain Komunikasi Visual UK. Petra Surabaya. [Internet]. [diunduh tanggal 2014 Maret 23]. Terdapat pada: http://cpanel.petra.ac.id/ejournal/index.php/ind/article/viewFile/16497/16489. Chiogna M, Gaetan C. 2007. Semiparametric zero-inflated Poisson Models with
application to animal abundance studies. Environmetrics. 18(3):303:314. http://dx.doi.org/10.1002/env.830.
17 Halekoh U, Hojsgaard S. 2007. Overdispersion. Denmark: Unit of Statistics and Decision Analysis, The Faculty of Agricultural Sciences, University of Aarhus. Kartiningrum ED, Nursaidah. 2013. Pemodelan Faktor Yang Mempengaruhi Kematian Ibu Di Propinsi Jawa Timur Menggunakan Zero Inflated Poisson Regression. Prosiding Seminar Nasional. ISBN:978-979-98438-8-3.
Lam KF, Xue H, Cheung YB. 2006. Semiparametric Analysis of Zero-Inflated Count Data. Biometrics. 62:996-1003. doi:10.1111/j.1541-0420.2006.00575.x. Laome L. 2009. Model Regresi Semiparametrik Spline Untuk Data Longitudinal
Pada Kasus Kadar CD4 Penderita HIV. Paradigma Vol.13 No. 2 hlm. 189-194. Li CS. 2012. Score Test for Semiparametric Zero-Inflated Poisson Models.
Journal of Statistics and Probanility. http://dx.doi.org/10.5539/ijsp.v1n2p1. Long JS. 1997. Regression Models for Categorical and Limited Dependent
Variables. Number 7 in Advance Quantitative Techniques in The Social Sciences. California : Sage Publications.
Moses KP, Devadas MD. 2012 . An Approach to Reduce Root Mean Square Error in Toposheets. J of Scientific Research. 91(2):268-274.
Permatasari D. 2009. Pemodelan Kurva Imbal Hasil Obligasi Korporasi Rating AA dan A dengan Nelson Siegel Svensson dan Cubic Spline Smooting. Institut Teknologi Sepuluh November. [Internet]. [diunduh pada tanggal 18 Mei 2014]. Terdapat pada: http://oc.its.ac.id/ambilfile.php?idp=1211.
Ridout , M. 1998. Models for count data with many zeros. International Biometric Conference. [Internet]. [diunduh 2014 Juni 27]. Tersedia pada: https://www.kent.ac.uk/smsas/personal/msr/webfiles/zip/ibc_fin.pdf.
Rodriguez G. 2007. Poisson Models for Count Data. [Internet]. [diunduh 2014 Jan 17]. Terdapat pada: http://data.princeton.edu/wws509/notes/c4.pdf.
Setyawan A. 2013. Perbandingan antara Regresi Poisson, Binomial Negatif, dan Zero Inflated Poisson pada data Overdispersi [skripsi]. Bogor (ID) : Institut Pertanian Bogor.
Sugiantari AP, Budiantara IN. 2013. Analisis Faktor-Faktor yang Mempengaruhi Angka Harapan Hidup di Jawa Timur Menggunakan Regresi Semiparametrik Spline. Jurnal Sains dan Semi Pomits Vol.2 No.1.
Wibowo W, Haryatmi S, Budiantara IN. 2009. Metode Kuadrat Terkecil Untuk Estimasi Kurva Regresi Semiparametrik Spline. [Internet]. [diunduh tanggal 2014 Februari 02]. Terdapat pada:
http://eprints.uny.ac.id/7064/1/S.12%20Wahyu%20Wibowo.pdf.
18
Lampiran 1 Nilai BRM regresi Poisson dan ZIP model Parametrik dan Semiparametrik pada setiap n dan
20
Model n Parameter BRM
Poisson ZIP
Semiparametrik 15 0.6 b0 Tidak Konvergen
22
modelpoisson <- glm(Y~X1+X3+X5 , family="poisson", data=parametrik) modelzip <- zeroinfl(Y~X1+X3+X5, data=parametrik)
semiparametrik <- read.table("I:/Bahan/aplikasi-s.txt", header=TRUE)
modpoi <- glm(Y~X1+X3+B1+B2+B3, family="poisson", data=semiparametrik) modzip <- zeroinfl(Y~X1+X3+B1+B2+B3, data=semiparametrik)
Lampiran 3 Penduga model semiparametrik Poisson data aplikasi
Nilai Dugaan Galat Baku Nilai-Z Nilai-p
(Intercept) 3.56844 2.01110 1.774 0.0760
X1 -0.03996 0.01676 -2.383 * 0.0172
X3 0.01805 0.01225 1.474 0.1406
B1 -0.86481 0.69408 -1.246 0.2128
B2 -0.19511 0.62543 -0.312 0.7551
B3 -0.79067 0.56496 -1.400 0.1617
*) signifikansi pada taraf nyata 5%
Lampiran 4 Penduga model parametrik Poisson data aplikasi
Nilai Dugaan Galat Baku Nilai-Z Nilai-p
(Intercept) 2.280066 1.226250 1.859 0.0630
X1 -0.029029 0.014501 -2.002 * 0.0453
X3 0.013895 0.011344 1.225 0.2206
X5 0.003112 0.006595 0.472 0.6370
*) signifikansi pada taraf nyata 5%
Lampiran 5 Penduga model parametrik ZIP data aplikasi Count Model
Nilai Dugaan Galat Baku Nilai-Z Nilai-p
(Intercept) 2.341502 1.244149 1.882 *0.0598
X1 -0.019364 0.015578 -1.243 0.2138
X3 0.011102 0.011096 1.001 0.3170
23 Zero-Inflation Model
Nilai Dugaan Galat Baku Nilai-Z Nilai-p
(Intercept) -1.65884 7.55593 -0.220 0.826
X1 0.06319 0.07090 0.891 0.373
X3 -0.01252 0.07279 -0.172 0.863
X5 0.06224 0.04176 -1.490 0.136
24
RIWAYAT HIDUP
Penulis dilahirkan pada 07 Maret 1992 di Kediri, Jawa Timur yang merupakan cucu pertama dari Ibu Hj. Kustiani dan (alm) H. Syafi’i. Tahun 2004 penulis lulus dari SD Negeri 1 Kayen Lor kemudian melanjutkan pendidikan di SMP Negeri 1 Plemahan hingga tahun 2007 dan tahun 2010 penulis menyelesaikan pendidikan di SMA Negeri 1 Pare. Tahun yang sama, penulis diterima di Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB (USMI) sebagai mahasiswa FMIPA dengan mayor Statistika dan minor Matematika Keuangan dan Aktuaria. Penulis menyelesaikan kuliah dengan bantuan beasiswa Bidik Misi.