MAKSIMUM LIKELIHOOD BERDASARKAN ALGORITMA NEWTON RAPHSON, FISHER
SCORING DAN EXPECTATION MAXIMIZATION
TESIS
Oleh
SWITAMY ANGNITHA PURBA 157021033/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
MAKSIMUM LIKELIHOOD BERDASARKAN ALGORITMA NEWTON RAPHSON, FISHER
SCORING DAN EXPECTATION MAXIMIZATION
T E S I S
Diajukan Sebagai Salah Satu Syarat
untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
SWITAMY ANGNITHA PURBA 157021033/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
UNIVERSITAS SUMATERA UTARA
Telah diuji pada
Tanggal : 30 Januari 2018
PANITIA PENGUJI TESIS
Ketua : Dr. Sutarman, M.Sc
Anggota : 1. Dr. Open Darnius, M.Sc
2. Prof. Dr. Opim Salim S, M.Sc 3. Prof. Dr. Tulus, M.Si
UNIVERSITAS SUMATERA UTARA
PERNYATAAN ORISINALITAS
MAKSIMUM LIKELIHOOD BERDASARKAN ALGORITMA NEWTON RAPHSON, FISHER SCORING DAN
EXPECTATION MAXIMIZATION
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sumbernya
Medan, Penulis,
Switamy Angnitha Purba
UNIVERSITAS SUMATERA UTARA
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda ta- ngan di bawah ini:
Nama : Switamy Angnitha Purba
NIM : 157021033
Program Studi : Matematika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:
Maksimum Likelihood Berdasarkan Algoritma Newton Raphson, Fisher Scoring dan Expectation Maximization.
Beserta perangkat yang ada. Dengan Hak Bebas Royalti NonEksklusif ini, Uni- versitas Sumatera Utara berhak menyimpan, mengalih media, memformat me- ngelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama mencantumkan nama saya sebagai pemegang dan atau sebagai penulis dan sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, Penulis,
Switamy Angnitha Purba
UNIVERSITAS SUMATERA UTARA
MAKSIMUM LIKELIHOOD BERDASARKAN ALGORITMA NEWTON RAPHSON, FISHER
SCORING DAN EXPECTATION MAXIMIZATION
ABSTRAK
Estimasi parameter merupakan hal yang penting dalam statistika. Estimasi parameter dapat dilakukan dengan beberapa metode, salah satu diantaranya adalah dengan metode Maximum Likelihood. Fokus dari penuisan ini secara umum adalah mengestimasi nilai parameter suatu data berdistribusi tertentu dengan Maximum Likelihood berdasarkan algoritma iterasi. Algoritma iterasi yang akan digunakan adalah algoritma Newton Raphson, Fisher Scoring dan Expectation Maximization dan dengan bantuan program Matlab 2016a. Dalam hal ini ketiga algoritma tersebut akan dibandingkan denga memperhatikan hasil estimasi dan jumlah iterasi dari ketiga algoritma tersebut. Berdasarkan hasil yang diperoleh bahwa dari ketiga algoritma tersebut algoritma Newton Raphson memiliki jumlah iterasi yang relatif lebih besar daripada kedua algoritma lainnya untuk mencaai nilai parameter yang sama.
Kata kunci : Estimasi parameter, Maximum likelihood, Newton raphson, Fisher scoring, Algoritma expectation maximization
i
UNIVERSITAS SUMATERA UTARA
MAXIMUM LIKELIHOOD BASED ON NEWTON RAPHSON, FISHER SCORING AND EXPECTATION MAXIMIZATION
ALGORITHM APPLICATION ON ACCIDENT DATA
ABSTRACT
Estimation of parameters is important in statistics. Estimation of parame- ters can be done with several methods, one of them is with Maximum Likelihood method. The focus of this generalization is estimates the parameter value of a cer- tain distributed data with Maximum Likelihood based on the iteration algorithm.
The iteration algorithm to be used are Newton Raphson algorithm, Fisher Scoring and Expectation Maximization and with the help of Matlab 2016a program. In this case the three algorithms will be compared to the estimation results and the number of iterations of the three algorithms. From the results obtained that of the third algorithm, Newton Raphson algorithm has a relative number of iterations larger than the other two algorithms to check the value of that parameter same.
Keyword : Parameter estimation, Maximum likelihood, Newton raphson, Fisher scoring, Expectation maximization algorithm
ii
UNIVERSITAS SUMATERA UTARA
KATA PENGANTAR
Puji dan Syukur kepada Tuhan Yang Maha Esa yang telah memberikan berkah dan rahmat-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul MAK- SIMUM LIKELIHOOD BERDASARKAN ALGORITMA NEWTON RAPH- SON, FISHER SCORING DAN EXPECTATION MAXIMIZATION (APLIKASI PADA DATA KECELAKAAN). Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada Program Studi Magister Matematika Fakultas Ma- tematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Pada kesempatan ini penulis ingin menyampaikan terimakasih sebesar-besarnya kepada:
Prof. Dr. Runtung, S.H., M.Hum selaku Rektor Universitas Sumatera Utara.
Dr. Kerista Sebayang, MS selaku Dekan Fakultas Matematika dan Ilmu Penge- tahuan Alam (FMIPA) Universitas Sumatera Utara.
Prof. Dr. Saib Suwilo, M.Sc selaku Ketua Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Dr. Sutarman, M.Sc selaku Pembimbing I penulis yang telah banyak mem- berikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Dr. Open Darnius, M.Sc selaku Pembimbing II penulis yang telah banyak mem- berikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini. Prof. Dr. Opim Salim Sitompul, M.Sc selaku Pembanding I penulis yang telah banyak memberikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Prof. Dr. Tulus, M.Si selaku Pembanding II penulis yang telah banyak mem- berikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
iii
UNIVERSITAS SUMATERA UTARA
Seluruh Staf pengajar di Program Studi Magister Matematika FMIPA USU yang telah banyak memberikailmu pengetahuan kepada penulis selama masa perku- liahan.
Kak Misiani, S.Si selaku Staf Adminstrasi Program Studi Magister Matematika FMIPAUSU yang telah banyak memberikan pelayananyang baik kepada penulis selama mengikuti perkuliahan.
Tak lupa penulis mengucapkan terimakasih sebesar-besarnya dan penghar- gaan setinggi-tingginya kepada ayahanda tercinta Monang Purba, BA dan ibun- da Rismalina Saragih yang selalu mencurahkan kasih saying dan dukungan penuh kepada penulis.
Tak lupa penulis mengucapkan terimakasih sebesar-besarnya kepada kepala sekolah, rekan guru serta staf pegawai Sekolah Kristen Kalam Kudus 2 Medan yang selalu memberikan dukungan dan motivasi kepada penulis.
Tak lupa penulis mengucapkan terimakasih kepada kawan kawan sejawat di pasca sarjana FMIPA USU yang selama 2 tahun ini memberikan dan motivasi kepada penulis.
Penulis menyadari bahwa tesis ini masih jauh dari sempurna, untuk itu penulis mengharapka kritik dan saran untuk penyempurnaan tesis ini. Semoga tesis ini dapat bermanfaat bagi pembaca dan pihak-pihak lain yang memerlukan- nya. Terimakasih.
Medan, Penulis,
Switamy Angnitha Purba
iv
UNIVERSITAS SUMATERA UTARA
RIWAYAT HIDUP
NAMA : SWITAMY ANGNITHA PURBA
TEMPAT/TANGGAL LAHIR : P.SIANTAR, 21 JULI 1993
JENIS KELAMIN : PEREMPUAN
TINGGI/BERAT BADAN : 151 CM / 50 KG
JURUSAN : MATEMATIKA S2
ALAMAT : JL. DURIAN RAYA NO. 250 P.SIANTAR
EMAIL : [email protected]
NO. HP : 085372300636
PENDIDIKAN TAHUN
1998-1999 : TK SWASTA METHODIST P.SIANTAR 1999-2005 : SD SWASTA METHODIST P.SIANTAR 2005-2008 : SMP SWASTA METHODIST P.SIANTAR 2008-2011 : SMA SWASTA SULTAN AGUNG P.SIANTAR 2011-2015 : UNIVERSITAS SUMATERA UTARA
2016-2018 : PASCASARJANA UNIVERSITAS SUMATERA UTARA
v
UNIVERSITAS SUMATERA UTARA
DAFTAR ISI
Halaman
ABSTRAK i
ABSTRACT ii
KATA PENGANTAR iii
RIWAYAT HIDUP v
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR GAMBAR ix
DAFTAR LAMPIRAN x
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 2
1.3 Tujuan Penelitian 3
1.4 Manfaat Penelitian 3
BAB 2 TINJAUAN PUSTAKA 4
2.1 Penaksir Kemungkinan Maksimum (Maximum Likelihood Es-
timation - MLE) 4
2.2 Algoritma Newton Raphson 7
2.3 Algoritma Fisher Scoring 10
2.4 Algoritma Expectation Maximization (EM Algorithm) 12
BAB 3 METODOLOGI PENELITIAN 15
BAB 4 HASIL DAN PEMBAHASAN 17
4.1 Data Kecelakaan di Indonesia Berdasarkan Kelompok Umur 17
vi
UNIVERSITAS SUMATERA UTARA
4.2 Estimasi Parameter Pada Data Kecelakaan Dengan Metode
Maksimum Likelihood 18
4.2.1 Algoritma newton raphson 19
4.2.2 Algoritma fisher scoring 23
4.2.3 Algoritma expectation maximization (EM algorithm) 24
BAB 5 KESIMPULAN DAN SARAN 27
5.1 Kesimpulan 27
5.2 Saran 27
DAFTAR PUSTAKA 28
vii
UNIVERSITAS SUMATERA UTARA
DAFTAR TABEL
Nomor Judul Halaman
4.1 Data kecelakaan di Indonesia berdasarkan kelompok umur 17
4.2 Hasil iterasi algoritma newton raphson 21
4.3 Hasil iterasi algoritma fisher scoring 24
4.4 Hasil iterasi algoritma expectation maximization 26
4.5 Hasil iterasi ketiga algoritma 26
viii
UNIVERSITAS SUMATERA UTARA
DAFTAR GAMBAR
Nomor Judul Halaman
4.1 Grafik data kecelakaan di Indonesia berdasarkan kelompok umur 17 4.2 Hasil test distribusi normal pada data kecelakaan menggunakan
SPSS 18
ix
UNIVERSITAS SUMATERA UTARA
DAFTAR LAMPIRAN
Nomor Judul Halaman
1. Hasil iterasi algoritma newton raphson, fisher scoring dan expectation maximization
28
x
UNIVERSITAS SUMATERA UTARA
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Estimasi parameter adalah penaksiran (pendugaan) terhadap nilai-nilai para- meter populasi (misalnya mean, standar deviasi, proporsi, dan lain-lain) ber- dasarkan data atau sampel yang diambil dari populasi. Estimasi parameter populasi merupakan salah satu hal penting didalam inferensi statistika. Para- meter populasi biasanya tidak diketahui, oleh karena itu untuk mengetahuinya dilakukan estimasi terhadap parameter tersebut melalui data sampel. Terdapat beberapa metode untuk mengestimasi parameter, diantaranya adalah Maximum Likelihood Estimation (MLE) dengan menggunakan pendekatan distribusi dan
memaksimumkan fungsi likelihood.
Maksimum Likelihood Estimation (MLE) merupakan metode penaksiran parameter dari gugus data yang mengikuti sebaran distribusi tertentu. Dalam hal ini MLE merupakan metode yang diterapkan untuk memaksimumkan fungsi likelihood dan metode kuadrat terkecil (least square method) menggunakan pen- dekatan geometris dengan meminimumkan galatnya sehingga menghasilkan pe- naksir parameter dengan kemungkinan maksimum. Pada umumnya maksimum suatu fungsi tidak bisa diselesaikan secara analitik. Oleh karena jika diperoleh bentuk implisit dan nonlinier maka dapat diselesaikan menggunakan algoritma newton raphson dan fisher scoring.
Algoritma newton raphson adalah sebuah prosedur perulangan yang digu- nakan untuk mencari solusi optimum dari persamaan nonlinear. Algoritma ini memanfaatkan vektor turunan orde pertama dan matriks turunan orde kedua dari fungsi yang dimaksimumkan. Algoritma fisher scoring sama dengan algorit- ma Newton Raphson perbedaannya adalah algoritma fisher scoring menggunakan nilai ekspektasi dari matriks turunan orde kedua terhadap parameter pada model (Ehlers, 2002).
1
UNIVERSITAS SUMATERA UTARA
2
Selain dengan menggunakan algoritma Newton Raphson dan Fisher Scor- ing, Algoritma Expectation Maximization (EM) adalah algoritma yang umum di- gunakan untuk menghitung estimasi maksimum likelihood yang digunakan untuk keadaan yang menyertakan pengamatan yang hilang. Langkah awalnya adalah membagi data ke dalam dua bagian, yaitu bagian missing dan nonmissing, ke- mudian mengestimasi nilai data yang hilang melalui regresi linear sehingga data menjadi lengkap. Regresi awal yang digunakan diambil dari data yang tera- mati saja. Pada proses iterasi selanjutnya estimasi data hilang diperoleh dari persamaan regresi linear data lengkap pada data sebelumnya. Langkah terse- but akan terus berjalan sampai data yang hilang menjadi konvergen, sehingga didapatkan parameter yang maksimum.
Riset tentang penaksiran nilai parameter menggunakan metode Maksimum Likelihood memang sudah mendapatkan perhatian yang besar oleh para peneli- ti. Beberapa diantaranya yaitu Bolstad (1998) melakukan penelitian estimasi parameter terhadap data tersensor berdistribusi gamma menggunakan algoritma EM. Selain itu Ehlers (2002) dalam tulisannya juga melakukan penaksiran mak- simum likelihood untuk bebrapa kategori data tertentu. Fokus dalam penelitian ini adalah untuk menaksir nilai parameter pada model Maksimum Likelihood ber- dasarkan Newton Raphson dan Fisher Scoring dan algoritma Expectation Maxi- mization. Dalam hal ini penelitian ini bertujuan untuk membandingkan ketiga algoritma tersebut untuk mengetahui nilai estimasi parameter setiap algoritma tersebut. Dengan memperhatikan jumlah iterasi yang terjadi dan hasil estimasi parameter ketiga algoritma tersebut.
1.2 Perumusan Masalah
Berdasarkan uraian sebelumnya, kita mendapati ada beberapa algoritma untuk menaksir parameter sehingga perlu dilakukan penelitian berkenaan dengan per- bandingan ketiga algoritma ini.
UNIVERSITAS SUMATERA UTARA
3
1.3 Tujuan Penelitian
Tujuan dari penelitian ini membandingkan ketiga algoritma dalam hal mengesti- masi parameter suatu populasi tertentu. Apakah memiliki hasil estimasi parame- ter yang berbeda atau tidak, serta mengetahui efisiensi ketiga algoritma tersebut dengan memperhatikan jumlah iterasinya.
1.4 Manfaat Penelitian
Berdasarkan tujuan penelitian maka manfaat penulisan ini diharapkan dapat menambah pengetahuan dan pemahaman tentang bagaimana menaksir parame- ter sebuah fungsi distribusi tertentu berdasarkan maksimum likelihood dengan menggunakan algoritma Newton Raphson, Fisher Scoring dan algoritma Expec- tation Maximization (EM).
UNIVERSITAS SUMATERA UTARA
BAB 2
TINJAUAN PUSTAKA
Dalam penulisan ini akan dibahas penaksiran parameter berdasarkan distribusi parameter tertentu dengan (Maximum Likelihood Estimation-MLE) berdasarkan algoritma Newton Raphson, Fisher Scoring dan Expectation Maximization.
2.1 Penaksir Kemungkinan Maksimum (Maximum Likelihood Esti- mation - MLE)
Maksimum likelihood adalah sebuah metode perkiraan yang penting dalam ana- lisis statistik. Tujuan utama dari estimasi maksimum likelihood adalah untuk menemukan parameter-parameter yang memaksimumkan kemungkinan bersama (joint likelihood) dari sebuah data. Misalkan X1, X2, . . . , Xn memiliki kepadatan bersama fθ(X1, X2, . . . , Xn) = f (X1, X2, . . . , Xn|θ) dalam hal ini X1 = x1, X2 = x2, . . . , Xn= xnadalah nilai yang diamati sehingga fungsi likelihood dari θ adalah
L(θ) = Yn i=1
f (xi|θ) (2.1)
Untuk memaksimumkan fungsi likelihood umumnya digunakan logaritma atau lebih dikenal dengan fungsi loglikelihood:
l(θ|X1, X2, . . . , Xn) = Xn
i=1
lnf (xn|θ). (2.2)
Pada persamaan (2.2) jelas terlihat bahwa berupaya memaksimumkan fungsi likelihood. Berberapa nilai yang memaksimumkan fungsi likelihood juga memaksi- mumkan fungsi loglikelihood lnL(θ) dan membuat nilai ∂θ∂lnL(θ) = 0. (Boldstad, 1998)
Metode maksimum likelihood menggunakan nilai dalam ruang parameter Ω sebagai penaksir terhadap nilai parameter yang tidak diketahui. Dalam ap- likasinya L(θ) menunjukkan fungsi peluang kepadatan bersama dari sampel ran- dom. karena ruang paarameter Ω merupakan interval terbuka maka L(θ) meru-
4
UNIVERSITAS SUMATERA UTARA
5
pakan fungsi yang dapat diturunkan serta diasumsikan maksimum pada Ω (Bain dan Engelhard, 1992)
Mai, et al., (2014) memisalkan sebuah vektor acak X dengan jumlah penga- matan sebanyak N serta Y adalah continuous. f (Y |θ) adalah fungsi kepadatan peluang Y dengan parameter θ. Dengan Asumsi bahwa pengamatan tersebut bebas maka diperoleh kepadatan bersamanya adalah:
f (x1, x2, . . . , xn|θ) = Yn i=1
f (xi|θ) (2.3)
Dalam hal ini berfokus kepada parameter θ yang tidak diketahui pada hasil pengamatan oleh karena itu:
L(θ|x1, x2, . . . , xn) = f (x1, x2, . . . , xn|θ) (2.4) Persamaan (2.4) merupakan fungsi likelihood dengan parameter θ. Dengan me- maksimumkan fungsi likelihood terhadap θ dinamakan penaksir kemungkinan maksimum.
θN = arg max
θ ∈ Θ [L(θ|x1, x2, . . . , xn)].
dalam prakteknya lebih menyenangkan jika bekerja dengan logaritma natural dari fungsi likelihood atau biasa disebut dengan loglikelihood:
l(θ|x1, x2, . . . , xn) = XN
i=1
lnf (xN|θ). (2.5)
Andaikan X1, X2, . . . , Xnmemiliki kepadatan peluang bersama fθ(x1, x2, . . . , xn) = f (x1, x2, . . . , xn|θ) dengan nilai yang diamati X1 = x1, X2 = x2, . . . , Xn= xn se- hingga likelihood dari θ adalah:
L(θ| = (x1, x2, . . . , xn|θ). (2.6) Pada persamaan (2.6) diasumsikan bahwa sampel dari pengamatan adalah berdis- tibusi bebas dan identik (iid). Maka dapat membentuk distribusi bersama dari N pengamatan dengan parameter (θ1, θ2, . . . , θp).
L(θ1, θ2, . . . , θp|x1, x2, . . . , xN) = L(θ|x1, x2, . . . , xn)
= L(θ|x1) × L(θ|x2), × . . . × L(θ|xN)
UNIVERSITAS SUMATERA UTARA
6
= Yn i=1
L(θ|yi). (2.7)
Berikut ini merupakan salah satu contoh penaksir kemungkinan maksimum pada percobaan bernoulli.
Percobaan Bernoulli adalah percobaan yang menghasilkan dua kemungkinan hasil, yaitu sukses dan gagal. Contohnya adalah pelemparan satu buah mata uang logam, dimana terdapat 2 kemungkinan hasil yang bisa diperoleh dari satu kali pelemparan, yaitu angka dan gambar.
Jika percobaan tersebut berdistribusi bernoulli terdiri dari n kali percobaan dengan peluang sukses adalah p maka:
L(p|x) = p(x1)(1 − p)(1−x1)× . . . × p(xn)(1 − p)(1−xn)
= p(x1+...+xn)(1 − p)(n−(x1+...+xn)) lnL(p|x) = lnp
XN n=1
xi
!
+ ln(1 − p) n − XN n=1
xi
!
= n((¯xlnp + (1 − ¯x)ln(1 − p)))
∂
∂plnL(p|x) = n
x¯
p −1 − ¯x 1 − p
= n
x − p¯ p(1 − p)
Jika ∂θ∂ lnL(p|x) = 0 diperoleh p = (¯x). Maka dapat disimpulkan nilai ke- mungkinan maksimum pada percobaan bernoulli dengan parameter p adalah ¯x.
UNIVERSITAS SUMATERA UTARA
7
2.2 Algoritma Newton Raphson
Salah satu metode yang paling sering digunakan dalam optimisasi statistika adalah algoritma Newton Raphson. Metode ini berdasarkan pada penaksiran suatu fungsi yang ingin dimaksimumkan secara kuadratik. Maksimum dari penaksiran tersebut umumnya akan lebih mudah jika nilai dugaan awal pada fungsinya adalah baik. Akan tetapi jika nilai dugaan awal dari fungsi tersebut tidak mendekati nila maksimum maka sebuah prakiraan yang baru akan dihitung ulang dan proses tersebut akan berulang terus menerus dan akan memerlukan waktu yang relatif lama jika tidak menggunakan software tertentu.
Millar (2011) mengungkapkan bahwa, algoritma Newton Raphson berasal dari prakiraan kuadratik dari fungsi objective loglikelihood melalui turunan dari penaksiran linear. Jika θ ∈ <sdengan turunan pertamanya adalah l0(θ) = ∂l(θ;y)∂θ maka nilai parameter pada iterasi ke k adalah θ(k). Algoritma newton raphson menaksirkan l0(θ(k)) menggunakan perluasan deret taylor oleh θ(k)seperti berikut ini:
l0(θ) ≈ l0(θ(k)) + H(θ(k))(θ − (θ(k))
dalam hal ini H(θ(k)) adalah matriks Hessian s × s merupakan turunan kedua l(θ) yang dievaluasi pada saat θ(k). MLE adalah solusi dari sebuah persamaan likelihood l0(ˆθ) = 0 oleh karena θ = ˆθ menghasilkan
0 ≈ l0(θ(k)) + H(θ(k))(θ − (θ(k)).
Oleh karena persamaan diatas linear terhadap θ dan asumsi bahwa matriks Hes- sian dapat dibalikkan (invers) sehingga solusinya menjadi
θ ≈ (θˆ (k)) − H(θ(k))−1(l0(θ(k)).
Jika sisi kanan persamaan diatas diperbaharui dengan menggunakan θ(k) meng- hasilkan persamaan algoritma Newton Raphson sebagai berikut:
θ(k+1) = (θ(k)) − H(θ(k))−1(l0(θ(k)). (2.8)
Ehlers (2002) mengungkapkan bahwa algoritma Newton Raphson adalah sebuah aturan perulangan untuk menghasilkan nilai ˆβ dari β yang memaksi-
UNIVERSITAS SUMATERA UTARA
8
mumkan fungsi g(β). Misalkan β(r) adalah penaksiran ke-r dari ˆβ yang dalam hal ini r = 0, 1, 2, . . .. Metode ini membutuhan nilai dugaan awal β(0) sebagai nilai untuk memaksimumkan fungsi tersebut. Setiap langkah ke-r dalam pro- ses perulangan fungsi g(β) ditaksir dengan syarat sampai urutan kedua dalam perluasan seri Taylor terhadap g(β) seperti berikut:
Q(r)(β) = g(β(r)+ q(r)(β − β(r)) + 1
2(β − β(r))0H(r)(β − β(r)) + (k(β − β(r)k).
Dalam hal ini H adalah matriks dengan memiliki elemen ∂β∂2g(β)
h∂βk , q adalah vektor dengan elemen∂g(β)∂β
k yang dalam hal ini H(r) dan q(r) adalah H dan q yang dihitung pada saat β = β(r). Penaksiran berikutnya dari ˆβ terletak pada nilai maksimum dari Q(r)(β), dengan menyelesaikan ∂Q(r)∂βg(β) = β(r)+ H(r)(β − β(r)) = 0. Untuk β menghasilkan penaksian selanjutnya dari ˆβ yaitu
β(r+1)= β(r)− (H(r))−1q(r). (2.9)
Lange (2004) mengungkapkan bahwa dalam statistik gradien dari loglikeli- hood disebut score dan negatif turunan kedua dari loglikelihood adalah informasi yang diamati. Misalkan ingin memaksimumkan nilai dari fungsi f (x) dalam him- punan S ⊂ <n . dengan asumsi bahwa f (x) dapat diturunkan dua kali, maka perluasannya menjadi
f (y) = f (x) + df (x)(y − x) + 1
2(y − x)2S2(y, x)(y − x)
Dalam hal ini mensubsitusikan d2f (x) untuk S2(y, x) dan memprakirakan f (y) dengan hasil kuadratik. Jika diperhatikan dapat menyelesaikan titik minimum dari y:
y = x − d2f (x)−1∇f (x) sehingga diperoleh iterasi newton menjadi
xm+1 = xm− d2f (xm)−1∇(xm).
Lawless (2003) memisalkan terdapat fungsi-fungsi ∂l(β)∂β
j dengan j = 1, 2, , p, maka nilai-nilai βjyang memenuhi fungsi implisit tersebut dapat diperoleh melalui
UNIVERSITAS SUMATERA UTARA
9
iterasi Newton Raphson sebagai berikut :
βˆ(r+1)= ˆβ(r)− H( ˆβ(r))−1l0( ˆβ(r)), untuk r = 0, 1, 2, . . . (2.10)
dengan β = (β1, β2, . . . , βp), D(β) =
∂l(β)
∂βj , . . . ,∂l(β)∂β
j
T
, l0(β) =
h∂2l(β)
∂βj∂βk
i
untuk j, k = 0, 1, . . . , p.
Salah satu kegunaan algoritma Newton Raphson dalam permasalahan statis- tika adalah bahwa loglikelihood dalam banyak permasalahan mendekati fungsi kuadratik yang menyebar dititik maksimumnya. Hal itulah yang dihubungkan dengan prakiraan kemungkinan maksimumnya yang terdistribusi normal bahwa logaritma dari distribusi normal adalah sebuah fungsi kuadratik. Oleh kare- na itulah prakiraan dengan loglikelihood adalah sebuah pendekatan yang sangat bagus dan mendekati titik maksimumnya (Storvik, 2011).
Berikut ini merupakan salah satu contoh algoritma Newton Raphson pada regresi logistik.
Regresi logistik merupakan salah satu jenis regresi yang menghubungkan antara satu atau beberapa variabel independen (variabel bebas) dengan variabel depen- den yang berupa kategori; biasanya 0 dan 1. Jenis variabel independen berupa kategori inilah yang membedakan regresi logistik dengan regresi berganda atau regresi linear lainnya. Persamaan regresi logistik adalah
Ln
p 1 − p
= β0+ βiX atau e(β0+βiX )= p 1 − p dalam hal ini β0 merupakan konstanta dan β1 merupakan koefisien masing- masing variabel.
Meneliti pasangan bebas (Yi, Xi) dimana i = 1, 2, . . . , n dengan Yi ∈ [0, 1]
dengan peluang yang diberikan adalah:
P (Yi = 1|Xi) = exp(β0Xi) 1 + exp(β0Xi) P (Yi = 0|Xi) = 1
1 + exp(β0Xi)
UNIVERSITAS SUMATERA UTARA
10
Dengan tujuan untuk menghitung nilai MLE dari β. Maka kemungkinan bersamanya adalah
P (Yi, . . . , Yn|Xi, . . . , Xn) = Y
i,Yi=1
exp(β0Xi) 1 + exp(β0Xi)
Y
i,Yi=1
1 1 + exp(β0Xi) fungsi loglikelihoodnya adalah
l(β) = β0 X
i,Yi=1
Xi−X
i
log(1 + exp(β0Xi))
Turunan pertama fungsi loglikelihood terhadap β adalah l0(β) = X
i,Yi=1
Xi−X
i
exp(β0Xi) 1 + exp(β0Xi)Xi
Lalu diperoleh matriks hessian yaitu turunan kedua dari fungsi loglikelihood ter- hadap β adalah
H(β(k)) = −X
i
exp(β0Xi)
(1 + exp(β0Xi))2XiXi0
Sehingga diperoleh algoritma newton raphson pada regresi logistik adalah β(k+1) = β(k)− H(β(k))−1l0(β(k)) (2.11) β(k+1)= β(k)− −X
i
exp(β0Xi)
(1 + exp(β0Xi))2XiXi
!−1 X
i,Yi=1
Xi−X
i
exp(β0Xi) 1 + exp(β0Xi)Xi
! .
2.3 Algoritma Fisher Scoring
Algoritma Scoring atau biasa dikenal dengan Fisher Scoring. Algoritma Fisher Scoring ditemukan oleh Ronald Fisher. Algoritma Fisher Scoring adalah sebuah bentuk dari metode Newton yang digunakan dalam statistik untuk menyelesaikan persamaan maksimum likelihood.
Algoritma fisher scoring mirip dengan algoritma Newton Raphson, perbe- daanya adalah fisher scoring menggunakan matriks informasi. Matriks informasi tersebut adalah negatif dari nilai ekspektasi dari matriks turunan kedua fungsi yang akan dimaksimumkan sedangkan algoritma newton raphson menggunakan matriks turunan kedua dari nilai yang diamati (Ehlers, 2002). Rumus perulangan Fisher Scoring adalah
β(r+1) = β(r)+ I(β(r))−1l0(β(r)) (2.12)
UNIVERSITAS SUMATERA UTARA
11
dalam hal ini I(r) adalah taksiran ke-r dari matriks informasi yang diamati.
Matriks informasi dalam penulisan ini adalah negatif dari nilai yang diharapkan dari matriks turunan kedua fungsi loglikelihood yaitu I = −E(∂β∂2L(β)
h∂βk).
Algoritma Fisher Scoring menurut Smyth (2002) adalah salah satu bentuk pengembangan dari metode Newton Raphson dengan mengganti H(β) dengan I(β). dengan I(β) adalah matriks informasi fisher berukuran (p + 1) × (p + 1).
Menurut Dhar et.al. (2010) misalkan X1, X2, . . . , Xnberdistibusi bebas dan iden- tik dari beberapa distribusi f (x, θ) dimana θ = (θ1, θ2, . . . , θk)0. Misalkan L(θ|x) merupakan fungsi likelihood dari X. Dimana l = logL. Untuk mendapatkan penaksir kemungkinan maksimum dari θ, Dalam hal ini turunan pertama fungsi loglikelihood terhadap parameter adalah l0(θ) = (∂θ∂l
1,∂θ∂l
2, . . . ,∂θ∂l
k) dengan nilai matriks informasinya adalah
I(θ) = −E
∂2l
∂θ12
∂2l
∂θ1θ2 . . . ∂θ∂2l
1θk
∂2l
∂θ2θ1
∂2l
∂θ22 . . . ∂θ∂2l
2θk
... ... . .. ...
∂2l
∂θkθ1
∂2l
∂θkθ2 . . . ∂θ∂22l k
Misalkan θ(t) adalah prakiraan dari θ saat tahap tth. Kemudian prakiraan pada saat tahap (t + 1)th adalah θ(t+1)= θ(t)+ I(θ(t))−1l0(θ(t)).
Berikut ini merupakan salah satu contoh algoritma Fisher Scoring pada regresi heteroscedastik.
Memiliki model regresi linear dengan E(Y |X) = α + βX dan var(Y |X) = cX2. Dalam hal ini akan memprakirakan α, β,dan c dengan menggunakan kemungki- nan maksimum.
dengan nilai loglikehood adalah
−1 2
X (Yi− α − βXi)2
cXi2 − nlog(c)
2 −X
i
logXi2 2 Turunan pertama fungsi loglikelihoodnya adalah
l0(α, β, c) = 1 2
X
2ri cXi2 2ri cXi
r2i c2Xi2 − 1
c
UNIVERSITAS SUMATERA UTARA
12
dalam hal ini ri = Yi− α − βXi, dengan nilai matriks hessian:
I(θ) = −E
1 cXi2
1 cXi
ri c2Xi2 1
cXi 1 c
ri2 c2Xi2 ri
c2Xi2 ri
c2Xi2 r2i c2Xi2 − 1
c2
dengan nilai expected hessian adalah
I(θ) = −
1 cXi2
1 cXi 0
1 cXi
1
c 0
0 0 2c12
Sehingga diperoleh algoritma fisher scoring pada regresi heteroscedastik adalah β(r+1) = β(r)+ I(β(r))−1l0(β(r))
α βc
!r+1
= α βc
!r
+
1 cXi2
1 cXi 0
1 cXi
1
c 0
0 0 2c12
−1
1 2
X
2ri cXi2
2ri cXi
ri2 c2Xi2 − 1
c
2.4 Algoritma Expectation Maximization (EM Algorithm)
Algoritma EM adalah algoritma yang umum digunakan untuk menghitung es- timasi kemungkinan maksimum yang digunakan untuk keadaan yang menyer- takan pengamatan yang hilang atau tidak lengkap. Algortima EM pertama kali diteliti oleh Dempster, Laird, dan Rubin (1977). Algoritma EM adalah proses dua langkah untuk mengestimasi parameter suatu model data tidak lengkap.
Langkah awalnya adalah membagi data kedalam dua bagian, yaitu bagian miss- ing dan nonmissing, kemudian mengestimasi nilai data yang hilang melalui reg- resi linear sehingga data menjadi lengkap. Regresi awal yang digunakan diambil dari data yang teramati saja. Pada proses iterasi selanjutnya estimasi data hi- lang diperoleh dari persamaan regresi linear data lengkap pada data sebelumnya.
Langkah akan terus berjalan sampai data yang hilang menjadi konvergen, sehing- ga didapatkan parameter yang maksimal.
Inti dari Algoritma EM sdalah beberapa penaksiran dari data yang hilang.
Suatu data dapat terjadi suatu kegagalan dalam mencatat pengamatan terten- tu untuk kasus tertentu. Data juga dapat hilang dalam permasalahan teoritis.
UNIVERSITAS SUMATERA UTARA
13
Dalam hal ini langkah E (Expectation) dari algoritma EM sebagai pengisi data yang hilang. Tindakan ini menggantikan fungsi likelihood data yang diamati de- ngan sebuah fungsi pengganti. Karena fungsi pengganti biasanya lebih sederhana dari pada fungsi likelihood. Dapat menyelesaikan langkah M (maximization) de- ngan analitik. Harga yang bayar untuk kesedehanaan ini adalah bahwa algoritma EM adalah sebuah algoritma perulangan. Satu keuntungan dari algoritma EM adalah stabilitas numeriknya dimana algoritma EM menyebabkan peningkatan yang tetap dalam kemungkinan yang diamati (Lange, 2004).
Wu (1983) mengemukakan bahwa algoritma EM umumnya memiliki dua jenis sampel yaitu x dan y. Dalam hal ini data lengkap yang diamati adalah x dalam χ dan nilai yang tidak diamati atau nilai yang hilang adalah y = y(x) dalam Y , yang memiliki fungsi kepadatan dari x adalah f (x|θ) yang dalam hal ini θ adalah parameter dan fungsi kepadatan dari y adalah
g(y|θ) = Z
f (x|θ)dx
dalam hal ini parameter θ akan diamati menggunakan metode maksimum likeli- hood yaitu dengan memaksimumkan g(y|θ). Dalam banyak permasalahan statis- tika adalah lebih mudah memaksimumkan data lengkap dari pada data yang hilang. Pokok utama dalam algoritma EM adalah memaksimumkan f (x|θ) ter- hadap theta dalam langkah M . Oleh karena x tidak dapat diamati maka meng- gantikan logf (x|θ) dengan nilai ekspektasi dari y pada langkah E, dan pada akhirnya diperoleh k(x|y, θ) = f (x|θ)g(y|θ). Maka diperoleh
L(θ0) = logg(y|θ0) = Q(θ0|θ) − H(θ0|θ) (2.13) dalam hal ini Q(θ0|θ) = Elogf (x|θ0)|y, θ dan H(θ0|θ) = Elogk(x|θ0)|y, θ. Selan- jutnya pada iterasi EM adalah θp → θp+1 sebagai berikut:
Langkah E. Mendefenisikan Q(θ|θp),
Langkah M. Memilih θ(p + 1) sembarang nilai dari θ yang memaksimumkan nilai Q(θ|θp).
UNIVERSITAS SUMATERA UTARA
14
Chan (2015) mengungkapkan bahwa langkah-langkah Algoritma Expecta- tion Maximization (EM Algorithm) adalah sebagai berikut:
1) Langkah Expectation (E-Step)
Diberikan y dengan formulasi distribusi untuk data lengkap adalah f (x|y, θ(t)).
Kemudian menghitung fungsi Q sebagai berikut Q(θ|θ(t))def f Ex|y,θ(t)[logf (X|θ)] =
Z
logf (x|θ)f (x|y, θ(t))dx (2.14)
2) Langkah Maximization (M-Step)
Dilakukan dengan cara memaksimumkan Q(θ|θ(t)) terhadap θ sebagai berikut:
Diberikan y dengan formulasi distribusi untuk data lengkap adalah f (x|y, θ(t). Kemudian menghitung fungsi Q sebagai berikut
θ(t) = arg max
θ Q(θ|θ(t)) (2.15)
UNIVERSITAS SUMATERA UTARA
BAB 3
METODOLOGI PENELITIAN
Adapun langkah-langkah penulisan yang berkaitan dengan tujuan penulisan ini adalah sebagai berikut:
1) Mengambil data dari Korlantas Polri Indonesia mengenai jumlah kece- lakaan di Indonesia;
2) Melakukan pengecekan menggunakan program SPSS untuk mengetahui je- nis distribusi data tersebut;
3) Menemukan fungsi likelihood;
4) Menemukan fungsi loglikelihood;
5) Mengestimasi parameter dengan menggunakan algoritma;
a) Algoritma Newton Raphson
θ(r+1) = (θ(r)) − H(θ(r))−1(l0(θ(r))
Dalam hal ini H(θ(r)) adalah matriks Hessian s×s dari turunan kedua l(θ) dievaluasi pada saat θ(r) dan l0(θ(r) adalah turunan pertama dari loglikelihood.
b) Algoritma Fisher Scoring
β(r+1) = β(r)+ I(β(r))−1l0(β(r))
Dalam hal ini I(r) adalah taksiran ke-r dari matriks informasi yang diamati. Matriks informasi dalam penulisan ini adalah negatif dari nilai yang diharapkan dari matriks turunan kedua fungsi loglikelihood yaitu I = −E(∂β∂2L(β)
h∂βk).
c) Algoritma Expectation Maximization (EM)
15
UNIVERSITAS SUMATERA UTARA
16
6) Membangun sebuah program estimasi parameter ketiga algoritma tersebut dengan menggunakan bantuan software Matlab 2016a;
7) Membandingkan hasil estimasi ketiga metode iterasi tersebut.
UNIVERSITAS SUMATERA UTARA
BAB 4
HASIL DAN PEMBAHASAN
4.1 Data Kecelakaan di Indonesia Berdasarkan Kelompok Umur
Pada penulisan ini akan dilakukan estimasi parameter pada data kecelakaan yang diperoleh dari Korlantas Polri Indonesia. Berikut data kecelakaan di Indonesia berdasarkan kelompok umur.
Gambar 4.1 Grafik data kecelakaan di Indonesia berdasarkan kelompok umur Tabel 4.1 Data kecelakaan di Indonesia berdasarkan kelompok umur
Umur tahun Jumlah
0-4 683
5-9 1.307
10-14 1.704 15-19 4.729 20-24 4.175 25-29 2.665 30-34 2.041 35-39 2.017 40-45 1.929 46-49 1.867 50-54 1.828 55-59 1.432 60-64 1.176
65-69 756
70-74 534
75-79 312
80-84 173
Dalam melakukan estimasi parameter dengan metode Maksimum Likeli- hood perlu mengetahui jenis distribusi dari data kecelakaan tersebut. Dalam
17
UNIVERSITAS SUMATERA UTARA
18
penulisan ini pengecekan jenis distribusi populasi data kecelakaan tersebut meng- gunakan bantuan program SPSS dan diperoleh hasil sebagai berikut:
Gambar 4.2 Hasil test distribusi normal pada data kecelakaan menggunakan SPSS
Berdasarkan hasil diatas diperoleh bahwa data tersebut berdistribusi nor- mal. Hal tersebut ditunjukkan dengan nilai signifikansi sebesar 0, 124(0, 124 >
0, 05) maka dapat dikatakan bahwa data tersebut berdistribusi normal.
4.2 Estimasi Parameter Pada Data Kecelakaan Dengan Metode Mak- simum Likelihood
Estimasi parameter dengan menggunakan maksimum likelihood diperlukan ni- lai distribusi populasi data kecelakaan. Dengan menggunakan SPSS mengetahui bahwa data tersebut berdistribusi normal. Berikut adalah fungsi kepadatan pelu- ang bersama (pdf) distribusi normal dengan parameter µ dan σ2.
f (xi) = 1
√
2πσ2e−(x−µ)
2 2σ2
Sehingga dapat diperoleh fungsi likelihood dan loglikelihood dari distribusi normal sebagai berikut:
Fungsi likelihood distribusi normal adalah L(θ|x1, x2, . . . , xn) =
Yn i=1
L(θ|xi) = Yn i=1
f (xi) = Yn i=1
√ 1
2πσ2e−(xi−µ)
2 2σ2
= (2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!
UNIVERSITAS SUMATERA UTARA
19
Fungsi loglikelihood distribusi normal adalah l(θ|x1, x2, . . . , xn) = logL(θ|xi) = log
" n Y
i=1
L(θ|xi)
#
= ln
"
(2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!#
= −n
2log(2πσ2) − Xn
i=1
(xi− µ)2 2σ2
Dalam penelitian ini akan dilakukan estimasi parameter µ dan σ2 dengan berda- sarkan Newton Raphson, Fisher Scoring dan Algoritma EM.
4.2.1 Algoritma newton raphson
Dalam algoritma Newton Raphson memerlukan turunan pertamanya dari fungsi loglikelihood l0(θ) dan matriks Hessian H(θ(k)) yaitu matriks turunan kedua dari fungsi loglikelihood. Kemudian diaplikasikan kedalam persamaan algoritma new- ton raphson:
θ(r+1)= (θ(r)) − H(θ(r))−1(l0(θ(r))
Adapun langkah-langkah dalam algoritma Newton Raphson adalah sebagai berikut:
1) Menentukan nilai awal θ0, 2) Menentukan H(r) dan l0(r),
3) Menghitung estimator parameter untuk r = 0, 1, 2, . . . dengan mengguna- kan perulangan Newton Raphson,
4) Mengulangi iterasi sampai diperoleh nilai yang konvergen, yaitu max|ˆθ(r+1)− θˆ(r)| ≤ ε adalah konstanta positif yang ditentukan.
Fungsi likelihood distribusi normal adalah L(θ|x1, x2, . . . , xn) =
Yn i=1
L(θ|xi) = Yn i=1
f (xi) = Yn i=1
√ 1
2πσ2e−(xi−µ)
2 2σ2
= (2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!
UNIVERSITAS SUMATERA UTARA
20
Fungsi loglikelihood distribusi normal adalah l(θ|x1, x2, . . . , xn) = logL(θ|xi) = log
" n Y
i=1
L(θ|xi)
#
= ln
"
(2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!#
= −n
2log(2πσ2) − Xn
i=1
(xi− µ)2 2σ2
Berikut ini adalah nilai turunan pertama dari fungsi loglikelihood l0(θ) ter- hadap parameter µ dan σ2:
Turunan pertama fungsi loglikelihood terhadap µ adalah
∂
∂µl(θ|x1, x2, . . . , xn) = ∂
∂µ
"
−n
2log(2πσ2) − Xn
i=1
(xi− µ)2 2σ2
#
= 1 σ2
Xn i=1
(xi− µ) Turunan pertama fungsi loglikelihood terhadap σ2 adalah
∂
∂σ2l(θ|x1, x2, . . . , xn) = ∂
∂σ2
"
−n
2log(2πσ2) − Xn
i=1
(xi− µ)2 2σ2
#
= − n 2σ2+
Xn i=1
(xi− µ) 2(σ2)2
Sehingga diperoleh matriks turunawn pertama fungsi loglikelihood l0(θ) dari sebuah data berdistribusi normal adalah
l0(θ) =
∂
∂µl(θ|x1, x2, . . . , xn)
∂
∂σ2l(θ|x1, x2, . . . , xn)
=
" 1
σ2
Pn
i=1(xi− µ)
− N
2σ2 +Pn i=1
(xi−µ)2 2(σ2)2
#
Berikut ini merupakan nilai turunan kedua dari fungsi loglikelihood terhadap parameter µ dan σ2 atau biasa disebut matriks Hessian H(θ(k)) yaitu:
H(θ(k)) =
" ∂
∂µ 1 σ2
PN
i=1(xi− µ) ∂σ∂2
1 σ2
Pn
i=1(xi− µ)
∂
∂µ n
2σ2 +Pn i=1
(xi−µ)2 2(σ2)2
∂
∂σ2 − n
2σ2 +Pn i=1
(xi−µ)2 2(σ2)2
#
H(θ(k)) =
"
−n
σ2 −
Pn
i=1(xi−µ) (σ2)2
−
Pn
i=1(xi−µ) (σ2)2
n 2(σ2)2 −
Pn
i=1(xi−µ)2 (σ2)3
#
Sehingga diperoleh bentuk algoritma metode newton raphson untuk popu- lasi data kecelakaan yang berdistribusi normal adalah sebagai berikut:
θ(k+1) = (θ(k)) − H(θ(k))−1(l0(θ(k))
UNIVERSITAS SUMATERA UTARA
21
θ(k+1) = µ σ2
k
−
"
−n
σ2 −
Pn
i=1(xi−µ) (σ2)2
−
Pn
i=1(xi−µ) (σ2)2
n 2(σ2)2 −
Pn
i=1(xi−µ)2 (σ2)3
#−1 1 σ2
Pn
i=1(xi− µ)
− n
2σ2 +Pn i=1
(xi−µ)2 2σ4
.
Algoritma newton raphson merupakan sebuah algoritma iterasi dengan menetukan nilai awal untuk setiap nilai parameternya dengan sembarang dan estimasi parameter tersebut akan terus menerus akan berulang sampai didapat- kan nilai yang konvergen. Jika dilakukan dengan cara manual akan memakan waktu yang cukup lama oleh karena itu dalam penulisan ini estimasi parameter tersebut akan dilakukan dengan menggunakan bantuan software Matlab 2016a.
Prosedur dan hasil komputasi terdapat pada lampiran. Berikut hasil eterasi estimasi parameter µ dan σ2 dengan menggunakan algoritma Newton Raphson dengan nilai awal µ=234 dan σ2=345 dan dengan nilai ε = 0.00000001:
Tabel 4.2 Hasil iterasi algoritma newton raphson
Iterasi µ σ2
1 2126,5154570 252,1458321 2 1902,4703510 364.1610122 3 1812.3518612 542.2146752 4 1768.5268376 811.8458751 5 1746.8173854 1217.1270438 6 1735.9888650 1825.2370896 7 1730.5788157 2737.2053636 8 1727.8750292 4104.4836330 9 1726.5238251 6153.7978915 10 1725.8487103 9224.1308342 11 1725.5115147 13821.4353017 12 1725.3431880 20698.9614110 13 1725.2592283 30973.8227583 14 1725.2174014 46293.0468414 15 1725.1966030 69062.9758207 16 1725.1862905 102749.5304578 17 1725.1811996 152231.4903077 18 1725.1787037 224117.3358132 19 1725.1774933 326760.9920498 20 1725.1769168 469326.7030349 21 1725.1766505 658522.7601156 22 1725.1765340 890686.2699091 23 1725.1764882 1137788.5156123 24 1725.1764737 1337609.5298402 25 1725.1764708 1430731.7753951 26 1725.1764706 1445484.5554956 27 1725.1764706 1445795.0706868
Berdasarkan hasil diatas sehingga diperoleh nilai estimasi parameter µ dan σ2 untuk satu set data kecelakaan yang terjadi di Indonesia berdasarkan kelom- pok umur menggunakan algoritma Newton Raphson adalah µ = 1725, 1764706
UNIVERSITAS SUMATERA UTARA
22
dan σ2 = 1444795, 0706868 dengan jumlah iterasi sebanyak 27.
UNIVERSITAS SUMATERA UTARA
23
4.2.2 Algoritma fisher scoring
Sama halnya dengan algoritma newton raphson, algoritma fisher scoring juga memerlukan turunan pertamanya dari fungsi loglikelihood l0(θ). Hanya saja perbedaannya dengan algoritma newton raphson adalah algoritma fisher scor- ing membutuhkan nilai negatif dari matriks informasi I(θ) yaitu nilai expected dari matriks turunan kedua dari fungsi loglikelihood. Kemudian diaplikasikan kedalam persamaan algoritma fisher scoring.
θ(r+1) = (θ(r)) + I(θ(r))−1(l0(θ(r))
Berikut ini adalah nilai expected turunan kedua dari fungsi log likelihood I(θ) terhadap parameter µ dan σ2:
I(θ(k)) = −E
"
−n
σ2 −
Pn i=1(xi−µ)
(σ2)2
−
Pn
i=1(xi−µ) (σ2)2
n 2(σ2)2 −
Pn
i=1(xi−µ)2 (σ2)3
#
I(θ(k)) = −
−n
σ2 0
0 − n
2(σ2)2
=
n
σ2 0
0 2(σn2)2
Sehingga diperoleh iterasi untuk metode fisher scoring adalah sebagai berikut:
θ(r+1) = (θ(r)) + I(θ(r))−1(l0(θ(r))
θ(r+1) =
µ σ2
r +
n
σ2 0 0 2σn4
−1 1 σ2
Pn
i=1(xi− µ)
− n
2σ2 +Pn i=1
(xi−µ)2 2σ4
Sama halnya dengan algoritma newton raphson estimasi parameter berda- sarkan fisher scoring juga akan dilakukan dengan menggunakan bantuan program Matlab 2016a. Prosedur dan hasil komputasi terdapat pada lampiran. Berikut hasil eterasi estimasi parameter µ dan σ2 dengan menggunakan algoritma Fisher Scoring dengan nilai awal µ=234 dan σ2=345 dan dengan nilai ε = 0.00000001:
UNIVERSITAS SUMATERA UTARA
24 Tabel 4.3 Hasil iterasi algoritma fisher scoring
Iterasi µ σ2
1 1725.1764706 3669402.4705882 2 1725.1764706 1445795.2041522
Berdasarkan hasil diatas sehingga diperoleh nilai estimasi parameter µ dan σ2 untuk satu set data kecelakaan yang terjadi di Indonesia berdasarkan kelom- pok umur menggunakan algoritma Fisher Scoring adalah µ = 1725, 1764706 dan σ2 = 1444795, 0706868 dengan jumlah iterasi sebanyak 2.
4.2.3 Algoritma expectation maximization (EM algorithm)
Estimasi parameter dengan algoritma expectation Maximization memiliki dua tahapan yaitu tahap expectation (E-step) dan tahap Maximization (M-step).
Sama hal nya dengan algoritma newton raphson dan fisher scoring, estimasi parameter dengan algortima EM menggunakan maksimum likelihood. Oleh kare- na itu memerlukan fungsi likelihood dan loglikelihood distribusi suatu populasi.
Yang dalam hal ini diperoleh fungsi likelihood dan loglikelihood dari distribusi yang diamati. Perbedaannya adalah algoritma EM adalah proses estimasi un- tuk data yang hilang. Fungsi likelihood dan loglikelihood dari data berdistribusi normal adalah
Fungsi likelihood distribusi normal adalah L(θ|x1, x2, . . . , xn) =
Yn i=1
L(θ|xi) = Yn i=1
f (xi) = Yn i=1
√ 1
2πσ2e−(xi−µ)
2 2σ2
= (2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!
Fungsi loglikelihood distribusi normal adalah l(θ|x1, x2, . . . , xn) = logL(θ|xi) = log
" n Y
i=1
L(θ|xi)
#
= ln
"
(2πσ2)−n2exp − Xn
i=1
(xi− µ)2 2σ2
!#
= −n
2log(2πσ2) − Xn
i=1
(xi− µ)2 2σ2
UNIVERSITAS SUMATERA UTARA