MAXIMUM LIKELIHOOD ESTIMATION (MLE) PADA
MODEL LOGISTIK EXPONENSIAL
DESI RAHMATINA
Universitas Maritim Raja Ali Haji.Jln Politeknik. Senggarang. Tanjungpinang email : [email protected]
Abstrak
Model logistik eksponensial yang digunakan dalam paper ini pada kajian kesehatan untuk menguji hubungan diantara variabel dependen (Y) dan variabel independen (X) dimana Y merupakan variabel dikotomi,contoh kejadian dari beberapa hasil yang sukses (Y=1) dan gagal (Y=0).
Paper ini bertujuan untuk menguji pengaruh kovariat pada model logistik exponensial
model. Klasifikasi dalam model logistik eksponensial dilakukan dengan menggunakan
estimasi parameter menggunakan Maximum Likelihood Estimation (MLE) menggunakan iterasi Newton Raphson untuk menguji signifikansi pada kovariat. Data yang digunakan dalam penelitian ini adalah Stanford Heart Transplant data. Hasil estimasi kovariat pada
model logistik exponensial adalah pada Age signifikan dengan p-value of 0.0184,
sedangkan Surgery dan Transplant tidak signifikan denganp-value 0.8793 and 0.0655.
Kata kunci: model logistik exponensial, mixture model, maximum likelihood.
1. Pendahuluan
Pengembangan analisis survival dilakukan dengan menggabungkan konsep mixture,
mixture model dikenal juga sebagai split population model. Beberapa penelitian mixture model ini telah dilakukan antara lain oleh Ando et. al. [2004] yang meneliti tentang model kernel mixture model pada beberapa jenis penyakit kanker, Abu Bakar, M. R. [1998] telah melakukan penelitian tentang pola kekerasan dalam rumah tangga dan Zhang [2008] yang melakukan penelitian tentang analisis mixture model menggunakan algoritma EM (Expectation and Maximization).
Ketika distribusi pada survival time telah ditarik adalah parametrik, fungsi likelihood biasa dihitung dalam bentuk percobaan survival. Sebuah subjek diamati gagal pada saat
berkontribusi dengan istilah fS(t)pada likelihood, merupakan fungsi pada peluang pada
t.
2. Formulasi Dasar
Asumsikan bahwa distribusi sensor independen pada fungsi distribusi dari model populasi terpisah diwakili oleh distribusi dua parameter berikut:, scale
> 0, and 0 << 1.) ( ) 1 ( ) (t S t SS R
Dan fungsi padat peluang ) ( exp ) ( i S t t f .
Adapun fungsi likelihood dapat ditulis sebagai berikut:
i i i S n i i S t S t f L
1 1 )] ( [ ] ) ( [ ) , ( i i i n i i t t
1 1 )] exp( ) 1 [( ] ) exp( [Model tersebut lebih umum ditulis dalam bentuk split model dimana kemungkinan
kebal/immune yang dikenal juga dengan model logitik,dengan
merupakan variabelpenjelas pada model eksponensial.
Misal zi adalah vektor karakteristik dari individu, dan adalah vektor
parameter yang sesuai, kemudian diasumsikan model logistik sebagai berikut:
)
1
(
]
)
exp(
1
[
)
exp(
i T i T iz
z
Pertama, diasumsikan
adalah konstan sehingga bentuk fungsi log likelihood padamodel logistik adalah
ln
ln
(
1
)
ln
(
1
)
exp(
)
(
2
)
)
,
(
1
n i i i i i i i i it
t
l
Dengan mensubsitusikan (1) ke (2) diperoleh
)
3
(
.
)
(
exp
1
)
(
exp
)
(
exp
1
ln
)
1
(
ln
)
(
exp
1
)
(
exp
ln
)
,
(
1
n i i T i i T i i i T i T i iz
t
z
t
z
z
l
Turunan pertama dari persamaan (3) di atas adalah sebagai berikut:
,
)
(
exp
)
(
exp
1
)
exp(
1
)
(
exp
1
)
(
exp
)
1
(
)
(
exp
1
ln
1
n i i i T i T i i T i i T i ij jz
z
t
t
z
z
z
L
n i i i T i i T i i i it
z
t
z
t
t
L
11
exp
(
)
exp
(
)
)
exp(
)
exp(
)
1
(
1
ln
Turunan kedua dari persamaan (3) diperoleh
n i T i T i i i i T i i T i T i ij jz
z
t
t
z
z
z
z
l
1 2 2 2 2 2)
(
exp
)
(
exp
1
)
(
exp
1
)
(
exp
1
)
(
exp
)
1
(
)
(
exp
1
)
(
exp
)
(
)
,
(
1 exp(Tzi) 2exp(ti)
n i T i i i i T i i ijt
z
t
z
t
z
l
1 2 2)
(
exp
)
(
exp
1
)
(
exp
)
(
exp
)
1
(
)
,
(
n i T i i i i T i i it
z
t
z
t
l
1 2 2 2 2 2)
(
exp
)
(
exp
1
)
(
exp
)
(
exp
)
1
(
)
,
(
Jika diasumsikan
adalah kovariat dengan exp( i)T i z
, maka diperoleh fungsi log
likelihood sebagai berikut:
n i i i i i i i i i i i i it
t
L
1)
exp(
)
1
(
ln
)
1
(
ln
ln
)
,
(
ln
n i i T i i T i T i T i z t z z z l 1 ) ( exp ) ( exp 1 ) ( exp ln ) , ( )
4
(
)
(
exp
1
))
(
exp
(
exp
)
(
exp
1
ln
)
1
(
i T i T i i T iz
z
t
z
Turunan pertama dari persamaan (4) diatas adalah sebagai berikut:
n i i T i i T i T i i T i i T i i ij j z t z z t z z t z l1 1 exp( )exp( exp( ))
) ( exp ) exp( ) 1 ( ) exp( 1 ) , (
)) ( exp exp( T i i z t
n i i T i i T i T i i T i T i i T i ij j z t z z t z z z z l1 1 exp( )exp( exp( ))
)) exp( exp( 1 ) exp( 1 ) exp( ) 1 ( ) exp( 1 ) , (
Adapun turunan kedua persamaan (4) adalah
n i i T i i T i i T i i ij ij j z t z z t z z l 1 2 2 2 )) exp( exp( ) exp( 1 ) 1 ( ) exp( ) , ( ) exp( ) exp( i T i i T z t z exp( exp( i)) T i z t
1tiexp(Tzi)exp(Tzi)exp(tiexp(Tzi))
n i i T i i T i T i i T i i T i ij ij j jz
t
z
z
t
z
t
z
z
z
l
1 2 2))
(
exp
(
exp
)
(
exp
1
))
(
exp
(
exp
)
(
exp
)
(
exp
)
1
(
)
,
(
n i i T i i T i T i T i i i T i T i ij ij j z z t z z t z z z z l 1 2 2 2 2 )) exp( exp( ) exp( 1 ) exp( 1 )) exp( exp( 1 ) 1 ( ) exp( 1 ) ( exp ) , (
exp
(
)
exp
(
exp(
))
1
exp(
)
))
exp(
exp(
)
exp(
1
)
exp(
2 i T i T i i T i T i i T i Tz
z
t
z
z
t
z
z
3. HasilSetelah membuat model, turunan pertama dan kedua dari fungsi log likelihood, maka langkah selanjutnya adalah membuat estimasi parameter dan kovariat pada model logistik eksponential menggunakan Maximum Likelihood Estimation (MLE) memakai iterasi Newton Raphson dengan bantuan program C dan software S-Plus untuk membuat grafik. Data dalam paper ini adalah data sekunder yaitu data Stanford Heart Transplant,Crowley dan Hu [1977] memberikan waktu tahan hidup yang berpotensi penerima pencakokan jantung sejak tanggal dari penerimaan mereka dalam program pencakokan jantung, waktu tahan hidup dalam hari, tidak tersensor dan tersensor pada 103 pasien dan 3 kovariate yaitu, Age dalam tahun, Surgery dan Transplant.
Gambar 1 dan gambar 2 menunjukkan estimasi Kaplan-Meier pada data Stanford Heart Transplant pada 2 kovariate, Surgery and Transplant.
Time (days)
Survival Distribution Function
0 500 1000 1500 0.0 0.2 0.4 0.6 0.8 1.0 Yes Surgery No Surgery K-M Plot
0 500 1000 1500 Time (days) 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 S u rv iv a l D is tr ib u ti o n F u n c ti o n Transplanted Not transplanted K-M Plot
Gambar2 : Kurva Kaplan-Meier pada Transplant
3.1 Maximum Likelihood Estimation (MLE) Menggunakan Metode Newton-Raphson
Untuk membuat estimasi maksimum likelihood pada model logistik eksponensial, dalam paper ini menggunakan metode newton raphson yang ditulis dalam bahasa pemrograman
visual C++. Metode Newton–Raphson dihitung dengan mencari turunan pertama dan
turunan kedua dari ln()dan mencari nilai Sn() danFn(), sehingga diperoleh
matriksFn1() yaitu negative dari invers turunan kedua dari matriksln(), kemudian dibuat estimasi MLE sebagai berikut:
). ( ) ( 1 1 1 1 2 F Sn
Dengan Sn(1)adalah vektor pada turunan pertama pada ln()
( ) ) ( n n l S dan 2 2 ) ( ) ( n n l F .
3.2 Analisis Pada Model Eksponensial
Nilai estimasi pada model eksponensial sederhana
, adalah 0.002346, dimananilai fungsi maksimum log likelihood adalah –529.125 dan –2
_
log L
= 1058.25. Adapun untuk nilai kovariate pada model eksponensial dapat dilihat pada table 1 di bawah ini.Table 1: Estimasi parameter pada model eksponensial dengan kovariates.
Berdasarkan table 1 di atas, diperoleh semua kovariate adalah signifikan dengan
berturut-turut p-values 0.0000, 0.0329 dan 0.0000.
3.3 Analysis Pada Immune Pada Populasi
Untuk menguji apakah ada individu yang kebal/immune dengan hipotesis sebagai berikut: 1 : 0 H
1
:
1
H
Estimasi pada model split exponensial sederhana pada data Stanford heart transplant dapat dilihat pada table 2 di bawah ini.
Table 2:Estimasi Parameter pada model split eksponensial sederhana
Variabel Coefficient Standard Error 2
statistic p-value
0.0050668 0.0006626 58.4726917 0.0014 0.8053063 0.0442740 330.8448046 0.0000
Nilai log likelihood pada model split eksponensial sederhana adalah 511,21 dan–2logL=
1022.42, adapun perbedaan nilai model split eksponensial dengan nilai model eksponensial sederhana adalah
n d 1058.25-1022.42 = 35.83. ) (X c0.95 P =
0.95 2 1 2 1 95 . 0 2 1 P c . 95 . 0 c = 2.71. nd 35.83 lebih besar dari nilai kritis 2.71 menggunakan tingkat signifikan 5%,
sehingga disimpulkan H0 ditolak, jadi populasi pada data adalah immune. Selanjutnya,
model split eksponensial ini didasarkan pada karakteritik dari individu sebagai kovariate, sebagaimana ditampilkan pada table 3 di bawah ini.
Variabel Coefficient Standard
Error 2 statistic p- value 0 (intercept) -8.1041221 2.7868635 155.926025 0.0000 1
(Age) 0.0895382 0.9093114 37.6092103 0.0000 2
( Surgery) -0.9376451 0.5352304 4.5531122 0.0329 3 (Transplant) -2.3196814 0.3803186 80.1594870 0.0000Table 3: Estimasi Parameter model split eksponensial dengan kovariate.
Berdasarkan table 3 di atas,semua kovariate yaitu Age, Surgery dan Transplant signifikan
dengan berturut turut p-value 0.0054, 0.0167 dan 0.0000 .
3.4 Analysis Pada Model Logistik Eksponensial
Untuk memungkinkan adanya pengaruh kovariat pada probabilitas bahwa seorang individu yang kebal, juga menguji kemungkinan kekebalan bervariasi dari individu ke individu. Akibatnya, dengan menghubungkan probabilitas setiap individu yang berbeda menjadi kebal/immune, yang bergantung pada informasi kovariat pada individu tersebut. Pertama dianalisis model logistik eksponensial dengan scale eksponensial adalah konstan yang disebut juga dengan logistik eksponensial sederhana.
Table 4. Estimasi Parameter pada Logistik Eksponensial Sederhana
Log- likelihood : -502.14809961
Berdasarkan tabel di atas, dapat disimpulkan bahwa Age dan Transplant adalah signifikan
dengan nilai p- value berturut-turut 0.0059 dan 0.0211, sedangkan Surgery tidak
signifikan dengan nilai p- value 0.1737.
Selanjutnya di analisis model logistik eksponensial dengan scale eksponensial didasarkan pada karakteritik dari individu sebagai kovariate disebut juga sebagai model logistik eksponensial sebagaimana ditampilkan pada table 5 di bawah ini
Variabel Coefficient Standard
Error 2 statistic p-value 0 (intercept) -5.8538567 0.7960379 54.0775055 0.0000 1
(Age) 0.0472512 0.0169796 7.7441434 0.0054 2
(Surgery) -1.1356590 0.4746254 5.7252423 0.0167 3 (Transplant) -2.2812744 0.2993184 58.0882351 0.0000 (Population split) 0.9155647 0.0490618 348.2494354 0.0000Variabel Coefficient Standard
Error 2 statistic p- value 0 (intercept) -0.2959629216 1.40981401 0.044070803 0.8337 1
(Age) 0.0929554976 0.03373976 7.590423552 0.0059 2
( Surgery) -1.0174345511 0.74780697 1.851117295 0.1737 3 (Transplant) -2.7492072100 1.19240013 5.315827931 0.0211
0.0052216383 0.00067632 59.60797637 0.0000Table 5 : Estimasi Parameter pada model logistik eksponensial
Variabel Coefficient Standard
Error 2 statistic p- value 0 (intercept) -5.1423817 0.6654312 59.7203282 0.0000 1
(Age) 0.0311276 0.0148373 4.4013286 0.0359 2
(Surgery) -1.3649098 0.7429733 3.3748869 0.0662 3 (Transplant) -1.9813518 0.3013371 43.2332677 0.0000 0 (intercept) -0.5364496 1.3905355 0.1488311 0.6997 1
(Age) 0.0875403 0.0371367 5.5565935 0.0184 2
(Surgery) 0.6228595 4.1006762 0.0230707 0.8793 3 (Transplant) -1.9281219 1.0468279 3.3924884 0.0655 Log- likelihood = -473.3356875Pada tabel 5 di atas didapat bahwa Age dan Transplant adalah signifikan pada distribusi
kegagalan bertahan hidup dengan nilai p-value berturut turut 0.0359 dan 0.0000,
sedangkan Surgery tidak signifikan dengan p-value of 0.0662. Selanjutna untuk
kemungkinan immune/kebal dari individu ke individu lain diperoleh Surgery dan
Transplant tidak signifikan dengan p-value berturut turut 0.8793 dan 0.0655, sedangkan
Age adalah signifikan dengan p-value 0.0184.
DAFTAR PUSTAKA
[1]. Abu Bakar, M. R. Multivariate Survival Analysis for Split population with
application to patterns of domestic violence: construction and application of customized computer software for the analysis of data generated from studies of recidivism with covariates to accommodate the detection of demotivation and right-censoring mechanism. Ph. D. Thesis, University of Bradford, 2009.
[2]. Ando, T., Imoto, S., dan Miyano, S. , Kernel Mixture Survival Models for
Identifying Cancer Subtypes, Predicting Patient’s Cancer Types and Survival Probabilities, Genome Informatics, 15(2), 201-210, 2004
[3]. J. Crowley and M.Hu.Covariance analysis of heart transplant survival data.
Journal of the American Statistical Association 72, 27-36, 1997
[4]. Zhang, Y. Parametric Mixture Models in Survival Analysis with Applications,