6 Regresi Cox
6.5 Interpretasi Parameter
Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Mi-salkan diberikan model regresi Cox dengan satu variabel independen
h(t | x) = h0(t) exp(xβ) dengan x = ( 0 placebo 1 obat baru
6.6. Stratifikasi 68
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
HR = h(t | x = 1) h(t | x = 0) = h0(t) exp(1 × β)
h0(t) exp(0 × β) = exp(β)
Interpretasinya, jikaβ = 0 maka obat baru dan placebo sama efeknya. Namun jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo (resiko kematian lebih rendah). Kemudian jikaβ > 0 obat baru memberikan efek yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-eventT .
6.6 Stratifikasi
Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline haza-rd yang berbeda untuk masing-msing strata namun parameter β sama untuk tiap strata, yaitu
hj(t | x) = h0jexp(xβ) (6.16)
denganj = 1, . . . , s adalah banyaknya strata.
Estimasi untuk β menggunakan partial likelihood (6.5) atau modifikasinya untuk data ties dengan Breslow (6.14) atau Efron (6.15). Partial likelihood dengan strata adalah sebagai berikut
ℓ(β) = ℓ1(β) + ℓ2(β) + . . . + ℓs(β) (6.17) dengan ℓj(β), j = 1, . . . , s adalah partial likelihood yang dihitung hanya pada subset data dalam strata ke-j.
6.7 Inferensi Parameter Regresi Cox
Metode inferensi standar yang berdasar pada sifat asimptotik likelihood, yaitu
Wald Test, Score Test dan Likelihood Ratio Test, dapat digunakan untuk inferensi
parameter regresi Cox.
Bila hipotesis nol uji adalahH0 : β = β0, maka berturut-turut statistik uji dari
6.7. Inferensi Parameter Regresi Cox 69
Wald Test
χ2W = ( ˆβ− β0)TI( ˆβ)( ˆβ− β0) (6.18)
Score Test
χ2SC = U(β0)TI−1(β0)U(β0) (6.19)
Likelihood Ratio Test
χ2LR = 2(ℓ( ˆβ) − ℓ(β0)) (6.20)
Untukn cukup besar χ2 W,χ2
LR,χ2
SCberdistribusi Chi-square dengan derajad bebas p, dengan asumsi H0 benar.
Contoh 6.1
Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.
Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait
faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek tidak berpartisipasi lagi dalam penelitian.
Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang men-jadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cu-kup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood
ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.
Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai berikut,
h(t | x) = h0(t) exp (x1β1+ x2β2+ x3β3+ x4β4+ x5β5+ x6β6+ x7β7+ x8β8(6.21))
dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit
hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel
race,x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan
miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum
alkohol, 0 jika tidak;x6 adalah usia ibu saat melahirkan,x7adalah lama pendidikan; dan
x8= 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu
paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas. Dihitung uji likelihood ratio
χ2LR= 2(ℓ(ˆβ) − ℓ(β0)) (6.22)
denganℓ(ˆβ) adalah log-partial-likelihood pada model yang akan dievaluasi, ℓ(β0) adalah
log-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalah H0 : β= β0.
6.7. Inferensi Parameter Regresi Cox 70
Tabel 6.2: Uji Likelihood Ratio Model (6.21)
Variabel db LRT p-value race 2 11,0012 0,004084 poverty 1 5,2354 0,022131 smoke 1 9,5823 0,001965 alcohol 1 1,8002 0,179693 agemth 1 1,4301 0,231752 yschool 1 5,8138 0,015901 pc3mth 1 0,0876 0,767215 db: derajat bebas LRT: likelihood-ratio test
Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka se-tiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu va-riabel yang diuji. Misalnya untuk vava-riabel race. Model dengan semua vava-riabel termasuk
race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik).
Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021. Sehingga uji LR untuk race adalah
χ2LR = 2((−5175,520) − (−5181,021) = 11,002
Nilai probabilitas signifikansinya (p-value) adalah P (W > 11,002) = 0,00408, dengan W berdistribusi χ2
b=2. Variabel race dalam model ini memberikan dua variabel boneka karena race mempunyai 3 kategori (variabel x1 danx2 dalam model (6.21)), sehingga memberi kontribusi 2 parameter pula (β1danβ2). Nilai beda dalam banyaknya parameter inilah yang menentukan derajat bebas dalam uji LR. Hasil lengkap uji LR untuk semua variabel adalah seperti pada Tabel 6.2.
Terlihat bahwa variabel race, poverty, smoke dan yschool signifikan dalam model. Sehingga model yang lebih baik dengan lebih sedikit parameter dan log-partial-likelihood yang masih besar adalah
h(t | x) = h0(t) exp (x1β1+ x2β2+ x3β3+ x4β4+ x5β5+ x7β7) (6.23) dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah seperti pada Tabel 6.4.
Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 me-rupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan diinterpretasikan nilai koefisien dari masing-masing estimasi parameter.
Interpretasi model dapat dilihat selain pada ˆβ juga pada nilai exp( ˆβ) yang juga
6.7. Inferensi Parameter Regresi Cox 71
Tabel 6.3: Uji Likelihood Ratio Model (6.23)
Variabel db LRT p-value race 2 10,7434 0,004646 poverty 1 5,3205 0,021076 smoke 1 11,0858 0,000870 yschool 1 3,8197 0,050653 db: derajat bebas LRT: likelihood-ratio test
Tabel 6.4: Estimasi parameterβ Model (6.23) Variabel βˆ exp( ˆβ) se( ˆβ) x1 (ras kulit hitam) 0,17835 1,19524 0,10406 x2(ras lainnya) 0,30563 1,35748 0,09706 x3 (poverty) -0,20954 0,81096 0,09233 x4 (smoke) 0,26437 1,30261 0,07825 x7 (yschool) -0,03731 0,96338 0,01914
hazard ratio yang lebih tinggi dari kulit putih, exp(β1) > 1 dan exp(β2) > 1. Hazard
ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio yang lebih tinggi dari tidak merokok ( ˆβ4 > 1). Sehingga dapat di-interpretasikan
me-rokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI. Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih lama dalam memberikan ASI.
Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam con-toh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing status merokok (variabel smoke) dengan model
S(t | x) = Sj(t)exp(xβ), (6.24)
denganj = 1, 2 adalah strata, menjadi anggota strata j = 1 jika x4 = 0 (bukan perokok),
menjadi anggota strataj = 2 jika x4 = 1 (perokok). Untuk membuat plot kurva survival
digunakan nilai ˆβ dan nilai x yang sama untuk masing-masing strata, dapat diambil nilai
rata-ratanya. Grafiknya adalah seperti pada Gambar 6.5. Terlihat bahwa perokok mem-punyai kurva survival yang lebih rendah daripada bukan-perokok, atau ibu yang merokok cenereung lebih cepat menghentikan pemberian ASI.
6.8. Latihan Bab 6 72 0 20 40 60 80 0.0 0.2 0.4 0.6 0.8 1.0 t (minggu) estimasi S(t) bukan perokok perokok
Gambar 6.5: Plot estimasi kurva survival Model (6.24)
6.8 Latihan Bab 6
6.1. Diketahui model regresi hazard proporsional h(t | x) = h0(t) exp(xβ), dengan variabel randomT adalah lama hidup seorang pasien dan
x = (
1 jika pasien mendapatkan placebo 1 jika pasien mendapatkan obat baru
Interpretasikan model ini berdasarkan hazard ratio untuk nilaiβ = 0, β < 0 danβ > 0!
6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuk tikus yang terkena suatu jenis kanker:
Kelompok 1 188 192 206 227 265+ 304 244+
Kelompok 2 156 163 205 232 233 239 240 261+ 204+ 344+
dengan tanda+menunjukkan data tersensor.
(a) Buatlah grafik estimasi fungsi survival menggunakan Kaplan-Meier untuk masing-masing kelompok (Gambarlah pada tempat yang sama dengan skala yang sama agar dapat dilihat perbedaannya)
6.8. Latihan Bab 6 73
(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang sama dengan menggunakan uji logrank.
6.3. Diketahui data survival sebagai berikut:
grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan menggunakan logrank test (α = 0,025)
6.4. Tulislah Partial Likelihood L(β) untuk data soal nomor 3 dengan variabel independenx adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1 jika subyek berasal dari grup 2, dan β adalah koefisien regresi untuk x. Kemudian hitunglahL(β = −2). (Gunakan metode Breslow jika ada ties) 6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model
regresi hazard proporsionalh(t | X) = h0(t) exp(X1β1+X2β2). Diperoleh estimasi parameter dan standard error nya: ˆβ1 = −1,089, ˆσ( ˆβ1) = 0,4263 dan ˆβ2 = 0,7840, ˆσ( ˆβ2) = 0,4994; dengan log-likelihood model tanpa variabel penjelas (null model) adalah −85,05447 dan log-likelihood keti-ka mencapai maksimum adalah −79,79271. Interpretasikan hasilnya dan hitung uji likelihood ratio nya.
6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien berusia lebih dari 50 tahun; danx2 = 1 adalah pasien dengan tingkat kepa-rahan penyakit tinggi.
(a) Hitunglah estimasi fungsi survival data tersebut dengan menggunak-an estimasi Kaplmenggunak-an-Meier (tmenggunak-anpa variabelx1,x2) dan gambarlah kurva nya!
(b) Dengan menggunakan paket statistik R diperoleh hasil sebagai beri-kut:
Call:
coxph(formula = Surv(dur, d) ˜ x1 + x2)
coef exp(coef) se(coef) z p
x1 1.046 2.85 0.458 2.284 0.022
6.8. Latihan Bab 6 74
Data:
lama hidup x1 x2 lama hidup x1 x2
18 0 0 8 1 0 9 0 1 2 1 1 28+ 0 0 26+ 1 0 31 0 1 10 1 1 39+ 0 1 4 1 0 19+ 0 1 3 1 0 45+ 0 1 4 1 0 6 0 1 18 1 1 8 0 1 8 1 1 15 0 1 3 1 1 23 0 0 14 1 1 28+ 0 0 3 1 0 7 0 1 13 1 1 12 1 0 13 1 1 9 1 0 35+ 1 0
Likelihood ratio test=5.76 on 2 df, p=0.0561 n= 30
Interpretasikanlah hasilnya!
(c) Diberikan model regresi hazard proporsional h(t | x) = h0(t) exp(x1β1). Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi partial log-likelihood untuk model tersebut!
(d) Diberikan model regresi hazard proporsional hj(t | x) = h0j(t) exp(x1β1), dengan j = 1, 2 adalah strata yang keanggotaan satu subyek dalam suatu strata ditentukan oleh nilai variabelx2, yaitu: menjadi anggota strata 1, jikax2 = 0; menjadi anggota strata 2, jika x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi
partial log-likelihood untuk model dengan strata tersebut tersebut!
(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keun-tungan dan kerugiannya bila dibandingkan dengan model tanpa strata
6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan par-tial likelihood biasa jika tidak ada ties dalam data!
6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan da-lam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!
6.8. Latihan Bab 6 75
6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mor-talitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji log-rank
6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data pengaruh voltase terhadap kerusakan suatu alat elektrik!
Bibliografi
Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of theRoyal Statistical Society, Series B, Methodological 34: 187–220.
Cox, D. R. (1975). Partial likelihood, Biometrika 62: 269–276.
Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd. Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and
truncated data, Statistics for biology and health, Springer.
Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in probability and statistics, Wiley-Interscience.