DIKTAT KULIAH
ANALISIS DATA SURVIVAL
Disusun oleh: Dr. Danardono, MPH.
PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA
Daftar Isi
Daftar Isi iii
Daftar Gambar iv
Daftar Tabel v
Kata Pengantar v
1 Pendahuluan 1
1.1 Tujuan Pembelajaran . . . 1
1.2 Data dan Variabel Random Survival . . . 1
1.3 Data tersensor dan terpotong . . . 3
1.4 Latihan Bab 1 . . . 7
2 Fungsi dan Kuantitas Dasar 10 2.1 Tujuan Pembelajaran . . . 10
2.2 Fungsi Survival dan Hazard . . . 10
2.3 Hubungan antar Fungsi . . . 13
2.4 Survival Diskrit . . . 15
2.5 Latihan Bab 2 . . . 16
3 Metode Parametrik 19 3.1 Tujuan Pembelajaran . . . 19
3.2 Beberapa distribusi parametrik . . . 19
3.2.1 Distribusi Eksponensial . . . 19 3.2.2 Distribusi Weibull . . . 22 3.2.3 Distribusi Gamma . . . 22 3.2.4 Distribusi Log-normal . . . 25 3.2.5 Distribusi Gompertz-Makeham . . . 27 3.2.6 Distribusi Log-logistik . . . 28 3.3 Estimasi parameter . . . 28 ii
Daftar Isi iii
3.4 Latihan Bab 3 . . . 33
4 Metode Non-parametrik dan Uji-LogRank 35 4.1 Tujuan Pembelajaran . . . 35
4.2 Kaplan-Meier . . . 35
4.3 Nelson-Aalen . . . 38
4.4 Membandingkan Dua Fungsi Survival . . . 41
4.5 Latihan Bab 4 . . . 42
5 Model Regresi Parametrik 45 5.1 Tujuan Pembelajaran . . . 45
5.2 Variabel Independen dalam Model . . . 45
5.3 Model Regresi Parametrik . . . 46
5.4 Model Non-Parametrik dan Semi-Parametrik . . . 50
5.5 Model AFT log-linear . . . 50
5.6 Model Regresi Eksponensial . . . 52
5.7 Model Regresi Weibull . . . 53
5.8 Model Regresi Log-normal . . . 54
5.9 Model Regresi Log-logistik . . . 55
5.10 Identifikasi Model . . . 55 5.10.1 Menggunakan Probability-Plot . . . 56 5.10.2 Menggunakan Hazard-Plot . . . 57 5.11 Latihan Bab 5 . . . 57 6 Regresi Cox 60 6.1 Tujuan Pembelajaran . . . 60
6.2 Model dan Asumsi . . . 60
6.3 Estimasi parameter . . . 62
6.4 Ties dalam Partial Likelihood . . . . 67
6.5 Interpretasi Parameter . . . 67
6.6 Stratifikasi . . . 68
6.7 Inferensi Parameter Regresi Cox . . . 68
Daftar Gambar
1.1 Representasi data survival . . . 2
1.2 Alternatif representasi data survival . . . 3
1.3 Data tersensor (censored) dan terpotong (truncated) . . . . 5
2.1 Fungsi Survival . . . 11
2.2 Fungsi Hazard . . . 12
3.1 Kurva survival dua model eksponensial yang berbeda . . . 21
3.2 Kurva hazard dua model eksponensial yang berbeda . . . 21
3.3 Kurva survival untuk beberapa model Weibull . . . 23
3.4 Kurva hazard untuk beberapa model Weibull . . . 23
3.5 Kurva hazard untuk beberapa model Gamma . . . 24
3.6 Kurva hazard untuk beberapa model Gamma . . . 25
3.7 Kurva hazard untuk beberapa model lognormal . . . 26
3.8 Kurva hazard untuk beberapa model lognormal . . . 26
3.9 Nilai MLE dan log-likelihood pada Contoh 3.5. . . 33
4.1 Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen . . 37
4.2 Grafik estimasi Kaplan-Meier Contoh 4.1 . . . 38
4.3 Grafik estimasi Nelson-Aalen Contoh 4.2 . . . 40
4.4 Plot Kaplan-Meier untuk terapi dan placebo . . . 40
5.1 Plot Fungsi Survival AFT Eksponensial . . . 48
5.2 Plot Fungsi Hazard AFT Eksponensial . . . 48
6.1 Kurva hazard untuk dua grup atau individu yang berbeda . . . 61
6.2 Baseline hazard dan kurva hazard untuk dua grup yang berbeda . 63 6.3 Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . 64
6.4 Fungsi Partial Likelihood (6.7) . . . 65
6.5 Plot estimasi kurva survival Model (6.24) . . . 72
Daftar Tabel
1.1 Relapse pasien leukemia . . . 6
1.2 Lama waktu sampai rusaknya komponen elektrik . . . 6
1.3 Deskripsi variabel studi tentang penyapihan . . . 7
1.4 Lama kambuh pasien leukemia dan tes AG . . . 8
4.1 Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . 37
4.2 Tabel estimasi Nelson-Aalen untukH(t) dan S(t) Contoh 4.2 . . 39
4.3 Estimasi Kaplan-Meier untuk Kelompok Placebo . . . 41
4.4 Penghitungan untuk Uji log-rank . . . 43
5.1 DistribusiT dan ǫ dalam AFT log-linear . . . 51
5.2 Estimasi Parameter Model (5.18) . . . 52
5.3 Estimasi Parameter Model (5.24) . . . 54
5.4 Identifikasi Distribusi . . . 56
5.5 Data Soal 5.6 . . . 58
5.6 Data Soal 5.7 . . . 59
6.1 Contoh data survival untuk ilustrasi Partial Likelihood . . . 63
6.2 Uji Likelihood Ratio Model (6.21) . . . 70
6.3 Uji Likelihood Ratio Model (6.23) . . . 71
6.4 Estimasi parameterβ Model (6.23) . . . 71
Kata Pengantar
Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat untuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Ju-rusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu.
Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006 yang isinya dipandang beririsan cukup banyak yaitu Pengantar Uji Hidup dan
Pengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankan
aspek inferensi univariat dan pembandingan kelompok populasi data lama hidup (survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian le-bih menekankan aspek lele-bih umum dari data survival, dengan pendekatan para-metrik dan semi parapara-metrik untuk data univariat maupun model-model regresi.
Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah na-ma menjadi Analisis Data Survival, dengan alasan nana-ma ini lebih populer digu-nakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Se-lain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingin dicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria me-mandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan, bencana, dst., sebagai hal penting yang menjadi perhatian. Pemodelan dan tek-nik analisis data untuk variabel semacam itu, yang secara umum dinamakan data
survival (data durasi, time-to-event data), adalah tema sentral matakuliah ini.
Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resi-ko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria, model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel mor-biditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalam kuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain ter-kait data survival, seperti misalnya data dalam bidang ilmu rekayasa, sosial dan ekonomi.
Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis Data Survival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan
vii
petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum.
Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Su-rvival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu saran dan kritik dari pembaca dan pengguna sangat diharapkan.
Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang te-lah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA UGM yang telah memberi hibah penulisan diktat ini.
Penulis,
1
Pendahuluan
1.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat:
1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-event
data) beserta contohnya
2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya 3. Menjelaskan tujuan dan arah analisis data survival
4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tu-juan umum pembelajaran, metode dan proses pembelajaran, penilaian dan sumber referensi
5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival
1.2
Data dan Variabel Random Survival
Data survival adalah lama waktu sampai suatu peristiwa terjadi atau data antar kejadian (time-to-event data). Dalam beberapa bidang ilmu digunakan istilah
du-rasi (durational data) misalnya di bidang ekonomi. Di bidang ilmu perekayasaan sering disebut data waktu kerusakan (failure time data). Dalam ilmu sosial digu-nakan istilah event history data. Istilah data survival sendiri banyak digudigu-nakan dalam bidang ilmu kesehatan, epidemiologi, demografi dan aktuaria.
Untuk memperoleh data survival, diperlukan tiga komponen yang harus terde-finisikan dengan jelas terkait fenomena yang menjadi perhatian, yaitu:
1. Definisi event/peristiwa yang menjadi perhatian;
1.2. Data dan Variabel Random Survival 2
waktu
0 t
origin event
Gambar 1.1: Representasi data survival
2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai su-atu event terjadi;
3. Unit pengukuran yang digunakan
Contoh 1.1
Misalkan fenomena yang menjadi perhatian adalah mortalitas. Dalam contoh ini event di-definisikan sebagai saat meninggalnya seseorang, apabila ditentukan sebagai origin ada-lah saat keada-lahiran, maka data survival nya adaada-lah usia kematian, misalnya dalam satuan tahun.
Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, ya-itu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.
Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status
sakit, status pekerjaan, dst.
Contoh 1.2
Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu. Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan hanya sekali terjadi.
Data survival sering diilustrasikan seperti gambar batang ”korek api” (Gam-bar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama waktu sampai terjadinya event. Apabila event dipandang sebagai status (state) yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, ma-ka dapat digunama-kan representasi data survival seperti pada Gambar 1.2. Dalam pengembangannya data survival dapat memuat informasi lebih dari satu status, sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditun-jukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya, misalnya garis biasa, garis tebal, dan seterusnya.
Data survival merupakan realisasi dari suatu variabel random survival, yaitu suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model
1.3. Data tersensor dan terpotong 3
(a) Nilai pada ordinat sebagai representasi status
0 waktu t
1 2
(b) Jenis garis sebagai representasi status
0 waktu t
Gambar 1.2: Alternatif representasi data survival
dan metode dalam analisis data survival. Untuk menuliskan suatu nilai T terten-tu digunakan lambangt. Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Contoh 1.2), maka pernyataan ”lama waktu kambuh kembali lebih dari 5 minggu” dapat dituliskan sebagaiT > 5. Dalam Bab 2 akan dibahas lebih lanjut beberapa macam fungsi terkait variabel randomT ini.
1.3
Data tersensor dan terpotong
Salah satu masalah yang sering muncul dalam analisis data survival adalah adanya pengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menja-di data tersensor (censored) dan data terpotong (truncated).
Definisi 1.1
Suatu data atau observasi dikatakan tersensor kanan (right-censored) pada ti-tik k apabila nilai observasi yang digunakan adalah t, jika t ≤ k; atau k jika
t > k. Apabila k ditentukan (fixed), maka observasi dikatakan tersensor Tipe I; sedangkan bila banyaknya observasi r yang ditentukan sedemikian sehingga t(1) ≤ t(2) ≤ . . . ≤ t(r), maka observasi tersensor Tipe II.
Contoh 1.3
Data tersensor kanan : Suatu eksperimen menggunakan tikus percobaan dilakukan
un-tuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zat yang dapat mengakibatkan kanker.
1.3. Data tersensor dan terpotong 4
• Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak
sampel tertentu yang telah mendapatkan event.
Definisi 1.2
Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k
apabila data hanya menggunakan nilai observasit ≥ k.
Contoh 1.4
Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada
su-atu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seo-rang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel
(left-truncated).
Definisi 1.3
Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k
apabila nilai observasi yang digunakan adalaht, jika t ≥ k; atau k jika t < k.
Contoh 1.5
Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang
di-lakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi didi-lakukan untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang dipero-leh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor kiri.
Definisi 1.4
Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik
k apabila data hanya menggunakan nilai observasi t ≤ k.
Contoh 1.6
Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data
retrospek-tif. Suatu studi tentang AIDS dilakukan secara retrospekretrospek-tif. Yang menjadi perhatian adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong kanan.
Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap se-perti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi
1.3. Data tersensor dan terpotong 5 terpotong-kiri tersensor-kiri tersensor-kanan terpotong-kanan t (waktu) t (waktu)
Gambar 1.3: Data tersensor (censored) dan terpotong (truncated)
tersensor kanan sering dikatakan tersensor dari atas, karena bagian yang tersen-sor adalah bagian paling kini secara kronologis (atas). Demikian juga observasi yang terpotong kanan sering disebut terpotong dari atas. Sebaliknya Observasi tersensor kiri dan terpotong kiri sering disebut tersensor dari bawah dan
terpo-tong dari bawah, karena bagian yang tersensor atau terpoterpo-tong adalah pada bagian
awal (bawah).
Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidakleng-kapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pe-motongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyek sebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh, data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu (sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikus yang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelum berusia 40 tahun akan tidak terambil sebagai sampel. Dengan kata lain, observasi yang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyek sebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpo-tong kanan.
Berikut adalah beberapa contoh data survival yang diperoleh dari permasalah-an aplikasi ypermasalah-ang berbeda, yaitu dalam bidpermasalah-ang ilmu kesehatpermasalah-an, ilmu perekayasapermasalah-an dan ilmu sosial.
Contoh 1.7
Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984) seperti pada Tabel 1.1. Event yang perhatian dalam studi ini adalah relapse (kekambuhan kembali) dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggap sembuh
(re-mission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan
1.3. Data tersensor dan terpotong 6
Tabel 1.1: Relapse pasien leukemia Perawatan lama waktu (bulan) sampai kambuh
6-MP : 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+
Placebo: 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23
tanda + menunjukkan data tersensor kanan
Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik voltase (kV) lama waktu (menit) sampai rusak
26 5,79; 1579,52; 2323,7 28 68,85; 426,07; 110,29; 108,29; 1067,6 30 17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46; 43,40; 194,90; 47,30; 7,74 32 0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93; 3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,24 34 0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27; 33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71; 72,89 36 1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99; 3,67; 2,07; 0,96; 5,35; 2,90; 13,77 38 0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38 Contoh 1.8
Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini. Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat. Voltase normal untuk komponen ini adalah 20kV.
Contoh 1.9
Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari 927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.
1.4. Latihan Bab 1 7
Tabel 1.3: Deskripsi variabel studi tentang penyapihan
Variabel Deskripsi kode
duration Lama menyusui (minggu)
delta Indikator penyapihan 1=disapih
0=belum
race Ras dari ibu 1=kulit putih
2=kulit hitam 3=lainnya
poverty Ibu dikategorikan miskin 1=ya, 0=tidak
smoke Ibu adalah perokok saat melahirkan 1=ya, 0=tidak alcohol Ibu adalah peminum saat melahirkan 1=ya, 0=tidak agemth Usia ibu saat melahiran (tahun)
ybirth Tahun kelahiran
yschool Tingkat (lama) pendidikan (tahun)
pc3mth Pemeriksaan kehamilan setelah bulan ketiga 1=ya, 0=tidak
1.4
Latihan Bab 1
1.1. Berikan contoh data survival dari fenomena yang menarik perhatian sauda-ra, minimal dua contoh! Definisikan origin (titik asal), event yang menjadi perhatian dan unit waktu yang digunakan. Kemudian tambahkan variabel lain yang mungkin menjadi perhatian.
1.2. Apa tujuan utama dari analisis data survival?
1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengan analisis data survival!
1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital
statis-tics) berupa kelahiran, kematian dan pindah masuk maupun keluar daerah
pada dasarnya adalah data survival. Sebutkan titik asal, event dan unit wak-tu yang mungkin menjadi perhatian dalam konteks ini! Apakah ada ke-mungkinan observasi tidak lengkap (tersensor, terpotong) dalam pencatatan peristiwa demografis tersebut?
1.5. Eksperimen survival/sacrifice adalah suatu cara penelitian untuk mengeta-hui apakah suatu zat tertentu atau karsinogen tertentu mempercepat terjadi-nya tumor pada binatang percobaan. Dalam eksperimen seperti ini, setiap binatang percobaan diberi dosis suatu karsinogen tertentu dan dilihat ada tidaknya tumor pada saat meninggal dengan otopsi. Apabila kita tertarik
1.4. Latihan Bab 1 8
Tabel 1.4: Lama kambuh pasien leukemia dan tes AG AG positive AG negative ID WBC waktu ID WBC waktu 1 0.0230 65 18 0.044 56 2 0.0075 156 19 0.030 65 3 0.0430 100 20 0.040 17 4 0.0260 134 21 0.015 7 5 0.0600 16 22 0.090 16 6 0.1050 108 23 0.053 22 7 0.1000 121 24 0.100 3 8 0.1700 4 25 0.190 4 9 0.0540 39 26 0.270 2 10 0.0700 143 27 0.280 3 11 0.0940 56 28 0.310 8 12 0.3200 26 29 0.260 4 13 0.3500 22 30 0.210 3 14 1.0000 1 31 0.790 30 15 1.0000 1 32 1.000 4 16 0.5200 5 33 1.000 43 17 1.0000 65
ID adalah nomor identitas pasien
pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasa-lahan data tidak lengkap apa saja yang mungkin terjadi?
1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang saudara lakukan?
1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang? Jelaskan!
1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang da-pat dipandang sebagai data survival dan kemungkinan terdada-pat observasi tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3) tersensor-kiri; (4) terpotong-kanan!
1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), ba-nyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes karakteristik morfologis darah putih (AG positive atau AG negative).
1.4. Latihan Bab 1 9
(a) Bila observasi tersensor-kanan pada titik 4 minggu, tuliskan pasien mana saja (ID-nya) yang teramati (observed)
(b) Bila observasi terpotong-kanan pada titik 4 minggu, tuliskan pasien mana saja (ID-nya) yang teramati (observed)
(c) Bila pasien terambil sebagai sampel hanya untuk yang kambuh setelah 12 minggu, jenis data tidak lengkap apa terjadi situasi ini? Tuliskan pasien mana saja (ID-nya) yang teramati (observed)
(d) Bila penelitian menghendaki pasien adalah yang belum kambuh pa-da titik 5 minggu saja, pa-dan penelitian berakhir 60 minggu kemudian, pasien mana saja yang terambil sebagai sampel dan bagaimana status kambuh tidaknya pasien pada akhir penelitian?
2
Fungsi dan Kuantitas Dasar
2.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat:
2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannya diantara mereka dan dengan fungsi probabilitas dan fungsi distribusi 2.2. Menjelaskan beberapa contoh model survival
2.3. Menginterpretasikan fungsi survival, hazard, hazard kumulatif dalam suatu konteks aplikasi tertentu
2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperlu-an aplikasi tertentu
2.2
Fungsi Survival dan Hazard
Seperti yang telah dikemukakan pada Bab 1, dasar dari model dan metode dalam analisis data survival adalah variabel random survivalT . Untuk mendeskripsikan suatu variabel random dalam bentuk eksplisit yang berupa model matematika, digunakan fungsi variabel random tersebut, misalnya berupa fungsi distribusi dan fungsi probabilitas. Dalam analisis data survival, fungsi variabel random yang menjadi perhatian adalah fungsi survival dan fungsi hazard.
Fungsi survival adalah probabilitas satu individu hidup (survive) lebih lama
daripadat
S(t) = P (T > t). (2.1)
FungsiS(t) merupakan fungsi adalah fungsi non-increasing terhadap waktu t de-ngan sifatS(0) = 1 dan limt→∞S(t) = 0.
2.2. Fungsi Survival dan Hazard 11 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.2 0.4 0.6 0.8 1.0 t S(t)
Gambar 2.1: Fungsi Survival
Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsi survival dapat diinterpretasikan sebagai proporsi individu yang hidup dari sekelompok cohort (angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (men-dekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akan berkurang sampai akhirnya semua meninggal (proporsi mendekati nol).
Contoh 2.1
MisalkanT adalah lama waktu sampai seorang pasien leukemia kambuh kembali
(Con-toh 1.2) dalam satuan minggu, makaS(5) = P (T > 5) dapat diinterpretasikan sebagai
probabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh di-pandang sebagai ”survive”, maka peluang survival nya adalahS(5).
Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang didefinisikan sebagai
h(t) = lim ∆t→0
P (t ≤ T < t + ∆t | T ≥ t)
∆t (2.2)
yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Seba-gai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang
2.2. Fungsi Survival dan Hazard 12 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 t h(t)
Gambar 2.2: Fungsi Hazard
berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hi-dup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resiko berkurang setelah dewasa, namun kembali bertambah setelah mendekati usia tua. Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu. Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu. Batasan yang dikenakan pada fungsi hazard hanyalahh(t) ≥ 0.
Integral dari fungsi hazardh(t) adalah fungsi hazard kumulatif
H(t) = Z t
0
h(x)dx (2.3)
yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam pemodelan data survival.
Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada waktut. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan di-berikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan medi-an. Median adalah nilai tengah, yaitu jikat0,5adalah median, makaS(t0,5) = 0,5. Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.
Fungsi kuantil adalah
2.3. Hubungan antar Fungsi 13
atau
tp = F−1(p), 0 < p < 1 (2.5) Nilaitp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke-12.
Kuantitas lain yang penting adalah mean dan variansiT , yaitu
E(T ) = Z ∞ 0 S(t)dt (2.6) dan var(T ) = 2 Z ∞ 0 tS(t)dt − E(T ) 2 (2.7)
2.3
Hubungan antar Fungsi
Fungsi survivalS(t) dapat diturunkan dari distribusi kumulatif F (t) sebagai beri-kut:
S(t) = 1 − F (t) (2.8)
Sedangkan fungsi hazardh(t) dapat dituliskan sebagai
h(t) = f (t)
S(t), (2.9)
dengan menggunakan definisi probabilitas bersyarat,
P (t ≤ T < t + ∆t | T ≥ t) = P (t ≤ T < t + ∆t)/P (T ≥ t)
= P (t ≤ T < t + ∆t)/S(t), (2.10) Menurut definisi fungsi densitas lim∆t→0P (t ≤ T < t + ∆t)/∆ adalah f(t), sehingga dapat diperoleh (2.9).
Untuk distribusi kontinu
h(t) = −S ′(t) S(t) = −d log S(t)dt , (2.11) KarenaS(0) = 1, S(t) = exp − Z t 0 h(u)du = exp(−H(t)), (2.12)
2.3. Hubungan antar Fungsi 14
atauH(t) = − log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsi densitas, hazard dan hazard kumulatif sebagai berikut
f (t) = h(t) exp[−H(t)] (2.13)
Karena fungsi survival harus memenuhi S(t) = exp(−H(t)), dapat disim-pulkanH(t) < ∞ untuk t > 0, dan limt→∞H(t) = ∞.
Dengan mengetahui hubungan antar fungsi variabel random survival, apabila satu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.
Contoh 2.2
Diketahui fungsi hazard konstanh(t) = λ. Carilah bentuk fungsi survival, fungsi densitas
dan fungsi hazard kumulatif distribusi ini.
Jawab:
Diketahui,h(t) = λ. Menggunakan hubungan H(t) =Rt
0h(x)dx dapat dicari H(t) = Z t 0 λdx = [λx]t0 = λt.
Kemudian menggunakan hubungan S(t) = exp(−H(t)), dan f(t) = h(t)S(t) dapat dicari
S(t) = exp(−H(t)) = exp(−λt)
dan
f (t) = λ exp(−λt).
Distribusi ini dikenal sebagai distribusi eksponensial, yaitu distribusi dengan fungsi haza-rd konstan. Bersama dengan distribusi-distribusi yang lain, distribusi eksponensial akan dipelajari lebih jauh pada Bab 3.
Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingk-an fungsi survival maupun fungsi densitas, terutama terkait kondisi bersyarat ka-rena observasi yang terpotong. Misalkan untuk terpotong-kiri, peluang seorang individu survive dengan diketahui dia masih survive sampai waktuk adalah
S(t | T > k) = P (T > t | T > k), t > k = S(t)
S(k).
Demikian pula untuk fungsi densitas, kondisional terhadap survival sampai waktu k, adalah f (t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsi hazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehingga fungsi hazard tetap h(t) dan tidak terpengaruh observasi terpotong. Kenyataan ini bermanfaat dalam pemodelan survival, sehingga banyak model survival yang dikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.
2.4. Survival Diskrit 15
2.4
Survival Diskrit
Bila T merupakan suatu variabel random diskret dengan nilai x1 < x2 < . . . dengan fungsi probabilitas
f (xi) = P (T = xi), i = 1, 2, . . . (2.14) fungsi survivalnya adalah
S(t) = X
j|xj>t
f (xj) (2.15)
= f (xj) + f (xj+1) + . . . (2.16) yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yang tak-naik (non-increasing step function) denganS(0) = 1 dan S(∞) = 0
Fungsi hazard pada xj didefinisikan sebagai probabilitas kondisional subyek mendapatkan event pada saat xj dengan diberikan subyek belum mendapatkan
event tepat sebelumxj
h(xj) = P (T = xj | T ≥ xj) = f (xj) S(xj) j = 1, 2, . . . Karenaf (xj) = S(xj) − S(xj+1), h(xj) = f (xj) S(xj) = S(xj) − S(xj+1) S(xj) = 1 − S(xS(xj+1) j) (2.17) sehingga S(t) = Y j|xj<t (1 − h(xj)) . (2.18)
Fungsi hazard kumulatif untukT diskrit adalah H(t) = X
j|xj<t
log(1 − hj) (2.19)
sehingga hubungan S(t) dengan H(t) seperti persamaan (2.12) masih berlaku. Satu alternatif untuk fungsi hazard kumulatif adalah H(t) = P
j|xj<thj, yang
2.5. Latihan Bab 2 16
Contoh 2.3
Variabel random survival diskritT mempunyai fungsi probabilitas f (t) = P (t = k) = 1
3, k = 1, 2, 3
Fungsi survivalnya adalah
S(t) = X j|xj>t f (xj) = 1 jika 0 ≤ t < 1, 2/3 jika 1 ≤ t < 2, 1/3 jika 2 ≤ t < 3, 0 jika t ≥ 3.
UntukT diskrit, S(t) berupa fungsi tangga yang tak-naik. Fungsi hazard T adalah h(xj) = f (xj) S(xj) = 1/3 untuk j = 1 1/2 untuk j = 2 1 untukj = 3 0 yang lain.
Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titik-titik di mana event dapat terjadi.
2.5
Latihan Bab 2
2.1. Distribusi survival didefinisikan sebagaiS(t) = 0,10(100 − t)1/2pada do-main0 ≤ t ≤ 100, tentukan nilai f(36) dan h(50)!
2.2. Jika diketahuiS(t) = 0,2(25 − t)1/2 pada domain 0 ≤ t ≤ 25, tentukan nilai hazard kumulatifH(16)!
2.3. Diketahui fungsi hazardh(t) = a + bt, a > 0 dan b > 0, tentukan nilai S(t)!
2.4. Tunjukkan mengapa S(t) dari fungsi hazard h(t) = e−rt, r > 0 bukan merupakan fungsi survival:
2.5. Untuk variabel random durasi (interval antar kejadian) kontinuT , dengan fungsi survivalS(t):
2.5. Latihan Bab 2 17
(a) Tunjukkan bahwaE(T ) =R∞
0 S(t)dt
(b) Tunjukkan bahwaE(T ) = r(0) (soal no. 2(a)), dengan r(t) = E(T − t | T ≥ t)
yang sering disebut sebagai expected residual life atau mean residual
life pada saatt
2.6. Suatu variabel random survival kontinu T diketahui mempunyai expected
residual life (Lihat soal no. 2.5)r(t) = t + 10. (a) Carilah meanT
(b) Carilahh(t) (c) CarilahS(t)
2.7. DiketahuiT berdistribusi Uniform
f (t) = (
1/θ untuk0 ≤ t ≤ θ 0 t yang lain (a) Hitung fungsi survivalS(t)
(b) Hitung fungsi hazardh(t)
(c) Hitung fungsi expected (mean) residual-lifer(t)
2.8. Buktikan persamaan (2.6) dan (2.7), jika diberikan E(T ) = R∞
−∞tf (t)dt dan var(T ) = E(T2) − E(T )2.
2.9. Diketahui fungsi survival S(t) = exp(−tλ), carilah fungsi densitas dan fungsi hazardnya!
2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah κρ(ρt)κ−1exp [(ρt)κ]
fungsi survivalnya adalah
exp {− [exp((ρt)κ) − 1]}
2.11. Tunjukkan bahwa untuk variabel random survival diskret S(t) = Y
j|xj<t
2.5. Latihan Bab 2 18
2.12. DiketahuiT adalah variabel random diskrit berdistribusi Geometrik f (t) = π(1 − π)t−1, t = 1, 2, . . .
(a) Carilah fungsi survivalT (b) Carilah fungsi HazardT
2.13. Diketahui distribusi Poisson dengan fungsi probabilitas
P (T = k) = e−λλ k
k!, k = 0, 1, . . . . Tunjukkan fungsi hazard-nya naik monoton.
2.14. Suatu model yang digunakan dalam Tabel Mortalitas adalah model
piece-wise constant hazard rate. Dalam model ini waktu dibagi dalamk interval [τj−1, τj), j = 1, 2, . . . , k dengan τk = ∞. Fungsi hazard dalam interval ke-j berupa konstan λj, atau
h(t) = λ1 0 ≤ t < τ1 λ2 τ1 ≤ t < τ2 .. . λk−1 τk−2 ≤ t < τk−1 λk t ≥ τk−1
3
Metode Parametrik
3.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat:
3.1. Menyebutkan beberapa model distribusi parametrik variabel random survi-val
3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yang mengikuti distribusi parametrik tertentu
3.3. Melakukan estimasi parameter model distribusi variabel random survival 3.4. Menggunakan model distribusi variabel random survival
3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival
3.2
Beberapa distribusi parametrik
3.2.1
Distribusi Eksponensial
Distribusi eksponensial mempunyai sifat ”pelupa” (lack of memory) yang berarti bahwa probabilitas survive ke depan tidak terpengaruh oleh kondisi survive seka-rang. Hal ini ditunjukkan oleh fungsi hazard nya yang berupa konstan, yaitu
h(t) = λ (3.1)
Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fe-nomena terkait data survival. Namun model dengan distribusi Eksponensial ini
3.2. Beberapa distribusi parametrik 20
dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkin lebih baik namun mungkin juga lebih rumit.
Model dengan reparameterisasiθ = 1/λ kadang sering juga digunakan. Per-bedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untuk event seperti kerusakan atau kematian,λ diinterpretasikan sebagai tingkat resiko (hazard rate) dengan satuan kerusakan per satu satuan waktu, sedangkanθ = 1/λ adalah lama waktu sampai satu kerusakan.
Dengan terlebih dahulu mencari fungsi hazard kumulatifnya yaitu H(t) = λt, fungsi survival dapat dicari melalui hubungan antara H(t) dan S(t), sebagai berikut
S(t) = exp(−λt) (3.2)
Fungsi densitas distribusi eksponensial dengan parameterλ > 0 dapat diru-muskan darih(t) dan S(t) di muka, yaitu
f (t) = h(t)s(t)
= λ exp(−λt) (3.3)
Distribusi eksponensial mempunyai mean 1/λ, variansi 1/λ2 dan median (1/λ) log(2). Sebagai contoh kurva survival untuk eksponensial dapat dilihat pa-da Gambar 3.1. Gambar fungsi hazard yang bersesuaian dengan fungsi survival Gambar 3.1 adalah seperti pada Gambar 3.2.
Contoh 3.1
Pada label lampu pijar proyektor LCD tertulis lama hidup lampu pijar adalah 2000 jam pemakaian. Kita asumsikan lama hidup lampu pijar berdistribusi eksponensial.
a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup, hitung berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian? b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitung berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
Jawab:
a) Median distribusi eksponensial λ1log(2) = 2000, sehingga dapat dihitung λ = log(2)/2000 = 0,000347 kerusakan per jam. Probabilitas masih hidup setelah
2500 jam pemakaian,S(2500) = exp(−0,000347 × 2500) = 0,420
b) Mean distribusi eksponensial1/λ = 2000, jadi λ = 0,0005 kerusakan per jam.
Probabilitas masih hidup setelah 2500 jam pemakaian,S(2500) = exp(−0,0005×
3.2. Beberapa distribusi parametrik 21 0 10 20 30 40 0.0 0.2 0.4 0.6 0.8 1.0 t S(t) λ =0.1 λ =0.3
Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai λ yang berbeda 0 10 20 30 40 0.0 0.1 0.2 0.3 0.4 0.5 0.6 t h(t) λ =0.1 λ =0.3
Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai λ yang berbeda
3.2. Beberapa distribusi parametrik 22
3.2.2
Distribusi Weibull
Distribusi Weibull merupakan perluasan dari distribusi eksponensial yang pada awalnya digunakan untuk meneliti kekerasan atau ketahanan suatu material. Dis-tribusi Weibull dengan parameter bentuk (shape parameter)α > 0 dan parameter skala (scale parameter) λ > 0 mempunyai fungsi hazard yang bergantung waktu sebagai berikut
h(t) = αλ(λt)α−1 (3.4)
Fungsi survival dan fungsi densitas Weibull adalah
S(t) = exp(−(λt)α) (3.5)
f (t) = αλ(λt)α−1exp(−(λt)α) (3.6) Untuk kasusα = 1 distribusi Weibull sama dengan eksponensial dengan parame-terλ. Mean dan variansi distribusi ini berturut-turut
Γ(1 + 1/α) λ dan 1 λ2 Γ 1 + 2 α − Γ2 1 + 1 α
Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gam-bar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas dan studi mortalitas.
3.2.3
Distribusi Gamma
Distribusi Gamma mempunyai parameter β, λ > 0, dengan mean E(t) = β/λ dan koefisien variasi1/√β. Parameter λ−1sering disebut parameter skala (scale) dan β adalah indeks atau parameter bentuk (shape) Fungsi densitas, hazard dan survivalnya adalah sebagai berikut
f (t) = λ(λt)
β−1exp(−λt)
Γ(β) (3.7)
3.2. Beberapa distribusi parametrik 23 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 t S(t) α =0.1 α =1 α =2 α =4
Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilaiα yang berbeda dan satu nilaiλ tertentu
0 1 2 3 4 0 1 2 3 4 t h(t) α =0.1 α =1 α =2 α =4
Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai α yang berbeda dan satu nilaiλ tertentu
3.2. Beberapa distribusi parametrik 24 0.0 0.5 1.0 1.5 2.0 t h(t) 0 1 2 3 4 β =0.4 β =2 β =4
Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilaiβ yang berbeda danλ = 1
S(t) = 1 − I(λt, β) = 1 −Γ(β)1 Z λt
0
uβ−1e−udu (3.9)
Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk ekspli-sit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap. Fungsi Gamma denganβ = 1 adalah sama dengan distribusi Eksponensial(λ).
Distribusi Gamma dengan parameterλ = 1 dikenal dengan Gamma satu pa-rameterβ dan mempunyai fungsi densitas sebagai berikut
f (t) = t
β−1exp(−t)
Γ(β) (3.10)
Jika T berdistribusi Gamma (3.7), maka λT akan berdistribusi Gamma satu pa-rameter β. Kemudian bila Y berdistribusi Gamma satu parameter β, maka 2Y berdistribusiχ2 (Chi kuadrat) dengan derajat bebas2k.
Gambar fungsi densitas dan fungsi hazard untukλ = 1 dan berbagai nilai β dapat dilihat pada Gambar 3.5 dan Gambar 3.6.
Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya kemudian ke bidang yang lain seperti industri dan model mortalitas.
3.2. Beberapa distribusi parametrik 25 0.0 0.2 0.4 0.6 t f(t) 0 1 2 3 4 β =0.4 β =2 β =4
Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai β yang berbeda dan λ = 1
3.2.4
Distribusi Log-normal
Variabel random survivalT berdistribusi log-normal apabila transformasi variabel log(T ) berdistribusi normal. Distribusi log-normal dengan paramater σ > 0, t ≥ 0) mempunyai fungsi densitas, hazard dan survival sebagai berikut
f (t) = 1 tσ√2πexp −2σ12(log(t) − µ) 2 (3.11) h(t) = f (x)/S(x) (3.12) S(t) = 1 − Φ log(t) − µσ (3.13)
denganΦ(x) adalah fungsi distribusi kumulatif Normal Standar.
Distribusi log-normal mempunyai meanE(t) = exp(µ + σ2/2) dan variansi [exp(σ2) − 1] [exp(2µ + σ2)], bukan µ dan σ seperti dalam distribusi normal.
Gambar fungsi densitas dan fungsi hazard untuk µ = 0 dan berbagai nilai σ dapat dilihat pada Gambar 3.7 dan Gambar 3.8.
3.2. Beberapa distribusi parametrik 26 0 1 2 3 4 5 t h(t) 0 1 2 3 4 σ =0.25 σ =0.5 σ =1.5
Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai σ yang berbeda dan µ = 0
0.0 0.5 1.0 1.5 2.0 t f(t) 0 1 2 3 σ =0.25 σ =0.5 σ =1.5
Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai σ yang berbeda dan µ = 0
3.2. Beberapa distribusi parametrik 27
Contoh 3.2
Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).
Jawab:
Bilamed adalah median, maka
S(med) = 1 − Φ log(med) − µσ = 1/2 atau Φ log(med) − µ σ = 1/2
Kuantil ke-1/2 normal standar adalah 0, sehingga log(med) − µ
σ = 0
log(med) = µ med = exp(µ)
3.2.5
Distribusi Gompertz-Makeham
Distribusi ini awalnya digunakan untuk memodelkan survival pada manusia dan banyak digunakan pada permasalahan demografi dan aktuaria. Secara empiris mo-del motalitas pada manusia umumnya mempunyai bentuk log hazard yang linear terhadap usia, atau
h(t) = exp(A + Bt) (3.14)
yang kemudian di-reparameterisasi menjadi
h(t) = ρ1eρ2t. (3.15)
Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian me-nyarankan ada penambahan konstan ρ0 yang berbeda menurut usia pada mo-del Gompertz untuk memomo-delkan mortalitas, sehingga momo-del hazardnya menjadi Gompertz-Makeham
h(t) = ρ0+ ρ1eρ2t. (3.16)
Parameter ρ0 > 0 dan ρ1 > 0 dikenal sebagai parameter bentuk (shape) dan −∞ < ρ2 < ∞ sebagai parameter skala (scale).
Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fung-si hazard dan kemudian fungfung-si hazard kumulatifnya, dan diperoleh
S(t) = exp −ρ0t − ρ1 ρ2 (eρ2t− 1) (3.17) Fungsi densitas Gompertz-Makeham dapat dituliskan secara eksplisit dari h(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dan survivalnya.
3.3. Estimasi parameter 28
3.2.6
Distribusi Log-logistik
Seperti halnya log-normal, nama log-logistik diberikan karena log(T ) berdistri-busi logistik. Distriberdistri-busi logistik sendiri mempunyai fungsi densitas
f (y) = exp[(y − µ)/σ]
σ(1 + exp[(y − µ)/σ])2 (3.18)
dengan−∞ < y < ∞ adalah variabel random logistik dengan parameter −∞ < µ < ∞ dan −∞ < σ < ∞.
Fungsi Survival distribusi log-logistik adalah
S(t) = 1
1 + (λt)α (3.19)
Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazard-nya H(t) = − log[S(t)] = log((1 + (λt)α) (3.20) kemudian diperoleh h(t) = dH(t)/dt = λα(λt) α−1 1 + (λt)α . (3.21)
Fungsi densitas log-logistik
f (t) = S(t)h(t) = λα(λt) α−1 1 + (λt)α 1 1 + (λt)α (3.22) = λα(λt) α−1 [1 + (λt)α]2 (3.23)
Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana dibandingkan dengan, misalnya, log-normal.
3.3
Estimasi parameter
Estimasi parameter suatu model survival parametrik dapat dilakukan dengan me-tode Estimasi Kebolehjadian Maksimum (Maximum Likelihood Estimation).
3.3. Estimasi parameter 29
Definisi 3.1
Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang di-bentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang berasal dari variabel random survival T . Apabila f (t; θ) adalah fungsi
proba-bilitas bersama, dengant adalah realisasi dari T , maka fungsi dari parameter θ
yang didefinisikan sebagai
L(θ | t) = f(t; θ)
dinamakan fungsi kebolehjadian.
Untuk data survival yang diasumsikan independen dan identik serta lengkap, apabila adat1, t2, . . . , tnobservasi, fungsi kebolehjadian-nya adalah
L(θ | t) = n Y
i=1
f (ti; θ) (3.24)
Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong, fungsi kebolehjadian ditentukan sebagaimana berikut ini.
Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan sebagai pasangan nilai observasi survival dengan status tersensornya yaitu(ti, δi), i = 1, 2, . . . , n dengan
δi = (
0 jika i tersensor
1 jika i mendapatkan kejadian (event) (3.25) Dengan asumsi masing-masing (Ti, δi) independen satu dengan yang lain, fungsi likelihood untuk data tersensor kanan adalah:
L(θ) ∝ n Y
i=1
f (ti; θ)δiS(ti; θ)1−δi (3.26)
dengan θ = (θ1, . . . , θp) adalah p parameter yang akan diestimasi; f (ti; θ) adalah fungsi densitas untuk i yang mendapatkan kejadian dan S(ti; θ) adalah fungsi survival untuki yang tidak mendapatkan kejadian.
Fungsi log-likelihood untuk data tersensor kanan dari fungsi kebolehjadian (3.26) adalah ℓ(θ) ∝ n X i=1 (δi) log(f (ti; θ)) + n X i=1 (1 − δi) log(S(ti; θ)) (3.27)
Untuk data yang mungkin memuat observasi lengkap, tersensor-kanan pada titik waktu R dan terpotong-kiri pada titik waktu L, fungsi probabilitas maupun
3.3. Estimasi parameter 30
fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sam-pai ke L, karena untuk observasi yang terpotong-kiri hanya terjadi bila t ≥ L (Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indi-katorδ ditentukan sebagai berikut
δi = (
0 jika ti > R 1 jika ti ≤ R
(3.28)
atau ditulis dengan fungsi indikator,δi = I(ti ≤ R). Fungsi kebolehjadian-nya adalah
L(θ) ∝ n Y i=1 f (ti; θ) S(L) δi S(ti; θ) S(L) 1−δi (3.29)
Dengan cara yang sama fungsi kebolehjadian untuk observasi yang merupak-an kombinasi dari terpotong-kiri, tersensor-kmerupak-anmerupak-an, terpotong-kmerupak-anmerupak-an, tersensor-kiri dan observasi yang lengkap dapat disusun.
Untuk mendapatkan estimasi dari θ dapat digunakan metode kebolehjadian maksimum (MLE: Maximum Likelihood Estimation).
Definisi 3.2
Estimasi kebolehjadian Maksimum θ, ditulis ˆθ adalah (ˆθ1, . . . , ˆθp) yang
memak-simumkanL(θ):
Ł(ˆθ) = max
θ L(θ) (3.30)
Pengerjaan terkait derivatif lebih mudah dilakukan pada log(L(θ)) atau log-likehood, dinotasikan dengan ℓ(θ), dibandingkan pada L(θ). Karena fungsi log merupakan fungsi yang naik tegas (strictly increasing), maka ˆθ yang memaksi-mumkanℓ(θ) juga memaksimumkan L(θ), sehingga estimasi kebolehjadian mak-simum dapat diperoleh dari
ℓ(ˆθ) = max
θ ℓ(θ) (3.31)
Untuk mendapatkan MLE ˆθ perlu dihitung terlebih dahulu titik kritis dari ℓ(ˆθ) melalui penyelesaian
∂ℓ(θ) ∂θj
= 0, j = 1, 2, . . . , p (3.32)
Apabila dapat diperoleh penyelesaian dari (3.32), perlu diperiksa apakah ˆθ me-mang memaksimalkanℓ(θ).
Untuk permasalahan yang tidak dapat diselesaikan secara analitis, metode nu-merik seperti misalnya metode Newton-Rhapson dapat digunakan untuk mencari ˆ
3.3. Estimasi parameter 31
Contoh 3.3
Carilah estimator untuk parameterλ pada model survival eksponensial yang datanya dapat
terkena sensor-kanan.
Jawab:
Fungsi kebolehjadian untuk parameterλ dengan diketahui data berdistribusi eksponensial
adalah: L(λ) = n Y i=1 (λ exp(−λti))δi (exp(−λti))1−δi = n Y i=1 λδi exp(−λti)
sehingga fungsi log-likelihood nya adalah
ℓ(λ) = log λ n X i=1 δi− λ n X i=1 ti
Untuk data yang tersensor kanan,Pni=1δi = k, dengan k adalah banyaknya data yang
lengkap. Untuk data survival yang lengkapk = n
Kemudian dicari titik kritisℓ(λ) melalui ∂ℓ(λ)/∂λ = 0, ∂ℓ(λ)
∂λ =
∂ (k log λ − λPni=1ti) ∂λ = k λ− n X i=1 ti. Penyelesaian dari k λ− n X i=1 ti = 0 adalah ˆ λ = Pnk i=1ti . yang merupakan MLE dariλ
Pada contoh 3.3 telah diperoleh estimator titik dari parameterλ, bila diberikan data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan dengan menghitung interval konfidensi100(1 − α)% berdasarkan statistik 2kˆλ/λ yang berdistribusi chi-square dengan derajad bebas 2k. Rumus ini berlaku baik untuk data lengkap maupun data yang memuat observasi tersensor-kanan.
3.3. Estimasi parameter 32
Contoh 3.4
Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2, 3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34
Hitung interval konfidensi 95% untukλ dari data di atas, dengan asumsi data berdistribusi
eksponensial.
Jawab: Dihitung terlebih dahulu estimasiλ. Karena data di atas lengkap, k = n ˆ
λ = Pnn i=1ti
= 21
198 = 0,1060606
Interval konfidensi 95% untukλ ˆ λχ22n,α/2 2n < λ < ˆ λχ22n,1−α/2 2n 0, 106 × 25, 999 42 < λ < 0, 106 × 62, 777 42 0, 066 < λ < 0, 156 Contoh 3.5
Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakit kanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb: 4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitung interval konfidensi 95% untukλ, bila diasumsikan data berdistribusi eksponensial.
Jawab:
Estimasi untukλ dalam hal ini adalah untuk data tersensor-kanan, ˆ
λ = Pnk i=1ti
= 5
86 = 0,05814
Nilai estimasi ini menghasilkan nilai log-likelihoodℓ(0,05814) = −19,22455. Gam-bar fungsi log=likehood ini dapat dilihat pada GamGam-bar 3.9. Garis tegak putus-putus me-nunjukkan nilai MLE dan log-likelihood maksimalnya.
Interval konfidensi 95% untukλ ˆ λχ22k,α/2 2k < λ < ˆ λχ22k,1−α/2 2k 0,05814 × 3,246973 10 < λ < 0,05814 × 20,48318 10 0,0189 < λ < 0,1191
3.4. Latihan Bab 3 33 0.00 0.05 0.10 0.15 0.20 0.25 0.30 −32 −30 −28 −26 −24 −22 −20 λ log−lik elihood
Gambar 3.9: Nilai MLE dan log-likelihood pada Contoh 3.5.
3.4
Latihan Bab 3
3.1. Tahan hidup suatu jenis lampu pijar diketahui berdistribusi eksponensial dengan hazard 0,001 kerusakan per jam penggunaan
(a) Hitung mean tahan hidup lampu pijar tersebut! (b) Hitung median tahan hidup lampu pijar tersebut!
(c) Berapa probabilitas lampu pijar tersebut masih hidup setelah 2.000 jam penggunaan?
3.2. Lama (dalam satuan hari) berkembangnya tumor pada populasi tikus per-cobaan yang terpapar (exposed) oleh suatu zat penyebab kanker diketahui berdistribusi Weibull denganα = 2 dan λ =0,001
(a) Hitung probabilitas seekor tikus yang telah terpapar belum terkena tu-mor pada hari ke 30
(b) Hitung mean lama hari sampai terkena tumor (Γ(0,5) =√π) (c) Hitung hazard rate pada hari ke 30
(d) Hitung median lama hari sampai terkena tumor
3.3. Distribusi Eksponensial dua parameter, biasa digunakan dalam permasalah-an garpermasalah-ansi, mempunyai densitas
f (t) = (
λ exp(−λ(t − G)) t ≥ G
3.4. Latihan Bab 3 34
denganG adalah waktu garansi.
(a) Carilah fungsi Survival dan fungsi hazard nya (b) Carilah mean dan median nya
3.4. Lihat kembali pada matakuliah Pengantar Statistika Matematika. Tunjuk-kanlah bahwa bila ˆλ = n/P ti dengan ti berdistribusi eksponensial dan independen, maka statistik2nˆλ/λ akan berdistribusi chi-square dengan de-rajad bebas2n!
3.5. Diketahui data antar kejadian sebagai berikut:3, 4, 4, 8, 8+, 9+, 10, 12+, 18, dengan ”+” menunjukkan data tersensor kanan.
(a) Dengan menganggap data berdistribusi eksponensial dengan fungsi hazardh(t) = λ, estimasilah parameter λ
(b) Gambarlah fungsi Survival dengan menggunakan hasil estimasiλ (c) Hitung median survival time-nya
3.6. Merujuk pada Soal 1.4, Bab 1:
(a) Dengan mengasumsikan lama hidup berdistribusi eksponensial, hi-tunglah estimasi fungsi hazard dari masing-masing kelompok yaitu AG positive (notasikan denganh1(t)) dan AG negative (notasikan de-nganh2(t));
(b) Buatlah sket grafik fungsi survival untuk AG positive maupun AG
ne-gative pada satu gambar dengan skala yang sama. Interpretasikan
ha-silnya.
3.7. Carilah median distribusi Gompertz!
3.8. Tunjukkanlah, apabila T berdistribusi Weibull, maka Y = log(T ) yang terpotong-kiri padaT > 0 akan berdistribusi Gompertz!
4
Metode Non-parametrik dan
Uji-LogRank
4.1
Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat:
4.1. Menjelaskan perbedaan metode non-parametrik dan parametrik dalam ana-lisis data survival
4.2. Melakukan estimasi Kaplan-Meier untuk fungsi survival dan menjelaskan teori yang mendasarinya
4.3. Melakukan estimasi Nelson-Aalen untuk fungsi hazard kumulatif dan men-jelaskan teori yang mendasarinya
4.4. Menggunakan Kaplan-Meier dan Nelson-Aalen dalam analisis data survival 4.5. Menjelaskan perlunya pembandingan fungsi survival dalam analisis data
survival
4.6. Melakukan dan menggunakan metode log-rank test dan teori yang menda-sarinya
4.2
Kaplan-Meier
Untuk mengestimasi S(t) dapat digunakan estimator Kaplan-Meier atau sering juga disebut sebagai Product-Limit estimator sebagai berikut:
ˆ S(t) = ( 1 jika t < t1 Q ti≤t(1 − di Yi) jika ti ≤ t (4.1) 35
4.2. Kaplan-Meier 36
dimanadi adalah banyaknya event danYi adalah banyaknya individu yang beresi-ko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turun pada saat ada event.
Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gam-bar 4.1. Misalkan event yang menjadi perhatian adalah meninggal (M), dengan origin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinya event pada t1, t2 dant3. Pada saatt1, peluang meninggal dengan diketahui kondisi pada saat waktu 0 adalahπ1, dan peluang hidup (H) atau survive adalah1 −π1. Pada saatt2, peluang meninggal dengan diketahui kondisi pada saatt1 adalahπ2, dan peluang meninggal 1 − π2. Demikian pula dengan π3 dan1 − π3. Probabilitas mening-gal π1, π2, dan π3 dapat dipandang sebagai probabilitas binomial namun dengan probabilitas sukses yang berubah-ubah menurut waktu.
Peluang survive sampai waktut3 adalah
(1 − π1)(1 − π2)(1 − π3),
yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengan t3.
Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasum-sikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitas yang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di mana
event terjadi.
Untuk mengestimasiπi; i = 1, 2, . . . dapat digunakan proporsi meninggal de-ngan diberikan banyaknya yang masih hidup pada saat sebelum terjadinya event, seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalah banyaknya yang meninggal pada saatti danYi adalah banyaknya yang masih hi-dup, tepat sebelum saat ti, maka estimator untuk πi adalah di/Yi dan estimator untuk 1 − πi adalah 1 − di/Yi. Estimasi untuk survivesampai waktu k tertentu menjadi
(1 − d1/Y1)(1 − d2/Y2)(1 − d3/Y3) . . . (1 − dk/Yk)
dan apabila tk ≤ t, dengan t ≥ adalah bilangan kontinu, maka estimasi untuk
survive sampait ini dapat ditulis seperti estimator Kaplan-Meier (4.1).
Untuk melakukan inferensi tentang S(t) menggunakan ˆS(t) Kaplan-Meier, perlu dihitung terlebih dahulu standard error atau variansi dariS(t). Variansi dari estimator KM ˆS(t) sering disebut sebagai Greenwood’s formula
var[ ˆS(t)] = ˆS(t)2X ti≤t
di Yi(Yi− di)
(4.2)
atau dapat digunakan rumus berikut sebagai alternatif var[ ˆS(t)] = ˆS(t)2[1 − ˆS(t)]
4.2. Kaplan-Meier 37 waktu 0 t1 t2 t3 M: meninggal H: hidup π1 1 −π 1 M H π2 1 −π 2 M H π3 1 −π 3 M H
Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen Tabel 4.1: Tabel Estimasi Kaplan-Meier Contoh 4.1
t Y d S(t)ˆ se[ ˆS(t)] 6 21 3 1 − 3/21 = 0,857 0,8572(21)(18)3 = 0,0764 7 17 1 (1 − 1/17) × 0,857 = 0,807 0,8072. . . = 0,0869 10 15 1 (1 − 1/15) × 0,807 = 0,753 0,7532. . . = 0,0963 13 12 1 (1 − 1/12) × 0,753 = 0,690 0,6902. . . = 0,1068 16 11 1 (1 − 1/11) × 0,690 = 0,627 0,6272. . . = 0,1141 22 7 1 (1 − 1/7) × 0,627 = 0,538 0,5382. . . = 0,1282 23 6 1 (1 − 1/6) × 0,538 = 0,448 0,4482. . . = 0,1346
Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal ˆ
S(t) ± 1,96 × se[ ˆS(t)].
Contoh 4.1
Diperoleh data dari studi tentang pasien leukemia seperti pada Contoh 1.7, Bab 1. Buatlah Estimasi Kaplan-Meier untuk perawatan 6-MP saja.
Jawab:
Pertama, data waktu diurutkan dan dihitung frekuensi banyaknya individu yang beresiko (belum mendapatkan event) serta banyaknya event pada waktu tersebut. Estimasi ˆS(t)
kemudian dapat dihitung menggunakan persamaan (4.1) dan var[ ˆS(t)] dengan persamaan
(4.2). Hasilnya dapat dilihat pada Tabel 4.1. Plot untuk estimasi Kaplan-Meier yang ber-upa fungsi tangga dapat dibuat seperti Gambar 4.2. Seperti terlihat pada Gambar, tangga akan turun ketika terjadi event saja. Garis pendek tegak pada grafik menunjukkan
ob-4.3. Nelson-Aalen 38 0 5 10 15 20 25 30 35 0.0 0.2 0.4 0.6 0.8 1.0 waktu Estimasi S(t) KM
Gambar 4.2: Grafik estimasi Kaplan-Meier Contoh 4.1
servasi yang tersensor-kanan. Paket program statistika standar biasanya dapat digunakan untuk mengestimasi KM dan grafiknya.
4.3
Nelson-Aalen
Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif, didefinisikan sebagai berikut:
ˆ H(t) = ( 0 jika t < t1 P ti≤t di Yi jika ti ≤ t (4.4) dengan variansi ˆ Var( ˆH(t)) =X ti≤t di Y2 i (4.5)
Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal ˆ
H(t) ± 1,96 × se[ ˆH(t)].
Prinsip konstruksi estimator Nelson-Aalen sama seperti halnya Kaplan-Meier (lihat Gambar 4.1). Estimator ini merupakan estimator non-parametrik yang
4.3. Nelson-Aalen 39
Tabel 4.2: Tabel estimasi Nelson-Aalen untukH(t) dan S(t) Contoh 4.2
t Y d H(t)ˆ S(t) = exp(− ˆˆ H(t)) 6 21 3 3/21 = 0,143 0,867 7 17 1 1/17 + 0,143 = 0,202 0,817 10 15 1 1/15 + 0,202 = 0,269 0,764 13 12 1 1/12 + 0,269 = 0,352 0,703 16 11 1 1/11 + 0,352 = 0,443 0,642 22 7 1 1/7 + 0,443 = 0,586 0,557 23 6 1 1/6 + 0,586 = 0,753 0,471
mengestimasi kuantitasi yang tidak diketahui pada saat terjadinya event. Dalam hal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisi sebelum event terjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkan sampai waktutk ≤ t tertentu, maka kuantitas ini adalah estimasi hazard kumulatif yang dirumuskan sebagai estimator Nelson-Aalen 4.4.
Estimasi Nelson-Aalen dapat digunakan untuk mengestimasi S(t) dengan menggunakan hubunganH(t) dengan S(t), yaitu S(t) = exp(−H(t)).
Contoh 4.2
Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Con-toh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen dan estimasi fungsi survivalnya.
Jawab:
Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4) untuk menghitung ˆH(t). Hasilnya adalah seperti pada Tabel 4.2. Plot untuk estimasi
Nelson-Aalen dapat dilihat pada Gambar 4.3.
Dapat dibandingkan nilai estimasi survival yang diperoleh dengan Nelson-Aalen se-lalu lebih besar dari nilai estimasi yang diperoleh dari Kaplan-Meier (Lihat Latihan Soal 4.2).
Estimasi Kaplan-Meier maupun Nelson-Aalen dapat juga digunakan untuk membandingkan dua atau lebih kurva survival, sehingga secara deskriptif dapat dilihat dan disimpulkan kurva mana yang lebih survive dibandingkan yang lain.
Contoh 4.3
Hitunglah estimasi Kaplan-Meier untuk data leukemia Contoh 1.7, Bab 1, untuk kelom-pok placebo. Kemudian gambarlah pada tempat yang sama dengan kelomkelom-pok 6-MP yang sudah dikerjakan pada Contoh 4.1.
Jawab:
4.3. Nelson-Aalen 40 0 5 10 15 20 25 30 35 0.0 0.2 0.4 0.6 waktu estimasi H(t)
Gambar 4.3: Grafik estimasi Nelson-Aalen Contoh 4.2
0 5 10 15 20 25 30 35 0.0 0.2 0.4 0.6 0.8 1.0 waktu estimasi S(t) 6−MP placebo
Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data tersensor kanan.
4.4. Membandingkan Dua Fungsi Survival 41
Tabel 4.3: Estimasi Kaplan-Meier untuk Kelompok Placebo t Y d S(t)ˆ 1 21 2 0,9048 2 19 2 0,8095 3 17 1 0,7619 4 16 2 0,6667 5 14 2 0,5714 8 12 4 0,3810 11 8 2 0,2857 12 6 2 0,1905 15 4 1 0,1429 17 3 1 0,0952 22 2 1 0,0476 23 1 1 0,0000
4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi dibandingkan grup placebo.
Dalam Contoh 4.3, perbandingan hanya dilakukan secara deskriptif menggu-nakan grafik estimasi Kaplan-Meier fungsi S(t). Pengambilan kesimpulan atau inferensi statistik dapat pula dilakukan untuk membandingkan kurvaS(t) seperti yang akan dibahas pada bagian berikut.
4.4
Membandingkan Dua Fungsi Survival
Seperti halnya permasalahan inferensi statistik yang sudah dikenal, misalnya in-ferensi mean dua populasi dalam kuliah Metode Statistika, diperlukan prosedur uji yang dapat menyatakan apakah dua fungsi survival berbeda. Untuk uji dua mean, dapat digunakan misalnya t-test atau Z-test. Sedangkan untuk menguji atau membandingkan dua kurva survival atau lebih untuk data yang tidak tersen-sor dapat digunakan beberapa Metode Non-parametrik seperti metode Wilcoxon,
Mann-Whitney dan Sign test dapat digunakan. Sedangkan untuk data tersensor
prosedur yang dapat digunakan diantaranya: Gehan’s generalized Wilcoxon test,
the Cox-Mantel test, the logrank test, Peto and Peto’s generalized Wilcoxon test, Cox’s F-test, Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank test (1972), Peto and Peto’s generalized Wilcoxon test, dan Cox’s F-test. Satu
metode yang akan dibahas dalam bagian ini adalah Uji Logrank.
alter-4.5. Latihan Bab 4 42
natif
H1 : S1(t) > S2(t) H1 : S1(t) < S2(t) H1 : S1(t) 6= S2(t)
Uji Logrank didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah: W = (O1 − E1) 2 E1 + (O2− E2) 2 E2 (4.6)
dengan W ∼ χ2(df = 1). H0 ditolak dengan tingkat signifikasni α bila W > χ2(1 − α, df = 1).
Contoh 4.4
Merujuk ke Contoh 4.3, akan diuji apakah fungsi survival grup terapi berbeda dengan grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 4.4 untuk digunakan dalam penghitungan 4.6. Ekspektasi e1 dane2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1/(Y1+ Y2) dan Y2/(Y1+ Y2) ) dikalikan total kejadian
(d1+ d2), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup. Diperoleh statistik W = (O1− E1) 2 E1 + (O2− E2) 2 E2 = (9 − 19, 26) 2 19, 26 + (21 − 10, 74)2 10, 74 = 15,267
yang jauh lebih besar dari nilai daerah kritik3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkanH0ditolak atau dua kurva survival tersebut berbeda.
4.5
Latihan Bab 4
4.1. Merujuk data soal Latihan Bab 3 no. 5
(a) Hitung estimasi fungsi survival menggunakan Kaplan-Meier
(b) Gambarlah estimasi Kaplan Meier di atas grafik fungsi survival eks-ponensial yang dibuat pada soal Latihan Bab 3 no. 5
4.5. Latihan Bab 4 43
Tabel 4.4: Penghitungan untuk Uji log-rank
t d1 d2 Y1 Y2 e1 e2 1 0 2 21 21 (21/42) × 2 (21/42) × 2 2 0 2 21 19 (21/40) × 2 (19/40) × 2 3 0 1 21 17 (21/38) × 1 (17/38) × 1 4 0 2 21 16 (21/37) × 2 (16/37) × 2 5 0 2 21 14 (21/35) × 2 (14/35) × 2 6 3 0 21 12 (21/33) × 3 (12/33) × 3 7 1 0 17 12 (17/29) × 1 (12/29) × 1 8 0 4 16 12 (16/28) × 4 (12/28) × 4 10 1 0 15 8 (15/23) × 1 (8/23) × 1 11 0 2 13 8 (13/21) × 2 (8/21) × 2 12 0 2 12 6 (12/18) × 2 (6/18) × 2 13 1 0 12 4 (12/16) × 1 (4/16) × 1 15 0 1 11 4 (11/15) × 1 (4/15) × 1 16 1 0 11 3 (11/14) × 1 (3/14) × 1 17 0 1 10 3 (10/13) × 1 (3/13) × 1 22 1 1 7 2 (7/9) × 2 (2/9) × 2 23 1 1 6 1 (6/7) × 2 (1/7) × 2 Total 9 21 19,26 10,74
4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen ber-dasarkan hubungan antaraS(t) dengan H(t). Apabila estimasi S(t) meng-gunakan estimator Nelson-Aalen dinotasikan sebagai ˆSN A(t), dan esti-masi S(t) Kaplan-Meier dinotasikan sebagai ˆSKM(t), tunjukkan bahwa
ˆ
SKM(t) ≤ ˆSN A(t), untuk semua t.
4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir, 10 pekerja terkena radiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, ter-dapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4, dan x tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahui Estimasi Kaplan-Meier ˆS(4) = 0,75. Hitung x!
4.4. Modifikasilah rumus estimasi Nelson-Aalen bila subyek semua mendapat-kan event dan tidak ada yang tersensor dan tidak ada yang mendapatmendapat-kan
event pada saat yang sama! Menggunakan rumus tersebut, jika diketahui
ada n subyek seperti disyaratkan di atas, dan diketahui pada saat kemati-an ykemati-ang ke-9 estimasi Nelson-Aalen adalah 0,511 dkemati-an pada saat kematikemati-an yang ke-10 estimasinya 0,588; Hitunglah estimasilah nilai fungsi survival pada saat kematian yang ke-3!
4.5. Dalam suatu penelitian 300 tikus diamati mulai lahir. Tambahan 20 ekor tikus mulai diamati pada saat usia 2 hari dan 30 lagi mulai diamati saat
4.5. Latihan Bab 4 44
berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia 4, a pada usia 5; b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikus tidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia 10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan-Meier sebagai berikut: ˆS(7) = 0,892 dan ˆS(13) = 0,856. Hitung a dan b!
4.6. Diketahui data survival sebagai berikut:
grup 1 : 5 1 2 2 7 6
grup 2 : 8+ 10 4+ 4 3+
dengan ”+” adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan menggunakan logrank test (α = 0,025)
4.7. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik. Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit nis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kro-nis (grup 1) diperoleh data
Grup 1 (n = 25) Grup 2 (n = 25) 12,3+, 5,4, 8,2, 12,2+, 11,7, 10,0, 5,7, 9,8, 2,6, 11,0, 9,2, 12,1+, 6,6, 2,2, 1,8, 10,2, 10,7, 11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8, 3,0 5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1, 1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6, 2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2, 8,8, 7,8, 4,7, 3,9
tanda+ menunjukkan tersensor kanan
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan gambarlah estimasi fungsinya
(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggu-nakan logrank test (α = 0,025)