MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN MODEL REGRESI COX HAZARD
DENGAN DISTRIBUSI WEIBULL
TESIS
Oleh
VALDO EXSAUDI PASARIBU 157021037/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN MODEL REGRESI COX HAZARD
DENGAN DISTRIBUSI WEIBULL
T E S I S
Diajukan Sebagai Salah Satu Syarat
untuk Memperoleh Gelar Magister Sains dalam Program Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Sumatera Utara
Oleh
VALDO EXSAUDI PASARIBU 157021037/MT
PROGRAM STUDI MAGISTER MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2018
UNIVERSITAS SUMATERA UTARA
UNIVERSITAS SUMATERA UTARA
Telah diuji pada
Tanggal : 30 Januari 2018
PANITIA PENGUJI TESIS
Ketua : Dr. Sutarman, M.Sc
Anggota : 1. Prof. Dr. Saib Suwilo, M.Sc 2. Dr. Syahril Efendi, M.IT 3. Dr. Esther Nababan, M.Sc
UNIVERSITAS SUMATERA UTARA
PERNYATAAN ORISINALITAS
MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN MODEL REGRESI COX HAZARD
DENGAN DISTRIBUSI WEIBULL
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing dituliskan sumbernya
Medan, Penulis,
Valdo Exsaudi Pasaribu
UNIVERSITAS SUMATERA UTARA
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda tan- gan di bawah ini:
Nama : Valdo Exsaudi Pasaribu
NIM : 157021037
Program Studi : Matematika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:
Multivariate Adaptive Regression Spline (MARS) dan Model Regresi Cox Hazard dengan Distribusi Weibull.
Beserta perangkat yang ada. Dengan Hak Bebas Royalti NonEksklusif ini, Uni- versitas Sumatera Utara berhak menyimpan, mengalih media, memformat me- ngelola dalam bentuk data-base, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama mencantumkan nama saya sebagai pemegang dan atau sebagai penulis dan sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, Penulis,
Valdo Exsaudi Pasaribu
UNIVERSITAS SUMATERA UTARA
MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN MODEL REGRESI COX HAZARD
DENGAN DISTRIBUSI WEIBULL
ABSTRAK
Analisis survival merupakan analisis statistika khusus yang digunakan un- tuk menganalisis suatu kasus yang berkaitan dengan waktu atau lama waktu suatu objek mengalami suatu kejadian tertentu dimana dalam waktu penga- matan terdapat data-data tersensor. Dalam menganalisis survival dapat meng- gunakan dua model regresi Cox Hazard dan Multivariate Adaptive Regresi Spline (MARS) dengan menggunakan distribusi Weibull. Berdasarkan hasil yang diper- oleh bahwa model MARS lebih baik dibandingkan Model Regresi Cox dimana nilai R-Square model MARS mendekati nilai 1 daripada model regresi Cox dan nilai estimasi parameter dengan menggunakan estimasi maximum likelihood, mo- del MARS juga lebih besar daripada model Regresi Cox.
Kata kunci : Estimasi parameter, Maximum likelihood, Cox Hazard, Muktivariate adaptive regression spline, Distribusi Weibull
i
UNIVERSITAS SUMATERA UTARA
MULTIVARIATE ADAPTIVE REGRESSION SPLINE AND COX REGRESSION HAZARD MODEL WITH WEIBULL
DISTRIBUTION
ABSTRACT
Analysis of em survival is a special statistical analysis used to analyze a case relating to the time or duration of an object experiencing a particular event where in the time of observation there are censored data. In analyzing survival it can use two regression models em Cox Hazard and Multivariate Adaptive Regression Spline (MARS) using the em Weibull distribution. Based on the results obtained that the MARS model is better than the em Cox Regression Model where the em R-Square value of the MARS model defines the value 1 of the regression model em Cox and the estimated value of the parameter using the estimated em maximum likelihood, the MARS model is also larger than the Regression model em Cox.
Keyword : Estimasi parameter, Maximum likelihood, Cox Hazard, Muktivariate adaptive regression spline, Distribusi Weibull.
ii
UNIVERSITAS SUMATERA UTARA
KATA PENGANTAR
Puji dan Syukur kepada Tuhan Yang Maha Esa yang telah memberikan berkah dan rahmat-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul MUL- TIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) DAN MODEL REG- RESI COX HAZARD DENGAN DISTRIBUSI WEIBULL. Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada Program Studi Magister Mate- matika Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Universitas Sumatera Utara.
Pada kesempatan ini penulis ingin menyampaikan terimakasih sebesar-besarnya kepada:
Prof. Dr. Runtung, S.H., M.Hum selaku Rektor Universitas Sumatera Utara.
Dr. Kerista Sebayang, MS selaku Dekan Fakultas Matematika dan Ilmu Penge- tahuan Alam (FMIPA) Universitas Sumatera Utara.
Prof. Dr. Saib Suwilo, M.Sc selaku Ketua Program Studi Magister Matematika FMIPA USU dan selaku Pembimbing II yang telah banyak memberikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Dr. Sutarman, M.Sc selaku Pembimbing I penulis yang telah banyak mem- berikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Dr. Syahril Efendi, M.IT selaku Pembanding I penulis yang telah banyak mem- berikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
Dr. Esther Nababan, M.Sc selaku Pembanding II penulis yang telah banyak memberikan arahan, saran/kritik, dan dukungan yang luar biasa kepada penulis dalam pengerjaan tesis ini.
iii
UNIVERSITAS SUMATERA UTARA
Seluruh Staf pengajar di Program Studi Magister Matematika FMIPA USU yang telah banyak memberikan ilmu pengetahuan kepada penulis selama masa perku- liahan.
Kak Misiani, S.Si selaku Staf Adminstrasi Program Studi Magister Matematika FMIPAUSU yang telah banyak memberikan pelayananyang baik kepada penulis selama mengikuti perkuliahan.
Tak lupa penulis mengucapkan terimakasih sebesar-besarnya dan penghargaan setinggi-tingginya kepada ayahanda tercinta Payerli Pasaribu dan ibunda Las- maria Pakpahan yang selalu mencurahkan kasih sayang dan dukungan penuh kepada penulis.
Tak lupa penulis mengucapkan terimakasih kepada kawan kawan sejawat di pasca sarjana FMIPA USU yang selama 2 tahun ini memberikan dan motivasi kepada penulis.
Penulis menyadari bahwa tesis ini masih jauh dari sempurna, untuk itu penulis mengharapka kritik dan saran untuk penyempurnaan tesis ini. Semoga tesis ini dapat bermanfaat bagi pembaca dan pihak-pihak lain yang memerlukannya.
Terimakasih.
Medan, Januari 2018 Penulis,
Valdo Exaudi Pasaribu
iv
UNIVERSITAS SUMATERA UTARA
RIWAYAT HIDUP
NAMA : VALDO EXSAUDI PASARIBU
TEMPAT/TANGGAL LAHIR : Medan, 14 November 1993
JENIS KELAMIN : Laki-Laki
TINGGI/BERAT BADAN : 169 CM / 67 KG
JURUSAN : MATEMATIKA S2
ALAMAT : JL. Medan Tenggara II No. 12 Medan
EMAIL : [email protected]
NO. HP : 081380570268
PENDIDIKAN TAHUN
1998-1999 : TK SWASTA ANTONIUS MEDAN 1999-2005 : SD SWASTA ANTONIUS V MEDAN
2005-2008 : SMP SWASTA KATOLIK TRISAKTI 1 MEDAN 2008-2011 : SMA SWASTA KRISTEN IMMANUEL MEDAN 2011-2015 : UNIVERSITAS NEGERI MEDAN
2016-2018 : PASCASARJANA UNIVERSITAS SUMATERA UTARA
v
UNIVERSITAS SUMATERA UTARA
DAFTAR ISI
Halaman
ABSTRAK i
ABSTRACT ii
KATA PENGANTAR iii
RIWAYAT HIDUP v
DAFTAR ISI vi
DAFTAR TABEL ix
DAFTAR GAMBAR x
BAB 1 PENDAHULUAN 1
1.1 Latar Belakang 1
1.2 Perumusan Masalah 2
1.3 Tujuan Penelitian 3
1.4 Manfaat Penelitian 3
BAB 2 TINJAUAN PUSTAKA 4
2.1 Analisis Survival 4
2.2 Data Tersensor 5
2.3 Fungsi Kepadatan Peluang 7
2.4 Fungsi Survival 8
2.5 Fungsi Hazard 9
2.6 Distribusi Weibull 9
2.7 Metode Estimasi Maksimum Likelihood 10
2.8 Metode Iterasi Newton Raphson 11
2.9 Model Cox’s Proportional Hazard 12
2.10 Multivariate Adaptive Regression Spline(MARS) 13 vi
UNIVERSITAS SUMATERA UTARA
2.11 Recursive Partition Regression 15
2.12 Spline 16
2.13 Proses Stepwise 18
2.14 Metode Penelized Least Square 18
BAB 3 METODOLOGI PENELITIAN 20
3.1 Model Regresi Cox’s 20
3.2 Model Adaptive Regresi Spline 20
3.3 Aplikasi Analisis Survival 21
BAB 4 MODEL COX HAZARD DAN MULTI ADAPTIVE REGRES- SION SPLINE (MARS) DENGAN DISTRIBUSI WEIBULL 22
4.1 Fungsi Hazard 22
4.2 Model Regresi Cox Hazard 23
4.3 Model Regresi Cox dengan Hazard Dasar Weibull 23 4.3.1 Fungsi Hazard dengan Distribusi Weibull 24 4.3.2 Model regresi Cox dengan hazard dasar Weibull 25 4.4 Fungsi Survival yang berhubungan dengan Fungsi Hazard Weibull 25 4.5 Estimasi Parameter dengan Metode Maximum Likelihood (MLE) 25
4.6 Estimasi Parameter β, γ, λ 26
4.7 Mendapatkan Estimator Parameter β, γ dan λ 28 4.8 Estimasi Parameter dengan Metode Maksimum Likelihood 29
4.9 Estimasi Residual Cox Snell 30
4.10 Multivariate Adaptive Regression Spline (MARS) 31
4.11 Metode Newton Raphson 31
4.12 Model Multivariate Adaptive Regression Spline (MARS) dan Estimasi Koefisien Model MARS dengan Metode Penelized
Least Square 32
vii
UNIVERSITAS SUMATERA UTARA
4.13 Model Regresi Cox Hazard dan Multivariate Adaptive Regres-
sion Spline 33
4.14 Studi Kasus 34
BAB 5 KESIMPULAN DAN SARAN 38
5.1 Kesimpulan 38
5.2 Saran 38
DAFTAR PUSTAKA 39
viii
UNIVERSITAS SUMATERA UTARA
DAFTAR TABEL
Nomor Judul Halaman
4.1 Data pasien kanker ovarium 34
4.2 Perbandingan parameter kedua model 36
ix
UNIVERSITAS SUMATERA UTARA
DAFTAR GAMBAR
Nomor Judul Halaman
0.1 Distribusi emisi gas rumah kaca 3
2.1 Grafik data tersensor 6
2.2 Kurva fungsi survival 8
4.1 Ovarian cancer Survival 35
4.2 Cox Hazard dengan salford predictive modeler 36 4.3 Grafik model MARS dengan menggunakan software salford pre-
dictive modeler 37
4.4 Hasil model MARS dengan menggunakan software salford pre-
dictive modeler 37
x
UNIVERSITAS SUMATERA UTARA
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Analisis survival atau model survival dikenal sebagai analisis ketahanan hidup (survival analysis) merupakan analisis statistika khusus yang digunakan un- tuk menganalisis suatu kasus yang berkaitan dengan waktu atau lama waktu suatu objek mengalami suatu kejadian tertentu dimana dalam waktu penga- matan terdapat data-data tersensor. Perbedaan mendasar antara analisis sur- vival dengan prosedur analisis runtun waktu yang lain adalah konsep penyen- soran. Dalam analisis survival terdapat data tersensor, Data tersensor adalah data yang tidak bisa diamati secara utuh, karena adanya individu yang hilang ataupun dengan alasan lain, hingga tidak dapat diambil datanya atau sampai akhir pengamatan individu tersebut belum mengalami peristiwa tertentu. Jika berada dalam keadaan sebaliknya maka data tersebut disebut data tidak tersen- sor (Lee dan Wang, 2003).
Berbicara mengenai masalah waktu tahan hidup survival dibutuhkan suatu model yang dapat membentuk model survival sehingga diperlukan suatu model yang dapat memodelkannya. Model yang dapat digunakan untuk memodelkan survival ialah model regresi cox hazard dan model Multivariate Adaptive Regresi Spline (MARS).
Dalam analisis survival terdapat dua fungsi yang dapat digunakan, yaitu fungsi survival dan fungsi hazard. Fungsi hazard merupakan peluang suatu indi- vidu mencapai suatu kejadian dengan suatu syarat pada waktu t, dengan dike- tahui bahwa individu tersebut masih bertahan sampai waktu tersebut. Jika data dipengaruhi oleh lebih dari dua faktor dan diukur bersamaan maka data yang digunakan adalah data multivariat. Metode yang dapat digunakan untuk menge- tahui hubungan dua atau lebih variabel adalah analisis regresi non parametrik.
y = f (x) + (1.1)
1
UNIVERSITAS SUMATERA UTARA
2
Untuk mengetahui laju kegagalan (Hazard rate) individu pada satu waktu yang dipengaruhi oleh satu atau lebih variabel prediktor maka dapat digunakan pendekatan Metode Multivariate Adaptive Regression Spline(MARS) dan Model cox hazard. Model Mars memerlukan fungsi baseline hazard. Fungsi Baseline Ha- zard (h0(t)) adalah himpunan nilai kovariat yang direpresentasikan dalam vektor x dengan x=(x1,x2,x3,. . . ,xp), dimana fungsi baseline hazard dapat ditentukan menggunakan sebaran Weibull (distribusi weibull). Distribusi Weibull adalah suatu distribusi yang datanya adalah data waktu hidup pada aplikasi kejadi- an khusus. Dalam fungsi survival dan fungsi hazard (baseline hazard) terdapat parameter β. Dalam mengestimasi parameter β banyak pendekatan yang da- pat digunakan salah satunya Estimasi Maximum Likelihood sehingga didapatlah sebuah fungsi Hazard (Baseline Hazard) yang terbaik. (Lee dan Wang, 2003).
Dengan terbentuknya fungsi Hazard (baseline hazard) dan juga fungsi sur- vival dengan metode estimasi parameter maximum likelihood maka dapat diben- tuklah model survival (analisis survival). Dalam penentuan model survival ban- yak metode atau pendekatan yang dapat dilakukan seperti : Model cox propor- tional hazard, metode bayesian mixture survival, metode multivariate adaptive regression spline. Multivariate Adaptive Regression Splines merupakan salah satu metode regresi nonparametrik dengan pendekatan multivariat yang mempertim- bangkan covariate dari variabel prediktor (Friedman, 1991). Regresi cox (Cox’s Proportional Hazard) merupakan suatu pendekatan model matematika yang di- gunakan untuk mengestimasi kurva survival ketika mempertimbangkan variabel independen secara serentak. (Kleinbaum dan Klein, 2005)
1.2 Perumusan Masalah
Dari pendahuluan di atas, dalam menganalisis (survival) bahwa model regre- si Cox dan Model MARS mengasumsikan berdistribusi normal namun kenya- taannya mungkin berdistribusi tidak normal misalnya berdistribusi Weibull dan mengaplikasikan pada data 15 pengidap kanker Ovarium
UNIVERSITAS SUMATERA UTARA
3
1.3 Tujuan Penelitian
1. Membangun model survival dengan model regresi Cox (model Cox propor- tional Hazard) dengan distribusi Weibull;
2. Membangun model analisis survival dengan model multivariat adaptive reg- resi spline (MARS) dengan distribusi Weibull;
3. Menerapkan model analisis survival (model Cox proportional Hazard dan model mars) pada data 15 pengidap kanker ovarium dan membandingkan 2 model tersebut.
1.4 Manfaat Penelitian
Adapun manfaat penelitian adalah sebagai informasi untuk penelitian selanjut- nya mengenai model survival dengan menggunakan coxs Hazard dan model mars pada data survival.
UNIVERSITAS SUMATERA UTARA
BAB 2
TINJAUAN PUSTAKA
Pada bab ini akan dipaparkan teori-teori yang menjadi dasar dan landasan dalam penelitian sehingga membantu mempermudah pembahasan bagi bab selanjut- nya dan pembahasan utama dalam penelitian ini. Adapun Teori-teori tersebut meliputi analisis survival, data tersensor, fungsi kepadatan peluang, fungsi sur- vival dan fungsi hazard, ditribusi Weibull. Dalam model regresi Cox dan model MARS terdapat parameter, sehingga diperlukan metode dalam mengestimasi atau memperkirakan parameter tersebut dan pada penelitian ini digunakan meto- de estimasi maximum likelihood apabila dalam proses estimasi parameter meng- gunakan metode estimasi maximum likelihood mendapatkan persamaan akhir yang nonlinear maka akan diteruskan dengan metode newton Raphson, model Coxs proportional Hazard, model multivariat adaptive regresi spline, dan metode penealized least square.
2.1 Analisis Survival
Analisis survival adalah kumpulan dari prosedur statistik untuk menganalisis da- ta dimana outcome variabelnya adalah waktu hingga terjadi peristiwa muncul.
Waktu survival dapat didefinisikan sebagai waktu dari awal observasi hingga terjadinya peristiwa, dapat berupa hari, bulan, maupun tahun (Kleinbaum dan klein, 2005). Sedangkan Armitage dan Berry, (1987) mengatakan bahwa anali- sis survival merupakan analisis yang melibatkan uji statistik untuk menganalisis data yang variabelnya berkaitan dengan waktu atau lamanya waktu sampai ter- jadinya peristiwa tertentu. T adalah lama dari waktu awal (time origin) harus didefinisikan dengan jelas, yaitu waktu awal melakukan studi. Begitu juga waktu akhir harus didefinisikan secara jelas yaitu kegagalan dalam menyelasaikan studi (skala waktu) (Le, 2003). analisis survival memiliki beberapa tujuan (Kleinbaum dan Klein, 2005):
4
UNIVERSITAS SUMATERA UTARA
5
1. Mengestimasi dan mengiterpretasikan fungsi survival dan fungsi hazard;
2. Membandingkan fungsi survival dan fungsi hazard;
3. Mengestimasi hubungan antara variabel penjelas dengan waktu survival.
Menurut Le (2003) dalam menentukan waktu survival (T ), terdapat tiga elemen dasar yang diperlukan:
1. Waktu awal time origin;
2. Peristiwa akhir (waktu akhir);
3. Skala waktu sebagai satu satuan pengukuran waktu.
2.2 Data Tersensor
Perbedaan antara analisis survival dengan analisis statistika lainnya adalah ter- jadinya suatu peristiwa yang lama waktu terjadinya terhadap objek adalah ber- variasi. Selain itu adanya data tersensor pada analisis survival. Machin et al., (2006) data dikatakan tersensor jika pengamatan waktu survival hanya sebagian, tidak sampai failure event. Penyebab terjadinya data tersensor antara lain (Le, 2003):
1. Loss to follow up, terjadi bila objek yang dialami hilang dalam pengamatan;
2. Drop out, terjadi apabila perlakuan dihentikan karena alasan tertentu;
3. Termination of study, terjadi bila masa penelitian berakhir sementara objek yang diobservasi belum mencapai failure event.
Sedangkan menurut Kleinbaum dan Klein, (2005) ada 3 alasan umum terjadinya penyensoran, yaitu:
UNIVERSITAS SUMATERA UTARA
6
1. Objek belum mengalami peristiwa sebelum masa penelitian berakhir;
2. Objek hilang selama masa follow-up ketika masa penelitian;
3. Objek ditarik dari penelitian karena kegagalan atau disebabkan alasan lain.
Situasi ini diilustrasikan dengan gambar grafik 2.1. Grafik menggambarkan be- berapa orang atau objek yang diikuti X menyatakan orang atau objek yang mendapatkan peritiwa.
Gambar 2.1 Grafik data tersensor
Crowder et al., (1991) mengatakan bahwa ada tiga jenis penyensoran, yaitu:
1. Left-censored, pengamatan dikatakan left-cencored jika objek yang diob- servasi mengalami peristiwa di bawah waktu yang telah ditetapkan atau ketika masa observasi belum selesai;
2. Right-censored, pengamatan dikatakan right-cencored jika objek masih hi- dup atau masih beroperasi ketika masa observasi telah selesai;
3. Interval-censored, ketika objek mengalami peristiwa diantara interval wak- tu tertentu maka pengamatan dikatakan interval-censored.
UNIVERSITAS SUMATERA UTARA
7
Menurut Lee dan Wang, (2003) ada 3 tipe penyensoran data, yaitu:
1. Tipe I, jika objek-objek diobservasi selama waktu tertentu, namun ada beberapa objek yang mengalami peristiwa setelah periode atau masa ob- servasi selesai, dan sebagian lagi mengalami peristiwa diluar dari yang dite- tapkan;
2. Tipe II, masa obsevasi selesai setelah sejumlah objek yang diobservasi di- harapkan mengalami peristiwa yang ditetapkan, sedang objek yang tidak mengalami peristiwa disensor;
3. Tipe III, jika waktu awal dan waktu berhentinya observasi dari objek berbeda-beda. Sensor tipe III ini sering disebut sebagai random-censored.
2.3 Fungsi Kepadatan Peluang
Fungsi kepadatan peluang adalah peluang suatu individu mati atau gagal dalam interval waktu t sampai t + ∆t. Fungsi Kepadatan Peluang dinotasikan dengan f (t) dan dirumuskan dengan
f (t) = lim
∆t→0[P(t < T < (T + ∆t))
∆t ] = lim
∆t→0[P (F (t + ∆t) − F (t))
∆t ] (2.1)
Misalkan T adalah variabel random bukan negatif pada interval [0, ∞) yang menunjukkan waktu hidup pada suatu populasi dan f (t) merupakan fungsi kepa- datan peluang dari s maka fungsi distributif kumulatif F (t) adalah
F (T ) = P (T ≤ t)
Rt 0 dx
Berdasarkan persamaan 2.1 dapat ditulis seperti berikut:
f (t) = d(F (t))
dt = F0(t) (2.2)
UNIVERSITAS SUMATERA UTARA
8
2.4 Fungsi Survival
Pada analisis survival ada 2 hal yang mendasar yaitu fungsi survival dan fungsi hazard. Fungsi survival merupakan fungsi dasar dari analisis ini, karena meliputi probabilitas survival dari waktu yang berbeda-beda yang memberikan informasi penting tentang data survival. Secara teori, fungsi survival dapat digambarkan dengan kurva mulus dan memiliki karakteristik sebagai berikut (Kleinbaum dan Klein, 2005):
1. Tidak meningkat, kurva cenderung menurun ketika t meningkat;
2. Untuk t = 0, S(t) = S(0) = 1 adalah awal dari penelitian, karena tidak ada object yang mengalami peristiwa, probabilitas dari suatu survival 0 adalah 1;
3. Untuk t = ∞, S(t) = S(∞) = 0 secara teori, jika periode penelitian meningkat tanpa limit maka tidak ada satu pun yang bertahan.
Gambar 2.2 Kurva fungsi survival
Fungsi awal survival didefinisikan sebagai berikut:
S(t) = P (T > t); t > 0 (2.3) dengan p(tk) = P (T = tk) maka persamaan (2.3) menjadi
S(t) = P (T > t) = Σtk>tp(t) (2.4)
UNIVERSITAS SUMATERA UTARA
9
Fungsi Hazard didefinisikan
h(tk) = P (T = tk | T > tk−1 = p(tk
S(tk− 1 (2.5)
Diperhatikan bahwa P (T ≥ tk) = S(tk − 1), karena p(tk) = S(tk−1) − S(tk), maka:
h(tk) = P (T = tk | T > tk−1) = S(tp(tk)
k−1) S(tk)
S(tk−1) = 1 − h(tk) Jadi fungsi Survival dapat ditulis sebagai berikut:
S(t) = Y
tk≤T
(1 − h(t)) (2.6)
2.5 Fungsi Hazard
Menurut Kleinbaum dan Klein, (2005) fungsi hazard atau fungsi kegagalan dari waktu hidup T dinotasikan h(t) adalah probabilitas suatu individu mencapai kejadian khusus pada waktu t, dengan syarat ia telah bertahan sampai waktu tersebut. Fungsi hazard didefinisikan sebagai berikut :
h(t) = peluang kejadian (t,t+δt) peluang kegagalan (t,∞)
h(t) = lim∆t→0
P (t≤T ≤t+∆t|T ≥t
∆t
h(t) = lim∆t→0
P (t≤T ≤t+∆t,T ≥t
∆t,P (T ≥t)
h(t) = lim∆t→0
F (t+∆t)−F (t)
∆t.S(t)
h(t) = S(t)1 lim∆t→0
F (t+∆t)−F (t)
∆t
h(t) = FS(t)0(t) = f (t)S(t)
(2.7)
2.6 Distribusi Weibull
Distribusi Weibull diperkenalkan oleh seorang matematikawan bernama Wallodi Weibull. Menurut Evan, et al., (2011) distribusi Weibull umumnya digunakan se- bagai distribusi waktu hidup dalam aplikasi ketahanan hidup. Distribusi Weibull
UNIVERSITAS SUMATERA UTARA
10
memiliki 2 parameter yang dapat mewakili laju keberhasilan apakah menurun, konstan atau meningkatnya dari laju kegagalan. Dua parameter Weibull yaitu:
α = Parameter bentuk (shape) yaitu menggambarkan tingkat kegagalan pada distribusi Weibull.
τ = Parameter skala (scale) yaitu menggambarkan bentuk keragaman data pa- da distribusi Weibull.
Menurut Mohammed, (2014) jika t merupakan peubah acak menyebar menurut distribusi Weibull dengan 2 parameter, maka fungsi densitas dapat diuraikan dalam bentuk sebagai berikut :
f (t) = (α τ)(t
τ)α−1exp[−(t
τ)α] : t > 0, α > 0, τ > 0. (2.8)
2.7 Metode Estimasi Maksimum Likelihood
Misalkan data untuk n individu terdiri dari r waktu kejadian yang tidak tersensor dan n − r individu tersensor kanan, diurutkan menjadi t1 < t2 < t3 < . . . < tj <
. . . < tn dengan tj adalah urutan kejadian pada waktu j. Diasumsikan hanya terdapat satu individu yang mengalami kematian pada tiap waktu kegagalan, jadi tidak terjadi ties pada data. Ties adalah keadaan dimana terdapat dua individu atau lebih yang mengalami kejadian gagal pada waktu yang sama (Zeng dan Lin, 2007). Hal lain, yang perlu dipertimbangkan adalah peluang kematian suatu individu yang mati pada waktu kegagalan tj, dengan syarat tj menjadi salah satu yang diamati dari r waktu kegagalan t1, t2, . . . , t3. Jika vektor variabel bebas dari individu yang mati pada waktu tj, dinotasikan dengan xj, maka peluangnya menjadi sebagai berikut
P (A | B) = P [individu dengan kejadian variabel xj mati pada tj| satu kematian pada tj] (2.9)
Misalkan kejadian A adalah individu dengan variabel xj meninggal pada saat tj
dan kejadian B adalah semua kematian pada saat tj, maka P (A | B) = P (B)A∩B = P (A)P (B)
= P [individu dengan variabel xj mati pada saat tj|satu kematian pada tj] P [satu kematian pada tJ]
(2.10)
UNIVERSITAS SUMATERA UTARA
11
Jika pembilang tersebut adalah individu ke-i yang meninggal pada saat tJ, fungsi hazard ini dapat ditulis menjadi hj(tj). Penyebutnya adalah penjumlah dari peluang kematian pada waktu tj. Dengan R(tj) adalah himpunan yang beresiko pada waktu tj yang terdiri dari individu-individu yang bertahan hidup hingga hidup tj sehingga persamaan menjadi Σ hi(tj)
iR(tj )hi(tj) maka fungsi hazard dasarnya adalah:
P (A | B) = Σ hi(tj)
iR(tj )hi(tj)
= h0(t) exp(Σ
p j=1βjxij) ΣiR(tj )h0(t) exp(Σpj=1βjxij)
= exp(Σ
p j=1βjxij) ΣlR(tj )exp(Σpj=1βjxij)
(2.11)
Dari Persamaan 2.11, maka fungsi partial likelihoodnya adalah sebagai berikut:
L(β) = Yr i=1
exp(Σpj=1βjxij) ΣlR(tj)exp(Σpj=1βjxij
(2.12)
2.8 Metode Iterasi Newton Raphson
Dalam proses estimasi parameter dengan estimasi maximum likelihood diperoleh persamaan akhir yang nonlinear maka diperlukan suatu metode numerik untuk menyelesaikan persaman nonlinear tersebut. Salah satu metode yang sering di- gunakan untuk menyelesaikan sistem persamaan nonlinear adalah metode new- ton raphson. Metode newton raphson merupakan metode untuk menyelesaikan persamaan non linear secara iterasi. Misalkan L(β) merupakan fungsi partial likelihood p dimensional vektor β=(β1,β2, . . . , βp)t. Misalkan U (β) merupakan vektor berukuran p dari turunan partial pertama L(β).
U (β) = [U1(β), . . . , Up(β)]t (2.13) dengan memisalkan Uj(β)= ∂ ln L(β)∂β
j , j = 1, 2, . . . , p. Misalkan I(β) merupakan matrik Hessian berukuran pxp dari turunan partial likelihood kedua ln L(β) yaitu I(β) = (Iij(β)), i, j = 1, . . . , p (2.14)
UNIVERSITAS SUMATERA UTARA
12
dengan memisalkan Iij(β)=∂ ln L(β)∂β
iβj
I(β) =
∂2ln L(β) (∂β1)2)
∂2ln L(β)
∂β1β2 · · · ∂2lnL(β)
∂β1βp
∂2ln L(β)
∂β2β1
∂2ln L(β)
∂β2β2 · · · ∂2ln L(β)
∂β2βp
· · · ·
∂2ln L(β)
∂βpβ1
∂2ln L(β)
∂βpβp · ∂2ln L(β)
∂(βp)
. (2.15)
Algoritma metode newton Raphson yaitu sebagai berikut
βˆc+1= ˆβc− I( ˆβc)−1U ( ˆβc) (2.16)
dengan memisalkan, c = 0, 1, 2, . . . dan I−1( ˆβc) merupakan invers dari I( ˆβc).
Langkah iterasi dengan metode Newton Raphson sebagai berikut.
1. Menentukan nilai awal ˆβ0= 0.
2. ˆβ1= ˆβ0−I( ˆβ0)−1U ( ˆβ0)
3. Iterasi dilakukan sampai memperoleh nilai yang konvergen, ˆβc+1∼= ˆβc.
Menurut Hosmer et al., (2008) Varians dari β1dapat didefinisikan sebagai berikut V ar( ˆβ) = I( ˆβ)−1 (2.17) Standar deviasi dari ˆβj merupakan akar kuadrat dari varians ˆβj sebagai berikut:
SE( ˆβ) = q
var( ˆβ) = q
I( ˆβ)−1 (2.18)
Standar deviasi persamaan 2.18 dapat digunakan untuk mencari selang keper- cayaan ˆβj yaitu (1 − α)100% selang kepercayaan untuk ˆβj sebagai berikut
βˆj ± z1−α
2SE( ˆβ) (2.19)
2.9 Model Cox’s Proportional Hazard
Model cox proportional hazard disebut dengan model regresi cox karena asumsi proportional hazardnya yaitu fungsi hazard dari individu yang berbeda adalah
UNIVERSITAS SUMATERA UTARA
13
konstan (lee dan wang, 2003). Model cox merupakan model berdistribusi semi- parametrik karena dalam model cox tidak memperlukan informasi tentang dis- tribusi yang mendasari waktu survival dan untuk mengestimasi parameter reg- resi dari model cox tanpa harus menentukan fungsi hazard dasar (Guo, 2009).
Melalui model cox dapat dilihat hubungan antara variabel bebas (variabel in- dependen) terhadap variabel terikat (variabel dependen) yaitu waktu survival melalui fungsi hazardnya. Resiko kematian individu pada waktu tertentu bergan- tung pada nilai X1, X2, X3, . . . , Xp. Himpunan nilai variabel bebas pada model cox dipresentasikan oleh vektor x merupakan variabel bebas yang independent terhadap waktu (Juan, 2016). Model cox dapat dituliskan sebagai berikut:
h(t, x) = h0(t) exp(β1x1+ β2x2+ β3x3+ . . . + βpxp) (2.20) dengan memisalkan
h0(t) = Fungsi hazard β1, β2, . . . , βp = Parameter regresi
x1, x2, . . . , xp = Nilai dari variabel bebas X1, X2, X3, . . . , Xp
2.10 Multivariate Adaptive Regression Spline(MARS)
Multivariate adapative regression spline (MARS) merupakan metode regresi mul- tivariat nonparametric. Menurut Eubank (1998) regresi non parametrik meru- pakan pendekatan metode regresi dimana bentuk kurva dari fungsi regresinya tidak diketahui. Bentuk Model regresi nonparametrik adalah sebagai berikut
yi = f (xi) + (2.21)
Dengan yi adalah variabel terikat sedangkan fungsi f merupakan regresi yang tidak diketahui bentuknya, dan xi adalah variabel bebas, serta diasumsikan
berdistribusi N (0, σ2). Pendekatan regresi nonparametrik memiliki fleksibilitas yang tinggi, karena data yang diharapkan mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi subyektifitas peneliti. Multivariat adaptive regres- sion Spline (MARS) merupakan pendekatan untuk regresi nonparametrik yang
UNIVERSITAS SUMATERA UTARA
14
meghasilkan pemodelan regresi yang fleksibel. Metode ini diperkenalkan Fried- man, (1990), dimana metode ini memiliki sifat yang fleksibel pada ata berdimen- si tinggi, memiliki variabel prediktor yang 3 < k < 20, dengan ukuran sampel 50 < N < 1000. Mars mampu mengatasi diskonuitas pada data. Dalam metode MARS terdapat beberapa istilah yang digunakan.
1. Knots
Knot merupakan nilai variabel ketika slope suatu gars regresi yang menga- lami perubahan yang dapat disefinisikan sebagai akhir dari sebuah garis regresi (region) dan awal dari sebuah garis regresi (region) yang lain. Pada setiap titik knot, diharapkan adanya kontinuitas dari fungsi basis antar satu region dengan region lainnya. Minimum jarak antara knot atau minimum observasi (MO) antara knot adalah 0, 1, 2 dan 3 observasi.
2. Basis fungsi (BF)
Fungi basis yaitu suatu fungsi parametric yang didefinisikan pada setiap re- gion yang digunakan untuk menjelaskan hubungan antara variabel respond dan variabel prediktornya. Fungsi basis ini berupa selang antar knot yang berurutan. Pada umumnya fungsi basis yang dipilih berbentuk polynomial dengan turunan yang kontinu pada setiap titik knot. Maksimum fungsi basis yang diizinkan adalah 2 − 4 kali jumlah variabel prediktornya.
3. Interaksi
Merupakan hubungan korelasi antar variabel (hasil perkalian silang antar variabel yang saling berkorelasi). Jumlah Maksimum Interaksi (MI) yang diperbolehkan adalah 1, 2 atau 3. Jika M I = 3 akan dihasilkan model yang semakin kompleks dan model akan sulit diinterpretasi.
Metode MARS nerupakan pengembangan dari pendekatan recursive partition regression(RPR) yang dikombinasikan dengan metode splne sehingga model yang dihasilkan kontinu pada knot (Friedman, 1991).
UNIVERSITAS SUMATERA UTARA
15
2.11 Recursive Partition Regression (RPR)
Misal Y adalah variabel tak bebas tunggal yang dipengaruhi oleh variabel bebas X sebanyak p, dimana X = (X1, X2, . . . , Xp) maka Y dapat dinyatakan dalam model regresi sebagai berikut:
Y = f (X1, X2, . . . , Xp) + (2.22) dengan domain D merupakan subset dari ruang berdimensi p. Sisaan diasum- sikan memiliki rataan nol dan ragam σ2. Dari persamaan di atas, misalkan terdapat sampel sebanyak N untuk Y dan X = (X1, X2, . . . , Xp) dinyatakan se- bagai {X1, x1i, . . . , Xpi}Ni=1. Ambil {Rj}sj=1 yang merupakan subset yang saling lepas dari domain D, sehingga D = ∪sj=1Rj. RPR menduga fungsi f (x) yang tidak diketahui dengan
f (x) = Σsj=1Cj(x)Bj(x) (2.23) Dengan Bj(x) = I[x ∈ Rj]. I adalah fungsi indikator yang bernilai 1 jika benar dan bernilai 0 jika salah. Dan cj(x) adalah koefisien subregion. Setiap fungsi indikator merupakan perkalian dari fungsi univariat yang menggambarkan se- tiap subregion j di R. Secara umum, RPR mempunyai dua tahap yaitu tahap forward dan backward. Dimulai dari subregion pertama R1=D, tahap forward memilah domain D secara iterative menjadi himpunan bagian (subregion) yang saling lepas {Rj}Mj=2 untuk M ≥ S, dengan M ditentukan sebarang. Selan- jutnya tahap backward berlawanan dengan tahap forward yaitu menghilangkan atau memangkas subregion dari model dengan dua kriteria yaitu evaluasi dugaan model dan jumlah subregion dalam model. Tahap forward dan backward ini menghasilkan sekumpulan subregion yang tidak saling tumpang tindih, sehing- ga ˆf (x) mendekati f (x) untuk setiap subregion daerah asal. RPR merupakan metode yang mampu mengatasi kesulitan dalam menentukan knot karena knot ditentukan oleh data. Namun RPR masih memiliki kekurangan dalam pemode- lan regresi. Kekurangan RPR yaitu belum cukup mampu menduga f (x) linier atau aditif dan model RPR menghasilkan subregion yang tidak kontinu pada knot (Friedman, 1991).
UNIVERSITAS SUMATERA UTARA
16
2.12 Spline
Untuk mengatasi kekurangan RPR, Friedman melakukan modifikasi dalam men- duga fungsi linier atau aditif, Friedman melakukan inovasi dengan cara tidak menghapus induk atau parent region selama pemilihan subregion dilakukan. Se- hingga pada iterasi selanjutnya parent dan pilahan subregion yang saling tumpang tindih. Selain itu, modifikasi ini juga menghasilkan model linier dengan pemi- lahan berulang pada peubah prediktor yang berbeda serta menghasilkan mo- del yang fleksibel. Menurut Friedman (1991) modifikasi tersebut belum dapat mengatasi diskonuitas pada titik knot yang disebabkan oleh adanya perkalian fungsi univariat. Oleh karena itu Friedman mengganti perkalian fungsi univa- riat dengan regresi spline ordo satu. Regresi spline adalah suatu pendekatan ke arah plot data dengan tetap memperhitungkan kemulusan kurva. Spline meru- pakan model polinomia yang tersegmen atau terbagi dimana segmen inilah yang memberikan fleksibilitas yang lebih baik dibandingkan model polinomial biasa.
Sifat ini memungkinkan model regresi spline menyesuaikan diri secara efektif ter- hadap karakteristik lokal dari data. Penggunaan spline difokuskan pada perilaku atau pola data, yang pada daerah tertentu mempunyai karakteristik yang berbe- da dengan daerah lain. Fungsi regresi spline berorde ke-1 dengan satu variabel penjelas adalah sembarang fungsi secara umum dapat disajikan dalam bentuk (Eubank, 1998).
f (x) = β0+ β1X + β2(X − K) + i (2.24) dimana:
β0 = Intersep β1 = Slope K = Knot
X = Peubah penjelas
Pada regresi spline ini sisi kiri (−) dan sisi kanan (+) truncated spline sebagai berikut:
Bj(x) =
Sj
Y
i=1
[sij(xk(i,j)− t(ij))] (2.25)
UNIVERSITAS SUMATERA UTARA
17
Dengan Sj jumlah pilihan subregion ke j dari domain D. t(i,j) merupakan knot dari variabel bebas xk(i,j) dan nilainya 1 dan −1 jika knot ada di kanan dan kiri subregion. Model MARS digunakan untuk mengatasi kelemahan Recursive Partitioning Regression (RPR) yaitu menghasilkan model yang kontinu pada knot dan dapat mendidentifikasi adanya fungsi linier dan aditif. Hasil modifikasi model RPR dengan kombinasi splines oleh Friedman (1991) adalah model multivariate adaptive regression splines (MARS) sebagai berikut:
f (x) = a0+ ΣMm=1am Km
Y
k=1
[Skm(Xi(k,m)− t1(k,m))] + i (2.26)
Persamaan model MARS dapat disederhanakan sebagai berikut:
f (x) = aˆ 0+ a1BF1+ a2BF2+ . . . + amBFm+ i (2.27)
dimana:
f (x)ˆ = Variabel respon a0 = Konstanta
am = Koesfisien untuk basis fungsi ke-m BFm = Basis fungsi ke-m
Pemodelan MARS ditentukan berdasarkan trial dan error untuk kombinasi basis fungsi(BF), maksimum interaksi (MI), dan minimum observasi (MO) un- tuk mendapatkan niai GCV yang minimum. Persamaan GCV adalah sebagai berikut:
GCV (M ) =
1
nΣni=1[yi− ˆfm(xi)]2 [1 − C(M )˜n ]2
(2.28) dengan:
C(M )˜ = C(M )+dM
C(M ) = trace(B(BTB)−1BT)+1
UNIVERSITAS SUMATERA UTARA
18
dimana:
N = Banyaknya data
B = Baris fungsi
M = Jumlah basis fungsi
1
nΣi=1n[yi− ˆfm(xi]2 = Average sum square of residual
untuk memperoleh model akhir MARS digunakan proses stepwise.
2.13 Proses Stepwise
Multivariate adaptive regression spline (MARS) merupakan proses stepwise. Me- tode stepwise adalah kombinasi antara metode forward dan backward. Pada tahap proses forward, proses penambahan basisi fungsi ditambahkan sampai batas maksimum yang diperbolehkan dalam model tercapai. Pada tahap proses forward, proses penambahan basis fungsi ditambahkan sampai batas maksimum yang diperbolehkan dalam model tercapai. Pada tahap proses backward yaitu proses penghapusan stepwise. Semua basis fungsi yang tidak perlu dihapus sam- pai model akhir diperoleh yang berdasarkan GCV yaitu model dengan minimum GCV. Pada proses backward menghasilkan model dengan jumlah basis fungsi yang berbeda. Model yang menghasilkan GCV terkecil dipilih sebagai model terbaik. Menurut Dauda (2015) untuk menduga koefisien model MARS yaitu a digunakan metode Penelized Least Square (PLS). Metode PLS merupakan perlu- asan metode least square dengan menambahkan parameter penghalus pada fungsi yang akan digunakan.
2.14 Metode Penelized Least Square
Dalam pendugaan koefisien parameter a dalam model MARS (multivariate adap- tive least square diperlukan suatu metode. Salah satu metode yang dapat digu- nakan adalah metode penelized least square. Menurut Wahba (1990) metode penelized least square (PLS) merupakan perluasan metode least square dengan menambahkan parameter penghalus dan penalty pada fungsi yang akan digu- nakan. Fungsi yang akan digunakan merupakan fungsi yang terdiferensial pada
UNIVERSITAS SUMATERA UTARA
19
interval [a, b] dan kontinu absolut pada turunan pertama. Bentuknya adalah sebagai berikut:
S(β, f ) = 1
nΣni=1(yi− f (yi)) + λ2 Z b
a
(fm(u))2du (2.29)
Dalam hal ini λ merupakan parameter penghalus dan Rb
a(fm(u))2du meru- pakan parameter penalty. Metode PLS dilakukan dengan cara meminimumkan nilai Z dengan nilai
Z = (z}|{
Y −Ba)(z}|{
Y −Ba) dan λ2 = 0 (2.30)
UNIVERSITAS SUMATERA UTARA
BAB 3
METODOLOGI PENELITIAN
Dalam bab ini dipaparkan mengenai metode penelitian. Metode penelitian dalam penelitian ini adalah studi literatur dari berbagai referensi yang relevan dengan menerapkannya pada kasus penderita kanker ovarium:
1. Penelitian ini dimulai dengan mempelajari prinsip dasar analisis survival;
2. Dilanjutkan dengan penentuan model survival dengan pendekatan regresi cox’s dan model regresi Mars, dan
3. Menerapkan model regresi cox dan model regresi MARS pada data pasien penderita kanker ovarium.
3.1 Model Regresi Cox’s
Langkah-langkah yang digunakan untuk membentuk model regresi Cox hazard dengan menggunakan distribusi Weibull adalah sebagai berikut:
1. Menentukan fungsi hazard Weibull;
2. Mendapatkan bentuk model regresi cox dengan fungsi hazard Weibull;
3. Menentukan fungsi survival dan probability density function model regresi cox yang berhubungan dengan fungsi hazard Weibull;
4. Menentukan estimator parameter dari model regresi cox dengan fungsi ha- zard Weibull menggunakan metode estimasi maksimum likelihood.
3.2 Model Adaptive Regresi Spline
Model multivariate adaptive regression spline (MARS) merupakan metode regre- si multivariat nonparametric. Menurut Eubank, (1998), regresi non parametrik
20
UNIVERSITAS SUMATERA UTARA
21
merupakan pendekatan metode regresi dimana bentuk kurva dari fungsi regresi- nya tidak diketahui.
Langkah-langkah yang digunakan untuk menentukan model survival dengan pendekatan Model (MARS) adalah sebagai berikut:
a. Menentukan fungsi survival dan fungsi Hazard;
b. Menentukan estimasi parameter untuk fungsi baseline hazard dengan me- tode Maximum Likelihood Estimator (MLE);
c. Apabila solusi tidak menemukan penyelesaian, maka prosedur dilanjutkan dengan penggunaan dengan metode newton raphson.;
d. Menentukan model adaptive regresi spline dengan nilai GCV yang mini- mum;
e. Menentukan koefisien a pada model MARS dengan metode penealized least square.
3.3 Aplikasi Analisis Survival
Persoalan analisis survival ialah suatu persoalan yang berkaitan dengan waktu atau lama waktu hingga terjadi suatu peristiwa tertentu. Jadi persoalan sur- vival ialah persoalan yang datanya berupa waktu. Data yang digunakan dalam penelitian ini adalah data pasien kanker rahim (ovarium) (Collet, 1994).
UNIVERSITAS SUMATERA UTARA
BAB 4
MODEL COX HAZARD DAN MULTI ADAPTIVE REGRESSION SPLINE (MARS) DENGAN DISTRIBUSI WEIBULL
Pada bab ini akan dipaparkan langkah-langkah untuk mendapatkan model yang merupakan fokus pada penelitian ini. Adapun model-model yang akan dipa- parkan pada bab ini meliputi fungsi hazard, model regresi cox hazard, fungsi dasar hazard dengan distribusi weibull, model regresi cox hazard dengan dis- tribusi Weibull, fungsi survival dan regresi cox yang berhubungan dengan fungsi hazard Weibull, estimasi parameter dengan metode maksimum likelihood, esti- masi residual cox snell. Model Multi adaptive regression spline (MARS), metode newton raphson, metode penelized least square.
4.1 Fungsi Hazard
Kleinbaum dan Klein, (2005) fungsi hazard ialah fungsi awal dalam membentuk model cox.
Definisi 4.1 Fungsi hazard h(t) didefinisikan sebagai tingkat kematian sesaat suatu individu pada waktu t. Misalkan probabilitas variabel random T berada antara t dan t + δi dengan syarat T lebih besar atau sama dengan t, ditulis sebagai berikut:
P (t ≤ T < t + δi|T ≥ t) Maka fungsi hazard yang didapat adalah:
h (t) = lim
δt→0
P (t 6 T < t + δi|T > t) δt
= lim
δt→0
P (t 6 T < t + δi) P (T 6 t) δt
= lim
δt→0
P (T < t + δi− P (T < t)) P (T 6 t) δt
22
UNIVERSITAS SUMATERA UTARA
23
atau dapat juga ditulis sebagai berikut:
h(t) = limδt→0{F (t+σt)−F (t)
σt } 1
S(T )
h(t) = f (t)S(t)
(4.1)
Karena S(t) = 1 − F (T ), maka S0(t) = −f (t), sehingga diperoleh
S0(t)
S(t) = dtd{logS(t)}
−f (t)
S(t) = dtd{logS(t)}
h(t) = −d
dt{logS(t)}
S(t) = exp[−Rt
0 h(u)du]
(4.2)
dengan H(t) =Rt
0 h(u)du, t ≥ 0 disebut fungsi hazard kumulatif
4.2 Model Regresi Cox Hazard
Model regresi Cox merupakan model yang menggambarkan hubungan antara waktu survival sebagai variabel dependen dengan satu set variabel indepen- den. Model Cox merupakan model yang tidak memerlukan suatu distribusi yang mendasari waktu survival suatu kejadian atau peristiwa untuk membentuk dan mengestimasi parameter-parameter (Guo, 2009). Variabel independen ini bisa kontinu ataupun kategorik. Model Regresi Cox proportional Hazard untuk penga- matan ke-i dari n individu secara umum:
Ht(t) = exp(β1x1i+ β2x2i+ . . . + βpxpi)h0(t) Hi(t) = exp(β0xi)h0(t)
(4.3)
dengan x merupakan vektor px1 dari variabel bebas, x = (x1, x2, . . . , xp) dan β merupakan vektor px1 dari koefisien regresi. Sedangkan h0(t) merupakan fungsi hazard untuk individu yang mana semua nilai variabel bebasnya membuat vektor x sama dengan nol, dinamakan hazard dasar (baseline hazard function).
4.3 Model Regresi Cox dengan Hazard Dasar Weibull
Lee dan wang, (2003) formula model cox merupakan perkalian dari dua besaran yaitu besaran fungsi baseline hazard dan bentuk eksponensial untuk penjumlahan
UNIVERSITAS SUMATERA UTARA
24
linier dari β0xi yaitu penjumlahan dari p variabel independen X. Jika baseline hazardnya digunakan distribusi Weibull maka akan dinemukan bentuk model regresi cox proportional hazard dengan fungsi hazardnya menggunakan distribusi Weibull dengan langkah-langkah sebagai berikut:
4.3.1 Fungsi Hazard dengan Distribusi Weibull
Fungsi kepadatan peluang (fkp) dari distribusi Weibull dua parameter diformu- lasikan sebagai:
f (t; γ, θ) = γtγ−1
θγ exp{−(t
θ)γ}, t ≥ 0.γ ≥ 0, θ ≥ 0, (4.4) dengan:
t adalah waktu survival, 0 ≤ t < ∞ γ adalah parameter bentuk(shape), γ > 0 θ adalah parameter skala
jika θ−γ = λ maka persamaan (4.4) dari fungsi kepadatan peluang (fkp) dari waktu survival yang berdistribusi Weibull dengan dua parameter menjadi:
f (t) = λγtγ−1exp(−λtγ) (4.5) dengan: λ adalah parameter skala (scale); λ > 0 Berdasarkan fkp dalam per- samaan 4.5 diperoleh fungsi distribusi kumulatif Weibull adalah sebagai berikut:
F (t) = 1 − exp(−λtγ)
sehingga fungsi survival dapat dituliskan sebagai berikut:
maka diperoleh fungsi hazard Weibull:
h(t) = λγtγ−1
Jadi dengan diperolehnya fungsi hazard Weibull dapat dibentuk model regresi Cox dengan hazard dasar Weibullnya.
UNIVERSITAS SUMATERA UTARA
25
4.3.2 Model regresi Cox dengan hazard dasar Weibull
Dari persamaan (2.23) maka model regresi Cox Hazard untuk pengamatan ke−i dari n individu secara umum adalah:
h(t, X) = h0(t) exp(β1x1+ β2x2+ β3x3+ . . . + βpxp) h(, Xt) = exp(β0xi)h0(t)
Dengan h0(t) merupakan baseline hazard dari distribusi tertentu. Jika base- line hazard yang digunakan adalah fungsi hazard yang berdistribusi Weibull, sesuai dengan persamaan (4.2), maka akan diperoleh regresi Cox dengan hazard dasar Weibull sebagai berikut:
hi(t) = exp(β0xi)λγtγ−1 (4.6)
4.4 Fungsi Survival yang berhubungan dengan Fungsi Hazard Weibull
Dengan menggunakan persamaan (4.3) maka diperoleh fungsi survival yang ber- hubungan dengan hazard dasar Weibull sebagai berikut:
si(t) = exp(−λtγi exp(β0xi)) (4.7) Dari persamaan (4.2) dapat diperoleh model regresi Cox Proportional dengan Fungsi hazard Weibull sebagai berikut:
fi(t) = λγtγ−1i exp(β0xi) exp(−λtγi exp(β0xi)) (4.8)
4.5 Estimasi Parameter dengan Metode Maximum Likelihood (MLE)
Zeng dan Lin, (2007) pada model MARS dibutuhkan suatu metode yang dapat mengestimasi parameter-parameter yang terdapat pada model MARS itu sendiri.
Ada beberapa model untuk mengestimasi parameter salah satu metode yang sering digunakan adalah metode maximum likelihood. Adapun langkah-langkah dalam mengestimasi parameter menggunakan metode maximum likelihood.
UNIVERSITAS SUMATERA UTARA
26
4.6 Estimasi Parameter β, γ, λ
Friedman, (2016) fungsi likelihood pada kasus data survival adalah sebagai berikut:
L(θ|t) = n!
(n − r)!S(tr)n−r Yr i=1
f (ti) (4.9)
dimana t = (t1, t2, t3, . . . , tn)0 menyatakan waktu survival, r menyatakan jumlah kematian dan n menyatakan banyaknya data yang diamati. Fungsi likelihood untuk data survival dengan menggunakan fungsi hazard dasar Weibull. Diketahui fungsi survival yang berhubungan dengan hazard dasar Weibull adalah
sr(t) = exp(−λtγrexp(β0xr)),
dan diketahui Probability Density Function (PDF) Weibull proportional hazard adalah
fi(t) = λγtγ−1i exp(β0xi)(exp(−λtγi exp(β0xi)) Sehingga diperoleh fungsi likelihoodnya adalah sebagai berikut:
L(β0, λ, γ|t) = n!
(n − r)!(exp(−λtγrexp(β0xr))n−r{λrγr( Yr i=1
tγ−1i )
exp ( − λ(Σri=1tγi(exp(β0xi)))) exp (Σri=1β0xi)} (4.10)
Fungsi log likelihood
Fungsi likelihood yang telah diperoleh sehingga dapat dibentuk fungsi log likeli- hood sebagai berikut:
log L = log ( n!
(n − r)!) + log((exp(−λtγrexp(β0xr))n−r) + log(λr) + log(γr) + log (
Yr i=1
tγ−1i ) + log ( exp ( − λ(Σri=1[exp(β0xitγi]))) + log ( exp (Σri=1β0xi))
(4.11)
= log( n!
(n − r)!) + (−λtγrexp(β,xr)(n − r)) + r log λ
+r log γ + ((λ − 1)Σri=1log ti) − (λΣri=1[tλi] exp(β0xi)]) +(Σri=1β0xi.
(4.12)
UNIVERSITAS SUMATERA UTARA