• Tidak ada hasil yang ditemukan

Regresi Logistik

Dalam dokumen BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411) (Halaman 46-51)

5.3 Regresi Logistik

Pada Bagian 3.3 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2 × 2 ini baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua je-nis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanya mempunyai lebih dari satu variabel penjelas atau faktorX. Untuk data penelitian semacam ini dapat digunakan regresi logistik.

5.3.1 Model dan Estimasi Parameter

MisalkanYi adalah variabel random Bernoulli untuk individui, distribusi proba-bilitasYI adalah

P (Yi = yi) = πyi

i (1 − πi)1−yi

, yi = 0, 1 (5.1)

Setiap individui mempunyai karakteristik berupa variabel xiyang mempengaruhi πi dalam bentuk

πi = 1

1 + exp(−(β0+ β1xi)) (5.2)

Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk vari-abel independen atau faktor yang lebih dari satu, fungsi untukπi dapat diperluas menjadi

πi = 1

1 + e−Z , atau πi = e

Z

1 + eZ (5.3)

dengan Z = β0 + β1x1 + β1x1 + · · · + βp adalah fungsi linear dari p variabel penjelas.

Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel indepen-den seperti halnya pada model linear sebagai berikut

log πi

1 − πi = β0+ β1x1i+ β2x2i+ · · · + βpxpi (5.4) atau

logit(πi) = β0+ β1x1i+ β2x2i+ · · · + βpxpi (5.5) dengan x1i, x2i, . . . , xpi adalah variabel independen, faktor atau kovariat; dan β0, β1, . . . , βp adalah parameter model.

5.3. Regresi Logistik 44

Estimasi untuk β = (β0, β1, . . . , βp) dapat diperoleh dengan MLE untuk fungsi likelihood berikut ini

L(β) = n Y i=1 P (Yi = yi) = [exp(β0+ β1x1i+ β2x2i+ · · · + βpi)] yi 1 + exp(β0+ β1x1i+ β2x2i+ · · · + βpi) (5.6) Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk estimasi ˆβ dan kesalahan standarnya SE( ˆβ).

5.3.2 Interpretasi Parameter Model

Untuk model regresi logistik sederhana

logit(πi) = β0+ β1xi (5.7) dengan xi = ( 0 i tdk terpapar 1 i terpapar dapat dituliskan log  πi 1 − πi  = β0+ β1xi πi 1 − πi = exp [β0+ β1xi] atau oddsxi = exp [β0+ β1xi] ,

yang diinterpretasikan sebagai odds seseorang yang mempunyai karakteristik xi. Untuk orang yang terpapar (exposed), nilaixi = 1 dan odds-nya ditulis sebagai

oddsxi=1. Demikian juga untuk orang yang tidak terpapar, odds-nya ditulis seba-gai oddsxi=0.

Sehingga odds ratio antara orang yang terpapar (xi = 1) dengan yang tidak terpapar (xi = 0) adalah OR = oddsxi=1 oddsxi=0 = e β0+β1×1 eβ0+β1×0 = e β0+β1 eβ0 = eβ1 . (5.8)

5.3. Regresi Logistik 45

Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik sederhana adalah OR. Jika variabel X kontinu, kenaikan m-unit untuk satu vari-abel penjelasX, misalnya X = x + m dibandingkan dengan X = x mempunyai

OR sama denganexp(mβ1).

Estimasi titik dan interval konfidensi (1 − α)100% untuk OR dapat dihitung asalkan estimasi ˆβ1dan standar error-nyaˆσ( ˆβ1) diperoleh.

c

OR= exp( ˆβ1) (5.9)

exp( ˆβ1± Zα/2σ( ˆˆ β1)) (5.10) Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan vari-abel penjelas bertipe kontinu maupun kategori. Secara umum OR antara individu atau kelompok yang mempunyai karakteristik x1 dengan individu atau kelompok yang mempunyai karakteristik x0adalah sebagai berikut:

OR = oddsx1) oddsx0) = exp(β0+ β1x11+ β2x12+ . . . + βpx1p) exp(β0+ β1x01+ β2x02+ . . . + βpx0p) = exp ( p X j=1 βj(x1j − x0j) ) . (5.11)

Untuk menyederhanakan penulisan, indeks i yang biasa digunakan untuk me-nunjukkan suatu individu dihilangkan. Karakteristik x1 adalah vektor yang bernilai (x11, x12, . . . , x1p) dan karakteristik x0 adalah vektor yang bernilai (x01, x02, . . . , x0p).

Untuk menghitung interval konfidensi(1 − α)100% OR diperlukan nilai

stan-dard error darilog( cOR) yang mempunyai bentuk umum

SE[log( cOR)] = v u u tVar ( p X j=1 βj(x1j − x0j) ) . (5.12)

Sehingga interval konfidensi 95% nya adalah exp

log( cOR) ± 1,96 × SE[log( cOR)]

(5.13) Bentuk umum di atas dapat juga digunakan untuk menyusun interval kon-fidensi suatu model regresi logistik yang memuat interaksi. Dalam Bagian 4.4 telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang

5.3. Regresi Logistik 46

dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terli-bat dalam model interaksi. Dengan menggunakan model regresi, termasuk model regresi logistik, masalah tersebut dapat diatasi.

Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X1, X2, X3. Model yang menjadi perhatian adalah

logit(π) = β0+ β1X1+ β2X1+ β3X3 (5.14) dengan X1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabel yang menjadi perhatian, X2 danX3 dianggap sebagai confounder. VariabelX2

danX3dapat bertipe kontinu maupun kategori, misalX2adalah usia dalam tahun, dan X3 adalah jenis kelamin denganX3 = 0 jika perempuan, X3 = 1 jika laki-laki. VariabelX1 kemungkinan berinteraksi dengan salah satuX2 atauX3.

Misal ingin dihitung OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalam hal ini nilai x1 = (X11 = 1, X12 = 40, X13 = 1) dan x0 = (X01 = 0, X02 = 40, X03 = 1). Menggunakan (5.11) OR x1 terhadap x0 adalah:

OR = exp ( 3 X j=1 βj(X1j− X0j) ) = exp {β1(X11− X01) + β2(X12− X02) + β3(X13− X03)} = exp {β1(1 − 0) + β2(40 − 40) + β3(1 − 1)} = exp {β1} (5.15)

Meskipun rumusan OR yang diperoleh pada regresi logistik ganda (5.15) sama de-ngan yang diperoleh pada regresi logistik sederhana (5.8) namun nilainya berbe-da. Dalam (5.15) nilai OR dikatakan sudah diselaraskan (adjusted, controlled) dengan variabelX2 danX3 sedangkan pada (5.8) tidak diselaraskan, perhitungan hanya dari variabel utama X1 saja. Interval konfidensi 95% dapat menggunakan

standard error untuklog(OR) atau SE( ˆβ1), yaitu exp(log(OR) ± 1,96 × ˆσ( ˆβ1)). Misalkan model yang menjadi perhatian sekarang adalah model dengan inter-aksi

logit(π) = β0+ β1X1+ β2X1+ β3X3 + β4X1X2 + β5X1X3. (5.16) Rumusan OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi:

OR = exp ( 3 X j=1 βj(X1j − X0j) ) = exp{β1(X11− X01) + β2(X12− X02) + β3(X13− X03) + β4(X11X12− X01X02) + β4(X11X13− X01X03)}

5.3. Regresi Logistik 47 = exp{β1(1 − 0) + β2(40 − 40) + β3(1 − 1) +

β4(1 × 40 − 0 × 40) + β5(1 × 1 − 0 × 1)}

= exp{β1+ 40β4+ β5} (5.17)

Estimasi OR untuk model regresi logistik dengan interaksi ini tidak sama dengan

OR untuk model regresi logistik tanpa interaksi. Estimasi standard errorlog(OR) juga berbeda dan lebih rumit.

Var[log(OR)] = Var (β1+ 40β4+ β5)

= Var(β1) + 402Var(β4) + Var(β5) + 2(40)Kov(β1, β4) +

2Kov(β1, β5), (5.18)

jadi SE[log(OR)] = p

Var[log(OR)] memerlukan nilai Variansi estimator β1, β4, β5 dan Kovariannya.

Program statistik standar biasanya mampu menghitung ˆβ maupun Kov( ˆβ) yang diperlukan untuk interval konfidensi. Beberapa program sudah dilengkapi pula dengan output batas interval konfidensi untuk OR-nya.

Contoh 5.1

Merujuk data pada Tabel 3.4 tentang hubungan antara penyakit jantung koroner dengan tekanan pekerjaan, telah dihitung estimasi untukRR, OR dan RD sebagai berikut:

Estimasi titik Interval Konfidensi 95%

Risk ratio (RR) 1,932 1,555 — 2,399

Odds ratio (RR) 2,225 1,696 — 2,922

Risk difference (RD) 0,116 0,071 — 0,161

Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik seder-hana logit(πi) = β0 + β1xi, i = 1, . . . , 2013 (ada 97 + 307 + 200 + 1409 = 2013

subyek dalam studi tersebut). Variabel responYi bernilai 1 jika i terkena penyakit

jan-tung koroner, bernilai 0 jika tidak; variabel dependen (faktor)Xibernilai 1 jikai tertekan

karena pekerjaan, bernilai 0 jika tidak. Estimasiβ0danβ1dapat dilakukan dengan meng-gunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimal menampilkan hasil estimasiβ dan standard error nya. Untuk data di atas diperoleh hasil

sebagai berikut:

Estimasi titik standard error

Insersep βˆ0 = −1,952 σ( ˆˆ β0) = 0,0756

Tertekan karena pekerjaan βˆ1 = 0,800 σ( ˆˆ β1) = 0,1388

Untuk menghitungRR antara subyek atau kelompok yang tertekan karena pekerjaan

de-ngan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasiπidari model logistiklogit(πi) = −1,952 + 0,800xi.

Dalam dokumen BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411) (Halaman 46-51)

Dokumen terkait