Program Studi Statistika FMIPA Universitas Mulawarman 9
Interpretasi Parameter dalam Model Regresi Logistik untuk Variabel Bebas Dikotomus
Parameter Interpretation in Logistic Regression Models for Dicotomus Independent Variable
Darnah A. Nohe
Program Studi Statistika FMIPA Universitas Mulawarman
Abstract
Logistic regression is a specialized form of regression that is formulated to predict and explain a binary categorical variable rather than a metric dependent measure. Interpretation of coefficients in a logistic regression model relies on the ability of researchers to put meaning to the difference between the two logit, and these differences will directly connect to the definition and meaning of a unit change in independent variable. This paper present parameters interpretation in logistic regression models for dicotomus independent variable using odds ratio. Data will be presented in a 2x2 contingency table for ease of understanding. Logistic regression were applied to data of Malaria case.
Keywords: Binary, Dicotomus Independent Variable, Logistic Regression.
Pendahuluan
Setiap model dugaan yang terbentuk memerlukan interpretasi yang dapat menggambarkan inferensi praktis dari koefisien taksiran didalam model yang direlevansikan dengan tujuan yang ingin dicapai dalam suatu penelitian. Koefisien taksiran untuk variabel bebas menggambarkan slope atau tingkat perubahan dari fungsi variabel tak bebas per satuan unit perubahan di dalam variabel bebas. Jadi interpretasi ini akan menyangkut dua hal, yaitu: penentuan hubungan fungsional antara variabel tak bebas dan variabel bebas, serta pendefinisian satuan unit perubahan untuk variabel bebas.
Langkah pertama untuk menentukan bagaimana bentuk fungsi dari variabel tak bebas yang menghasilkan fungsi linier dari variabel-variabel bebas adalah dengan menggunakan fungsi penghubung (link function). Dalam model regresi logistik, fungsi penghubungnya adalah transformasi logit yang berbentuk g(x) = ln{(x)/[1 - (x)]} = 0 + 1x. (McCullagh dan Nelder, 1983).
Sedangkan model regresi linier adalah fungsi identitas karena variabel tak bebasnya linier dalam parameter-parameternya.
Untuk model regresi linier, diketahui bahwa koefisien slope, 1, adalah sama dengan
perbedaan antara nilai dari variabel tak bebas pada x + 1 dengan nilai dari variabel bebas pada x, untuk setiap nilai x. Untuk menggambarkan hal itu, kita misalkan y(x) = 0 + 1x dimana 1 = y(x + 1) - y(x).
Dalam hal ini, interpretasi dari koefisien ini adalah jelas yaitu menyatakan hasil perubahan dalam skala pengukuran dari variabel tak bebas untuk suatu unit perubahan dalam variabel bebas.
Dalam model regresi logistik maka 1 = g(x + 1) - g(x), yaitu koefisien slope yang
menggambarkan perubahan dalam logit untuk
perubahan dari satu unit di dalam variabel bebas x. Interpretasi yang tepat dari koefisien dalam model regresi logistik bergantung pada kemampuan untuk menempatkan makna dari perbedaaan antara dua buah logit. Pada makalah ini, hanya akan dibahas khusus untuk variabel-variabel bebas yang dikotomus dengan menyajikan data pada tabel kontingensi 2x2. Kasus yang digunakan adalah Pemberantasan Sarang Nyamuk (PSN).
Regresi Logistik
Regresi logistik digunakan jika variabel terikat bersifat kategorik (nominal atau ordinal) dengan variabel-variabel terikat kontinu maupun kategorik (Agresti, 1990). Variabel terikat Y yang bersifat random dan dikotomus, yakni bernilai 1 dengan probabilitas
π
dan bernilai 0 dengan probabilitas 1-π
, disebut sebagai point-binomial (Le, 1998).Untuk pengamatan ke-i dari sampel (i = 1,2,...,n), Yi adalah variabel Bernoulli dengan distribusi probabilitas (Le, 1998):
i
i i i y 1 i y i 1 πx x π y Y P ; yi = 0,1 dan n = jumlah sampel.Fungsi basis logistik adalah :
z e z f 1 1 ,
z
...(1) dimanaz
0
1x
. Untukz
maka ( )0 f z Lim z , sedangkan untukz
maka ( )1 f z Lim z . Dengan melihatkemungkinan nilai f
z yang berkisar antara 0 dan 1, menunjukkan bahwa regresi logistik sebenarnya menggambarkan probabilitas terjadinya suatu event.Analisis regresi logistik mengasumsikan bahwa hubungan antara
π
x
i danx
idapat dijelaskan oleh fungsi logistik pada persamaan (2) berikut (Le, 1998).
i ix
exp
1
1
x
π
1 0
, i = 1,2,...,n
i i i exp x x exp x exp 1 1 1 0 1 0 1 0
i
ix
exp
1
x
exp
1 0 1 0
...(2)Secara umum, model regresi logistik yang dinyatakan sebagai fungsi x adalah (Hosmer and Lemeshow, 1989)
)
x
exp(
1
)
x
exp(
)
x
(
π
1 0 1 0
...(3)Untuk mempermudah penaksiran parameter regresi, maka digunakan transformasi logit terhadap
π
(
x
)
sehingga menjadi bentuk logit seperti pada persamaan (4) berikut:)
x
exp(
1
)
x
exp(
)
x
(
π
1 0 1 0
π
(
x
)
1
exp(
0
1x
)
=exp(
0
1x
)
π
(
x
)
π
(
x
)
exp(
0
1x
)
=exp(
0
1x
)
)
x
(
π
=exp(
0
1x
)
-π
(
x
)
exp(
0
1x
)
)
x
(
π
=
1π(x)
exp(
0
1x) ) x ( π 1 ) x ( π =exp(
0
1x
)
π(x) 1 ) x ( π ln = ln{exp(
0
1x
)}
π(x) 1 ) x ( π ln =
0
1x
g(x) =
0
1x
...(4) Estimasi parameterDiasumsikan sebuah sampel berukuran n dan terdiri atas pengamatan independen berpasangan (xi, yi), i = 1,2,...,n, dengan yi menyatakan nilai variabel terikat dan xi adalah nilai variabel bebas untuk subjek ke-i. Pada regresi linier, metode penaksiran parameter yang lazim digunakan adalah least squares, dengan konsep meminimumkan jumlah kuadrat residual. Jika asumsi IIDN terpenuhi, maka metode ini akan menghasilkan estimator yang dapat dianggap valid. Namun, jika diaplikasikan pada model dengan variabel terikat dikotomus, maka estimator yang dihasilkan akan bersifat bias (Hosmer and Lemeshow, 1989).
Metode estimasi yang mengarah pada fungsi least squares dalam model regresi linier (jika residual berdistribusi normal) disebut maximum likelihood (Hosmer and Lemeshow, 1989). Jika parameter pada model regresi logistik dinotasikan sebagai berikut:
k 1 0
...
β
maka pada dasarnya metode maximum likelihood mengestimasi nilai
β
dengan memaksimumkan fungsi Likelihood (Hosmer and Lemeshow, 1989).Fungsi distribusi probabilitas untuk setiap pasangan (xi, yi), adalah (Hosmer and Lemeshow, 1989)
i
i i if
x
i
π
x
y1
π
x
1y ...(5) dimana,
k 0 k 0 x exp 1 x exp ) π(x j ij j j ij j i
Karena antar pengamatan diasumsikan independen, maka fungsi likelihood merupakan perkalian dari masing-masing fungsi distribusi probabilitas pada persamaan (5) (Hosmer and Lemeshow, 1989).
β
l
i
i i i i i if
y 1 y n 1 n 1x
π
1
x
π
x
=
i i i i i i y n 1 n 11
π
x
x
π
ln
exp
x
π
1
=
i i i i i i 1 πx x π ln y exp x π 1 n 1 n 1 ...(6)Untuk model pada persamaan (6), logit ke-i adalah
k 0 x j ij j
, sehingga suku eksponensial terakhir menjadi:
n 1 k 0 n 1x
y
exp
x
π
1
x
π
ln
y
exp
i j ij j i i i i i
k 0 n 1 x y exp j j i ij i
Selain itu, untuk suku pertama berlaku
k 1 0 n 1 n 1 ix
exp
1
x
π
1
j ij j i i
Program Studi Statistika FMIPA Universitas Mulawarman 11 Secara matematis, lebih mudah untuk
memaksimumkan ln
l
β
atau disebut juga ln likelihood yang dinotasikan sebagaiL
( β
)
(Agresti, 1990).
β
l
β
L
ln
n 1 k 0 k 0 n 1x
exp
1
ln
x
y
i j ij j j j i ij i
Maksimum ln likelihood dapat diperoleh dengan cara men-differensialkan
L
( β
)
terhadapβ
dan menyamakannya dengan nol (Agresti, 1990).
k 0 k 0 n 1 n 1x
exp
1
x
exp
x
x
y
j ij j j ij j i ia ia i i aL
β
n 1 n 1x
x
π
x
y
0
i ia i i ia iˆ
; a = 0, 1, …, k ...(7) dimana,
k 0 k 0x
exp
1
x
exp
x
π
j ij j j ij j i
ˆ
ˆ
ˆ
menyatakan estimasi dari
π
x
i dengan menggunakan metode maximum likelihood.Dari hasil penurunan pertama pada persamaan (7), nilai
β
diestimasi dengan metode numerik karena persamaannya ber-sifat nonlinier. Sedangkan metode untuk mengestimasi varians dan kovarians dari taksiranβ
dikembangkan menurut teori MLE (Maximum Likelihood Estimator) yang menyatakan bahwa estimasi varians dan kovarians diperoleh dari turunan kedua fungsi ln Likelihood (Agresti, 1990).Turunan kedua dari fungsi ln likelihood yaitu:
i i i ia aL
x
π
1
x
π
x
n 1 2 2 2
β
n 1 k 0 k 0 2x
exp
1
x
exp
x
x
i j ij j j ij j ib ia b aL
β
=
nx
x
π
x
π
x
11
i i i i ib ia ; dimana a, b = 0, 1,…,kSehingga diperoleh matriks varians-kovarians dari estimasi parameter melalui invers matriks (Agresti, 1990),
1 ))] (x πˆ 1 )( (x πˆ [ Diag βˆ ov Cˆ xT i i x …(8) Dengan
k 1 k 2 21 k 1 11x
x
1
x
x
1
x
x
1
n n...
...
...
...
...
...
x
))] (x πˆ 1 )( (x πˆ Diag[ i i merupakan n x n matriks diagonal dengan elemen diagonal utama))] (x πˆ 1 )( (x πˆ
[ i i . Akar kuadrat dari elemen-elemen diagonal utama adalah estimasi standar eror dari taksiran parameter model (Agresti, 1990). Dimana untuk mendapatkan nilai taksiran
β
dari penyelesaian turunan pertama fungsi ln likelihood yang non linier digunakan metode iterasi Newton-Raphson (Agresti, 1990).Metodologi Penelitian
Penelitian ini menggunakan studi literatur dan contoh kasus menggunakan data hasil penelitian Wijiati (2011) dengan Kejadian Malaria sebagai variabel terikat, dan Kebiasaan di Luar Rumah sebagai variabel bebas.
Hasil dan Pembahasan
Pada variabel bebas yang berbentuk dikotomus atau biner, kita asumsikan bahwa x diberi kode 1 atau 0. Di bawah model tersebut, maka akan terdapat dua buah nilai (x) dan dua buah nilai 1 - (x). Nilai-nilai tersebut secara jelas dapat dijelaskan dalam tabel 2x2 sebagaimana ditunjukkan pada Tabel 1.
Tabel 1. Nilai-nilai Model Logistik Untuk Variabel Bebas Dikotomus Variabel Bebas x = 1 x = 0 Variabel Respon y = 1 1 0 1 0
1
) 1 (
e
e
0 01
) 0 ( e
e
y = 0 1 01
1
) 1 ( 1
e
1
01
) 0 ( 1 e
Total 1 1Odds dari variabel terikat yang muncul diantara data pengamatan dengan x = 1
didefinisikan sebagai (1)/[1 - (1)]. Demikian juga halnya, odds dari variable terikat yang muncul diantara data pengamatan dengan x = 0 didefinisikan sebagai (0)/[1 - (0)]. Logaritma dari odds disebut sebagai logit, dalam hal ini adalah:
g(1) = ln {(1)/[1 - (1)]} dan
g(0) = ln {(0)/[1 - (0)]} Odds rasio, yang dinotasikan oleh , didefinisikan sebagai rasio dari odss untuk untuk x = 1 terhadap x = 0 yang diberikan dalam persamaan berikut:
)] 0 ( 1 /[ ) 0 ( )] 1 ( 1 /[ ) 1 ( ... (13)
Logaritma dari odds rasio (kadang-kadang disebut juga sebagai log-odds rasio atau log-odds) adalah:
)] 0 ( 1 /[ ) 0 ( )] 1 ( 1 /[ ) 1 ( ln ) ln( = g(1) - g(0)Selanjutnya, dengan menggunakan bentuk model regresi logistik yang ditunjukkan dalam Tabel 1, maka odds rasionya adalah:
e
e
e
e
e
e
0 1 0 1 0 0 0 0 11
1
1
1
1
1
e
e
e
0 1 0 1 ... (14)dan perbedaan logit atau log-oddsnya adalah ln() =
ln e
1 = 1.
Kenyataan tersebut yang berkenaan dengan interpretabilitas koefisien merupakan alasan yang sangat mendasar mengapa regresi logistik mempunyai kemampuan alat analitis yang kuasa untuk penelitian-penelitian di bidang epidemiologi.
Sejalan dengan penaksiran titik parameter, maka penaksir interval kepercayaan juga dapat digunakan untuk memberikan informasi tambahan. Odds rasio, , biasanya merupakan parameter yang banyak diamati dalam regresi logistik karena kemudahannya dalam menginterpretasikannya. Akan tetapi, penaksir ˆ akan cenderung mempunyai distribusi yang kemiringan tertentu. Kemiringan distribusi sampling ˆ disebabkan oleh kenyataannya bahwa penaksir tersebut dibatasi oleh nol.
Secara teori, untuk ukuran sampel yang cukup besar, maka distribusi dari ˆ akan normal. Tentu saja, syarat-syarat tentang ukuran sampel ini dalam kebanyakan penelitian selalu menjadi kendala. Sehingga, inferensi yang biasa dilakukan adalah berdasarkan pada distribusi dari ln{ˆ) =
1 ˆ
, yang cenderung untuk mengikuti distribusi normal untuk ukuran sampel yang relatif lebih kecil.
Penaksir untuk interval kepercayaan 100(1-)% bagi odds rasio diperoleh melalui perhitungan titik akhir dari interval kepercayaan untuk koefisien 1, kemudian dibuat harga
eksponennya. Secara umum, dapat juga ditulis sebagai berikut: )] 1 ˆ ( 2 / 1 1 ˆ exp[ z SE
Penaksir odds rasio untuk setiap variabel bebas pada dua level yang berbeda, katakan x = a dan x = b, adalah perbedaan antara penaksir logit yang dihitung pada kedua nilai tersebut. (Kleibaum, 1994). Persamaan yang menyatakan perhitungan tersebut adalah sebagai berikut:
ˆ( , )
ˆ( ) ˆ( ) ln a b g xa g xb=
ˆ0ˆ1a
ˆ0ˆ1b
=
(
1a
b
)
... (15) dan penaksir odds rasionya adalah:
ˆ1( )
exp ) , ( ˆ a b ab ... (16)Bentuk di atas akan sama dengan exp(ˆ1) hanya jika (a - b) =1. Dalam persamaan (15) dan (16), notasi
(a,b) digunakan untuk menggambarkan odds rasio dalam bentuk: ( , )
(
) / [
(
)]
(
) / [
(
)]
a b
x
a
x
a
x
b
x
b
1
1
... (17)dan jika a = 1 dan b = 0, maka dapat ditentukan
=
(1,0).Suatu contoh kasus untuk interpretasi parameter dalam regresi logistik untuk variabel bebas dikotomus akan disajikan dalam tabel 2x2. Di sini akan diamati tentang ada tidaknya suatu penyakit, yaitu kejadian malaria, dengan variabel bebasnya adalah kebiasaan di luar rumah, dimana untuk responden yang menjawab Ya diberi kode 0 dan Tidak diberi kode 1, seperti yang ditunjukkan dalam Tabel 2.
Program Studi Statistika FMIPA Universitas Mulawarman 13 Tabel 2. Data Tentang Kejadian Malaria dan
Kebiasaan di Luar Untuk 80 data Kejadian Malaria (y) Berada Diluar Rumah(x) Total Ya Tidak Ya 26 15 41 Tidak 14 25 39 Total 40 40 80
Data pada Tabel 2 menggambarkan bahwa terdapat 26 subyek dengan nilai (x=1, y=1), 15 subyek dengan (x=0, y=1), 14 subyek dengan (x=0, y=0), dan 25 subyek dengan (x=0, y=0).
Sedangkan hasil estimasi parameter model regresi logistik disajikan pada Tabel 3 berikut:
Tabel 3. Hasil Perhitungan Pendugaan Model Regresi Logistik Variabel Penaksir koefisien Galat Baku Kebiasaan diluar rumah 1.130 0.465 3.095 Konstanta -1.680 0.729
Besaran merupakan penaksir kemungkinan maksimum dari odds rasio, = e1.130 = 3.095. Jika dihitung secara langsung akan diperoleh nilai yang sama seperti ditunjukkan sebagai berikut:
095 . 3 25 / 15 14 / 26 ˆ
Artinya, resiko terjadinya penyakit malaria pada seseorang yang mempunyai kebiasaan diluar rumah adalah 3.095 kali dibandingkan yang tidak mempunyai kebiasaan diluar rumah.
Penaksir koefisien dapat dihitung secara langsung, yaitu:
= ln[(26/14)/(15/25)] = 1.130.Interval kepercayaan 95% untuk data di atas adalah: exp(1.130 1.96 x 0.465) = (2.184;4.006).
Nilai batas bawah interval kepercayaan lebih besar dari 1 sehingga memperkuat dugaan bahwa Berada di Luar Rumah merupakan faktor resiko terhadap terjadinya Penyakit Malaria.
Kesimpulan
Berdasarkan hasil dan pembahasan tersebut, maka dapat disimpulkan bahwa interpretasi parameter dalam model regresi logistik untuk variabel bebas dikotomus dapat dilihat dari koefisien regresi logistik dengan menentukan nilai odds rasio. Hal ini dapat memberikan suatu landasan bagi interpretasi dari semua hasil-hasil yang diperoleh melalui analisis regresi logistik.
Daftar Pustaka
Agresti, A. (1990). Categorical Data Analysis. New York: John Wiley and Sons.
Ali, M. (2006). Psikologi Remaja : PT Bumi Aksara. Jakarta.
Hosmer, D.W. and S. Lemeshow (1989). Applied Logistic Regression. New York: John Wiley and Sons.
Le, C. T. (1998). Applied Categorical Data Analysis. John Wiley and Sons, Inc. USA. Nursiah. (2010). Hubungan Antara Pengetahuan
Dan Pendidikan Kesehatan Reproduksi Dengan Perilaku Seksual Pada Siswa Sma Kesatuan 1 Samarinda Tahun 2010, Skripsi. UWGM
Notoatmodjo, S. (2003). Pendidikan Dan Perilaku Kesehatan. Jakarta: PT. Rineka Cipta.