C. Metode Analisis Data
3. Analisis Deskriptif
Analisis deskriptif merupakan suatu model analisis statistik sederhana
dengan cara membaca grafik atau tabel yang telah disusun. Analisis ini biasa
dilakukan dalam bentuk tabel kontingensi, tanpa mengaitkan dengan aspek
lain di luar tabel atau grafik yang telah disusun. Dalam analisis deskriptif
digunakan tabulasi silang yang menampilkan persentase sebagai dasar untuk
melihat hubungan antar variabel (Singarimbun, 1995).
4. Analisis Regresi Logistik a. Model Regresi Logistik
Analisis regresi logistik adalah metode regresi yang menggambarkan
hubungan antara beberapa variabel bebas (explanatory) dengan sebuah
variabel terikat dikotomus atau biner. Variabel terikat (Y) pada metode regresi
logistik dikatakan biner karena terdiri atas dua kategori yaitu 0 dan 1. Analisis
(probabilitas kejadian yang diakibatkan oleh xi). Berapapun nilai x bila
disubtitusikan ke dalam fungsi logistik hasilnya akan berkisar antara 0 dan 1.
Ciri data yang menggunakan analisis regresi logistik adalah :
a. Tidak memiliki asumsi normalitas atas variabel bebas yang digunakan
dalam model.
b. Ragam galat tidak homogen.
c. Variabel bebas dapat bersifat kontinu, diskrit dan dikotomi.
d. Distribusi variabel tak bebas diharapkan nonlinear
(Kuncoro, 2007).
Regresi logistik digunakan untuk analisis data terikat kategorik
(nominal/ordinal) dengan variabel-variabel bebas kontinu atau kategorik
(Agresti, 1990). Berdasarkan jumlah kategori respon, regresi logistik dapat
dibedakan menjadi dua, yaitu regresi logistik dikotomus dan polikotomus.
Pada kasus-kasus penelitian dengan tujuan untuk mengetahui hubungan antara
suatu peubah dengan peubah penyebab dimana peubah terikatnya berupa data
kategorik, maka analisis regresi linear standar tidak bisa dilakukan, oleh
karena itu salah satu pendekatan yang dapat dilakukan adalah regresi logistik.
Model persamaan regresi logistik digunakan untuk dapat menjelaskan
hubungan antara X dan π (x) yang bersifat tidak linear, ketidaknormalan
sebaran dari Y, keragaman terikat yang tidak konstan dan tidak dapat
dijelaskan oleh model regresi linear biasa (Agresti, 1990). Metode regresi
logistik adalah suatu metode analisis statistika yang mendeskripsikan
satu atau lebih peubah bebas berskala kategori atau interval (Hosmer dan
Lemeshow,1989).
Jika data hasil pengamatan memiliki p peubah bebas yaitu x 1, x 2,...,xp
dengan peubah terikat Y, dengan Y mempunyai dua kemungkinan nilai 0 dan
1, Y = 1 menyatakan bahwa terikat memiliki kriteria yang ditentukan dan
sebaliknya Y = 0 tidak memiliki kriteria, maka peubah respon Y mengikuti
sebaran Bernoulli dengan parameter π (xi) sehingga fungsi sebaran peluang :
( ) = [π ( ) ] [1 − π( )] , = 0, 1 (3)
Distribusi dari variabel terikat ini merupakan pembeda antara regresi
logistik dengan regresi linier. Pada regresi linier variabel terikatnya
diasumsikan berdistribusi normal, sedangkan untuk variabel terikat pada
regresi logistik bersifat kategorikal. Adapun fungsi logistik adalah sebagai
berikut:
( ) = , - ∞ < x < ∞ (4)
Untuk x = - ∞ maka lim → ( ) = 0 sedangkan untuk x = ∞ maka lim → ( ) = 1. Dengan melihat kemungkinan nilai f(x) yang berkisar
antara 0 dan 1, ini menunjukkan bahwa regresi logistik sebenarnya
menggambarkan probabilitas terjadinya suatu kejadian.
Nilai x dalam hal ini bisa dianggap sebagai kombinasi dari berbagai
penyebab timbulnya suatu kejadian dan efek x dapat minimal dengan
rendahnya nilai x samapai batas tertentu, kemudian pengaruhnya akan
Untuk mempermudah maka digunakan notasi π( ) = ( | ) untuk
menyatakan rata-rata bersyarat dari y jika diberikan nilai x.
Bentuk model regresi logistik adalah (Agresti, 1990: 166):
π( ) = ( )
( ) (5)
Untuk mempermudah menaksir parameter regresi, maka π( ) pada
persamaan (5) ditransformasikan dengan menggunakan transformasi logit.
Uraian transformasi tersebut adalah sebagai berikut:
π( ) = ( + ) 1 + ( + ) { ( )}{1 + ( + )} = ( + ) { ( )} + { ( ) ( + )} = ( + ) ( ) = ( + ) − ( ) ( + ) ( ) = {1 − ( )} ( + ) ( ) 1 − ( )= ( + ) ( ) ( ) = ln { ( + )} ( ) 1 − ( ) = + ( ) = +
( ) di atas merupakan bentuk logit. Sedangkan model regresi logistik dengan k variabel prediktor adalah:
π( ) = ( + + ⋯ + )
Jika model ditransformasikan dengan transformasi logit, maka menghasilkan
bentuk logit:
( ) = + + ⋯ +
merupakan penduga logit yang berperan sebagai fungsi linear dari peubah
penjelas. Karena fungsi penghubung yang digunakan adalah fungsi
penghubung logit maka sebaran peluang yang digunakan disebut sebaran
logistik (McCullagh dan Nelder, 1989).
b. Penaksiran Parameter
Metode yang digunakan untuk mengestimasi parameter regresi logistik
adalah MLE (Maxsimum Likelihood Estimator). Fungsi likelihood
menjelaskan peluang data pengamatan sebagai fungsi parameter yang belum
diketahui, sehingga sebelum menduga parameter logistik kita ketahui dulu
fungsi likelihood.
Menurut Hosmer (1989: 8), jika Y dikotomus memiliki dua
kemungkinan 0 atau 1, maka ekspresi P(x) dari persamaan (7) menghasilkan Y
dengan syarat X. Jika Y=1 dinyatakan dengan P(Y = 1|x) dan Y = 0
dinyatakan dengan P(Y = 0| x) = 1 - P(X=x). Sehingga untuk pasangan
( , ), dimana menurut fungsi likelihood = 1 kontribusinya P( ) dan =
0 kontribusinya 1- P( ). Dimana P( ) menyatakan nilai P(X=x) yang
dihitung saat x = .
Sehingga fungsi likelihood untuk ( , ) dinyatakan dengan rumus :
Fungsi likelihood sebagai fungsi log disebut fungsi log likelihood.
Fungsi likelihood untuk regresi logistik dinyatakan sebagai berikut :
L ( ) = ln [( )] = ln {P( ) (1- P( ) ) } = ln{[P( ) (1-P( ) ) ]. [ln {P( ) (1- P( ) ) ] … [ln{P( ) (1-P( ) ]} L ( ) = { ln P( ) + (1- ) ln (1-P( )} + ….+ { ln P( ) + (1- ) ln (1- P( )} L ( ) = ∑ { ln P( ) + (1− ) ln [1-P( )]}
Jadi, fungsi likelihood pada regresi logistik adalah :
L( ) = ∑ { ln P( ) + (1 - ) ln [1 - P( )]} (6)
Pada dasarnya maksimum likelihood adalah nilai penduga parameter
dengan memaksimumkan fungsi log likelihood. Dengan mendifferensialkan
bentuk log likelihood terhadap , , … , dan menyamakan dengan nol,
sehingga diperoleh:
( )
= 0 ; i= 0,1,…,k
L(β) = ∑ [ ( ) + (1 − ) (1 − ( ))] = 0
Didapat persamaan penduga parameter regresi logistik sebagai berikut:
( )
dan
( )
= ∑ [
- P( )] = 0 ; i= 1,2,…,k (8)(Hosmer,1989:27)
Metode maximum likelihood adalah suatu metode untuk mengestimasi
parameter pada suatu persamaan dengan memaksimumkan nilai (β) atau
disebut dengan conditional log-likelihood function yang berasal dari
probabilitas persamaan regresi logistik yang akan diestimasinya. Untuk
mencari conditional log-likelihood yang maksimum pada maximum likelihood
dapat menggunaka metode Newton Raphson.
Metode Newton Raphson adalah metode untuk menemukan akar dari
persamaan dengan asumsi f(x) = 0. Bentuk persamaan dari metode Newton
Raphson untuk menentukan maximum likelihood yang berasal dari turunan
pertama dan turunan kedua dari conditional log-likelihood. Turunan kedua
dari conditional log-likelihood sebagai berikut:
( )
= − ∑ ( )[ − ( )] (9)
( )
= − ∑ ( )[ − ( )] (10)
Untuk mendapatkan nilai estimasi parameter yang optimal adalah:
Iterasi akan berhenti apabila nilai = , jika nilai ≠ maka
iterasi dilanjutkan dan kembali ke persamaan (11). Diman t = tahapan iterasi,
X merupakan matriks berukuran (nxk) berisi data masing-masing individu
pengamatan dan V matriks diagonal berukuran (nxn) yang nilai umumnya
diagonal ke-i nya adalah ( )(1 − ( ).
Sedangkan nilai varian ( ) adalah unsur diagonal ke-j dari matrik
invers ( ) =( X' VX).
c. Pengujian Signifikansi Parameter
Setelah menaksir parameter maka langkah selanjutnya adalah menguji
signifikansi parameter tersebut. Untuk itu digunakan uji hipotesis statistik
untuk menentukan apakah variabel bebas dalam model signifikan atau
berpengaruh nyata terhadap variabel terikat. Pengujian signifikansi parameter
dilakukan sebagai berikut:
1) Uji Parsial
Digunakan untuk menguji pengaruh setiap β, secara individual.
Hasil pengujian secara parsial/ indivisual akan menunjukkan apakah suatu
variabel bebas layak untuk masuk dalam model atau tidak (Agresti, 1990).
Hipotesis:
: = 0, untuk j = 1,2,… k (peubah Xj tidak berpengaruh nyata)
: ≠ 0 (peubah Xj berpengaruh nyata)
Statistik uji: ( ) = (
( )) (12)
Dimana :
= penduga parameter
= standar error dari penduga parameter
Rasio yang dihasilkan dari statistik uji, dibawah hipotesis akan
mengikuti sebaran normal baku (Hosmer dan Lemeshow, 1989:17).
Sehingga untuk memperoleh keputusan dilakukan perbandingan dengan
distribusi normal baku (Z). Kriteria penolakan (tolak ) jika W > /
atau nilai signifikansi kurang dari α.
2) Uji Serentak
Uji serentak disebut juga uji model chi-Square, dilakukan sebagai
upaya memeriksa peranan variabel bebas dalam model secara
bersama-sama.
Hipotesis:
= = = ⋯ = = 0
= paling sedikit ada satu ≠ 0, untuk j = 1,2,3,… k.
Statistik uji yang digunakan adalah statistik uji G atau likelihood Ratio
Test:
= −2 ; = −2
∏ ( ) (13)
dengan :
: banyak yang bernilai 0 : banyak yang bernilai 1 : banyak
Statistik uji ini mengikuti distribusi dengan derajat bebasnya
adalah k (banyaknya variabel bebas). Dengan kriteria pengujian, Jika nilai
signifikansi lebih kecil dari taraf nyata yang digunakan maka tolak ,
atau > , atau nilai signifikansi kurang dari α, maka tolak yang
berarti pada model regresi terdapat sekurang-kurangnya satu penduga
parameter yang tidak sama dengan nol. Dengan kata lain model ini boleh
disarankan, tapi model tersebut bukanlah model yang terbaik dan analisis
dapat dilanjutkan dengan mencari model terbaik.
(Hosmer,1989 : 15)
d. Pemilihan Model Terbaik
Ada 2 metode pemilihan model terbaik yang digunakan untuk
membentuk model regresi logistik yang didasarkan pada uji Wald, yaitu:
1) Simultaneous Estimation
Pada metode ini, semua prediktor secara serempak dilibatkan dalam
pembentukan model terbaik tanpa memperhatikan kontribusi peubah
tersebut dalam menjelaskan perbedaan antar kelompok.
2) Stepwise Estimation
Model ini terbagi atas dua, yaitu :
a) Metode Langkah Mundur (Backward Method)
Pemilihan model regresi logistik terbaik dengan memasukkan semua
peubah bebas. Peubah bebas dikeluarkan satu persatu dari model. Peubah
yang memilki nilai signifikansi besarlah yang dikeluarkan. Jika nilai
dari model, maka perbaharui model dengan mengeluarkan peubah dengan
nilai signifikan yang besar. Prosedur dihentikan jika tidak ada lagi peubah
yang signifikan secara statistik.
b) Metode Langkah Maju (Forward Method)
Peubah bebas dimasukkan satu persatu ke dalam model dan dihitung
nilai signifikannya berdasarkan statistik Wald. Pilih peubah dengan tingkat
signifikannya lebih kecil dari peluang untuk setiap peubah yang masuk
kedalam model, maka perbaharui model dengan memasukkan peubah bebas
yang baru yang memiliki nilai signifikan yang kecil. Prosedur dihentikan
jika tidak ada lagi peubah bebas yang signifikan secara statistik.
(Makridarkis, 1999:305)
Namun pemilihan model terbaik juga dapat dilakukan berdasarkan
nilai deviansi, pemilihan model terbaiknya dilakukan dengan
membandingkan nilai deviansi antara model regresi yang melibatkan semua
peubah bebas dengan nilai deviansi yang melibatkan peubah bebas yang
signifikansi saja pada parameter.
Rumus Deviansi :
= −2 ∑ ln + 1 − ln
(14)
Semakin kecil nilai deviansi maka model tersebut akan semakin
baik. Akan tetapi tidak ada ketentuan yang pasti seberapa besar ukuran
e. Interpretasi Koefisien Parameter
Proses selanjutnya setelah mendapatkan koefisien parameter yang
signifikan adalah melakukan interpretasi terhadap koefisien parameter
tersebut. Interpretasi koefisien parameter diharapkan dapat menjelaskan tiga
hal, yaitu:
1) Menjelaskan hubungan fungsional antara variabel terikat dan variabel
bebas.
2) Menetukan unit perubahan setiap variabel bebas.
3) Mendapatkan nilai odd ratio yang menunjukkan perbandingan tingkat
kecenderungan dari kedua kategori dalam satu variabel bebas.
Nilai odd rationya didefinisikan sebagai berikut:
= ( ) [ ( )] ( ) [ ( )] = ( )([ ( )]) ( )([ ( )])= =
Sedangkan nilai log odd ratio adalah:
ln = ln ( ) [ ( )] ( ) [ ( )] = ln ( ) ( ) − ln ( ) ( ) = g(1) – g(0)
Persamaan di atas disebut persamaan logit.
Nilai odd ratio untuk model regresi logistik:
Artinya, risiko terjadinya peristiwa Y = 0 pada kategori Xj= 1 adalah
sebesar ( ) kali risiko terjadinya peristiwa Y = 1 pada kategori Xj= 0.
Nilai odd ratio digunakan untuk menunjukkan hubungan suatu variabel X
dan variabel Y. Bila nilai = 1, maka antara kedua variabel tersebut tidak
terdapat hubungan. Bila nilai < 1 maka antara kedua variabel terdapat
hubungan negatif terhadap perubahan nilai X yang bernilai benar dan
demikian sebaliknya bila > 1.
40 A. Jenis Penelitian
Jenis penelitian ini adalah penelitian terapan. Pada penelitian ini, data
yang telah ada dideskripsikan dan dilakukan penerapan dari analisis regresi
logistik yang dapat memberikan suatu kesimpulan untuk mengambil suatu
keputusan.