• Tidak ada hasil yang ditemukan

BAB II. TINJAUAU PUSTAKA

2.2. Regresi Logistik

Analisis regresi dalam statistika adalah salah satu metode untuk menentukan hubungan sebab-akibat antara satu variabel dengan variabel yang lain. Variabel penyebab disebut dengan bermacam istilah, seperti variabel penjelas, variabel eksplanatorik, variabel independen atau variabel X (karena seringkali digambarkan dalam grafik sebagai absis atau sumbu X). Variabel terkena akibat dikenal sebagai variabel yang dipengaruhi, variabel dependen, variabel terikat atau variabel Y. Kedua variabel ini dapat merupakan variabel acak, namun variabel yang dipengaruhi harus selalu variabel acak. Analisis regresi adalah salah satu analisis yang paling populer dan luas pemakaiannya. Hampir semua bidang ilmu yang memerlukan analisis sebab-akibat boleh dipastikan mengenal analisis ini.

Regresi logistik merupakan salah satu bagian dari analisis regresi yang digunakan untuk memprediksi probabilitas kejadian suatu peristiwa dengan mencocokkan data pada fungsi logit kurva logistik. Metode ini merupakan model linear umum yang digunakan untuk regresi binomial. Seperti analisis regresi pada

umumnya, metode ini menggunakan satu atau beberapa variabel bebas dengan satu variabel tak bebas bersifat dikotomi. Regresi logistik juga digunakan secara luas pada bidang kedokteran, ilmu sosial dan bahkan pada bidang pemasaran, seperti prediksi kecenderungan pelanggan untuk membeli suatu produk atau berhenti berlangganan.

Regresi logistik tidak memerlukan asumsi normalitas, heteroskedastisitas dan autokorelasi, dikarenakan variabel terikat yang terdapat pada regresi logistik merupakan variabel dummy (0 dan 1), sehingga residualnya tidak memerlukan ketiga pengujian tersebut. Untuk asumsi multikolinearitas, karena hanya melibatkan variabel-variabel bebas, maka masih perlu untuk dilakukan pengujian. Untuk pengujian multikolinearitas ini dapat digunakan uji kesesuaian (goodness of fit test) yang kemudian dilanjutkan dengan pengujian hipotesis guna melihat variabel bebas mana saja yang signifikan dan dapat tetap digunakan dalam penelitian. Selanjutnya di antara variabel bebas yang signifikan, dapat dibentuk suatu matriks korelasi, dan apabila tidak terdapat variabel bebas yang saling memiliki korelasi yang tinggi, maka dapat disimpulkan bahwa tidak terdapat gangguan multikolinearitas pada model penelitian (David W. Hosmer, 2011).

Regresi logistik merupakan salah satu metode statistik nonparametrik untuk menguji hipotesis. Metode regresi logistik adalah metode matematika yang menggambarkan hubungan antara satu atau lebih variabel bebas dengan satu variabel tak bebas yang dikotomi yang variabelnya dianggap hanya mempunyai dua nilai yang mungkin yaitu 0 dan 1, dimana kondisi ini dapat diartikan sebagai

solusi atau gagal pada analisis regresi logistik tunggal dan regresi logistik berganda.

Pada umumnya analisis regresi membentuk suatu persamaan untuk memprediksi variabel dependen berdasarkan variabel independennya. Model regresi logistik ganda adalah model regresi logistik dengan variabel independennya lebih dari satu variabel. Fungsi probabilitas untuk setiap observasi adalah sebagai berikut :

Dimana jika y = 0 maka f(y) = 1-π dan jika y = 1 maka f(y) = π. Fungsi

regresi logistik dapat dituliskan sebagai berikut :

dengan k=banyaknya variabel independen Nilai z antara - dan + sehingga nilai f(z) terletak antara 0 dan 1 untuk setiap z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggambarkan probabilitas atau risiko dari suatu objek. Model regresi logistik dapat dituliskan sebagai berikut :

Untuk mempermudah pendugaan parameter regresi maka model regresi

logistik diatas dapat diuraikan dengan menggunakan transformasi logit dari π(x).

Model tersebut merupakan fungsi dari parameter-parameternya. Pada

regresi logistik, variabel dependen diekspresikan sebagai y = π(x) + dimana mempunyai salah satu dari kemungkinan dua nilai, yaitu =1-π(x) dengan peluang π(x) jika y = 1 dan = -π(x) dengan peluang 1-π(x) jika y = 0 dan

mengikuti distribusi binomial dengan rataan nol dan varians (Lemeshow, 2000).

2.2.1 Estimasi Parameter

Dalam regresi linier dikenal istilah last square yang digunakan untuk estimasi parameter model, sedangkan untuk regresi logistik digunakan prinsip estimasi maximum likelihood. Prinsip dari maximum likelihood ini adalah parameter populasi diestimasi dengan cara memaksimumkan kemungkinan dari data observasi. Setiap observasi untuk model regresi logistik adalah variabel random dari distribusi Bernoulli (Netter et al., 1996).

Menurut Hosmer dan Lemeshow (1989), fungsi likelihood distribusi Bernoulli untuk n sampel independen adalah sebagai berikut :

Untuk log-likelihood atau logaritma natural fungsi probabilitas bersamanya adalah sebagai berikut :

Taksiran parameter , diperoleh dengan mendiferensialkan fungsi log-likelihood terhadap dengan k = 0;1. Nilai maksimum diperoleh bila hasil diferensial fungsi log-likelihood bernilai nol (0). Diperlukan metode iterasi untuk mendapatkan taksiran pada metode maksimum likelihood karena tidak bisa diperoleh taksiran parameter dari pendeferensialan fungsi log-likelihood.

2.2.2 Uji Signifikansi Parameter

Uji signifikan parameter ini dilakukan untuk mengetahui apakah taksiran parameter berpengaruh berpengaruh terhadap model atau tidak secara signifikan, serta mengetahui seberapa besar pengaruh masing-masing parameter tersebut. Uji signifikansi parameter terdapat dua tahap, yaitu :

1. Uji signifikansi parameter model secara terpisah (parsial)

Uji signifikansi parameter model secara terpisah (parsial) dilakukan untuk mengetahui signifikansi parameter terhadap variabel dependen. Uji yang digunakan untuk mengetahui signifikansi parameter model secara terpisah adalah dengan menggunakan uji Wald (Hosmer dan Lemeshow, 2000) dengan hipotesis sebagai berikut :

H0: βj = 0

Ha: βj≠ 0 ; j = 1,2,...,p SU :

Statistik uji W mendekati distribusi Chi-square dengan derajat bebas 1 dengan adalah taksiran standart error parameter. Daerah penolakan H0 adalah atau (v,α) dengan derajat bebas v.

2. Uji signifikansi parameter model secara serentak

Uji signifikansi parameter model secara serentak dilakukan dengan uji rasio likelihood. Suatu statistik uji rasio likelihood G adalah fungsi dari L0

dan L1 yang berdistribusi X2 dengan derajat bebas p. Pengujian secara

serentak dilakukan untuk memeriksa kemaknaan koefisien β secara

keseluruhan dengan hipotesis sebagai berikut : H0: β1= β2= ... = βp = 0

Ha: paling tidak terdapat satu βj≠ 0 ; j = 1,2,...,p

SU :

Daerah penolakan H0 adalah G > X2(v,α) atau p value < α (Hosmer

dan Lemeshow, 2000).

2.2.3 Uji Kesesuaian Model

Uji kesesuaian model digunakan untuk menilai apakah model sesuai dengan data atau tidak. Untuk mengetahui apakah model sesuai atau tidak terhadap data yang ada menggunakan uji Hosmer dan Lemeshow. Jika uji Hosmer dan Lemeshow dipenuhi maka model dinilai dapat memprediksi nilai observasinya.

Menurut Hosmer dan Lemeshow (1989), uji Hosmer dan Lemeshow yang biasa ditulis dengan uji Ĉ dihitung berdasarkan taksiran probabilitas. Pada uji ini sampel dimasukkan ke sejumlah g kelompok dengan tiap-tiap kelompok memuat n/10 sampel pengamatan, dengan n adalah jumlah sampel. Jumlah kelompok ada sekitar 10, dengan kelompok pertama memuat sampel yang memiliki taksiran probabilitas sukses terkecil yang diperoleh dari model taksiran.

Kelompok kedua memuat sampel yang memiliki taksiran probabilitas sukses terkecil kedua, dan seterusnya (Liu, 2007).

Statistik uji Ĉ yang dihitung berdasarkan nilai y = 1 dirumuskan dengan hipotesis sebagai berikut :

H0 : Model sesuai, tidak terdapat perbedaan antara hasil observasi dengan hasil prediksi.

Ha : Model tidak sesuai, terdapat perbedaan antara hasil observasi dengan hasil prediksi.

SU :

Dimana adalah rata-rata taksiran probabilitas sukses kelompok ke-k, Ok

adalah jumlah sampel kejadian sukses dalam kelompok ke-k, adalah total sampel kelompok ke-k dengan k = 1, 2, ..., g. Statistik uji Ĉ mendekati distribusi Chi-square dengan df = g-2. Daerah penolakan H0 adalah

Dokumen terkait