S MTK 1002477 Chapter3

(1)

BAB III

GEOGRAPHICALLY WEIGHTED LOGISTIC REGRESSION (GWLR)

3.1 Regresi Logistik

Regresi logistik merupakan analisis yang digunakan untuk data respon berkategori, seperti bekerja atau tidak bekerja, menikah atau tidak menikah, cacat atau tidak cacat, dan sebagainya.

Misalkan variabel repon dan variabel prediktor maka � = | .

� adalah ekspektasi bersyarat dari ketika bernilai . Model regresi logistik biner yaitu (Hosmer dan Lemeshow, 2000):

� = _{+exp � +∑}exp � +∑= �_�

= , = , , … , = , , … , … .

dimana:

: banyaknya pengamatan

: banyakna variabel prediktor

� : koefisien regresi logistik untuk variabel predikor ke-

Bentuk persamaan (3.1) dapat ditransformasikan menjadi bentuk logit yang disebut dengan transformasi logit, yaitu sebagai berikut (Kleinbaum dan Klein, 2010):

� [� ] = ln [ _{− �}� ] … .

= ln

[

exp(� + ∑ = � ) + exp(� + ∑ ₌ � )

(2)

= ln

jadi, bentuk logit persamaan (3.1) adalah

� [� ] = � + ∑ �

=

… .

3.1.1. Pendugaan Parameter Model Regresi Logistik

Untuk menentukan parameter model regresi logistik digunkan metode kemungkinan maksimum. Dasar dari metode ini memaksimumkan fungsi likelihood.

(3)

= {∏ [ �

Sesuai dengan persamaan (3.2) dan (3.3), maka fungsi likelihood adalah

� = { ∑�= (� + ∑ = � )} {∏ + (� + ∑ = � )

− �

= } …(3.5)

Dan persamaan ln likelihood yang terbentuk adalah

� � = ln � = ∑� (� + ∑ ₌ � )

= − ∑�= ln + (� + ∑ = � ) (3.6)

Persamaan (3.6) diturunkan terhadap � , untuk mendapatkan n ilai � yang dapat

memaksimumkan � � . Kemudian hasil yang diperoleh dibuat samadengan 0. ��

Sehingga persamaan likelihood adalah

∑

Karena persamaan (3.7) nonlinear maka untuk mendapatkan nilai maksimum likelihood maka digunakan metode iteratif yaitu iterasi Newton-Raphson.

3.2 Model Geographically Weighted Logistic Regression

Geographically weighted logistic regression dan analisis regresi logistik

(4)

� = exp(� , + ∑ = � , )

+ exp(� , + ∑ ₌ � , ), = , , … , = , , … , … .

Bentuk logit untuk GWLR adalah:

� [� ] = � , + ∑ � ,

=

yang mana:

, = koordinat lokasi observasi ke-

� , ,� , = parameter model pada lokasi koordinat

3.3 Penaksir Parameter GWLR

Model GWLR merupakan pengembangan dari model regresi logistik yang menghasilkan bentuk penaksir parameter model yang bersifat lokal untuk setiap lokasi tempat data tersebut didapatkan. Variabel respon dan variabel prediktornya bergantuk pada lokasi di mana data tersebut didapatkan.

Penaksir parameter dilakukan dengan menggunakan metode kemungkinan maksimum. Sesuai dengan persamaan . maka fungsi likelihood yang terbentuk adalah

� � , = {exp ∑�= (� , + ∑ = � , )} {∏�= +

(� , + ∑ = � , )

−

}

ln �(� , ) = ∑ (� , + ∑ ₌ � , ) − ∑� ln( +

= �

=

exp � , + ∑ ₌ � , )

Letak geografis merupakan pembobot pada model ini, sehingga pembobot diberikan dalam bentuk:

ln � (� , ) = ∑� , (� , + ∑ ₌ � , ) −

=

∑� , ln( + exp � , + ∑ ₌ � , )

(5)

Persamaan di atas diturunkan terhadap � , , agar mendapatkan nilai β yang dapat memaksimumkan. Hasil yang diperoleh disamadengankan 0. Selanjutnya, karena hasil dari turunan partial bersifat nonlinear, maka digunakan metode iteratif Newton-Raphson.

Dan bentuk umum dari hasil penurunannya adalah:

� − _, _{= �} _, ₋ − _� _, _� _� _,

Ietrasi berhenti pada saat konvergen, yaitu saat:

(6)

3.4 Pembobotan dan Bandwidth Optimum

Dalam analisis spasial, lokasi observasi yang berdekatan akan memungkinkan mempunyai pengaruh daripada lokasi yang berjauhan. Pembobotan digunakan untuk memberikan nilai yang berbeda di setiap lokasi karena akan berpengaruh pada parameter regresi.

Matriks pembobotan:

, = [

… … ⋱

… �

]

: pembobotan geografis dari data ke- pada regresi ke-

Matriks pembobot adalah ukuran kedekatan jarak antara satu lokasi dengan lokasi yang lain yang akan mempengaruhi nilai penaksir parameter yang berbeda pada setiap lokasi. Jika jarak suatu lokasi semaki dekat dengan lokasi yang lain maka nilai dari matriks , akan semakin besar.

Ada beberapa cara untuk menentukan nilai pembobot pada matriks

, . Yang paling sederhana adalah memberikan bobot 1 untuk lokasi pengamatan ke- dan lokasi ke- .

= , , = , , … ,

Selain itu dengan menggunakan pembobotan yang bervariasi sesuai dengan lokasi pada titik regresi ke- , dimana ≤ ≤ . Nilai akan semakin kecil jika jarak dari satu lokasi ke lokasi yang lain semakin berjauhan, dan akan semakin besar jika jarak dari satu lokasi ke lokasi yang lain semakin dekat.

Pembobotan yang digunakan dalam penelitian ini adalah pembobot fungsi adaptive kernel, yaitu adaptive Gaussian dan adaptive bisquare. Fungsi adaptive

(7)

Fungsi ini akan memiliki nilai bandwidth yang besar ketika data pada lokasi tersebut jarang.

Fungsi pembobot kernel adaptive Gaussian sebagai berikut (Chasco et al., 2008) :

= exp −_ℎ

Dan fungsi pembobot kernel adaptive bisquare sebagai berikut:

= {[ − ℎ ] , jika < ℎ , yang lainnya

Dimana:

= nilai bobot dari observasi pada lokasi ke- untuk penaksiran koefisien pada lokasi

ke-= jarak euclidean antara lokasi ke- dengan lokasi ke-

ℎ = bandwidth pada lokasi ke-

Jarak euclidean adalah jarak antara titik regresi ke- dengan lokasi ke- ( ≠ dihitung dengan menggunakan rumus :

= √( − ) + ( − )

Dimana:

= longitude pada lokasi ke-i

= longitude pada lokasi ke-j

(8)

Penentuan bandwidth yang optimum merupakan salah satu hal yang penting. Bandwidth merupakan ukuran radius suatu lingkaran dengan pusat titik lokasi yang mengontrol titik-titik yang berpengaruh terhadap penaksiran koefisien regresi pada titik lokasi . Untuk menentukan bandwidth optimum dapat ditentukan dengan menggunakan metode Cross Validation (CV) dan Akaike Information Criterion (AIC) minimization. Menurut Fortheringham, et al., (2002) AIC lebih umum dalam pengaplikasian dibandingkan dengan CV, karena AIC dapat digunakan dalam Geographically Weighted Poisson Regression (GWPR) dan Geographically Weighted Logisti c Regression (GWLR). Bentuk dari persamaan AIC adalah:

� � = − ln ℎ

Dimana:

= banyaknya parameter yang akan ditaksir

ln ℎ = nilai maksimum likelihood model

3.5 Pemilihan Model Terbaik

Pemilihan model merupakan proses evaluasi dari model yang telah dibentuk, untuk mengetahui seberapa besar peluang setiap model akurat dalam mendeskripsikan data. Salah satu metode paling popular dalam menentukan model terbaik adalah Akaike Information Criterion (AIC). Menurut Wagenmakers dan Farrell (2004) model dengan AIC yang lebih kecil merupakan model yang lebih baik.

Fotheringham, et al., (2002) menuliskan bahwa selain dapat digunakan untuk menentukan bandwidth optimum, AIC juga dapat digunakan dalam pemilihan model terbaik dalam model GWR.

3.6 Uji Multikolinearitas

(9)

prediktor dengan variabel prediktor lainnya. Salah satu cara untuk mendeteksi adanya multikolinearitas dalam data adalah dengan melihat nilai Varian Inflation Factor (VIF). Jika nilai VIF > 10 maka dapat dikatakan bahwa terdapat multikolinearitas, ini artinya terjadi korelasi yang kuat diantara variabel prediktor yang termasuk dalam pembentukan model regresi linear berganda tersebut.

Dalam bukunya Kutner et. al., (2005) menuliskan persamaan VIF sebagai berikut:

= _{− �} … .

Dimana:

� = koefisien determinasi antara dengan variabel prediktor yang lain.

Dengan rumus koefisien determinasi:

� = [∑ − ̅� ′ −̅̅̅̅]�′ ∑( − ̅ ) ∑(� ′−̅̅̅̅)�′

, = , , … , dan ≠ ′_{… .}