1339
Estimasi dan Pengujian Hipotesis
pada Model Geographically Weighted
Multinomial Logistic Regression
M. Fathurahman1, Purhadi2, Sutikno3, Vita Ratnasari4
1Mahasiswa S3 Statistika ITS Surabaya, fathurahman13@mhs.statistika.its.ac.id 2Jurusan Statistika ITS Surabaya, purhadi@statistika.its.ac.id
3Jurusan Statistika ITS Surabaya, sutikno@statistika.its.ac.id 4Jurusan Statistika ITS Surabaya, vitaratna70@gmail.com
Abstrak. Model Geographically Weighted Multinomial Logistic Regression
(GWMLR) merupakan pengembangan dari model regresi logistik multinomial yang mempertimbangkan pengaruh faktor lokasi. Faktor ini digunakan sebagai pembobot dan memiliki nilai yang berbeda untuk setiap lokasi yang menunjukkan sifat lokal pada model GWMLR. Estimasi parameter model GWMLR dilakukan dengan menggunakan metode Maximum Likelihood Estimation (MLE) terboboti dan iterasi
Newton-Raphson. Pembobot yang digunakan pada estimasi parameter model GWMLR adalah pembobot fungsi Kernel. Pengujian hipotesis model GWMLR dilakukan dengan menggunakan uji F, Maximum Likelihood Ratio Test (MLRT) dan
uji Wald.
Kata Kunci:GWMLR, MLE, Newton-Raphson, Uji F, MLRT, Uji Wald
1 Pendahuluan
Dalam pemodelan data kategorik seringkali dilakukan dengan regresi logistik. Jika variabel respon hanya mempunyai dua kategori (dikotomus), maka digunakan model regresi logistik biner. Untuk variabel respon yang mempunyai kategori lebih dari dua (polikotomus) digunakan model regresi logistik multinomial bila mempunyai skala pengukuran nominal dan model regresi logistik ordinal bila mempunyai skala pengukuran ordinal [1].
Model regresi logistik telah dikembangkan untuk memodelkan hubungan antara variabel respon dengan variabel bebas yang bergantung pada lokasi geografis dimana data tersebut diamati. Model tersebut adalah Geographically Weighted Logistic Regression (GWLR) [2]. Model GWLR merupakan bentuk kombinasi dari model Geographically Weighted Regression (GWR) dan model regresi logistik dikotomus [2, 3]. Model GWLR dikembangkan menjadi model
1340
merupakan bentuk kombinasi dari model GWR dan model regresi logistik multinomial (multinomial logit). Kemudian model GWLR dikembangkan menjadi model Geographically Weighted Ordinal Logistic Regression (GWOLR) [7] dan Geographically Weighted Ordinal Logistic Regression Semiparametric (GWOLRS) [8]. Model GWOLR merupakan bentuk kombinasi dari model GWR
dan model regresi logistik ordinal [7]. Sedangkan model GWOLRS merupakan
bentuk lokal dari regresi logistik ordinal, dimana terdapat parameter yang dipengaruhi lokasi dan parameter yang tidak dipengaruhi lokasi [8].
Makalah ini mengkaji estimasi parameter dan pengujian hipotesis model GWMLR. Estimasi parameter dilakukan dengan menggunakan metode Maximum Likelihood Estimation (MLE) terboboti. Pengujian hipotesis model GWMLR dilakukan dengan menggunakan uji F, Maximum Likelihood Ratio Test (MLRT) dan uji Wald.
2
Model GWMLR
Model GWMLR merupakan model regresi yang digunakan untuk memodelkan hubungan antara variabel respon kategorik polikotomus berskala nominal dengan variabel bebas yang masing-masing koefisien regresinya bergantung pada lokasi dimana data tersebut diamati.
Variabel respon model GWMLR berdistribusi Multinomial yaitu
yi1, , ,yi2 yi J, 1
~ Multinomial 1,
1
xi ,2
xi , , J1
xi
. Sehingga modelGWMLR dinyatakan seperti persamaan berikut [5].
ln ( )
,
parameter untuk lokasi ke-i,
u vi, i
adalah titik koordinat (garis lintang selatan, garis bujur timur) lokasi ke-i, ( )j xi adalah probabilitas kategori respon ke-j,2.1 Estimasi Parameter
1341
adalah mengambil n sampel random, yaitu Y Y1, , ,2 Yn dengan probabilitas kategori respon ke-j pada pengamatan ke-i adalah seperti persamaan (2) dan (3) sehingga,
yi1, , ,yi2 yi J, 1
~ Multinomial 1,
1
xi ,2
xi , , J1
xi
.Selanjutnya menentukan fungsi likelihood sebagai berikut.
Langkah selanjutnya adalah membentuk fungsi ln likelihood dengan cara melakukan transformasi ln pada fungsi likelihood, yaitu:
1
* *
1
* *
Faktor ini memiliki nilai yang berbeda untuk setiap lokasi yang menunjukkan sifat lokal pada model GWMLR. Oleh karena itu pembobot diberikan pada fungsi ln likelihood. Salah satu jenis fungsi pembobot yang dapat digunakan adalah fungsi Kernel. Pembobot berdasarkan fungsi Kernel diantaranya adalah [5, 9]:1342 dan disebut dengan parameter penghalus (bandwidth) sebagai pengontrol keseimbangan antara kemulusan fungsi dan kesesuaian fungsi terhadap data. Kemudian hi(q) adalah bandwidth adaptif yang menetapkan q sebagai jarak
tetangga terdekat (nearest neighbour) dari lokasi i. Untuk mendapatkan bandwidth optimum digunakan metode Cross Validation (CV) [5, 9].
Misalkan pembobot untuk setiap lokasi
ui,vi
adalah w ui
i*,vi*
wii* ,, * 1,2,...,
i i n maka diperoleh fungsi ln likelihood terboboti sebagai berikut:
1
* *
* *
* *
1
* *
Selanjutnya untuk mendapatkan estimator parameter model GWMLR adalah memaksimumkan fungsi ln likelihood terboboti dengan cara menentukan turunan parsial pertama fungsi ln likelihood terhadap parameter yang diestimasi kemudian disamakan dengan nol, yaitu:
Persamaan (7) dapat juga ditulis menjadi persamaan berikut.
Penyelesaian dari persamaan (7) menghasilkan fungsi yang berbentuk tidak eksplisit, sehingga untuk menyelesaikannya digunakan pendekatan numerik dengan metode Newton-Raphson. Metode ini membutuhkan turunan parsial kedua dari fungsi ln likelihood terboboti sebagai berikut:
1343
Persamaan yang digunakan dalam proses iterasi Newton-Raphson untuk mendapatkan nilai βˆj
u vi*, i*
pada persamaan (7) adalah:dengan menggunakan regresi Ordinary Least Squares (OLS) seperti pada estimasi parameter model regresi logistik multinomial. Nilai awal dapat pula dimulai dengan nol. H β
j
u vi*, i*
adalah matriks nonsingular dengan elemen-elemenmatriksnya merupakan turunan parsial kedua dari fungsi ln likelihood terboboti terhadap parameter yang akan diestimasi. g β j
u vi*, i*
adalah vektor denganelemen-elemennya turunan parsial pertama dari fungsi ln likelihood terboboti terhadap parameter yang diestimasi dan t adalah banyaknya iterasi (t = 0, 1, 2, ...). Sehingga elemen dari βj
ui*,vi*
, g β j
u vi*, i*
dan H β
j
u vi*, i*
adalah:Proses iterasi Newton-Raphson ini akan berhenti jika terpenuhi kondisi konvergen, yaitu selisih
*, *
t 1
*, *
tj u vi i j u vi i
β β , dimana
adalahbilangan yang sangat kecil. Hasil estimasi yang diperoleh adalah
1 lokasi ke-i, sehingga akan didapatkan estimator parameter lokal model GWMLR. Turunan parsial kedua dari fungsi ln likelihoodmerupakan elemen dari matriks Hessian. Nilai ekspektasi dari matriks Hessian merupakan matriks Informasi. Invers dari matriks informasi merupakan penduga dari matriks varian-kovarian, sehingga penduga dari matriks varian-kovarian dapat dinyatakan sebagai:1344
2.2 Pengujian Parameter
Sebelum dilakukan pengujian terhadap parameter model GWMLR, terlebih dahulu dilakukan pengujian kesamaan model GWMLR dengan model regresi logistik multinomial yang bertujuan untuk menguji signifikansi dari faktor geografis. Bentuk hipotesisnya adalah sebagai berikut:
0: kj i, i kj, 1, 2,..., ; 1, 2, , 1; 1, 2,...,
H u v i n j J k p
(Tidak ada perbedaan yang signifikan antara model GWMLR dan model regresi logistik multinomial)
1:
H Paling tidak ada satu kj
u vi, i
kj(Ada perbedaan yang signifikan antara model GWMLR dan model regresi logistik multinomial)
Setelah terbentuk hipotesis, maka selanjutnya menentukan statistik uji yaitu dengan membandingkan nilai devians model regresi logistik multinomial dan model GWMLR dimana devians model regresi logistik multinomial dihitung berdasarkan nilai maksimum likelihood dibawah H0
L( )ˆ
, sedangkan deviansuntuk model GWMLR dihitung berdasarkan nilai maksimum likelihood dibawah populasi
L( )ˆ
. Misalkan D
βˆj menyatakan nilai devians model regresilogistik multinomial dengan derajat bebas df1 maka
1 1multinomial yang diperoleh dari metode Newton-Raphson. Misalkan
ˆ*diperoleh dari metode Newton-Raphson.
Statistik uji untuk pengujian kesamaan antara model GWMLR dengan model regresi logistik multinomial dilakukan dengan membandingkan nilai devians model regresi logistik multinomial dan model GWMLR, yaitu
1345
Pengujian parameter model GWMLR secara serentak dilakukan dengan uji likelihood ratio test (LRT). Hipotesis yang digunakan adalah:
Untuk menentukan nilai statistik uji, terlebih dahulu ditentukan fungsi likelihood yang berhubungan dengan ruang parameter pada H0 dan populasi.
Himpunan parameter dibawah H0 adalah:
0j u vi*, i* , * 1,2, , ;i n j 1, 2, ,J 1
sehingga diperoleh fungsi likelihood dan maksimum fungsi likelihood sebagai berikut:
Himpunan parameter model dibawah populasi adalah:
1346
Sehingga diperoleh fungsi likelihood dan maksimum fungsi likelihood:
ˆ max
dapat ditulis menjadi [10]:
Statistik uji G2pada persamaan (19) adalah devians model GWMLR dan secara
asimtotik berdistribusi Chi-Square
2 dengan derajat bebas v. Kriteria pengujiannya adalah tolak H0 jika G2 2,v , dengan
adalah tingkatsignifikansi dan v adalah derajat bebas yang didapat dari banyaknya parameter dibawah populasi dikurangi banyaknya parameter dibawah H0. Nilai 2,v dapat
diperoleh dari tabel Chi-Square.
1347
Persamaan (21) dapat diperoleh dari persamaan (12). Statistik uji pada persamaan (20) berdistribusi normal standar. Hal ini dapat ditunjukkan sebagai berikut: Salah satu sifat βˆ( , )u vi* i* , ˆ( , )* * 1( , )* * 2( , )* * 1( , )* *
estimator maksimum likelihood dari *
* *
( , )u vi i
β adalah berdistribusi normal asimtotik yaitu:
persamaan (22) ekuivalen dengan persamaan (23).
1 * 1
Berdasarkan persamaan (25) dapat ditentukan kriteria pengujiannya yaitu tolak
0
1348
3
Kesimpulan
Estimator parameter model GWMLR yang diperoleh berdasarkan metode MLE terboboti adalah fungsi yang berbentuk tidak eksplisit. Sehingga digunakan metode iterasi Newton-Raphson untuk mendapatkan estimator parameter modelnya.
Pengujian kesamaan antara model GWMLR dengan model regresi logistik multinomial digunakan uji F dan statistik ujinya mendekati distribusi F. Pengujian parameter model GWMLR secara serentak digunakan uji likelihood ratio dan statistik ujinya mendekati distribusi Chi-Square. Pengujian parameter model GWMLR secara parsial digunakan uji Wald dan statistik ujinya mendekati distribusi normal standar.
4
Daftar Pustaka
[1] Hosmer, D.W. and Lemeshow, S., Applied Logistic Regression, Second Edition, John Wiley & Sons, Inc., New York, 2000.
[2] Atkinson, P., German, S., Sear, D. and Clarck, M., Exploring the Relations Between Riverbank Erosion and Geomorphological Controls Using Geographically Weighted Logistic Regression, Geographical Analysis, 35, 1, 58 – 82, 2003.
[3] Brunsdon, C., Fotheringham, S. and Charlton, M., Geographically Weighted Regression: Modelling Spatial Non-Stationarity, The Statistician, 47, Part 3, 431 – 443, 1998.
[4] Kurnia, A., Perbandingan Analisis Regresi Logistik dan Geographically Weighted Logistic Regression Semiparametric (Studi Kasus: Pemodelan Indeks pembangunan Manusia Provinsi Jawa Timur Tahun 2008), Tugas Akhir, Jurusan Statistika ITS, Surabaya, 2011.
[5] Luo, J. and Nagaraj, K., Modeling Urban Growth with Geographically Weighted Multinomial Logistic Regression, Proceedings of SPIE, the International Society for Optical Engineering, 7144, 1 – 11, 2008.
[6] Wang, Y., Kockelman, K.M. and Wang, X., Anticipating Land Use Change Using Geographically Weighted Regression Models for Discrete Response, Transportation Research Record 2245, 111 – 123, 2011.
[7] Purhadi, Rifada, M. and Wulandari, P., Geographically Weighted Ordinal Logistic Regression, International Journal of Mathematics and Computation,
16, Issue No. 3, 116 – 126, 2012.
[8] Asrafiah., Model Geographically Weighted Ordinal Logistic Regression Semiparametric (Studi Kasus: Tingkat Kerawanan Desa atau Kelurahan terhadap Penyakit Demam Berdarah Dengue di Kota Makassar Tahun 2010), Tesis, Jurusan Statistika ITS, Surabaya, 2011.
[9] Lesage, J.P., A Family of Geographically Weighted Regression, Department of Economics University of Toledo, 2001.