Pemodelan Geographically Weighted Ridge Regression Dan Geographically Weighted Lasso Pada Data Spasial Dengan Multikolinieritas

(1)

PEMODELAN

GEOGRAPHICALLY WEIGHTED RIDGE

REGRESSION

DAN

GEOGRAPHICALLY WEIGHTED LASSO

PADA DATA SPASIAL DENGAN MULTIKOLINIERITAS

TIYAS YULITA

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(2)

(3)

Dengan ini saya menyatakan bahwa tesis berjudul Pemodelan

Geographically Weighted Ridge Regression dan Geographically Weighted Lasso

pada Data Spasial dengan Multikolinieritas adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Januari 2016

Tiyas Yulita

(4)

TIYAS YULITA. Pemodelan Geographically Weighted Ridge Regression dan

Geographically Weighted Lasso pada Data Spasial dengan Multikolinieritas.

Dibimbing oleh ASEP SAEFUDDIN dan AJI HAMIM WIGENA.

Data spasial berorientasi secara geografis dan memiliki sistem koordinat tertentu sebagai dasar referensinya sehingga dapat disajikan dalam sebuah peta. Permasalahan yang sering ditemukan pada data spasial adalah ragam yang tidak selalu homogen pada setiap lokasi pengamatan atau heterogenitas spasial. Jika data spasial dengan masalah heterogenitas spasial dianalisis dengan Metode Kuadrat Terkecil (MKT) atau dimodelkan dengan regresi linier maka dugaan parameter yang diperoleh akan memiliki ragam yang besar.

Geographically Weighted Regression (GWR) dapat digunakan untuk mengeksplorasi keragaman spasial dengan membentuk model regresi yang berbeda pada setiap lokasi pengamatan. Metode ini cukup efektif dalam melakukan pendugaan parameter pada data dengan heterogenitas spasial. Permasalahan lain mungkin dapat muncul seperti adanya hubungan antarpeubah penjelasnya yang disebut dengan multikolinieritas. Pada data spasial, masalah multikolinieritas juga dapat menyebabkan model spasial yang diperoleh tidak stabil sehingga kesalahan interpretasi dapat terjadi, maka diperlukan metode yang mampu menangani masalah multikolinieritas seperti Geographically Weighted Ridge Regression (GWRR) dan Geographically Weighted Lasso (GWL). Sukmantoro (2014) menggunakan GWRR untuk memodelkan nilai tanah di Perumahan Pondok Indah Jakarta Selatan tahun 2011 yang menghasilkan dugaan parameter dengan GWRR memiliki akurasi dan presisi pendugaan yang lebih baik dari GWR. Munikah et al. (2014) menggunakan GWL untuk mengatasi masalah heterogenitas spasial dan multikolinieritas pada data spasial dengan studi kasus kerawanan pangan di Kabupaten Tanah Laut dengan hasil GWL memiliki performa yang lebih baik dari GWR.

Pada penelitian ini performa dari kedua model pendugaan dalam mengatasi multikolinieritas akan dievaluasi dengan menggunakan data Produk Domestik Regional Bruto (PDRB) dari 113 kabupaten/kota di Pulau Jawa tahun 2010. Sebelum menggunakan GWL dan GWRR pada data, dilakukan pemodelan dengan menggunakan GWR terlebih dahulu untuk mengetahui adanya multikolinieritas lokal antara peubah penjelasnya. Nilai VIF yang diperoleh pada model GWR dari data menunjukkan bahwa terdapat multikolinieritas lokal pada peubah-peubah penjelasnya. Ini dapat disebabkan oleh adanya penambahan matriks pembobot dalam proses pendugaan. Fungsi yang digunakan untuk membentuk matriks pembobot pada setiap model adalah dengan fungsi fixed exponential kernel.

(5)

mampu mengatasi multikolinieritas lokal yang kuat dengan menghasilkan dugaan yang lebih baik dari model GWR maupun GWRR, namun performa yang dihasilkan oleh model GWRR tidak lebih baik dari hasil yang diberikan oleh model GWR.

(6)

TIYAS YULITA. Geographically Weighted Ridge Regression and Geographically Weighted Lasso Models in Spatial Data with Multicollinearity. Supervised by ASEP SAEFUDDIN and AJI HAMIM WIGENA

Spatial data is geographically oriented and it has a specific coordinate system as reference and it can be presented in a map. The problem of spatial data is variance in over observation location which is not always homogen (spatial heterogeneity). If the spatial data with spatial heterogeneity problem is analyzed by Ordinary Least Squares Method (OLS), it will has large variance. Geographically Weighted Regression (GWR) can be used to explore the spatial heterogeneity by forming the different regression models for each observation location. This method is quite effective in parameter estimation on the data with spatial heterogeneity. Another problem is any relationship between explanatory variables which called as multicollinearity. On the spatial data, multicollinearity problem can obtain spatial models which is not stable so it will occur misinterpretations models.

To solve the spatial heterogeneity and local multicollinearity problem, Geographically Weighted Ridge Regression (GWRR) and Geographically Weighted Lasso (GWL) will be used. Sukmantoro (2014) use GWRR to form models of land value in Pondok Indah, South Jakarta in 2011 and the result is accuracy and precision of GWRR has better estimation than GWR. Munikah et al. (2014) use GWL to resolve the problem of spatial heterogeneity and local multicollinearity on spatial data with study case of food insecurity in Tanah Laut, and the result is GWL has better performance than GWR.

Performance of the prediction model to overcome spatial heterogeneity and local multicollinearity will be evaluated by using data Gross Regional Domestic Product (GRDP) of 113 districts / cities in Java on 2010. Before we use GWL and GWRR on data, checking multicollinearity between explanatory variables before is needed. VIF value which obtained in GWR models indicate that there are local multicollinearity between explanatory variables. It can be caused by the addition of weighted matrix in the estimation process. Fixed exponential kernel function is used to form the weighted matrix on each model over location observation.

(7)

(8)

© Hak Cipta Milik IPB, Tahun 2016

Hak Cipta Dilindungi Undang-Undang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB.

(9)

PEMODELAN

GEOGRAPHICALLY WEIGHTED RIDGE

REGRESSION

DAN

GEOGRAPHICALLY WEIGHTED LASSO

PADA DATA SPASIAL DENGAN MULTIKOLINIERITAS

TIYAS YULITA

Tesis

sebagai salah satu syarat untuk memperoleh gelar Magister Sains

pada

Program Studi Statistika

SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR

(10)

(11)

(12)

Puji dan syukur penulis ucapkan kehadirat Allah Subhanahuwata’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tesis ini. Shalawat serta salam semoga senantiasa tercurah kepada junjungan kita Nabi Muhammad SAW beserta keluarga, para sahabat, serta para penerus perjuangan Beliau hingga akhir zaman. Penelitian ini berjudul “Pemodelan Geographically Weighted Ridge Regression dan Geographically Weighted Lasso pada Data Spasial dengan Multikolinieritas”. Penulisan karya ilmiah ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Oleh karena itu, penulis menyampaikan penghargaan dan ucapan terima kasih khususnya kepada:

1. Prof Dr Asep Saefuddin, MSc selaku pembimbing I dan Dr Ir Aji Hamim Wigena, MSc selaku pembimbing II yang dengan kesabaran telah banyak memberi bimbingan, arahan, serta saran kepada penulis selama penyusunan tesis ini.

2. Dr Ir Indahwati, MSi selaku penguji luar komisi yang telah memberikan masukan dan arahan yang sangat membangun dalam penyusunan tesis ini. 3. Seluruh staf pengajar Sekolah Pascasarjana Statistika IPB yang telah banyak

memberikan ilmu dan arahan selama perkuliahan sampai dengan penyusunan tesis ini.

4. Teman-teman statistika angkatan 2013 atas kebersamaan dan bantuannya kepada penulis selama kuliah.

5. Kedua orang tua serta seluruh keluarga atas doa, dukungan moril, dan kasih sayang yang diberikan kepada penulis.

6. Direktorat Jenderal Pendidikan Tinggi sebagai sponsor pemberi beasiswa BPPDN yang mendukung kelanjutan studi S2 penulis.

7. Seluruh pihak yang namanya tidak dapat disebutkan satu per satu.

Atas segala bantuan yang diberikan, penulis hanya bisa berdoa dengan harapan semoga semua kebaikan yang penuh keikhlasan tersebut dicatat sebagai amal ibadah dan mendapatkan balasan berupa pahala disisi Allah Subhanahuwata’ala Aamiin Ya Rabbal‘Alamin. Semoga karya ilmiah ini bermanfaat serta dapat menambah wawasan bagi para pembaca.

Bogor, Januari 2016

(13)

DAFTAR TABEL xi

DAFTAR GAMBAR xi

DAFTAR LAMPIRAN xi

PENDAHULUAN

Latar Belakang 1

Tujuan Penelitian 2

TINJAUAN PUSTAKA

Uji Heterogenitas Spasial 3

Multikolinieritas 4

Geographically Weighted Regression (GWR) 5

Fungsi Pembobot Spasial 6

Korelasi Pearson Terboboti Geografis 6 Pengujian Goodness of Fit 7

Regresi Ridge 7

Geographically Weighted Ridge Regression (GWRR) 8

Locally Compensated Ridge Geographically Weighted

Regression (LCR-GWR) 9

Least Absolute Shrinkage and Selection Operator (LASSO) 10

Geographically Weighted Lasso (GWL) 11

METODE PENELITIAN

Data 12

Metode Analisis 13

HASIL DAN PEMBAHASAN

Eksplorasi Data 15

Pemodelan Regresi Linier 17

Pengujian Pengaruh Heterogenitas Spasial 18 Pemodelan Geographically Weighted Regression (GWR) 18 Pemodelan Geographically Weighted Ridge Regression (GWRR) 21

Pemodelan LCR-GWR 22

Pemodelan Geographically Weighted Lasso (GWL) 23 Kekonsitenan Metode Terhadap Multikolinieritas 24 SIMPULAN DAN SARAN

Simpulan 28

Saran 28

DAFTAR PUSTAKA 29

(14)

1 Peubah penjelas gugus data pertama 12

2 Peubah penjelas gugus data kedua 12

3 Statistik deskriptif peubah respon dan penjelas 16 4 Koefisien korelasi antara peubah respon dan penjelas 16 5 Hasil pengujian parsial dari dugaan parameter dengan MKT 17

6 Hasil analisis ragam dengan MKT 17

7 Matriks pembobot pada model GWR 19

8 Ringkasan pendugaan parameter pada model GWR 19 9 Ringkasan nilai VIF untuk gugus data pertama pada seluruh

lokasi 20

10 Ringkasan hasil pendugaan parameter pada model GWRR 21 11 Nilai multikolinieritas untuk gugus data kedua pada model dengan

MKT 24

12 Ringkasan nilai VIF untuk gugus data kedua pada seluruh lokasi 24 13 Perbandingan model GWR, GWRR, LCR-GWR dan GWL

untuk gugus data pertama 26

14 Perbandingan model GWR, GWRR, LCR-GWR, dan GWL

untuk gugus data kedua 27

DAFTAR GAMBAR

1 Peta PDRB pada setiap kabupaten/kota di Pulau Jawa tahun 2010 15

2 Scatterplot hubungan antar peubah penjelas 17

3 Peta dugaan nilai PDRB pada model GWR 20

4 Peta dugaan nilai PDRB pada model GWRR 22

5 Peta dugaan nilai PDRB pada model LCR-GWR 22

6 Peta dugaan nilai PDRB pada model GWL 23

7 Peta dugaan nilai PDRB pada model GWR(a), GWRR(b),

LCR-GWR (c), dan GWL(d) 25

DAFTAR LAMPIRAN

1 Plot nilai sisaan (residual) terhadap dugaan nilai PDRB 31 2 Tabel hasil dugaan parameter pada model GWRR dan nilai dugaan

PDRB untuk setiap lokasi pengamatan 31

(15)

5 Tabel korelasi Pearson terboboti geografis antara peubah respon

dan peubah-peubah penjelasnya (X1, X2, X3, dan X4) 41 6 Tabel korelasi Pearson terboboti geografis antara peubah respon

dan peubah-peubah penjelasnya (X5, X6, X7, dan X8) 44 7 Syntax Pemodelan GWR, GWRR, LCR-GWR, dan GWL dengan

(16)

PENDAHULUAN

Latar Belakang

Metode statistika seringkali digunakan sebagai alat untuk mengetahui hubungan antarpeubah dengan cara membentuk suatu model yang sesuai dalam menggambarkan karakteristik data. Seperti pada model regresi linier yang mampu menggambarkan hubungan antara peubah penjelas dengan peubah responnya. Melihat hubungan antarpeubah pada data spasial dapat dilakukan dengan metode statistika spasial.Data spasial merupakan data yang berorientasi secara geografis dan memiliki sistem koordinat tertentu sebagai dasar referensinya, sehingga dapat disajikan dalam sebuah peta.

Permasalahan yang sering ditemukan pada data spasial adalah ragam yang tidak selalu homogen pada setiap lokasi pengamatan atau disebut dengan heterogenitas spasial. Heterogenitas spasial dapat disebabkan oleh beberapa hal seperti perbedaan kondisi geografis, sosial-budaya, hingga kebijakan ekonomi yang berbeda-beda pada setiap lokasi. Hal ini akan menjadi masalah jika data spasial tetap dianalisis dengan menggunakan Metode Kuadrat Terkecil (MKT) dalam pendugaan parameternya, karena dapat menyebabkan ragam dugaan menjadi besar. Untuk mengatasi permasalahan ini, diperlukan metode yang mampu mengatasi heterogenitas ragam pada data spasial untuk membentuk model yang lebih efisien.

Geographically Weighted Regression (GWR) adalah metode statistika spasial yang merupakan pergeseran dari model global menjadi model lokal. Model GWRbertujuan untuk mengeksplorasi keragaman spasial dengan membentuk model regresi yang berbeda pada setiap lokasi pengamatan. Metode ini cukup efektif dalam melakukan pendugaan parameter pada data dengan heterogenitas spasial (Fotheringham et al.2002). Masalah lain yang mungkin muncul pada pemodelan dengan peubah penjelas lebih dari satu adalah multikolinieritas. Multikolinieritas disebabkan oleh adanya hubungan linier yang hampir sempurna (near dependence) pada kolom-kolom matriks X dan apabila terjadi hubungan linier yang sempurna akan menyebabkan |��| = 0, sehingga kondisi ini disebut dengan multikolinieritas sempurna (exact multicollinearity) (Draper &Smith 1998). Kondisi tersebut dapat menyebabkan hasil dugaan parameter memiliki ragam yang besar sehingga pengujian signifikansi peubah menjadi tidak stabil. Seperti pada pemodelan dengan regresi linier berganda, masalah multikolinieritas juga dapat ditemui pada regresi spasial yang disebut dengan mutikolinieritas lokal.

(17)

Pada regresi spasial, multikolinieritas dapat diatasi dengan menggunakan konsep dari metode regresi ridge dan lasso ke dalam GWR. Geographically Weighted Lasso(GWL) merupakan metode GWR yang menggunakan konsep lasso dalam pendugaan parameter untuk mengatasi masalah multikolinieritas, sehingga diharapkanhasil dugaan parameter yang diperoleh lebih stabil. Metode GWL mampu mengatasi masalah heterogenitas spasial dan multikolinieritas pada data spasial dengan studi kasus kerawanan pangan di Kabupaten Tanah Laut dengan hasil GWL memiliki performa yang lebih baik dari GWR (Munikah et al.

2014). Metode lain yang dapat digunakan untuk mengatasi multikolinieritas pada data spasial adalah Geographically Weighted Ridge Regression (GWRR), metode ini menggunakan konsep regresi ridge dalam proses pendugaan parameternya. GWRR pernah digunakan untuk memodelkan nilai tanah di Perumahan Pondok Indah Jakarta Selatan tahun 2011 yang menghasilkan dugaan parameter dengan GWRR memiliki akurasi dan presisi pendugaan yang lebih baik dari GWR (Sukmantoro 2014).

Fatulloh (2013) menggunakan GWR dalam memodelkan Produk Domestik Regional Bruto (PDRB) pada 113 kabupaten/kota diPulau Jawa tahun 2010 yang mempunyai efek spasial berupa heterogenitas spasial. PDRB merupakan jumlah nilai tambah yang timbul dari seluruh sektor perekonomian di suatu wilayah tertentu, atau merupakan jumlah nilai barang dan jasa akhir yang dihasilkan oleh seluruh unit ekonomi. PDRB dapat dijadikan sebagai ukuran atau gambaran menyeluruh tentang kondisi perekonomian suatu daerah karena merupakan suatu indikator ekonomi. Pertumbuhan ekonomi Indonesia pada tahun 2010 sebesar 6,4% per tahun, dan Pulau Jawa memberikan kontribusi PDRB sebesar 58,7% terhadap Produk Domestik Bruto (PDB) nasional. Selain dilihat dari sumber pendukung perekonomian secara fisik, pertumbuhan ekonomi dari suatu wilayah tidak lepas dari kualitas SDM dari wilayah tersebut. Pada penelitian ini akan digunakan peubah-peubah yang meliputi faktor penyusun PDRB serta faktor dari kualitas SDM berupa IPM untuk menduga nilai PDRB. Pada penelitian sebelumnya (Fatulloh 2013) tidak menggunakan peubah yang mengandung multikolinieritas dalam menduga nilai PDRB, sehingga pada penelitian ini digunakan peubah penjelas yang mengandung multikolinieritas yang kemudian diatasi dengan menggunakan model GWRR dan GWL.

Tujuan Penelitian Tujuan dari penelitian ini adalah:

1. Membangun model GWRR dan GWL dari data PDRB113 kabupaten/kota di Pulau Jawa tahun 2010.

(18)

TINJAUAN PUSTAKA

Data spasial merupakan data yang memiliki referensi berupa ruang kebumian (georeference) dengan data atribut sebagai pelengkap untuk setiap unit spasialnya. Data atribut merupakan informasi non-spasial yang berfungsi sebagai penjelas objek bagi suatu data spasial. Salah satu cara dasar dalam penyajian data spasial adalah dengan menggunakan titik (point) berupa informasi koordinat dari suatu wilayah pengamatan. Pada penelitian ini, data PDRB diperoleh dari 113 kabupaten/kota yang terdapat di Pulau Jawa sehingga sangat dimungkinkan jika data spasial maupun data atribut memiliki keragaman yang tidak homogen. GWR dipilih karena dinilai mampu mengatasi keragaman spasial dengan membentuk model yang berbeda untuk setiap unit spasialnya. Penggunaan beberapa peubah penjelas pada penelitian ini juga memungkinkan terjadinya masalah multikolinieritas yang kemudian diatasi dengan menggunakan model GWRR dan GWL. Beberapa referensi yang terkait dan mendukung tercapainya tujuan dalam penelitian ini diberikan sebagai berikut.

Uji Heterogenitas Spasial

Perbedaan kondisi sosial-budaya maupun geografis dari beberapa wilayah dapat menyebabkan adanya heterogenitas spasial pada model. Anselin (1988) menggunakan Uji Breusch-Pagan untuk menguji adanya heterogenitas spasial dalam model dengan hipotesis seperti berikut:

� ∶ ��2 = �2 (tidak terdapat heterogenitas spasial)

� ∶ minimal ada satu �_�2 ≠ �2 (terdapat heterogenitas spasial) ; � = , , … , �

Statistik Uji Breusch-Pagan (BP)

� = �� − �_{� ~ �}2

�+ (1)

dengan elemen vektor �

� = �� 2

�2−

dengan :

�� = sisaan untuk pengamatan ke-i dengan matriks berukuran � ×

� = vektor berukuran � ×

� = banyaknya wilayah pengamatan

�2 _{= ragam sisaan}_� �

=matriks berukuran � × � + yang berisi vektor dari X dengan pengamatan yang telah dibakukan.

(19)

pengambilan keputusan pada uji BP tolak � jika BP > χ,2_p+ dimana χ,2_p+ merupakan titik kritis uji �2 dengan taraf nyata .

Multikolinieritas

Draper dan Smith (1998) menyatakan bahwa multikolinieritas disebabkan oleh adanya hubungan linier yang hampir sempurna (near dependence) pada kolom-kolom matriks X dan apabila terjadi hubungan linier yang sempurna akan menyebabkan | � | = sehingga kondisi ini disebut dengan multikolinieritas sempurna (exact multicollinearity).

Jika X merupakan matriks berukuran � × � + dan tiap vektor

, , , … , � pada matriks X tidak memiliki hubungan liner, maka rank (X) = p + 1. Karena X adalah matriks dengan rank penuh (full rank) maka � adalah matriks persegi yang berukuran (p+1) × (p+1) dengan rank ( � ) = rank (X) = p + 1. Jika � merupakan matriks persegi dengan rank penuh, maka

� _{merupakan matriks}_{non-singular,}_sehingga_| � _|_{bersifat unik. Maka dari itu} penyelesaian untuk persamaan berikut juga bersifat unik.

�̂ = � − � ₍₂₎

Namun jika terdapat hubungan linier antar vektor , , , … , _�pada matriks X, maka � bukan merupakan matriks dengan rank penuh sehingga � − _{tidak bersifat unik, yang menyebabkan penyelesaian untuk persamaan} (2) tidak diperoleh secara unik. Multikolinieritas yang ada pada peubah penjelas dalam model regresi linear dapat menyebabkan pendugaan parameter dari model regresi yang dihasilkan memiliki ragam yang besar.Mengidentifikasi adanya multikolinieritas pada peubah penjelas dapat dilakukan dengan melihat hasil pengujian parsial dan serentak pada koefisien model regresi. Jika hasil pengujian parsial menunjukkan peubah-peubah penjelas tidak berpengaruh signifikan sedangkan pada pengujian secara serentak menunjukkan hasil yang sebaliknya atau signifikan maka dicurigai terdapat masalah multikolinieritas pada peubah penjelasnya.

Indikator lain dari adanya multikolinieritas dapat dilihat dari nilai VIF (Variance Inflation Factor) yang merupakan invers dari nilai toleransi − �2 . Nilai toleransi yang mengindikasikan adanya mutikolinearitas bernilai kurang dari 0,20 atau 0,10 dan atau nilai VIF-nya lebih besar dari 5 atau 10. Nilai VIF yang lebih besar dari 10 sangat mempengaruhi dugaan kuadrat terkecil dari koefisien regresi (Friday & Emenonye 2012). Pada pemodelan GWR, nilai VIF dihitung untuk masing-masing peubah penjelasnya pada setiap lokasi pengamatan dengan matriks pembobot sebagai area deteksi kolinieritas pada model GWR. Nilai VIF dinyatakan sebagai berikut :

(20)

dengan �2 _�, _� adalah koefisien determinasi antara dengan peubah penjelas lainnya utuk setiap lokasi _�, _� (Wheeler 2007).

Geographically Weighted Regression (GWR)

Fotheringham et al. (2002) mengatasi data yang memiliki masalah keheterogenan spasial melalui pendugaan titik yang efektif dengan menggunakan GWR. Dalam prinsipnya GWR mengadopsi konsep yang ada pada model regresi linier menjadi model regresi terboboti. Model GWR menerapkan hubungan regresi spasial non-stasioner untuk kasus keheterogenan spasial dengan menghasilkan koefisien model regresi pada masing-masing lokasi. Jika koefisien parameter yang dihasilkan pada setiap lokasi bernilai konstan disebut model regresi global. Model regresi global dinotasikan sebagai berikut:

�� = + ∑�= � + �; � = , , … , � (4)

dengan( , … , _� adalah koefisien parameter lokasi dan sisaan diasumsikan �~� , �2 . Sedangkan notasi untuk model GWR adalah:

�� = �, � + ∑�= �, � � + � ; � = , , … , � (5)

dimana �_� adalah peubah respon pada lokasi ke-i, _� merupakan peubah penjelas ke-k pada lokasi ( _�, _� , adalah koefisien parameter lokal untuk masing-masing lokasi ( _�, _� dan sisaan diasumsikan _�~� , �2 . Ini mengakibatkan setiap lokasi memiliki koefisien parameter yang berbeda-beda sehingga menghasilkan keragaman yang memberi informasi mengenai hubungan regresi antara peubah penjelas dan respon secara lokal.

Leung et al. (2000) menerangkan bahwa pendugaan koefisien parameter lokal dari model GWR dilakukan dengan metode Weighted Least Square (WLS) dari persamaan (5) diturunkan terhadap �� _�, _� , dugaan parameter untuk setiap lokasi ̂ _�, _� adalah sebagai berikut:

� �, � = [ �� , � ]− �� , � (6)

dengan :

=

2 2 22

� 2�

⋮ ⋱ ⋮

� �2 ��

) = � �2

⋮ ��

)

� �, � =

�, �

2 �, �

⋮ ⋮

…⋱ � ⋮�, �

(21)

Fungsi Pembobot Spasial

Untuk membentuk matriks pembobot diperlukan fungsi pembobot yang dipengaruhi oleh ukuran ketetanggaan (neighborhood size) yang seringkali disebut dengan bandwidth atau lebar jendela dan disesuaikan dengan kedekatan titik lokasi pengamatan ke-i. Pada model GWR, koordinat dari data spasial digunakan untuk menghitung jarak antar titik lokasi dari suatu pengamatan yang kemudian menghasilkan bobot antar pengamatan. Matriks pembobot pada GWR dihitung dari suatu fungsi kernel yang menjadikan lokasi pengamatan yang lebih dekat dengan titik lokasi pengamatan ke- � memiliki bobot yang lebih besar daripada lokasi pengamatan yang letaknya lebih jauh. Fungsi fixed exponential kernel digunakan untuk membentuk matriks pembobot karena merupakan fungsi

kernel yang paling sederhana. Fungsi kernel tersebut memiliki nilai bandwidth

yang sama untuk setiap pengamatan dengan bentuk fungsi sebagai berikut:

�, � = � − _ℎ (7)

dengan ℎ pada fungsi kernel merupakan bandwidth pada lokasi pengamatan ke- i. Pada fungsi kernel di atas, _� adalah jarak antara titik di lokasi ke-i dan lokasi

ke-j yang diperoleh dari jarak euclidean seperti berikut ini:

� = √ � − 2+ �− 2 (8)

Sebelum melakukan pemodelan dengan GWR, hal lain yang harus diperhatikan adalah menduga nilai bandwidth. Pendugaannya dilakukan dengan metode Cross Validation leave-one-out pada seluruh lokasi. Bentuk matematis dari CV adalah sebagai berikut:

� ℎ = ∑ [��= � − �̂≠� ℎ ]2 (9)

dengan �̂_≠� ℎ adalah nilai dugaan untuk �_� dengan menghilangkan pengamatan titik lokasi ke- i pada proses prediksi dan bandwidth optimum (h) akan diperoleh dengan proses iterasi sampai diperoleh CV yang minimum (Fotheringham et al.

2002).

Korelasi Pearson Terboboti Geografis

Korelasi Pearson tanpa diberikan pembobot dalam perhitungannya menghasilkan koefisien korelasi yang bersifat global. Maka Kalogitou (2013) memberikan korelasi secara lokal dengan pemberian bobot secara geografis untuk mengetahui kondisi korelasi peubah-peubahnya pada setiap lokasi pengamatan. Koefisien korelasi terboboti geografis untuk dua peubah diberikan sebagai berikut:

�, = ∑ = ( − ̅ − ̅ √∑₌ ( − ̅ √∑₌ − ̅

(10)

(22)

Pengujian Goodness of Fit

Untuk mengetahui apakah model GWR yang diperoleh lebih baik dari Metode Kuadrat Terkecil (MKT) dalam menjelaskan keragaman maka dilakukan pengujian kebaikan model dengan mengukur perbedaan jumlah kuadrat galat (JKG) dari MKT dan GWR. Hipotesis nol menyatakan bahwa kemampuan model GWR dan MKT dalam mendeskripsikan data tidak berbeda. Statistik uji yang digunakan adalah sebagai berikut:

� = _�� /

��/ �−�− (11)

dengan � = � _�− �_�� = �[ − − − � � − � ] = �� dan� = − − − � � − � adalah matriks semidefinit positif, karena

� untuk setiap . � _� = � − , dimana = � − �dan

− bersifat idempoten. �_�� = �[ − � � − � ] .

� = (

�_[ �_� _]− �_� �_[ �_� _]− �_�

⋮

�

�_[ �_{� � ]}− �_{� � )}

Tolak � jika � > � , � − � − , dengan = � dan ₂ = �2 ( Leung et al. 2000).

Regresi Ridge

Hoerl & Kennard (2000) memperkenalkan regresi ridge untuk mengendalikan ketidakstabilan penduga kuadrat terkecil. Regresi ridge mengatasi masalah multikolinieritas dengan cara meminimumkan jumlah kuadrat galat yang menambahkan kendala pada kuadrat terkecil sehingga koefisien menyusut mendekati nol (Hastie et al. 2009). Secara spesifik, penduga koefisien pada regresi ridge diperoleh dengan cara meminimumkan persamaan berikut:

̂_� _{= �rg �i� {∑ (�}_� ₋ _{− ∑} _�

�

=

)

2 �

�=

+ ∑ 2

�

=

}

dengan kendala ∑�₌ 2 �, dimana � merupakan besaran yang mengendalikan besarnya penyusutan dengan nilai � . Pendugaan koefisien dalam bentuk matriks diperoleh dengan cara meminimumkan jumlah kuadrat galat untuk model seperti berikut ini:

= +

(23)

∑ �2 = �� =

��_{� =} _{− �}

� � − ��

dengan syarat pembatas ∑�₌ 2 �, dugaan parameter regresi ridge diperoleh dengan menurunkan jumlah kuadrat galat terhadap ̂, maka diperoleh

�̂� = � + − � (12)

dengan �erup�k�� matriks identitas berukuran � × �, dan adalah tetapan bias yang bernilai positif. Menurut Montgomery & Peck (1992), pemilihan nilai yang optimal dapat diperoleh dengan menggunakan validasi silang terampat atau

Generalized Cross Validation (GCV). Penduga koefisien yang optimal diperoleh dari pemilihan nilai yang menghasilkan nilai GCV paling minimum. Nilai GCV dirumuskan sebagai berikut:

� � = ∑�= ,�

{�−[ + � �]} (13)

dengan,

�,�2 = sisaan kuadrat ke-i untuk nilai c tertentu � = matriks hat

Regresi ridge menghasilkan penduga yang berbias tetapi cenderung stabil dibandingkan dengan hasil dugaan menggunakan MKT.

Geographically Weighted Ridge Regression (GWRR)

Menurut Wheeler (2007), GWRR merupakan salah satu metode yang dapat mengatasi masalah multikolinieritas pada data spasial. GWRR adalah metode perkembangan dari metode regresi ridge, yang membedakan antara metode regresi ridgedan GWRR adalah pada penggunaan pembobot sebagai informasi tambahan.

̂_�_{= �rg �i� {∑ (�}_�₋ _�_, _� _{− ∑}� _� _�_, _�

= 2

�

�= + ∑�= 2 �, � } (14)

Pendugaan koefisien pada GWRR dengan lokasi pengamatan _�, _� dilakukan dengan menambahkan unsur pembobot � _�, _� yang dapat ditulis sebagai berikut:

� �, � = � �, � � + � (15)

(24)

∑ � �, � �2 = �� , � � �

�=

��_�

�, � � = � �, � − �� − ��

dengan syarat pembatas ∑�₌ ̂2 �, maka

��_�

�, � = �� , � − � � �� , � + � � �� , � ��

+ ∑ ̂

�

=

Dugaan parameter GWRR diperoleh dengan menurunkan jumlah kuadrat galat terhadap �̂ _�, _� seperti berikut ini:

��_�

�, � �

�̂ �, � = �_�

�, � − � � �� , � + � � �� , � � + (∑�= ̂

�̂ �, � =

�̂ �, � = �� , � + − �� , � (16)

dengan adalah matriks identitas berukuran � × �, tetapan bias yang bernilai positif, dan � _�, _� merupakan matriks pembobot spasial berdimensi � × �.

Locally Compensated Ridge Geographically Weighted Regression (LCR-GWR) Model GWRR pada persamaan (16) menggunakan satu koefisien bias untuk seluruh lokasi pengamatan. Gollini et al. (2015) memperkenalkan model LCR-GWR yang menggunakan satu koefisien bias untuk suatu lokasi tertentu, jika terdapat N lokasi pengamatan maka terdapat n koefisien bias ridge yang berbeda. Metode tersebut menghasilkan koefisien bias ridge secara lokal. Model regresi pada LCR-GWR adalah sebagai berikut:

�̂ �, � = �� , � + �, � −

�_�

�, � (17)

dengan _�, _� merupakan nilai locally-compensated (LC) dari pada lokasi �, � .

Nilai parameter regresi ridge diperoleh dengan menghubungkan nilai

eigen dan conditional number κ dari perkalian matriks � . Jika diperoleh nilai eigen dari matriks � adalah � , �₂, … , �_� maka nilai eigen dari matriks

� ₊ _adalah_{� + , �}

2+ , … , ��+ . Conditional number κ dari matriks persegi didefinisikan sebagai� /�_�, dengan � merupakan nilai eigen

terbesar dan �_�adalah nilai eigen terkecil. Dengan menggunakan aturan tersebut, maka koefisien bias ridge yang diperoleh dari nilai eigen dan conditional number

(25)

antara nilai eigen dengan conditional number κ dari matriks �� _�, _� , dengan harapan mampu menghasilkan model yang lebih akurat dengan adanya masalah multikolinieritas pada peubah penjelasnya.

Least Absolute Shrinkage and Selection Operator (LASSO)

Metode lasso diperkenalkan pertama kali oleh Tibshirani pada tahun 1996. Penduga koefisien parameter lasso tidak dapat diperoleh dalam bentuk tertutup seperti pada MKT atau regresi ridge, tetapi dengan menggunakan pemrograman kuadratik (Hastie et al. 2009). Lasso didefinisikan sebagai berikut:

( ̂ = �rg �i� {∑ (�� − − ∑�= � 2

+ ∑�₌ | |

�

�= } (18)

dengan syarat ∑�₌ | ̂ | .Tibshirani (1996) menyatakan bahwa konstrain

∑�₌ | ̂ | sama halnya dengan menambahkan penalti ∑�₌ | | pada jumlah kuadrat galat (JKG), sehingga terdapat hubungan langsung antara parameter dan yang mengendalikan jumlah penyusutan dari koefisien regresi. Nilai mutlak konstrain dari koefisien regresi meyebabkan persamaan yang dihasilkan bersifat non-linier sehingga memerlukan pemrograman kuadratik untuk menyelesaikannya. Diketahui bahwa t merupakan suatu besaran yang mengendalikan besarnya penyusutan pada pendugaan koefisien lasso dengan t≥ 0.

Jika merupakan penduga parameter koefisien lasso terkecil dan t0 = ∑�₌ | ̂ |, maka nilai t<t0 akan menyebabkan solusi MKT menyusut ke arah nol, dan memungkinkan beberapa koefisien tepat nol. Jika nilai t yang dipilih lebih besar atau sama dengan t0, maka penduga lasso memberikan hasil yang sama dengan penduga koefisen MKT.

Pedugaan koefisien lasso diperoleh dengan menentukan batas yang dibakukan yaitu s = t /∑�₌ | ̂ | dengan t = ∑�₌ | ̂ | dan ̂ adalah penduga parameter untuk model penuh atau ditulis sebagai | |/ | |. Efron et al. (2004) telah menyelesaikan masalah lasso dengan cara yang menarik yaitu dengan modifikasi algoritma LARS (Least Angle Regression). Adapun algoritma LARS secara umum sebagai berikut:

1. Memulai dengan semua koefisien dari bernilai nol, dan menjadikan sisaan

� =

2. Memilih peubah penjelas yang memiliki koefisien korelasi tertinggi dengan sisaan � .

3. Menduga koefisien untuk _� yang memiliki korelasi tertinggi dengan sisaan �.

4. Menghitung sisaan � = − ̂ dengan peubah penjelas yang masuk ke dalam model.

5. Menghitung korelasi parsial antara peubah penjelas yang tersisa dengan sisaan terbaru.

(26)

Pada tahap penyelesaian lasso dengan algoritma LARS, parameter penyusutan (s) harus diduga terlebih dahulu sebelum solusi akhir lasso. Parameter tersebut digunakan sebagai batasan lassountuk menduga parameter lasso yang berpengaruh signifikan terhadap peubah respon dandidefinisikan sebagai berikut:

= ∑�= |̂ |

∑�₌ | ̂ | (19)

dengan s menyatakan parameter penyusutan (shrinkage) yang memiliki nilai 0 sampai 1.

Geographically Weighted Lasso (GWL)

Konsep dari lasso yang diterapkan dalam suatu pemodelan GWR yang kemudian lebih dikenal dengan GWL merupakan suatu metode spasial yang digunakan untuk mengatasi heterogenitas pada metode MKT serta masalah adanya multikolinieritas lokal. Dengan menggunakan GWL diharapkan dugaan koefisien parameter yang diperoleh lebih stabil sehingga hasil prediksi yang didapatkan lebih akurat. Solusi pada GWL adalah dengan menyelesaikan formulasi lasso terkendala berikut:

̂ = �rg �i� {∑ (��=� �− �, � − ∑�= � �, � 2+ ∑�= | �, � |} (20)

Dengan batasan kendala yang mensyaratkan ∑�₌ | _�, _� | _� yang bersifat mutlak, maka solusi GWL juga menggunakan algoritma LARS dengan tambahan matriks pembobot pada matriks peubahnya. Pendugaan parameter akhir lasso dilakukan secara serentak sehingga solusi akhir lasso tergantung pada bandwidth

kernel yang telah diduga sebelumnya (Wheeler 2009). Langkah-langkah yang dilakukan dalam pendugaan parameter GWL sebagai berikut:

1. Menduga bandwith kernel yang optimum dengan metode Cross Validation

(CV).

2. Menghitung matriks pembobot W berukuran � × �. 3. Untuk setiap lokasi � = , , … , �.

a) � � = � (� �

b) _� = � dan = � /2 � menggunakan akar kuadrat dari pembobot kernel � � di setiap lokasi ke-i.

c) Panggil algoritma lars _�, _{pada software R, kemudian simpan solusi} lasso, kemudian temukan solusi lasso yang meminimumkan sisaan untuk �_�.

4. Dugaan parameter akhir lasso sesuai dengan CV berdasarkan fraksi dari nilai penyusutan _�.

Pada langkah – langkah pendugaan parameter pada model GWL, nilai parameter penyusutan (s) harus diduga terlebih dahulu sebelum solusi akhir lasso. Dugaan parameter penyusutan (s) pada model GWL dilakukan dengan metode

(27)

METODE PENELITIAN

Data

Metode GWRR dan GWL digunakan pada data yang meliputi 113 kabupaten/kota di Pulau Jawa. Data yang digunakan dalam penelitian ini adalah data sekunder yang berasal dari Badan Pusat Statistik (BPS), yaitu data Potensi Desa (PODES), Produk Domestik Regional Bruto (PDRB) kabupaten/kota, dan jumlah penduduk tingkat kabupaten/kota pada tahun 2010. Peubah respon yang digunakan adalah data PDRB pada setiap kabupaten/kota di Pulau Jawa. Peubah penjelas dikelompokkan menjadi dua gugus data.Gugus data pertama merupakan data yang dianggap relevan untuk menduga nilai PDRB yang meliputi informasi mengenai sumber daya manusia pada suatu kabupaten/kota, fasilitas pendidikan, maupun fasilitas perekonomian yang disediakan oleh pemerintah daerah. Gugus data pertama terdiri dari 8 peubah penjelas dengan rincian sebagai berikut :

Tabel 1 Peubah penjelas gugus data pertama

Peubah Keterangan Satuan

X1 Persentase penduduk miskin persen

X2 Persentase RT (rumah tangga) menggunakan listrik persen

X3 Jumlah fasilitas pendidikan unit

X4 Indeks Pembangunan Manusia (IPM) -

X5 Rata-rata lama sekolah tahun

X6 Persentase desa mayoritas menggunakan gas persen

X7 Jumlah pertokoan dan pasar permanen unit

X8 Jumlah hotel dan penginapan unit

Peubah penjelas untuk gugus data kedua meliputi 11 peubah yang dianggap relevan dalam mengevaluasi pengaruh adanya masalah multikolinieritas terhadap model dugaan dengan rincian sebagai berikut :

Tabel 2 Peubah penjelas gugus data kedua

Peubah Keterangan Satuan

X1 Persentase penduduk miskin persen

X2 Persentase RT (rumah tangga) menggunakan listrik persen

X3 Jumlah fasilitas pendidikan unit

X4 Indeks Pembangunan Manusia (IPM) -

X5 Rata-rata lama sekolah tahun

X6 Persentase desa mayoritas menggunakan gas persen

X7 Jumlah pertokoan dan pasar permanen unit

X8 Jumlah hotel dan penginapan unit

X9 Angka Harapan Hidup tahun

X10 Pengeluaran perkapita ribu rupiah

(28)

Metode Analisis

Adapun tahapan-tahapan yang dilakukan untuk mencapai tujuan dalam penelitian ini juga dibagi menjadi dua bagian karena penggunaan peubah dengan tujuan berbeda. Tahapan yang dilakukan pada gugus data pertama untuk menduga nilai PDRB pada 113 kabupaten/kota di Pulau Jawa tahun 2010 adalah sebagai berikut :

1. Melakukan eksplorasi data dari peubah penjelas bagian pertama dan peubah respon untuk mengetahui gambaran umum data.

2. Melakukan pemodelan regresi linier dengan metode kuadrat terkecil (MKT). 3. Melakukan pengujian dengan uji Breusch-Pagan untuk mengetahui adanya

keheterogenan spasial pada data.

4. Melakukan pemodelan GWR dengan tahapan sebagai berikut :

a) Menduga nilai bandwidth (h) dengan fungsi fixed exponential kernel

yang meminimumkan nilai Cross Validation pada persamaan (9).

b) Membentuk matriks pembobot � _�, _� untuk setiap lokasi pengamatan dengan menggunakan bandwidth (h) yang diperoleh sebelumnya.

c) Menduga nilai koefisien dugaan parameter regresi untuk setiap lokasi berdasarkan matriks pembobot sehingga diperoleh model lokal.

5. Mendeteksi multikolinieritas lokal dengan VIF seperti pada persamaan (3) dan mencari nilai koefisien korelasi terboboti geografis dengan menggunakan persamaan (10).

6. Melakukan pemodelan GWRR dengan tahapan sebagai berikut :

a) Menduga nilai koefisien bias dan bandwidth (h) dengan fungsi fixed exponential kernel secara simultan sampai diperoleh nilai bandwidth (h) yang optimal dengan menggunakan Cross Validation.

c) Menduga nilai koefisien dugaan parameter regresi untuk setiap lokasi berdasarkan matriks pembobot dan koefisien bias yang diperoleh sebelumnya seperti pada persamaan (16).

d) Memodelkan data dengan LCR-GWR yang menggunakan koefisien bias

ridge lokal berbeda untuk setiap lokasi pengamatan seperti pada persamaan (17).

7. Melakukan pemodelan GWL pada data menggunakan algoritma LARS dengan modifikasi penambahan matriks pembobot pada peubah-peubahnya.

8. Memetakan hasil dugaan dari model GWR, GWRR dan GWL untuk dapat membandingkan hasil dugaan secara visual.

9. Membandingkan nilai RMSE dan �2 yang diperoleh pada model GWR, GWL dan GWRR untuk mengetahui metode yang terbaik dalam menduga nilai PDRB.

�� = √_�∑ [��= �− �̂�]2 (21)

�2 ₌ _{− � /} ₍₂₂₎

(29)

Untuk mengetahui kekonsistenan metode dalam mengatasi multikolinieritas dapat diketahui dengan melakukan pemodelan pada gugus data kedua. Tahapan yang dilakukan adalah sebagai berikut :

1. Melakukan pemodelan GWR dengan tahapan sebagai berikut :

a) Menduga nilai bandwidth (h) dengan fungsi fixed exponential kernel

yang meminimumkan nilai Cross Validation pada persamaan (9).

c) Menduga nilai koefisien dugaan parameter regresi untuk setiap lokasi berdasarkan matriks pembobot sehingga diperoleh model lokal.

2. Mendeteksi multikolinieritas lokal dengan VIF seperti pada persamaan (3). 3. Melakukan pemodelan GWRR dengan tahapan sebagai berikut :

a) Menduga nilai koefisien bias dan bandwidth (h) dengan fungsi fixed exponential kernel secara simultan sampai diperoleh nilai bandwidth (h) yang optimal dengan menggunakan Cross Validation.

c) Menduga nilai koefisien dugaan parameter regresi untuk setiap lokasi berdasarkan matriks pembobot dan koefisien bias yang diperoleh sebelumnya seperti pada persamaan (16).

d) Memodelkan data dengan LCR-GWR yang menggunakan koefisien bias

ridge lokal berbeda untuk setiap lokasi pengamatan seperti pada persamaan (17).

4. Melakukan pemodelan GWL pada data menggunakan algoritma LARS dengan modifikasi penambahan matriks pembobot pada peubah-peubahnya.

5. Membandingkan nilai RMSE dan �2 yang diperoleh pada model GWR, GWL dan GWRR untuk mengetahui metode yang terbaik dalam menduga nilai PDRB ketika antarpeubah penjelasnya terdapat multikolinieritas yang tinggi.

�� = √_�∑ [��= � − �̂�]2 (23)

�2 ₌ _{− � /} ₍₂₄₎

dengan (Jumlah Kuadrat Total) = ∑�_�= �_�− �̅ 2dan � (Jumlah Kuadrat Galat) = ∑�_�= �_�− �̂_� 2 (Fotheringham et al. 2002).

(30)

HASIL DAN PEMBAHASAN

Eksplorasi Data

Eksplorasi data spasial diperlukan untuk mengetahui informasi awal mengenai data. Data yang digunakan dalam penelitian ini adalah data PDRB pada 113 kabupaten/kota di pulau Jawa pada tahun 2010. Berikut ini adalah pemetaan data PDRB (dalam milyar rupiah) di seluruh lokasi pengamatan.

Gambar 1 Peta PDRB pada setiap kabupaten/kota di Pulau Jawa tahun 2010

(31)

Tabel 3 Statistik deskriptif peubah respon dan penjelas

Peubah Minimum Rata-rata Maksimum Simpangan

Baku

Y 750 11.468 102.860 18.420

X1 1,670 12,837 25,220 5,359

X2 94,353 99,355 100 0,933

X3 191 2.131 7.781 1.413

X4

X5

62,940 5,540

72,523 7,988

79,520 11,480

3,404 1,513

X6 12,280 72,700 100 26,400

X7 2.396 14.938 55.080 8.994

X8 4 78,600 1.050 124,300

Hubungan antar peubah respon dan peubah penjelasnya dapat dilihat dari koefisien korelasi yang dihasilkan. Korelasi yang digunakan adalah Pearson Correlation dengan =0,10. Berikut ini merupakan koefisien korelasi antara 8 peubah penjelas dan peubah responnya.

Tabel 4 Koefisien korelasi antara peubah respon dan penjelas

Peubah X1 X2 X3 X4 X5 X6 X7 X8

Y -0,459 0,168 0,096 0,404 0,448 0,353 0,372 0,186

p-value 0,000 0,076 0,311 0,000 0,000 0,000 0,000 0,048

Tabel 4 menginformasikan bahwa beberapa peubah penjelas bepengaruh signifikan bagi peubah respon. Kecuali peubah X3 yang memiliki koefisien

korelasi sangat kecil terhadap peubah respon. Peubah persentase penduduk miskin (X1) memiliki korelasi negatif dengan nilai PDRB yang berarti bahwa semakin

meningkatnya persentase kemiskinan di suatu wilayah, maka nilai PDRB akan semakin menurun. Peubah lainnya seperti persentase RT mengunakan listrik (X2),

IPM (X4), rata-rata lama sekolah (X5), persentase desa menggunakan gas (X6),

jumlah toko dan pasar permanen (X7), serta jumah hotel dan penginapan (X8)

berkorelasi positif dengan nilai PDRB. Beberapa peubah tersebut merupakan unsur penyusun PDRB atas dasar harga konstan 2000, walaupun terdapat beberapa peubah yang memiliki nilai korelasi kecil terhadap PDRB, peubah tersebut tetap dianalisis dalam pemodelan.

(32)

Gambar 2 Scatterplot hubungan antarpeubah penjelas

Pemodelan Regresi Linier

Pemodelan regresi linier ini bertujuan untuk melakukan analisis awal pada data PDRB. Pendugaan parameter pada regesi linier menggunakan MKT. Pada Tabel 5 tercantum ringkasan hasil pendugaan parameter beserta pengujian parsial pada setiap dugaan parameter.

Tabel 5 Hasil pengujian parsial dari dugaan parameter dengan MKT

Peubah Koefisien p-value VIF

Intersep -68,7 0,706

X1 -0,635 0,090 2,162

X2 -0,015 0,994 1,799

X3 -0,003 0,133 4,754

X4 0,7629 0,419 5,620

X5 3,151 0,221 8,202

X6 -0,046 0,565 2,443

X7

X8

0,001 -0,018

0,000 0,162

3,883 1,428

Tabel 6 Hasil analisis ragam dengan MKT

Sumber db JK KT F p-value �2

Regresi 8 16746,3 2093,3 10,24 0,000 44,1%

Galat 104 21266,9 204,5

Total 112 38013,2

(33)

peubah X4 dan X5 menghasilkan nilai VIF>5. Pengujian parameter secara serempak memberikan p-value sebesar 0,000, sehingga dinyatakan bahwa seluruh peubah penjelasnya memberikan pengaruh yang nyata terhadap nilai PDRB, namun nilai �2yang dihasilkan hanya sebesar 44,1%. Hal ini bertentangan dengan hasil pengujian secara parsial, ini bisa disebabkan karena besarnya nilai standard error akibat dari ragam yang tidak homogen sehingga berdampak pada kesalahan interpretasi hasil pengujian. Adanya heterogenitas ragam dapat dilihat dari plot antara sisaan terhadap nilai dugaan PDRB yang membentuk pola tertentu atau tidak menyebar acak di sekitar nol seperti pada Lampiran 1.

Pengujian Pengaruh Heterogenitas Spasial

Pada Gambar 1, nilai PDRB berbeda-beda pada setiap lokasi dan sangat beragam, sehingga dimungkinkan untuk melakukan analisis secara spasial. Untuk mengetahui adanya keragaman spasial antar lokasi pengamatan dapat diketahui dengan melakukan uji Breusch-Pagan dengan hipotesis sebagai berikut :

� ∶ ��2 = ∀� = , , … , � ( tidak terdapat heterogenitas spasial)

� ∶ Paling sedikit ada satu �_�2 ≠ (terdapat heterogenitas spasial)

Hipotesis� ditolak jika hasil uji Breusch-Pagan lebih besar dari nilai

��+2 dengan � merupakan banyaknya peubah penjelas. Pengujian yang dilakukan menghasilkan nilai Chi-square sebesar 14,266 lebih besar dari �2_{; ,} =13,361 dengan p-value 0,075, sehingga dapat disimpulkan bahwa terdapat pengaruh heterogenitas spasial di setiap lokasi pengamatan pada taraf nyata = 0,10. Apabila analisis dengan mengunakan MKT tetap diterapkan pada data maka hasil pendugaan yang diperoleh akan memiliki ragam dugaan parameter yang besar.

Pemodelan Geographically Weighted Regression (GWR)

Pengujian dengan Uji Breusch-Pagan menunjukkan adanya keragaman data PDRB secara spasial yaitu ragam yang tidak homogen antarlokasipengamatan, sehingga diperlukan pemodelan yang dapat mengatasi keragaman spasial dengan membentuk model regresi pada setiap lokasi pengamatan. Untuk memperoleh model pada setiap lokasi diperlukan bandwidth

yang diperoleh dengan metode Cross Validation (CV) seperti pada persamaan (9) yang selanjutnya digunakan untuk memperoleh matriks pembobot pada proses pendugaan parameternya. Fungsi pembobot yang digunakan untuk membentuk matriks pembobot pada penelitian ini adalah fungsi fixed exponential kernel

karena merupakan fungsi kernel yang paling sederhana, dengan menggunakan jarak euclidean berdasarkan informasi derajat lintang dan bujur dari lokasi pengamatan.

(34)

lokasi pengamatan masih memberikan pengaruh pada nilai PDRB lokasi pengamatan tersebut. Setelah diperoleh nilai bandwidth, langkah selanjutnya adalah membentuk matrik pembobot. Matrik pembobot � yang diperoleh untuk seluruh lokasi dapat dilihat Pada Tabel 7, jika suatu lokasi semakin jauh dari titik lokasi pengamatan maka nilai pembobotnya semakin menurun sehingga pengaruhnya semakin kecil. Matriks pembobot yang digunakan untuk pendugaan parameter di lokasi pengamatan _�, _� adalah matriks diagonal � _{� �} dengan unsur diagonalnya merupakan elemen baris dari matrik pembobot � untuk lokasi pengamatan _�, _� . Pengujian kebaikan model GWR dilakukan dengan menggunakan persamaaan (11) diperoleh nilai F-hitung sebesar 1,996. Nilai

� , (42,07;104) = 1,501 maka tolak � yang berarti bahwa model GWR mampu mendeskripsikan data dengan lebih baik jika dibandingkan dengan model MKT pada taraf nyata 5%.

Tabel 7 Matriks pembobot pada model GWR

Lokasi Jakarta

Tabel 8 Ringkasan pendugaan parameter pada model GWR

Koefisien Minimum Rata-rata Maksimum

̂ _-214,7429 _-35,9970 _240,0378

(35)

koefisien dugaan parameter yang bernilai negatif pada setiap lokasi pengamatan. Peubah X6 (persentase desa mayoritas menggunakan gas) memiliki tanda koefisien dugaan parameter yang bernilai positif terhadap nilai PDRB. Peubah X3 (jumlah fasilitas pendidikan), dan X5 (rata-rata lama sekolah) memiliki rata-rata koefisien dugaan parameter yang bernilai negatif.

Gambar 3 Peta dugaan nilai PDRB pada model GWR.

Peta hasil dugaan nilai PDRB pada model GWR (Gambar 3), menunjukkan bahwa terdapat 63 kabupaten/kota dengan PDRB sangat tinggi, 17 kabupaten/kota dengan PDRB sedang, 33 kabupaten/kota dengan PDRB rendah. Pada model GWR, nilai RMSE yang diperoleh adalah 11,4767 dengan R2 bernilai 60,84%. Selanjutnya untuk mengetahui adanya multikolinieritas lokal pada model GWR dapat dilihat dari nilai VIF lokal. Nilai VIF pada Tabel 9 menunjukkan bahwa terdapat multikolinieritas lokal pada peubah penjelas dilihat dari beberapa nilai VIF yang lebih besar dari 10. Sebagai contoh, VIF untuk peubah X5 di lokasi Jakarta Selatan bernilai 13,1419 artinya nilai standard error bagi koefisien dugaan parameter pada peubah X5 akan meningkat sebesar 3,6251 (√13,1419) kali dibandingkan dengan standard error koefisien peubah X5 jika tanpa berkorelasi dengan peubah lain.

Tabel 9 Ringkasan nilai VIF untuk gugus data pertama pada seluruh lokasi

Peubah X1 X2 X3 X4 X5 X6 X7 X8

Minimum 1,8645 1,4501 2,0141 4,2818 6,2115 2,2056 1,4380 1,1428

Rata-rata _{2,2014 1,9598 2,4633} 7,5152 10,0611 2,7773 1,5929 1,2459

Maksimum 2,8975 4,1634 4,3841 14,3322 17,9437 5,3656 1,8374 1,4370

VIF >5 0 0 0 84 113 0 0 0

VIF > 7,5 0 0 0 40 74 0 0 0

VIF > 10 0 0 0 28 39 0 0 0

(36)

Pada Tabel 4 dapat dilihat bahwa peubah X3 memiliki p-value yang tidak signifikan pada taraf nyata 10%, dengan koefisien korelasi bernilai 0,096 yang artinya hampir tidak ada hubungan antara jumlah fasilitas pendidikan terhadap nilai PDRB. Namun peubah X3 tetap dianalisis pada tahap selanjutnya karena berdasarkan nilai korelasi Pearson yang diboboti secara geografis seperti pada persamaan (10) diperoleh beberapa wilayah yang memiliki nilai korelasi signifikan antara peubah X3 dengan PDRB. Nilai koefisien korelasi terboboti geografis antara peubah respon dengan peubah-peubah penjelasnya diberikan secara lengkap pada Lampiran 5 dan 6.

Pemodelan Geographically Weighted Ridge Regression (GWRR)

Konsep metode regresi ridge yang diterapkan pada GWR mampu mengatasi multikolinieritas pada data spasial. Pemodelan dengan metode GWRR dilakukan untuk menangani masalah multikolinieritas pada GWR dengan menambahkan koefisien bias ( tertentu pada matriks dugaan parameternya (Wheeler 2007). Hasil dugaan parameter pada model GWRR bersifat bias namun memiliki ragam yang lebih kecil daripada GWR. Pada GWRR, nilai diperoleh secara simultan dengan metode iterasi untuk setiap bandwidth (h), sehingga nilai dan h yang terpilih untuk pendugaan adalah yang meminimumkan nilai CV. Kemudian parameter tersebut digunakan untuk menduga koefisien pada GWRR. Nilai yang diperoleh untuk memodelkan GWRR adalah 1,8435 untuk seluruh lokasi pengamatan dengan dugaan bandwidth bernilai 0,09.

Tabel 10 Ringkasan hasil pendugaan parameter pada model GWRR

Koefisien Minimum Rata-rata Maksimum

̂ _0,14194 _1,14053 _7,65449

̂ _-0,01195 _0,12776 _1,44200

̂₂ _0,00141 _0,01146 _0,07663

̂ _-0,00028 _0,00047 _0,00274

̂ _0,00181 _0,01572 _0,10040

̂ _0,01296 _0,13691 _0,75112

̂ _0,00037 _0,01421 _0,07712

̂ _-0,00002 _0,00007 _0,00032

̂ _-0,00739 _0,01560 _0,10540

(37)

Peta hasil dugaan nilai PDRB pada model GWRR seperti yang tertera pada Gambar 4, menunjukkan bahwa terdapat 33 kabupaten/kota dengan PDRB tinggi, 38 kabupaten/kota dengan PDRB sedang, dan 42 kabupaten/kota dengan PDRB rendah. Nilai RMSE yang dihasilkan pada pemodelan dengan GWRR yaitu 7,5553 dengan R2 sebesar 83,03%. Jika dibandingkan dengan hasil pemodelan GWR, maka GWRR menghasilkan model dugaan yang lebih baik dengan nilai RMSE yang lebih rendah dan R2 yang lebih tinggi.

Gambar 4 Peta dugaan nilai PDRB pada model GWRR.

Pemodelan LCR-GWR

Jika data dimodelkan dengan menggunakan LCR-GWR seperti pada persamaan (17) maka setiap lokasi pengamatan memiliki koefisien ridge yang berbeda. Model dugaan yang dibangun untuk setiap lokasi diberikan secara lengkap pada Lampiran 3. Pemetaan hasil dugaan nilai PDRB dari model LCR-GWR diberikan pada Gambar 5 berikut:

Gambar 5 Peta dugaan nilai PDRB pada model LCR-GWR

(38)

10. Nilai R2 yang dihasilkan oleh pemodelan dengan menggunakan LCR-GWR sebesar 61,31%, dengan RMSE sebesar 11,4081.

Pemodelan Geographically Weighted Lasso (GWL)

Konsep dari lasso yang diterapkan dalam pemodelan GWR yang kemudian lebih dikenal dengan Geographically Weighted Lasso (GWL) merupakan suatu metode spasial yang digunakan untuk mengatasi heterogenitas pada metode MKT sekaligus kolinearitas lokal (Wheeler 2009). GWL menghasilkan dugaan koefisien parameter yang efisien sehingga hasil prediksi yang diperoleh lebih akurat. Seperti pada pemodelan dengan menggunakan lasso, koefisien regresi pada GWL juga akan disusutkan ke nol melalui koefisien

shrinkage yang diberikan. Dengan demikian, koefisien yang bernilai nol tersebut sudah pasti tidak berpengaruh pada model. Nilai bandwidth yang diperoleh dari proses iterasi menggunakan CV pada GWL bernilai 0,09. Koefisien penyusutandiperoleh dengan metode CV, nilai bandwidth dan koefisien penyusutan yang dihasilkan kemudian digunakan untuk menduga parameter GWL. Hasil model dugaan GWL dan koefisien penyusutan untuk seluruh lokasi pengamatan diberikan pada Lampiran 4.

Gambar 6 Peta dugaan nilai PDRB pada model GWL

(39)

Kekonsistenan Metode Terhadap Multikolinieritas

Untuk memperoleh metode yang konsisten dalam mengatasi masalah multikolinieritas dapat dilihat dari hasil analisis model dengan menggunakan sebelas peubah. Penambahan 3 peubah bertujuan untuk meningkatkan multikolinieritas pada peubah-peubah penjelasnya dilihat dari nilai VIF yang dihasilkan.Tabel 11 merupakan nilai VIF yang dihasilkan pada model MKT. Pada tabel dapat dilihat bahwa peubah X2, X4, X5, X7, X9, dan X11 memiliki nilai VIF > 5, bahkan nilai VIF peubah X4, X5, dan X9 lebih besar dari 10.

Tabel 11 Nilai multikolinieritas untuk gugus data kedua pada model dengan MKT Peubah VIF

X1 2,487

X2 2,403

X3 5,593

X4 55,520

X5 10,408

X6 3,714

X7 4,511

X8 1,466

X9 14,272

X10 3,698

X11 9,963

Tabel 12 Ringkasan nilai VIF untuk gugus data kedua pada seluruh lokasi Peubah Minimum Rata-rata Maksimum VIF>5 VIF>7,5 VIF>10

X1 2,163 2,411 2,966 0 0 0

X2 1,905 2,308 3,985 0 0 0

X3 2,208 2,718 4,455 0 0 0

X4 25,810 95,159 256,448 113 113 113

X5 6,514 16,516 39,099 113 88 65

X6 3,332 3,824 5,171 0 0 0

X7 1,508 1,620 1,796 0 0 0

X8 1,154 1,260 1,400 0 0 0

X9 8,214 22,137 60,038 113 113 82

X10 2,775 5,105 10,026 41 22 1

X11 6,990 13,026 22,293 113 102 60

(40)

melebihi 5. Nilai RMSE yang diperoleh dengan pemodelan GWR adalah 6,5258 dengan R2 sebesar 87,34%.

(a)

(b)

(c)

(d)

(41)

Pemodelan GWRR dan GWL pada gugus data kedua dilakukan untuk mengetahui kekonsistenan metode dalam mengatasi multikolinieritas. Nilai RMSE bagi model GWRR adalah 7,1845 dengan R2 sebesar 84,65%. Sedangkan nilai RMSE bagi model GWL adalah 2,9346 dengan R2 sebesar 97,43%. Untuk mempermudah dalam membandingkan hasil dugaan, berikut ini diberikan peta pada Gambar 7 mengenai hasil dugaan nilai PDRB pada 113 Kabupaten/Kota dari model GWR, GWRR, dan GWL.

Hasil dugaan nilai PDRB untuk 113 kabupaten/kota di Pulau Jawa berbeda pada setiap model. Pada model GWR Gambar 7(a) dapat dilihat bahwa nilai dugaan terbesar adalah 81.690,573 milyar rupiah, Cianjur dengan PDRB berada di kategori tinggi, masuk ke kategori sedang jika dimodelkan dengan GWR. Kabupaten/kota dengan nilai PDRB rendah seperti Grobogan, Ngawi, Sragen hasil dugaannya masuk ke dalam kategori sedang. Terdapat beberapa wilayah dengan pendugaan yang kurang sesuai jika dimodelkan dengan GWR. Ini bisa disebabkan karena ragam dugaan pada model GWR masih tinggi dikarenakan masalah multikolinieritas antara peubah penjelas yang belum diatasi. Hasil dugaan PDRB tertinggi yang diperoleh dengan model GWRR pada Gambar 7(b) senilai 66.021,291 milyar rupiah. Pada model GWRR, hasil dugaan PDRB wilayah Kab. Sukabumi dan Cianjur masuk ke kategori sedang dengan nilai PDRB yang tinggi. Begitupun hasil pendugaan wilayah Boyolali dan Kab. Magelang termasuk ke dalam wilayah dengan PDRB rendah, sedangkan nilai PDRB yang sebenarnya termasuk ke dalam kategori sedang.

Dari peta dugaan nilai PDRB dengan menggunakan model LCR-GWR pada Gambar 7(c) dapat dilihat bahwa nilai dugaan PDRB tertinggi yaitu sebesar 73.694,756 milyar rupiah. Pada pemodelan dengan LCR-GWR, nilai conditional number (κ) yang digunakan untuk memperoleh koefisien ridge yaitu � > 30, karena pada gugus data kedua nilai multikolinieritas antara peubah-peubah penjelasnya sangat tinggi. Hasil dugaan model GWL pada Gambar 7(d) memberikan nilai dugaan PDRB tertinggi sebesar 87.633,285 milyar rupiah yang merupakan nilai dugaan bagi PDRB di Kota Surabaya. Pada model GWL masih ditemukan beberapa hasil pendugaan yang belum tepat seperti pada wilayah Kab. Sukabumi, Tulungagung, dan Kota Depok. Jika dilihat dari rentang nilai dugaan yang dihasilkan, model GWL menghasilkan dugaan yang mendekati nilai PDRB sebenarnya. Perbandingan dari performa model GWR, GWRR, LCR-GWR, dan GWL untuk gugus data pertama diberikan pada Tabel 13.

Tabel 13 Perbandingan model GWR, GWRR, LCR-GWR, dan GWL gugus data pertama

Model GWR GWRR LCR-GWR GWL

Bandwidth 2,1158 0,09 2,0181 0,09

RMSE 11,4767 7,5553 11,4081 2,3379

R2 _60,84% _83,03% _61,31% _98,37%

(42)

hasil yang tidak lebih baik dari GWRR, namun sedikit lebih baik dari GWR. Pemodelan dengan LCR-GWR diharapkan mampu mengatasi masalah multikolinieritas pada data karena setiap lokasi pengamatan memiliki nilai koefisien ridge yang berbeda, namun hasil dari pemodelan pada data tidak mendukung hal tersebut dikarenakan parameter yang digunakan dalam pemodelan sangat banyak sehingga tidak efektif.

Tabel 14 Perbandingan model GWR, GWRR, LCR-GWR, dan GWL gugus data kedua

Model GWR GWRR LCR-GWR GWL

Bandwidth 0,4245 0,09 2,2195 0,09

RMSE 6,5258 7,1845 11,0351 2,9346

R2 _87,34% _84,65% _63,80% _97,43%

(43)

SIMPULAN DAN SARAN

Simpulan

Berdasarkan tujuan dan hasil dari penelitian yang telah dilakukan, diperoleh kesimpulan bahwa metode pada model GWRR dan GWL untuk gugus data pertama mampu mengatasi masalah akibat adanya heterogenitas spasial sekaligus multikolinieritas lokal pada data PDRB dari 113 kabupaten/kota di Pulau Jawa tahun 2010 dengan membentuk model regresi yang lebih stabil dilihat dari RMSE dan R2 yang dihasilkan. Penggunaan parameter yang sangat banyak seperti pada LCR-GWR dinilai tidak efektif dalam memodelkan data PDRB dari 113 kabupaten/kota di Pulau Jawa. Berdasarkan RMSE yang diperoleh dari keempat model pada gugus data pertama maupun kedua, GWL memiliki keakuratan dugaan dan tingkat kestabilan yang lebih baik dari GWR, GWRR, maupun LCR-GWR. GWL dinilai lebih konsisten dalam menangani masalah multikolinieritas lokal walaupun antarpeubah penjelas memiliki tingkat multikolinieritas yang tinggi.

Saran

(44)

D

AFTAR PUSTAKA

Anselin L. 1988. Spatial Econometrics: Methods and Models. Dordrecht(NL): Kluwer Academic.

[BPS] Badan Pusat Statistik. 2014. Tinjauan Regional Berdasarkan PDRB Kabupaten/Kota 2010-2013 Pulau Jawa-Bali. Jakarta (ID): BPS.

Draper NR, Smith H. 1998. Applied Regression Analysis. Ed ke-3. New York (US): John Wiley & Sons..

Efron B, Hastie T, Johnstone I, Tibshirani R. 2004. Least Angle Regression. The Annals of Statistics 32(2): 407-451.

Fatulloh. 2013. Penerapan Regresi Terboboti Geografis untuk Data Produk Domestik Regional Bruto (Studi Kasus: 113 Kabupaten/Kota di Pulau Jawa Tahun 2010) [Skripsi]. Bogor (ID) : IPB Pr.

Friday OR, Emenonye C. 2012. The Detention and Correction of Multicollinearity Effects in a Multiple Regression Diagnostics. Elixir Statistics 49:10108-10112.

Fotheringham AS, Brunsdon C, Charlton M. 2002. Geographically Weighted Regression the Analysis of Spatially Varying Relationships. England (GB): John Wiley and Sons.

Gollini I, Lu B, Charlton M, Brunsdon C, Harris P. 2015. GWmodel: An R Package for Exploring Spatial Heterogeneity Using Geographically Weighted Models. Journal of Statistical Software 63(17): 1-50

Hastie T, Tibshirani R, Friendman J. 2009. The Elements od Statistical Learning Data Mining, Inference, and Prediction. New York (US): Springer.

Hocking RR. 2003. Methods and Applications of Linear Models. Ed ke-2. New York (US): John Wiley & Sons.

Hoerl AE, Kennard RW. 2000. Ridge Regression: Biased Estimation for Nonortogonal Problems. Technometrics 12: 80-86.

Kalogirou S. 2013. Testing Geographically Weighted Multicollinearity Diagnostics. GISRUK 2013; 2013 April 3-5; Liverpool. UK. Tersedia pada: http://gisc.gr/docs/sk_papers/2_7_Kalogirou_2013.pdf

Leung Y, Mei CL, Zhang WX. 2000. Statistical Test for Spatial Nonstationarity Based on The Geographically Weighted Regression Model. Environment and Planning A 32 : 9-32

Montgomery DC, Peck EA. 1992. Introduction to Linier Regression Analysis. Ed ke-2. New York (US): John Wiley & Sons.

Munikah T, Pramoedyo H, Fitriani R. 2014. Pemodelan Geographically Weighted Regression dengan Pembobot Fixed Gaussian Kernel pada Data Spasial (Studi Kasus KetahananPangan di Kabupaten Tanah Laut Kalimantan Selatan). Natural B, Vol. 2, No.3.

Ramadhan AZ. 2013. Perbandingan Metode Geographically Weighted Lasso

(GWL)- Lokal dan Metode Geographically Weighted Lasso (GWL)- Global Dalam Mengatasi Kasus Multikolinieritas Lokal Pada Metode

Geographically Weighted Regression (GWR) [Skripsi]. Malang (ID): Brawijaya Univ Pr.

(45)

TibshiraniR. 1996. Regression Shrinkage and Selection Via The Lasso. Journal of the Royal Statistical Society B 58(1): 267-288.

Wheeler D, Tiefelsdorf M. 2005. Multicollinearity and Correlation Among Local Regression Coefficients in Geographically Weighted Regression. J Geograph Syst (2005) 7: 161-187.

Wheeler DC. 2007. Diagnostic Tools and a Remedial Method for Collinearity in Geographically Weighted Regression. Environment and Planning A 39: 2464-2481.