• Tidak ada hasil yang ditemukan

PEMODELAN STATISTICAL DOWNSCALING DENGAN PENDEKATAN REGRESI KONTINUM-PCA (STUDI KASUS : STASIUN PONTIANAK DAN AMBON)

N/A
N/A
Protected

Academic year: 2021

Membagikan "PEMODELAN STATISTICAL DOWNSCALING DENGAN PENDEKATAN REGRESI KONTINUM-PCA (STUDI KASUS : STASIUN PONTIANAK DAN AMBON)"

Copied!
8
0
0

Teks penuh

(1)

1

PEMODELAN STATISTICAL DOWNSCALING

DENGAN PENDEKATAN REGRESI KONTINUM-PCA

(STUDI KASUS : STASIUN PONTIANAK DAN AMBON)

Hendy Purnomoadi1, Setiawan2, Sutikno2

1

Mahasiswa S2 Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya

2

Staf Pengajar Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya email: heend_free@yahoo.com, setiawan@statistika.its.ac.id, sutikno@statistika.its.ac.id

Abstrak

Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM dapat dimodelkan dengan regresi. Pendekatan SD disusun berdasarkan adanya hubungan antara grid skala besar (prediktor) dan grid skala lokal (respon) yang dinyatakan dengan model statistik yang dapat digunakan untuk menterjemahkan anomali-anomali skala global menjadi anomali dari beberapa variabel iklim lokal. Pada umumnya model SD melibatkan data deret waktu dan data spasial GCM. Data GCM merupakan data spasial dan temporal dimana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Adanya masalah mulikolinearitas mengharuskan perlunya pra-pemrosesan data variabel X. Regresi Kontinum dengan prapemrossan Analisis Komponen Utama merupakan salah satu alternatif untuk pemodelan SD. Dari hasil pengolahan data untuk staiusin Indramayu, Losarang dan Juntinyuat masing-masing diperoleh koefisien determinasi sebesar 42,63%, 44,08% dan 38,78%.

Kata kunci : Analiis komponen utama, regresi kontinum

Pendahuluan

Perubahan iklim yang terjadi sering digunakan untuk meramalkan keadaan iklim yang akan datang. Untuk pendugaan iklim yang akan datang hanya mungkin dilakukan dengan menggunakan model iklim. Salah satu model iklim yang digunakan untuk meramalkan keadaan iklim adalah Global Circulation Models (GCM). GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. GCM merupakan alat prediksi utama iklim dan cuaca secara numerik dan sebagai sumber informasi primer untuk menilai pengaruh perubahan iklim (Wigena, 2006). Teknik downscaling yang digunakan adalah teknik Statistical Downscaling (SD), di mana merupakan model statistik yang menggambarkan hubungan antara data pada grid-grid berskala besar (GCM) dengan data pada grid berskala lebih kecil. Data GCM yang berskala besar memungkinkan adanya multikolinearitas dan adanya outlier. Permasalahan yang muncul pada Teknik SD yaitu menentukan domain (grid) dan pereduksian dimensi, mendapatkan variabel penjelas yang mampu menjelaskan keragaman variabel lokal, dan mendapatkan metode statistik yang sesuai karakteristik data, sehingga bisa menggambarkan hubungan antara variabel independen dan variabel dependen, serta dapat mengakomodasi kejadian ekstrim. Metode yang sering

Seminar Nasional Statistika IX

(2)

2

digunakan untuk pra-pemrosesan adalah Principal Component Analysis (PCA), Tranformasi Wavelet Diskrit (TWD), ROBPCA, dan Kernel PCA. Selanjutnya untuk memodelkan antara variabel respon dengan variabel hasil pra-pemrosesan digunkan Regresi Kontinum (RK). Hal ini karena RK merupakan salah satu metode yang potensial untuk mengatasi adanya multikolinearitas.

Tujuan dari penelitian ini adalah untuk mengkaji regresi Kontinum dengan pra-pemrosesan PCA dengan kriteria RMSEP dan R2.

Regresi Kontinum

Regresi Kontinum adalah metode estimasi regresi regularized (yang diatur), dan digunakan untuk menangani masalah kolineritas (collinearity atau multicollinearity), yang berarti ada pendekatan hubungan linear antar variabel prediktor. Regresi Kontinum dikembangkan dari regresi kuadrat terkecil, regresi komponen utama, dan regresi kuadrat terkecil parsial.

Berdasarkan model regresi linear klasik sebagai berikut :

ε

y

(1)

dengan variabel X (matriks data) yang sudah dipusatkan (centered) dan y adalah vektor peubah respon yang sudah dipusatkan. Pada kasus kolinearitas menunjukkan bahwa matriks X tidak full rank. Akibatnya,

X

T

X

(hampir) singular.

Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, dengan memaksimumkan

Sw w y s w x w x w i T i T T n i i T n i i n i w y y r 2 2 1 2 1 2 2 1 2 ) ( (2)

dengan

x

i adalah vektor pengamatan peubah bebas ke-i (i=1,2, ..., n) berukuran (px1),

s

X

T

y

dan

S

X

T

X

.

Pada regresi komponen utama pada prinsipnya adalah memaksimumkan :

Sw

w

x

w

T i T n i w

S

2 1 (3)

Dari rumus (3) dapat dijelaskan bahwa prinsip dasar dalam Regresi Komponen Utama adalah memaksimumkan keragaman dari peubah bebas X sehingga dibentuk peubah baru berupa beberapa komponen utama yang merupakan kombinasi linear dari peubah-peubah asal (X). Selanjutnya data peubah respon Y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi ganda.

Pada regresi kuadrat terkecil parsial prinsipnya adalah memaksimumkan :

2 2 1

s

w

x

w

T n i i T i w

y

S

(4)

Kemudian dari rumus (4) dapat diketahui bahwa prinsip Regresi Kuadrat Terkecil Parsial adalah memaksimumkan kovarian antara peubah bebas dengan peubah respon.

Pada Regresi Kontinum peubah baru dituliskan dalam model sebagai berikut

ε

ξ

T

y

h dengan

T

h

XW

h (5)

dan

W

h

w

1

,

w

2

,...,

w

h matriks berisi h kolom peubah dengan h<p dan disebut matriks pembobot.

Stone dan Brooks (1990) memformulasikan matriks pembobot tersebut sebagai berikut :

(3)

3 1 )] 1 /( [ 2

,

max

arg

Xw

y

Xw

w

Cov

Var

w i (6)

dengan kendala

w

i

1

dan

Cov

Xw

i

,

Xw

j

0

untuk

i

j

sedangkan parameter penyesuaian merupakan bilangan real

0

1

.

Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : ) 2 1 ( ) 4 2 2 ( 2

,

max

arg

Xw

y

Xw

w

Cov

Var

w i (7)

Dari rumus (6) dibuat suatu rumus umum sebagai berikut :

1 )) 1 /( ( 2

Xw

X

w

y

X

w

T T T T

G

(8)

selanjutnya disebut metode Stone. Dari rumus (7) dapat dibuat menjadi :

) 2 1 ( ) 4 2 2 ( 2

Xw

X

w

y

X

w

T T T T

G

(9)

selanjutnya disebut metode Portsmouth (Malpass, 1996).

Pendugaan parameter regresi

ξ

pada persamaan (5) dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut :

y

T

T

T

ξ

T h h T h h 1 ,

ˆ

(10)

y

ˆ

,h

XW

h

ξ

ˆ

,h

y

T

T

T

W

β

T h h T h h h 1 ,

ˆ

(11)

dengan merupakan parameter penyesuaian dan h banyaknya komponen.

Principal Components Analysis (PCA)

Salah satu metode statistik yang sering dipakai pada permasalahan yang melibatkan variabel lebih dari satu dan antar variabel tersebut saling berkorelasi (dependent). PCA adalah suatu prosedur untuk mereduksi dimensi data dengan cara mentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan variabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagai principal component (PC) (Johnson, 2002).

PC dapat diperoleh dari pasangan eigenvalue-eigenvektor matriks kovarian maupun matriks korelasi. Jika satuan data antarvariabel tidak sama, maka disarankan untuk menstandarisasikan data terlebih dahulu. Hal ini diperlukan agar dominansi satu atau dua variabel dalam PC dapat dihindari. Selanjutnya bila Σ adalah matriks varian-kovarian dari vektor random X’=[ X1,X2,…, Xp]. Dalam hal ini Σ, didapatkan dari

metode Maximum Likelihood Estimation (MLE) dengan rumus,

t i h i i

x

x

n

μ

μ

Σ

1

1

1

(12) h i i

x

n

1

1

μ

(13)

dengan :

x

i = vektor observasi ke-i n = jumlah seluruh observasi

(4)

4

dan Σ memiliki pasangan eigen value-eigen vektor ( 1

e

1), ( 2

e

2), … , ( p

e

p) dimana

0

.

.

.

2

1 p . Maka kombinasi linier PC dapat ditulis sebagai berikut : Z1= e1’X = e11X1 + e21X2 + . . . + ep1Xp Z2= e2’X = e12X1 + e22X2 + . . . + ep2Xp . . . Zp= ep’X = e1pX1 + e2pX2 + . . . + eppXp (14) dengan:

Z1 = PC pertama, yang mempunyai varians terbesar

Z2 = PC kedua, yang mempunyai varians terbesar kedua

Zp = PC ke-p, yang mempunyai varians terbesar ke-p

X1 = variabel asal pertama

X2 = variabel asal kedua

Xp = variabel asal ke-p

Model PC ke-i dapat juga ditulis dengan notasi Zi= ei’X dimana : i = 1,2,...,p dan oleh

karenanya : i i i

e

e

Z

Var

(

)

'

i

1

,

2

,

...,

p

(15) k i k i

Z

e

e

Z

Cov

(

,

)

'

i

k

(16)

PC tidak berkorelasi dan mempunyai varians yang sama dengan eigenvalue dari , sehingga: p tr p i VarXi pp 1 2 ... 1 ... 22 11 (17)

Bila total variansi populasi adalah pp ... p 2 1 ...

22

11 , maka:

Proporsi varians ke-i =

p i ... 2 1 (18) Apabila PC yang diambil sebanyak k dimana (k<p), maka:

Proporsi variansi k PC = p k ... 2 1 ... 2 1 (19)

Selanjutnya, bila yang dipakai di awal adalah matriks kovariansi dari data yang terstandarisasi, karena diagonal utama matriks berisi nilai satu, maka total variansi populasi untuk variabel terstandarisasi adalah p, yang merupakan jumlah elemen diagonal matriks . Sehingga:

Proporsi variansi ke-i = p

i (20)

Ukuran kebaikan Model

Ukuran kebaikan model yang digunakan adalah nilai koefisien determinansi R2 yang menggambarkan kebaikan prediksi (Walpole, 1995):

(21)

n

1

i

2

Y

i

Y

2

n

1

i

Y

i

Y

ˆ

2

R

(5)

5

Selain nilai di atas terdapat ukuran kebaikan hasil prediksi data validasi (out of sample):

(22)

GCM

GCM adalah suatu model berbasis komputer yang terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan mengikuti kaidah-kaidah fisika. Model ini menduga perubahan unsur-unsur cuaca dalam bentuk luaran grid-grid yang berukuran 100-500 km menurut lintang dan bujur (von Stroch et al. 1993 dalam Sutikno, 2008). GCM merupakan suatu alat penting dalam studi keragaman iklim dan perubahan iklim (Zorita dan Storch, 1999). Namun informasi GCM masih berskala global, sehingga sulit untuk memperoleh langsung informasi berskala lokal dari GCM. Tetapi GCM masih mungkin digunakan untuk memperoleh informasi skala lokal atau regional bila teknik downscaling digunakan (Fernandez, 2005 dalam Wigena, 2006).

Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasi variabel skala global (variabel penjelas) dan variabel skala lokal (variabel respon) (Sutikno, 2008). Untuk menjembatani skala GCM yang besar dengan skala yang lebih kecil ( kawasan yang menjadi studi) digunakan teknik Statistical Downscaling (SD). SD adalah suatu proses downscaling yang bersifat statik dimana data pada grid-grid berskala besar dalam periode dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan data pada grid berskala lebih kecil (Wigena, 2006).

Pendekatan SD menggunakan data regional atau global untuk memperoleh hubungan fungsional antara skala lokal dengan skala global GCM. Secara umum bentuk hubungan tersebut dinyatakan dengan:

Y = f(Z) + ε

dengan:

Y : variabel respon (curah hujan)

Z :variabel penjelas (gabungan dari hasil reduksi spasial (lintang-bujur) variabel GCM)

ε : sisaan

Metodologi

Data yang digunakan adalah data sekunder yang diperoleh dari data luaran GCM model CSIRO-Mk3 dari Australia, dengan domain GCM yang digunakan adalah domain 3x3, dan 8x8 dari 2 Stasiun. Stasiun Pontianak menggunakan periode data yaitu tahun 1947-1990, sedangkan Stasiun Ambon menggunakan periode data yaitu tahun 1900-1940. Variabel yang digunakan adalah variabel luaran CSIRO Mk3 sebagai variabel independen yang meliputi: precipitable water (PRW), tekanan permukaan laut (PSL), komponen angin meridional (VA), komponen zonal (UA), ketinggian geopotensial (ZG), dan kelembaban spesifik (HUSS). Ketinggian (level) yang digunakan adalah 850 hPa, 500 hPa, dan 200 hPa. Sedangkan variabel dependen yaitu data curah hujan bulanan dari stasiun Pontianak dan Ambon. Untuk mengkaji kinerja regresi Kontinum dengan reduksi dimensi PCA ada dua kriteria yang digunakan, yaitu : R2 dan RMSEP. Model dikatakan lebih baik jika R2 lebih tinggi dan RMSEP minimum.

pred

N

2

pred

N

1

i

y

ˆ

i

pred

y

i

RMSEP

(6)

6

Hasil dan Pembahasan

Pra-pemrosesan Pemodelan SD

Langkah awal dalam pemodelan SD adalah reduksi dimensi, yang disebut sebagai pra-pemrosesan data. Pereduksian dilakukan pada dimensi spasialnya yaitu lintang dan bujur atau disebut grid dan pada semua variabel di setiap level serta pada setiap domain. Dalam hal ini setiap grid adalah variabel prediktor, sehingga pada domain 3x3, 8x8 secara berurutan ada 9, 64 variabel yang akan direduksi.

Metode PCA

Prosedur untuk menyusun komponen utama dengan PCA dilakukan melalui tiga tahap. Pertama, mendapatkan matriks varian-kovarian klasik. Kedua, menurunkan eigenvalue dan eigenvector berdasarkan matriks varian-kovarian pada tahap pertama. Terakhir adalah melakukan kombinasi linear antara eigenvector dengan data asal, sehingga diperoleh komponen utama.

Melalui langkah-langkah menggunakan metode PCA, didapatkan jumlah komponen utama dan keragaman kumulatif untuk variabel-variabel GCM, yang tercantum dalam Tabel 1.

Tabel 1 Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM dengan Menggunakan Metode PCA

No. Variabel Domain 3x3 Pontianak Domain 8x8 Pontianak Domain 3x3 Ambon Domain 8x8 Ambon Jml PC Ker. Kum. (*) Jml PC Ker. Kum. (*) Jml PC Ker. Kum. (*) Jml PC Ker. Kum. (*) 1 HUSS 2 0.872 14 0.850 1 0.965 3 0.866 2 HUS200 1 0.968 2 0.932 1 0.964 1 0.874 3 HUS500 1 0.898 2 0.921 1 0.952 2 0.920 4 HUS850 1 0.886 2 0.858 1 0.914 2 0.935 5 PRW 2 0.947 2 0.875 1 0.951 2 0.930 6 PSL 1 0.980 1 0.862 1 0.982 1 0.921 7 UA200 1 0.976 1 0.859 1 0.983 1 0.897 8 UA500 1 0.934 2 0.920 1 0.939 2 0.877 9 UA850 2 0.994 2 0.956 1 0.950 2 0.952 10 VAS 1 0.948 2 0.853 1 0.956 2 0.877 11 VA200 1 0.990 1 0.935 1 0.985 1 0.891 12 VA500 2 0.939 3 0.870 1 0.913 3 0.878 13 VA850 1 0.955 3 0.930 1 0.897 3 0.875 14 ZG200 1 0.999 1 0.985 1 0.996 1 0.970 15 ZG500 1 0.999 1 0.990 1 0.994 1 0.963 16 ZG850 1 0.997 1 0.943 1 0.979 1 0.926

Tabel 1 menunjukkan bahwa komponen yang dihasilkan variabel-variabel GCM dengan menggunakan metode PCA berdasarkan ketentuan bahwa keragaman yang dijelaskan ≥ 85%, pada domain 3x3 dan 8x8 rata-rata adalah 1 komponen utama, kecuali variabel HUSS yang mempunyai jumlah komponen utama optimal 14 komponen utama. Hal ini menunjukkan bahwa secara umum variabel pada level permukaan mempunyai komponen utama yang semakin banyak sebanding dengan semakin luasnya domain, kecuali variabel PSL. Berbeda dengan variabel ZG semakin luas domain ternyata tidak mempengaruhi banyaknya komponen utama yang dipakai.

(7)

7

Metode Regresi Kontinum

Pemodelan SD dengan metode regresi Kontinum menggunakan variabel independen hasil reduksi dimensi dengan metode PCA pada stasiun Pontianak dengan domain 3x3 menggunakan 20 variabel independen, untuk domain 8x8 menggunakan 40 variabel independen, sedangkan pada stasiun Ambon dengan domain 3x3 menggunakan 16 variabel independen, untuk domain 8x8 menggunakan 28 variabel independen (lihat Tabel 4.1). Nilai RMSE dan R2 hasil pemodelan SD dengan menggunakan metode regresi Kontinum pada stasiun Pontianak dan Ambon dengan domain 3x3 dan 8x8 pada Tabel 2.

Tabel 2 RMSEP dan R2 Pemodelan SD dengan Metode Regresi Kontinum

Stasiun Curah Hujan GRID 3x3 GRID 8x8 RMSE R2 RMSE R2 Pontianak 104.093 33.6% 107.799 22.2% Ambon 249.017 27,7% 247.751 32,8% Penutup

Hasil pendugaan dengan pendekatan Regresi Kontinum PCA masih belum mendapatkan hasil yang memuaskan. Hal ini dapat dilihat dari koefisien determinasi yang masih rendah.

DAFTAR PUSTAKA

Breiman, L., Friedman, J.H., Olshen, R.A., dan Stone, C.J (1993), Classification and Regression Trees, Wasdswoth, Belmont, C.A.

Cox, D.R. dan Snell, E.j (1989), Analysis of binary Data. Second Edition, Chapman & Hall London.

Draper, N.R. dan Smith, H. (1992). Analisis Regresi Terapan, Edisi kedua. Jakarta: PT. Gramedia Pustaka Utama.

Jolliffe, I.T. (1986). Principal Component Analysis, Second Ed. New York: Springer-Verlag.

Mallpass J. (1996). Improved Mathematical Methods for Drugs Design : Continuum Regression SAS Macro. University of Portsmouth.

Ortiz, M.C, Arcos, J, and Sarabia, L.Using continuum regression for quantitative analysis with overlapping signals obtained by differential pulse polarography.Chemometrics and Intelligent laboratory Systems 34 (1996) 245-262.

Sundberg, R.(1993).Continuum Regression and Ridge Regression.Journal of the Royal Statistical Society. Series B (Methodological),Volume 55, Issue 3,653-659

Sundberg, R.(2002).Continuum Regression.Article for 2nd ed. of Encyclopedia of Statistical Sciences.

(8)

8

Sutikno. (2008). “Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Walpole, R. E. (1995). “ Pengantar Statistika, Edisi ketiga. Jakarta: PT. Gramedia Pustaka Utama.

Wigena, A.H.,(2006). “Pemodelan Statistical Downscaling dengan Regresi Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.

Zorita, E. and von Storch, H., (1999): “The Analog Method As A Simple Statistical Downscaling Technique: Comparison With More Complicated Method”, Journal of Climate, 12, 2474-2489.

Gambar

Tabel 1   Jumlah PC Optimal dan Keragaman Kumulatif Variabel Luaran GCM                  dengan Menggunakan Metode PCA

Referensi

Dokumen terkait

Data hasil perhitungan rata-rata Indeks Keanekaragaman (H’), Indeks Keseragaman (E) dan Indeks Dominansi (D) plankton di Perairan Kawasan Mangrove Desa Labuhan

Tingginya permintaan akan ikan kerapu tersebut mendorong perlunya pengembangan budidaya laut (Marine Culture) yang diharapkan nantinya akan menggantikan

3) Rancangan Layar Entri Hasil Keputusan Pada rancangan layar entri hasil keputusan seperti pada gambar 12, terdapat kode jabatan dan periode sebagai parameter dalam

Konsep- konsepnya tentang person (Roy menjelaskan bahwa person bisa berarti individu, keluarga, kelompok atau masyarakat luas dan masing-masing sebagai

Tujuan untuk mengetahui pengaruh metode bed side teaching terhadap penguasaan kasus dan kemampuan skill mahasiswa praktik klinik keperawatan antara kelompok

Secara khusus, penelitian bertujuan untuk mengetahui strategi penerjemahan dan pergeseran makna kosakata budaya material yang terdapat dalam novel Densha Otoko

Hasil pengamatan tentang motivasi belajar siswa tersebut memiliki 9 langkah kegiatan yang dijadikan sebagai sasaran observasi peneliti, pada data awal kesemua aspek

Jika ada anak-anak di bawah usia 5 (lima) tahun yang belum sekolah, perlu dipersiapkan pem- bentukan Taman Pendidikan AI Qur'an, atau kegiatan Bina Keluarga Balita, atau