Metode Regresi Kuadrat Terkecil Parsial Untuk Pra-Pemrosesan Data
Luaran GCM CSIRO Mk-3
TUGAS AKHIR
Oleh:
Alin Fitriani
1306 100 066
Pembimbing:
Dr.Ir. Setiawan, M.S
NIP 198701 1 001
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA
2010
Latar Belakang
iklim
Gas rumah kaca
Pemanasan
global
Perubahan iklim
Pola curah hujan
GCM
Resolusi
rendah, skala
tinggi
downscalling
multikolinieritas
Reduksi dimensi
Permasalahan
Bagaimana memodelkan data hujan lokal (variabel respon)
dengan data luaran GCM (reduksi) dengan metode PCA dan
metode PLS (Partial Least Squares).
Bagaimana hasil kinerja reduksi dimensi dan pemodelan
menggunakan metode PCA dan metode PLS (Partial Least
Tujuan penelitian
Memodelkan data hujan lokal (variabel respon) dengan data
luaran GCM (reduksi)dengan metode PCA dan metode PLS
(Partial Least Squares).
Membandingkan hasil kinerja reduksi dimensi dan pemodelan
menggunakan metode PCA dan metode PLS (Partial Least
Manfaat Penelitian
Memberikan alternatif bagi BMKG, LAPAN, dan instansi
lainnya untuk kajian-kajian dampak iklim dengan basis
luaran GCM dalam tahap pra-pemrosesan data luaran GCM
yang kemudian akan digunakan untuk memodelkan
Batasan Masalah
Studi
kasus
pra-pemrosesan
pada
data
pemodelan
statistical downscaling adalah data luaran GCM CSIRO-Mk3
dengan 5 statiun yang digunakan sebagai daerah penelitian
yaitu
Losarang,
Indramayu,
Juntinyuat,
Kroya,
dan
Sumurwatu .
Data luaran GCM diasumsikan bersifat linear
Reduksi dimensi dengan metode PLS (Partial Least Squares)
Penelitian Terdahulu
Metode regresi robust PCA dilakukan Chusnul Khotimah
tahun 2009
Transformasi wavelet diskrit dengan mother wavelet Harr
Tinjauan Pustaka
Regresi Linear
Regresi linier adalah metode statistika yang digunakan untuk
membentuk model hubungan antara variabel terikat (dependen;
respon; Y) dengan satu atau lebih variabel bebas (independen,
prediktor, X) (Deni, 2008).
Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai
regresi linier sederhana, sedangkan apabila terdapat lebih dari satu
variabel bebas, disebut sebagai regresi linier berganda.
Secara umum model yang menggambarkan hubungan antara variabel
penjelas (X) dengan variabel respon (Y) adalah:
Multikolinieritas
Multikolinearitas (kolinearitas ganda) adalah hubungan linear yang sempurna
atau pasti diantara beberapa atau semua variabel eksplanatori (bebas) dari
model regresi ganda.
Multikolinieritas yang tinggi akan menyebabkan koefisien regresi yang
diperoleh tidak unik.
Salah satu ukuran untuk mendeteksi adanya multikolinieritas adalah VIF
(Variation Inflation Factor). VIF merupakan faktor yang mengukur seberapa
besar kenaikan varian dari koefisien regresi dibandingkan dengan variabel
bebas lain yang saling orthogonal.
dengan
adalah koefisien determinasi dari variabel bebas X
ijika diregresikan
dengan semua variabel bebas X lainnya di dalam model
Principal Component Analysis (PCA)
Metode PCA merupakan prosedur untuk mereduksi dimensi data dengan cara
mentransformasi variabel-variabel asal yang berkorelasi menjadi sekumpulan
variabel baru yang tidak berkorelasi. Variabel-variabel baru itu dikatakan sebagai
principal component (PC) (Johnson and Winchren, 2002).
Partial Least Squares (PLS)
Metode
PLS
merupakan
metode
statistik
yang
menggeneralisasi
dan
mengkombinasikan antara metode analisis faktor, principal component analysis
dan multiple regression (Abdi, 2007). Tujuan PLS adalah membentuk komponen
yang dapat menangkap informasi dari variabel bebas untuk memprediksi variabel
respon
PCA terfokus pada keragaman di dalam variabel bebas, sedangkan PLS fokus pada
kovarians diantara variabel bebas dan variabel tak bebas.
data
Buliding set
(membangun model
)
Validation
(prediction set)
Validasi Model
Ukuran kebaikan model yang digunakan untuk validasi data
RMSE dan RMSEP
R
2dan R
2General Circulation Model (GCM)
GCM (General Circulation Model) adalah suatu model berbasis komputer yang
terdiri dari berbagai persamaan numerik dan deterministik yang terpadu dan
mengikuti kaidah-kaidah fisika (Wigena, 2006).
Donwscaling
Downscaling didefinisikan sebagai upaya menghubungkan antara sirkulasi
variabel skala global (variabel penjelas) dan variabel skala lokal (variabel
respon) (Sutikno, 2008).
Statistical Donwscaling
Statistical Downscaling (SD) adalah suatu proses downscaling yang
bersifat statik dimana data pada grid-grid berskala besar dalam periode
dan jangka waktu tertentu digunakan sebagai dasar untuk menentukan
data pada grid berskala lebih kecil (Wigena, 2006).
Metode Statistical Downscaling (SD) didasarkan pada asumsi bahwa iklim
regional dikendalikan oleh dua faktor yaitu: kondisi iklim skala besar
(resolusi rendah) dan kondisi/karakteristik fisiografik regional/lokal
(misal: topografi distribusi daratan-lautan dan tataguna lahan) (von
Stroch et al. 1999 dalam Sutikno, 2008).
Kegunaaan penggunaan metode SD menggunakan data regional atau
global adalah untuk memperoleh hubungan fungsional antara skala lokal
dengan skala global GCM.
Metodologi Penelitian
Sumber Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh
dari data luaran GCM model CSIRO-Mk3 dari Australia dengan eksperimen
“20
thcentury in coupled models” (20 C3M).
Data diambil pada tahun 1967-2000 dengan lokasi grid berada ditengah tengah
Kabupaten Indramayu. Grid yang digunakan adalah 3x3, 8x8, dan 12x12
dengan domain GCM yang digunakan domain 3x3 (9 grid), yaitu 4.66
0LS- 8.39
0LS;106.87
0BT– 110.64
0BT, domain 8x8 (64 grid), yaitu 0.93
0-13.99
0LS; 101.12
0BT - 114.38
0BT, dan domain 12x12 (144 grid), yaitu 2.79
0LU-17.72
0LS; 97.50
0BT – 118.125
0BT
Variabel Penelitian
Data luaran GCM CSIRO- Mk3 yang merupakan variabel prediktor meliputi:
precipitable water (prw), tekanan permukaan laut
(slp), komponen angin
meridional (va), komponen zonal (ua), ketinggian geopotensial (zg), dan
kelembaban spesifik (hus). Ketinggian (level) yang digunakan dalam penelitian
adalah 850 hPa, 500 hPa, dan 200 hPa.
Variabel respon adalah data curah hujan bulanan meliputi stasiun: Losarang
(6.41
0LS, 108.15
0BT) pada tahun 1967-1999, Indramayu (6.35
0LS, 108.32
0BT)
pada tahun 1974-1999, Tulangkacang (6.36
0
LS, 107.01
0
BT ) pada tahun
1991-1999, Sumurwatu (6.52
0LS, 108.10
0BT) pada tahun 1978-1999, dan Juntinyuat
(6.43
0LS, 108.44
0BT) pada tahun 1974-1999.
Analisa dan Pembahasan
Tabel 4.1 Matrik korelasi antar variabel HUSS pada grid 3x3
huss1 huss2 huss3 huss4 huss5 huss6 huss7 huss8 huss9 huss1 1.00 0.38 0.62 0.97 0.76 0.53 0.80 0.73 0.40 huss2 0.38 1.00 0.22 0.40 0.39 0.17 0.36 0.26 0.12 huss3 0.62 0.22 1.00 0.61 0.53 0.94 0.36 0.88 0.88 huss4 0.97 0.40 0.61 1.00 0.80 0.55 0.86 0.76 0.44 huss5 0.76 0.39 0.53 0.80 1.00 0.50 0.74 0.66 0.41 huss6 0.53 0.17 0.94 0.55 0.50 1.00 0.32 0.91 0.95 huss7 0.80 0.36 0.36 0.86 0.74 0.32 1.00 0.56 0.26 huss8 0.73 0.26 0.88 0.76 0.66 0.91 0.56 1.00 0.85 huss9 0.40 0.12 0.88 0.44 0.41 0.95 0.26 0.85 1.00
Identifikasi multikolinieritas
Pra-pemrosesan data dengan PCA
PC grid 3x3 grid 8x8 grid 12x12 nilai eigen prop kum nilai eigen prop kum nilai eigen prop kum 1 5.8186 0.647 36.913 0.577 78.281 0.544 2 1.7276 0.838 10.089 0.734 22.655 0.701 3 0.7702 0.924 4.078 0.798 10.26 0.772 4 0.2878 0.956 2.026 0.83 4.416 0.803 5 0.2201 0.98 1.174 0.848 2.73 0.822 6 0.0929 0.991 1.078 0.865 1.665 0.833 7 0.0483 0.996 0.987 0.88 1.461 0.844 8 0.021 0.998 0.965 0.895 1.291 0.852 9 0.0136 1 0.88 0.909 1.146 0.86 10 - - 0.794 0.922 1.099 0.868
grid 3x3 grid 8x8 grid 12x12 No variabel jumlah PC prop kom jumlah PC prop kom jumlah PC prop kom 1 HUSS 200 1 97.50% 2 94.90% 1 99.40% 2 HUSS 500 1 96.70% 2 92.50% 2 85.50% 3 HUSS 850 1 93.50% 2 90.10% 3 88% 4 HUSS 3 92.40% 6 86.50% 9 86% 5 PRW 1 92.30% 2 87.90% 3 89.60% 6 PSL 1 97.35% 1 87% 2 95.70% 7 UA 200 1 98.60% 1 91.90% 2 97.40% 8 UA 500 1 91.60% 2 88.80% 3 90.50% 9 UA 850 1 98.40% 1 86.10% 2 86.20% 10 UAS 1 95.35 2 91.70% 3 87.60% 11 VA 200 1 97.20% 2 93.40% 2 87.20% 12 VA 500 1 92.30% 3 89,7% 5 87.60% 13 VA 850 2 96.10% 3 91.30% 5 90% 14 VAS 2 97.30% 3 88.30% 5 88% 15 ZG 200 1 99.50% 1 93.90% 1 87.10% 16 ZG 500 1 99.60% 1 95.70% 1 88.70% 17 ZG 850 1 99.10% 1 93.40% 1 89.80%
grid 3x3 grid 8x8 grid 12x12 stasiun RMSEP R2
pred RMSEP R2pred RMSEP R2pred
Sumurwatu 110.9176 31.20% 114.3645 31.30% 121.9155 27.40% losarang 108.3221 32.50% 109.5804 33.30% 115.8183 27.70% kroya 98.05002 40.50% 130.4405 28.50% 153.1108 20.70% Juntinyuat 84.86531 25.80% 109.6141 25.20% 118.838 22.30% Indramayu 125.0302 31.10% 131.0903 31.7% 144.622 23%
Pemodelan SD
1.
Metode Regresi dengan Pre-pemrosesan PCA
Nilai RMSEP, dan R2dengan menggunakan metode regresi PCA
2. Metode Regresi PLS
grid 3x3 grid 8x8 grid 12x12 Stasiun RMSEP R2
pred RMSEP R2pred RMSEP R2pred
sumurwatu 102.4966 40.80% 100.5751 42.70% 102.1293 40.80% losarang 104.2476 37.20% 102.6259 39% 102.4574 39.40% Kroya 99.08801 38.50% 96.84099 40.20% 97.61049 36.60% juntinyuat 76.73118 30.20% 101.4372 30.70% 100.477 31.90% indrmayu 113.3752 40.90% 111.5253 42.70% 110.091 44.10%
Plot Residual dan y (topi)
RESI2 O LS 600 500 400 300 200 100 0 -100 -200 -300 600 500 400 300 200 100 0 -100Scatterplot of OLS vs RESI2
RESI1 P LS 400 300 200 100 0 -100 -200 -300 350 300 250 200 150 100 50 0 Scatterplot of PLS vs RESI1
PCA
PLS
kriteria
Losarang Indramayu Juntinyuat PCA PLS PCA PLS PCA grid 3x3 RMSEP 107.87 106.526 125.03 113.375 84.865 R2 pred 32.60% 34.50% 31.10% 40.90% 25.80% grid 8x8 RMSEP 109.58 102.626 131.09 111.525 109.61 R2 pred 33.30% 39.00% 31.70% 42.70% 25.20% grid 12x12 RMSEP 115.82 102.45 144.62 110.09 118.84 R2 pred 27.70% 39% 23% 44.10% 22.30% kriteria
juntinyuat Kroya Sumurwatu PLS PCA PLS PCA PLS grid 3x3 RMSEP 76.7312 98.05 99.08 110.92 102.5 R2 pred 30.20% 40.50% 38.50% 31.20% 40.80% grid 8x8 RMSEP 101.437 130.44 96.841 114.36 100.58 R2 pred 30.70% 28.50% 40.20% 31.30% 42.70% grid 12x12 RMSEP 100.477 153.11 97.61 121.92 102.13 R2 pred 31.90% 20.70% 36.60% 27.40% 40.80%
RMSEP dan R2Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS
reduksi demansi stasiun
semua variabel per variabel
PCA PLS PCA PLS RMSEP R2 RMSEP R2 RMSEP R2 RMSEP R2
sumurwatu 106.21 36.40% 105.41 37.30% 110.92 31.20% 102.5 40.80% indramayu 116.49 38% 115.46 38.95% 107.87 32.60% 106.52 34.50% juntinyuat 103.46 27,8% 103.94 27,4% 99.088 38.50% 98.05 40.50% kroya 100.77 34.30% 99.09 35.70% 84.86 25.80% 76.73 30.20% losarang 107.87 32.6 106.53 34.5 125.03 31.10% 113.38 40.90%
RMSEP dan R
2Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi PLS (reduksi dimensi
Kesimpulan dan Saran
Jumlah Principal Component data luaran GCM yang dihasilkan setiap grid tidak lebih dari 5
komponen kecuali untuk variabel HUSS.
Pemodelan dengan menggunakan metode PLS model terbaik berdasarkan RMSEP, grid 3x3
pada stasiun Juntinyuat, grid 9x9 dan grid 12x12 pada stasiun Kroya. Berdasarkan nilai R
2model terbaik pada grid 3x3, grid 9x9, dan grid 12x12 terdapat stasiun yang sama yaitu
stasiun Indramayu.
Pemodelan terbaik berdasarkan nilai RMSEP dengan metode PCA, grid 3x3 pada stasiun
Juntinyuat, grid 9x9 pada stasiun Losarang, dan grid 12x12 pada stasiun Indramayu.
Sedangkan dengan nilai R
2metode terbaik grid 3x3 pada stasiun Kroya, grid 9x9 dan grid
12x12 pada stasiun Losarang.
Pemodelan dengan menggunakan metode regresi PLS lebih baik dibandingkan dengan
pemodelan regresi dengan pra-pemrosesan PC. Walaupun tidak terlalu besar perbedaanya,
pada regresi PLS menghasilkan RMSEP yang lebih kecil dan R
2yang lebih besar dibandingkan
dengan RMSEP dan R
2yang dihasilkan dengan menggunakan metode regresi dengan
pra-pemrosesan PC kecuali pada Stasiun Kroya dengan grid 3x3.
Metode PLS dan PCA hanya cocok untuk data yang bersifat linear,
sedangkan data luaran GCM bersifat nonlinier. Hal ini menyebabkan
pemodelan menghasilkan R
2yang Kecil. Oleh karena itu, perlu dilakukan
penelitian lebih lanjut untuk mengatasi masalah non linier pada data
luaran GCM tersebut.
Daftar Pustaka
Anonim (a), (2009), Verifikasi dan Validasi Model. http://didi.staff.gunadarma.ac.id [12 Oktober2009] Anonim (b), (2009). Analisis Komponen Utama.http://www.wikipwedia.org [ 10 September 2009].
Draper, N.R & Smith, H. (1992). Analisis Regresi Terapan. Edisi Kedua. Jakarta: PT. GramediaPustaka Utama Herwindiawati, D.E. (1997). Pengkajian Regresi Komponen Utama, Regresi Ridge dan Regresi Kuadrat
Terkecil Parsial untuk Mengatasi Kolinieritas. Thesis-S2, IPB, Bogor.
Johnson, R.A & Wichern, D.W. (2002). Applied Multivariate Statistical Analysis. 5th Ed. New Jersey: Prentice Hall.
Neter, J. Wassermen W., dan Kutner, M.H. (1990). Applied Linear Statistical Models, 3rdediton, Illinois. Irwin.
Ohyver, M (2008), Transformasi Wavelet Kontinu pada Model Kalibrasi Peubah Ganda. Thesis, ITS, Surabaya.
Sujatmiko, Irwan. (2003). Analisis Komponen Utama dengan Menggunakan Matriks Varian-Kovarian yang
Robust. Thesis Magister ITS. Surabaya
Sutikno. (2008). “Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi” Disertasi. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Wigena, A.H. (2006). Pemodelan Statistical Downscaling dengan Regresi Projection Persuit untuk Peramalan
Curah Hujan [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
Wold, S. (2001). Personal memories of the early PLS development.Chemometrics and Intelligent Laboratory
Systems, 58,83–84.
Wulandari, S.P., (2000). Analisis Hubungan Antara Variabel Ekonomi dengan Kesejahteraan Menggunakan
Terima Kasih
(A)
(B)
(C)
Lokasi
penelitian
Lokasi Domain 3x3 (A), 8x8 (B), dan 12x12 (C) (Sumber : Sutikno, 2008)
No. Variabel Satuan
Ketinggian/level Ketinggian/level
850 hPa 500 hPa 200 hPa 1 Precipitable water Kg m-2
Prw - - -2 Tekanan permukaan laut Pa Slp - - -3 Komponen angin meridional
m s-1 Vas va850 va500 va200
4 Komponen angin zonal m s-1 Uas ua850 ua500 ua200
5 Ketinggian geopotensial m - zg850 zg500 zg200 6 Kelembaban spesifik ltr Huss hus850 hus500 hus200
Variabel penjelas yang di ambil dari model luaran CSIRO-Mk3 dan
Pengkodingan
Stasiun Periode Losarang 1981-2000 Sudikampiran 1981-2000 Sumurwatu 1981-2000 Indramayu 1981-2000 Juntinyuat 1981-2000Stasiun Peubah Lokal dan Periode di Kabupaten Indramayu
Wavelet Diskrit Stasiun
grid 3x3 grid 8x8 grid 12x12 RMSE R^2pred R^2pred R^2pred
Losarang 100.68 26.1 113.44 14.3 106.94 18.7 Sudikampiran 77.59 32.7 87.83 23.5 103.34 17.4 Sumurwatu 114.27 46.5 120.29 51.3 125.88 31.2 Indramayu 153.7 22.2 168.42 13.6 182.88 31.2 Juntinyuat 117.1 13.8 125.9 9.8 131.1 3.3 ROBPCA Stasiun
Domain 3x3 Domain 8x8 Domain 12x12 RMSEP R2 RMSEP R2 RMSEP R2
Losarang 102.55 24.60% 95.69 33.20% 100.24 24.40% Sumurwatu 114.82 48.50% 111.31 46.30% 134.22 26.20% Indramayu 150.77 24.90% 151.03 29.10% 157.89 24.80% Tulangkacang 102.66 18.80% 95.39 25.70% 103.35 23.80% Juntinyuat 121.01 12.50% 108.52 53% 121.67 11.70% PCA
grid 3x3 grid 8x8 grid 12x12 stasiun RMSEP R2
pred RMSEP R2pred RMSEP R2pred
Sumurwatu 110.92 31.20% 114.3645 31.30% 121.92 27.40% losarang 108.32 32.50% 109.5804 33.30% 115.82 27.70% kroya 98.05 40.50% 130.4405 28.50% 153.11 20.70% Juntinyuat 84.865 25.80% 109.6141 25.20% 118.84 22.30% Indramayu 125.03 31.10% 131.0903 31.70% 144.62 23% PLS
grid 3x3 grid 8x8 grid 12x12 Stasiun RMSEP R2
pred RMSEP R2pred RMSEP R2pred
sumurwatu 102.5 40.80% 100.58 42.70% 102.13 40.80% losarang 104.25 37.20% 102.63 39% 102.46 39.40% Kroya 99.088 38.50% 96.841 40.20% 97.61 36.60% juntinyuat 76.731 30.20% 101.44 30.70% 100.48 31.90% indrmayu 113.38 40.90% 111.53 42.70% 110.09 44.10%