PENDEKATAN REGRESI KOMPONEN UTAMA DAN ARIMA
UNTUK STATISTICAL DOWNSCALING
Khairil Anwar Notodiputro
1, Aji Hamim Wigena
1, dan Fitriadi
21
Departemen Statistika, FMIPA IPB, Bogor
2Alumnus Departemen Statistika, FMIPA IPB, Bogor
Diterima 2 Oktober 2005, disetujui untuk diterbitkan 30 November 2005ABSTRACT
General Circulation Models (GCM) is a sophisticated computer simulation model concerning climate and its components, such as weather temperature, water precipitation, as well as how these components change according to time. GCM produces data in term of grid of an area with low resolution (2.50 or ± 300 km2) reflecting global climate condition. Hence, these data are not measured in local or regional scale. Statistical downscaling is a method useful to study climate change based on the GCM data. This statistical method relates global and local climate variables as a projection of GCM output in local scale. However, since the GCM output is basically a high dimensional time series data then standard statistical procedures would not be appropriate. This paper demonstrates that the accuracy and precision of the statistical downscaling could be improved through the use of principal component regression techniques in which the ARIMA models were applied to the regression error.
Keywords: statistical downscaling, principal component analysis, ARIMA, regression analysis, general circulation models
1. PENDAHULUAN
Curah hujan merupakan peubah yang paling sering digunakan dalam penelitian mengenai dampak perubahan iklim. Berkaitan dengan iklim di Indonesia, proses pembentukan hujan di kawasan tropis merupakan proses yang paling sukar disimulasikan. Hingga saat ini belum ada satu model iklim yang mampu mensimulasi curah hujan di Indonesia dengan baik. Topografi dan interaksi laut, darat, atmosfir yang sangat kompleks menambah kerumitan simulasi dan prediksi curah hujan di wilayah Indonesia. Untuk itu, model-model iklim resolusi tinggi perlu dikembangkan dalam skala-skala lokal atau setara dengan skala provinsi dan kabupaten1.
General Circulation Models (GCM) adalah alat terpenting dalam upaya memahami sistem iklim. GCM menghasilkan data dalam bentuk grid atau petak wilayah dengan resolusi rendah (2,5° atau ± 300 km2) yang merepresentasikan keadaan iklim global tapi tidak dalam skala regional atau lokal. Untuk menggunakan data GCM sebagai penduga bagi penelitian perubahan iklm lokal, diperlukan pendekatan yang mampu mengatasi perbedaan skala tersebut2.
Pendekatan yang telah banyak dilakukan untuk menjembatani perbedaan skala itu adalah dengan
statistical downscaling. Ide dasarnya adalah menghubungkan peubah iklim global dan lokal sebagai proyeksi output GCM dalam skala lokal menggunakan metode statistika. Kendala yang dihadapi dalam penggunaan metode statistika untuk downscaling adalah data GCM yang digunakan berupa data deret waktu dengan jumlah yang banyak dan tidak saling bebas sehingga tidak dapat langsung digunakan dalam model statistik. Berbeda dengan dynamical downscaling yang merupakan pendekatan downscaling melalui simulasi secara kontinu untuk mendapatkan pendugaan data pada skala yang lebih kecil atau resolusi tinggi (10-50 km), pusat perhatian statistical downscaling adalah pada hubungan statistik antara peubah iklim global dan peubah iklim lokal yang diasumsikan tidak berubah walaupun terjadi perubahan iklim.
Dalam beberapa tahun terakhir, beberapa teknik statistical downscaling telah dikembangkan diantaranya regresi linear berganda, regresi komponen utama, dan korelasi kanonik (untuk multiple respon)3. Dari metode-metode tersebut yang paling banyak dipergunakan adalah regresi komponen utama, namun metode ini sendiri masih memiliki tingkat pendugaan yang kurang baik dan belum mampu mengatasi masalah autokorelasi yang biasa muncul pada data deret waktu. Salah
satu teknik yang dapat memperbaiki tingkat pendugaan dari model regresi adalah dengan melakukan pemilihan data GCM yang berkorelasi tinggi dengan respon dan dengan mengkombinasi model regresi dan model ARIMA.
Penelitian ini bertujuan untuk mengkaji penggunaan kombinasi regresi komponen utama dan ARIMA untuk menduga curah hujan dan mengkaji pengaruh penggunaan data GCM yang berkorelasi tinggi dengan respon terhadap keakuratan pendugaan.
2. METODE PENELITIAN
2.1. Bahan
Data yang digunakan dalam penelitian ini adalah data keluaran GCM yang diperoleh dari situs www.irdl.columbia.edu, berupa data temperatur udara tahun 1986-2002 berukuran 41x24 grid dengan cakupan area membentang dari 82,50BT sampai dengan 157,50BT dan 21,90 LU sampai dengan 21,90 LS. Data GCM (domain) yang digunakan dipilih berdasarkan kriteria dalam Von Storch dalam Bergant2 yang menyatakan bahwa jumlah domain minimal 8 x 8 grid di sekitar wilayah respon. Domain yang dipilih adalah yang berkorelasi (r) tinggi dengan respon. Respon yang digunakan dalam penelitian ini adalah curah hujan rata-rata dari tahun 1986-2002 di DAS Saguling yang diperoleh dari BPP Teknologi. Data periode Januari 2002-Desember 2002 digunakan untuk membandingkan keakuratan hasil peramalan (validasi).
2.2. Prosedur Penelitian
Tahap-tahap yang dilakukan dalam penelitian ini adalah:
1. Regresi komponen utama data GCM terhadap data curah hujan.
Koefisien-koefisien β pada regresi linear berganda seperti pada Persamaan 1:
... 0 1 1 2 2 Y X X X k k β β β β = + + + + (1) memiliki nilai dugaan ragam yang overestimate apabila terdapat korelasi antar peubah bebas, sehingga nilai dugaan bagi β seringkali menjadi “aneh” dan pada pengujian pengaruh, beberapa peubah penjelas akan dinyatakan tidak ada pengaruhnya walaupun dari data yang didapatkan mengindikasikan hal yang sebaliknya. Adanya korelasi antar peubah bebas dapat menyebabkan pendugaan dari model regresi kuadrat terkecil menjadi tidak akurat5. Regresi komponen utama dimodelkan dengan cara meregresikan skor
komponen utama (KU) terhadap peubah respon Y (Persamaan 2).
Y = w + w KU + w KU + ..+ w KU0 1 1 2 2 p p (2)
Setelah diperoleh p komponen utama dari analisis komponen utama, kita harus memilih k < p komponen utama untuk diregresikan dengan peubah tak bebas Y, pemilihan k komponen utama yang akan diregresikan dapat dilakukan dengan mengambil k komponen utama yang mewakili sebagian besar keragaman dari data asal. Pemodelan regresi komponen utama ini dilakukan melalui beberapa tahap :
a. Analisis komponen utama terhadap data temperatur udara.
b. Pemilihan komponen utama yang memiliki akar ciri terbesar.
c. Regresikan skor komponen utama terpilih dengan data curah hujan DAS Saguling. 2. Menyusun model deret waktu ARIMA dari
sisaan analisis regresi.
Deret waktu Yt dikatakan mengikuti model
ARIMA (p,d,q) (auto regressive integrated moving average) jika model tersebut merupakan gabungan antara model regresi diri berordo p dan rataan bergerak berordo q yang telah dilakukan pembedaan (diferencing) derajat-d terhadap data yang asli.
Persamaan umum dari model ARIMA (p,d,q) ini adalah seperti pada Persamaan 3 :
( )(
)
t( )
t dB
y
B
B
θ
ε
φ
1
−
=
(3) dengan B adalah operator langkah mundur, serta φ dan θ masing-masing merupakan komponen AR dan MA. Pemasukan faktor musiman (S) ke dalam model akan dapat mereduksi besarnya sisaan sistematis yang disebabkan oleh faktor musim, akan tetapi sekaligus menambah kerumitan penjelasan teoritis bagaimana proses ini berlangsung4. Bentuk umum dari model campuran dengan faktor musiman ini adalah ARIMA (p,d,q)(P,D,Q)S (Persamaan 4):( )
(
) (
)
( )
( )
t S t D d s B B y B B B B θ ε φ Φ 1− 1− = Θ (4)pada persamaan tersebut Φ merupakan komponen AR musiman dan Θ merupakan komponen MA musiman, serta D dan S masing-masing adalah ordo pembedaan musiman dan panjang periode musiman4. Pemodelan ARIMA dilakukan melalui beberapa tahap :
a. Pemeriksaan kestasioneran data. Hal ini dilakukan dengan melihat plot data terhadap
waktu, plot korelasi diri, dan plot korelasi diri parsialnya.
b. Jika data tidak stasioner, maka dilakukan pembedaan dan transformasi terhadap data asli. Pembedaan dilakukan dimulai dengan pembedaan ordo 1 dan seterusnya sampai data tersebut bersifat stasioner baik dalam rataan maupun dalam ragam.
c. Jika sudah stasioner, lakukan identifikasi model, dengan melihat plot korelasi diri dan plot korelasi diri parsialnya, kemudian diambil beberapa rumusan model sementara.
d. Pendugaan semua parameter dari model-model tersebut dan menguji kebaikan model-model tersebut dengan melihat ACF dan ACF parsial sisaan atau dengan melihat nilai statistik Q Box-Pierce.
e. Dengan nilai awal tertentu dilakukan proses iteratif untuk memperoleh penduga yang optimum. Jika belum menghasilkan penduga yang stabil (tidak mempunyai kesalahan baku yang kecil), maka dilakukan overfitting dengan memperkecil p atau q yang mempunyai t-hitung kecil atau menambah ordo p dan q yang mempunyai t-hitung besar4. f. Pilih model yang mempunyai KTG terkecil yang akan digunakan untuk peramalan.
3. Menggabungkan model ARIMA sisaan dengan model regresi dan menggunakannya untuk melakukan peramalan terhadap curah hujan Januari-Desember 2002. Hasil ramalan ini kemudian dibandingkan dengan hasil ramalan menggunakan model regresi KU. Penggunaan model regresi pada data deret waktu umumnya memiliki kendala tidak dipenuhinya asumsi kebebasan pada sisaan. Hal ini akan menyebabkan nilai dugaan parameter tidak lagi menjadi penduga terbaik5. Salah satu metode alternatif untuk mengatasi sisaan yang tidak saling bebas adalah dengan kombinasi regresi dan model deret waktu ARIMA. Regresi-ARIMA dimodelkan dengan cara membentuk model ARIMA dari deret sisaan regresi sehingga dihasilkan model
( )
B t( )
B tθ ε θ) = η . Model ini kemudian disubtitusi kedalam persamaan regresi sebagai pengganti galat ε pada persamaan regresi.sehingga pendugaan pada waktu ke-t menjadi Persamaan 5:
*t t t
y) = y) +ε) (5)
y)= nilai dugaan y dari persamaan regresi
ε)= nilai dugaan galat ε dari model ARIMA Bentuk umum model regresi-ARIMA adalah terdapat pada Persamaan 6:
( ) ( )
1 1 0 1 1 2 2 ...
t t t k kt T
y = +b b x +b x + +b x +θ− B φ B η (6) dengan η menyebar normal dengan ragam yang mungkin berbeda dari6.
3. HASIL DAN PEMBAHASAN
3.1. RKU menggunakan domain 8x8
Analisis komponen utama menunjukkan bahwa tiga komponen utama pertama mampu menjelaskan keragaman data sebesar 95% sedangkan KU 11 dan seterusnya memiliki nilai akar ciri yang sangat kecil (<0,2%) yang menunjukkan adanya masalah multikolinearitas pada data asal.
Tahap selanjutnya adalah meregresikan skor KU yang diperoleh dengan data curah hujan. Skor KU yang digunakan dalam model regresi adalah skor KU 1,2, dan 3.
Hasil analisis RKU menunjukkan masalah multikolinearitas pada data temperatur udara telah teratasi yang diindikasikan dengan nilai VIF sebesar 1. Nilai R2 sebesar 47,9% menunjukkan bahwa model RKU ini masih kurang baik. Nilai RMSE yang dihasilkan oleh model ini sebesar 63.7. Meskipun model ini telah mengatasi masalah multikolinearitas, masalah autokorelasi yang biasa muncul dalam data deret waktu belum teratasi. Hal ini dapat dilihat dari nilai uji Durbin Watson sebesar 1,44 yang berada pada daerah keputusan masih terdapatnya autokorelasi positif pada sisaan. Model RKU tersebut kemudian digunakan untuk menduga curah hujan di DAS Saguling pada periode Januari-Desember 2002 dan dihasilkan nilai R2 sebesar 52% dan RMSE sebesar 81,7.
3.2. Model ARIMA
Deret sisaan regresi untuk periode 1986–2001 tampak sudah stasioner, hal ini dapat dilihat dari fluktuasi data yang berada disekitar nilai yang konstan (Gambar 1).
Hal ini diperkuat oleh plot korelasi diri yang menurun dengan cepat setelah beda-waktu (time lag) 1 (Gambar 2).
Gambar 2. Plot ACF deret sisaan
Identifikasi model ARIMA dilakukan dengan memperhatikan beberapa nilai awal dari korelasi diri dan korelasi diri parsialnya yang berbeda nyata dari nol. Plot ACF menunjukkan bentuk cuts off setelah beda waktuke-1. Plot PACF (Gambar 3) juga menunjukkan bentuk cuts off setelah beda waktuke-1 dengan pola yang lebih tajam dibandingkan plot ACF.
Gambar 3. Plot PACF deret sisaan
Dari hasil identifikasi tersebut diperoleh model awal AR(1). Model tersebut tampaknya sudah optimal, hal ini dapat dilihat dari hasil uji dugaan parameter yang nyata pada taraf 5% dan hasil uji Q Box-Pierce yang lebih besar dari taraf nyata 0.05 serta tidak ada nilai yang nyata pada plot korelasi diri sisaannya (RACF) dan plot korelasi diri parsial sisaannya (RPACF). Untuk memperoleh model yang terbaik, dilakukan overfitting dan diperoleh model ARIMA (1,0,0)(2,0,2) yang menghasilkan KTG lebih kecil dibandingkan dengan model awal, serta memenuhi asumsi pendugaan parameter dan uji kebaikan model. Model ini dapat dituliskan :
12 24 12 12 1 1 2 (1−
φ
B)(1−Φ −ΦB B )Xt= −Θ(1 B −ΘB )ε
t dengan φ = 0.2897, Φ1 = 0.8420, Φ2 =-0.9647, Θ1 = 0.7600, Θ2= 0.8383 3.3. Regresi-ARIMATahap selanjutnya adalah mensubtitusi model ARIMA(1,0,0)(2,0,2) kedalam model RKU
sebagai pengganti ε dan menggunakannya untuk menduga curah hujan DAS Saguling.
Tabel 1 memperlihatkan perbandingan hasil pendugaan curah hujan DAS Saguling pada periode Januari 1986-Desember 2001 menggunakan model RKU dan model regresi-ARIMA. Pada tabel tersebut terlihat bahwa pendugaan dengan model regresi-ARIMA menghasilkan nilai R2 sebesar 56% dan nilai RMSE 57.6, lebih baik dibandingkan R2 dan RMSE RKU.
Tabel 1. Perbandingan R2 dan RMSE RKU dan RKU-ARIMA periode Januari 1986 – Desember 2001
Peramalan curah hujan Januari 2002-Desember 2002 ditunjukkan pada Gambar 4, dari Gambar tersebut tampak bahwa model RKU gagal memprediksi perubahan curah hujan pada bulan Januari-Maret, Juni, Juli dan September Sedangkan model RKU-ARIMA, meskipun gagal memprediksi perubahan curah hujan pada bulan Juni, September dan November, model ini mampu memberikan pendugaan curah hujan lebih baik dibandingkan model RKU. Hal ini terutama dapat dilihat dari kemampuan model RKU-ARIMA menduga perubahan tajam yang terjadi pada bulan Januari-April. -50 50 150 250 350 1 2 3 4 5 6 7 8 9 10 11 12 Bulan C u ra h H u ja n
Aktual Reg KU Reg ARIMA
Gambar 4. Peramalan curah hujan Januari
-Desember 2002
Perbandingan nilai R2 dan RMSE pada periode ini disajikan pada Tabel 2. Dari tabel tersebut terlihat bahwa model RKU menghasilkan nilai R2 sebesar 52% dan RMSE sebesar 81.7 sedangkan RKU-ARIMA menghasilkan pendugaan yang lebih baik dengan nilai R2 sebesar 62% dan RMSE sebesar 73.1
RKU RKU-ARIMA
R2 47.9% 56%
Tabel 2. Perbandingan R2 dan RMSE RKU dengan RKU-ARIMA periode Januari 2002 – Desember 2002
3.4. Perbandingan Keakuratan Model dengan Domain yang Berbeda
Hasil korelasi antara data GCM dengan data curah hujan DAS Saguling menghasilkan nilai korelasi terbesar sebesar 0,71 dan nilai korelasi terkecil sebesar 0,001. Domain yang dipilih dalam penelitian ini adalah yang memiliki korelasi ≥0,7 dan korelasi ≥0,6. Domain yang memiliki korelasi
≥ 0,7 berjumlah 15 grid sedangkan yang memiliki korelasi ≥ 0,6 berjumlah 187 grid.
Domain tersebut kemudian digunakan untuk menduga curah hujan menggunakan metode RKU dan RKU-ARIMA. Jumlah KU yang digunakan dalam model regresi adalah tiga, dengan besar keragaman yang mampu dijelaskan lebih dari 95%. Nilai R2 dan RMSE yang dihasilkan menggunakan kedua domain ini dan domain sebelumnya dapat dilihat pada Tabel 3 dan Tabel 4.
Penggunaan domain yang berkorelasi tinggi dengan respon dalam RKU tampak memberikan pendugaan yang lebih baik dibandingkan dengan penggunaan domain 8x8, dengan peningkatan R2 sekitar 5% dan penurunan RMSE (±3). Pemodelan menggunakan RKU-ARIMA menghasilkan pendugaan yang lebih baik dari RKU.
Hal ini dapat dilihat dari peningkatan nilai R2 dan nilai RMSE yang semakin kecil untuk ketiga model. Hasil terbaik diperoleh untuk penggunaan domain dengan korelasi ≥0,6, sedangkan peningkatan R2 dan RMSE terbesar diperoleh untuk penggunaan domain 8x8. Pendugaan untuk periode Januari 2002-Desember 2002 disajikan pada Tabel 5 dan Tabel 6.
Hasil terbaik menggunakan RKU untuk periode Januari 2002-Desember 2002 diperoleh menggunakan domain dengan korelasi ≥0,7, sedangkan domain 8x8 ternyata memberikan hasil yang hampir sama dengan domain dengan korelasi
≥0,6. Ketiga model RKU-ARIMA pada periode ini juga memberikan hasil yang lebih baik dibandingkan dengan RKU dengan peningkatan R2 berkisar antara 1-10%. Hasil terbaik justru diperoleh dengan penggunaan domain 8x8. Hal ini terjadi karena model ARIMA sisaan RKU menggunakan domain ini lebih rumit dibandingkan dua model ARIMA lainnya dengan adanya unsur musiman.
4. KESIMPULAN
Hasil peramalan curah hujan menggunakan model RKU menghasilkan nilai R2 sebesar 52-56%, sementara peramalan menggunakan model RKU-ARIMA menunjukkan adanya peningkatan R2 sebesar 3-10% dan penurunan RMSE sebesar 1-7 dibandingkan model RKU. Hal ini menunjukkan bahwa RKU-ARIMA dapat digunakan untuk memperbaiki tingkat pendugaan dari model RKU. Penggunaan tiga domain yang berbeda menunjukkan bahwa peningkatan R2 akan lebih tinggi lagi jika digunakan domain berukuran 8x8.
Tabel 3. Perbandingan R2 RKU dan RKU-ARIMA dengan tiga domain yang berbeda periode Januari 1986 – Desember 2001
Domain R2
r Jml grid RKU RKU-ARIMA
≥ 0,6 15 52.90% 57.70%
≥ 0,7 187 52.70% 52.80% 0,1-0.55 64 (8X8) 47.90% 56.08%
Tabel 4. Perbandingan RMSE RKU dan
RKU-ARIMA dengan tiga domain yang berbeda periode Januari 1986 – Desember 2001
Domain RMSE
r Jml grid RKU RKU-ARIMA
≥ 0,6 15 60.04 56.09
≥ 0,7 187 60.15 59.47 0,1-0.55 64 (8X8) 63.70 57.60
Tabel 5. Perbandingan R2 RKU dan RKU-ARIMA dengan tiga domain yang berbeda periode Januari –Desember 2002
Domain R2
r Jml grid RKU RKU-ARIMA
≥ 0,6 15 52.90% 55.80%
≥ 0,7 187 56.65% 57.73%
0,1-0.55 64 (8X8) 52.87% 62.25% Tabel 6. Perbandingan RMSE RKU dan RKU-ARIMA dengan tiga domain yang berbeda periode Januari–Desember 2002
Domain RMSE
r Jml grid RKU RKU-ARIMA
≥ 0,6 15 81.57 79.88 ≥ 0,7 187 79.25 78.57 0,1-0.55 64 (8X8) 81.70 73.10 RKU RKU-ARIMA R2 52% 62% RMS error 81.7 73.1
DAFTAR PUSTAKA
1. Ratag, M. A. 2002. Riset Matahari-Bumi untuk Prediksi Iklim. Suara Pembaruan, 11 November 2002.
2. Bergant, K. and Lucka, K 2002. Evaluation of Different Statistical Model and Potential Predictors for Statistical Downscaling of Large-Scale Predictor Fields to Near Ground Air Temperature In Slovenia.
http://mrvar.fdv.uni-lj.si/pub/mz/mz17/ bergant.pdf
3. Wilby, R. L. and Wigley, T. M. L. 1997. Downscaling General Circulation Model
Output: A Review of Methods and Limitation. Progress in Physical Geography, 21: 530-548 4. Makridakis, S. Wheelwright, S. C. and
MCGee, V. E. 1978. Forecasting Methods and Aplication Ed ke-2 Jhon Wiley and Sons, Inc, New York.
5. Rawling, J. O. 1988. Applied Regression Analysis :A Research Tool.. Wardworths and Brook/Cole Advance Book and Software. Pasific Groove. California.
6. Pindyck, R. S. & Rubinfeld, D. L. 1981. Econometric Models and Economic Forecast. McGraw-Hill Inc, Boston.