• Tidak ada hasil yang ditemukan

PENGGUNAAN REGRESI KONTINUM DENGAN PRA- PEMROSESAN ROBPCA UNTUK PEMODELAN STATISTICAL DOWNSCALING. Sutikno 1 dan Setiawan 2

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENGGUNAAN REGRESI KONTINUM DENGAN PRA- PEMROSESAN ROBPCA UNTUK PEMODELAN STATISTICAL DOWNSCALING. Sutikno 1 dan Setiawan 2"

Copied!
9
0
0

Teks penuh

(1)

PENGGUNAAN REGRESI KONTINUM DENGAN PRA- PEMROSESAN ROBPCA UNTUK PEMODELAN STATISTICAL DOWNSCALING

Sutikno1 dan Setiawan2 1, 2

Jurusan Statistika FMIPA – ITS

sutikno@statistika.its.ac.id, setiawan@statistika.its.ac.id,

Abstrak

Makalah ini membahas regresi kontinum untuk pemodelan statistical

downscaling (SD) dengan pra-pemrosesan Robust Principal Component Analysis (ROBPCA) dengan estimator robust Minimum Covariance Determinant (MCD). Penggunaan regresi kontinum untuk mengatasi adanya

multikolinieritas antar peubah prediktor. Sementara ROBPCA digunakan untuk mengatasi adanya data outlier pada proses reduksi spasial domain GCM yang dipilih. Sebagai studi kasus digunakan lokasi Stasiun Indramyu, Losarang, dan Yuntinyuat. Hasil penelitian menunjukkan bahwa pereduksian data dengan ROBPCA menghasilkan jumlah komponen utama lebih kecil dari PCA dan mempunyai keragaman yang bisa menjelaskan data asal lebih besar dari metode PCA. Kesimpulan lain diperoleh jumlah komponen dan keragaman yang dapat dijelaskan oleh komponen utama metode ROBPCA akan sama dengan PCA, jika nilai amatan yang outlier mendekati nilai cut

off-nya. Nilai R2 model regresi kontinum berkisar 37%-44%, dengan nilai

simpangan baku sisaan model (s ) berkisar 0,755-0,799.

Kata kunci : PCA, ROBPCA, outlier, MCD, GCM, Statistical Downscaling

1. Pendahuluan

Pemodelan Statistical Downscaling (SD) luaran model Global Circulation

Model (GCM) telah dikembang di Indonesia. Pemanfaatan dari model ini digunakan

untuk berbagai kajian iklim, seperti rekontruksi iklim historis, kajian perubahan iklim, dan pemanfaat iklim lainnya. Scara umum model SD dinyatakan y = f(X) + , dengan y adalah peubah respon (observasi), X peubah prediktor GCM, dan adalah sisaan. Salah satu permasalahan utama dalam pemodelan SD adalah pra-pemrosesan data GCM model hubungan antara peubah respon (y) dan peubah prediktor. Pra-pemrosesan GCM meliputi reduksi spasial domain GCM dan reduksi peubah prediktor GCM.

Data GCM yang berskala besar memungkinkan adanya multikolinearitas dan adanya outlier. Oleh karena itu perlu dilakukan reduksi dimensi pada data luaran GCM sebagai pra-pemrosesan pemodelan SD. Reduksi dimensi seringkali menggunakan Principal Component Analysis (PCA). Namun PCA tidak mengatasi adanya outlier, sehingga diperlukan reduksi dimensi yang robust. Wigena (2006) menggunakan Projection Pursuit (PP) untuk mereduksi dimensi data GCM dan Sujatmiko (2005) melakukan reduksi dimensi robust dengan Minimum Covariance Seminar Nasional Statistika IX

(2)

Determinant (MCD) pada data SUSENAS. Hasil penelitian ini menyimpulkan bahwa metode reduksi dimensi robust dengan estimator MCD memberikan hasil yang lebih baik. Khotimah (2009) melakukan pereduksian spasial grid GCM dengan metode reduksi dimensi robust menggunakan robust principal component analysis (ROBPCA) dengan estimator robust MCD. Hasil penelitian ini menyimpulkan bahwa tidak ada perbedaan jumlah komponen utama yang terbentuk antara metode PCA dan ROBPCA, jika peubah tersebut tidak terdapat amatan yang outlier. Disamping itu, ROPPCA mempunyai keragaman yang bisa dijelakan pada komponen utama pertama yang lebih besar daripada komponen utama pertama hasil PCA. Namun demikian pada penelitian ini masih belum mengatasi hubungan multikolinieritas antar peubah prediktor pada penyusunan hubungan antara peubah respon (y) dan peubah prediktor (x). Metode pendugaan parameter yang digunakan adalah metode kuadrat terkecil.

Penelitian ini membahas metode regresi kontinum dengan pra-pemrosesan ROPPCA. Penggunan metode ini untuk mengatasi adanya multikolinieritas antar peubah prediktor, selanjut diharapkan dapat meningkatan akurasi dari hasil prediksi. 2. Tinjauan Pustaka

Pendeteksian Outlier

Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari

pengamatan lainnya, sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Sujatmiko, 2005). Pada data univariate, pengamatan outlier dapat dengan mudah terlihat dengan menggunakan beberapa plot sederhana, seperti scatter plot, steam and leaf, boxplot, dan sebagainya, sedangkan pada data multivariate identifikasi outlier umumnya didasarkan pada jarak mahalanobis (Mahalanobis Distance:MD),

μ Σ μ T i i MD x x d 1 (1)

Pengamatan diidentifikasi sebagai outlier jika suatu pengamatan mempunyai nilai

MD

d lebih besar dari 2p,1 . Namun identifikasi outlier pada data multivariate dengan jarak mahalanobis tidak maksimal karena adanya efek masking (adanya pengamatan outlier lain yang berdekatan) dan swamping (adanya pengamatan yang bukan outlier yang teridentifikasi sebagai outlier) (Rousseeuw dan Van Zomeren, 1990). Oleh karena itu, digunakan Robust Distance (RD) dengan estimator MCD (Rocke dan Woodruff, 1996), sehingga RD dapat dituliskan,

MCD i x MCD T MCD i x RD d T(X) C(X) 1 T(X) (2)

Pengamatan xidiidentifikasi sebagai outlier jika mempunyai nilai dRD lebih besar

(3)

Estimator MCD

Metode MCD merupakan upaya untuk menemukan h observasi (h n) yang memiliki determinan matriks varian-kovarian terkecil dengan [(n p 1)/2] h n.

j

MCD min det CX , j = 1, 2, ….,

h n

(3) di mana C(X) adalah matriks varian-kovarian berdasarkan pengamatan

x

i

dengan

J

i . Estimator MCD diberikan oleh:

h i i x h 1 1 X T dan i t h i i x x h TX TX X C 1 1 1 (4) MCD mencari subsampel h, sebanyak nCh, sehingga untuk n besar dibutuhkan komputasi yang panjang untuk menemukan estimator MCD. Oleh karena itu, untuk meminimalisasi waktu komputasi digunakan algoritma FAST-MCD oleh Rousseeuw dan Van Driessen (1999). Inti algoritma FAST-MCD adalah C-Step.

Teorema C-Steps. Diketahui X x1,...,xn tmerupakan himpunan data sejumlah n observasi yang terdiri dari p peubah. Misal H1 1,...,n dimana H1 h. Tetapkan

h H i i h 1 1 : x T1 dan t h H i h i 1 i 1 1 x T x T C 1 1

: . Jika det (C1)≠0 definisikan jarak relatif : 1 i 1 1 1 i T C x T x t i d1 , i = 1, ... , n (5)

Selanjutnya ambil himpunanH sedemikian sehingga, 2 d1 i;i H2 : d1 1:n,..., d1 h:n di mana d1 1:n d1 2:nd1 n:n merupakan urutan jarak, kemudian T2 dan C2 dihitung berdasarkan himpunanH2. Sehingga det C2 det C1 , akan sama jika dan hanya jika T1 =T2 dan C1=C2. Tetapkan T(X)danC(X)sebagai estimator dari subsampel yang memberikan determinan matriks varia-kovarian minimum. Berdasakan subsampel yang memberikan determinan matriks varian-kovarian minimum diberikan pembobotan pada data,

{

2 975 . 0 , 1 ) ( ) ( jika 1 lainnya 0 p i t i x x i w T(X) C(X) T(X) (6) Selanjutnya estimator MCD adalah:

n i i w n i i x i w MCD 1 1 T(X) dan n i i w n i t MCD i x MCD i x i w MCD 1 1 1 ) )( ( T(X) T(X) C(X) (7) Regresi Kontinum

Misalkan X matriks data yang sudah dipusatkan (centered) berukuran nxp dan disebut peubah bebas, sedangkan y adalah vektor peubah respon berukuran nx1 yang sudah dipusatkan, β vektor parameter regresi berukuran px1, serta ε adalah

(4)

vektor galat berukuran nx1. Regresi Kontinum dikembangkan berdasarkan model regresi linear klasik sebagai berikut :

y ε (8) Pada model regresi linear terboboti formula matematis dapat ditulis sebagai berikut, maksimumkan Sw w y s w x w x w i T i T T n i i T n i i n i w y y r 2 2 1 2 1 2 2 1 2 ) ( (9)

dengan xi adalah vektor pengamatan peubah bebas ke-i (i=1,2, ..., n) berukuran (px1), s XTy dan S XTX.

Regresi komponen utama pada prinsipnya adalah memaksimumkan : Sw w x wT i T n i w S 2 1 (10)

Dari persamaan (10) tersebut dapat dijelaskan bahwa prinsip dasar dalam RKU adalah memaksimumkan keragaman dari peubah bebas X sehingga dibentuk peubah baru berupa beberapa komponen utama yang merupakan kombinasi linear dari peubah-peubah asal (X). Selanjutnya data peubah respon y diregresikan dengan beberapa komponen utama tersebut dengan menggunakan teknik regresi ganda.

RKTP prinsipnya adalah memaksimumkan :

2 2 1 s w x w T n i i T i w y S (11)

Dari persamaan (11) tersebut dapat dilihat bahwa prinsip RKTP adalah memaksimumkan koragam antara peubah bebas dengan peubah respon.

Pada RK peubah baru diformulasikan dalam model sebagai berikut

ε ξ T

y h (12)

dengan : Th XWh (13) dan Wh w1,w2,...,wh matriks berisi h kolom peubah dengan h<p dan disebut

matriks pembobot.

Stone dan Brooks (1990) memformulasikan matriks pembobot tersebut sebagai berikut : 1 )] 1 /( [ 2 , max arg Xw y Xw w Cov Var w i (14)

dengan kendala wi 1 dan CovXwi,Xwj 0 untuk i j sedangkan parameter penyesuaian merupakan bilangan real 0 1.

Alternatif lain adalah formula yang dikembangkan oleh Malpass (1996) sebagai berikut : ) 2 1 ( ) 4 2 2 ( 2 , max arg Xw y Xw w Cov Var w i (15)

Dari persamaan 14 dibuat suatu formula yang umum sebagai berikut :

1 )) 1 /( ( 2 Xw X w y X wT T T T G (16)

(5)

) 2 1 ( ) 4 2 2 ( 2 Xw X w y X wT T T T G (17) selanjutnya disebut metode Portsmouth (Malpass, 1996).

Formula tersebut merupakan generalisasi dari RKT, RKU serta RKTP dengan bentuk keterkaitan sebagai berikut :

1. Untuk 0, maka G wTs 2 wTSw 1 formula ini ekivalen dengan persamaan 9, artinya pada 0 RK merupakan RKT.

2. Untuk 0.5, maka G wTs2 formula ini ekivalen dengan persamaan 11, sehingga pada 0 RK merupakan RKTP .5

3. Untuk 1 , maka G wTSw 2 formula ini ekivalen dengan persamaan 10, sehingga pada 1 RK merupakan RKU.

Dengan kata lain RK, RKU serta RKTP merupakan bentuk khusus dari RK.

Pendugaan parameter regresi ξ pada persamaan (5) dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut :

y T T T ξ T h h T h h 1 , ˆ (18) h h h , , ˆ ˆ XWξ y y T T T W β T h h T h h h 1 , ˆ (19)

dengan merupakan parameter penyesuaian dan h banyaknya komponen. 3. Metodologi

Data yang digunakan adalah data luaran GCM model CSIRO-Mk3

di-download melalui website: http://www-pcmdi.llnl.gov/ipcc/, dengan eksperimen

“20th century in coupled models” (20C3M). Domain GCM yang digunakan adalah 3x3, dengan posisi stasiun ada ditengah dan periode observasi tahun 1967-2000. Peubah yang digunakan adalah peubah luaran CSIRO-Mk3 sebagai peubah prediktor yang meliputi: precipitable water (PRW), tekanan permukaan laut (SLP), komponen angin meridional (VA), komponen zonal (UA), ketinggian geopotensial (ZG), dan kelembaban spesifik (HUS). Ketinggian (level) yang digunakan adalah 850 hPa, 500 hPa, dan 200 hPa. Sedangkan peubah respon yaitu data curah hujan bulanan meliputi stasiun: Losarang, Indramayu, dan Juntinyuat. Tahapan analisis data dalam penelitian ini, yaitu: (1) melakukan standarisasi data, (2) melakukan reduksi dimensi data dengan ROBPCA, dan (3) menyusun model regresi kontinum dengan peubah prediktor adalah komponen utama: Y = f(Z) + ε.

4. Hasil dan Pembahasan Identifikasi Outlier

Identifikasi outlier menggunakan jarak robust (robust distance). Pengamatan dikatakan outlier jika jarak robust-nya lebih besar dari nilai cut off-nya. Nilai cut off merupakan nilai dari 2

975 . 0 ;

p . Nilai cut off-nya adalah 4.3615. Gambar 1 menunjukkan identifikasi outlier untuk peubah HUSS, HUS850, VA500, dan VA850. Garis yang terdapat dalam Gambar 1 menunjukkan nilai cut off. Pengamatan

(6)

yang berada di atas garis tersebut teridentifikasi sebagai pengamatan outlier. Berdasarkan Gambar 1 tersebut, terdapat 86 pengamatan outlier pada peubah HUSS, 113 pengamatan outlier pada peubah HUS850, 134 pengamatan outlier pada peubah VA500, dan pada peubah VA850 ada 94 pengamatan outlier. Ringkasan jumlah

outlier untuk peubah lainnya disajikan pada Tabel 1.

Gambar 1. Identifikasi Outlier dengan Robust Distance Peubah: HUSS(a), HUS850 (b), VA500 (c), dan VA850 (d).

Tabel 1. Jumlah Pengamatan Outlier pada Peubah Luaran GCM No Peubah Jumlah pengamatan

yang outlier 1 HUSS 86 2 HUS200 15 3 HUS500 18 4 HUS850 113 5 PRW 29 6 SLP 44 7 UAS 30 8 UA200 15 9 UA500 21 10 UA850 25 11 VAS 42 12 VA200 16 13 VA500 134 14 VA850 94 15 ZG200 15 16 ZG500 14 17 ZG850 21 0 50 100 150 200 250 300 350 400 0 10 20 30 40 50 60 Index R ob us t di st an ce 39 267 258 MCDCOV 0 50 100 150 200 250 300 350 400 0 2 4 6 8 10 12 Index R ob us t di st an ce 386 328 329 MCDCOV (a) (b) 0 50 100 150 200 250 300 350 400 0 1 2 3 4 5 6 Index R ob us t di st an ce 400 282 122 MCDCOV 0 50 100 150 200 250 300 350 400 0 2 4 6 8 10 12 Index R o b us t d is ta n c e 201 341 42 MCDCOV (c) (d)

(7)

Tabel 1 memberikan informasi bahwa pengamatan outlier yang cukup banyak terdapat pada peubah HUSS, HUS850, VA500, dan VA850. Namun demikian, peubah HUS850, VA500, dan VA850 terdapat cukup banyak outlier, ternyata jarak pengamatan outlier terhadap nilai cut off tidak begitu lebar. Berbeda dengan peubah HUSS yang mempunyai jarak yang lebar dibandingkan peubah-peubah lainnya.

Pra-pemrosesan dengan Metode ROBPCA

Pereduksian dilakukan pada dimensi spasialnya yaitu lintang dan bujur atau disebut grid dan pada semua peubah. Tahapan pembentukan komponen utama pada metode ROBPCA sama seperti metode PCA, perbedaannya hanya pada estimator yang digunakan, pada PCA estimator yang digunakan adalah estimator klasik, sedang ROBPCA menggunakan estimator robust, yaitu MCD.

Tabel 2. Jumlah PC Optimal dan Keragaman Kumulatif PC Peubah Luaran GCM dengan Menggunakan Metode ROBPCA dan PCA

No. Peubah Metode ROBPCA Metode PCA

Jml PC Kerag. Kum. Jml PC Kerag. Kum.

1 HUSS 2 0.940 3 0.898 2 HUS200 1 0.975 1 0.977 3 HUS500 1 0.973 1 0.967 4 HUS850 1 0.930 1 0.937 5 PRW 1 0.927 1 0.923 6 SLP 1 0.974 1 0.975 7 UAS 1 0.957 1 0.949 8 UA200 1 0.985 1 0.985 9 UA500 1 0.913 1 0.918 10 UA850 1 0.983 1 0.983 11 VAS 1 0.905 1 0.881 12 VA200 1 0.976 1 0.976 13 VA500 1 0.864 1 0.918 14 VA850 1 0.943 1 0.851 15 ZG200 1 0.996 1 0.996 16 ZG500 1 0.997 1 0.997 17 ZG850 1 0.992 1 0.991

Tabel 2 menyajikan hasil komponen utama dan keragaman yang dapat dijelaskan dengan menggunakan metode ROBPCA dan PCA. Berdasarkan Tabel 2 menunjukkan bahwa keragaman yang dapat dijelaskan oleh peubah HUSS dengan 2 komponen utama pada ROBPCA adalah 0,940, sedangkan pada metode PCA dengan 3 komponen utama adalah 0,898. Sementara pada peubah VA500, keragaman yang bisa dijelaskan oleh 1 komponen utama metode ROBPCA adalah 0,894, sedangkan metode PCA dengan 1 komponen utama adalah 0,918. Berdasarkan hasil ini, untuk menyimpulkan metode mana yang mempunyai kinerja baik menurut keragaman yang bisa dijelaskan tidak hanya bisa ditentukan adanyanya (banyaknya) data outlier. Namun juga ditentukan oleh jarak antara nilai amatan outlier tersebut dengan nilai

(8)

yang baik dari metode PCA jika terdapat data oulier dan jarak amatan outliernya dengan cut off relatif jauh.

Pemodelan SD dengan regresi kontinum

Berdasarkan identifikasi hubungan antar peubah prediktor terdapat korelasi yang nyata, sehingga terjadi kasus kolinieritas. Model hasil regresi kontinum di tiga lokasi Indramayu, Losarang, dan Yuntinyuat diperoleh nilai R2 masing-masing secara berurutan 0,39; 0,44; dan 0,37, dengan R2adjusted 0,39; 0,43; dan 0,36 (Tabel

3).

Tabel 3. nilai R2, R2adjusted, dan simpangan baku sisaan (s) model regresi kontinum

Stasiun s R2 R2adjusted Indramayu 0.7855 0.3907 0.3850 Losarang 0.7551 0.4368 0.4312 Yuntinyuat 0.7999 0.3681 0.3622 5. Penutup

Berdasarkan identifikasi outlier menunjukkan bahwa peubah GCM terdapat outlier. Hasil pra-pemrosesan data GCM menunjukkan bahwa metode ROBPCA mempunyai kinerja yang baik dari metode PCA jika terdapat data oulier dan jarak amatan outliernya dengan cut off relatif jauh. Regresi kontinum dapat digunakan untuk mengatasi kasus kolinieritas antar peubah prediktor GCM.

6. Ucapan Terima Kasih

Penelitian ini termasuk bagian dari “Penelitian Stategis Nasional”. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada DIKTI yang telah mendanai penelitian ini.

Daftar Pustaka

Khotimah K, Sutikno, Setiawan, Otok WB, (2009) Reduksi Dimensi Robust Dengan Estimator MCD Untuk Pra- Pemrosesan Data Pemodelan Statistical

Downscaling.Prosiding Seminar Nasional Matematika dan Pendidikan

Matematika 8 Agustus 2009 UNESA.

Jolliffe, I.T. (1986). Principal Component Analysis, Second Ed. New York: Springer-Verlag.

Mallpass J. 1996. Improved Mathematical Methods for Drugs Design : Continuum Regression SAS Macro. University of Portsmouth.

Rousseeuw, P.J. and Van Zomeren, B.C. (1990). “Unmasking Multivariate Outliers and Leverage Points,” Journal of the American Statistical Association, 85, 633– 651.

Rousseeuw, P.J., and Van Driessen, K. (1999). “A Fast Algorithm for the Minimum Covariance Determinant Estimator”, Technometrics, Vol. 41, No. 3, 212-223.

(9)

Sujatmiko, Irwan. (2005). “Analisis Komponen Utama dengan Menggunakan

Matriks Varians-Kovarians yang Robust” Tesis. Jurusan Statistik-ITS.

Surabaya.

Wigena, A.H. (2006). “Pemodelan Statistical Downscaling dengan Regresi

Projection Pursuit untuk Peramalan Curah Hujan Bulanan” Disertasi. Bogor:

Gambar

Tabel 1. Jumlah Pengamatan Outlier pada Peubah Luaran GCM   No  Peubah  Jumlah pengamatan
Tabel 1 memberikan informasi bahwa pengamatan outlier yang cukup banyak  terdapat  pada  peubah  HUSS,  HUS850,  VA500,  dan  VA850
Tabel 3. nilai R 2 , R 2 adjusted, dan simpangan baku sisaan (s)  model regresi kontinum     Stasiun  s  R 2  R 2 adjusted  Indramayu  0.7855  0.3907  0.3850  Losarang  0.7551  0.4368  0.4312  Yuntinyuat  0.7999  0.3681  0.3622  5

Referensi

Dokumen terkait

Berangkat dari ketiga dunia hermeneutika di atas, dalam memahami makna teks muncul kecenderungan tertentu di kalangan pembaca, yaitu kecenderungan hermeneutis. Ada

Berdasarkan hasil need assesment dengan menggunakan Daftar Cek Masalah yang disebut juga DCM di Madrasah Aliyah Negeri Sidoarjo yang selanjutnya disebut MAN Sidoarjo

Mencakup kegiatan apersepsi, penyampaian tujuan pembelajaran, dan kegiatan-kegiatan pembelajaran yang akan dilakukan peserta didik pada

Makin tinggi kadar karbon suatu baja makin rendah temperatur awal dan akhir dari pembentukan martensit tersebut terlihat bahwa untuk baja dengan kadar karbon lebih

Subjek pertama dalam tesis ini adalah yaitu Kementerian Kelautan dan Perikanan (KKP) Republik Indonesia, khususnya beberapa orang yang memiliki kapasitas dalam

3) Rancangan Layar Entri Hasil Keputusan Pada rancangan layar entri hasil keputusan seperti pada gambar 12, terdapat kode jabatan dan periode sebagai parameter dalam

Peninggalan lanskap atau archaeological landscape terbesar pada masa Sriwijaya adalah wanua atau permukiman padat Sriwijaya yang kini dapat dilihat di tepian

Tipe 6, memiliki ciri-ciri bentuk kepala persegi, tanduk lurus, kedua mata melotot, mulut menganga memperlihatkan gigi-gigi tajam, bagian leher dihiasi kalung