i TUGAS AKHIR - ST 1325
REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL DOWNSCALING
Khusnul Khotimah NRP 1305 100 069 Dosen Pembimbing Dr. Sutikno, S.Si, M.Si
JURUSAN STATISTIKA
Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember
TUGAS AKHIR - ST 1325
REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN STATISTICAL
DOWNSCALING
Khusnul Khotimah NRP 1305 100 069
Dosen Pembimbing Dr. Sutikno, S.Si, M.Si
JURUSAN STATISTIKA
Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember
FINAL PROJECT - ST 1325
ROBUST DIMENSION REDUCTION USING MCD ESTIMATOR FOR DATA PRE PROCESSING IN STATISTICAL DOWNSCALING MODELING
Khusnul Khotimah NRP 1305 100 069
Advisor
Dr. Sutikno, S.Si, M.Si
DEPARTMENT of STATISTICS
Faculty of Mathematics and Natural Science Sepuluh Nopember Institute Of Technology Surabaya 2009
iii
LEMBAR PENGESAHAN
REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA-PEMROSESAN DATA PEMODELAN
STATISTICAL DOWNSCALING TUGAS AKHIR
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Sains
pada
Program Studi S-1 Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya
Oleh :
KHUSNUL KHOTIMAH NRP. 1305 100 069
Disetujui Oleh Pembimbing Tugas Akhir,
Dr. Sutikno, S.Si, M.Si NIP. 132 161 200
Mengetahui,
Ketua Jurusan Statistika FMIPA-ITS
Dr. Sony Sunaryo, M.Si NIP. 131 843 380 SURABAYA, AGUSTUS 2009
v
REDUKSI DIMENSI ROBUST DENGAN ESTIMATOR MCD UNTUK PRA- PEMROSESAN DATA PEMODELAN
STATISTICAL DOWNSCALING
Nama Mahasiswa: Khusnul Khotimah NRP: 1305 100 069
Jurusan: Statistika FMIPA-ITS
Dosen Pembimbing : Dr. Sutikno, S.Si, M.Si
Abstrak
Pemodelan Statistical Downscaling (SD) menghubungkan skala global GCM dengan skala yang lebih kecil. Data GCM merupakan data spasial dan temporal di mana kemungkinan besar terjadi korelasi spasial antara data pada grid yang berbeda dalam satu domain. Di samping itu data GCM memungkinkan adanya pengamatan outlier. Oleh karena itu, dalam pemodelan SD perlu dilakukan suatu pra-pemrosesan yaitu reduksi dimensi untuk mengatasi masalah multikolinearitas data luaran GCM. Metode reduksi dimensi yang serikali digunakan adalah Principal Component Analysis (PCA). Namun PCA tidak dapat diandalkan jika ada pengamatan outlier dalam data, sehingga diperlukan reduksi dimensi yang robust. Reduksi dimensi robust menggunakan Robust Principal Component Analysis (ROBPCA) dengan estimator robust MCD. Metode MCD merupakan upaya untuk menemukan h observasi yang memiliki determinan matriks varian-kovarian minimum. Identifikasi outlier menggunakan robust distance yang juga menggunakan estimator MCD. Hasil penelitian menunjukkan bahwa ROBPCA menghasilkan komponen utama yang jauh lebih sedikit dibanding dengan PCA pada variabel HUSS. Hal ini dipengaruhi oleh adanya pengamatan outlier yang cukup banyak dan mempunyai jarak yang lebar terhadap nilai cut off dibanding dengan variabel-variabel lain. Variabel hasil reduksi dimensi kemudian digunakan untuk pemodelan SD, setelah itu dilakukan validasi. Pada pemodelan SD, tidak ada perbedaan signifikan antara metode regresi PCA dan regresi ROBPCA. Namun, secara umum metode regresi PCA cenderung lebih baik daripada regresi ROBPCA dilihat dari nilai RMSEP dan R2.
Kata kunci : GCM, SD, outlier PCA, ROBPCA, cut off, MCD,
vii
ROBUST DIMENSION REDUCTION USING MCD ESTIMATOR FOR DATA PRE PROCESSING IN STATISTICAL
DOWNSCALING MODELING
Name: Khusnul Khotimah NRP: 1305 100 069
Majors : Statistika FMIPA-ITS Advisor : Dr. Sutikno, S.Si, M.Si
Abstrak
Statistical Downscaling (SD) modeling connects GCM global scale to smaller rainfall scale. Nevertheless, GCM data is spatial and temporal data where there is possibility of spatial correlation among the data in different grids in the same domain and enable the presence of outliers. Therefore, in SD modeling preprocessing is necessary, such as dimension reduction to solve GCM outline data multicolinearity problem. Dimension reduction method which is often used is Principal Component Analysis (PCA). PCA can’t be relied on if there are outliers in the data, so robust dimension reduction is required. One of robust dimension reduction methods is Robust Principal Component Analysis (ROBPCA) with MCD robust estimator. MCD method is objective is to find h observations whose covariance matrix has the lowest determinant. Outlier identification uses robust distance which also uses MCD estimator. This research shows that ROBPCA yields less principal components than common PCA for variable HUSS. This is affected by the presence of many outliers and having longer distance to cut off value than other variables. Variables from dimension reduction are used in SD modeling, after validation is done. In SD modeling, there is no significant difference between PCA and ROBPCA regression method. But, generally PCA regression method tends to be better than ROBPCA regression based on RMSEP and R2.
Keywords : GCM, SD, outlier PCA, ROBPCA, cut off, MCD,
ix
KATA PENGANTAR
Puji syukur kepada Allah SWT atas segala rahmat, hidayah, dan petunjuk sehingga penulis dapat menyelesaikan Tugas Akhir yang berjudul “REDUKSI DIMENSI ROBUST
DENGAN ESTIMATOR MINIMUM COVARIANCE
DETERMINANT (MCD) UNTUK PRA-PEMROSESAN
DATA PEMODELAN STATISTICAL DOWNSCALING
(SD)”. Sholawat serta salam kepada Nabi Muhammad SAW juga
tak lupa penulis panjatkan, semoga penulis memperoleh syafa’at dari beliau. Tidak lupa penulis mengucapkan terima kasih sebesar-besarnya kepada berbagai pihak yang turut membantu dalam penyusunan Tugas Akhir ini, diantaranya :
1. Bapak dan Ibu tercinta atas kasih sayang, bimbingan,
dukungan dan do’a yang selalu mengalir untuk ananda.
2. Bapak Dr. Sony Sunaryo, M.Si selaku Ketua Jurusan
Statistika yang telah memberi dukungan.
3. Bapak Dr. Sutikno, S.Si, M.Si selaku dosen pembimbing atas
segala bimbingan, saran, semangat dan waktu yang diberikan kepada penulis hingga laporan tugas akhir ini terselesaikan.
4. Bapak Ir. Arie Kismanto, M.Si., M. Syahid Akbar, S.Si,
M.Si., dan Dr. Ir. Setiawan, M.S atas petunjuk yang diberikan.
5. Ibu Ir. Mutiah Salamah, M.Kes., selaku koordinator Tugas
Akhir.
6. R. Moh. Atok, S.Si, M.Si dan Dr. Brodjol Sutijo, S.Si, M.Si
selaku dosen wali dan seluruh Dosen Statistika ITS atas semua ilmu dan pengalaman yang dibagikan kepada penulis.
7. Kakak-kakakku Mbak Nikmah, Mas Anton dan Mas Fuad.
8. Widira, tanpamu aku tak bisa seperti ini teman, doaku selalu
untukmu.
9. Anggota trio PC (Jj dan Reni), nona missing (Anita), dan
x
10. Rokhana, Shofi, Ning Ais, Mas Josh, Nuri, serta
kawan-kawan sigma_sixteen semuanya.
11. Pak Suryana, terima kasih atas waktu dan pencerahannya.
12. Semua pihak yang telah membantu penulis dalam
penyele-saian tugas akhir ini yang tidak mungkin disebutkan satu persatu.
Penulis menyadari bahwa Tugas Akhir ini masih jauh
dari kesempurnaan. Oleh karena itu, penulis sangat
mengharapkan saran dan kritik demi kesempurnaan Tugas Akhir ini. Semoga Tugas Akhir ini, dapat menambah khasanah ilmu pengetahuan dan bermanfaat untuk pembaca.
Surabaya, Juli 2009
xi DAFTAR ISI
HALAMAN JUDUL ... i
LEMBAR PENGESAHAN ... iii
ABSTRAK ... v
ABSTRACT ... vii
KATA PENGANTAR ... ix
DAFTAR ISI ... xi
DAFTAR GAMBAR ... xiii
DAFTAR TABEL ... .xv BAB I PENDAHULUAN 1.1 Latar Belakang ... 1 1.2 Rumusan Masalah ... 3 1.3 Batasan Masalah ... 3 1.4 Tujuan ... 4 1.5 Manfaat ... 4
BAB II TINJAUAN PUSTAKA 2.1 Principal Component Analysis (PCA)...5
2.2 Pendeteksian Outlier ... 8
2.3 Estimator MCD ... 9
2.4 Regresi Linier ... 13
2.5 General Circulation Model (GCM) ... 15
2.6 Downscalling ... 15
2.7 Statistical Downscaling (SD)...16
BAB III METODOLOGI PENELITIAN 3.1 Sumber Data ... 19
3.2 Variabel Penelitian ... 20
3.3 Metode Analisis Data ... 21
BAB IV ANALISA DAN PEMBAHASAN 4.1 Identifikasi Outlier...27
4.2 Pra-pemrosesan Pemodelan SD ... 29
xii
4.2.2 Metode ROBPCA ... 32
4.3 Pemodelan SD... 35
4.3.1 Metode Regresi CPCA ... 35
4.3.2 Metode Regresi ROBPCA ... 37
4.4 Pembandingan Metode ... 38
4.4.1 Pra-pemrosesan Pemodelan SD ... 38
4.4.2 Pemodelan SD ... 43
4.5 Pembahasan... 46
BAB V KESIMPULAN DAN SARAN ... 49
5.1 Kesimpulan ... 49
5.2 Saran ... 51
DAFTAR PUSTAKA ... 53
LAMPIRAN ... 55
xiii
DAFTAR GAMBAR
Judul Gambar Halaman 3.1 Lokasi Domain 3x3 (A), 8x8 (B) dan 12x12 (C) ... 19 3.2 Diagram Alir Tahapan Metode Analisis Data ... 23 3.3 Diagram Alir untuk Memperoleh Matriks Varian-
kovarian C
( )
X MCD ... 244.1 Identifikasi Outlier dengan Robust Distance Variabel HUSS MenurutDomain 3x3 (A), 8x8 (B), dan
12x12 (C)...27 4.2 Plot Keragaman Kumulatif PC Variabel HUSS
dengan Menggunakan Metode CPCA dan ROBPCA ... 43
4.3 Perbandingan Jumlah PC Optimal Menggunakan
Metode CPCA dan ROBPCA pada Variabel Luaran GCM ... 44
xv
DAFTAR TABEL
Judul Tabel Halaman 3.1 Variabel penjelas yang di ambil dari model luaran
CSIRO-Mk3 dan Pengkodingan ... ..20 4.1 Jumlah Pengamatan Outlier pada Variabel Luaran
GCM Menurut Domain: 3x3, 8x8, dan 12x12...28 4.2 Nilai Eigen dan Keragaman Kumulatif PC Variabel HUSS dengan Menggunakan Metode PCA...30 4.3 Jumlah PC Optimal dan Keragaman Kumulatif
Variabel Luaran GCM dengan Metode PCA...31
4.4 Nilai Eigen dan Keragaman Kumulatif PC Variabel
HUSS dengan Menggunakan Metode ROBPCA...33 4.5 Jumlah PC Optimal dan Keragaman Kumulatif
Variabel Luaran GCM dengan Metode ROBPCA...34
4.6 RMSEP dan R2 Validasi Model SD Menggunakan Metode
Regresi PCA...36
4.7 Nilai Minimum, Maksimum, Standard deviasi, dan rataan
RMSEP dan R2 Validasi Model Regresi PCA...37
4.8 RMSEP dan R2 Validasi Model SD Berdasarkan Jumlah
PC Berbeda dengan PCA Menggunakan Metode Regresi ROBPCA...38
4.9 Nilai Minimum, Maksimum, Standard deviasi, dan rataan
RMSEP dan R2 Validasi Model Regresi ROBPCA
Berdasarkan Jumlah PC Berbeda... 39
4.10RMSEP dan R2 Validasi Model SD Berdasarkan Jumlah
PC Sama dengan PCA Menggunakan Metode Regresi ROBPCA...39
4.11Nilai Minimum, Maksimum, Standard deviasi, dan rataan
RMSEP dan R2 Validasi Model Regresi ROBPCA
Berdasarkan Jumlah PC Sama...40 4.12 Keragaman Kumulatif PC Variabel HUSS Menggunakan Metode CPCA dan ROBPCA...41
xvi
Regresi PCA dan Regresi ROBPCA dengan Jumlah
PC Beda……….45 4.14 RMSEP dan R2 Pemodelan SD Menggunakan Metode Regresi PCA dan Regresi ROBPCA dengan Jumlah