PEMODELAN SEMIPARAMETRIK
STATISTICAL DOWNSCALING
UNTUK PREDIKSI CURAH HUJAN DI KABUPATEN INDRAMAYU
AKBAR RIZKI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa tesis berjudul “Pemodelan Semiparametrik Statistical Downscaling untuk Prediksi Curah Hujan di Kabupaten Indramayu” adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, September 2014
Akbar Rizki
G151120031
RINGKASAN
AKBAR RIZKI. Pemodelan Semiparametrik Statistical Downscaling untuk Prediksi Curah Hujan di Kabupaten Indramayu. Dibimbing oleh ANIK DJURAIDAH dan AJI HAMIM WIGENA.
Unsur-unsur iklim seperti suhu dan curah hujan sangat berpengaruh terhadap kehidupan masyarakat Indonesia yang agraris. Kondisi suhu dan curah hujan dapat digunakan untuk menentukan waktu tanam dan jenis tanaman yang sesuai, sehingga perkembangan sektor pertanian dapat berlangsung secara optimal. Pentingnya peran iklim tersebut mendorong dilakukannya analisis yang diharapkan dapat digunakan untuk memprediksi curah hujan secara tepat.
Global circulation model (GCM) dapat digunakan untuk menganalisis curah hujan dalam skala global tetapi belum dapat menjelaskan keragaman skala lokal yang lebih rinci. Statistical downscaling (SD) merupakan suatu teknik pemodelan yang memanfaatkan informasi yang dihasilkan GCM untuk memprediksi curah hujan. Prinsip dasar SD adalah menghubungkan data berskala global (GCM) dengan data berskala lokal (curah hujan). Model SD dapat berupa model parametrik, nonparametrik, maupun semiparametrik (gabungan model parametrik dan nonparametrik). Model semiparametrik dapat mengatasi kelemahan dari model SD parametrik yang memerlukan asumsi sangat ketat dan model SD nonparametrik yang mempunyai kesulitan dalam melakukan seleksi model dan penentuan model terbaik.
Tujuan penelitian ini adalah membangun model SD semiparametrik untuk memprediksi data curah hujan. Data curah hujan bulanan dari stasiun klimatologi di Kabupaten Indramayu pada tahun 1979-2008 digunakan sebagai peubah respon sedangkan data presipitasi luaran GCM Climate Model Intercomparison Project
(CMIP5) dengan waktu tunda digunakan sebagai peubah penjelas . Data penelitian dibagi menjadi dua bagian yaitu data tahun 1979-2007 untuk pemodelan dan data tahun 2008 untuk validasi. Analisis komponen utama (AKU) yang digunakan untuk mereduksi dimensi data luaran GCM menghasilkan empat komponen utama (KU). Empat komponen utama terpilih tersebut selanjutnya diplotkan dengan curah hujan untuk melihat pola hubungan fungsional pada masing-masing KU. Plot dibuat pada berbagai kemungkinan derajat bebas untuk melakukan pengepasan pola. Jumlah derajat bebas optimum ditentukan menggunakan kriteria GCV minimum. Pada komponen utama yang memiliki hubungan fungsional nonparametrik akan dibangkitkan basis spline yang meliputi penentuan jumlah simpul dan pembangkitan basis fungsi pangkat terpotong. Selanjutnya pendugaan parameter model dilakukan menggunakan model linear campuran. Pemeriksaan asumsi dan kekonsistenan model pada model yang telah diperoleh merupakan tahapan terakhir pada analisis ini.
menambahkan peubah boneka ke dalam model. Hasil prediksi model SD semiparametrik dengan peubah boneka mempunyai kecenderungan yang lebih mirip dengan pola data aktual dibandingkan dengan model SD semiparametrik tanpa peubah boneka. Hal ini ditunjukkan dengan peningkatan nilai korelasi dari 0.89 menjadi 0.99 dan penurunan nilai RMSEP dari 68.88 menjadi 32.58. Penambahan peubah boneka ke dalam model SD semiparametrik juga dapat menggantikan komponen acak, sehingga model SD semiparametrik berubah menjadi model parametrik. Model SD semiparametrik dengan peubah boneka memberikan hasil prediksi data curah hujan yang konsisten sampai dengan lima tahun ke depan.
SUMMARY
AKBAR RIZKI. Semiparametric Statistical Downscaling Modeling for Rainfall Prediction in Indramayu District. Supervised by ANIK DJURAIDAH and AJI HAMIM WIGENA.
As an agricultural country, climate conditions like temperature and rainfall are considered as fundamental information which affect the livelihood of Indonesian people. The conditions of temperature and rainfall can be used to determine planting period and suitable crop species, thus assist the development of agricultural sector optimally. The importance of climate on agriculture, excacerbated by the emergence of climate change cause the urgency of rainfall analysis, especially to produce accurate rainfall prediction.
Global circulation model (GCM) can be used to analyze rainfall in global scale but cannot explain the variability of local scale in more detail. Statistical downscaling (SD) is a modeling technique that utilises information from GCM to predict rainfall. The basic principle of SD is its relation between global scale (GCM) and local scale (rainfall) data. SD models can be parametric, nonparametric, and semiparametric (combination of parametric and nonparametric models). Semiparametric model can overcome the weakness of parametric and nonparametric models that require strict assumption and have difficulty in selecting or determining the best model, respectively.
The purpose of this research is to build semiparametric SD model to predict rainfall density. Monthly data rainfall station in Indramayu district in 1979-2008 were used as dependent variable and GCM precipitation from climate model intercomparison project (CMIP5) with time lag as independent variables. Data were divided into two parts, namely data modeling (1979-2007) and data validation(2008). Principal component analysis (PCA) was used to reduce the dimension of data GCM which then produced four principal components (PC). The four principal components that have been selected then being plotted with rainfall to analyse the functional relationships in each PC. Plots were developed at various possible degree of freedom to perform the fitting pattern. The optimum number of degree of freedom was determined using the minimum GCV criterion. The principal components that have nonparametric functional relationship will be raised spline basis which involve in determining the number of knots and generating truncate power function base. Furthermore, model parameter estimation was performed using linear mixed model. Checking the model assumptions and the consistency of the model were the last phases of this research
to 0.99. Therefore, this model gives better prediction of rainfall intensity. The addition of dummy variable in the modelcan also replace the random component in SD semiparametric model, hence, the SD semiparametric models can be transformed into parametric models. Semiparametric SD models with dummy variable can give consistent results on the prediction of rainfall until the five next years.
© Hak Cipta Milik IPB, Tahun 2014
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak merugikan kepentingan IPB
Tesis
sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada
Program Studi Statistika
PEMODELAN SEMIPARAMETRIK
STATISTICAL
DOWNSCALING
UNTUK PREDIKSI CURAH HUJAN DI
KABUPATEN INDRAMAYU
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR
BOGOR 2014
Judul Tesis : Pemodelan Semiparametrik Statistical Downscaling untuk Prediksi Curah Hujan di Kabupaten Indramayu
Nama : Akbar Rizki NIM : G151120031
Disetujui oleh Komisi Pembimbing
Dr Ir Anik Djuraidah, MS Ketua
Dr Ir Aji Hamim Wigena, MSc Anggota
Diketahui oleh
Ketua Program Studi Statistika
Dr Ir Anik Djuraidah, MS
Dekan Sekolah Pascasarjana
Dr Ir Dahrul Syah, MScAgr
PRAKATA
Puji syukur penulis panjatkan kehadirat Allah SWT atas limpahan rahmat dan ridho-Nya, kesempatan, dan kesehatan yang dikaruniakan-Nya sehingga tesis yang berjudul “Pemodelan Semiparametrik Statistical Downscaling untuk Prediksi Curah Hujan di Kabupaten Indramayu” ini dapat terselesaikan.
Terima kasih penulis ucapkan kepada Ibu Dr Ir Anik Djuraidah, MS dan Bapak Dr Ir Aji Hamim Wigena, MSc selaku pembimbing, atas kesediaan dan kesabaran untuk membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Ucapan terima kasih juga penulis sampaikan sebesar-besarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini.
Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada Ayahanda dan Ibunda tercinta Pandu Prayitno Darsono dan Sri Sunarni yang telah membesarkan dan mendidik penulis dengan penuh kasih sayang demi keberhasilan penulis selama menjalani proses pendidikan, adikku tersayang Wiratmojo, suami tercinta Abdul Aziz Nurussadad, serta keluarga besar atas doa dan semangatnya.
Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menghadapi masa-masa terindah maupun tersulit dalam menuntut ilmu, serta semua pihak yang telah banyak membantu dan tak sempat penulis sebutkan satu per satu.
Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, September 2014
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
1 PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 2
2 TINJAUAN PUSTAKA 2
Statistical Downscaling (SD) 2
Model Semiparametrik 3
Regresi Spline Terpenalti (P-spline) 3
Pendugaan P-spline dengan Model Linear Campuran 4
Regresi Kuadrat Terkecil Parsial (RKTP) 6
3 METODE PENELITIAN 7
Data 7
Metode Analisis 7
4 HASIL DAN PEMBAHASAN 8
Eksplorasi Data 8
Analisis Komponen Utama (AKU) 8
Pola Hubungan Curah hujan dengan komponen Utama 9
Model Semiparametrik 10
5 SIMPULAN 15
DAFTAR PUSTAKA 16
LAMPIRAN 19
DAFTAR TABEL
1 Nilai akar ciri, proporsi keragaman, dan kumulatif keragaman analisis
komponen utama 9
2 Nilai penalti kekasaran (�) dan GCV masing-masing KU pada berbagai
jumlah derajat bebas 9
3 Nilai BIC dan � model SD semiparametrik linier, kuadratik dan kubik
dengan kombinasi jumlah titik simpul 11
4 Nilai BIC, �, r, , dan RMSEP pada model SD semiparametrik dengan
P-Spline Berderajat Tiga 11
5 Perbandingan nilai BIC, r, dan RMSEP antara model SD semiparametrik-3 tanpa dan dengan peubah boneka 13 6 Nilai r dan RMSEP model SD semiparametrik terbaik untuk prediksi
satu tahun sampai dengan lima tahun 14
DAFTAR GAMBAR
1 Ilustrasi proses statisticaldownscaling 3
2 Plot curah hujan dengan komponen utama 10
3 Plot pencaran sisaan model SD semiparametrik-3 dengan prediksi 12
4 Plot skor skor X dan skor Y 12
5 Plot pencaran sisaan model SD semiparametrik-3 dengan prediksi
setelah penambahan peubah boneka 13
6 Perbandingan plot data sebelum dan sesudah ditambah boneka 14 7 Plot prediksi data curah hujan lima tahun kedepan 15
DAFTAR LAMPIRAN
1 Nilai VIF data presipitasi GCM tunda 19
2 Plot data curah hujan (CH) dengan komponen utama ke-1 (KU1) 20 3 Plot data curah hujan (CH) dengan komponen utama ke-2 (KU2) 22 4 Plot data curah hujan (CH) dengan komponen utama ke-3 (KU3) 23 5 Plot data curah hujan (CH) dengan komponen utama ke-4 (KU4) 24 6 Koefisien persamaan model SD semiparametrik-3 tanpa dan dengan
peubah boneka 25
1 PENDAHULUAN
Latar Belakang
Indonesia merupakan negara agraris yang sebagian besar masyarakatnya bergerak di sektor pertanian. Oleh karena itu, unsur-unsur iklim seperti suhu dan curah hujan sangat berpengaruh terhadap kehidupan masyarakatnya. Faktor-faktor iklim sangat dipertimbangkan dalam mengembangkan sektor pertanian. Kondisi suhu dan curah hujan dapat digunakan untuk menentukan pola musim. Hal ini bermanfaat untuk menentukan waktu tanam dan jenis tanaman yang sesuai, sehingga pembudidayaan tanaman pertanian dapat dilakukan secara optimal. Pentingnya peran iklim bagi perkembangan sektor pertanian di Indonesia tersebut menyebabkan diperlukannya pemodelan, sehingga diharapkan dapat digunakan untuk prediksi iklim secara tepat.
Menurut Wigena (2006), Global Circulation Model (GCM) dapat digunakan sebagai alat untuk memprediksi iklim dan cuaca secara numerik serta sebagai sumber informasi primer untuk menilai perubahan iklim. GCM merupakan penggambaran matematis dari sejumlah interaksi fisika, kimia, dan dinamika yang terjadi pada atmosfer bumi. Informasi GCM masih berskala global, sehingga diperlukan suatu teknik untuk menduga peubah iklim skala lokal dengan tingkat akurasi tinggi (Zorita dan Storch 1999). Salah satu teknik yang dapat digunakan untuk mendapatkan informasi berskala lokal dari data luaran GCM adalah
statistical downscaling (SD).
Pada metode SD permasalahan utama yang muncul adalah mendapatkan metode statistika yang dapat menggambarkan hubungan antara peubah penjelas dan peubah respon (Sutikno 2008). Metode SD berkembang dari metode berbasis model parametrik sampai dengan metode berbasis model nonparametrik. Metode SD berbasis model parametrik yang sering digunakan adalah analisis regresi linear berganda, analisis regresi komponen utama (Huth & Kysely 2000; Mpelasoka et al. 2001; Uvo et al. 2001; Lanza et al. 2001; Bergant et al. 2002), analisis korelasi kanonik (Landman &Tennant 2000, Busuioc et al. 2001; Fenoglio-Marc 2001; Novriyadi 2005), dan regresi kuadrat terkecil parsial (Wigena 2011). Metode SD berbasis model nonparametrik yang sering digunakan adalah artificial neural network/ ANN (Sailor et al. 2000; Dawson & Wilby 2001; Wilby et al. 1998; Cavazos 1999; Mpelasoka et al. 2001; Apriyanti 2005; Sarwoko 2013),
multivariate additive regression spline/ MARS (Sutikno 2008), dan projection pursuit regression/ PPR (Wigena 2006).
2
peubah respon secara bersamaan. Di Indonesia, penggunaan metode berbasis model semiparametrik telah dilakukan oleh Djuraidah (2007) untuk pencemar udara di kota Surabaya. Penggunaan metode berbasis model semiparametrik untuk pendugaan curah hujan telah dilakukan oleh Mehrotra & Sharma (2007) dengan menggabungkan dua pendekatan yaitu model markov dan penduga kepadatan kernel untuk menduga curah hujan harian.
Hasil studi literatur yang ada sebelumnya menunjukkan bahwa pemodelan data GCM di Indonesia telah dilakukan baik secara parametrik maupun nonparametrik, akan tetapi belum pernah dilakukan secara semiparametrik. Sementara itu, hubungan parametrik dan nonparametrik secara bersamaan dimungkinkan terdapat dalam pemodelan data GCM. Oleh karena itu, dalam penelitian ini dilakukan pemodelan semiparametrik menggunakan penalized spline dengan pendekatan model linear campuran untuk memprediksi curah hujan di Kabupaten Indramayu.
Tujuan Penelitian
Tujuan penulisan dalam penelitian ini adalah untuk memodelkan data curah hujan dengan data luaran GCM menggunakan tehnik pemodelan SD semiparametrik yang pada akhirnya model ini digunakan untuk prediksi iklim di wilayah Indramayu.
2 TINJAUAN PUSTAKA
Statistical Downscaling
Statistical downscaling (SD) merupakan suatu fungsi transfer yang menggambarkan hubungan fungsional sirkulasi atmosfir global dengan unsur-unsur iklim lokal. Ide dasar SD adalah mencari hubungan antara parameter iklim skala lokal dan menggunakan hubungan ini untuk proyeksi hasil simulasi GCM untuk iklim masa lalu, sekarang, atau masa depan yang berskala lokal. Storch et al. (2001) menyatakan bahwa pendekatan SD mencari informasi skala lokal berdasarkan pada informasi skala global melalui hubungan fungsional antara kedua skala tersebut.
SD menggunakan model statistik dalam menggambarkan hubungan antara data pada grid berskala global dengan data pada grid skala lokal untuk menterjemahkan anomali-anomali skala global menjadi anomali dari beberapa peubah iklim lokal (Zorita & Storch 1999). Regionalisasi berakibat pada kondisi skala lokal dapat beragam untuk kondisi skala global yang sama. Ilustrasi teknik SD yang menghubungkan data GCM berskala global dengan data hasil observasi di permukaan bumi yang berskala lokal disajikan pada Gambar 1.
Persamaan umum model SD adalah sebagai berikut:
× = ×� (2.1)
dengan × = peubah iklim lokal (misal: curah hujan)
� = peubah luaran GCM (misal: presipitasi)
3
Gambar 1 Ilustrasi proses statistical downscaling (Sutikno 2008)
Busuioc et al. (2001) menyatakan bahwa model SD akan memberikan hasil yang baik jika ketiga syarat berikut terpenuhi, yaitu: (1) hubungan antara respon dengan prediktor harus berkorelasi tinggi untuk menjelaskan keragaman iklim lokal dengan baik, (2) peubah prediktor harus disimulasikan dengan baik oleh GCM, dan (3) hubungan antara respon dengan prediktor tidak berubah dengan adanya perubahan waktu dan tetap sama meskipun ada perubahan iklim di masa depan.
Model Semiparametrik
Regresi Spline Terpenalti (P-spline)
Analisis regresi digunakan untuk memodelkan hubungan antara peubah respon dengan satu atau lebih peubah penjelas. Metode ini berkembang dari metode yang berbasis model parametrik. Hubungan fungsional antara peubah respon dengan peubah penjelas yang dimodelkan sebagai bentuk regresi parametrik yaitu:
= � + � (2.1)
dengan adalah vektor peubah respon, � adalah vektor parameter, adalah matriks peubah penjelas, dan � adalah vektor galat (Draper & Smith 1992). Regresi parametrik memiliki asumsi yang ketat mengenai bentuk sebaran pada parameter populasi, sehingga model ini berkembang ke regresi nonparametrik yang tidak memerlukan asumsi tersebut. Model pada persamaan (2.1) selanjutnya berkembang menjadi model nonparametrik yaitu:
= ; � + � (2.2)
4
Model pada persamaan (2.2) dapat dinyatakan dalam bentuk model regresi nonparametrik paling sederhana yaitu:
= + � (2.3)
dengan y adalah peubah respon, adalah fungsi regresi nonparametrik, � adalah galat yang bebas stokastik dengan ragam � , dan . Misalkan fungsi regresi nonparametrik s diduga dengan model regresi spline yaitu:
; � = � + � + + �� �+ ∑�= � − +� (2.4)
dengan � = � , … , ��, � , … , �� adalah vektor koefisien regresi spline, adalah bilangan bulat positif, +� = �� adalah fungsi pangkat terpotong (FPT), dan < < adalah simpul tetap (Djuraidah 2007).
Penduga parameter �̂ ditentukan dengan minimisasi jumlah kuadrat terpenalti yaitu yang didefinisikan sebagai:
= ∑= − ; � + ��′ � (2.5)
dengan � adalah parameter pemulus, dan = �+ , � . Suku pertama pada adalah jumlah kuadrat galat sedangkan suku keduanya adalah penalti kekasaran. Kriteria penentuan model pada persamaan (2.5) merupakan gabungan antara kriteria pada model regresi dan kriteria pada pemulus spline. Sehingga minimisasi pada nilai � tertentu akan memberikan kompromi antara kebaikan pengepasan dengan kemulusan kurva. Parameter pemulus � menggambarkan tingkat pertukaran antara jumlah kuadrat galat dengan keragaman lokal. Jika � bernilai besar maka komponen utama dalam adalah penalti kekasaran sehingga kurva s akan tampak mulus, sebaliknya jika � bernilai kecil maka komponen utama dalam adalah jumlah kuadrat galat sehingga kurva s akan tampak kasar.
Jumlah kuadrat terpenalti pada persamaan (2.5) dapat dituliskan dalam bentuk notasi matriks. Misalkan T merupakan matriks desain untuk regresi spline dengan baris ke-i dari matriks T adalah
�= , , … , �, − +�, … , − +�
Maka dalam bentuk notasi matriks dapat dinyatakan sebagai
− � ′ − � + ��′ � (2.6)
Minimisasi persamaan (2.6) akan menghasilkan penduga parameter �̂ sehingga penduga bagi regresi spline terpenalti adalah
̂ = �̂ = ′ + � − ′ (2.7).
Pendugaan P-spline dengan Model Linear Campuran
Bentuk umum dari model linear campuran adalah:
= � + � + � (2.8)
dengan asumsi [��]~ [ ],[ �]
sedangkan adalah matriks disain efek tetap yang teramati, � adalah vektor parameter pengaruh efek tetap yang tidak diketahui, adalah matriks disain efek acak yang teramati, � adalah vektor efek acak yang tidak diketahui, dan � adalah vektor galat acak yang tidak diketahui. Sehingga = � dan = =
′+ �. Penduga efek tetap �̂adalah penduga GLS (generalized least squares)
5
mendapatkan BLUP adalah menggunakan justifikasi Henderson (Djuraidah 2007) dengan menggunakan asumsi sebaran, yaitu:
sedangkan � merupakan ragam dari faktor acak, �� merupakan ragam dari galat acak, dan � adalah suku penalti.
Hubungan antara regresi spline terpenalti dengan model linear campuran telah dibahas oleh beberapa peneliti antara lain, Fan & Zhang (1998), Wang (1998), Brumback et al. (1999), French et al. (2001), Wand (2003), Djuraidah & Aunuddin (2006), dan Djuraidah (2007). Kunci hubungan antara regresi spline terpenalti dengan model linear campuran adalah memperlakukan koefisien � pada persamaan (2.4) ekuivalen dengan efek acak pada model linear campuran
Kriteria spline terpenalti pada persamaan (2.6) jika dibagi dengan �� dapat ditulis sebagai
��2 − �∗− � ′ − �∗− � +��
�2�′� (2.11)
Persamaan (2.11) sama dengan kriteria BLUP dari model linear campuran pada persamaan (2.10) dengan memperlakukan u sebagai koefisien dari efek acak dengan � = � �sedangkan � = ��2
�.
Dengan demikian formulasi regresi spline terpenalti dalam bentuk model linear campuran adalah
Solusi ̂pada persamaan 2.14 dapat dinyatakan dalam bentuk
̂ = ′ ′ + � − ′ (2.13)
dengan = [ ], = ( �+ , �) dan � =��2
��2. Persamaan (2.13)
6
menunjukkan bahwa BLUP untuk s(x) pada model linear campuran ekuivalen dengan penduga regresi spline terpenalti (Djuraidah & Aunuddin 2006).
Regresi Kuadrat Terkecil Parsial
Regresi Kuadrat Terkecil Parsial (RKTP) merupakan salah satu metode yang dapat digunakan untuk mereduksi dimensi dan mengatasi masalah multikolinearitas secara iteratif. RKTP merupakan metode yang mengkombinasikan antara analisis komponen utama dengan regresi berganda. Hal ini dilakukan dengan tujuan untuk memprediksi suatu gugus peubah respon berdasarkan gugus peubah prediktor . RKTP akan mendapatkan komponen-komponen dari yang bersuaian dengan . Hal ini dilakukan dengan cara dekomposisi dan secara simultan dengan batasan bahwa komponen-komponen tersebut dapat menjelaskan sebesar-besarnya peragam (covariance) antara dan . Proses dekomposisi ini diikuti dengan tahapan regresi dimana hasil dekomposisi digunakan untuk memprediksi (Wigena 2011).
Bila merupakan matriks berukuran × , dengan adalah jumlah pengamatan dan adalah jumlah peubah prediktor, terdiri dari vektor , =
, , … , , dan merupakan matriks berukuran × , dengan adalah jumlah peubah respon, terdiri dari vektor , = , , … , . Metode RKTP menghasilkan sejumlah komponen baru yang akan memodelkan terhadap , sehingga diperoleh hubungan antara dan . Komponen-komponen baru tersebut disebut dengan skor , dapat dituliskan sebagai �, = , , … , .
Skor merupakan kombinasi linier peubah-peubah asal dengan koefisien yang disebut pembobot, dinotasikan dengan vektor �. Proses tersebut dapat diformulasikan sebagai berikut (Wold et.al. 2001):
{ � = ∑ � , = , , … ,
= (2.14) Skor , �, digunakan sebagai prediktor untuk respon dan model dari . Skor tersebut mempunyai sifat-sifat sebagai berikut:
1. Skor dikalikan dengan � , sehingga sisaannya kecil: { = ∑� � � + respon dugaan. Berdasarkan persamaan (2.14) dan persamaan (2.16) dapat dituliskan sebagai model regresi ganda sebagai berikut:
{ = ∑� � ∑ � + = ∑ +
7
Koefisien model RKTP, , adalah sebagai berikut:
= ∑ � �
�
⇒ = ′
Prediksi bagi data pengamatan yang baru dapat diperoleh berdasarkan data dan matriks koefisien .
3 METODE PENELITIAN
Data
Data yang digunakan dalam penelitian ini merupakan data curah hujan stasiun di Kabupaten Indramayu sebagai peubah respon dan data presipitasi luaran GCM Climate Model Intercomparison Project (CMIP5) dengan waktu tunda sebagai peubah penjelas. Masing-masing data tersebut, merupakan data bulanan dari bulan Januari tahun 1979 sampai dengan bulan Desember tahun 2008. Penggunaan data presipitasi GCM tunda memberikan hasil pendugaan curah hujan yang lebih baik (Sahriman 2014). Data GCM diperoleh melalui website: http://www-climexp.knmi.nl/ [diakses pada tanggal 31 Desember 2013]. Domain data presipitasi luaran GCM yang digunakan berbentuk persegi berukuran 8x8 grid dengan posisi di atas wilayah Kabupaten Indramayu yaitu pada . −
. dan . − . . Penggunaan domain berukuran × grid di atas wilayah Kabupaten Indramayu memberikan hasil yang lebih stabil serta tidak sensitif terhadap pencilan (Wigena 2006).
Metode Analisis
1. Melakukan reduksi dimensi data GCM (grid) dengan menggunakan analisis komponen utama (AKU).
2. Membagi data stasiun menjadi dua kelompok, yaitu data untuk pemodelan dan data untuk validasi. Data pemodelan menggunakan data tahun 1979-2007, sedangkan data validasi menggunakan data tahun 2008.
3. Menentukan pola hubungan fungsional antara curah hujan (peubah respon) dengan komponen utama GCM terpilih (peubah penjelas), dengan plot antara curah hujan dengan skor komponen utama GCM terpilih. Pembuatan plot dilakukan pada berbagai kemungkinan derajat bebas untuk melakukan pengepasan pola. Jumlah derajat bebas optimum ditentukan menggunakan kriteria GCV minimum.
4. Pada komponen utama yang mempunyai hubungan fungsional nonparametrik dibangkitkan basis spline, yang meliputi:
a. Menentukan jumlah simpul.
Misalnya terdapat model p-spline kubik (model berderajat 3) sebagai berikut:
8
Model pada persamaan (3.1) memiliki jumlah parameter sebanyak empat (yaitu � , � , � , dan � ) dan jumlah titik simpul sebanyak k. dengan demikian penentuan jumlah simpul dalam suatu model dapat dirumuskan:
= − = − + (3.2)
dengan q adalah jumlah titik simpul, m adalah jumlah derajat bebas dari pemulus spline, v adalah jumlah parameter model, dan p adalah derajat model.
Penentuan jarak antara titik simpul dilakukan dengan menggunakan rumus:
= / + (3.3)
dengan s adalah jarak antara titik simpul, = dan adalah jumlah titik simpul.
b. Membangkitkan basis fungsi pangkat terpotong. Fungsi pangkat terpotong adalah sebagai berikut:
− +={ −
�
<
Dengan adalah peubah bebas, adalah titik simpul ke-k pada variabel bebas, dan p adalah pangkat tertinggi pada model p-spline.
5. Pendugaan model dengan model linear campuran a. Menentuan matriks Z dan X
b. Pendugaan parameter dan komponen ragam
6. Melakukan prediksi curah hujan di Kabupaten Indramayu dan memilih model terbaik berdasarkan kriteria BIC, korelasi (r) antara data prediksi dan data aktual, , dan RMSEP.
7. Melakukan pengecekan asumsi dan konsistensi model
4 HASIL DAN PEMBAHASAN
Eksplorasi Data
Analisis Komponen Utama (AKU)
Salah satu indikasi adanya masalah multikolinieritas adalah nilai VIF lebih dari 10. Hasil perhitungan nilai VIF pada Lampiran 1 menunjukkan bahwa nilai VIF pada data presipitasi GCM tunda berkisar 5.56-1252.11. Terdapat 62 grid GCM tunda yang memiliki nilai VIF lebih dari 10 dan 2 grid GCM tunda yang memiliki VIF kurang dari 10. Hal ini mengindikasikan adanya masalah multikolinearitas pada data presipitasi GCM tunda. Selain itu, berdasarkan hasil uji Bartlet menunjukkan bahwa data presipitasi GCM memiliki ragam yang heterogen (nilai-p kurang dari 0.05).
9
Pola Hubungan Curah Hujan dengan Komponen Utama
Tabel 2 menunjukkan bahwa semakin banyak jumlah derajat bebas maka semakin kecil nilai penalti kekasaran (�). Semakin kecil nilai � maka kurva (plot) akan tampak semakin kasar. Berdasarkan pada Tabel 2 terlihat bahwa jumlah derajat bebas optimum berdasarkan kriteria GCV minimum pada masing-masing komponen utama terpilih yaitu KU1, KU2, KU3, dan KU4 secara berturut-turut adalah 18, 11, 9, dan 7. Hal ini sesuai dengan gambar plot data antara curah hujan dengan masing-masing komponen utama pada Lampiran 2, Lampiran 3, Lampiran 4, dan Lampiran 5. Gambar pada lampiran tersebut menunjukkan bahwa semakin banyak jumlah derajat bebas maka pola plotnya semakin kasar dan mendekati ke pola data aktual. Plot data dengan GCV minimum digambarkan dengan garis warna biru sedangkan plot data pada derajat bebas yang dicobakan digambarkan dengan garis warna merah.
10
Plot data curah hujan dengan KU terpilih dengan derajat bebas optimum disajikan pada Gambar 2. Plot data curah hujan dengan KU1 (Gambar 2 (a)) terlihat membentuk pola yang mendekati pola linear. Plot data curah hujan KU3 (Gambar 2 (c)) terlihat membentuk pola yang mendekati pola kuadratik. Akan tetapi plot data curah hujan dengan KU2 (Gambar 2 (b)) dan plot data curah hujan dengan KU4 (Gambar 2 (d)) tidak membentuk pola parametrik tertentu. Hal ini mengindikasikan terdapat KU yang berhubungan secara parametrik dan nonparametrik dengan curah hujan.
(a) (b)
(b) (d)
Gambar 2 (a) Plot curah hujan dengan KU1, (b) plot curah hujan dengan KU2, (c) plot curah hujan dengan KU3, (c) plot curah hujan dengan KU4.
Model Semiparametrik
Jumlah titik simpul optimum ditentukan melalui penentuan jumlah derajat bebas optimum berdasarkan kriteria GCV minimum. Jumlah derajat bebas optimum untuk KU1, KU2, KU3, dan KU4 berturut-turut adalah 18,11, 9, dan 7. Selanjutnya jumlah titik simpul pada suatu model bergantung pada jumlah parameter dan derajat dari basis pangkat terpotong model tersebut.
Basis pangkat terpotong yang digunakan pada P-spline adalah basis pangkat terpotong berderajat 1 (linier), 2 (kuadratik), dan 3 (kubik). Perbandingan model linier, kuadratik, dan kubik dengan kombinasi jumlah titik simpul disajikan pada Tabel 3. Kriteria kebaikan model yang digunakan untuk memperbandingkan model tersebut adalah BIC dan �. Model kubik mempunyai nilai BIC yang paling
11
kecil dan nilai � yang paling besar dibandingkan model dengan model linier dan kuadratik. Dengan demikian model kubik merupakan model yang paling baik dibandingkan dengan model linier dan kuadratik.
Tabel 3 Nilai BIC dan � model SD semiparametrik linier, kuadratik dan kubik 1) penentuan kriteria jumlah simpul dengan GCV minimum
2) penentuan kriteria jumlah simpul dengan maksimum
Tabel 4 memperlihatkan bahwa kombinasi jumlah titik simpul pada model kubik yang memiliki nilai korelasi, dan � paling besar serta RMSEP paling kecil adalah model-3. Nilai BIC untuk semua kombinasi jumlah titik simpul memiliki nilai yang sama. Dengan demikian, model SD semiparametrik terbaik adalah model SD semiparametrik-3.
Tabel 4 Nilai BIC, �, r, , dan RMSEP pada model SD semiparametrik dengan
12
Gambar 3 Plot pencaran sisaan model SD semiparametrik-3 dengan prediksi Menurut Sahriman (2014), penambahan peubah boneka ke dalam model dapat digunakan untuk mengatasi masalah kehomogenan ragam sisaan. Peubah boneka ditentukan berdasarkan plot antara nilai skor prediktor ( ) dan skor respon ( ) yang dihasilkan dari komponen pertama pada model RKTP. Gambar 4 menunjukkan 5 kelompok data curah hujan berdasarkan kelompok warna dominan, yakni kelompok 1 (K1) umumnya terjadi pada bulan Mei hingga Oktober dengan intensitas 0 110.53 mm/bulan dan, kelompok 2 (K2) umumnya terjadi pada bulan Maret, April, dan november dengan intensitas 110.53< 235.07 mm/bulan, kelompok 3 (K3) umumnya terjadi pada bulan Desember dengan intensitas 235.07< 353.73 mm/bulan, kelompok 4 (K4) umumnya terjadi pada bulan Februari dengan intensitas 353.73< 454.73 mm/bulan, dan kelompok 5 (K5) umumnya terjadi pada bulan Januari dengan intensitas lebih dari 454.73 mm/bulan. Pengelompokan ini berdasarkan pada hasil analisis diskriminan dengan persentase ketepatan pengelompokan sebesar 94.8%.
Gambar 4 Plot skor skor X dan skor Y (Sahriman 2014)
13
Gambar 5 menunjukkan bahwa plot sisaan berbentuk pita dengan lebar yang sama. Hal ini berarti bahwa sisaan hasil pemodelan setelah ditambahkan peubah boneka menunjukkan pola yang lebih homogen dibandingkan dengan sebelum ditambahkan peubah boneka.
Gambar 5 Plot pencaran sisaan model SD semiparametrik-3 dengan prediksi setelah penambahan peubah boneka
Hasil pemodelan setelah ditambahkan peubah boneka menunjukkan adanya peningkatan nilai korelasi dan nilai , serta penurunan nilai BIC, dan RMSEP. Hal ini menunjukkan dengan adanya penambahan peubah boneka membuat model semakin baik dalam melakukan prediksi dan menjelaskan keragaman data curah hujan. Perbandingan kriteria kebaikan model sebelum dan sesudah ditambahkan peubah boneka disajikan pada Tabel 5. Pada tabel tersebut terlihat bahwa nilai BIC setelah ditambahkan peubah boneka menjadi semakin rendah, yaitu dari 3865.1 menjadi 3259.6. Selain itu terdapat peningkatan nilai korelasi (r) dan nilai . Nilai r sebelum ditambahkan peubah boneka adalah 0.89 sedangkan setelah ditambahkan peubah boneka menjadi 0.99. Nilai mengalami peningkatan yang cukup signifikan yaitu sebelum ditambahkan peubah boneka sebesar 79.94%, sedangkan setelah ditambahkan peubah boneka nilai tersebut meningkat menjadi 97.08%. Nilai RMSEP setelah ditambahkan peubah boneka mengalami penurunan yang signifikan, yaitu dari 68.88 menjadi 32.58.
Tabel 5 Perbandingan nilai BIC, r, dan RMSEP antara model SD semiparametrik-3 tanpa dan dengan peubah boneka
14
Gambar 6 Perbandingan plot data sebelum dan sesudah ditambah boneka Koefisien-koefisien persamaan model SD semiparametrik-3 tanpa peubah boneka dan dengan peubah boneka disajikan pada Lampiran 6. Berdasarkan nilai koefisien-koefisien tersebut terlihat bahwa nilai koefisien faktor acak pada persamaan model SD semiparametrik-3 dengan peubah boneka bernilai nol. Dengan kata lain model ini memiliki nilai � yang sangat besar � → ~ . Hal ini menunjukkan bahwa pengaruh acak (titik simpul) tidak berpengaruh nyata pada model. Penambahan peubah boneka ke dalam model dapat menghilangkan pengaruh acak tersebut, sehingga model SD semiparametrik-3 berubah menjadi model SD parametrik berderajat tiga.
Selanjutnya, prediksi data curah hujan Kabupaten Indramayu dilakukan untuk waktu satu tahun sampai dengan lima tahun untuk melihat kekonsistenan model. Prediksi data curah hujan untuk waktu satu tahun sampai dengan lima tahun ke depan akan dilakukan menggunakan model SD parametrik-3 setelah ditambahkan peubah boneka yang telah didapatkan sebelumnya. Hasil kriteria kebaikan model untuk prediksi pada waktu satu tahun sampai dengan lima tahun disajikan pada Tabel 6.
Tabel 6 menunjukkan nilai r dan RMSEP hasil prediksi data curah hujan pada waktu satu tahun hingga lima tahun. Nilai-nilai tersebut cenderung hampir sama pada waktu satu tahun hingga lima tahun. Hal ini menunjukkan bahwa model SD semiparametrik konsisten dalam melakukan prediksi curah hujan hingga lima tahun ke depan.
Tabel 6 Nilai r dan RMSEP model SD semiparametrik terbaik untuk prediksi satu tahun sampai dengan lima tahun
15
Gambar 7 menunjukkan bahwa model SD semiparametrik-3 dengan peubah boneka masih baik digunakan untuk prediksi data lima tahun ke depan. Hal ini ditunjukkan oleh kedekatan plot data aktual dengan plot data peramalan menggunakan model SD dengan peubah boneka untuk periode waktu lima tahun ke depan. Plot data untuk prediksi pada waktu dua tahun sampai dengan empat tahun disajikan pada Lampiran 7, Lampiran 8, dan Lampiran 9.
Gambar 7 Plot prediksi data curah hujan lima tahun kedepan
5 SIMPULAN
Plot antara curah hujan dengan komponen utama menunjukkan bahwa terdapat hubungan fungsional yang bersifat parametrik dan nonparametrik antara komponen utama data presipitasi GCM tunda dengan data curah hujan di Kabupaten Indramayu, sehingga dilakukan pemodelan SD semiparametrik. Pemodelan SD semiparametrik menunjukkan bahwa model kubik lebih baik dibandingkan model linear dan kuadratik. Jumlah titik simpul optimum untuk model SD semiparametrik kubik adalah 14, 8, 7, dan 5 masing-masing untuk KU1, KU2, KU3, dan KU4. Hasil pemodelan SD semiparametrik memiliki sisaaan yang heterogen.
16
DAFTAR PUSTAKA
Apriyanti N. 2005. Optimasi jaringan syaraf tiruan dengan algoritma genetika untuk peramalan curah hujan [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Bergant K, Kajfez-Bogataj L, Crepinsek Z. 2002. Downscaling of general circulation-model simulated average monthly air temperature to the beginning of flowering of dandelion (Taraxacum officinale) in Slovenia.
Int J Biometeorol, 46:22-32.
Brumback BA, Ruppert D, Wand MP. 1999. Comment on variable selection and function estimation in additive nonparametric regression using a data-based prior by shively, Kohn and wood. J Amer Stat Ass, 94:794-797. Busuioc A, Chen D, Hellstro C. 2001. Performance of statistical downscaling
models in GCM validation and climate change estimates: Application for Swedish precipitation. International Journal of Climatology, 21. 557-578. Cavazos T. 1999. Large-scale circulation anomalies conductive to extreme
precipitation events and derivation of daily rainfall in Northeastern Mexico and Southeastern Texas. J Clim, 12: 1506-1523.
Christensen R. 1984. Plane Answer to Complex Question. The Theory of Models. New York: Springer-Verlag.
Dawson CW, Wilby RL. 2001. Hydrological modelling using artificial neural networks. Progress in Phisycal Geography, 25(1): 80-108.
Djuraidah A, Aunuddin. 2006. Pendugaan regresi spline terpenalti dengan pendekatan model linear campuran. Statistika Jurnal Statistika FMIPA-UNISBA, 6:39-46.
Djuraidah A. 2007. Model aditif spatio-temporal untuk pencemar udara � dan ozon di Kota Surabaya dengan pendekatan model linear campuran. [disertasi]. Bogor (ID): Institut Pertanian Bogor.
Draper NR, Smith H. 1981. Applied Regression Analysis, �. John Wiley and Sons, Inc.
Fan J, Zhang JT. 1998. Comment on smoothing spline models for the analysis of nested and crossed samples of curves by Brumback and Rice. J Amer Stat Ass, 93: 961-994
Fenoglio-Marc L. 2001. Analysis and representation of regional sea level variability from altimetry and atmospheric aceanic data. J Int Geophys, 145:1-8
French JL, Kamman EE, Wand MP. 2001. Comment on semiparametric nonlinier mixed-effect models and their applications by Ke and Wang. J Amer Stat Ass, 96: 1285-1288
Henderson CR.1953. Estimation of variance and covariance component.
Biometrics, 9:226-252
Huth R, Kysely J. 2000. Constructing site-specific climate change scenarios on a monthly scale using statistical downscaling. Theoretical and Applied Climatology, 66:13-27.
Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis, ℎ. Prentice Hall, Inc.
17
Landman WA, Tennant WJ. 2000. Statistical downscaling of monthly forecast. Int J climatol, 20:1521-1532
Lanza LG, Ramirez JA, Todini E. 2001. Stochastic rainfall interpolation and downscaling. Hidrology and Earth System Science, 5(2):139-145
Mehrotra R, Sharma A. 2007. Preserving low-frequency variability generated daily rainfall sequences. J Hydrol 345:102–120
Mpelasoka FS, Mullan AB, Heerdegen RG. 2001. New Zealand climate change information derived by multivariate statistical and artificial neural networks approaches. Int J Climatol, 21:1415-1433
Novriyadi H. 2005. Analisis korelasi kanonik antara curah hujan GCM dan curah hujan di Indramayu [skripsi]. Bogor (ID): Institut Pertanian Bogor.
Rummukainen M. 1997. Methods for Statistical Downscaling of GCM Simulation, SMHI Reports Meteorology and Climatology. Rossby Centre. SMHI
Sahriman S. 2014. Pemodelan statistical downscaling dengan waktu tunda untuk peramalan curah hujan. Bogor (ID). Seminar: Pascasarjana Institut Pertanian Bogor Bidang Keteknikan [2 Juni 2014].
Sailor DJ, Hu T, Li X, Rosen JN. 2000. A neural network approach to local downscaling of GCM output for assessing wind power implications of climate change. Renewable Energy, 19: 359-378.
Sarwoko D. 2013. Pemodelan prediksi total hujan pada musim hujan menggunakan jaringan syaraf tiruan dan support vector regression [tesis]. Bogor (ID): Institut Pertanian Bogor.
Storch HV, Hewitson B, Mearns L. 2001. Review of empirical downscaling techniques. GKSS Research Center, Institute for Hydrophysics, Germany [Internet]. [diunduh 24 Januari 2014]. Tersedia pada: http://regclim.met.no/rapport_4/presentation02/presentation02.htm.
Sutikno. 2008. Statistical downscaling luaran GCM dan pemanfaatannya untuk prediksi produksi padi [disertasi]. Bogor (ID): Institut Pertanian Bogor. Uvo CB, Olsson J, Morita O, Jinno K, Kawamura A, Nishiyama K, Koreeda N,
Nakashima T. 2001. Statistical atmospheric downscaling for rainfall estimations in Kyushu Island Japan. Hydrologi & Earth System Science, 5(2):259-271
Wand M. 2003. Smoothing and mixed models. Comp Stat, 18: 223-249
Wang Y. 1998. Mixed effect smoothing spline analysis of variance. J R Stat Soc, Series B 60:159-174
Wigena AH. 2006. Pemodelan statistical downscaling dengan regresi projection pursuit untuk prediksi curah hujan bulanan [disertasi]. Bogor (ID): Institut Pertanian Bogor.
Wigena AH. 2011. Regresi kuadrat terkecil multi respon untuk statistical downscaling. Forum statistika dan komputasi. 16(2): 12-15
Wilby RL, Wigley TML, Conway D, Jones PD, Hewitson BC, Main J, Wiks DS. 1998. Statistical downscaling of general circulation model output: A comparison of methods. Water Resources Research, 34(11):2955-3008 Wold S, Sjostrom M, Eriksson L. 2001. PLS-regression: a basic tool of
18
19
Lampiran 1 Nilai VIF data presipitasi GCM tunda Grid data
presipitasi VIF
Grid data
presipitasi VIF
Grid data
presipitasi VIF
X1 365.584 X23 77.889 X44 1123.801
X2 637.611 X24 128.628 X45 765.372
X3 389.945 X25 1081.216 X46 155.837
X4 67.235 X26 995.04 X47 32.798
X5 86.286 X27 419.601 X48 23.251
X6 37.217 X28 856.08 X49 202.034
sX7 17.28 X29 538.676 X50 404.151
X8 33.872 X30 120.617 X51 1038.172
X9 778.167 X31 91.072 X52 1024.924
X10 1220.451 X32 126.509 X53 1032.92
X11 705.64 X33 908.603 X54 206.059
X12 218.851 X34 967.707 X55 43.608
X13 235.319 X35 421.471 X56 15.099
X14 162.948 X36 955.113 X57 138.668
X15 60.484 X37 597.077 X58 655.6
X16 86.065 X38 180.097 X59 919.348
X17 1042.553 X39 42.257 X60 810.929
X18 1129.86 X40 49.513 X61 594.453
X19 737.582 X41 580.85 X62 144.414
X20 620.364 X42 435.393 X63 5.501
X21 466.219 X43 935.506 X64 5.721
20
Lampiran 2 Plot data curah hujan (CH) dengan komponen utama ke-1 (KU1)
22
Lampiran 3 Plot data curah hujan (CH) dengan komponen utama ke-2 (KU2)
23
Lampiran 4 Plot data curah hujan (CH) dengan komponen utama ke-3 (KU3)
24
Lampiran 5 Plot data curah hujan (CH) dengan komponen utama ke-4 (KU4)
25 Lampiran 6 Koefisien persamaan model SD semiparametrik-3 tanpa dan dengan peubah boneka
26
Lampiran 7 Plot prediksi data curah hujan dua tahun ke depan
27
28
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 27 Oktober 1989, sebagai anak pertama dari pasangan Pandu dan Sri. Pendidikan sekolah menengah ditempuh di SMA Negeri 1 Pacitan Program IPA, lulus pada tahun 2007. Pada tahun yang sama penulis diterima di program studi Statistika Institut Pertanian Bogor, Jawa Barat dan menyelesaikannya pada tahun 2011.