PENDEKATAN ROBUST BOOTSTRAP LTS
Dipresentasikan dalam Seminar Hasil Tugas Akhir Jurusan Statistika Institut Teknologi Sepuluh Nopember Surabaya
Penyaji: Bin Hariyati
Dosen Pembimbing: Dr. Sutikno, S.Si, M.Si
PENDAHULUAN TINJAUAN PUSTAKA
METODE PENELITIAN
PENDEKATAN ROBUST BOOTSTRAP LTS
PEMBAHASAN KESIMPULAN
SARAN DAFTAR PUSTAKA
produksi padi sebagai upaya taktis dan langkah antisipasi kemungkinan buruk terjadi
Padi merupakan salah satu komoditas pangan utama
di Indonesia
Berbagai polemik tentang produksi padi:
keterbatasan pasokan,
pro kontra impor beras, gagal panen, ketidakmerataan distribusi padi.
BPS dan Deptan telah mengembangkan model produksi padi di Indonesia
Namun model produksinya tidak melibatkan
faktor iklim
Pengembangan model produksi padi dengan
melibatkan indikator ENSO yaitu
Sea Surface Temperature
1. Bagaimana pola hubungan antara luas panen padi dan indikator ENSO Sea Surface Temperature di Kabupaten Lamongan?
2. Bagaimana menyusun model produksi padi dengan melibatkan indikator ENSO Sea
Surface Temperature di Kabupaten Lamongan?
Rumusan Masalah
1. Mengetahui pola hubungan antara luas panen padi dan indikator ENSO Sea Surface Temperature di Kabupaten Lamongan
2. Menyusun model produksi padi dengan melibatkan
indikator ENSO Sea Surface Temperature di Kabupaten Lamongan
Departemen Pertanian
Memberikan informasi sebagai dasar penyusunan kalender tanam langkah antisipatif dampak kerugian gagal panen akibat faktor iklim
Badan Pusat Statistik
Merestrukturisasi data dan model produksi padi dengan metode yang lebih mutakhir.
Manfaat Keilmuan
Mengembangkan keilmuan
statistika di bidang pertanian
dan iklim (agroklimatologi)
Tujuan
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
Pengamatan yang terlalu menyimpang jauh dibandingkan pengamatan-pengamatan lainnya
Pendeteksian pengamatan outlier yang paling sederhana adalah dengan melihat plot antara variabel prediktor dan variabel responnya
(hanya berlaku pada regresi sederhana)
Cara lain untuk mendeteksi amatan outlier adalah dengan menggunakan DFFITS (Myers, 1990).
untuk i = 1,2,...,n
Jika maka pengamatan ke-i merupakan
pengamatan outlier yang berpengaruhii i
i i i
i
h S
y DFFITS y
2
ˆ
,ˆ
n DFFITS i k 1
2
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
Pendugaan parameter metode OLS ini hanya akan baik jika tidak ada pengaruh outlier dalam
pengamatannya
Metode regresi robust diperkenalkan Andrews (1972) dalam Ryan (1997) ini merupakan alat penting untuk menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang robust
atau resistance terhadap outlier
Terdapat berbagai metode estimasi dalam regresi robust antara lain M-Estimation, Least Trimmed
Square (LTS), MM estimation, S estimation, dan
Least Mean Square (LMS)
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
LTS : metode pendugaan parameter regresi robust untuk meminimumkan jumlah kuadrat h
residual (fungsi objektif)
dengan
2 : 1 h
i n i
e / 2 ( 2 ) / 2
k n
h
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan Aels (2005)
adalah C-steps
Pembentukan estimasi parameter dilakukan hingga proses Final Weighted Scale Estimator.
Fungsi pembobotnya yaitu : dengan r = 3
ya
, lainn
r /s
e ,
wi i LTS
1 0
n
i i n
h
LTS
e
h d
s
1 2
) ( ,
1
) / 1 2 (
1
1
, ,
,
n h n
h n
h
c hc
n d
)) 2 / ) ((
1
, 1
n n
h
c
h nOutlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
Pendugaan parameter dalam model regresi robust dengan LTS terdapat dua pendekatan:
1. Pendekatan standard error dari LTS-estimate dengan menggunakan asymtotic variances.
(hanya sesuai untuk model yang berdistribusi spesifik)
2. Pendekatan dengan distribusi sampel dari LTS-Estimation
Konsep metode Robust Bootstrap LTS adalah mengestimasi distribusi sampel LTS dengan
menggunakan bootstrap
(sampling dengan pengembalian sebanyak n dari data asli,
dilakukan berulang kali sebanyak B, dan setiap sampel bootstrap
dihitung menggunakan LTS estimation)
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya Mulai
Estimasi parameter bo
Menentukan ho Data observasi (n)
Pengambilan sampel
Sampel baru (n)
bnew dari ho
Menghitung
ho
i
e i 1
2 ) (
A
kecil dan
bnew konvergen
ho
i
e i 1
2 ) (
FWLS
Pengujian signifikansi parameter
B
Rata-rata parameter
Model Robust Bootstrap LTS
Selesai
ya
tidak
tidak
A
ya
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
IKLIM IKLIM EKSTRIM
Anomali SST merupakan indeks yang menunjukkan perkembangan intensitas El Nino dan La Nina di
lautan Pasifik
Peristiwa memanasnya suhu permukaan laut di
Samudera Pasifik
Peristiwa terjadinya penurunan suhu permukaan laut yang tidak
biasa di Samudra Pasifik
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
1 BPS dan Departemen Pertanian (2003)
melakukan peramalan dengan analisis regresi dan kecenderungan linier.
• Tidak melibatkan faktor iklim
• Metodologi sederhana
2 Sutikno (2008) memodelkan anomali luas panen per periode dan indeks curah hujan terboboti (weighted rainfall index : WRI) dengan OLS dan regresi robust
• Pendekatan regresi robust lebih baik daripada OLS
• Data untuk variabel WRI tidak selalu tersedia di setiap zona dan banyak missing
Outlier
Regresi Robust
LTS Estimation
Robust Bootstrap LTS
Indikator ENSO SST
Penelitian Sebelumnya
3 Mishbahul (2010) meneliti produksi padi dan indikator indeks curah hujan terboboti metode fast and robust bootstrap
for least trimmed square
• Metode lebih mutakhir, hasil lebih baik dari robust konvensional
• Data untuk variabel WRI tidak selalu tersedia di setiap zona dan banyak missing
4 Naylor (2001, 2002, 2007) melakukan penelitian produksi padi dengan peubah anomali SST Nino 3.4 menggunakan metode regresi sederhana
• Data SST El-Nino lebih memadai dan tersedia untuk berbagai kawasan
• Kekurangan pada segi metode
• Belum mampu memenuhi asumsi data dan berpengaruh pada interpretasi model
Sumber Data
D
ata sekunder Badan Pusat Statistik, Dinas Pertanian dan The National Oceanic and Atmospheric Administration (NOAA)
Studi kasus data yang diambil berasal dari data Kabupaten
Lamongan
Variabel Penelitian
Variabel respon (y) adalah luas panen padi per periode meliputi:
1. LP1 (luas panen periode 1, yaitu Januari - April) 2. LP2 (luas panen periode 2, yaitu Mei - Agustus)
3. LP3 (luas panen periode 3, yaitu September - Desember) Variabel prediktor (x) adalah data SST Nino 3.4 tiap bulan, yaitu
1. Periode 1: SST1 (Januari), SST2 (Februari), SST3 (Maret), dan SST4 (April) 2. Periode 2: SST5 (Mei), SST6 (Juni), SST7 (Juli), dan SST8 (Agustus)
3. Periode 3: SST9 (September), SST10 (Oktober), SST11 (November), dan SST12 (Desember) Model akhir yang terbentuk
i i
i i
i i
p SST SST SST SST
LP ( )
0
1 1
2 2
3 3
4 4
Pembentukan model Robust Bootstrap LTS
• Mengambil sampel dengan pengembalian sebanayk n kali dilakukan berulang kali sebanyak B
• Menyusun model LTS dari data bootstrap dengan langkah berikut:
C-steps Final Weighted Least Square (FWLS) Deskripsi dan identifikasi data:
• Mendeskripsikan data luas panen dan SST Nino 3.4
• Mengidentifikasi pola hubungan SST Nino 3.4 dan luas panen dengan scaterplot dan korelasi Pearson
• Mengidentifikasi outlier melalui boxplot Data
Mendefinisikan adanya data outlier melalui residual hasil metode OLS
Meramal produksi padi satu tahun ke depan dengan cara:
• Menghitung nilai produktifitas dengan rataan produktifitas 5 tahun terakhir
• Mengalikan luas panen hasil model Robust Bootstrap LTS dengan nilai produktifitas
0 10000 20000 30000 40000 50000 60000 70000 80000
Luas Panen Padi (Ha)
LP1 LP2 LP3
Periode
(Subround) Rataan Simpangan
Baku Minimum
Maksimum
1
61361,10 3826,64 53981 68125
2
38584,33 8134,39 25825 55465
3
11867,10 4580,21 6252 24786
Bulan Rataan Simpangan Baku Minimum Maksimum
Januari 26,58 1,20 24,65 29,10
Februari 26,73 1,02 24,83 28,86
Maret 27,25 0,76 26,07 28,83
April 27,84 0,57 26,83 29,14
Mei 27,92 0,55 26,97 28,99
Juni 27,69 0,59 26,60 28,94
Juli 27,28 0,68 25,94 28,92
Agustus 26,85 0,80 25,49 28,84
September 26,69 0,86 25,07 28,93
Oktober 26,72 1,05 25,01 29,23
November 26,71 1,20 25,06 29,32
Desember 26,61 1,31 24,79 29,26
25.5 26 26.5 27 27.5 28 28.5
Januari Februari Maret April Mei Juni Juli Agustus September Oktober November Desember
Temperatur Laut
Suhu tertinggi
28 2 6
2 4 6 5 0 0 0 6 0 0 0 0
5 5 0 0 0
29 27
2 5 26.4 2 7.6 28.8 27 2 8 29
2 9 2 8
2 7 27 28 29 26 .5 27.5 28.5 2 5 2 7 29
500 00 400 00 300 00
2 9.0 27.5
2 6 .0 2 0 0 0 0 1 5 0 0 0 1 0 0 0 0
29 27
25 25 27 2 9 2 5 27 29
LP 1 * S S T 1
Se a Surfa ce Te mpe ra t ure
Luas Panen Padi
LP 1* S S T 2 LP 1 * S S T 3 LP 1* S S T 4
LP 2 * S S T 5 LP 2* S S T 6 LP 2 * S S T 7 LP 2* S S T 8
LP 3 * S S T 9 LP 3* S S T 1 0 LP 3* S S T 11 LP 3* S S T 12
-0,314 -0,143 -0,028
-0,320 -0,018 -0,101 -0,133
-0,197 -0,185 -0,171 -0,213
-0,197
LP3 LP2
LP1 70000
60000
50000
40000
30000
20000
10000
0
Luas Panen Padi
62194.5
36716
10416.5
Outlier Tidak Ditemukan
Periode Titik
Pengamatan DFFITS
I 9 1,174057
14 -1,327420 19 2,284696
II 9 1,203696
18 1,347443
III 8 -1,279380
16 1,248023
17 1,001234
18 1,062274
0 10000 20000 30000 40000 50000 60000 70000 80000
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Luas Panen Padi (Ha)
LP1 LP2 LP3
”Penurunan hujan di Indonesia yang drastis terjadi ketika El Nino melanda Asia tahun 1997-1998”
(Geoenviron, Mei 2011)
”La Nina pada tahun 2007-2008
mengakibatkan musim hujan lebih lama di Indonesia, bahkan hingga terjadi banjir yang memakan korban jiwa di Indonesia”
(Warta Geologi, September 2008)
4 3
2 1
1
16928 6705 SST 580 SST 8491 SST 354 SST LP
8 7
6 5
2
114954 6404 SST 287 SST 2218 SST 1237 SST LP
12 11
10 9
3
34888 241 SST 1117 SST 159 SST 637 SST LP
Periode Parameter Estimasi thitung P-value
I
β0 -16928 -0,31 0,760
β1 -6705 -2,03 0,060
β 2 580 0,10 0,919
β 3 8491 1,25 0,230
β 4 354 0,09 0,932
II
β0 -16928 1,13 0,277
β 1 -6705 -1,25 0,230
β 2 580 0,03 0,980
β 3 8491 0,17 0,864
β4 354 0,15 0,880
III
β0 -16928 0,80 0,436
β 1 -6705 -0,04 0,967
β 2 580 -0,17 0,865
β 3 8491 -0,02 0,983
β4 354 0,14 0,889
Persamaan
Model FHitun
g
P-value
Periode I 2,34 0,103 Periode II 0,83 0,526 Periode III 0,12 0,952
TIDAK SIGNIFIKAN
α = 0,1
Residual Model P-value
Kolmogorov -Smirnov
Periode I >0,150 Periode II >0,150 Periode III >0,150
Pengujian Normalitas
Residual Model Periode I
Uji Glejser
|residual Y| = f(X) Periode II
Periode III
Pengujian Homogenitas
Residual Model Statistik Durbin-Watson
Periode I 2,008120
Periode II 0,627395 Periode III 0,960153
Pengujian Autokorelasi Hasil Pengujian Multikolinearitas Model
Periode I
VIF masing-masing
prediktor Periode II
Periode III
NORMAL IDENTIK
INDEPENDEN
TERJADIMULTIKOLINEARITAS
Regression Analysis: LP1 versus PC1_P1 The regression equation is
LP1 = 61550 - 354 PC1_P1
Predictor Coef SE Coef T P VIF Constant 61549.7 864.2 71.22 0.000
PC1_P1 -354.3 455.5 -0.78 0.447 1.000 S = 3864.97 R-Sq = 3.3% R-Sq(adj) = 0.0%
Analysis of Variance
Source DF SS MS F P Regression 1 9038962 9038962 0.61 0.447 Residual Error 18 268884564 14938031
Total 19 277923526 Durbin-Watson statistic = 2.25963 Principal Component Analysis: SST1, SST2, SST3, SST4
Eigenvalue 3.7892 0.1757 0.0224 0.0127 Proportion 0.947 0.044 0.006 0.003 Cumulative 0.947 0.991 0.997 1.000
Variable PC1 PC2 PC3 PC4 SST1 0.498 -0.543 0.601 -0.310 SST2 0.509 -0.228 -0.214 0.802 SST3 0.510 -0.007 -0.692 -0.510 SST4 0.483 0.808 0.337 0.014
Regression Analysis: LP2 versus PC1_P2, PC2_P2 The regression equation is
LP2 = 37967 - 14 PC1_P2 - 3916 PC2_P2
Predictor Coef SE Coef T P VIF Constant 37967 1674 22.68 0.000
PC1_P2 -13.7 965.0 -0.01 0.989 1.000 PC2_P2 -3916 2022 -1.94 0.070 1.000 S = 7486.93 R-Sq = 18.1% R-Sq(adj) = 8.4%
Analysis of Variance
Source DF SS MS F P Regression 2 210252917 105126459 1.88 0.184 Residual Error 17 952920794 56054164
Total 19 1163173712 Durbin-Watson statistic = 0.617219 Principal Component Analysis: SST5, SST6, SST7, SST8
Eigenvalue 3.1681 0.7217 0.0777 0.0325 Proportion 0.792 0.180 0.019 0.008 Cumulative 0.792 0.972 0.992 1.000 Variable PC1 PC2 PC3 PC4 SST5 0.374 0.874 -0.299 -0.089 SST6 0.548 0.055 0.716 0.428 SST7 0.539 -0.284 0.080 -0.789 SST8 0.519 -0.392 -0.625 0.432
Principal Component Analysis: SST9, SST10, SST11, SST12 Eigenvalue 3.8970 0.0796 0.0160 0.0074
Proportion 0.974 0.020 0.004 0.002 Cumulative 0.974 0.994 0.998 1.000 Variable PC1 PC2 PC3 PC4 SST9 0.496 -0.660 -0.561 0.061 SST10 0.503 -0.247 0.769 0.308 SST11 0.504 0.237 0.077 -0.827 SST12 0.497 0.669 -0.297 0.467
Regression Analysis: LP3 versus PC1_P3 The regression equation is
LP3 = 11221 - 345 PC1_P3
Predictor Coef SE Coef T P VIF Constant 11221.2 808.9 13.87 0.000
PC1_P3 -344.6 420.4 -0.82 0.423 1.000 S = 3617.33 R-Sq = 3.6% R-Sq(adj) = 0.0%
Analysis of Variance
Source DF SS MS F P Regression 1 8791002 8791002 0.67 0.423 Residual Error 18 235531605 13085089
Total 19 244322607 Durbin-Watson statistic = 1.04473
Periode Parameter Rata-rata Estimasi
I
β
0-33326,90
β
1-5089,88
β
2861,25
β
32138,12
β
45323,01
II
β
0156114,60 β
1-11453,00
β
22081,03
β
3-220,59
β
45538,76
III
β
0-11963,60
β
14461,60
β
23324,44
β
3-8171,15
β
41183,25
R
280,88%
R
268,77%
R
271,23%
Jumlah sampel bootstrap yang
digunakan : 50 kali
Nilai koefisien determinasi untuk model LP1 lebih baik dibandingkan model LP periode lain.
Hal tersebut meng- indikasikan variabel SST lebih kuat mempengaruhi variabel LP pada masa periode I.
Periode Aktual Ramalan Ketepatan Prediksi
1 63579 60601 95,32%
2 52202 34822 66,71%
3 25002 9207 36,82%
0 10000 20000 30000 40000 50000 60000 70000
Periode 1 Periode 2 Periode 3
Luas Panen Padi (Ha)
Aktual Ramalan
Periode Aktual Ramalan Ketepatan Prediksi
1 424078 368769,50 86,96%
2 291394 205413,80 70,49%
3 118797 50935,46 42,88%
0 50000 100000 150000 200000 250000 300000 350000 400000 450000
Periode 1 Periode 2 Periode 3
Produksi Padi (Ton)
Aktual Ramalan
Produksi Padi (Ton) = Luas Panen Padi (Ha) x Produktivitas Padi (Ton/Ha)
• Hubungan luas panen padi di Kabupaten Lamongan dan SST Nino 3.4
dipengaruhi oleh outlier sehingga menyebabkan pola cenderung tidak linier dan korelasi kecil dan tidak signifikan.
• Luas panen padi per periode dan SST Nino 3.4 dimodelkan dengan
menggunakan metode robust bootstrap LTS. Hasil dari model luas panen padi per periode dengan metode robust bootstrap LTS adalah sebagai berikut:
4 3
2 1
1
-33326,90 5089 , 88 SST 861 , 25 SST 2138 , 12 SST 5323 , 01 SST LP
8 7
6 5
2
156114,60 11453 SST 2081 , 03 SST 220 , 59 SST 5538 , 76 SST LP
12 11
10 9
3
-11963,60 4461 , 60 SST 3324 , 44 SST 8171 , 15 SST 1183 , 25 SST LP
Peramalan luas panen padi menunjukkan ketepatan prediksi untuk periode 1 adalah sebesar 95,32%, periode 2 sebesar 66,71%, dan periode 3 sebesar
36,82%. Sedangkan hasil ketepatan prediksi produksi padi untuk periode 1
adalah sebesar 86,96%, periode 2 sebesar 70,49%, dan periode 3 sebesar
42,88%.
Model dikatakan lebih baik ketika mampu memberikan nilai prediksi yang mendekati kenyataan sehingga nantinya lebih dipercaya dalam menentukan Angka Ramalan (ARAM) oleh BPS dan Departemen Pertanian.
Pemilihan metode yang dapat menghasilkan model parsimoni dan
Selain itu dibutuhkan pengembangan model yang lebih bersifat sustainable
sehingga dapat digunakan untuk meramalkan produksi padi dalam jangka
waktu yang lebih lama.
Australian Centre for Indonesian Argiculture Research. 2009. Peningkatan Hasil Panen Padi untuk Kebutuhan Pangan Nasional. ACIAR-SADI, Lembar Terkini Agustus 2005, hal.1.
Badan Meteorologi, Klimatologi, dan Geofisika. 2009. Ikhtisar Prakiraan Musim Kemarau 2009 di Indonesia, http://www.bmg.go.id. [25 Januari 2012].
Badan Pusat Statistik dan Departemen Pertanian. 2007. Buku Pedoman Pengumpulan Data Tanaman Pangan.
Jakarta: BPS dan Deptan.
Badan Pusat Statistik. 2005-2009. Berita Resmi Statistik Produksi Padi. Jakarta: BPS
Badan Pusat Statistik. 2005-2010. Produksi Padi Palawija Propinsi Jawa Timur. Jakarta: BPS
Drapper, N., R., dan Smith, H. 1992. Applied Regression Analysis (2nd ed.). New York: John Wiley & Sons.
Chapman and Hall.
Efron, B. dan Tibshirani, R. 1993. An Introduction to the Bootstrap. London : Chapman and Hall.
Hutapea. 2008. Ketahanan Pangan Dan Teknologi Produktivitas Menuju Kemandirian Pertanian Indonesia.
http://www.ebookpp.com/ma/makalah-teknologi-pertanian-padi-doc.html [12 Agustus 2011]
Irianto dan Suciantini. 2006. Anomali Iklim: Faktor Penyebab, Karakteristik, dan Antisipasinya. Iptek Tanaman Pangan No. 2, hal. 101-121.
Maronna, R.A., Martin, R.D., dan Yohai, V.J. 2006. Robust Statistics: Theory and Methods. Chichester: John Wiley & Sons, Ltd.
http://ojanmaul.wordpress.com/2010/01/01/dampak-el-nino-dan-la-nina-terhadap-indonesia/. [3 Oktober 2011].
Mishbahul. 2010. Prediksi Produksi Padi Menggunakan Weighted Rainfall Index dengan Pendekatan Fast and Robust Bootstrap for Least Trimmed Square (Studi Kasus di Kabupaten Gunungkidul). Thesis Program Magister.
Surabaya: Institut Teknologi Sepuluh Nopember.
Myers, R. H. 1990. Classical and Modern Regression with Applications. Boston: PWS.
Naylor, R., Falcon, W., Wada, N., dan Rochberg, D. 2002. Using El Nino-Southern Oscillation Climate Data to Improve Food Policy Planning in Indonesia. Bulletin of Indonesian Economic Studies, Vol. 38, No. 1, hal. 75-91.
Ryan, T., P. 1997. Modern Regression Methods. New York: A Wiley-Interscience Publication, John Wiley & Sons, Inc.
Sutikno. 2008. Statistical Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi.
Disertasi Program Pascasarjana. Bogor: Institut Pertanian Bogor.
Willems, G. dan Aelst, S.V. 2005. “Fast and Robust Bootstrap for LTS”. Computational Statistics and Data Analysis, No. 48, hal. 703-715.
Santriyani, Made. 2011. El Nino Southern Oscillation (ENSO). Bandung: WCPL Weather and Climate Prediction Laboratory ITB dalam
http://weather.meteo.itb.ac.id/artikel6.php. [2 April 2012].