1
BAGGING MARS UNTUK PENGEMBANGAN MODEL
RAMALAN ANOMALI LUAS PANEN PADI
DI KABUPATEN GUNUNGKIDUL
1Alif Yuanita, 2Bambang Widjanarko Otok, dan 3Sutikno 1 Mahasiswa Statistika, Institut Teknologi Sepuluh Nopember
2,3 Dosen Statistika, Institut Teknologi Sepuluh Nopember
1yuanita_ra@yahoo.com, 2bambang_wo@statistika.its.ac.id, 3sutikno@statistika.its.ac.id
Abstrak
Produksi dan luas panen padi berhubungan erat dengan iklim. Salah satu upaya untuk mendukung ketahanan pangan adalah diperlukannya informasi tentang ramalan produksi padi dan luas panen padi kedepan. Sehingga dilakukan pemodelan antara anomali luas panen per periode dengan curah hujan terboboti. Metode
bagging MARS digunakan untuk menyelesaikan masalah tersebut.
MARS merupakan pendekatan untuk regresi multivariate yang digunakan untuk mengatasi kelemahan Recursive Partitioning
Regression yang masih memiliki kelemahan dimana model yang
dihasilkan tidak kontinu pada knots. Untuk mendapatkan error yang lebih kecil digunakan metode bagging. Pada pembentukan model
bagging MARS didapatkan nilai koefisien determinasi yang cukup
tinggi. Nilai koefisien determinasi yang dihasilkan dengan metode
bagging MARS lebih tinggi daripada nilai koefisien determinasi
dengan menggunakan metode Robust Bootstrap LTS yang dilakukan oleh Amir (2009).
Kata kunci : Anomali luas panen, bagging, MARS
1. Pendahuluan
Padi merupakan makanan utama bagi orang Indonesia, yang menyediakan pendapatan secara musiman dan tenaga kerja untuk masyarakat pedesaan. Salah satu faktor yang berpengaruh terhadap kegagalan produksi pertanian di Indonesia adalah kejadian ektrim El-Nino dan La-Nina. Penyimpangan iklim yang seperti ini dapat mengancam sistem produksi pertanian terutama padi. Hal ini disebabkan curah hujan yang tidak menentu yang mengakibatkan penurunan luas panen produksi padi nasional secara signifikan (Balitklimat, 2009). Produksi dan luas panen padi berhubungan erat dengan iklim. Salah satu upaya untuk mendukung ketahanan pangan adalah diperlukannya informasi tentang ramalan produksi padi dan luas panen padi kedepan. Oleh karena itu perlu dilakukan permodelan luas panen padi yang handal terhadap kejadian-kejadian ekstrim. Berbagai model produksi padi dengan menggunakan indikator iklim telah dikembangkan di Indonesia, salah satunya dengan menggunakan peubah indikator ENSO (Naylor,
Seminar Nasional Statistika IX
2
Falcon, Wada & Rochberg, 2002). Pendekatan lain yang diperkirakan lebih baik dalam menduga produksi padi nasional ialah dengan menggunakan indeks hujan terboboti (weighted rainfall index: WRI) yang dikembangkan di Australia oleh
Stephen, Walker dan Lyons (1994). Sutikno (2008) melakukan permodelan regresi anomali luas panen per periode (AnLPp) dan indeks curah hujan terboboti (weighted
rainfall index: WRI).
Multivariate Adaptive Regression Splines (MARS) adalah salah satu
prosedur dalam regresi non parametrik. Pendekatan non parametrik digunakan jika tidak ada informasi tentang bentuk fungsi/kurva serta tidak tergantung pada asumsi bentuk kurva tertentu (Eubank, 1988). Data yang digunakan dalam penelitian ini adalah data anomali luas panen selama 11 tahun, data tersebut terbilang cukup sedikit apabila dimodelkan menggunakan MARS. Oleh karena itu, dilakukan metode
resampling dalam penyusunan modelnya untuk mendapatkan jumlah sampel yang
sesuai. Metode resampling yang digunakan adalah bootstrap aggregating (bagging). Diharapkan bagging MARS ini mampu memberikan nilai error yang lebih kecil dibandingkan dengan pemodelan lainnya (
Scholz, 2007)
.Makalah ini bertujuan untuk menyusun model hubungan antara anomali luas panen padi per periode (AnLPp) dan curah hujan teroboboti (WRI) dengan metode
bagging MARS di Kabupaten Gunungkidul. Selain itu membandingkan keakuratan
model bagging MARS dengan hasil prediksi model yang sudah ada dengan menggunakan Robust Bootstrap LTS.
2. Tinjauan Pustaka
Secara umum regresi adalah menganalisis hubungan dan pengaruh variabel prediktor terhadap variabel respon. Terdapat dua pendekatan estimasi model dalam analisis regresi, yaitu pendekatan parametrik dan pendekatan nonparametrik. MARS adalah salah satu model regresi nonparametrik yang tidak mengasumsikan bentuk hubungan fungsional antara variabel respon dan prediktor serta mempunyai bentuk fungsional yang fleksibel.
2.1 MARS
MARS merupakan pendekatan untuk regresi multivariate nonparametrik yang dikembangkan oleh Friedman (1991). Metode ini digunakan untuk menyelesaikan dua permasalahan utama dalam statistika, yaitu respon kontinu dan kategorik. MARS merupakan pengembangan dari pendekatan Recursive
Partitioning Regression (RPR) yang masih memiliki kelemahan dimana model yang
dihasilkan tidak kontinu pada knots. Selain itu RPR tidak bisa mengidentifikasi adanya fungsi linear dan aditif. Untuk mengatasi kelemahan RPR dalam mengidentifikasi fungsi linier dan aditif, Friedman mengusulkan untuk tidak menghapus induk (parent) region selama pemilahan subregion berlangsung. Jadi pada iterasi berikutnya, parent dan pilahan subregion dapat dipilah lebih lanjut, sehingga diperoleh subregion yang saling tumpang tindih. Namun modifikasi tersebut masih belum bisa mengatasi adanya diskontinu yang disebabkan perkalian fungsi univariat. Oleh karena itu, Friedman mengusulkan untuk mengganti perkalian fungsi univariat dengan regresi linier splines (ordo satu) dengan sisi kiri (-) dan sisi kanan (+) truncated splines.
3
dengan jumlah pilahan subregion ke– dari domain , merupakan knot dari peubah prediktor , dan nilainya +1 jika knotnya terletak di kanan atau –1
jika knotnya terletak di kiri subregion.
Modifikasi dalam algoritma RPR menghasilkan estimator model umum persamaan MARS sebagai berikut.
Dengan fungsi,
dimana adalah koefisien konstanta dari basis fungsi . Koefisien ditentukan dengan menggunakan metode kuadrat terkecil.
Dengan menggunakan persamaan (5) maka model untuk MARS adalah
2.2 Bootstrap
Bootstrap pertama kali diperkenalkan oleh Efron pada tahun 1979. Bootstrap
merupakan metode penaksiran nonparametrik yang dapat menaksir parameter-parameter dari suatu distribusi, variansi dari sampel median, serta dapat menaksir
error (Efron & Tibshirani, 1993). Metode bootstrap juga mampu memberikan
estimasi terbaik dengan mengurangi kebiasan dari hasil estimasinya. Pada metode
bootstrap dilakukan pengambilan sampel dengan pengembalian pada sampel data.
Secara singkat algoritma bootstrap dapat dinyatakan sebagai berikut (Efron & Tibshirani, 1993).
1. Sampel data didefinisikan sebagai data sampel berukuran n yang terdiri dari dengan sebagai vektor data pengamatan.
2. Sampel data diambil secara acak dengan pengembalian sebanyak kali. Diperoleh data sampel baru yang didefinisikan sebagai . Sampel data terdiri dari anggota data asli, akan tetapi mungkin beberapa data asli tidak akan muncul, atau muncul hanya satu kali atau dua kali, tergantung dari randomisasinya.
3. Langkah (2) dilakukan secara berulang sebanyak sehingga didapatkan himpunan data bootstrap . Setiap sampel bootstrap merupakan sampel acak yang saling independen.
4
4. Menentukan nilai statistik dengan bootstrap yaitu dan
2.3 Bagging
Bagging adalah metode statistik yang dirancang untuk meningkatkan akurasi
model peramalan yang dipilih berdasarkan aturan-aturan keputusan yang tidak stabil. Pada intinya, bagging melibatkan model unrestricted atau model tertutup yang meliputi semua prediktor yang potensial untuk sampel asli, mengenerate sejumlah bootstrap resamples dari data, menerapkan aturan pengambilan keputusan untuk setiap resamples, dan rata-rata prakiraan model yang dipilih berdasarkan aturan pengambilan keputusan untuk setiap sampel bootstrap. Dengan menghitung rata-rata semua resamples, bagging secara efektif dapat menghilangkan ketidakstabilan aturan pengambilan keputusan. Oleh karena itu, harapannya varians dari model bagging lebih kecil dari model yang menggunakan data asli.
Berikut ini merupakan langkah-langkah yang digunakan dalam metode
bagging (Buhlmann & Yu, 2002).
1. Mengkonstruk sampel bootstrap menurut distribusi empiris pada pasangan
2. Menghitung estimator bootstrap dengan prnsip plug-in yaitu
dengan
3. Menentukan estimator bagging .
Secara heuristik kinerja variansi estimator bagging adalah sama dengan atau lebih kecil dibandingkan estimator asli
3. Data dan Metode
Data yang digunakan dalam penelitian ini adalah data sekunder BPS dan Dinas Tanaman Pangan Kabupaten Gunungkidul D.I Yogyakarta, serta BMKG Stasiun Klimatologi Semarang Jawa Tengah. Variabel respon yang digunakan adalah anomali luas panen padi per periode yang meliputi AnLP1 (anomali luas
panen periode 1, yaitu bulan Januari-April), AnLP2 (anomali luas panen periode 2,
yaitu bulan Mei-Agustus), dan AnLP3 (anomali luas panen periode 3, yaitu bulan
September-Desember). Sedangkan variabel prediktornya adalah curah hujan terboboti (WRI) periode 1 yang terdiri dari WRI1 (Bulan Januari), WRI2 (Bulan
Februari), WRI3 (Bulan Maret), dan WRI4 ( Bulan April), WRI Periode 2 yang terdiri
dari WRI5 (Bulan Mei), WRI6 (Bulan Juni), WRI7 (Bulan Juli), dan WRI8 ( Bulan
Agustus) serta WRI pada periode 3 yang terdiri dari WRI9 (Bulan September), WRI10
(Bulan Oktober), WRI11 (Bulan November), dan WRI12 (Bulan Desember).
Untuk membangun model, terlebih dahulu dilakukan bagging terhadap prediktor dengan 50,60,70,80,90,100,150, dan 200 replikasi bootstrap. Selanjutnya memodelkan MARS dengan terlebih dahulu menentukan maksimum jumlah basis fungsi (BF), maksimal interaksi (MI) dan minimum jumlah observasi antar knot (MO). 4. Hasil dan Pembahasan
Pada bagian ini akan dijelaskan tentang deskriptif data, pembentukan model anomali luas panen terhadap curah hujan terboboti dengan menggunakan bagging MARS, serta membandingkan keakuratan model bagging MARS dengan hasil
5
prediksi model yang sudah ada dengan menggunakan Robust Bootstrap LTS yang telah dilakukan oleh Amir (2009).
4.1 Deskriptif Data
Kabupaten Gunungkidul terletak antara 7o 46’- 8o 09’ Lintang Selatan dan 110o 21’ - 110o 50’ Bujur Timur, yang berbatasan dengan Kabupaten Klaten dan Kabupaten Sukoharjo, Propinsi Jawa Tengah di sebelah utara. Produksi padi di Kabupaten Gunungkidul dalam tiga tahun terakhir mencapai sekitar 200.000 ton per tahun. Jika dilihat produksi per periode, produksi tertinggi terjadi pada periode 1 yaitu pada bulan Januari sampai April. Berdasarkan Tabel 1, sejak tahun 1990 sampai dengan tahun 2008, Kabupaten Gunungkidul mampu menghasilkan rata-rata produksi padi sebesar 136.897 ton dengan luas panen 41.046 hektar. Pada periode 2 rata-rata produksi padi mengalami penurunan cukup drastis yaitu 19.156 ton dengan luas panen 4.336 hektar. Sedangkan rata-rata produksi padi pada periode 3 merupakan rata-rata produksi terendah dalam setahun yaitu hanya 1.917 ton dengan luas panen 417 hektar. Produktifitas padi per periode selama tahun 1990 sampai dengan 2008 terlihat bahwa pada periode 1 merupakan yang terendah berkisar 33,19 Kw/Ha. Sedangkan pada periode 3 justru merupakan yang tertinggi yaitu 45,27 Kw/Ha.
Tabel 1. Nilai Rataan, Simpangan Baku, Minimum dan Maksimum Produksi, Produktifitas, dan Luas Panen Padi di Kabupaten Gunungkidul per Periode Tahun 1990 – 2008
Periode Rataan Simpangan Baku Minimum Maksimum Produksi (ton) 1 136897 28679 105571 206203 2 19156 7490 7162 35654 3 1917 908 402 4217 Produktivitas (Kw/Ha) 1 33.19 6.03 26.14 44.90 2 43.33 6.07 36.41 56.06 3 45.27 7.19 35.69 66.68
Luas Panen (Ha) 1 41046 1599 37580 45926
2 4336 1249 1916 6717
3 417 168 83 858
4.2 Pembentukan Model Anomali Luas Panen terhadap Curah Hujan Terboboti dengan Metode Bagging MARS
Identifikasi awal hubungan anomali luas panen padi per periode (AnLPp) dengan curah hujan terboboti (WRI) dapat diketahui dengan membuat plot antara variabel AnLP per periode dan WRI untuk masing-masing bulan. Pada Gambar 1 terlihat bahwa hampir semua mempunyai pola acak, sehingga tidak diketahui pola hubungan yang jelas antara variabel WRI dan variabel AnLP. Selanjutnya data yang digunakan dalam penelitian ini selama 11 tahun, namun data tersebut terbilang cukup sedikit. Oleh karena itu, dilakukan metode resampling dalam penyusunan modelnya untuk mendapatkan jumlah sampel yang sesuai. Metode resampling yang digunakan adalah bootstrap aggregating (bagging) yang merupakan pengambilan sampel dengan pengembalian untuk data set yang terdiri dari variabel respon (y)
6
Curah hujan terboboti
An om al i L ua s Pa ne n 0.0 0.8 1.6 2000 0 -2000 1.8 1.2 0.6 5 10 15 0 10 20 0.050 0.025 0.000 0.0 0.2 0.40.00 0.25 0.50 0.00 0.02 0.04 2000 0 -2000 0.0004 0.0002 0.0000 2000 0 -2000 40 20 0 0 80 1600 50 100
AnLP SR 1*WRI 1 AnLP SR 1*WRI 2 AnLP SR 1*WRI 3 AnLP SR 1*WRI 4
AnLP SR 2*WRI 5 AnLP SR 2*WRI 6 AnLP SR 2*WRI 7 AnLP SR 2*WRI 8
AnLP SR 3*WRI 9 AnLP SR 3*WRI 10 AnLP SR 3*WRI 11 AnLP SR 3*WRI 12
11 109 8 76 5 4 3 2 1 11 10 9 12765 4 3 8 543287619 11 10 1197 5 4 86 10 3 2 1 118 9 7 10 6 5 4 3 2 1 10 987 11 6 5 4 3 2 1 11 10 9 8 7 6 5 4 3 2 1 11 10 9 8 7 6 5 4 3 2 1 11 10 9 8 7 6 5 4 3 2 1 11 10 9 87 6 5 4 3 1 2 11 1097654321 8 101168 17 4 35 9 2
Scatterplot of AnLP SR 1 vs WRI 1, AnLP SR 1 vs WRI 2, AnLP SR 1 vs WR
dan variabel prediktor (x). Sampel bootstrap diambil sebanyak n data, kemudian direplikasi bootstrap sebanyak 50, 60, 70, 80, 90, 100, 150, dan 200. Pada setiap pengambilan sampel akan dibentuk model MARS sehingga akan diperoleh nilai koefisien determinasi R2 sebanyak B dalam setiap B replikasi bootstrap. Perhitungan R2 dilakukan pada setiap pengambilan sampel.
Gambar 1. Diagram Pencar antara WRI dengan AnLP per Periode
Dalam pembentukan model MARS dilakukan dengan trial and error terhadap maksimum basis fungsi, maksimum interaksi dan minimal jumlah pengamatan diantara knots atau minimum observasi sampai diperoleh model optimal dengan nilai R2 yang optimum. Tabel 2 merupakan hasil dari bagging MARS dengan 50, 60, 70, 80, 90, 100, 150 dan 200 replikasi bootstrap untuk model anomali luas panen pada periode 1.
Tabel 2. Hasil Bagging MARS untuk Periode 1 Replikasi Bootstrap R2 Replikasi 50 kali 77,8 % Replikasi 60 kali 33,1 % Replikasi 70 kali 91,7% Replikasi 80 kali 27,5 % Replikasi 90 kali 95,4 % Replikasi 100 kali 30,8 % Replikasi 150 kali 91,8 % Replikasi 200 kali 70 %
Tabel 2 memberikan informasi bahwa dengan 90 replikasi bootstrap diperoleh R2 terbesar yaitu sebesar 95,4 %, sehingga berdasarkan hasil diatas maka dapat disimpulkan bahwa diperoleh bagging prediktor terbaik adalah pada replikasi bootstrap sebanyak 90 kali. Model bagging MARS yang diperoleh dari
7
bagging prediktor terbaik untuk anomali luas panen pada periode pertama adalah
sebagai berikut. Y = -10881.916 - 2683.722 BF1 + 611.606 BF2 + 5618.453 BF3 + 2492.531 BF4 + 2529.131 BF5 - 200.816 BF7 - 234.726 BF8; Dengan, BF1 = max(0, WRI3 - 11.660); BF2 = max(0, 11.660 - WRI3 ); BF3 = max(0, WRI2 - 0.969) BF2; BF4 = max(0, 0.969 - WRI2 ) BF2; BF5 = max(0, WRI3 - 6.797); BF7 = max(0, WRI4 - 3.435); BF8 = max(0, 3.435 - WRI4 );
Tabel 3. Hasil Bagging MARS untuk Periode 2 Replikasi Bootstrap R2 Replikasi 50 kali 37 % Replikasi 60 kali 87,2 % Replikasi 70 kali 64,5 % Replikasi 80 kali 63,2 % Replikasi 90 kali 86,8 % Replikasi 100 kali 72,7 %
Selanjutnya untuk model anomali luas panen pada periode 2 diperoleh hasil seperti ditunjukkan pada Tabel 3. Terlihat bahwa degan replikasi 60 kali didapatkan nilai R2 paling besar, yaitu sebesar 87,2 %. Dan model untuk bagging MARS sebagai berikut.
Y = -802.151 - 5836417.000 BF2 - 294013.156 BF3 + 124829.188 BF4 - 35343.574 BF5 + 37457.789 BF6;
Dengan,
BF1 = max(0, WRI8 - .166459E-08); BF2 = max(0, WRI5 - .114626E-08) BF1; BF3 = max(0, WRI6 - 0.002) BF1;
BF4 = max(0, WRI6 - 0.002);
BF5 = max(0, WRI7 - .489807E-08); BF6 = max(0, WRI5 - .114626E-08);
Seperti pada Tabel 2 dan Tabel 3, pada Tabel 4 terlihat bahwa didapatkan nilai R2 paling besar pada replikasi bootstrap sebanyak 60 kali yaitu sebesar 90,4 %. Dengan model untuk bagging MARSnya adalah sebagai berikut.
Y = -182.848 + 19.779 BF1 + 116.783 BF2 - 35.371 BF3 - 11.062 BF4 - 32.240 BF6 + 28.666 BF7;
Dengan,
8
BF2 = max(0, 7.642 - WRI10 ); BF3 = max(0, WRI11 - 63.952); BF4 = max(0, 63.952 - WRI11 ); BF6 = max(0, 10.016 - WRI12 ); BF7 = max(0, WRI11 - 59.418);Tabel 4. Hasil Bagging MARS untuk Periode 3 Replikasi Bootstrap R2 Replikasi 50 kali 82,9 % Replikasi 60 kali 90,4 % Replikasi 70 kali 58,9 % Replikasi 80 kali 48,6 % Replikasi 90 kali 80,4 % Replikasi 100 kali 53,2 % Replikasi 150 kali 64 %
Secara umum hasil ini menunjukkan kinerja yang lebih baik jika dibandingkan dengan metode Robust Bootstrap for LTS (Amir, 2009). Tabel 5 terlihat bahwa, pada periode 1 dan 3 nilai R2 untuk bagging MARS lebih besar dari pada R2 untuk Robust Bootstrap LTS. Akan tetapi pada periode 2 nilai R2 untuk Robust Bootstrap LTS lebih tinggi daripada bagging MARS.
Tabel 5. Perbandingan antara Bagging MARS dan Robust Bootstrap LTS
Periode R
2
Bagging MARS Robust Bootstrap LTS
Periode 1 95,4 % 87,18 %
Periode 2 87,2 % 95,52 %
Periode 3 90,4 % 85,89 %
5. Kesimpulan
Pada pembentukan model bagging MARS untuk anomali luas panen pada periode 1, dengan 90 replikasi bootstrap diperoleh R2 terbesar yaitu sebesar 95,4 %. Sedangkan pada periode 2 diperlukan replikasi sebanyak 60 kali untuk mendapatkan R2 sebesar 87,2 %. Dan untuk periode 3, didapatkan nilai R2 paling besar pada replikasi bootstrap sebanyak 60 kali yaitu sebesar 90,4 %. Dari nilai koefisien determinasi tersebut, metode bagging MARS mempunyai kinerja yang cukup baik dalam memodelkan anomali luas panen padi per periode.
Daftar Pustaka