MODEL GENERALIZED SEASONAL AUTOREGRESSIVE INTEGRATED MOVING AVERAGE (GSARIMA) UNTUK PERAMALAN JUMLAH PENDERITA
DEMAM BERDARAH DENGUE (DBD) DI KOTA SURABAYA GENERALIZED SEASONAL AUTOREGRESSIVE INTEGRATED MOVING AVERAGE (GSARIMA) MODELS FOR FORECASTING THE NUMBER OF
DENGUE HEMORRHAGIC FEVER (DHF) PATIENTS IN SURABAYA
Asrirawan 1*, Heri Kuswanto2, Suhartono3 Institut Teknologi Sepuluh Nopember (ITS), Surabaya1*
[email protected] dan Perumdos ITS jln. Teknik Geodesi Blok R 6, Surabaya Institut Teknologi Sepuluh Nopember (ITS), Surabaya 2
Institut Teknologi Sepuluh Nopember (ITS), Surabaya 3
ABSTRACT
One of the main topics in the study of modeling time series forecasting in the last three decades is count data forecasting. The forecasting of count data based on stochastic model has not been applied and its normally Gaussian distribution. One of stochastic models for count data forecasting, which has non-Gaussian (negative binomial) distribution, is generalized autoregressive moving average (GARMA) models. GARMA models relate components between ARMA and predictor variable to a transformation of mean parameters of the data distribution using a link function but these models does not involve stationary and seasonal effects. Generalized seasonal autoregressive integrated moving average (GSARIMA) models are an extended version of GARMA involving stationary and seasonal effects. The estimation of GSARIMA models use an approach iteratively reweighted least square (IRLS). This paper simulates GSARIMA models and applies it to dengue hemorrhagic fever (DHF) in Surabaya. Morever, the comparison of the forecasting accuracy rate of these models with seasonal autoregressive integrated moving average (SARIMA) models. Based on the analysis, the results of model and forecast using the model GSARIMA has not correct out relatively better than the SARIMA by using AIC and mean absolute relative error (maref) value both simulation and DHF data.
Keywords: Dengue Hemorrhagic Fever, GSARIMA, IRLS, Negative Binomial, SARIMA
ABSTRAK
Salah satu topik utama dalam kajian pemodelan peramalan deret waktu (time series) pada tiga dekade terakhir ini adalah peramalan data jumlahan (count data). Peramalan data jumlahan berbasis model stokastik masih belum banyak dilakukan dan menggunakan distribusi Gaussian (normal). Salah satu model stokastik dan non- Gaussian (negatif binomial) untuk peramalan data jumlahan adalah model generalized autoregressive moving average (GARMA). Model GARMA menghubungkan komponen ARMA dengan variabel prediktor ke transformasi parameter rata-rata dari distribusi data dengan menggunakan fungsi link (link function) tetapi tidak melibatkan efek stasioner dan musiman. Model generalized seasonal autoregressive integrated moving average (GSARIMA) merupakan model pengembangan dari GARMA dengan melibatkan efek
stasioner dan musiman (seasonal). Estimasi model GSARIMA menggunakan pendekatan iteratively reweighted least square (IRLS). Model GSARIMA diterapkan pada data simulasi dan kasus demam berdarah dengue (DBD) di kota Surabaya dan membandingkan tingkat akurasi peramalan model tersebut dengan model seasonal autoregressive integrated moving average (SARIMA). Berdasarkan analisis yang dilakukan, baik simulasi maupun data DBD, hasil model dan peramalan dengan menggunakan model GSARIMA relatif lebih baik dibandingkan dengan model SARIMA dengan menggunakan nilai AIC dan Maref.
Katakunci: Demam Berdarah Dengue, GSARIMA, IRLS, binomial negatif, SARIMA
1 PENDAHULUAN
Salah satu topik utama dalam kajian pemodelan peramalan deret waktu (time series) pada tiga dekade terakhir ini adalah peramalan data jumlahan (count data). Hal ini juga seperti yang telah diuraikan oleh Gooijer dan Hyndman [1] yang telah melakukan kajian literatur berkaitan dengan perkembangan peramalan deret waktu dalam kurun waktu 25 tahun, yaitu mulai 1982 sampai dengan 2005, berdasarkan 940 makalah pada jurnal-jurnal bidang peramalan. Gooijer dan Hyndman menyatakan bahwa kajian tentang peramalan data jumlahan yang berbasis model stokastik masih belum banyak dilakukan oleh para peneliti bidang peramalan.
Yu, Chen, dan Wen [3] mengemukakan bahwa ada dua pendekatan yang sering digunakan untuk memodelkan data deret waktu non-Gaussian. Pendekatan pertama adalah menggunakan kombinasi linier pada variabel acak distribusi non-Gaussian (Gaver
& Lewis, 1980; Li & Mcleod, 1987) dan pendekatan yang kedua adalah mentransformasi data deret waktu Gaussian kedalam distribusi marginal yang lebih spesifik sehingga mampu digunakan untuk pendekatan non-Gaussian [2]. Hal ini juga digunakan oleh Benjamin, Rigby, dan Stasinopoulos [3]. Benjamin et al. mengembangkan model stokastik untuk data-data yang mengikuti distribusi non-Gaussian seperti distribusi Poisson dan binomial negatif. Model tersebut adalah model generalized autoregressive moving average (GARMA).
Model GARMA menghubungkan komponen ARMA dengan variabel prediktor ke transformasi parameter rata-rata dari distribusi data dengan menggunakan fungsi link (link function). Fungsi link ini digunakan untuk memastikan bahwa distribusi data tetap dalam domain bilangan riil positif, sehingga memiliki ketepatan prediksi yang lebih akurat. Model GARMA sangat fleksibel untuk memodelkan data jumlahan dengan struktur autoregressive dan atau moving average. Akan tetapi, hanya dapat diaplikasikan pada data yang dianggap stasioner dan tidak musiman. Benjamin et al. menggunakan pendekatan iteratively reweighted least square (IRLS) untuk mengestimasi parameter- parameter model GARMA [3].
Berdasarkan uraian di atas maka dalam penelitian ini akan dilakukan kajian tentang estimasi model GSARIMA dengan menggunakan IRLS dan membandingkan tingkat akurasi peramalan model GSARIMA dan SARIMA dengan prediktor dan tanpa prediktor pada data jumlah penderita Demam Berdarah Dengue (DBD) di kota Surabaya.
2 METODE PENELITIAN
2.4 Data Simulasi dan DBD
Model GSARIMA akan diaplikasikan pada data jumlah penderita Demam Berdarah Dengue (DBD). Data yang digunakan pada penelitian ini merupakan data sekunder yang diperoleh di Dinas Kesehatan Propinsi Jawa Timur. Jumlah data jumlahan yang digunakan adalah 420 yang diambil mulai bulan januari 1973 sampai bulan desember 2012. Untuk data simulasi, ada dua simulasi yang dilakukan. Simulasi pertama adalah simulasi perbandingan estimasi model GSARIMA dengan transformasi ZQ1 dan ZQ2 [2].
Sedangkan pada simulasi kedua dilakukan perbandingan tingkat akurasi peramalan model GSARIMA dan model ARIMA musiman. Program yang digunakan untuk estimasi baik simulasi maupun data riil adalah R, SAS dan MATLAB.
2.1 Model Binomial Negatif Data Jumlahan
Regresi binomial negatif merupakan salah satu model regresi terapan dari GLM Distribusi binomial negatif memiliki ketiga komponen yaitu komponen random, komponen sistematik dan fungsi link [2]. Adapun bentuk fungsi massa peluang binomial negatif adalah:
( ) ( ) ( ) (
)
( )
dengan , ( ) dan ( ) .
saat maka distribusi negatif binomial memiliki variansi . Distribusi binomial negatif akan mendekati suatu distribusi Poisson yang mengasumsikan mean dan variansi sama yaitu ( ) ( ) .
Kontribusi variabel prediktor dalam model regresi binomial negatif dinyatakan dalam bentuk kombinasi linier antara parameter ( ) dengan parameter regresi yang akan diestimasi yaitu:
atau dalam matriks dituliskan dalam bentuk
dengan adalah vektor ( ) dari observasi, adalah matriks ( ) dari variabel bebas, adalah matriks ( ) dari koefisien regresi, dengan . Nilai ekspetasi dari variabel respon Y adalah diskrit dan bernilai positif. Maka, untuk mentransformasikan nilai (bilangan riil) ke rentang yang sesuai dengan rentang pada respon diperlukan suatu fungsi link ( ) yaitu:
( )
2.2 Model GSARIMA
Model GSARIMA dikembangkan berdasarkan model GARMA dengan melibatkan efek musiman dan differencing. Diberikan ( ) adalah model data deret waktu. Misalkan ( ) dengan E
yt t dan ( ) . Jika
maka yt akan mengikuti distribusi Poisson. Adapun model GARMA
p,q dapat dilihat pada model (2):( ) ( ), ( )- ( ) ( ), ( )- ( ) ( )
dimana ( ) adalah fungsi link, ( ) dan ( ) . B merupakan operator backshift dengan Bdyt ytd dan vektor
( ) adalah koefisien untuk vektor ( ) dengan x0 merupakan intercept yang biasanya digunakan nilai x0 1. Pada kasus GARMA, data jumlahan dimodelkan dengan menggunakan sebuah fungsi link logarithmic atau identity [2]. Jika yt mengikuti distribusi Poisson dengan nilai mean sebagai berikut:
( ) , ( )-
Maka ada dua metode transformasi sebagai berikut yang dapat digunakan:
a. Transformasi ZQ1 yang mempunyai bentuk:
( ) ∑ [ ( ) ]
dimana ytT max
yt,c
,0c1.b. Transformasi ZQ2 yang mempunyai bentuk:
( ) ∑ [ ( ) [ ( )]]
Sehingga model GSARIMA binomial negatif untuk ZQ1 diberikan persamaan 3:
( ) ( )( ) ( ) ( )* ( )+ ( ) ( ) ( ) ( ) ( )
Sedangkan untuk ZQ2 adalah
( ) ( )( ) ( ) ( )* , ( ) - ( )+ ( ) ( ) ( ) (
) ( )
2.3 Algoritma IRLS
Model GARMA menggunakan IRLS telah dilakukan oleh Benjamin et al. [1]
berdasarkan proses yang dilakukan oleh Green [5]. Misalnya parameter yang akan diestimasi dinotasikan sebagai berikut ( ). Ketiga Parameter tersebut diestimasi menggunakan MLE sehingga log-likelihood untuk data observasi ( ), dan ( ). Adapun fungsi log-likelihood model GARMA dapat dilihat pada persamaan (4)
∑ ( )
Berdasarkan fungsi score persamaan (2.29) ( )
.
/ yang diberikan sebagai berikut:
( ) ∑
( )
dimanavt Var
yt |Dt
Var t
b'' t ,(McCullagh & Nelder, 1989). Kemudian
langkah selanjutnya adalah memaksimumkan fungsi log-likelihood dengan
menggunakan algoritma Fisher Scoring yaitu:
( ) ( ) ( ( )) ( ( ))
dimana dan ( ) . / yang disebut dengan matriks informasi Fisher, ( ) dengan
(
) ( )
Adapun langkah-langkah algoritma IRLS secara umum sebagai berikut:
a. Diberikan ( ) kemudian hitung nilai:
( ) ( ) .
/( ) ( )( ) .
/( ) ( ) ( ) dimana nilai ( ) dan ( ) dikonstruksi berdasarkan variabel dependen yang disesuaikan dengan persamaan berikut:
( )
(
) ( ) untuk .
b. Estimasi ( ) dengan meregresikan ( ) pada
.
/
( ) dengan bobot ( ),( ) ( ( )) ( )
( )
( ) ( )
c. Update ke dan ulangi langkah a dan b sampai estimasi parameter konvergen.
Untuk ( ) dihitung dengan proses rekursif sementara turunan dari
.
/
( ) dihitung dari proses rekursif parameter regresi, autoregressive dan moving average.
∑
∑
* ( ) + ∑
* ( ) + ∑
3 LAYOUT DAN SPESIFIKASI
3.1 Estimasi Parameter Model GSARIMA
Seperti telah disebutkan dibagian sebelumnya bahwa metode yang digunakan dalam estimasi parameter model GSARIMA binomial negatif adalah IRLS.
( )
(
)
Secara umum algoritma IRLS untuk menentukan nilai estimator adalah sebagai berikut:
a. Menginput data sekunder variabel dan b. Membentuk fungsi regresi binomial negatif c. Membentuk fungsi partial likelihood ( ) d. Membentuk fungsi ( )
e. Menentukan nilai awal parameter yang akan ditaksir, untuk
( ) ( ) ( ) ( ) ( ) berdasarkan model ARIMA yang terbentuk.
f. Menentukan turunan pertama dari ( ( ) ) sehingga diperoleh ( ( ) )
g. Menentukan turunan parsial kedua ( ( ) ) terhadap parameter sehingga diperoleh matrik Hessian ( ( ) )
h. Menentukan ekspektasi negatif dari matriks ( ( ) ) sehingga diperoleh matriks informasi fisher ( ( ) ) kemudian menentukan invers matriks tersebut.
i. Menentukan nilai estimasi parameter ̂( ) dengan rumus sebagai berikut:
̂( ) ( ̂( )) ( )
( )
( ) ( )
dengan
( ) ( )
( ( ))
( ) ( ( )) ( )
j. Menentukan iterasi update ke sampai diperoleh estimasi parameter yang konvergen yaitu | ̂( ) ̂( )| , dimana adalah vektor yang nilai entri-entrinya sangat kecil.
k. Jika belum didapatkan nilai yang konvergen maka diulangi pada langkah 5.
3.2 Simulasi Perbandingan Transformasi Fungsi Link ZQ1 dan ZQ2
Model data yang dibangkitkan adalah model Poisson AR (1) dengan menggunakan dua transformasi ZQ1 dan ZQ2. Data series yang dibangkitkan sebesar N=1000 dengan ( ) sebesar 5. Sedangkan nilai c ada tiga yaitu 0,1;0,5; dan 1 serta nilai parameter AR -0,5 dan 0,5. Adapun hasil perbandingan antara fungsi link ZQ1 dan ZQ2 dapat dilihat pada table 4.1 di bawah:
Tabel 1 Simulasi Perbandingan Estimasi Fungsi Link ZQ1 dan ZQ2 dengan Menggunakan Model Poisson AR (1) pada ( ) , ;
Model c intercept ̂ Maref DIC
Log-ZQ1 0,1 101,37 0,48 0,079 7431,5 Log-ZQ1 1,0 100,45 0,47 0,081 7491,7 Log-ZQ2 0,1 99,93 0,49 0,081 7453,4 Log-ZQ2 1,0 101,04 0,49 0,080 7463,5
Berdasarkan Tabel 1 dapat dilihat bahwa ketika nilai ( ) 100 dengan nilai c=0,1 maka transformasi fungsi link ZQ1 memiliki nilai maref dan DIC yang relatif kecil dibandingkan dengan transformasi fungsi link ZQ2. Tetapi sebaliknya ketika nilai c lebih besar (c=1,0) maka nilai transformasi dari ZQ2 memiliki nilai maref dan DIC yang relatif kecil. Selain itu jika nilai c lebih besar maka dari kedua fungsi link tersebut relatif menaikkan nilai DIC. Sehingga diperoleh kesimpulan bahwa untuk pada saat intercept yang kecil maka fungsi link ZQ1 relatif lebih baik dibandingkan dengan ZQ2.
3.2 Simulasi Perbandingan Estimasi Parameter Model GSARIMA
Pada bagian ini akan dilakukan simulasi estimasi parameter pada model GSARIMA yang mengikuti distribusi binomial negatif. Model GSARIMA yang dibangkitkan terdiri atas dua model yaitu model GSARIMA ( )( ) dengan GSARIMA ( )( ) .
Tabel 4.5 Simulasi Perbandingan Tingkat Akurasi Peramalan GSARIMA dengan SARIMA Model Binomial Negatif ARIMA ( )( )
Model Maref
Keterangan*) GSARIMA SARIMA
( )( ) 0,525 4,623 11 % 0,493 198,241 9 % 0,542 15,154 13 %
0,449 74,44 8 %
Keterangan : *) jumlah observasi nol
Dari hasil simulasi estimasi data bangkitan dengan menggunakan distribusi Poisson AR (1) maka diperoleh hasil pada Tabel 4.5. PadaTabel 4.5 dapat dilihat bahwa dari
65 60 55 50 45 40 35 30 25 20 15 10 5 1 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0
Lag
Autocorrelation
Autocorrelation Function for DiffLag12 (with 5% significance limits for the autocorrelations)
65 60 55 50 45 40 35 30 25 20 15 10 5 1 1.0 0.8 0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 -0.8 -1.0
Lag
Partial Autocorrelation
Partial Autocorrelation Function for DiffLag12 (with 5% significance limits for the partial autocorrelations)
keempat simulasi data yang dibangkitkan ternyata tingkat akurasi peramalan model binomial negatif GSARIMA ( )( ) lebih baik dibandingkan dengan model ARIMA ( )( ) . Rata-rata nilai maref untuk keempat simulasi data untuk model GSARIMA adalah sebesar 0,502 sedangkan rata-rata nilai maref untuk model SARIMA sebesar 73,11.
3.3 Aplikasi pada Data Jumlah Penderita DBD di Kota Surabaya
Tahap awal pemodelan GSARIMA pada kasus jumlah penderita DBD adalah mengidentifikasi orde musiman dan non musiman pada model ARIMA. Berdasarkan hasil analisis data bahwa data tidak stasioner dalam rata-rata maupun dalam variansi shingga dilakukan transformasi dan differencing pada lag 1 dan 12. Hasil differencing pada lag 1 dan 12 mengakibatkan data telah menunjukkan stasioner dalam mean. Hal ini dapat ditunjukkan plot ACF dan PACF pada Gambar 1.
Gambar 1 Plot fungsi autokorelasi dan fungsi autokorelasi parsial setelah dilakukan differencing pada lag 12
Tabel 4.14 Perbandingan Kebaikan Model dan Peramalan GSARIMA dan ARIMA
Model AIC Maref
SARIMA ( , -)( ) 5198,985 0,954 GSARIMA ( , -)( ) 4832,300 0,351
Hasil perbandingan model menunjukkan bahwa model GSARIMA relatif lebih baik jika dibandingkan dengan model SARIMA. Selain itu juga bias dilhat dari plot analisis residual dari kedua model perbandingan tersebut. Berdasarkan Gambar 4.7 terlihat bahwa nilai residual absolute dari model GSARIMA (raw residual) relatif mendekati titik nol dibandingkan dengan model SARIMA.
Gambar 4.7 Plot Raw Residual Model GSARIMA dan Residual Model SARIMA
.
4. PUSTAKA
[1] Benjamin,M. A., Rigby R. A., dan Stasinopoulos, D. M. (1998) Fitting Non-Gaussian Time Series Models.COMPSTAT Proceedings in Computationel Statistics, eds. R.
Payne dan P.Green, Heldelburg: Physica-Verlag, 191-196.
[2] Benjamin,M. A., Rigby R. A., dan Stasinopoulos, D. M. (2003). Generalized Autoregressive Moving Average Models.Journal of the American Statistical Association, 98, 214-224.
[3] Bowerman, B. L., dan O’Connell, R. T. (2003). Forecasting and Time Series: An Applied Approach, 3th eds. New Jersey: Prentice Hall.
[4] Briet, J. T. O., (2009). Toward Malaria Prediction in Sri Lanka: Modelling Spatial and Temporal Variability of Malaria Case Counts. Disertasi Doktor. Netherland:
Universitas Basel.
[5] Briet, J. T. O., Amerasinghe, H. P., dan Vounatsou, P. (2013). Generalized Seasonal Autoregressive Integrated Moving Average Models for Count Data with Application to Malaria Time Series with Low Case Numbers. Malaria Journal, PLoS ONE, 8(6):
e65761.
[6] Croston, J. D. (1972). Forecasting and Stock Control for Intermittent Demands.
Operational Research Quarterly, 23, 289– 303.
[7] Cryer, J. D. (1986). Time Series Analysis. Boston: PWS-KENT Publishing Company.
[8] Enders, W. (2004). Applied Econometric Time Series, 2nd eds. John Wiley & Sons, Inc., New York.
[9] Garbhi, M., Quenel, P., dan Marrama, L. (2011). Time Series Analysis of Dengue Incidence in Guadeloupe, French West Indies: Forecasting Models Using Climate Variables as Predictors. BMC Infect Disease, 11, 166.
[10] Gooijer, G. J., Hyndman, J. R. (2006). 25 Years of Time Series Forecasting.
International Journal of Forecasting, 22, 443-473.
[1] Alexander GJ, Resnick BG. 1985. Using linear and goal programming to immunize bond portfolios. Journal of Banking and Finance 9 (1): 35-54.
[2] Bierwag GO, Khang C. 1979. An immunization strategy is a minimax strategy.
Journal of Finance 34: 389-399.
[3] Wiggins S. 1990. Introduction to Applied Nonlinear Dynamical System and Chaos.
New York: Springer-Verlag.