ANALISA DAN
ANALISA DAN
PEMBAHASAN
STATISTIK DESKRIPTIF
Statistik Deskriptif Data Polusi Udara
Variabel
Total
Total Non
Mising
Total
Mising
Mean
Standar
deviasi
Minimum
Maksi-mum
PM10
1096
940
156
54.903
21.154
11.48
311.96
CO
1096
1053
43
1.2347
0.5246
0.1
4.46
O3
1096
1071
25
64.5
38.42
17.77
723.19
MISSING OBSERVATIONS
•
Pada data terdapat beberapa data yang hilang (missing observations)
U t k
i
l h t
b t di
k
t d i
t i
•
Untuk menangani masalah tersebut, digunakan metode imputasi
yang terdapat pada paket statistika SAS
Perbandingan Metode imputasi
Metode
MSE
MEAN
374,7
,
MIN
595
MAX
8098
•
MSE terkecil yaitu dengan menggunakan metode MEAN
•
untuk tahap selanjutnya, data yang hilang diganti
.
dengan rata-rata dari data polusi udara pada
tiap-tiap variabel.
PEMODELAN DATA POLUSI UDARA
Pemodelan Data Polusi Udara
Setelah diregresikan antara variabel independent (X) dan variabel
dependent (Y) diperoleh model sebagai berikut :
dependent (Y), diperoleh model sebagai berikut :
dimana t= 1, 2, ….,1096.
Nilai estimasi dari tiap-tiap variabel diberikan pada tabel berikut:
Prediktor
Koefisien
SE
T
P
Constant
47,444
1,521
31,20
0,000
Variabel yang tidak signifikan dikeluarkan dari model dan dilakukan
,
,
,
,
CO
6,024
1,139
5,29
0,000
O
30,00465
0,01542
0,30
0,763
Variabel yang tidak signifikan dikeluarkan dari model, dan dilakukan
pemodelan regresi yang melibatkan variabel yang berpengaruh.Sehingga,
diperoleh model untuk polusi udara di Kota Surabaya adalah sebagai
berikut:
PENGUJIAN ASUMSI RESIDUAL
Asumsi residual dalam analisis regresi meliputi uji
independen identik dan berdistribusi normal (0
σ
2
)
Uji Asumsi Independen
independen, identik dan berdistribusi normal (0,
σ
).
Dengan melihat hasilnya, nilai Durbin-Watson akan kecil jika terdapat
korelasi positif, dan besar jika terdapat korelasi negatif.
Sehubungan dengan data di atas, maka dengan bantuan MINITAB 14
diperoleh nilai Durbin-Watson sebesar
1.0663
. dengan nilai
d
L
=1,8988772
dan nilai
d
U
=1,9025316
. Karena nilai
d
W
< d
L
, maka
tolak H
0
, sehingga dapat disimpulkan bahwa residual terdapat
autokorelasi atau asumsi independen tidak terpenuhi.
Selain menggunakan Uji Durbin-Watson, keberadaan autokorelasi
PENGUJIAN ASUMSI RESIDUAL (2)
Uji Asumsi Independen
Autocorrelation F unction for R ES IDUAL
n
1.0 0.8 0.6 0.4
(w ith 5% significance lim its for the autocorrelations)
Au to co rr e la ti o n 0.4 0.2 0.0 -0.2 -0.4 0 6 Lag 100 90 80 70 60 50 40 30 20 10 1 -0.6 -0.8 -1.0
PENGUJIAN ASUMSI RESIDUAL (3)
Uji Asumsi Identik
Salah satu uji untuk menguji heteroskedastisitas ini adalah dengan
melihat
scatter plot
dari varians residual tersebut. Jika dari
scatter plot
terlihat bahwa penyebaran residual tidak teratur, maka dapat
disimpulkan bahwa varian homoskedastisitas atau asumsi dipenuhi.
Berikut ditampilkan output
residual versus fit
untuk mengetahui
PENGUJIAN ASUMSI RESIDUAL (4)
Uji Asumsi Identik
Residuals Versus the Fitted Values
(response is PM10) si d u a l 10.0 7.5 5.0 St a n d a rd iz e d R e 2.5 0.0 Fitted Value 180 160 140 120 100 80 60 40 20 0 -2.5 -5.0
PENGUJIAN ASUMSI RESIDUAL (5)
Uji Asumsi Berdistribusi Normal
Selanjutnya, asumsi lain yang perlu dipenuhi adalah residual
berdistribusi normal. Berikut merupakan Probability Plots dari
residual.
99.99
Mean 1.789388E-13 StDev 19.34
Probability Plot of RESI2
Normal P erc e n t 99 95 80 50 <0.005 N 1096 AD 10.084 P-Value P 20 5 1 0.01 RESI2 300 200 100 0 -100
PENGUJIAN ASUMSI RESIDUAL (5)
Dari beberapa pengujian asumsi di atas, hanya asumsi identik yang
terpenuhi sehingga residual dari model regresi tersebut perlu dianalisis
terpenuhi, sehingga residual dari model regresi tersebut perlu dianalisis
lebih lanjut.
Plot ACF menunjukkan bahwa masih terdapat lag-lag yang
signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual
signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual
pada periode pengamatan saat ini (
t
) dengan residual pada pengamatan
sebelumnya (
t
-
k
). Selanjutnya residual dari model regresi dimodelkan
dengan pemodelan timeseries.
dengan pemodelan timeseries.
Pada penelitian kali ini akan dilakukan pemodelan pada residual
dengan pendekatan ARIMA dan ARFIMA. Model yang terbaik adalah
model yang menghasilkan kesalahan yang lebih kecil.
PEMODELAN ARIMA
Tahap ini meliputi identifikasi model, penaksiran parameter, uji
diagnostik, pemilihan model terbaik dan peramalan.
Identifikasi Model
Pertama-tama, data dibagi dua menjadi data
in sample
dan
out sample
.
Pada umumnya, tahapan identifikasi yang pertama kali dilakukan
dalam pemodelan
time series
adalah melihat plot
time series in sample
.
T im e S e r ie s P lo t o f Ins a m p le sam p le 2 5 0 2 0 0 1 5 0 1 0 0 In s 1 0 8 0 9 7 2 8 6 4 7 5 6 6 4 8 5 4 0 4 3 2 3 2 4 2 1 6 1 0 8 1 5 0 0 - 5 0 In d e x
PEMODELAN ARIMA(2)
ARIMA mengasumsikan kondisi stasioner, sehingga perlu diuji
stasioner dalam varian dan mean Dilihat dari TS plot dan ACF Plot
stasioner dalam varian dan mean. Dilihat dari TS plot dan ACF Plot
terlihat bahwa data telah stasioner dalam varian dan mean. Untuk
menguji kestasioneran dalam mean digunakan uji
Dickey Fuller
dengan
dengan
Didapatkan hasil sebagai berikut :
Prediktor
Koefisien
SE Koefisien
T
P value
Sehingga data telah stasioner, sebab
δ
signifikan dengan alpha 0.05.
Prediktor
Koefisien
SE Koefisien
T
P_value
Y
t-1-0,54331
0,02708
-20,06
0,000
PEMODELAN ARIMA(3)
Karena residual model regresi sudah stasioner dalam mean dan varian,
maka dapat dilakukan penentuan orde dari model AR atau MA Berikut
maka dapat dilakukan penentuan orde dari model AR atau MA. Berikut
adalah plot ACF dan PACF dari residual regresi.
Autocorrelation Function for Insample
(with 5% significance limits for the autocorrelations) Partial Autocorrelation Function for Insample(with 5% significance limits for the partial autocorrelations)
cor re la ti o n 1.0 0.8 0.6 0.4 0.2 0.0 0 2 u tocor re la ti o n 1.0 0.8 0.6 0.4 0.2 0.0 0 2 Lag Au to c 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 -0.2 -0.4 -0.6 -0.8 -1.0 Lag P a rt ia l A 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 -0.2 -0.4 -0.6 -0.8 -1.0
Plot ACF dan PACF residual Regresi
Sehingga, dapat dilakukan pendugaan model yaitu :
ARIMA ([1 2 3 5 8 9 11 12] 0 0)
PEMODELAN ARIMA(4)
Penaksiran Parameter dan Uji Signifikansi Parameter
Setelah diperoleh model dugaan, selanjutnya dilakukan pengujian
signifikansi parameter model. Taksiran parameter dari model serta
s g
s p
e e
ode
s
p
e e d
ode se
pengujian
signifikansi
parameter
adalah
ARIMA
([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan pengujian
signifikansi parameter, terdapat parameter yang tidak signifikan.
signifikansi parameter, terdapat parameter yang tidak signifikan.
Parameter yang tidak signifikan dikeluarkan dari model satu persatu
dimulai dari yang memiliki nilai
p_value
terbesar.
SIGNIFIKANSI PARAMETER ARIMA
Sehingga diperoleh model yang semua parameternya signifikan yaitu model
ARIMA ([1,2,5,12],0,0). Estimasi dan pengujian signifikansi parameter model
ARIMA ([1 2 5 12] 0 0) ditampilkan pada berikut
ARIMA ([1,2,5,12],0,0) ditampilkan pada berikut.
Tabel. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0)
Parameter
Estimasi
T_hit
P_value
φ
1
0,37403
12,44
<0,001
φ
2
0,09073
2,98
0,0029
φ
3
0,11098
3,99
<0,001
Dari tabel 4.4 dapat dilihat bahwa semua parameter untuk model ARIMA
([1 2 5 12] 0 0) i ifik
d
5%
φ
4
0,11651
3,84
0,001
CEK DIAGNOSA RESIDUAL ARIMA
Cek Diagnosa
Pada tahap ini dilakukan pengujian terhadap residual dari model, yaitu uji
p
p g j
p
, y
j
white noise
yaitu residual bersifat identik dan independen serta pengujian
terhadap asumsi kenormalan residual.
Uji Asumsi White Noise
Pengujian yang digunakan untuk uji asumsi independensi adalah Ljung
B
CEK DIAGNOSA RESIDUAL ARIMA(2)
Tabel Nilai Statistik Uji Chi-Square Residual Model ARIMA
([1,2,5,12],0,0)
Lag
p_value
Kesimpulan
6
4,76
0,0925
Gagal Tolak Ho
12
11,57
,
0,1714
,
Gagal Tolak Ho
g
18
13,18
0,5127
Gagal Tolak Ho
24
16,21
0,7033
Gagal Tolak Ho
30
20 10
0 7869
Gagal Tolak Ho
30
20,10
0,7869
Gagal Tolak Ho
36
28,64
0,6371
Gagal Tolak Ho
42
32,26
0,7314
Gagal Tolak Ho
Dari Tabel di atas dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0)
48
40,10
0,6396
Gagal Tolak Ho
memenuhi asumsi
white noise
karena semua
p-value
lebih besar dari
CEK DIAGNOSA RESIDUAL ARIMA(3)
Pengujian Kenormalan Residual
Hasil perhitungan
Kolmogorov-Smirnov
dengan tingkat signifikansi kesalahan
5% untuk pengujian kenormalan residual dapat dilihat pada Tabel berikut.
Pengujian Kenormalan Residual untuk Model
Model
Statistik Uji D
p-value
ARIMA
0 09659
0 0100
nilai
p value
untuk uji
Kolmogorov-Smirnov
(<0,0100) lebih kecil dari
α
=5%,
([1,2,5,12],0,0)
0,09659
<0,0100
nilai
p_value
untuk uji
Kolmogorov Smirnov
( 0,0100) lebih kecil dari
α
5%,
maka dapat disimpulkan bahwa residual untuk model ARIMA ([1,2,5,12],0,0)
MODEL ARIMA TERBAIK
Model terbaik untuk residual regresi adalah model
ARIMA ([1,2,5,12],0,0)
ൌ
AIC sebesar 9159,503 dan MSE out sample sebesar 537.5336
residual model ARIMA ([1 2 5 12] 0 0) tidak memenuhi asumsi
residual model ARIMA ([1,2,5,12],0,0) tidak memenuhi asumsi
normal karena terdapat outlier
250
Time S eries Plot of Aktual, R amalan O utsample
a ta 250 200 150 100 Variab le A k tu al Ramalan O u tsamp le D a 100 50 0 -50 Inde x 990 880 770 660 550 440 330 220 110 1 50
PEMODELAN ARFIMA
2000000
1500000
Time Series Plot of periodogram
1.0 0.8 0 6
Autocorrelation Function for Insample (with 5% significance limits for the autocorrelations)
p e ri od og ra m 1000000 500000 Au to co rr e la ti o n 0.6 0.4 0.2 0.0 -0.2 -0.4 0 6 Index 495 440 385 330 275 220 165 110 55 1 0 Lag 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1 -0.6 -0.8 -1.0
( )
(b)
Long memory dapat dilihat dari plot ACF yang autokorelasinya
turun lambat secara hiperbolik
(a)
(b)
Selain itu dengan melihat bentuk periodogram. Bentuk
periodogram yang meningkat menuju nilai yang sangat besar
tetapi berhingga untuk frekuensi yang semakin mendekati nol
(Gambar (b)) menunjukkan adanya ketergantungan jangka
ESTIMASI PARAMETER MODEL ARFIMA
Langkah-langkah:
1. estimasi nilai d.
Pada penelitian ini ditentukan terlebih dahulu nilai
parameter differencing d pada data keseluruhan (data
in sample), sehingga dalam estimasi parameter dari
model-model awal ARFIMA menggunakan nilai d yang
sama.
Data in sample residual regresi memiliki nilai d sebesar
0.331096. Ini dilihat dari nilai p_value = 0,000 yang
lebih kecil dari nilai .
2. Estimasi aspek jangka pendek yaitu parameter p
dan q dilihat dari plot ACF
ESTIMASI PARAMETER MODEL ARFIMA (2)
No
Model
φ
φ
φ
θ
No
ARFIMA
φ
1
φ
2
φ
3
θ
1
1
1,d, 1]
, , ]
-0,880165
0.919562
[0.000]
[0.000]
2
[1,2],d, 1
0.720971
[0 000]
-0.577182
[0 059]
-0.688728
[0 000]
[0.000]
[0.059]
[0.000]
3
[1,2,3],d, 1
0,686064
[0 003]
-0,0503132
[0 183]
-0,0110528
[0 744]
-0,654334
[0 000]
[0,003]
[0,183]
[0,744]
[0,000]
UJI ASUMSI RESIDUAL ARFIMA (1, d, 1)
Model ARFIMA
Normal
ARCH 1-1
Portmanteau
ARFIMA
[0 000]**
[0.0183]*
[0 8670]
ARFIMA
(1,d, 1)
[0.000]
[
]
[0.8670]
Residual untuk model ARFIMA (1 d 1)
Residual untuk model ARFIMA (1,d, 1)
MODEL ARFIMA TERBAIK
AIC
9159,00399
MSE outsample
280,337
AIC
9159,00399
MSE outsample
280,337
Pada ARFIMA (1,d,1)
tidak memenuhi asumsi normal
,
sehingga analisis dilanjutkan dengan pendeteksian
outlier.
PEMODELAN ARIMA DENGAN DETEKSI
OUTLIER
Outlier pada data menyebabkan ketidaknormalan.
Outlier dapat dideteksi dengan menggunakan Boxplot
P d
liti
i i di
bil d
b
h
tli
li
Pada penelitian ini, di ambil dua buah outlier yang paling
ekstrim yaitu data ke-
804
dan data ke-
1070
.
Boxplot of R esi 250 200 150 1070 Boxplot of R esi Re si 150 100 50 1059 1045 1043 1039 907 898 893 892 891 854 851 827 825 824 816 806 804 803 787 782 756 753 738 711 706 669 616 458 455 437 411 392 374 278 202 154 125 103 67 63 46 20 18 0 -50 -100 1073 1072 1071 942 909 899 896 843 828 810 805 707 617 575 515 460 388 129 00
SIGNIFIKANSI PARAMETER ARFIMA
Parameter
Estimasi
t-hit
P_value
φ
-0 800973
-7,15
0 000
φ
1
-0,800973
,
0,000
θ
1
0,849818
8,60
0,000
92 1031
6 04
0 000
92,1031
6,04
0,000
Model di atas sudah memenuhi asumsi white noise dan homogenitas
tetapi belum memenuhi asumsi distribusi normal
Persamaan model ARFIMA (1,d, 1) dapat dituliskan
sebagai berikut
g
AIC
9125 61531 dan MSE sebesar 271 304
HISTOGRAM RESIDUAL ARFIMA
A nderson-Darling Normality TestA -Squared 19.98 P-V alue < 0.005 Mean 0.173
Summary for REsi5
V ariance 271.524 Skew ness 3.4151 Kurtosis 46.9632 N 1080 M inimum -62.447 1st Q uartile -8.353 Median -0.551 StDev 16.478 250 200 150 100 50 0 -50 3rd Q uartileMaximum 246.4906.889 95% C onfidence Interv al for Mean
-0.811 1.156 95% C onfidence Interv al for Median
-1.114 0.068 95% C onfidence Interv al for StDev 9 5 % Confidence Inter vals
Median Mean 1.0 0.5 0.0 -0.5 -1.0 15.811 17.204 9 5 % Confidence Inter vals
Ketidaknormalan data juga dapat dilihat dari nilai kurtosis yaitu
46,9632
(berdistribusi normal bila nilai kurtosis adalah nol).
Pada penelitian ini, residual model ARFIMA (1,d,1) dengan outlier t=804
p
,
( , , )
g
memiliki kurtosis positif, yang biasa disebut dengan
leptoturtic
PERBANDINGAN MODEL ARIMA DAN
ARFIMA
Model
AIC
MSE
ARIMA ([1,2,5,12],0,0)
9259,903
537,5336
ARIMA ([1,2,5,12],0,0)
9259,903
537,5336
ARFIMA (1,d, 1) dengan outlier
t
=804
9125,61531
271,304
t
=804
model regresi untuk pemodelan polusi udara
KESIMPULAN
1.
Metode yang paling baik untuk mengatasi missing observations
pada data penelitian ini adalah metode
MEAN
jika dibandingkan
dengan metode MINIMUM dan MAKSIMUM.
2.
Berdasarkan perhitungan MSE model regresi dengan error,
kombinasi model regresi dan ARFIMA memberikan nilai MSE yang
jauh lebih kecil dibandingkan model dengan kombinasi regresi dan
ARIMA, sehingga dapat dikatakan bahwa model regresi dengan
ARFIMA merupakan metode terbaik untuk memodelkan polusi
udara di Kota Surabaya
udara di Kota Surabaya
3. Model terbaik yang diperoleh adalah model ARFIMA(1,d, 1)
dengan outlier t=804
SARAN
Saran yang dapat direkomendasikan untuk penelitian
Saran yang dapat direkomendasikan untuk penelitian
selanjutnya adalah dengan menambah variabel
prediktor untuk mendapatkan pemodelan yang lebih
DAFTAR PUSTAKA
Dahlhaus, R., 1995. Efficient location and regression estimation for long range dependent regression
models. Ann.Statist. 23, 1029–1047.
Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of
Autoregressive Fractionaly Integrated Moving Average models. Nuffield College, University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free University of Amsterdam 1081 HV Amsterdam,
T N d l d
Te Nederlands.
Granger, C. W. J. (1980), An Introduction to Long-Memory Time Series Models and Fractional Differencing.
Journal of Time Series Analysis, 1, 15-39
Hall, P., Lahiri, S.N. dan Polzehl, J., 1995. On bandwidth choice in nonparametric regression with both short
and longrange dependency errors. Ann. Statist. 23, 1921–1936.
Hanea, R., 2005. Data assimilation Concept and the Kalman Filter Approach for an Atmospheric Application.
Bahan RWS, TU Delft.
Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte Carlo Study.
University of Econometrics and Business Administraton, Department of Statistics, Vienna.
Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with Missing
Observations and Long-memory: An Application Study. Journal of Computational Statistics and Data g y pp y p
Analysis 50, 2028–2043.
Irhamah. (2001). Perbandingan Metode – metode Pendygaan Parameter Model ARFIMA. Tesis Magister
(tidak dipublikasikan). Institut Teknologi Sepuluh Nopember. Surabaya.
John H R 1971 Spectrum Estimation With Missing Observations Air Force Office of Scientific Research
John, H.R., 1971. Spectrum Estimation With Missing Observations. Air Force Office of Scientific Research,
Office of Aerospace Research, United Related Fields 95, 538-553.
Koul, H.L. dan Mukherjee, K., 1993. Asymptotics of R-, MD- and LAD estimators in linear regression with
long range dependent errors. Probab. Theory Related Fields 95, 538–553.
DAFTAR PUSTAKA
Lardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA Processed and Model
Selection Criteria: A Monte Carlo Study. MODEM- CNRS, University of Paris X.
Palma, W. dan Chan, N.H., 1997. Estimation and forecasting of long-memory processes with missing values.
J. Forecasting 16, 395–410.
Palma, W. dan Del Pino, G., 1999. Statistical analysis of incomplete long-range dependent data. Biometrika
86, 165–172.
Robinson, P.M. dan Hidalgo, F.J., 1997. Time series regression with long-range dependence. Ann. Statist.
25, 77–104. 25, 77 104.
Sowell, F., 1992. Maximum likelihood estimation of stationary univariate fractionally integrated models. J.
Econometrics 53, 165–188
Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company.
Widarjono, A., 2007. Ekonometrika. Teori dan Aplikasi untuk Ekonomi dan Bisnis. Ekonisia. Yogyakarta.
Yajima, Y., 1988. On estimation of a regression model with long-memory stationary errors. Ann. Statist. 16,
791–807.
Yajima,Y. dan Nishino, H., 1999. Estimation of the autocorrelation function of a stationary time series with
Yajima,Y. dan Nishino, H., 1999. Estimation of the autocorrelation function of a stationary time series with