PERBANDINGAN ALGORITMA GENETIKA DAN METODE STATISTIK ARIMA
UNTUK PREDIKSI DATA TIME SERIES
(Studi Kasus : Kunjungan Museum di Kota Yogyakarta)
COMPARISON OF GENETIC ALGORITHM AND ARIMA STATISTICAL METHODS FOR TIME SERIES PREDICTION
(Case Study : Visitor of Museum in Yogyakarta)
1)
Fatma Agus Setyaningsih 1)
Universitas Tanjungpura, Pontianak fatmasetyaningsih@gmail.com
(Jl. Prof. Dr. Hadari Nawawi Pontianak, kalimantan Barat 78124)
ABSTRACT
Prediction of time series aims to control or recognize the behavior of the system based on the data in the time period, using statistical methods approach, time series prediction techniques were also developed on the model of artificial intelligence. This study aims to create applications by comparing and looking for models that have better performance in making predictions. Prediction using ARIMA taken through three stages, namely: identification of ARIMA models, estimation of the parameters of the model have been identified, and the evaluation of the suitability of the model that has been estimated and predictive ability. Performance comparation is seen from the MSE and MAPE.The empirical studies have shown MSE generated ARIMA model showed minimal error of 0.000198722 and models AG amounted to 28.2153. MAPE percentage value resulting prediction accuracy of the model AG 65.78% and 18.11% of the ARIMA model. Performance of MSE and MAPE value shows that the model prediction time series AG has better prediction accuracy than ARIMA as evidenced from the value of MAPE (Mean Absolute Percentage Error), but for the smallest MSE value on ARIMA models.
Keywords: time series, ARIMA, genetic algorithm
ABSTRAK
Prediksi time series bertujuan untuk mengendalikan atau mengenali perilaku sistem berdasarkan data pada periode waktu tertentu.selain, menggunakan pendekatan metode statistik, teknik prediksi time series juga dikembangkan pada model kecerdasan buatan. Penelitian ini bertujuan untuk membuat aplikasi dengan membandingkan dan mencari model yang memiliki performa lebih baik dalam melakukan prediksi. Prediksi menggunakan ARIMA ditempuh melalui tiga tahapan, yaitu : identifikasi model ARIMA, estimasi parameter dari model yang telah diidentifikasi, dan evaluasi kesesuaian model yang telah diestimasi serta kemampuan prediksinya. Perbandingan nilai performansi dilihat dari nilai MSE dan MAPE. Studi empiris yang telah dilakukan menunjukkan MSE yang dihasilkan model ARIMA menunjukkan minimal error sebesar 0.000198722 dan model AG sebesar 28.2153. Nilai persentase akurasi prediksi MAPE yang dihasilkan model AG sebesar 65.78% dan model ARIMA sebesar 18,11%. Nilai performansi MSE dan MAPE tersebut menunjukkan bahwa model prediksi time series AG mempunyai akurasi prediksi lebih baik dibandingkan ARIMA yang dibuktikan dari nilai MAPE (Mean
1. PENDAHULUAN
Prediksi adalah salah satu unsur yang sangat penting dalam pengambilan keputusan, sebab efektif atau tidaknya suatu keputusan umumnya tergantung pada beberapa faktor yang tidak dapat kita lihat pada waktu keputusan itu diambil yang didasarkan pada data yang ada pada waktu sekarang dan waktu lampau (historical data). Prediksi dengan model ARIMA (Autoregresif Integrated Moving Average) ditempuh melalui tiga tahapan, yaitu : identifikasi model ARIMA, estimasi parameter dari model yang telah diidentifikasi, dan evaluasi kesesuaian model yang telah diestimasi serta kemampuan prediksinya. ARIMA menggunakan nilai masa lalu dan sekarang dari variabel dependen untuk menghasilkan prediksi.
Algoritma genetika adalah algoritma pencarian dan optimasi berdasarkan prinsip-prinsip evolusi alam (natural evolution). Penerapan aplikasi algoritma genetika banyak ditemukan pada bidang bisnis, ilmu pengetahuan dan permasalahan teknik optimasi. Untuk prediksi, algoritma genetika digunakan untuk menentukan model dan parameter model (Timma, 2004).
Berdasarkan uraian diatas, penelitian ini berusaha mengembangkan model dan perangkat lunak untuk prediksi. Sebagai model untuk prediksi adalah Algoritma Genetika (AG) dan Metode Statistik ARIMA. Dari kedua model ini dibandingkan untuk mengetahui performansi prediksi tiap model.
2. MODEL TIME SERIES
Model runtun waktu (time series) bertujuan untuk menggolongkan dan memahami sistem serta meramalkan sifatnya untuk masa depan. Pemodelan dapat digunakan untuk prediksi (forecasting) jangka pendek tetapi mungkin kemampuan untuk melakukan hal tersebut kurang maksimal dan sebaliknya. Pola data dapat dibedakan menjadi empat yaitu sebagai berikut.
a. Pola horisontal (stasioner) terjadi bilamana nilai data berfluktuasi di sekitar nilai rata-rata yang tetap (konstan).
b. Pola musiman terjadi bilamana suatu runtun dipengaruhi oleh faktor musiman. c. Pola random terjadi bilamana datanya dipengaruhi oleh faktor ekonomi jangka
panjang seperti berhubungan dengan siklus bisnis.
d. Pola trend terjadi bilamana terdapat kenaikan atau penurunan sekuler jangka panjang dalam data.
3. PROSES SISTEM PREDIKSI ARIMA
Prediksi menggunakan ARIMA, ditentukan dari data time series yang mengikuti pola AR, MA, ARMA, atau ARIMA. Model ARIMA dibagi 3 kelompok, yaitu: model AR (autoregressive), model MA (moving average), dan model campuran ARIMA (Autoregressive Integrated Moving Average).
a. Model AR (Autoregressive)
Stasioner series adalah fungsi linier dari nilai-nilai lampaunya yang berurutan atau nilai sekarang series merupakan rata-rata tertimbang nilai-nilai lampaunya bersama dengan kesalahan sekarang, maka persamaan itu dinamakan model autoregressive. Bentuk umum model autoregressive adalah (Mulyono, 2000) :
= + + + ⋯ + + (3.1)
Banyaknya nilai lampau yang digunakan (p) pada model AR menunjukkan tingkat dari model ini. Jika hanya digunakan sebuah nilai lampau, dinamakan model autoregressive tingkat satu dan dilambangkan dengan AR (1). Agar model ini stasioner, jumlah koefisien model autoregressive (∑) harus selalu kurang dari 1. Ini merupakan syarat perlu, bukan cukup, sebab masih diperlukan syarat lain untuk menjamin stationaritas.
b. Model MA (Moving Average)
Series yang stasioner merupakan fungsi linier dari kesalahan peramalan sekarang
dan masa lalu yang berurutan, persamaan itu dinamakan moving average model. Bentuk umum model moving average adalah (Mulyono, 2000) :
= − − − ⋯ − + (3.2)
Terlihat bahwa nilai merupakan rata-rata kesalahan sebanyak n periode ke belakang. Banyaknya kesalahan yang digunakan pada persamaan ini (q) menandai tingkat dari model moving average. Jika pada model itu digunakan dua kesalahan masa lalu, maka dinamakan model average tingkat 2 dan dilambangkan sebagai MA (2). Hampir setiap model exponential smoothing pada prinsipnya ekuivalen dengan suatu model ini. Agar model ini stasioner, suatu syarat perlu (bukan cukup), yang dinamakan
invertibility condition adalah bahwa jumlah koefisien model (∑) selalu kurang dari 1,
ini artinya jika makin ke belakang peranan kesalahan makin mengecil. Jika kondisi ini tak terpenuhi kesalahan yang makin ke belakang justru semakin berperan.
Model MA meramalkan nilai berdasarkan kombinasi kesalahan linier masa lampau (lag), sedangkan model AR menunjukkan sebagai fungsi linier dari sejumlah nilai aktual sebelumnya.
c. Model ARIMA (Autoregressive Integrated Moving Average)
Model AR, MA dan ARMA yang telah dibahas menggunakan asumsi bahwa data time
series yang dianalisis sudah bersifat stasioner. Mean dan varians data time series bersifat
konstan dan kovarians-nya tidak terpengaruh oleh waktu.
Pada kenyataannya, data time series lebih banyak bersifat tidak stasioner, atau dengan kata lain, terintegrasi (integrated). Data time series yang terintegrasi pada tingkat (atau order) pertama, I(1), akan menjadi stasioner pada diferen pertamanya, atau I(0). Demikian juga bila time series tersebut I(2), maka diferen atau turunan keduanya akan bersifat stasioner atau I(0). Sehingga dirumuskan bahwa jika data time series tersebut adalah I(d), maka setelah didiferen sebanyak d kali, maka akan didapatkan I(0) yang sudah stasioner.
Bentuk umum model ini adalah (Mulyono, 2000) :
= + + ⋯ + + − − ⋯ − + (3.3)
Syarat agar proses ini stasioner + + ⋯ + < 1 Proses ini dilambangkan ARIMA (p, d, q)
dimana :
q = menunjukkan ordo/ derajat autoregressive (AR) d = adalah tingkat proses differencing
p = menunjukkan ordo/ derajat moving average (MA)
Simbol model-model sebelum ini dapat saja dinyatakan seperti berikut : AR (1) sama maksudnya dengan ARIMA (1,0,0),
MA (2) sama maksudnya dengan ARIMA (0,0,2), dan ARMA (1,2) sama maksudnya dengan ARIMA (1,0,2).
Pola ini mengikuti dari banyaknya komponen p (autoregresif), q (moving average), dan d (difference) yang diperlukan agar data menjadi stasioner. Langkah-langkah penentuan prediksi menggunakan model ARIMA dapat dilihat pada flowchart sistem prediksi model ARIMA.Gambar 3.1 memperlihatkan flowchart prediksi model ARIMA.
Gambar 3.1 Flowchart Prediksi Menggunakan ARIMA
4. PROSES PREDIKSI ALGORITMA GENETIKA
Prediksi menggunakan algoritma genetika dilakukan dengan proses training yang dilakukan di setiap bagian data untuk mendapatkan pembobot yang meminimalkan mean square error (MSE). Proses yang diperlukan dalam sistem prediksi algoritma genetika adalah sebagi berikut :
1. Membangkitkan populasi yang direpresentasikan menggunakan bilangan real. Populasi yang diharapkan berupa matrik. Representasikan kromosom menggunakan model matematika persamaan 4.3. Kromosom dibentuk dari gen sebanyak n+1 yang merepresentasikan koefisien dari n peramal seperti yang ditunjukkan pada Gambar 4.1
MULAI DATA STASIONER ? PROSES ACF PENETAPAN MODEL SELESAI ORDE + 1 NO PROSES PACF MODEL SESUAI ? PENGHITUNGAN
MSE DAN MAPE
PENERAPAN PREDIKSI
YES
YES
n t n t t n t n t t t
b
b
Y
b
Y
b
Y
a
a
e
a
e
a
e
Y
− − − − − −+
+
+
+
−
−
+
+
+
=
...
...
ˆ
2 2 1 1 0 2 2 1 1 0 0 1 2 … 0 1 2 …Gambar 4.1 Representasi kromosom
2. Proses seleksi berdasarkan fungsi fitness yang merupakan fungsi obyektif untuk permasalahan tertentu. Fungsi fitness berdasarkan nilai terkecil dari error antara nilai actual dan nilai prediksi. Pada periode training algoritma genetika yang direpresentasikan sebagai mean square error (MSE) dan MAPE (Mean Absolute
Percentage Error).
3. Proses perkawinan silang (crossover) dilakukan berdasarkan probabilitas crossover . Dibangkitkan suatu bilangan random p untuk menentukan terjadi crossover atau tidak. Apabila ≥ maka tidak terjadi crossover, yang berarti offspring merupakan copy dari
parent. Sebaliknya bila < akan terjadi crossover. Ilustrasi proses pekawinan silang
(crossover) : mula-mula ditentukan posisi awal dan akhir yang diperoleh secara acak r1 dan r2. Perkawinan silang akan dilakukan antara posisi r1 dan r, kemudian dibangkitkan bilangan acak r sebagai konstanta. Contoh dari arithmetic crossover dapat dilihat pada Gambar 4.2. Misalnya r diperoleh 0.75 dengan posisi awal r1 = 3 dan r2 =5, setelah dilakukan crossover perubahan nilainya :
"(3) = 0.75 X 0.21 + (1 − 0.75)X 0.33 = 0.24 "(3) = (1 − 0.75) X 0.21 + 0.75 X 0.33 = 0.30 "(4) = 0.75 X 0.46 + (1 − 0.75)X 0.42 = 0.45 "(4) = (1 − 0.75)X 0.46 + 0.75 X 0.42 = 0.43 "(5) = 0.75 X 0.44 + (1 − 0.75)X 0.79 = 0.53 "(5) = (1 − 0.75) X 0.44 + 0.75 X 0.79 = 0.70
4. Proses Mutasi untuk algoritma genetika dilakukan dengan model shift yaitu menentukan satu posisi gen pada kromosom secara random. Kemudian nilai gen tersebut ditambahkan dengan bilangan kecil antara -0.1 sampai dengan 0.1 sebagai nilai gen yang baru tetapi tetap pada jangkauan nilai gen awal.
5. Proses elitism dilakukan untuk meningkatkan performansi algoritma genetika sehingga dapat mencapai konvergensi dengan cepat serta mencegah kehilangan solusi terbaik. 6. Penggantian generasi (generation replacement), dalam satu kali generasi
dimungkinkan populasi awal sudah mengalami perubahan struktur kromosomnya karena proses perkawinan silang (crossover) dan mutasi. Struktur dari populasi yang telah mengalami perubahan digunakan untuk populasi baru yang dianggap mampu bertahan dalam satu kali generasi. Jadi populasi hasil seleksi akan dijadikan sebagai populasi baru untuk proses generasi berikutnya sampai batas maksimum generasi atau nilai fitness telah mencapai konvergen dan akan diperoleh individu maksimal yang mempunyai nilai MSE terkecil setelah tercapai equilibrium (batas optimal) serta mempunyai keakuratan peramalan yang dibuktikan dengan nilai dan MAPE (Mean
Absolute Percentage Error).
7. Hasil Prediksi diambil keputusan.
Rancangan sistem prediksi, secara umum menggunakan bagan alir (flowchart) untuk mengetahui setiap proses prediksi. Gambar 4.3 memperlihatkan flowchart prediksi menggunakan Algoritma Genetika.
Gambar 4.3 Flowchart Prediksi Menggunakan Algoritma Genetika
5. HASIL DAN PEMBAHASAN
Data yang digunakan dalam penelitian ini, yaitu data “Kunjungan Museum di Kota Yogyakarta” yang merupakan data bulanan banyaknya wisatawan yang berkunjung ke Museum Yogyakarta periode Januari 2000 sampai dengan Desember 2007 bersumber dari Badan Pusat Statistik (BPS) Yogyakarta.
5.1 MODEL TIME SERIES
Secara Kesuluruhan data yang digunakan dalam penelitian ini adalah sebanyak 96 data atau periode, terdiri data pengunjung asing. Grafik data time series Kunjungan Asing Museum di Kota Yogyakarta yang ditunjukkan pada gambar 5.1:
Gambar 5.1 Grafik data time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing
Gambar 5.1 diatas kita dapat melihat pergerakan grafik data time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing secara berkala dari waktu ke waktu, mulai bulan januari 2000 sampai dengan Desembar 2007 cenderung meningkat.
5.2 PREDIKSI MENGGUNAKAN ARIMA
Model ARIMA adalah model yang mengandung unsur AR (autoregressive) dan MA (moving average). Aspek-aspek AR dan MA dari model ARIMA hanya berkenaan dengan data time series yang stasioner, baik stasioner terhadap mean maupun variansi. Dari grafik data time series Kunjungan Museum di Kota Yogyakarta di atas, terlihat bahwa data yang cenderung meningkat dan dapat digunakan untuk prediksi adalah data time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing. Pada gambar 6.1 tampak bahwa data tersebut belum stasioner yang dihitung dari koefisien autokorelasi untuk semua lag, sehingga data tersebut perlu di stasionerkan. Data time series yang akan di prediksi terlebih dahulu harus diketahui operasional variabel-variable yang akan digunakan untuk penghitungan, diantaranya:
1. Yt-1 = Data kunjungan 1 bulan sebelum t (dijadikan sebagai variabel independen) 2. Yt-2 = Data kunjungan 2 bulan sebelum t (dijadikan sebagai variabel independen) 3. Yt-n = Data kunjungan n bulan sebelum t (dijadikan sebagai variabel independen) 4. Yt = Data kunjungan yang akan diramal pada waktu ke-t (dijadikan sebagai 5. variabel dependen).
Gambar 5.2 Grafik ACF dan PACF data time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing yang sudah stasioner.
Hasil defferencing tingkat kedua
Apabila model tersebut sudah dapat digunakan untuk melakukan prediksi, maka model tersebut dibuktikan dari nilai error minimum dan akurasi prediksi serta dapat dilihat dari data hasil prediksi yang memperlihatkan penurunan atau kenaikan jumlah pengunjung wisatawan asing. Gambar grafik data hasil simulasi prediksi menggunakan model ARIMA ditunjukkan pada gambar 5.3.
Gambar 5.3 Grafik Hasil Prediksi Model ARIMA
Gambar 5.3 diatas menunjukkan hasil prediksi menggunakan model ARIMA. Gambar di atas memperlihatkan penurunan kunjungan wisatawan asing. Hasil simulasi MSE dan MAPE prediksi ARIMA dapat dilihat pada tabel 5.1.
Tabel 5.1 MSE dan MAPE Terbaik Model ARIMA Simulasi ARIMA
Model ARIMA (p,d,q)
MSE MAPE (%) Waktu Run
(detik)
(4,0,6) 0.000445096 27.9544 0.490168
(3,1,0) 0.000272188 5.96443 0.359278
(8,2,1) 0.000198722 18.1138 0.296796
Berdasarkan data nilai mean square error (MSE) terkecil Tabel 5.1 diatas untuk data
time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing bertipe
stasioner, nilai MSE terkecil 0.000198722 dengan waktu run 0.311347 dan MAPE sebesar 18,11 %.
5.3 PREDIKSI MENGGUNAKAN ALGORITMA GENETIKA
Dari hasil pemodelan ARIMA, selanjutnya pada prediksi algoritma genetika menggunakan nilai p dan q yang ada pada pemodelan ARIMA. Nilai tersebut untuk dijadikan representasi pada prediksi algoritma genetika. Gambar grafik data hasil simulasi prediksi menggunakan algoritma genetika ditunjukkan pada gambar 5.4.
Gambar 5.4 Grafik Hasil Prediksi Model Algoritma Genetika
Gambar 5.4 di atas menunjukkan bahwa hasil testing dengan model algoritma genetika belum mendekati pola data time series aktual (asli) dan belum mampu mengenali pola data pada kedua periode dengan cukup baik, meskipun algoritma genetika dapat menyelesaikan permasalahan prediksi.
Hasil pengamatan nilai mean square error (MSE) terkecil yang dicapai pada saat simulasi dengan algoritma genetika dapat dilihat pada Tabel 5.2.
Tabel 5.2 MSE dan MAPE Terbaik Model Algoritma Genetika Prob. Mutasi Prob. Crossover Simulasi Algoritma
Genetika Waktu Run (detik) MSE MAPE 0.1 0.9 133510 73.5009 29.798 0.8 73986.8 79.1161 54.3408 0.7 28.2153 65.7832 53.1383 0.6 28.7019 75.4712 54.1143 0.5 52.4927 76.3258 52.4927
Berdasarkan data nilai mean square error (MSE) terkecil Tabel 5.2 diatas untuk data
time series Kunjungan Museum di Kota Yogyakarta pada data kunjungan asing bertipe
stasioner, nilai MSE terkecil 28.2153 dengan waktu run 53.1383 dan MAPE sebesar 65.78%.
5.4 HASIL PREDIKSI
Data hasil prediksi dari 2 (dua) model tersebut untuk model algoritma genetika tidak dapat memperlihatkan hasil prediksinya dikarenakan model algoritma genetika bukan solusi yang tepat untuk model prediksi. Nilai MSE (Mean Squared Error) dan MAPE (Mean Absolute Percentage Error) disajikan pada tabel 5.3.
Tabel 5.3 MSE dan MAPE Terbaik Model ARIMA dan AG ARIMA Algoritma Genetika MSE Prediksi MAPE (%). MSE Prediksi MAPE (%). 0.000198722 18,11 28.2153 65.78
Berdasarkan tabel hasil prediksi dapat disimpulkan bahwa :
1.
Nilai MSEARIMA relatif lebih kecil dibandingkan MSEAG ini menandakan tingkat kesalahan yang dihasilkan oleh model ARIMA relatif lebih kecil.2.
MAPE untuk prediksi model AG lebih besar dibandingkan dengan ARIMA, ini membuktikan bahwa akurasi model prediksi terjadi pada model AG.6. KESIMPULAN
Berdasarkan pembahasan yang telah diuraikan pada bab-bab sebelumnya, maka diambil beberapa kesimpulan sebagai berikut :
1. Data Kunjungan Asing Museum di Kota Yogyakarta periode Januari 2000 sampai dengan Desember 2007 adalah runtut waktu (time series) yang bersifat tidak stasioner. Hal ini menyebabkan analisis ARIMA tidak dapat langsung dilakukan, Karena ARIMA mensyaratkan data yang digunakan harus bersifat stasioner. Agar kondisi data yang digunakan dapat lebih baik dan bersifat stasioner maka dilakukan proses pembedaan (differencing). Hasil differencing tersebut menunjukkan bahwa setelah di-differencing data bersifat stasioner dan dapat digunakan untuk analisis ARIMA.
2. Pembentukan kromosom pada model AG menggunakan pemodelan ARIMA, karena untuk mendapatkan parameter model yang diambil dari koefisien-koefisien ARIMA. 3. MSE yang dihasilkan model ARIMA menunjukkan minimal error sebesar
0.000198722, hasil error tersebut menunjukkan model ARIMA mempunyai nilai error paling kecil dibandingkan model AG sebesar 28.2153.
4. Persentase akurasi prediksi atau MAPE menunjukkan bahwa model AG menghasilkan persentase cukup akurat sebesar 65.78%, hasil tersebut lebih besar dibandingkan model ARIMA sebesar 18,11%.
7. SARAN
Dari uraian keseluruhan dan kesimpulan yang telah dikemukakan dapat ditarik beberapa saran untuk pengembangan penelitian selanjutnya yaitu :
1. Untuk penelitian lebih lanjut diharapkan dapat dikembangkan sistem prediksi menggunakan pemodelan yang lain.
2. Untuk penelitian lebih lanjut diharapkan proses prediksi tidak sebatas menghasilkan waktu pencapaian dan error terkecil tetapi dapat dikembangkan terhadap data hasil prediksinya.
8. PUSTAKA
[1]. Genetic Algorithms and Engineering Optimization, John Wiley and Son, United States of America.
[4]. Makridakis, S., Syeven C. W., dan Victor E. McGEE. 1999. Metode dan Aplikasi
Peramalan, Terjemahan Hari Suminto. Jakarta:Binarupa Aksara.
[5]. Mulyono, S., 2000, Peramalan Harga Saham dan Nilai Tukar : Teknik
Box-Jenkins, Ekonomi dan Keuangan Indonesia, Vol. XLVIII No.2.
[6]. Permana, F.J., Lesmono, J.D. dan Chendra, E., 2009, Palm Oil Price Model Of
Indonesia Market, Proceedings of the 5)* Asian Mathematical Conference,
Malaysia.
[7]. Pressman, R.S., 1997, Software Engineering A pratitioner’s Approach, McGraw-Hill Book Co, Singapore.
[8]. Timma, K., 2004, Forecasting Using Neural Network And Genetic Algorithms, Indian Institute of Technology, Bombay.
[9]. Wang, C. dan Lim, C., 2005 , Using Time Series Models To Forecast Tourist
Flows, Proceding of the 2005 International Conference on Simulation and