PREDIKSI PARTIKULAT DEBU(2.5) BERDASARKAN KUALITAS UDARA MENGGUNAKAN
SUPPORT VECTOR MACHINE
SKRIPSI
MAHABATAN 141402062
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2018
SUPPORT VECTOR MACHINE
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
MAHABATAN 141402062
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2018
ii
PERNYATAAN
PREDIKSI PARTIKULAT DEBU (2.5) BERDASARKAN KUALITAS UDARA MENGGUNAKAN
SUPPORT VECTOR MACHINE
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juli 2018
Mahabatan 141402062
iv
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Dengan segala kerendahan hati penulis ucapkan terima kasih kepada:
1. Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
2. Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
3. Bapak Ivan Jaya, S.Si., M.Kom. selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
4. Ayahanda Raha Yusra S.E dan Ibunda Dardanella Arifa yang selalu memberikan doa, kasih sayang dan dukungan kepada penulis.
5. Kakak dan abang yang telah membantu dalam hal moral maupun materil.
6. Najmiyah Bey Nasution yang telah memberikan doa dan dukungan moral serta mendampingi penulis untuk menyelesaikan skripsi ini. Serta memberikan harapan yang besar kepada penulis.
7. Muhammad Isa Dadi Hasibuan, S.Kom, Ridho Fariha, S.Kom, Nabila Deanna, S.Kom, Muhammad Furqan, S.Kom, Leonardo Michael, S.Kom, Evi Sersanti Purba, S.Kom, dan Caroline, S.Kom yang telah membantu menyelesaikan skripsi ini.
8. Rifqi Muhammad yang telah menyediakan tempat untuk menyelesaikan skripsi.
9. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.
ABSTRAK
Kondisi udara dipengaruhi oleh banyaknya polusi yang terjadi di suatu daerah seperti materi partikel, ozon, nitrogen oksida, karbon dioksida, dan sulfur dioksida. Polutan- polutan tersebut memiliki nilai standar yang telah dikategorikan disebut dengan AQI (Air Quality Index). Pada tingkat konsentrasi tertentu zat-zat pencemar tersebut dapat berakibat langsung terhadap kesehatan manusia. Penyakit tersebut dapat berakibat mengurangi nilai produktivitas dari manusia tersebut. Oleh karena itu, dengan menggunakan sebuah sistem prediksi partikulat debu(2.5) maka dapat mengurangi penyakit yang berakibat dari kualitas udara yang buruk. Metode yang digunakan adalah metode Support Vector Machine. Penelitian ini menggunakan 4730 data training dan 15 data testing. Setelah dilakukan pengujian, maka dapat disimpulkan bahwa proses prediksi partikulat debu(2.5) berdasarkan kualitas udara memiliki tingkat akurasi 75,28%.
Kata Kunci: Kualitas Indeks Udara, Pencemaran Udara, Support Vector Machine.
vi
PREDICTION PARTICLE MATTER(2.5) BASED ON AIR QUALITY USES METHOD SUPPORT VECTOR MACHINE
ABSTRACT
Air condition is affected by the amount of pollution that occurs in an area such as particle matter,ozon, nitrogen oxide, carbon dioxide, and sulfur dioxide. These pollutans has a standard categorized value called the AQI (Air Qualitu Index). At a certain concentration level substances of polluters can directly affect human health. The disease can result in reducing the value of productivity of humans. Therefore, by using a prediction system of particle matter(2.5) then can reduce diseases that result from poor air quality. The method used is support vector machine. This research used 4730 training data and 15 testing data. After testing, then can be concluded that the prediction process of particle matter(2.5) based on air quality has an accuracy rate of 75,28%.
KeyWords: Air Quality Index, Air Pollution, Support Vector Machine.
DAFTAR ISI
Halaman
Persetujuan ii
Pernyataan iii
Ucapan Terima Kasih iv
Abstrak v
Abstract vi
Daftar Isi vii
Daftar Tabel ix
Daftar Gambar x
Bab 1 Pendahuluan
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 3
1.5 Manfaat Penelitian 3
1.6 Metodologi Penelitian 3
1.7 Sistematika Penulisan 4
Bab 2 Landasan Teori
2.1 Pencemaran Udara 6
2.2 Air Quality Index 8
2.3 Support Vector Machine 9
2.4 Support Vector Regression 11
2.5 Lagrange 14
viii
2.6 Kernel 15
2.7 Penelitian Terdahulu 16
Bab 3 Analisis dan Perancangan
3.1 Data yang Digunakan 20
3.2 Arsitektur Umum 21
3.3 Analisis Sistem 23
3.3.1 Pre-Processing 23
3.3.2 Penentuan Arsitektur Model 23
3.3.2.1 Penentuan Kernel 24
3.3.2.2 Penentuan Degree 24
3.3.2.1 Penentuan Gamma 24
3.3.2.1 Penentuan Regularisasi 24
3.3.3 Training 24
3.3.4 Testing 25
3.3.5 Keluaran Akhir 25
3.4 Perancangan Antarmuka Sistem 25
3.4.1 Perancangan Menu Sistem 25
3.4.2 Perancangan Antarmuka 26
Bab 4 Implementasi dan Pengujian
4.1 Implementasi Sistem 30
4.1.1 Spesifikasi Perangkat Keras dan Perangkat Lunak 30
4.1.2 Implementasi Perancangan Antarmuka 30
4.1.3 Implementasi Data 34
4.2 Prosedur Operasional 35
4.3 Hasil Pengujian 36
4.3.1 Hasil Training dan Testing 30
Bab 5 Kesimpulan dan Saran
5.1 Kesimpulan 40
5.2 Saran 40
Daftar Pustaka 41
DAFTAR TABEL
Halaman
Tabel 2.1 Matrisk Kernel Gauss 5x5 dengan 𝜎 = 1.0 14
Tabel 2.2 Model 4-konektivitas 16
Tabel 2.3 Model 8-konektivitas 16
Tabel 4.1 Rincian Data Yang Digunakan 34
Tabel 4.2 Hasil Pengujian Data Kernel Linear 36
Tabel 4.3 Hasil Pengujian Data Kernel RBF 37
Tabel 4.4 Hasil Pengujian Data Kernel Polynomial 38
Tabel 4.5 Tingkat Akurasi Sistem Menggunakan Kernel Linear 39
x
DAFTAR GAMBAR
Halaman
Gambar 2.1 Siklus Pencemaran Udara 7
Gambar 2.2 Support Vector Machine 12
Gambar 2.3 Grafik Pemetaan Fungsi Kernel 16
Gambar 3.1 Contoh Bentuk Dari Data Yang Digunakan 21
Gambar 3.2 Arsitektur Umum 22
Gambar 3.3 Sitemap Menu Aplikasi 26
Gambar 3.4 Rancangan Tampilan Awal Aplikasi 27
Gambar 3.5 Rancangan Tampilan Awal Aplikasi 27
Gambar 3.6 Rancangan Tampilan Visualisasi Model 28
Gambar 3.7 Rancangan Tampilan Hasil Prediksi 29
Gambar 4.1 Tampilan Awal Sistem 31
Gambar 4.2 Tampilan Utama Sistem 32
Gambar 4.3 Tampilan Input File Kualitas Udara 32
Gambar 4.4 Tampilan Visualisasi Model 33
Gambar 4.5 Tampilan Hasil Akurasi dan Prediksi 34
Gambar 4.6 Bentuk Tabel Dari Visualisasi Model 35
PENDAHULUAN
Bab ini membahas tentang latar belakang, rumusan masalah, batasan masalah, tujuan masalah, manfaat penelitian, metodologi penelitian, dan sistematika penulisan pada skripsi.
1.1. Latar Belakang
Udara merupakan komponen penting yang dibutuhkan manusia dalam proses transpirasi.
Pertumbuhan aktivitas ekonomi dan urbanisasi yang cukup tinggi baik diperkotaan dan subperkotaan berpotensi besar dalam peningkatan penggunaan konsumsi energi, seperti pada kebutuhan bahan bakar guna pembangkit tenaga listrik, pusat – pusat industri dan transportasi. Hal ini dapat mengakibatkan perubahan komponen udara yang berpengaruh pada perubahan kualitas udara dan berakibat pada pencemaran. Penurunan kualitas udara ini dapat mengganggu kesehatan masyarakat di sekitarnya.
Beberapa tahun belakangan ini, orang semakin peduli dengan kualitas udara karena masalah kesehatan yang disebabkan oleh polusi udara yang parah. Kualitas udara telah menarik banyak perhatian dalam beberapa tahun terakhir karena sangat mempengaruhi kesehatan masyarakat. Indeks Standar Pencemaran Udara (ISPU) adalah standar pengukuran terhadap kualitas udara, apakah konsentrasinya lebih tinggi atau lebih rendah dari ISPU. Parameter yang telah ditetapkan oleh ISPU yang menjadi pencemaran udara ada 5, yaitu Karbon Monoksida (CO), Sulfur Dioksda (SO2), Nitrogen Dioksida (NO2), Ozon (O3), Tingkat Partikulat (PM10).
Air Quality Index (AQI) merupakan index untuk menggambarkan kuantitas dari status kualitas udara. Kualitas udara keseluruhan diukur dengan jarak antara 0 hingga 500. AQI
2
dibagi menjadi 6 level, yaitu baik (level1), cukup baik (level2), tidak sehat (level3), sangat tidak sehat (level 5), dan Berbahaya (level 6). Nilai AQI yang semakin tinggi megindikasikan polusi yang semakin parah dan dampak yang berbahaya pada kesehatan manusia.
Pada tingkat konsentrasi tertentu zat – zat pencemar udara dapat berakibat langsung terhadap kesehatan manusia, baik secara mendadak, menahun atau kronis/sub-klinis dan dengan gejala – gejala yang samar. Dimulai dari iritasi saluran pernafasan, iritasi mata, dan alergi kulit sampai pada timbulnya kanker paru – paru. Dapat juga menyebabkan cacat lahir, keterlambatan perkembangan serius pada anak – anak, dan penurunan aktivitas sistem kekebalan tubuh, serta menyebabkan sejumlah penyakit lainnya. Gangguan kesehatan yang disebabkan oleh pencemaran udara dengan sendirinya mempengaruhi daya kerja seseorang, yang berakibat turunnya nilai produktivitas serta mengakibatkan kerugian ekonomis pada jangka panjang dan timbulnya permasalahan sosial, ekonomi, keluarga, dan masyarakat.
Beberapa penelitian terhadap kualitas udara sudah pernah dilakukan dengan metode yang dikembangkan, seperti Junshan Wang et al (2017) A Deep Spatial-Temporal Ensemble Model for Air Quality Prediction, menggunakan metode Spatial-Temporal Ensemble (STE). Penelitian tersebut memperoleh tingkat akurasi 60%. Kemudian Reza Taqyuddin (2017), mengklasifikasi kualitas udara dengan metode Naïve Bayes dengan tingkat akurasi 98%.
Partikulat debu(2.5) adalah partikel kecil di udara yang mengurangi jarak penglihatan dan menyebabkan udara tampak kabur ketika konsentrasinya meningkat. Partikel udara udara ini berukuran lebih kecil dari 2,5 milimeter(mikron). Oleh karena itu partikel ini disebut partikulat debu(2.5).
Salah satu cara untuk menghindari kualitas udara yang buruk yang dapat berakibat langsung terhadap kesehatan manusia dengan memprediksi kualitas udara yang akan datang. Machine learning adalah salah satu metode yang cocok digunakan untuk melakukan prediksi. Salah satu dari algoritma machine learning yaitu Support Vector Machine (SVM). Pendekatan SVM merupakan teknik yang relatif baru untuk memecahkan masalah klasifikasi dan regresi. Seperti yang telah dibuktikan oleh Ravindra et al, menunjukkan bahwa SVM mampu mencapai angka 95% untuk akurasi dalam melakukan klasifikasi terhadap data non-linear.
1.2. Rumusan Masalah
Kualitas udara yang buruk dapat menimbulkan berbagai penyakit pada manusia dan berakibat mengurangi nilai produktivitas dari manusia tersebut. Oleh karena itu, diperlukan sebuah metode sistem prediksi kualitas udara dengan parameter partikulat debu(2.5).
1.3. Batasan Masalah
Batasan masalah dalam penelitian ini adalah :
1. Digunakan hanya untuk melihat seberapa besar akurasi yang akan didapat.
2. Parameter yang digunakan untuk mendapatkan hasil prediksi adalah partikulat debu(10), ozon(O3), nitrogen dioksida(NO2), sulfur dioksida(SO2), karbon monoksida(CO), suhu udara, titik embun, tekanan udara, kelembaban, dan kecepatan angin.
1.4. Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk memprediksi partikulat debu(2.5) berdasarkan kualitas udara menggunakan Support Vector Machine.
1.5. Manfaat Penelitian
1. Membantu memprediksi partikulat debu(2.5) berdasarkan kualitas udara melalui sistem yang akan dibangun
2. Diharapkan dapat memberikan hasil prediksi yang lebih akurat.
3. Sebagai bahan pembelajaran kepada penulis.
1.6. Metode Penelitian
Tahapan yang akan dilakukan pada penelitian ini adalah sebagai berikut :
4
1. Studi Literatur
Pada tahap ini digunakan untuk mempelajari dan memahami penggunaan metode Support Vector Machine (SVM) dengan bantuan buku, skripsi, jurnal, dan sumber lain yang terkait.
2. Analisis Permasalahan
Pada tahap ini, dilakukan analisis masalah berdasarkan data yang telah dikumpulkan. Hal ini bertujuan untuk mendapatkan cara terbaik untuk mengatasi masalah pada penelitian ini dan mengetahui parameter – parameter yang dibutuhkan untuk rekomendasi yang baik.
3. Perancangan
Pada tahap ini, dilakukan perancangan untuk mendapatkan gambaran umum (general architecture) berdasarkan tahapan analisis yang kemudian hasil analisis dan percancangan diimplemetasikan ke dalam sistem.
4. Pembangunan Program
Pada tahap ini, dilakukan pembangunan program untuk memprediksi nilai partikulat debu(2.5) berdasarkan general arcitecture yang telah dibuat.
5. Uji Coba
Dalam tahap ini, dilakukan uji coba terhadap sistem yang telah dibangun. Hal ini dilakukan untuk mengetahui apakah sistem sudah bekerja sesuai dengan fungsi yang diharapkan.
6. Dokumentasi dan Penyusunan Laporan
Dalam tahap ini, dilakukan dokumentasi dan penyusunan laporan akhir dari penelitian yang telah dilakukan mengenai penerapan SVM untuk memprediksi nilai partikulat debu(2.5).
1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri dari lima bagian utama sebagai berikut:
Bab 1: Pendahuluan
Bab ini berisi tentang latar belakang dari penelitian yang dilaksanakan, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan.
Bab 2: Landasan Teori
Bab ini berisi tentang teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan pencemaran udara, indeks kualitas udara, dan support vector machine.
Bab 3: Analisis dan Perancangan
Bab ini membahas tentang implementasi metode support vector machine dalam melakukan prediksi partikulat debu(2.5). Bab ini juga membahas tentang data yang digunakan, pre-processing, analisis sistem, dan perancangan antarmuka.
Bab 4: Implementasi dan Pengujian
Bab ini membahas hasil yang didapatkan dari implementasi metode support vector machine untuk melakukan prediksi partikulat debu(2.5) berdasarkan kualitas udara dan pengujian sistem sesuai dengan analisis dan perancangan yang telah dibahas pada Bab 3.
Bab 5: Kesimpulan dan Saran
Bab ini berisi tentang ringkasan dan kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4. Bagian akhir pada bab ini memuat saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.
BAB 2
LANDASAN TEORI
Bab ini berisi tentang teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan pencemaran udara, indeks kualitas udara, dan support vector machine.
2.1. Pencemaran Udara
Pencemaran udara diartikan sebagai adanya bahan-bahan atau zat-zat asing di dalam udara yang menyebabkan perubahan susunan (komposisi) udara dari keadaan normalnya.
Pencemaran udara berdasarkan Undang-Undang Nomor 23 tahun 1997 pasal 1 ayat 12 yaitu pencemaran yang disebabkan oleh aktivitas manusia seperti pencemaran yang berasal dari pabrik, kendaraan bermotor, pembakaran sampah, sisa pertanian, dan peristiwa alam seperti kebakaran hutan, letusan gunung berapi yang mengeluarkan debu, gas, dan awan panas. Sedangkan menurut PP No. 41 Tahun 1999, pencemaran udara adalah masuknya atau dimasukkannya zat, energi, dan/atau komponen lain ke dalam suatu udara ambien oleh kegiatan manusia, sehingga mutu udara ambien turun sampai ke tingkat tertentu yang menyebabkan udara ambien tidak dapat memenuhi fungsinya.
Bahan pencemar di udara dapat berbentuk partikulat dan gas. Dalam bentuk gas dapat dibedakan menjadi : (1) golongan Belerang(Sulfur Dioksida, Hidrogen Sulfida); (2) golongan Nitrogen (Nitrogen Oksida, Nitrogen Monoksida, Amoniak, Nitrogen Dioksida);
(3) golongan Karbon (Karbon Dioksida, Karbon Monoksida, dan Hidrokarbon); (4) golongan gas berbahaya (Benzene, Vinil Klorida, uap air raksa) (Nugrahani, 2012). Sumber polusi utama berasal dari transportasi yang menghasilkan hampir 60% dari polutan karbon monoksida dan sektiar 15% terdiri dari hidrokarbon. Siklus pencemaran dan sumber polusi
lainnya seperti pembakaran, hasil proses industri, pembuangan limbah dan lain-lain dapat dilihat pada Gambar 2.1.
Gambar 2.1. Siklus Pencemaran Udara (http://scienceunraveled.com)
Dengan adanya faktor meteorologi, beberapa polutan akan mengalami berbagai reaksi fisika dan kimia. Faktor meteorolgi tersebut antara lain seperti sinar matahari, kelembaban, dan temeperatur. Angin juga berpengaruh dalam pencemaran, dorongan angin akan menyebabkan polutan terdispersi (tersebar) mengikuti arah angin tersebut. Sebagian polutan dalam perjalanannya dapat terdeposisi (deposited) atau mengendap ke permukaan tanah, air, bangunan, dan tanaman. Sebagian lainnya akan tetap tersuspensi (suspended) di udara. Seluruh kejadian tersebut akan mempengaruhi konsentrasi polutan-polutan di udara ambien atau dengan kata lain, mengubah kualitas udara ambien (Kemenlh, 2007).
Adapun parameter bahan pencemar yang perlu diperhatikan dalam hubuungannya dengan penyakita saluran pernapasan pada manusia adalah gas SO2, gas CO, gas NO2, dan partikel debu (Holzworth & Cormick, 1976). Sumber bahan pencemar udara menentukan jenis bahan pencemarnya. Hal ini dapat dilihat pada Tabel 2.1.
8
Tabel 2.1. Bahan Yang Menghasilkan Pencemeran Udara
Keterangan :
+ = menghasilkan - = tidak menghasilkan
2.2. Air Quality Index
Indeks Kualitas Udara (AQI) adalah nilai yang digunakan oleh instansi pemerintah untuk memberitahukan kepada masyarakat tentang kondisi udara atau bagaimana prediksi pencemaran yang akan terjadi. Perhitungan AQI membutuhkan nilai konsentrasi polutan pada rata rata periode tertentu yang didapatkan dari hasil monitoring udara. Polutan udara memiliki potensi yang berbeda beda dan rumus yang digunakan untuk mengubah konsentrasi polutan ke nilai AQI berbeda di setiap polutannya. Setiap rentang nilai aqi digambarkan dengan warna warna tertentu sesuai dengan ketetapan (Liao, 2014).
Level pencemaran menurut AQI dibagi menjadi enam kategori yang menunjukkan peningkatan bahaya dan dampaknya bagi kesehatan. AQI didasarkan pada lima kriteria polutan yang diatur dalam Clean Air Act yaitu : tingkat ozon permukaan (O3), partikel debu (PM2.5 dan PM10), karbon monoksida (CO), sulfur dioksida (SO), dan ntrogen dioksida (NO). Nilai yang melebihi dari angka 300 dikategorikan sebagai kualitas udara berbahaya
dan dibawah 50 dikategorikan sebagai kulitas udara yang baik. Dapat dilihat pada Tabel 2.2.
Tabel 2.2 Level Pencemaran Menurut AQI
Rumus yang digunakan untuk mendapatkan nilai AQI adalah sebagai berikut : 𝐼 = 𝐼ℎ𝑖𝑔ℎ− 𝐼𝑙𝑜𝑤
𝐶ℎ𝑖𝑔ℎ− 𝐶𝑙𝑜𝑤 (𝐶 − 𝐶𝑙𝑜𝑤) + 𝐼𝑙𝑜𝑤 dimana
𝐼 = 𝐼𝑛𝑑𝑒𝑥 𝐾𝑢𝑎𝑙𝑖𝑡𝑎𝑠 U , 𝐶 = Konsentrasi Polutan, 𝐶𝑙𝑜𝑤 = 𝑏𝑎𝑡𝑎𝑠 𝑘𝑜𝑛𝑠𝑒𝑛𝑡𝑟𝑎𝑠𝑖≤𝐶, 𝐶ℎ𝑖𝑔ℎ = 𝑏𝑎𝑡𝑎𝑠 𝑘𝑜𝑛𝑠𝑒𝑛𝑡𝑟𝑎𝑠𝑖≥𝐶,
𝐼𝑙𝑜𝑤 = 𝑏𝑎𝑡𝑎𝑠 𝑖𝑛𝑑𝑒𝑥 𝑏𝑒𝑟𝑑𝑎𝑠𝑎𝑟𝑘𝑎𝑛 𝐶𝑙𝑜𝑤, 𝐼ℎ𝑖𝑔ℎ = 𝑏𝑎𝑡𝑎𝑠 𝑖𝑛𝑑𝑒𝑥 𝑏𝑒𝑟𝑑𝑎𝑠𝑎𝑟𝑘𝑎𝑛 𝐶ℎ𝑖𝑔ℎ,
Nilai AQI Level Kesehatan Warna
0 - 50 Good Hijau
51 – 100 Moderate Kuning
101 – 150 Unhealthy for sensitive groups Orange
151 – 200 Unhealthy Merah
201 – 300 Very Unhealthy Ungu
301 – 500 Hazardous Maroon
(2.1)
10
2.3. Support Vector Machine
Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, dan Vapnik, pertama kali diperkenalkan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar metode SVM sebenarnya merupakan gabungan atau kombinasi dari teori-teori komputasi yang telah ada pada tahun sebelumnya, seperti marginhyperplane, kernel diperkenalkan oleh Aronszajn tahun 1950, Lagrange Multiplier yang ditemukan oleh Joseph Louis Lagrange pada tahun 1766, dan demikian juga dengan konsep-konsep pendukung lain.
SVM merupakan suatu teknik untuk melakukan prediksi, baik prediksi dalam kasus regresi maupun klasifikasi. Teknik SVM digunakan untuk mendapatkan fungsi pemisah (hyperplane) yang optimal untuk memisahkan observasi yang memiliki nilai variabel target yang berbeda. Hyperplane ini dapat berupa line pada two dimension dan dapat berupa flat plane pada multiple dimension.
Karakteristik SVM secara umum dirangkum sebagai berikut : 1. Secara prinsip SVM adalah linear classifier.
2. Pattern recognition dilakukan dengan mentransformasikan data pada ruang input (input space) ke ruang yang berdimensi lebih tinggi (feature space), dan optimisasi dilakukan pada ruang vector yang baru tersebut. Hal ini membedakan SVM dari solusi pattern recognition pada umumnya, yang melakukan optimisasi parameter pada hasil transformasi yang berdimensi lebih rendah daripada dimensi input space.
3. Menerapkan strategi Structural Risk Minimization (SRM).
4. Prinsip kerja SVM pada dasarnya hanya mampu menangani klasifikasi dua kelas, namun telah dikembangkan untuk klasifikasi lebih dari dua kelas dengan adanya pattern recognition.
Metode Support Vector Machine memiliki beberapa keuntungan yaitu : 1. Generalisasi
Generalisasi didefinisikan sebagai kemampuan suatu metode untuk mengklasifikasi suatu pattern atau pola, yang tidak termasuk data yang dgunakan dalam fase pembelajaran metode itu
2. Curse of dimensionality
Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognition dalam mengestimasikan parameter dikarenakan jumlah sampel data yang relatif lebih sedikit dibandingkan dengan dimensional ruang vektor tersebut.
3. Fesibility
SVM dapat diimplementasikan relatif lebih mudah, karena proses penentuan support vector dapat dirumuskan dalam Quadratic Programing (QP) problem.
Adapun kerugian dari metode Support Vector Machine adalah sebagai berikut : 1. Sulit dipakai pada problem berskala besar. Dalam hal ini dimaksudkan dengan
jumlah sampel yang diolah.
2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua kelas. Namun dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan lebih dari dua kelas
2.4. Support Vector Regression
SVR merupakan penerapan SVM yang digunakan untuk kasus regresi, yang outputnya berupa bilangan riil atau kontinue. SVR merupakan metode yang dapat mengatasi overfitting, sehingga akan menghasilkan perfomansi yang bagus (Smola dan Scholkopf, 2004). Overfitting merupakan kondisi dimana suatu model tidak menggambarkan hubungan utama anatara variabel input dan output melainkan menggambarkan random error atau noise, kondisi ini akan mengakibatkan hasil prediksi yang buruk.
Misalnya ada λset data training, (xj , y j ) dimana j=1,2,..,λ dengan input x = {x1,x2,x3}...⊆ Rn dan output yang bersangkutan y ={y1,..,y }λ ⊆ R . Dengan SVR, akan ditemukan suatu fungsi f x( ) yang mempunyai deviasi paling besar ε dari target aktual yi
untuk semua data training. maka dengan SVR, manakala ε sama dengan 0 akan didapatkan regresi yang sempurna.
12
Gambar 2.2. Support Vector Machine
Ilustrasi fungsi hyperplane seperti pada Gambar 2.2. Misal terdapat fungsi berikut sebagai garis regresi.
𝑓(𝑥) = 𝑤𝑇𝜑(𝑥) + 𝑏
Dimana φ(x) menunjukkan suatu titik didalam feature space F hasil pemetaan x di dalam input space. Koefisien w dan b diestimasi dengan cara meminimalkan fungsi resiko (risk function) yang didefinisikan dalam persamaan
min1
2||𝑤||2+ 𝐶1
𝜆∑ 𝐿𝜖(𝑌𝑖, 𝑓(𝑥𝑖))
𝜆
𝑖=1
Subject to yi − wφ(xi )−b ≤ε wφ(xi )− +yi b ≤ε i =1,2,...,λ Dimana
(2.2)
(2.3)
Faktor || w||2 adalah reguralisasi. Agar kapasitas fungsi dapat dikontrol maka fungsi harus dibuat setipis mungkin dengan cara meminimalkan || w||2 .Faktor kedua dalam fungsi tujuan adalah kesalahan empirik (empirical error) yang diukur dengan ε-insensitive lossfunction.
Dengan menggunakan ide ε-insensitive lossfunction norm dari w harus diminimalkan agar mendapatkan generalisasi yang baik untuk fungsi regresi f. Karena itu diperlukannya menyelesaikan problem estimasi berikut:
𝑚𝑖𝑛1 2‖𝑤‖2 Subject to
Asumsikan bahwa ada suatu fungsi f yang dapat mengaproksimasi semua titik (xi,yi) dengan presisi ε. Diasumsikan bahwa semua titik ada dalam rentang f ± ε atau disebut feasible. Sedangkan infeasible merupakan kondisi dimana ada beberapa titik yang keluar dari rentang f ± ε, titik yang infeasible ini bisa ditambahkan variabel slack ξξ,* untuk mengatasi masalah pembatas yang tidak layak (infeasible constrain) dalam masalah optimasi. Selanjutnya masalah optimasi diatas bisa diformulasikan sebagai berikut :
min1
2||𝑤||2+ 𝐶1
𝜆∑ 𝐿𝜖(ξ𝑖,ξ𝑖 ∗)
𝜆
𝑖=1
Subject to
Kostanta C menentukan tawar menawar (trade of) antara ketipisan fungsi f dan batas atas deviasi lebih dari εyang masih ditoleransi. Semua deviasi lebih besar daripada ε akan dikenakan penalti sebesar C. Dalam SVR, ε ekuivalen dengan akurasi dari aproksimasi
(2.4)
(2.5)
14
terhadap data training. nilai ε yang kecil akan dikaitkan dengan nilai yang tinggi pada variabel slack ξi(*)dan akurasi aproksimasi yang tinggi. Sebaliknya, nilai yang tinggi untuk εberkaitan dengan nilai ξi(*)yang kecil dan aproksimasi yang rendah. Menurut persamaan 2.5 nilai yang tinggi untuk variabel slack akan membuat kesalahan empirik mempunyai pengaruh yang besar terhadap faktor regulasi. Dalam SVR, support vector adalah data training yang terletak pada dan diluar batas f dari fungsi keputusan, karena itu jumlah support vector menurun dengan naiknya ε.
Dalam formulasi dual, problem SVR adalah sebagai berikut :
Subject to
Dimana C didefinisikan oleh user, K(x x1, j ) adalah dot-product kernel yang didefinikan sebagai K(x x1, j ) =φ φT (xi ) (xj ) . Dengan menggunakan lagrange multiplier dan kondisi optimalitas, fungsi regresi secara eksplisit dirumuskan sebagai berikut :
2.5. Lagrange
Lagrange merupakan suatu metode matematika untuk memecahkan masalah optimasi dengan adanya constrains atau batasan. Misal apabila ada fungsi f x( 1,...,xn ): Rn → R untuk dicari nilai minimum atau maksimumnya dengan constrain g x( 1,...,xn ) = 0 . Inti dari persamaan Lagrange Multiplier ini adalah
𝛻𝑓(𝑥) = 𝜆𝛻𝑔(𝑥)
Dimana gradian dari f sama denganλ( Lagrange Multiplier) dikali dengan gradian dari g.
Dan bentuk dari persamaan constrains
𝑔(𝑥) = 0
(2.6)
(2.7)
(2.8) )
(2.9)
Dalam konteks SVM, kedua persamaan diatas digabung menjadi satu persamaan yang biasa disebut Lagrangian :
𝐿(𝑥, 𝜆) = 𝑓(𝑥) − 𝜆𝑔(𝑥) 𝐿(𝑥, 𝜆) = 0
Berdasarkan teori dari Support Vector Machine, diketahui bahwa persamaan yang harus di optimasi adalah
𝑓(𝑤̅) =1 2‖𝑤̅‖2
𝑔𝑖(𝑤̅, 𝑏) = 𝑦𝑖[〈𝑤̅, 𝑥̅ 〉 + 𝑏] − 1 ≥ 0𝑖 Dan 𝑔𝑖(𝑤̅, 𝑏) dapat dipecah menjadi
𝑔1(𝑤̅, 𝑏) = [〈𝑤̅, 𝑥̅̅̅〉 + 𝑏] − 1 ≥ 01 𝑔2(𝑤̅, 𝑏) = −[〈𝑤̅, 𝑥̅̅̅〉 + 𝑏] − 1 ≥ 02 Kemudian masukkan persamaan ke dalam Lagrangian
Untuk gradian pada Lagrangian
Digunakan
Dengan keempat persamaan turunan pada Lagrangian di atas dapat ditemukan vector weight 𝑤̅, bias b, dan nilai dari Lagrangian Multiplier(𝜆)
(2.10)
(2.11)
(2.12)
(2.13)
(2.14)
(2.15)
16
2.6. Kernel
Fungsi kernel adalah suatu fungsi k yang mana untuk semua vektor input x,z akan memenuhi kondisi
𝑘(𝑥, 𝑧) = 𝜑(𝑥)𝑇𝜑(𝑧)
Dimana φ(.)adalah pemetaan dari input space ke feature space. Dengan kata lain fungsi kernel adalah fungsi inner product pada feature space.
Misal 𝑘(𝑥, 𝑧) = (𝑥𝑇, 𝑧)2adalah fungsi kernel untuk 𝑥, 𝑧 𝜖 𝑅2dan 𝑥 = (𝑥1, 𝑥2) dan 𝑧 = (𝑧1, 𝑧2). Maka
Sehingga 𝑘(𝑥, 𝑧) = (𝑥𝑇, 𝑧)2 adalah suatu fungsi kernel dengan pemetaan 𝜑(𝑥) = (𝑥12, √2𝑥1𝑥2, 𝑥22), yaitu suatu fungsi pemetaan dari 𝑅2 ke 𝑅3 seperti pada Gambar 2.3
Gambar 2.3. Grafik Pemetaan Fungsi Kernel
(2.16)
(2.17)
Fungsi kernel dapat menghitung inner product pada feature spase secara langsung dari ruang input tanpa secara eksplisit menghitung koordinat proyeksi masing-masing vektor input pada feature space.
Inner product adalah operasi yang sangat penting karena sangat erat kaitannya dengan persoalan geometri dari data pada ruang fitur, misal untuk menghitung jarak :
‖𝜑(𝑥) − 𝜑(𝑧)‖2 = 𝜑(𝑥)𝑇 𝜑(𝑥) + 𝜑(𝑧)𝑇 𝜑(𝑥) − 2𝜑(𝑥)𝑇 𝜑(𝑥)
= 𝑘(𝑥, 𝑥) + 𝑘(𝑧, 𝑧) − 2𝑘(𝑥, 𝑧) Ada 3 jenis fungsi kernel
1. Linear
𝑘(𝑥𝑖, 𝑥𝑗) = 𝑥𝑖𝑇 𝑥𝑗 2. Polynomial
𝑘(𝑥𝑖, 𝑥𝑗) = (𝛾𝑥𝑖𝑇 𝑥𝑗+ 𝑟)𝑑dimana 𝛾 > 0 3. Radial Basis Function
𝑘(𝑥𝑖, 𝑥𝑗) = 𝑒𝑥𝑝(−𝛾 ‖𝑥𝑖 − 𝑥𝑗‖)2
Tujuan dari penggunaan kernel ini ialah untuk mengimplementasikan suatu model pada ruang dimensi yang lebih tinggi (feature space) tanpa harus mendefinisikan fungsi pemetaan dari ruang input ke feature space, sehingga untuk kasus yang non lineary separable pada ruang input diharapkan menjadi lineary separable pada feature space.
Selanjutnya dapat digunakan hyperplane sebagai decision boundary secara efisien.
2.7. Penelitian Terdahulu
Penelitian ini menerapkan metode semantic extract-transform-load untuk menganalisa dan memprediksi kualitas udara yang menghasilkan akurasi 81.5%.(Yue Shan Chang et al, 2018)
Penelitian ini berfokus pada klasifikasi mengenai kualitas udara dengan menggunakan metode Naïve Bayes Classifier. Dengan melakukan web scraping untuk mengambil data dari sebuah website yang meyediakan data kualitas udara. Akurasi yang
(2.18)
18
didapatkan dengan menggunakan metode Naïve Bayes Classifier adalah 98%.(Reza Taqyuddin, 2017)
Penelitian ini mencoba untuk mengurangi data sample untuk melakukan tes kecepatan dana ketepatan melakukan klasifikasi. Hasil akurasi yang didapat adalah 95%
Penelitian ini membandingkan metode GRN, RNN, dan LSTM untuk melakukan prediksi terhadap partikulat debu(10). Hasil yang didapat adalah bahwa GRN lebih baik dibandingkan RNN dan LSTM untuk melakukan prediksi terhadap partikulat debu(10).
Penelitian ini mencoba untuk mencoba untuk memprediksi partikulat debu(2.5) menggunakan metode A Deep Spatial Temporal Ensemble Model. Akurasi yang didapat adalah 60%.
Adapun ringkasan dari penelitian terdahulu dapat dilihat pada Tabel 2.3.
Tabel 2.3. Penelitian Terdahulu
No Peneliti Judul Penelitian Tahun Keterangan
1 Yue Shan Chang et al
Big Data Platform for Air Quality Analysis and Prediction
2018 diperoleh akurasi 81,5%
dengan mengguanakan semantic ETL
2 Reza Taqyuddin Klasifikasi Kualitas Udara Menggunakan Naïve Bayes Classifier
Pada Sistem
Terdistribusi
Raspberry Pi Cluster Server
2017 Hasil pengelolaan data yang telah didapatkan
melalui model
sebelumnya dapat memberikan hasil klasifikasi mengenai kualitas udara secara harian dengan akurasi 98% dan dengan sumber daya minimal pada perangkat Raspberry Pi.
3 Ravindra Koggalage dan
Reducing the Number of Training Samples
2004 Dengan mengurangi data training sampai 32% hasil
Saman Halgamuge
for Fast Support Vector Machine Classification
klasifikasi hanya menurun 2% dari 97% ke 95%.
4 Athira Va, Geetha Pb, Vinayakumar Rab, Soman K P*
Deep Air Net: Applying Recurrent Networks for Air Quality Prediction
2018 Diperoleh hasil yang lebih tinggi untuk memprediksi
PM10 dengan
menngunakan Gated Recurrent Network dibandingkan dengan LSTM dan RNN
5 Junshan Wang, Guojie Song
A Deep Spatial- Temporal Ensemble Model For Air Quality Prediction
2018 Akurasi yang didapat mendekati 60% untuk mendapatkan prediksi PM2.5
BAB 3
ANALISIS DAN PERANCANGAN
Bab ini membahas tentang implementasi metode support vector machine dalam melakukan prediksi partikulat debu(2.5). Bab ini juga membahas tentang data yang digunakan, pre- processing, analisis sistem, dan perancangan antarmuka.
3.1. Data yang Digunakan
Data yang digunakan merupakan data dari penelitian Reza Taqyuddin (2017). Data tersebut merupakan data index kualitas udara. Data tersebut bersumber dari website aqicn.org.
Website ini merupakan sebuah website monitoring kualitas udara yang memberikan gambaran bagaimana kualitas udara dengan menampilkan nilai-nilai konsentrasi polutan dari beberapa daerah yang ikut serta mengumpulkan data secara crowdsourcing.
Pada sistem yang akan dibangun, data yang akan digunakan merupakan data kota Beijing. Penggunaan data kota ini dikarenakan seluruh paramater yang dibutuhkan untuk melakukan prediksi tersedia lengkap dan memiliki nilai yang beragam. Data juga kota ini memiliki tingkat polutan yang tinggi diantara kota yang lainnya.
File dari data yang digunakan memiliki format comma seperated column (CSV).
Data dipisah menggunakan tanda titik koma (;). Contoh dari bentuk data yang digunakan dapat dilihat pada Gambar 3.1
Gambar 3.1. Contoh bentuk dari data yang digunakan
Parameter yang akan diambil berdasarkan Gambar 3.1. adalah : 1. Karbon Monoksida (CO)
2. Ozon Permukaan (O3) 3. Partikel Debu 10nm(PM10) 4. Nitrogen Dioksida(NO2) 5. Sulfur Dioksida(SO2) 6. Temperatur
7. Titik Embun 8. Tekanan Udara 9. Kelembaban, dan 10. Kecepatan Angin
3.2. Arsitektur Umum
Prediksi partikulat debu(2.5) pada penelitian ini terdiri dari beberapa langkah yang diawali dengan melakukan pengumpulan data kualitas udara yang akan digunakan sebagai data training dan data testing. Dilanjutkan dengan melakukan proses pembelajaran. Proses pembelajaran ini dilakukan berulang kali dengan melakukan tuning parameter pada support vector machine sehingga mendapatkan model yang terbaik. Model dari proses pembelajaran nantinya akan digunakan untuk proses prediksi.
22
Setelah langkah-langkah tersebut dilakukan makan akan didapat hasil dari prediksi partikulat debu(2.5) berdasarkan kualitas udara. Setiap tahap yang dilakukan akan dijelaskan secara terperinci pada bagian-bagian selanjutnya. Adapun arsitektur umum yang menggambarkan metode pada penelitian ini ditunjukkan pada Gambar 3.2.
Gambar 3.2. Arsitektur Umum
3.3. Analisis Sistem
Proses prediksi partikulat debu(2.5) berdasarkan data yang diperoleh dari Reza Taqyuddin (2017), dilakukan melalui beberapa langkah. Secara garis besar langkah-langkah tersebut yaitu preprocessing, training, dan testing. Data yang akan digunakan nantinya akan diolah terlebih dahulu sebelum digunakan. Sebelum masuk ke proses testing, terlebih dahulu dilakukan pembentukan model. Setelah model terbentuk, dilanjutkan dengan proses testing.
Setelah proses tersebut selesai, maka akan ditampilkan grafik yang memperlihatkan perbandingan antara akurasi dan real data dari hasil testing. Pada tahap pengaplikasian hasil prediksi akan ditampilkan dalam bentuk tabel. Tahapan tersebut dapat dilihat pada Gambar 3.2.
3.3.1 Pre-Processing
Tahap pre-processing merupakan tahap yang pertama kali dilakukan. Pada tahap ini dilakukan beberapa proses. Tahap ini bertujuan untuk mengolah data sehingga dapat digunakan untuk tahap selanjutnya.
Dikarenakan data yang digunakan sudah dilakukan cleaning sebelumnya maka proses pertama adalah memecah data menjadi dua untuk dijadikan data training dan data testing. Perbandingan pembagian data adalah 90:10, dimana 90% akan digunakan menjadi data training dan 10% akan digunakan menjadi data testing. Kemudian tiap data akan dipecah lagi menjadi dua bagian. Pembagian ini untuk menentukan indeks mana yang akan menjadi feature dan indeks mana yang akan menjadi label. Untuk data input akan menggunakan 10 parameter, yaitu partikulat debu(10), ozon(O3), nitrogen dioksida(NO2), Sulfur Dioksida(SO2), karbon monoksida(CO), temperatur, titik embun, tekanan udara, kelembaban, Kecepatan Angin.
3.3.2 Penentuan Arsitektur Model
Pada tahap ini dilakukan pembuatan model SVM. Diantaranya menentukan kernel, degree, gamma, dan regularisasi.
24
3.3.2.1 Penentuan Kernel
Pada SVM kernel terbagi menjadi dua bagian, yaitu linear kernel dan non-linear kernel.
Untuk menentukan kernel yang tepat maka harus menyesuaikan dengan data yang akan dipakai. Untuk menentukan kernel mana yang terbaik dilakukan trial and error dalam pencobaan kernel. Dalam penelitian ini kernel terbaik yang dapat digunakan adalah kernel linear.
3.3.2.2 Penentuan Degree
Degree hanya digunakan pada kernel non-linear. Dikarenakan pada penelitian ini menggunakan linear kernel maka degree akan di set menjadi default, yaitu bernilai 3.
3.3.2.3 Penentuan Gamma
Untuk mendefenisikan seberapa jauh pengaruh dari satu contoh pelatihan. Gamma yang digunakan pada penelitian kali ini adalah 1/n, dimana n adalah banyaknya feature dari data.
3.3.2.4 Penentuan Regularisasi
Regularisasi berguna untuk menentukan seberapa mulus surface decision yang akan digunakan. Semakin rendah nilai regularisasi maka akan semakin mulus surface decision.
Pada penelitian ini nilai dari regularisasi yang digunakan adalah 1.
3.3.3 Training
Training merupakan tahap dimana SVM akan diimplementasikan. Pada tahap ini dilakukan pelatihan terhadap model yang sudah dibuat pada tahap sebelumnya. Data training yang sudah ditentukan sebagai indeks feature dan indeks label akan digunakan pada tahap ini .
Pertama, setiap data input(feature) akan dimasukkan kedalam fungsi dimana kernel yang telah di set akan menentukan bobot dari masing-masing label. Kemudian label
yang telah diberi bobot akan dikelompokkan sesuai dengan bobot yang telah diberikan.
Setelah tahap ini selesai maka akan dihasilkan model baru untuk dilakukan terhadap data testing.
3.3.4 Testing
Pada tahap testing, model yang telah mengalami tahap pembelajaran akan digunakan untuk melihat performa akhir dari model. Data testing yang sudah ditentukan indeks feature nya digunakan pada tahap ini.
3.3.5 Keluaran Akhir
Keluaran akhir dari keseluruhan tahap adalah grafik yang berisi infromasi akurasi dan perbandingan antara hasil prediksi dengan real data. Dimana grafik akan disimpan dalam format .png beserta dengan tabel yang bersisi nilai dari hasil prediksi dari hari ke 1 sampai hari ke – n.
3.4. Perancangan Antarmuka Sistem
Pada tahap ini akan diuraikan mengenai perancangan menu sistem dan perancangan antarmuka. Tampilan antarmuka sistem yang digunakan pada penelitian ini berbasis web.
3.4.1 Perancangan Menu Sistem
Pada bagian ini akan menampilkan perancangan menu sistem dimulai dari halaman awal kemudian diteruskan ke halaman utama. Dari halaman utama akan dilanjutkan ke proses prediksi data yang telah di input kan, kemudian data tersebut akan di visualisasikan dalam bentuk grafik pada halaman visualisasi model. Menu yang terakhir yaitu menampilkan hasil prediksi dalam bentuk tabel beserta akurasi yang akan didapatkan.Struktur menu pada sistem akan ditunjukkan pada Gambar 3.3.
26
Gambar 3.3. Sitemap Menu Aplikasi
3.4.2 Perancangan Antarmuka
Perancangan antarmuka merupakan gambaran umum tentang tampilan yang terdapat pada sistem.
1. Rancangan Tampilan Awal
Pada tampilan awal aplikasi terdapat nama penulis dibagian tengah dan nama sistem dibagian bawah nama penulis. Dibagian bawah terdapat tombol “Mulai” untuk memulai sistem. Rancangan tampilan awal dapat dilihat pada Gambar 3.4.
Gambar 3.4. Rancangan Tampilan Awal Aplikasi Keterangan :
Tombol “Mulai” memungkinkan user untuk masuk ke halaman utama aplikasi.
2. Rancangan Tampilan Utama
Pada tampilan utama aplikasi, terdapat label “input data untuk prediksi”, tombol input, dan tombol proses. Rancangan tampilan utama dapat dilihat pada Gambar 3.5.
Gambar 3.5. Rancangan Tampilan Utama Aplikasi
Keterangan :
a. Label “input data untuk prediksi” memungkinkan user untuk mengetahui halaman yang sedang aktif untuk meng-input data untuk prediksi
28
b. Tombol “input file” memungkinkan user untuk memilih tombol untuk meng- input data untuk diprediksi.
c. Tombol “proses” memungkinkan user untuk memproses data yang telah di input kan.
3. Rancangan Tampilan Visualisasi Model
Pada tampilan tampilan visualisasi model terdapat grafik untuk menampilkan perbandingan antara prediksi dengan real data. Grafik tersebut disertai dengan label y nilai partikulat debu(2.5) dan label x banyak nya prediksi. Rancangan tampilan visualisasi model dapat dilihat pada Gambar 3.6.
Gambar 3.6. Rancangan Tampilan Visualisasi Model
Keterangan :
a. Label “Prediksi Hari Ke-” memungkinkan user untuk mengetahui grafik menunujukkan prediksi hari yang ditentukan
b. Label “nilai pm2.5” memungkinkan user untuk mengetahui nilai prediksi dari partikulat debu(2.5)
c. Grafik memungkinkan user untuk lebih mudah memahami melihat perbandingan prediksi dengan real data.
4. Rancangan Tampilan Hasil Prediksi
Pada tampilan hasil prediksi terdapat label untuk menampilkan hasil akurasi dan terdapat tabel yang menampilkan hari prediksi dan nilai dari prediksi partikulat debu(2.5).Rancangan tampilan tersebut dapat dilihat pada Gambar 3.7.
Gambar 3.7. Rancangan Tampilan Hasil Prediksi Keterangan :
a. Label “Akurasi” memungkinkan user untuk melihat hasil akurasi dari hasil prediksi yang telah dilakukan.
b. Tabel prediksi memungkinkan user untuk melihat secara detail hari prediksi dan nilai dari prediksi partikulat debu(2.5).
BAB 4
IMPLEMENTASI DAN PENGUJIAN
Bab ini membahas hasil yang didapatkan dari implementasi metode support vector machine untuk melakukan prediksi partikulat debu(2.5) berdasarkan kualitas udara dan pengujian sistem sesuai dengan analisis dan perancangan yang telah dibahas pada Bab 3.
4.1. Implementasi Sistem
Pada tahap ini, metode support vector machine akan diimplementasikan ke dalam sistem menggunakan bahasa pemrograman Python sesuai dengan perancangan yang telah dilakukan.
4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk membangun sistem adalah sebagai berikut:
1. Prosesor Intel Core i5-8250U CPU 1.6 GHz.
2. Kapasitas harddisk 930 GB.
3. Memori 8.00 GB RAM DDR4
4. Sistem operasi yang digunakan adalah Microsoft Windows 10 Pro.
5. JetBrains PyCharm Community Edition 2018.2 6. Python 3.5
4.1.2. Implementasi Perancangan Antarmuka
Implementasi perancangan antarmuka berdasarkan rancangan yang telah dilakukan pada Bab 3 adalah sebagai berikut
1. Tampilan awal sistem
Tampilan awal sistem merupakan tampilan yang pertama kali muncul ketika sistem dijalankan. Tampilan awal ini berisi nama penulis dan kegunaan dari aplikasi ini. Tampilan awal sistem dapat dilihat pada Gambar 4.1.
Gambar 4.1. Tampilan awal sistem 2. Tampilan Utama Sistem
Tampilan utama sistem merupakan tampilan untuk memprediksi partikulat debu(2.5) berdasarkan kualitas udara sesuai dengan file yang diinputkan dengan menggunakan metode support vector machine. Pada tampilan utama sistem terdapat label “input data for prediction” agar user mengetahui bahwa halaman utama merupakan halaman untuk melakukan prediksi. Ada juga button “Upload a file” agar user dapat meng unggah file untuk diprediksi dan button “Process” agar user dapat memproses data yang telah di unggah dan menampilkan grafik dan hasil dari prediksi. Tampilan utama sistem dapat dilihat pada Gambar 4.2.
32
Gambar 4.2. Tampilan Utama Sistem 3. Tampilan Input File Kualitas Udara
Tampilan input file kualitas udara ini untuk menginputkan file untuk di prediksi.
File yang akan di input kan harus berformat CSV (Comma Seperated Column) Tampilan input file ini dapat dilihat pada Gambar 4.3.
Gambar 4.5. Tampilan Input File Kualitas Udara
4. Tampilan Visualisasi Model
Tampilan visualisasi model ini untuk menampilkan grafik perbandingan antara hasil prediksi dengan real data. Tampilan visualisasi model ini dapat dilihat pada Gambar 4.6.
Gambar 4.6. Tampilan Visualisasi Model
5. Tampilan Hasil Akurasi Dan Prediksi
Tampilan hasil akurasi dan prediksi merupakan tampilan detail dari visualisai model dalam bentuk tabel. Garis yang berwarna hijau merupakan hasil prediksi sedangkan garis yang berwarna biru merupakan real data. Tabel informasi dapat dilihat pada bagian kiri atas grafik. User dapat langsung melihat perbandingan antara hasil prediksi dengan real data. Tampilan hasil akurasi dan prediksi dapat dilihat pada Gambar 4.7.
34
Gambar 4.7. Tampilan Hasil Akurasi Dan Prediksi
4.1.3. Implementasi Data
Data yang digunakan dalam penelitian ini bersumber dari penelitian yang dilakukan oleh Reza Taqyuddin (2017). Data yang diambil bersumber dari sebuah website aqicn.org dan kota yang digunakan adalah Beijing, dimana parameter-parameter kualitas udara diambil dalam kurun waktu yang sedemikian rupa. Data disimpan ke dalam file berbentuk teks yang berformat CSV(Comma Seperated Column). Parameter satu dengan yang lain dipisahkan dengan tanda titik koma. Namun, agar setiap kolom setiap kolom dapat dibaca, maka pemisah data harus diubah dengan tanda koma. Adapun rincian mengenai setiap data dapat dilihat pada Tabel 4.1.
Tabel 4.1. Rincian Data Yang Digunakan
No File Jumlah Baris Ukuran File
1 Training.csv 4730 652 KB
2 Test.csv 16 3 KB
4.2. Prosedur Operasional
Tampilan awal aplikasi ditunjukkan seperti Gambar 4.1 memiliki satu tombol “Mulai”.
Tombol “Mulai” digunakan untuk memulai sistem dan masuk ke tampilan utama sistem.
Tampilan utama sistem seperti yang ditunjukkan pada Gambar 4.2 memiliki dua tombol dimana salah satu dari tombol tersebut adalah “input file” untuk menginputkan file csv ke dalam sistem. Tampilan dari “input file” dapat dilihat pada Gambar 4.3. File yang telah dipilih nanti nya akan di proses untuk di prediksi. Setelah file dipilih, selanjutnya terdapat tombol “proses” untuk melanjutkan ke proses prediksi.
Setelah menekan tombol “proses” maka akan dimulai proses prediksi, dimulai dari pre-processing, feature selection, dan prediksi menggunakan support vector machine.
Kemudian sistem akan menampilkan grafik perbandingan antara hasil prediksi dengan real data. Pada grafik tersebut user dapat melihat seberapa akurat sistem dapat memprediksi partikulat debu(2.5) tersebut.
Hasil akhir berupa hari ke- dan prediksi dari nilai partikulat debu(2.5) yang di visualisasikan dalam bentuk grafik dilihat pada Gambar4.6 dan dalam betuk tabel yang dapat dilihat pada Gambar 4.8.
Gambar 4.8. Bentuk Tabel Dari Visualisai Model
36
4.3. Hasil Pengujian
Pada bagian ini akan dipaparkan hasil yang didapat dari proses training dan testing.
4.3.1. Hasil Training Dan Testing
Percobaan dilakukan dalam beberapa tahap. Pertama yaitu penentuan kernel terbaik.
Setelah mendapatkan kernel, tahap selanjutnya yaitu, penentuan regularisasi. Dilanjutkan dengan menentukan nilai degree. Setelah mendapatkan kernel, nilai regularisasi, dan nilai degree yang optimal, maka tahap terakhir yaitu memasukkan 10 parameter yaitu karbon monoksida(CO), ozon(O3), partikel debu(10), nitrogen dioksida(NO2), sulfur dioksida(SO2), temperatur, titik embun, tekanan udara, kelembaban, dan kecepatan angin.
Berdasarkan hasil pengujian dengan menggunakan kernel linear maka diperoleh hasil seperti pada Tabel 4.2.
Tabel 4.2. Hasil Pengujian Data Kernel Linear
No Hari Ke - Prediksi Real Data
1 Thu, 05 Jan 2017 200 250
2 Fri, 06 Jan 2017 243 279
3 Sat, 07 Jan 2017 58 61
4 Sun, 08 Jan 2017 59 68
5 Mon, 09 Jan 2017 52 59
6 Tue, 10 Jan 2017 67 46
7 Wed, 11 Jan 2017 69 50
8 Thu, 12 Jan 2017 383 341
9 Fri, 13 Jan 2017 367 309
10 Sat, 14 Jan 2017 350 277
11 Sun, 15 Jan 2017 79 102
12 Mon, 16 Jan 2017 130 13
13 Tue, 17 Jan 2017 306 236
14 Wed, 18 Jan 2017 314 278
15 Thu, 19 Jan 2017 414 296
Berdasarkan Tabel 4.2 bahwa hasil prediksi mendekati real data. Ada beberapa data memiliki nilai yang sedikit lebih jauh dari nilai real data. Dilanjutkan dengan pengujian menggunakan kernel rbf dengan hasil seperti pada Tabel 4.3.
Tabel 4.3. Hasil Pengujian Data Kernel RBF
No Hari Ke - Prediksi Real Data
1 Thu, 05 Jan 2017 142 250
2 Fri, 06 Jan 2017 142 279
3 Sat, 07 Jan 2017 142 61
4 Sun, 08 Jan 2017 142 68
5 Mon, 09 Jan 2017 142 59
6 Tue, 10 Jan 2017 142 46
7 Wed, 11 Jan 2017 142 50
8 Thu, 12 Jan 2017 142 341
9 Fri, 13 Jan 2017 142 309
10 Sat, 14 Jan 2017 142 277
11 Sun, 15 Jan 2017 142 102
12 Mon, 16 Jan 2017 142 13
13 Tue, 17 Jan 2017 142 236
14 Wed, 18 Jan 2017 142 278
15 Thu, 19 Jan 2017 143 296
Berdasarkan Tabel 4.3. bahwa kernel rbf tidak dapat digunakan untuk prediksi kualitas udara dengan data yang digunakan. Dilanjutkan dengan pengujian menggunakan kernel polynomial. Hasil menggunakan kernel polynomial dapat dilihat pada Tabel 4.4.
38
Tabel 4.4. Hasil Pengujian Data Kernel Polynomial
No Hari Ke - Prediksi Real Data
1 Thu, 05 Jan 2017 1991 250
2 Fri, 06 Jan 2017 2023 279
3 Sat, 07 Jan 2017 247 61
4 Sun, 08 Jan 2017 262 68
5 Mon, 09 Jan 2017 258 59
6 Tue, 10 Jan 2017 263 46
7 Wed, 11 Jan 2017 243 50
8 Thu, 12 Jan 2017 1349 341
9 Fri, 13 Jan 2017 1369 309
10 Sat, 14 Jan 2017 1393 277
11 Sun, 15 Jan 2017 1312 102
12 Mon, 16 Jan 2017 77 13
13 Tue, 17 Jan 2017 2195 236
14 Wed, 18 Jan 2017 2186 278
15 Thu, 19 Jan 2017 2285 296
Berdasarkan Tabel 4.4. bahwa kernel polynomial sama dengan kernel rbf tidak dapat prediksi kualitas udara dengan data yang digunakan.
Tahap selanjutnya dilakukan pengujian sistem, pengujian sistem dilakukan dengan mengukur tingkat akurasi sistem. Perhitungan dapat dilakukan dengan cara menghitung kedekatan antara nilai prediksi dan nilai real data. Nilai akurasi dihitung untuk masing- masing baris data, setelah semua baris data mendapatkan nilai akurasinya maka selanjutnya menghitung rata-rata untuk semua nilai akurasi. Akurasi ini akan yang akan menjadi akurasi secara keseluruhan. Akurasi menggunakan kernel linear dikarenakan kernel linear yang mampu mendekati nilai real data. Tingkat akurasi sistem dapat dilihat pada Tabel 4.5.
Tabel 4.3. Tingkat Akurasi Sistem Menggunakan Kernel Linear Jumlah Baris Data Akurasi
15 75,28%
Berdasarkan Tabel 4.5 nilai akurasi prediksi 15 baris data adalah 75,28%, nilai ini diperoleh dengan cara menghitung keakuratan sistem dalam memprediksi partikulat debu(2.5). Hasil yang didapat tidak bisa lebih tinggi dikarenakan kurang banyaknya data pada tahap training sehingga akurasi yang didapatkan hanya meyentuh 75,28%. Untuk mendapatkan hasil akurasi yang lebih tinggi dibutuhkan banyak data pada tahap training.
Tujuan dari penelitian ini adalah agar dapat memprediksi nilai dari partikulat debu(2.5). Dengan akurasi yang didapat sistem sudah mampu untuk memprediksi nilai dari partikulat debu(2.5) tersebut.
BAB 5
KESIMPULAN DAN SARAN
Bab ini membahas tentang kesimpulan dari metode yang diajukan untuk prediksi partikulat debu(2.5) pada bagian 5.1, serta pada bagian 5.2. akan dibahas saran-saran untuk pengembangan penelitian selanjutnya.
5.1. Kesimpulan
Kesimpulan yang dapat diambil berdasarkan pengujian sistem prediksi partikulat debu (2.5) berdasarkan kualitas udara menggunakan support vector machine adalah sebagai berikut:
1. Metode support vector machine dapat digunakan untuk prediksi partikulat debu(2.5) berdasarkan kualitas udara menggunakan support vector machine.
2. Proses prediksi partikulat debu(2.5) berdasarkan kualitas udara memiliki tingkat akurasi 75,28%.
5.2. Saran
Berikut adalah hal-hal yang menjadi saran dari penelitian ini untuk penelitian selanjutnya adalah sebagai berikut:
1. Penelitian ini menggunakan metode support vector machine diharapkan penelitian selanjutnya menggunakan metode artificial neural network untuk melakukan prediksi partikulat debu(2.5).
2. Diharapkan pada penelitian selanjutnya dapat menggunakan lebih banyak data agar hasil akurasi yang didapatkan mampu lebih tinggi dari yang sebelumnya.
DAFTAR PUSTAKA
Abdullah, L & Khalid, N.,K. 2012. Classification of air quality using fuzzy synthetic multiplication. Environt Monit Assess (2012) 184, pp : 6957–6965 .
Athira Va, Geetha Pb, Vinayakumar Rab, Soman K P*. 2018. “DeepAirNet : Applying Recurrent Networks for Air Quality Prediction”. International Conference on Computational Intelligence adn Data Science (ICCIDS2018)
Azman, A., Juahir, H., Toriman, E., Kamarudin, M.K.A. & Saudi, A.S. 2014. Prediction of the Level of Air Pollution Using Principal Component Analysis and Artificial Neural Network Techniques: a Case Study in Malaysia. Water, Air & Soil Pollution (2014) 225:2063.
Badan Pengendali Dampak Lingkungan. 1998. Pedoman Teknis Perhitungan dan Pelaporan Serta Informasi Indeks Standar Pencemaran Udara. (Online) http://www.cetsuii.org/BML/Udara/ISPU/ISPU%20(Indeks%20Standar%20Pence mar%20Udara).htm (27 Juli 2016)
Budiyono, A. 2001. Pencemaran Udara : Dampak Pencemaran Udara Pada Lingkungan.
Beika Ditgantata Vol 2. No I Mmt.
Chang, Y.S,. Lin, K.M,. Zeng, Y.R,. Hung, C.X. 2018. Big Data Platform for Air Quality Analysis and prediction. Wireless and Optical Communication Conference (WOCC2018)
Huaizhi Su, Xing Li, Beibei Yang, Zhiping Wen. 2018. “Wavelet support vector machine- based prediction model of dam deformation
Huang, YC & Ghio, AJ. 2006. “Vascular Effect of Ambient Pollutant Particles and Metals.
Curr Vasc Pharmacol”. 2006 Jul;4(3):199-203
Li., S,T & Shue., L,Y. 2004. Data mining to aid policy making in air pollution management.
Expert Systems with Applications 27(3): 33 1-340.
Li., S,T & Shue., L,Y. 2004. Data mining to aid policy making in air pollution management. Expert Systems with Applications 27(3): 33 1-340.
42
Lin, Y.S,. Chang, Y.H,. Chang, Y.S,. “Constructing PM2.5 Map Based on Mobile PM2.5 Sensor and Cloud Platform,” 2016 IEEE International Conference on Computer and Information Technology (CIT), 8-10 Dec. 2016, pp. 702-707.
Naseri, F,. Jafari F,. Mohseni, E,. Tang, W,. Abdosattar Feizbakhsh, Mohsen Khatibinia.
2017. Experimental observations and SVM-based prediction of properties of polypropylene fibres reinforced self-compacting composites incorporating nano- CuO
Poschl,U. 2005. Atmospheric Aerosol: Composition, Transformation, Climate and Health Effect. Angewandte Chemie International Edition, Volume 44, pp : 7520-7540 Siregar, B., Nasution, A. B. A., & Fahmi, F. (2016, July). Integrated pollution monitoring
system for smart city. In ICT For Smart Society (ICISS), 2016 International Conference on (pp. 49-52). IEEE.
Taqyuddin, R. 2017. Klasifikasi Kualitas Udara Menggunakan Naïve Bayes Classifier Pada Sistem Terdistribusi Raspberry Pi Cluster Server
Wang, J., Song, G. 2017 “A Deep Spatial-Temporal Ensemble Model for Air Quality Prediction”. Key Laboratory od Machine Perception, Ministry of Education, Peking University, Beijing, 100871, China