BAB 1 PENDAHULUAN
1.1 Latar Belakang
Udara merupakan komponen penting yang dibutuhkan manusia dalam proses
transpirasi. Meningkatnya pembangunan fisik kota dan pusat – pusat industri,
komponen udara tersebut telah mengalami perubahan. Perubahan komponen udara
tersebut berpengaruh pada perubahan kualitas udara dan berakibat pada pencemaran.
Penurunan kualitas udara ini dapat mengganggu kesehatan masyarakat di sekitarnya
(Santi, 2012).
Polusi udara, merupakan salah satu masalah utama yang sering dialami oleh
kota-kota besar di negara berkembang. Dengan berkembangnya standar hidup,
masyarakat cenderung memperhatikan bagaimana kesehatan tubuh dan lingkungan.
Pengamatan terhadap kualitas udara dapat diukur berdasarkan Indeks Standar
Pencemaran Udara (ISPU), apakah konsentrasinya lebih tinggi atau lebih rendah dari
ISPU. Terdapat lima parameter pencemaran udara yang digunakan untuk pengamatan
berdasarkan ISPU, yaitu Karbon Monoksida (CO), ozon permukaan (O3), Tingkat
Partikulat (PM10), Oksida Nitrogen (NOx), dan Sulfur Dioksida (SO).
Internet memberikan jumlah data dan informasi yang sangat besar, yang
dapat kita akses dan unduh menggunakan sebuah web browser. Data hasil sensor
sering dipublikasikan dalam halaman website khusus yang menampilkan data udara.
Data di internet dapat diambil dengan melakukan ekstraksi elemen penyusun halaman
website menjadi data yang dapat disimpan ke dalam database. Untuk dapat
mengambil informasi tersebut dibutuhkanlah sebuah metode untuk dapat melakukan
grabbing data (Extracting and Saving) yang disebut dengan Web Scraping. Web
Scraping (Turland, 2010) adalah proses pengambilan sebuah dokumen
semi-terstruktur dari internet, umumnya berupa halaman-halaman web dalam bahasa
XHTML, dan menganalisis dokumen tersebut untuk diambil data tertentu
dari halaman tersebut untuk digunakan bagi kepentingan lain.
Algoritma cerdas dalam Data Mining atau Machine Learning telah banyak
diterapkan pada analisis data polusi udara, salah satunya adalah menggunakan
Wavelet Transform, Cluster Algorithm dan SOM (Self-Organization Map) untuk
melakukan analisa polusi udara di Taiwan (Li., ST, et al, 2004). Pada tahun 2012,
Karina Gibert mengusulkan sebuah sistem dengan penggabungan Data Mining dan
Intelligent Decision Support untuk melakukan analisis data kualitas udara (Gilbert., K,
2012).
Naïve Bayes merupakan salah satu algoritma untuk melakukan klasifikasi
dengan menggunaan Teorema Bayes yang memberikan asumsi bahwa setiap objek
untuk melakukan prediksi tidak terikat atau bebas. Secara singkat, Naive Bayes
classifier mengasumsikan bahwa keberadaan fitur tertentu pada sebuah kelas tidak
berhubungan dengan fitur yang lain. Sebagai contoh, sebuah buah dikategorikan
sebagai apel jika berwarna merah, berbentuk bundar dan mimiliki diameter 3 inchi.
Bahkan jika fitur tersebut bergantung satu dengan yang lainnya, setiap properti
bersifat bebas untuk saling berkontribusi dan menyatakan bahwa buah tersebut adalah
apel, oleh karena itu algoritma ini disebut dengan Naïve (Koduvely, 2015).
Air Quality Index (AQI) merupakan index untuk menggambarkan kuantitas
dari status kualitas udara. AQI mengukur kualitas udara keseluruhan dengan jarak
antara 0 hingga 500. Pada tahun 2012, pemerintah China telah mengeluarkan regulasi
yang mengumumkan bahwa AQI adalah pengganti dari Air Pollution Index yang asli.
AQI dibagi atas 6 level : dari yang paling baik (level 1), baik (level 2), sedikit
berpolusi (level 3), berpolusi sedang (level 4), dan berpolusi berat (level 5) hingga
polusi diambang batas (level 6). Nilai AQI yang lebih tinggi mengindikasikan polusi
yang semakin parah dan dampak yang semakin berbahaya pada kesehatan manusia.
1.2 Rumusan Masalah
Udara merupakan aspek penting dalam melakukan respirasi oleh manusia dan
makhluk hidup lainnya. Seiring dengan berkembangnya industri dan transportasi,
udara menjadi semakin tercemar. Informasi kualitas udara dibutuhkan agar
menentukan tingkat kualitas dan pencemaran udara berdasarkan beberapa parameter
utama yaitu : Karbon Dioksida (CO2), Nitrogen Dioksida (NO2), Ozon (O3) dan
Tingkat Partikulat (PM10). Untuk itu diperlukan sebuah metode untuk
mengklasifikasikan kualitas udara dari beberapa parameter utama polutan.
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk dapat mengklasifikasikan kualitas udara dengan
menerapkan Naïve Bayes pada sistem terdistribusi raspberry pi cluster server.
1.4 Batasan Masalah
Agar penelitian ini sesuai dengan tujuan penelitian, maka masalah yang ada dalam
penelitian ini akan dibatasi oleh hal-hal berikut :
1. Menggunakan data polusi kota Beijing yang diambil dari website
aqicn.org.
2. Menggunakan data yang diambil secara berkala setiap satu jam.
3. Parameter utama yang akan diproses adalah nilai polutan Karbon
Dioksida (CO2), Nitrogen Dioksida (NO2), Ozon Permukaan (O3) dan
Tingkat Partikulat (PM10).
4. Klasifikasi tingkat pencemaran hanya dibagi 6 level berdasarkan nilai
Air Quality Index (AQI).
5. Jumlah node yang digunakan untuk sistem terdistribuasi adalah satu
node sebagai master dan 4 node sebagai slaves.
1.5 Manfaat Penelitian
Manfaat yang dapat diperoleh dari penelitian ini adalah :
1. Membantu para user untuk mendapatkan informasi mengenai kualitas
udara secara harian.
2. Melakukan Algoritma Naïve Bayes terdistribusi dalam melakukan
klasifikasi data tingkat pencemaran udara.
3. Menjadi referensi dalam pengembangan sistem monitoring kualitas
1.6 Metode Penelitian
Tahapan-tahapan yang dilakukan pada penelitian ini adalah :
1. Studi Literatur
Tahap ini dilaksanakan untuk mengumpulkan dan mempelajari
informasi-informasi yang diperoleh dari buku, jurnal dan berbagai
sumber referensi lain yang berkaitan dengan penelitian seperti metode
Web Scraping, Naive Bayes Classifier, Sistem Terditribusi, Multi
Thread.
2. Identifikasi Masalah
Pada tahap ini dilakukan analisis terhadap berbagai informasi hasil
studi literatur dari berbagai sumber agar didapatkan metode yang tepat
untuk menyelesaikan masalah dalam penelitian ini.
3. Perancangan Sistem
Tahap ini menjelaskan mengenai perancangan sistem untuk
menyelesaikan permasalahan yang sesuai hasil yang didapatkan dalam
tahap analisis.
4. Implementasi dan Pengujian
Pada tahap ini dilakukan implementasi hasil perancangan ke dalam
kode program sesuai yang telah dilakukan pada tahap sebelumnya.
Setelah melakukan implementasi, kemudian dilakukan pengujian
terhadap hasil yang didapatkan melalui implementasi metode Web
Scraping dan Naïve Bayes Classifier pada sistem terdistribusi.
5. Analisis dan Pengambilan Kesimpulan
Pada tahap ini dilakukan analisis data yang didapatkan dari
implementasi Web Scraping dan Naive Bayes Classifier dalam sistem
terdistribusi sehingga menghasilkan informasi terkait hasil analisis
tersebut.
1.7 Sistematika Penulisan
Tugas akhir ini disusun dalam lima bab dengan sistematika penulisan sebagai
Bab 1 : Pendahuluan
Bab pendahuluan ini berisi tentang hal-hal yang mendasari
dilakukannya penelitian serta pengidentifikasian masalah penelitian.
Bagian-bagian yang terdapat dalam bab pendahuluan ini meliputi latar
belakang masalah, perumusan masalah, batasan masalah, tujuan
penelitian, dan manfaat penelitian.
Bab 2 : Landasan Teori
Pada bab tinjauan pustaka menguraikan landasan teori, penelitian
terdahulu, kerangka pikir dan hipotesis yang diperoleh dari acuan yang
mendasari dalam melakukan kegiatan penelitian pada tugas akhir ini.
Bab 3 : Analisis dan Perancangan
Bab ini membahas analisis dan perancangan, dimulai dari analisis
terhadap permasalahan yang ada, dan penyelesaian. Pada bab ini
dijabarkan tentang arsitektur umum, proses yang dilakukan serta
tahapan pada metode yang digunakan.
Bab 4 : Implementasi dan Pengujian
Pada bab ini membahas tentang implementasi sistem dan hasil
pengujian terhadap aplikasi yang telah dibangun.
Bab 5 : Kesimpulan dan Saran
Bab ini berisi tentang kesimpulan hasil penelitian dan saran-saran yang