KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI
RASPBERRY PI CLUSTER SERVER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Teknologi Informasi
REZA TAQYUDDIN
101402020
PROGRAM STUDI S1 TEKNOLOGI INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
PERSETUJUAN
Judul : KLASIFIKASI KUALITAS UDARA
MENGGUNAKAN NAÏVE BAYES CLASSIFIER
PADA SISTEM TERDISTRIBUSI RASPBERRY PI
CLUSTER SERVER
Kategori : SKRIPSI
Nama : REZA TAQYUDDIN
Nomor Induk Mahasiswa : 101402020
Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI
Departemen : TEKNOLOGI INFORMASI
Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITS SUMATERA UTARA
Komisi Pembimbing :
Pembimbing 2 Pembimbing 1
Dr. Erna Budhiarti Nababan. M.IT Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
NIP. - NIP. 19860303 201012 1 004
Diketahui/Disetujui Oleh
Program Studi Teknologi Informasi
Ketua
Muhammad Anggia Muchtar, ST., MM.IT
PERNYATAAN
KLASIFIKASI KUALITAS UDARA MENGGUNAKAN NAÏVE BAYES
CLASSIFIER PADA SISTEM TERDISTRIBUSI RASPBERRY PI CLUSTER
SERVER
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, Januari 2017
Reza Taqyuddin
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat
menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana
Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan
Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1. Kedua Orang tua penulis, Efendi Zaimas S.E dan Ruminah, yang selalu
memberikan doa, kasih sayang dan dukungan kepada penulis dari mulai
mengikuti pendidikan hingga selesainya tugas akhir ini.
2. Bapak Romi Fadillah Rahmat B.Comp.Sc., M.Sc selaku Dosen Pembimbing I
dan Ibunda Dr. Erna Budhiarti Nababan M.IT selaku Dosen Pembimbing II
yang telah dengan sabar memberikan bimbingan dan saran kepada penulis.
3. Bapak Mohammad Fadly Syah Putra B.Sc., M.Sc.IT selaku Dosen Pembanding
I dan Bapak Ivan Jaya S.Si., M.Kom selaku Dosen Pembanding II yang telah
memberikan kritik dan saran dalam penyempurnaan skripsi ini.
4. Wak Mukhtar Nurlan, Bu Nurasiah Zaimas, Bu Nuriah Zaimas selaku keluarga
yang selalu memberikan dukungan materi, doa dan semangat kepada penulis
untuk menyelesaikan skripsi.
5. Mafazi Aditya, Shella Maulida dan Luthfan Aziz, Alm. Harry Fairuz, Syukri
Jundi, Silvia Atika S.E, dan Elza Alfatunnisa yang memberikan motivasi
kepada penulis.
6. Kepada Sarah Purnamawati ST., M.Sc yang tidak kenal lelah terus menemani
dan memberikan semangat kepada penulis atas dukungan dan support yang
diberikan beliau, serta kesabaran beliau dalam menghadapi segala tingkah laku
penulis. Penulis ucapkan Terima Kasih yang sebesar besarnya sehingga akhirnya
dapat menyelesaikan penulisan skripsi ini.
7. Sintong Siregar S.Kom, Nadya Amelia S.Kom, Siti Moriza Tania S.Kom, Dian
Fajar Prayoga S.Kom selaku rekan seperjuangan dalam kegiatan perkuliahan
8. Semua dosen, staff dan pegawai di Jurusan Teknologi Informasi serta Fakultas
Ilmu Komputer dan Teknologi Informasi yang tidak dapat saya sebutkan
satu-persatu
9. Joko, Tri Annisa, Patricia, Atang, Wisnu, Fudin, Bang Zai, Andrew, Imah,
Novi, Amel dan rekan rekan angkatan 2010. Terima kasih sudah menjadi
keluarga penulis selama perkuliahan.
10. Indra, Atras, Imam, Maliki, Joko Kurnianto, Theresia, Grace, Rona, Harysa,
Tika, Siti Hasanah, Josef, Sammy, Fachrin, Victoria, Nova, Afza, Cindy, Aidiel,
Ibnu, Faris, Ezzay dan semua adik-adik junior dari penulis yang tidak dapat
disebutkan satu-persatu yang telah memberikan bantuan dan supportnya.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan bantuan, perhatian, serta dukungan kepada penulis dalam
ABSTRAK
Kondisi udara dipengaruhi oleh banyaknya polusi yang terjadi di suatu daerah seperti
materi partikel, ozon, nitrogen oksida dan karbon dioksida. Polutan - polutan tersebut
memiliki nilai standar yang telah dikategorikan disebut dengan AQI (Air Quality
Index). Nilai polutan yang bervariasi pada rentang waktu tertentu akan menyebabkan
kualitas udara menjadi sulit untuk diklasifikasikan ke dalam kategori AQI. Sistem
terdistribusi seperti cluster machine memiliki peforma yang baik dalam melakukan
pengelolaan data secara terdistribusi. Raspberry pi yang dibangun secara cluster
dapat meningkatkan peforma pemrosesan dan sumber daya yang dibutuhkan dalam
pengelolaan data yang besar dan bervariasi. Penelitian ini dilakukan dengan
menerapkan metode Naïve Bayes pada raspberry pi cluster server dimana data yang
telah dikumpulkan menggunakan metode web scraping akan dibagikan ke setiap
slave node cluster, kemudian master node mengirimkan sinyal untuk mengelola data.
Setelah melakukan penelitian dan pembangunan aplikasi ini, dapat diambil
kesimpulan dengan melakukan implementasi Naïve Bayes pada server cluster, dapat
dilakukan pembangunan sebuah model pengumpulan data dan klasifikasi pada
sistem terdistribusi serta memberikan hasil klasifikasi kualitas udara dengan akurasi
98%.
AIR QUALITY CLASSIFICATION USING NAÏVE BAYES
CLASSIFIER ON DISTRIBUTED SYSTEM RASPBERRY PI
CLUSTER SERVER
ABSTRACT
The air condition is influenced by the amount of pollution that occurred in a specific
area, there are particulate matter, ozone, nitrogen oxides, and carbon dioxide. These
pollutants has a standard categorized value called the AQI (Air Quality Index).
Values of pollutants varies in specified time span, causing the air quality is difficult
to be classified into categories of AQI. Distributed system such as cluster machine
has a good performance in order to manage big data in distributed ways. The
Raspberry pi that is being built as cluster can increase the performance of processing
and resources that is needed to manage varies big data. This study was completed by
implementing the Naïve Bayes method on raspberry pi cluster server where the
collected data using web scraping method will be distributed to each slave node
cluster, and then the master node will send the signal to process the data. After
conducting research and development of this application, it can be concluded that by
implementing the Naïve Bayes on cluster server, we can build a model of collecting
data and classification on distributed system and it also can give the result of air
quality classification with 98% accuracy.
DAFTAR ISI
PERSETUJUAN i
PERNYATAAN ii
UCAPAN TERIMA KASIH iii
ABSTRAK v
1.1 Latar Belakang 1
1.2 Rumusan Masalah 2
1.3 Tujuan Penelitian 3
1.4 Batasan Masalah 3
1.5 Manfaat Penelitian 3
1.6 Metode Penelitian 4
1.7 Sistematika Penulisan 4
BAB 2 LANDASAN TEORI 6
2.1 Pencemaran Lingkungan 6
2.1.1 Pencemaran udara 6
2.1.2 Kualitas udara dan kesehatan 8
2.1.3 Air Quality Index 9
2.2 Web Scraping 10
2.2.2 HTML Parser 12
2.2.3 Extracting and Saving Data 12
2.3 Sistem Terdistribusi 13
2.3.1 Raspberry Pi 14
2.3.2 Message Passing 15
2.3.3 Multithreading 16
2.4 Naïve Bayes Classifier 17
2.5 Penelitian Terdahulu 18
BAB 3 ANALISIS DAN PERANCANGAN 20
3.1 Data Yang Digunakan 20
3.2 Arsitektur Umum 21
3.2.1 Web Scraping 22
3.2.2 Data Cleaning 25
3.2.3 Data Selection 26
3.3 Perancangan Server Cluster Raspberry Pi 26
3.4 Naïve Bayes Classifier 27
3.5 Perancangan Antarmuka Sistem 31
3.5.1 Perancangan Halaman Utama Hasil Klasifikasi 31
3.5.2 Perancangan Halaman Informasi Health Concern 32
BAB 4 IMPLEMENTASI DAN PENGUJIAN 33
4.1 Implementasi Sistem 33
4.2.2 Tampilan Halaman Informasi Health Concern 36
4.3 Pengujian Sistem 38
4.3.1 Pengujian Cluster Server 38
4.3.2 Pengujian Web Scraping Data Polusi 41
4.3.3 Pengujian Pengambilan Data Cuaca 44
4.3.4 Pengujian Klasifikasi Kualitas Udara 47
BAB 5 KESIMPULAN DAN SARAN 47
5.1 Kesimpulan 47
5.2 Saran 47
DAFTAR TABEL
Tabel 2. 1 Bahan Yang Menghasilkan Pencemaran Udara 8
Tabel 2. 2 Level Pencemaran menurut AQI 9
Tabel 2. 3 Penelitian Terdahulu 19
Tabel 3. 1 Tabel Frekuensi AQI Level selama 24 Jam 29
Tabel 3. 2 Tabel Kemungkinan Berdasarkan tabel frekuensi 29
Tabel 4. 1 Konfigurasi perangkat keras yang digunakan 33
DAFTAR GAMBAR
Gambar 2. 1 Siklus pencemaran udara (Sumber : http://scienceunraveled.com/) 7
Gambar 2. 2 Object Tree Model (Sumber: www.w3schools.com) 12
Gambar 2. 3 Arsitektur Sistem Terdistribusi (Sumber : skullbox.net) 14
Gambar 2. 4 Raspbery Pi 2 (Sumber : raspberrypi.org ) 15
Gambar 2. 5 Single Threaded dan Multi Threaded Process (Sumber : Silberchatz) 17
Gambar 3. 1 Halaman Website aqicn.org (Sumber : http://aqicn.org) 21
Gambar 3. 2 Arsitektur Umum 22
Gambar 3. 3 Pseudocode Web Scraping 23
Gambar 3. 4 Data yang akan diambil (sumber: http://aqicn.org/beijing) 24
Gambar 3. 5 Potongan code isi Wrapper 25
Gambar 3. 6 Raw data yang tidak valid 26
Gambar 3. 7 Arsitektur Raspberry Pi Server Grid 27
Gambar 3. 8 Data AQI selama 24 jam 28
Gambar 3. 9 Rancangan tampilan halaman utama 32
Gambar 3. 10 Rancangan tampilan halaman Health Concern 33
Gambar 4.1 Tampilan halaman utama Kualitas Udara 35
Gambar 4.2 Tampilan dialog indikator kualitas udara 36
Gambar 4.3 Tampilan halaman informasi Health Concern 37
Gambar 4.4 Form Untuk memilih Jenis Polutan dan Level Batas 37
Gambar 4.5 Tampilan hasil informasi pemilihan polutan 38
Gambar 4.6 Raspberry Pi Cluster Server 39
Gambar 4.7 Status Network File System pada Master Node 40
Gambar 4.8 Status mounting Network File System pada Slave Node 41
Gambar 4.10 Eksekusi command Curl untuk melakukan scraping 42
Gambar 4.11 Tampilan Halaman setelah dilakukan scraping (jam 14.05) 43
Gambar 4.12 Hasil Log web scraping 44
Gambar 4.13 Potongan File JSON hasil pengambilan Data Cuaca 46