DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
SKRIPSI
Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar
Strata Satu Program Studi Informatika
Disusun oleh :
AFIF RIZKA WANDALA
NIM. M0509004
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
SKRIPSI
Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar
Strata Satu Program Studi Informatika
Disusun oleh :
AFIF RIZKA WANDALA
NIM. M0509004
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
AFIF RIZKA WANDALA
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret
ABSTRAK
Saat ini konten porno banyak bertebaran di sebuah website baik dalam bentuk
konten utama maupun iklan. Salah satu cara untuk mencegah konten yang tidak
diinginkan tersebut adalah dengan pendeteksian konten. Pendeteksian konten
dilakukan dengan proses text mining. Setiap website diprediksi dengan
mempertimbangkan karakteristik text yang ada didalamnya. Metode yang
digunakan untuk mempredeksi web porno dalam penelitian ini adalah bayesian
filtering, Bayesian filtering berrfungsi memperhitungkan probabilitas kemiripan
suatu website dengan membandingkan munculnya tiap keyword pada data latih.
Namun, banyaknya keyword atau variable mempengaruhi efisiensi dan keakuratan
deteksi. Untuk mengatasi hal tersebut, peneilitan ini menggunakan Principal
component analysis untuk mengurangi dan mencari variable yang memiliki
pengaruh penting terhadap deteksi. Dari penelitian ini diperoleh tingkat akurasi
tertinggi deteksi web berkonten porno dengan metode bayesian filtering sebesar
89.22%, hasil deteksi tersebut menggunakan 51 variable hasil ekstraksi Principal
component analysis.
PORN WEBSITE DETECTION USING BAYESIAN FILTERING AND PRINCIPAL COMPONENT ANALYSIS METHOD
AFIF RIZKA WANDALA
Department of Informatics, Faculty of Mathematics and Natural Science
Sebelas Maret University
ABSTRACT
Now days many pornographic content on a website is not only in the
form of main content but also in advertisement. One way to prevent it is using
content detection . The detection of content can be done with text mining
process. Each website is predicted inside by the characteristics of the text. This
research using Bayesian filtering to predicting of pornographic web. The
function of Bayesian filtering is to calculate the similarity’s of probability in a
website by comparing the appearance of each keyword in the training data.
However, the number of keywords or variables influence the efficiency and
accuracy of detection. To prefent it this research using Principal component
analysis to reduce and looking for the variables have an important influence on
detection. From this research, the highest level of accuracy of detection of
pornographic web with Bayesian filtering method amounted to 89.22%, the
detection results using 51 variables from extraction result of Principal
component analysis.
MOTTO
La tahzan Allohu ma’ana
“Sebaik-baik manusia adalah yang paling bermanfaat bagi orang lain .”
-(HR. Ahmad)
sesungguhnya bersama dengan kesulitan, ada kemudahan.. bersama dengan
kesulitan, ada kemudahan..
(Al-Insyirah : 6-7)
“With great power comes great responsibility”
PERSEMBAHAN
Karya ini Penulis persembahkan kepada :
“Bapak dan Ibu yang jasanya tidak akan pernah terbalaskan sedikitpun”
KATA PENGANTAR
Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya karena
rahmat dan karunia-Nya, penulis dapat menyelesaikan penelitian dan pembuatan
laporan penelitian ini dengan judul “DETEKSI WEB BERKONTEN PORNO
DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL
COMPONENT ANALYSIS”, yang merupakan salah satu syarat mendapatkan gelar strata satu Informatika Universitas Sebelas Maret Surakarta.
Skripsi ini tidak akan selesai tanpa adanya bantuan dari banyak pihak.
Untuk itu penulis ingin menyampaikan ucapan terima kasih kepada :
1. Allah SWT atas limpahan segala rahmat dan karuniaNya sehingga karya tulis
ini dapat terselesaikan.
2. Bapak Palgunadi selaku dosen pembimbing yang telah memberikan
bimbingan, masukan, serta pengarahan.
3. Bapak Abdul Aziz selaku dosen pembimbing yang telah memberikan
bimbingan, masukan, serta pengarahan.
4. Bapak Afrizal dan Bapak Bambang Harjito selaku dosen penguji yang telah
memberikan penilaian dan masukan untuk tugas akhir ini.
5. Bapak, Ibu, dan keluarga yang selalu memberikan dukungan.
6. Teman-teman dan adik-adik semua yang memberi bantuan serta nasehat.
7. Keluarga besar S1 Informatika UNS, khususnya angkatan 2009 atas kiriman
semangat dan motivasi skripsi.
Semoga penelitian yang telah dilakukan penulis dapat bermanfaat.
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PERSETUJUAN ... ii
HALAMAN PERSETUJUAN ... iii
ABSTRAK ... iv
DAFTAR LAMPIRAN ... xiii
BAB I PENDAHULUAN ... 1
1.6 Sistematika Penulisan ... 4
BAB II TINJAUAN PUSTAKA ... 5
2.1.5 Information Gain... 9
2.1.6 Bayesian Filtering ... 10
2.1.7 Multikolinieritas ... 12
2.2 Penelitian terkait ... 15
BAB III METODOLOGI ... 18
3.1 Pengumpulan Data ... 18
3.2 Implementasi ... 19
3.2.1 Preprocessing ... 19
3.2.2 Reducing Variable... 20
3.2.3 Feature Selection ... 21
3.2.4 Bayesian Filtering ... 23
3.3 Pengujian... 24
3.3.1 Kombinasi data dan variabel ... 24
3.3.2 Correctness ... 24
BAB IV HASIL DAN PEMBAHASAN ... 25
4.1 Hasil pengumpulan data dan Crawling ... 25
4.2 Preprocessing ... 25
4.3 Variable extraction ... 26
4.3.1 Analisis PCA data training 100 porn :400 safe ... 26
4.3.2 Analisis PCA data training 250 porn : 250 safe ... 28
4.3.3 Analisis PCA data training 400 porn : 100 safe ... 30
4.4 Hasil Pengujian deteksi dengan Bayesian filtering ... 32
BAB V PENUTUP ... 34
5.1 Kesimpulan ... 34
5.2 Saran ... 34
DAFTAR TABEL
Tabel 2.1 Penelitian Terkait ... 15
Tabel 3.1. Contoh nilai covarians variabel PCA ... 22
Tabel 4.1 Total keyword ... 25
Tabel 4.2 Keyword hasil estraksi PCA data 100:400 ... 27
Tabel 4.3 Keyword hasil estraksi PCA data 250 porn : 250 safe ... 28
Tabel 4.4 Keyword hasil estraksi PCA data 400 porn : 100 safe ... 30
Tabel 4.5 Perbandingan akurasi non PCA ... 32
DAFTAR GAMBAR
Gambar 2.1 Proses text mining ... 6
Gambar 2.2 Contoh tokenizing ... 7
Gambar 2.4 Contoh stemming ... 8
Gambar 3.1 Alur metodologi penelitian... 18
Gambar 3.2 Grafik nilai eigen PCA ... 21
Gambar 4.1 Grafik nilai eigen PCA 100 web porno: 400 web safe ... 26
Gambar 4.2 Grafik nilai eigen PCA 250 web porno: 250 web safe ... 28
DAFTAR LAMPIRAN
Lampiran 1. Nilai gain 1000 keyword 100 porn : 400 safe ... 37
Lampiran 2. Nilai gain 1000 keyword 250 porn : 250 safe ... 45