• Tidak ada hasil yang ditemukan

Deteksi Web Berkonten Porno dengan Metode Bayesian Filtering dan Principal Component Analysis AWAL

N/A
N/A
Protected

Academic year: 2017

Membagikan "Deteksi Web Berkonten Porno dengan Metode Bayesian Filtering dan Principal Component Analysis AWAL"

Copied!
14
0
0

Teks penuh

(1)

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

SKRIPSI

Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar

Strata Satu Program Studi Informatika

Disusun oleh :

AFIF RIZKA WANDALA

NIM. M0509004

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

(2)

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

SKRIPSI

Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar

Strata Satu Program Studi Informatika

Disusun oleh :

AFIF RIZKA WANDALA

NIM. M0509004

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

(3)
(4)
(5)

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

AFIF RIZKA WANDALA

Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,

Universitas Sebelas Maret

ABSTRAK

Saat ini konten porno banyak bertebaran di sebuah website baik dalam bentuk

konten utama maupun iklan. Salah satu cara untuk mencegah konten yang tidak

diinginkan tersebut adalah dengan pendeteksian konten. Pendeteksian konten

dilakukan dengan proses text mining. Setiap website diprediksi dengan

mempertimbangkan karakteristik text yang ada didalamnya. Metode yang

digunakan untuk mempredeksi web porno dalam penelitian ini adalah bayesian

filtering, Bayesian filtering berrfungsi memperhitungkan probabilitas kemiripan

suatu website dengan membandingkan munculnya tiap keyword pada data latih.

Namun, banyaknya keyword atau variable mempengaruhi efisiensi dan keakuratan

deteksi. Untuk mengatasi hal tersebut, peneilitan ini menggunakan Principal

component analysis untuk mengurangi dan mencari variable yang memiliki

pengaruh penting terhadap deteksi. Dari penelitian ini diperoleh tingkat akurasi

tertinggi deteksi web berkonten porno dengan metode bayesian filtering sebesar

89.22%, hasil deteksi tersebut menggunakan 51 variable hasil ekstraksi Principal

component analysis.

(6)

PORN WEBSITE DETECTION USING BAYESIAN FILTERING AND PRINCIPAL COMPONENT ANALYSIS METHOD

AFIF RIZKA WANDALA

Department of Informatics, Faculty of Mathematics and Natural Science

Sebelas Maret University

ABSTRACT

Now days many pornographic content on a website is not only in the

form of main content but also in advertisement. One way to prevent it is using

content detection . The detection of content can be done with text mining

process. Each website is predicted inside by the characteristics of the text. This

research using Bayesian filtering to predicting of pornographic web. The

function of Bayesian filtering is to calculate the similarity’s of probability in a

website by comparing the appearance of each keyword in the training data.

However, the number of keywords or variables influence the efficiency and

accuracy of detection. To prefent it this research using Principal component

analysis to reduce and looking for the variables have an important influence on

detection. From this research, the highest level of accuracy of detection of

pornographic web with Bayesian filtering method amounted to 89.22%, the

detection results using 51 variables from extraction result of Principal

component analysis.

(7)

MOTTO

La tahzan Allohu ma’ana

“Sebaik-baik manusia adalah yang paling bermanfaat bagi orang lain .”

-(HR. Ahmad)

sesungguhnya bersama dengan kesulitan, ada kemudahan.. bersama dengan

kesulitan, ada kemudahan..

(Al-Insyirah : 6-7)

“With great power comes great responsibility”

(8)

PERSEMBAHAN

Karya ini Penulis persembahkan kepada :

“Bapak dan Ibu yang jasanya tidak akan pernah terbalaskan sedikitpun”

(9)

KATA PENGANTAR

Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya karena

rahmat dan karunia-Nya, penulis dapat menyelesaikan penelitian dan pembuatan

laporan penelitian ini dengan judul “DETEKSI WEB BERKONTEN PORNO

DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL

COMPONENT ANALYSIS”, yang merupakan salah satu syarat mendapatkan gelar strata satu Informatika Universitas Sebelas Maret Surakarta.

Skripsi ini tidak akan selesai tanpa adanya bantuan dari banyak pihak.

Untuk itu penulis ingin menyampaikan ucapan terima kasih kepada :

1. Allah SWT atas limpahan segala rahmat dan karuniaNya sehingga karya tulis

ini dapat terselesaikan.

2. Bapak Palgunadi selaku dosen pembimbing yang telah memberikan

bimbingan, masukan, serta pengarahan.

3. Bapak Abdul Aziz selaku dosen pembimbing yang telah memberikan

bimbingan, masukan, serta pengarahan.

4. Bapak Afrizal dan Bapak Bambang Harjito selaku dosen penguji yang telah

memberikan penilaian dan masukan untuk tugas akhir ini.

5. Bapak, Ibu, dan keluarga yang selalu memberikan dukungan.

6. Teman-teman dan adik-adik semua yang memberi bantuan serta nasehat.

7. Keluarga besar S1 Informatika UNS, khususnya angkatan 2009 atas kiriman

semangat dan motivasi skripsi.

Semoga penelitian yang telah dilakukan penulis dapat bermanfaat.

(10)

DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PERSETUJUAN ... ii

HALAMAN PERSETUJUAN ... iii

ABSTRAK ... iv

DAFTAR LAMPIRAN ... xiii

BAB I PENDAHULUAN ... 1

1.6 Sistematika Penulisan ... 4

BAB II TINJAUAN PUSTAKA ... 5

2.1.5 Information Gain... 9

2.1.6 Bayesian Filtering ... 10

2.1.7 Multikolinieritas ... 12

2.2 Penelitian terkait ... 15

(11)

BAB III METODOLOGI ... 18

3.1 Pengumpulan Data ... 18

3.2 Implementasi ... 19

3.2.1 Preprocessing ... 19

3.2.2 Reducing Variable... 20

3.2.3 Feature Selection ... 21

3.2.4 Bayesian Filtering ... 23

3.3 Pengujian... 24

3.3.1 Kombinasi data dan variabel ... 24

3.3.2 Correctness ... 24

BAB IV HASIL DAN PEMBAHASAN ... 25

4.1 Hasil pengumpulan data dan Crawling ... 25

4.2 Preprocessing ... 25

4.3 Variable extraction ... 26

4.3.1 Analisis PCA data training 100 porn :400 safe ... 26

4.3.2 Analisis PCA data training 250 porn : 250 safe ... 28

4.3.3 Analisis PCA data training 400 porn : 100 safe ... 30

4.4 Hasil Pengujian deteksi dengan Bayesian filtering ... 32

BAB V PENUTUP ... 34

5.1 Kesimpulan ... 34

5.2 Saran ... 34

(12)

DAFTAR TABEL

Tabel 2.1 Penelitian Terkait ... 15

Tabel 3.1. Contoh nilai covarians variabel PCA ... 22

Tabel 4.1 Total keyword ... 25

Tabel 4.2 Keyword hasil estraksi PCA data 100:400 ... 27

Tabel 4.3 Keyword hasil estraksi PCA data 250 porn : 250 safe ... 28

Tabel 4.4 Keyword hasil estraksi PCA data 400 porn : 100 safe ... 30

Tabel 4.5 Perbandingan akurasi non PCA ... 32

(13)

DAFTAR GAMBAR

Gambar 2.1 Proses text mining ... 6

Gambar 2.2 Contoh tokenizing ... 7

Gambar 2.4 Contoh stemming ... 8

Gambar 3.1 Alur metodologi penelitian... 18

Gambar 3.2 Grafik nilai eigen PCA ... 21

Gambar 4.1 Grafik nilai eigen PCA 100 web porno: 400 web safe ... 26

Gambar 4.2 Grafik nilai eigen PCA 250 web porno: 250 web safe ... 28

(14)

DAFTAR LAMPIRAN

Lampiran 1. Nilai gain 1000 keyword 100 porn : 400 safe ... 37

Lampiran 2. Nilai gain 1000 keyword 250 porn : 250 safe ... 45

Gambar

Tabel 2.1 Penelitian Terkait .................................................................................
Gambar 2.1  Proses text mining .............................................................................

Referensi

Dokumen terkait

Hasil penelitian ini, yakni: (1) Sistem permodalan budidaya ikan menggunaka penyertaan modal dalam bentuk Musyarakah hal ini berdasarakan modal yang sama-sama

Dewan komisaris, kepemilikan manajerial, kepemilikan istitutional, ukuran komite audit, laverage tidak berpengaruh terhadap financial distress , sedangkan dewan

Dalam penelitian ini yang menjadi rumusan masalah adalah: Apakah penerapan model konseling Reality Therapy dapat mengatasi siswa yang suka berkelahi di kelas

Indeks kepuasan konsumen merupakan hal yang sangat penting untuk mengukur kepuasan konsumen dalam melakukan suatu transaksi karena konsumen dapat memberikan

adres unik global berbasis Internet rotocol (IP) atau ekstensi-nya;. Ø  mampu menunjang komunikasi

kehidupannya, dia memilih untuk tetap mengucap syukur di tengah pergumulan yang dihadapi. Dalam keadaan yang Rasul Paulus alami ketika di penjara di Roma, di mana ia

Tujuan penelitian ini adalah diketahui hubungan tingkat pendidikan dan pelatihan dengan keaktifan kader posyandu di Wilayah Kerja Puskesmas Punggur

Kondisi mangrove di desa Timbul Sloko, Kecamatan Sayung, Kabupaten Demak telah mengalami kerusakan akibat abrasi. Hutan mangrove di Kabupaten Demak merupakan salah