• Tidak ada hasil yang ditemukan

Simulasi Deteksi Otomatis Spam Email Berkonten Pornografi

N/A
N/A
Protected

Academic year: 2018

Membagikan "Simulasi Deteksi Otomatis Spam Email Berkonten Pornografi"

Copied!
57
0
0

Teks penuh

(1)

commit to user

SIMULASI DETEKSI OTOMATIS

SPAM

EMAIL

BERKONTEN PORNOGRAFI

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Jurusan Informatika

Disusun Oleh:

Retisa Heryati Siwi

NIM. M0507036

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

(2)

commit to user

i

SIMULASI DETEKSI OTOMATIS

SPAM

EMAIL

BERKONTEN PORNOGRAFI

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Jurusan Informatika

Disusun Oleh:

Retisa Heryati Siwi

NIM. M0507036

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

(3)

commit to user

(4)

commit to user

iii MOTTO

(Martin Luther King, Jr)

"Be the Best of Whatever You Are"

(Douglas Malloch)

bout process

not result. Just give your best on your journey, do your best

(5)

commit to user

iv

(6)

commit to user

v

KATA PENGANTAR

Bismillahirrahmaanirrahiim

senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul Simulasi Deteksi Otomatis Spam Email

Berkonten Pornografi , yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta.

Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :

1. Ibu Dewi Wisnu Wardani, S. Kom, M. S., Dosen Pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

2. Bapak Wisnu Widiarto, S.Si, M. Kom., Dosen Pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

3. Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

4. Bapak Drs. YS. Palgunadi, M.Sc., Pembimbing Akademik yang telah banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di Jurusan Informatika FMIPA UNS,

5. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini.

6. Ayah, ibu, dan kakakku tercinta yang tidak henti-hentinya mendukung serta mendoakan yang terbaik bagi penulis,

(7)

commit to user

vi

yang memberikan dukungan, semangat dan doa selama berjuang di Informatika UNS ini

Alka yang selama ini berjuang bersama, juga untuk sahabatku Fitria dan Dyah yang selalu menjadi pendengar semua keluhanku.

8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung dalam penulisan tugas akhir ini yang tidak dapat disebutkan satu persatu, terimakasih banyak atas semua bantuan, doa, serta dukungannya.

Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah diberikan dengan balasan yang lebih baik. Dan semoga skripsi ini dapat memeberikan manfaat bagi pembaca umumnya dan mahasiswa Informatika pada khususnya.

(8)

commit to user

vii

SIMULASI DETEKSI OTOMATIS

SPAM EMAIL BERKONTEN PORNOGRAFI

RETISA HERYATI SIWI

Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret

ABSTRAK

Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik yang mengandung banyak hal yang mengakibatkan ketidaknyamanan bagi para pengguna web. Salah satu konten spam yang sangat meresahkan adalah pornografi. Penelitian mengenai spam telah dilaukan dengan berbagai metode, antara lain degan metode pendekatan Bayesian, metode penggabungan classifier, metode pendataan statistik url spam, dan lain sebagainya.

Metode yang dikembangkan dalam pembangunan program simulasi ini cukup sederhana.Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan antara metadata keywords dengan keywords porno yang sudah ada di dalam database.

Hasil yang diperoleh adalah sebuah program yang dapat digunakan untuk mensimulasikan proses pendeteksian spam email porno di dalam email server. Dari hasil pengujian hasil didapatkan tingkat keakuratan pendeteksian untuk url yang sudah terdapat di dalam database mencapai 100%, sedangkan tingkat keakuratan untuk url yang belum terdapat di dalam database mencapai 91.4%. Sementara itu dari hasil pengujian runtime didapatkan rata-rata runtime pendeteksian untuk url yang sudah terdapat di dalam databaseadalah 0.15 detik, sedangkan rata-rata runtime untuk url yang belum terdapat di dalam database adalah 5.15 detik.

(9)

commit to user

viii

SIMULATION OF AUTOMATIC DETECTION

OF PORNOGRAPHIC-CONTAINED SPAM EMAIL

RETISA HERYATI SIWI

Department of Informatics. Mathematics and Science Faculty.

Sebelas Maret University

ABSTRACT

Spam or junk e-mail is abuse in the electronic delivery of news which contained many things that lead to discomfort for the web user. A very disturbing content of spam is pornographic. Research on spam have taken place with a variety of methods, including Bayesian approach method, join of classifier method, collection of url spam statistical data method, and so forth.

The method which was developed in the construction of this simulation program was quite simple. Method which was used in the construction of the simulation program used the principle of information retrieval to retrieve metadata keywords. Using Jaccard Similarity to calculate similarity between metadata keywords with porn keywords which have already existed in the database.

Obtained- result was a program that could be used to simulate the porn email spam detection in email server. From the experimental results, the accuracy of detection for the urls which have already existed in the database reaches 100%, while the level of accuracy for a urls which haven't been existed in the database reaches 91.4%. Meanwhile, from the runtime experimental obtained the average runtime for urls which have been existed in the database was 0.15 seconds, while the average runtime for the urls that haven't been existed in the database was 5.15 seconds.

(10)

commit to user

ix DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PENGESAHAN ... ii

HALAMAN MOTTO ... iii

HALAMAN PERSEMBAHAN ... iv

KATA PENGANTAR ... v

ABSTRAK ... viii

ABSTRACT ... viii

DAFTAR ISI ... ix

DAFTAR TABEL ... xi

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 3

1.3 Batasan Masalah ... 3

1.4 Tujuan dan Manfaat Penelitian ... 3

1.4.1 Tujuan Penelitian ... 3

1.4.2 Manfaat Penelitian ... 3

1.6 Sistematika Penulisan ... 4

BAB II TINJAUAN PUSTAKA ... 5

2.1 Dasar Teori ... 5

2.1.1 Email... 5

2.1.2 Spam ... 5

2.1.3 Email Server ... 6

2.1.3.1 SMTP (Simple Mail Transfer Protocol) ... 7

2.1.3.2 POP (Post Office Protocol) ... 8

2.1.3.3 IMAP (Internet Message Access Protocol) ... 9

2.1.3.4 Mail User Agent ... 10

(11)

commit to user

x

2.1.3.6 Mail Transfer Agent ... 11

2.1.3.7 DNS Server ... 11

2.1.4 Email Filtering ... 12

2.1.5 Information Retrieval ... 12

2.1.6 Metadata ... 13

2.1.7 Jaccard Similarity ... 14

2.2 Penelitian Terkait ... 14

BAB III METODE PENELITIAN ... 18

3.1 Studi Literatur ... 18

3.2 Tahap Perancangan ... 18

3.2.1 Perancangan framework ... 18

3.2.2 Perancangan flowchart ... 18

3.3 Tahap Implementasi ... 18

3.4 Tahap Pengujian ... 19

BAB IV PEMBAHASAN ... 20

4.1 Analisis Kebutuhan ... 20

4.1.1 Deskripsi Umum Simulasi ... 20

4.1.2 Fungsi- fungsi Di dalam Program Simulasi ... 22

4.2 Perancangan ... 23

4.2.1 Arsitektur Simulasi Pendeteksian Email ... 23

4.2.2 Flowchart Pendektesian Email ... 25

4.3 Pengujian Program Simulasi ... 27

BAB V PENUTUP ... 44

5.1 Kesimpulan ... 44

5.2 Saran ... 44

DAFTAR PUSTAKA ... 45

(12)

commit to user

xi

DAFTAR TABEL

Tabel 4.1 Tabel Lingkungan Pengujian Pendeteksian Email ... 28 Tabel 4.2 Tabel Dataset Pengujian ... 29 Tabel 4.3 Tabel Pengujian Hasil Pendeteksian Email dengan Url Terdapat Di dalam Database ... 30 Tabel 4.4 Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database ... 31 Tabel 4.5 Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url ... 33 Tabel 4.6 Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database ... 36 Tabel 4.7 Tabel Pengujian Runtime dengan Url Tidak Terdapat Di dalam Database ... 37

(13)

commit to user

xii

DAFTAR GAMBAR

Gambar 2.1. Arsitektur Email (Novasandro, 2009) ... 7

Gambar 4.1. Arsitektur Simulasi Pendeteksian Email ... 23

Gambar 4.2. Flowchart Pendektesian Email ... 25

Gambar 4.3. Grafik Tingkat Akurasi Pendeteksian Email... 35

(14)

commit to user

xiii

DAFTAR LAMPIRAN

(15)

commit to user

1 BAB I

PENDAHULUAN

1.1 Latar Belakang

Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan

sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebaban berkurangnya produktivitas (Zhu, 2011). Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web (Rahardjo, 2006). Sifat-sifat utama spam antara lain isi atau konten dari email tidak relevan dengan minat penerima dan penerima tidak dapat menolak datangnya email yang tidak diminta tersebut dengan cara-cara lazim (Lambert, 2003). Seperti disebutkan sebelumnya, isi atau konten dari spam ini bermacam-macam, seperti iklan, berita, dan lain sebagainya. Salah satu isi spam yang sangat meresahkan adalah pornografi.

Spam dalam simulasi pendeteksian email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno. Setelah proses pendeteksian, email akan dikategorian menjadi 2 yaitu email aman dan email porno.

(16)

commit to user

Bayesian Filter tidak bekerja dengan baik bila pesan yang telah diblokir kemudian

dihapus.

Penelitian Sakkis et al. (2001) mengevaluasi secara empiris skema untuk menggabungkan beberapa classifier untuk pendeteksian spam. Aplikasi ini berdasarkan pengkategorisasian teks. Penelitian ini menggunakan korpus publik, penelitian ini menunjukkan bahwa stacking atau penggabungan beberapa

classifier tersebut dapat meningkatkan efisiensi pendeteksian spam secara

otomatis, dan bahwa filter tersebut dapat digunakan dalam aplikasi real-life. Selanjutnya Kim et al. (2005) menyajikan teknik pendeteksian spam mail yang unik berbasis pada analisis mendalam statistik url yang dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan, kemudian memasukkan url-url tersebut dalam sebuah daftar hitam, sehingga waktu pendeteksian spam email berkurang secara signifikan. Selain itu, diusulkan teknik pendeteksian dengan pembaruan daftar url secara dinamis melalui umpan balik klien, sehingga kesalahan yang ditemukan dalam metode pendeteksian ini dapat dihilangkan.

Selain itu terdapat juga penelitian mengenai pengklasifikasian email, salah satunya Manco et al. (2002). Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi terstruktur dan tidak terstruktur yang

diekstrak dari pesan email. Beberapa hasil percobaan awal menunjukkan efektifitas metode ini, baik dari segi efisiensi maupun dari sudut pandang kualitas hasil .

Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata

keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan

antara metadata keywords dengan keywords porno yang sudah ada di dalam database.

(17)

commit to user

3

1.2 Rumusan Masalah

Rumusan masalah dari latar belakang masalah yang telah diuraikan diatas adalah bagaimana memanfatkan information retrieval untuk mensimulasikan penyaringan email sehingga dapat digunakan untuk mengetahui apakah email tersebut mengandung konten pornografi.

1.3 Batasan Masalah

Batasan masalah dari penelitian ini adalah sebagai berikut :

1. Pengujian yang dilakukan hanya berupa simulasi dan bukan diuji pada email server yang sebenarnya

2. Diasumsikan email berbentuk text file (.txt).

3. Diasumsikan semua url diawali dengan http:// atau https:// atau ftp:// atau ftps://.

4. Simulasi pendeteksian email berkonten pornografi ini hanya menggunakan text mining dan tidak mendeteksi gambar ataupun media yang lain.

1.4 Tujuan dan Manfaat Penelitian

1.4.1 Tujuan Penelitian

Tujuan dari penelitian ini adalah memanfatkan information retrieval untuk mensimulasikan penyaringan email di dalam email server yang dapat digunakan untuk menyaring dan mengelompokkan email yang mengandung konten pornografi.

1.4.2 Manfaat Penelitian

(18)

commit to user

1.6 Sistematika Penulisan

Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut: BAB I PENDAHULUAN

Bab pendahuluan memuat tentang latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan laporan tugas akhir.

BAB II TINJAUAN PUSTAKA

Bab tinjauan pustaka menguraikan dasar teori yang mendasari pembahasan secara detail, penelitian terkait yang pernah dilakukan serta rencana penelitian yang akan dilakukan dalam tugas akhir.

BAB III METODE PENELITIAN

Bab metode penelitian menguraikan tentang gambaran objek penelitian, serta gambaran langkah-langkah yang dilakukan oleh penulis untuk melaksanakan dan menyelesaikan penelitian ini.

BAB IV PEMBAHASAN

Bab pembahasan memaparkan hasil-hasil dari tahapan penelitian, yaitu tahap analisis dan implementasi serta hasil pengujian berupa penjelasan teoritik, baik secara kualitatif, kuantitatif, atau secara statistik.

BAB V PENUTUP

(19)

commit to user

5 BAB II

LANDASAN TEORI

2.1 Dasar Teori

2.1.1 Email

Surat elektronik yang biasa disingkat surat-e atau yang biasanya di sebut email adalah sarana kirim mengirim surat melalui jalur internet. Email merupakan

salah satu layanan internet yang paling banyak digunakan, serta merupakan media komunikasi yang murah, cepat, dan mudah penggunaannya. (Jatmika, 2010)

Elektronik mail atau biasa disingkat sebagai email, merupakan sebuah metode untuk mengirimkan pesan dalam bentuk digital. Pesan ini biasanya dikirimkan melalui medium internet. Sebuah pesan elektronis terdiri dari isi, alamat pengirim, dan alamat-alamat yang dituju. (Novasandro, 2009)

2.1.2. Spam

Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan

sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebabkan berkurangnya produktivitas . (Zhu et al., 2011)

Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web. Spam adalah unsolicited email yang dikirim ke banyak orang. (Raharjo, 2006)

Sifat-sifat spam antara lain:

1. Isi atau konten dari email tidak relevan dengan minat penerima.

(20)

commit to user

3. Pengiriman dan penerimaan pesan tersebut hanya memberikan keuntungan bagi pengirimnya. (Lambert, 2003)

Spam dapat dikategorikan sebagai berikut:

1. Junk mail, yaitu email yang dikirimkan secara besar-besaran dari suatu

perusahaan atau prseorangan yang sifatnya tidak diinginkan.

2. Non-comercial spam, misalnya surat berantai atau cerita humor yang

dikirimkan secara massal tanpa tujuan komersial tertentu.

3. Pornographic spam, yaitu email yang dikirimkan secara massal untuk

mengirimkan konten-konten pornografi.

4. Virus spam, yaitu email yang dikirimkan secara massal dan mengandung virus

atau Trojans.(Jatmika, 2010)

2.1.3 EmailServer

Sistem email yang beroperasi di atas jaringan berbasis pada model store

and forward. Sistem ini mengaplikasikan sebuah sistem server email yang

menerima, meneruskan, mengirimkan, serta menyimpan pesan-pesan user, dimana user hanya perlu untuk mengkoneksikan pc mereka ke dalam jaringan. Email dapat dianalogikan dengan kotak surat yang ada di kantor POS sedangkan

server email dapat diibaratkan sebagai kantor POS. Dengan analogi ini sebuah

mail server dapat memiliki banyak account email yang ada didalamnya. Penulisan

email dan e-mail sama saja. Namun lebih direkomendasikan untuk menuliskannya

sebagai email. Pada RFC, spelling email yang digunakan adalah mail, dan sebuah

email dinamakan sebagai sebuah message. RFC yang baru dan grup IETF

membutuhkan penulisan email yang konsisten dari segi kapitalisasinya, penggunan underscorenya, serta ejaannya. Untuk mengirim sebuah email dari alamat email yang satu ke alamat email yang lain digunakan sebauh protocol (aturan) yaitu Simple Mail Transfer Protocol SMTP. Protocol SMTP telah menjadi aturan dasar yang disepakati untuk pengiriman email. Dengan demikian semua software email server pasti mendukung protokol ini.

(21)

commit to user

7

klien. Sedangkan untuk klien, digunakan protokol imap imaps pop3 pop3s. Supaya sebuah mail server dapat di akses oleh klien, dikembangkan sebuah aplikasi dimana klien dapat mengakses email dari sebuah email server. IMAP adalah sebuah aplikasi pada layer Internet protokol yang memungkinkan klien untuk mengakses email yang ada di server. Selain IMAP ada juga POP3 yang fungsinya sama dengan imap, akan tetapi memiliki karakteristik yang berbeda dalam cara pengaksesan pada server. (Novasandro, 2009)

Gambar 2.1. Arsitektur Email (Novasandro, 2009)

2.1.3.1 SMTP (Simple Mail Transfer Protocol)

Simple Mail Transfer Protocol adalah protokol standar untuk pengiriman

electronic mail (email) di internet. SMTP adalah protokol yang cukup sederhana, berbasis teks dimana protokol ini menyebutkan satu atau lebih penerima email untuk kemudian diverifikasi. Jika penerima email valid, maka email akan segera dikirim. SMTP menggunakan port 25 dan dapat dihubungi melalui program telnet. Agar dapat menggunakan SMTP server lewat nama domain, maka record DNS (Domain Name Server) pada bagian MX (Mail Exchanger) digunakan. Sendmail

(22)

commit to user

Kemudian, pada tahun 2001, ada sedikitnya 50 program Mail Transfer Agent yang mengimplementasikan SMTP baik sebagai klien maupun sebagai server. Contoh

Mail Transfer Agent yang populer adalah: Exim, IBM Postfix,

Qmail.(Novasandro, 2009)

Karena protokol SMTP berawal dari protokol yang benar-benar berbasis teks ASCII, maka SMTP tidak bekerja terlalu baik dalam mengirimkan file-file binary. Standar untuk mengencode file-file biner agar dapat dikirimkan lewat SMTP dikembangkan dan menelurkan standar-standar seperti MIME

(Multipurposes Internet Mail Extensions). Saat ini, hampir semua SMTP server

mendukung 8 BIT MIME, yang dapat mengirimkan file-file biner semudah mengirimkan file teks. SMTP hanya protokol yang melakukan push, artinya dia hanya bisa mengambil email dari klien tetapi tidak bisa melakukan pull, yaitu melayani pengambilan email di server oleh klien. Pengambilan pesan atau email tersebut dilakukan dengan menggunakan protocol tersendiri yaitu protokop POP3 (Post Office Protokol) atau IMAP (Internet Message Access Protocol).

(Novasandro, 2009)

MIME adalah format standar internet untuk email. MIME mendefinisikan pengiriman pesan selain 8 bit karakter ASCII dengan file yang berisi gambar, suara, movie, dan program komputer. MIME adalah salah satu komponen dasar pendukung protokol HTTP. (Novasandro, 2009)

2.1.3.2 POP (Post Office Protocol)

POP atau Post Office Protocol, sesuai dengan namanya merupakan protokol yang digunakan untuk pengelolaan mail. POP yang sekarang lebih umum dikenal dengan POP3 (POP - Version 3), dimaksudkan untuk mengizinkan klien untuk mengakses secara dinamis mail yang masih ada di POP3 server. POP3 menawarkan pada user untuk meninggalkan mail-nya di POP3 server, dan mengambil mail-nya tersebut dari sejumlah sistem sembarang.

(23)

commit to user

9

Mailtool, QualComm Inc.'s Eudora, Netscape Comm. Corp.'s Netscape Mail dan Microsoft Corp.'s Outlook Express. POP3 tidak dimaksudkan untuk menyediakan operasi manipulasi mail yang ada di server secara luas. Pada POP3, mail diambil dari server dan kemudian dihapus (bisa juga tidak dihapus).

Ada dua jenis mode pada POP3 yaitu mode offline dan mode inline. Pada mode offline, POP3 mengambil dan kemudian menghapus mail yang tersimpan dari server. POP3 bekerja dengan baik pada mode ini, karena terutama memang didesain untuk berlaku sebagai sebuah sistem mail yang memiliki sifat store and forward. Server, pada mode offline, berlaku seperti sebuah tempat penampungan

yang menyimpan mail sampai user memintanya. Pada mode inline, POP3 akan mengambil mail dari server tanpa menghapus mail yang sudah diambil tersebut. Mode ini lebih disukai oleh user yang sering berpindah tempat (nomadic user) karena memungkinkan mereka untuk melihat mail yang sama dari tempat atau komputer yang berbeda. Akan tetapi untuk nomadic user yang selalu bekerja dan bepergian dengan selalu membawa notebook, dan tetap menginginkan agar mail miliknya yang ada di server tidak dihapus, tentu saja menginginkan agar setiap kali mengambil mail tidak semua mail yang akan terambil, tapi hanya mail yang belum pernah dia lihat saja yang akan diambil. Keinginan user seperti ini dapat dipenuhi dengan menggunakan informasi pada klien yang memungkinkan untuk memberi tanda mail yang sudah pernah dilihat. Setiap klien layanan POP3 yang mendukung mode inline akan menyimpan informasi ini dalam sebuah file. Pada user yang menggunakan Netscape Mail, file yang menyimpan informasi ini adalah file popstate.dat, yang biasanya terdapat di /Program Files/Netscape/Users/Mail. File tersebut memberi tahu mail yang mana saja yang sudah diambil sehingga tidak perlu diambil lagi. Jika file ini dihapus maka tentu saja pada pengambilan mail berikutnya semua mail akan terambil. (Novasandro dkk, 2009)

2.1.3.3 IMAP (Internet Message Access Protocol)

(24)

commit to user

protokol sebagai sarana untuk mentransfer email dari server, seperti yang digunakan oleh Gmail ke klien, seperti Mozilla Thunderbird, Apple Mail dan Microsoft Outlook.

IMAP memiliki berbagai keunggulan bila dibandingkan dengan POP3 antara lain:

Memiliki 2 mode operasi : Connected dan Disconnected

Banyak pengguna dapat tersambungkan dengan sebuah mailbox yang sama secara simultan

Informasi berisikan status pesan Banyak mailboxes di dalam server Pencarian di bagian server

Namun, IMAP juga memiliki beberapa kekurangan. Tingkat kompleksitas akan bertambah ketika menggunakan IMAP. Misalnya, beberapa klien mengakses kotak surat yang sama pada saat yang sama perlu dilakukan untuk meng-kompensasikan server-side workarounds seperti Maildir atau database backends. (Novasandro dkk, 2009)

2.1.3.4 Mail User Agent

Definisi MUA (Mail User Agent) menurut FOLDOC adalah sebuah program atau aplikasi yang digunakan oleh seorang pengguna komputer untuk menulis atau membuat suatu email serta digunakan untuk membacanya . MUA merupakan penghubung antara pengguna dan MTA. (Afriansyah, 2011)

(25)

commit to user

11

2.1.3.5 Mail Delivery Agent

Sebuah pengiriman email agen atau agen pengiriman pesan (MDA) adalah sebuah perangkat lunak komputer komponen yang bertanggung jawab untuk pengiriman pesan e-mail ke kotak surat penerima lokal. Dalam arsitektur Internet mail, pengiriman pesan lokal dicapai melalui proses penanganan pesan dari agen transfer pesan, dan menyimpan surat ke lingkungan penerima (biasanya kotak surat). (Afriansyah, 2011)

MDA (Mail Delivery Agent ) bekerja sama dengan MTA untuk menangani pesan - pesan email yang datang untuk diletakkan sesuai pada mailbox user masing - masing. Didalam beberapa kasus, MDA sebenarnya yaitu sebuah Local Delivery Agent ( LDA ) seperti mail atau procmail.

2.1.3.6 Mail Transfer Agent

Menurut FOLDOC (Free Online Dictionary of Computing) definisi dari

MTA (Message Transfer Agent) adalah suatu program yang bertanggung jawab

dalam hal pengiriman sebuah email ke suatu tujuan alamat . Program ini biasanya akan menjadi sebuah daemon dan membuka koneksi pada port 25 (SMTP) yang digunakan sebagai penghubung antar MTA. (Afransyah, 2011)

MTA (Mail Transfer Agent ) yaitu mengirimkan atau mentransfer email

antar komputer dengan menggunakan SMTP. Sebuah pesan email mungkin saja sebelum sampai ketujuan melewati beberapa SMTP server lainnya. Contoh aplikasi MTA yaitu : sendmail, postfix, dan lain lain.

2.1.3.7 DNS Server

(26)

commit to user

alamat tujuan. Pesan tersebut disimpan di mail server tujuan sampai tiba saatnya pengguna mendownload Email. (Amri, 2003)

2.1.4 EmailFiltering

Email fitering adalah suatu proses yang otomatis akan mendeteksi sebuah

email apakah termasuk legitimate email atau bukan. Beberapa metode yang

digunakan untuk email filtering antara lain Keyword filtering, Black listing and White listing, Signature-based filtering, Naïve Bayesian filtering.

Beberapa karakteristik dari email filtering adalah: 1. Binary Class

Email filtering hanya mengklasifikasi email ke dalam kelas legitimate email

atau bukan. 2. Prediksi

Email filtering mampu melakukan prediksi kelas dari suatu email.

3. Komputasi mudah

Mengingat sifat data email yang memiliki dimensi tinggi, maka dibutuhkan sebuah email filter yang mampu melakukan komputasi dengan mudah.

4. Learning

Mampu melakukan learning dari email-email yang sudah ada sebelumnya. 5. Kinerja yang bagus

Memiliki akurasi yang tinggi, meminimalkan nilai false positive da mentolelir nilai false negative yang cukup tinggi. (Jatmika, 2010)

2.1.5 Information Retrieval

Information retrieval atau sistem temu kembali informasi berkaitan

(27)

commit to user

13

2.1.6 Metadata

Menurut Sicilia (2006) definisi yang paling umum untuk metadata mengatakan, "Metadata adalah data tentang data '. Tapi ini definisi umum ini tidak menangkap banyaknya kemungkinan deskripsi untuk sumber daya digital.

Sementara itu, Greenberg (2003) mendefinisikan metadata sebagai data terstruktur tentang obyek yang mendukung fungsi yang terkait dengan objek yang ditunjuk. Struktur dalam metadata mensyaratkan bahwa informasi disusun secara sistematis, dan ini adalah suatu aspek yang jauh dari kontroversi, terutama karena adanya fakta bahwa saat ini metadata dalam banyak domain adalah sebuah subjek untuk standardisasi.

Lain dengan Xiong et al. (2011) yang berpendapat bahwa metadata adalah data yang menggambarkan organisasi dan struktur file, biasanya termasuk isi direktori, atribut file, pointer berkas blok, organisasi dan informasi bentuk dari ruang fisik, dll. Pengolahan metadata tidak hanya mencakup pemeliharaan namespace, tetapi juga atribut file dan lokasi blok file.

Metadata memberikan fungsi yang sama seperti katalog yaitu:

membuat sumberdaya bisa ditemukan dengan menggunakan kriteria yang relevan;

mengidentifikasi sumberdaya

mengelompokkan sumberdaya yang serupa

membedakan sumberdaya yang tak miliki kesamaan memberikan informasi lokasi

Bretheron, F. P & Singley (1994) membagi metadata atas 2 kelas:

structural/control metadata dan guide metadata. Dimana Structural metadata

adalah digunakan untuk menjelaskan struktur dari sistem dari komputer seperti table, kolom dan index. Guide metadata adalah digunakan untuk membantu pengguna mencari item-item tertentu yang biasanya ditampilkan dengan menggunakan kata kunci/keywords dalam bahasa sehari-hari.

NISO (2004) membedakan metadata menjadi tiga tipe: descriptive,

structural dan administrative. Descriptive metadata adalah informasi yang

(28)

commit to user

subyek, kata kunci, penerbit; structural metadata memberikan deskripsi bagaimana komponen dari setiap object diorganisir; dan administrative metadata mengacu pada informasi teknis misalnya tipe file. Ada 2 tipe administrative metadata yaitu metadata hak cipta dan metadata pengelola. (NISO, 2004)

2.1.7 Jaccard Similarity

Juga dikenal sebagai indeks Jaccard, dengan koefisien kemiripan Jaccard adalah ukuran statistik kemiripan antara set sampel. Untuk dua set, Jaccard

Similarity dapat dicari dengan menbagi kardinalitas dari intersection dibagi

dengan kardinalitas union. Misalkan ada 2 buah himpunan atau set sampel A dan B, maka secara matematis dapat ditulis sebagai berikut: (Bank, 2008)

2.2 Penelitian Terkait

Penelitian yang terkait dengan email filtering yang telah dilakukan sebelumnya antara lain adalah sebagai berikut:

1. Spam Mail Filtering through Dynamically Updating Url Statistics

(Kim et al., 2005)

Makalah ini menyajikan teknik penyaringan spam mail yang unik berbasis pada analisis mendalam statistik url dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan. Karena teknik penyaringan email yang diusulkan hanya mencari url di

email, overhead diperkenalkan dengan mencari isi semua surat atau daftar hitam

(29)

commit to user

15

2. Towards an Adaptive Mail Classifier (Manco et al., 2002)

Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk keseluruhan arsitektur untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi tersruktur dan tidak terstruktur yang diekstrak dari pesan email tanpa supervisi, dan memanfaatkan algoritma yang dihasilkan dalam proses penciptaan dan pengelolaan folder serta email redirection. Beberapa hasil percobaan awal menunjukkan efektivitas teknik, baik

dari efisiensi dan sudut pandang kualitas hasil.

3. Workload Characterization of Spam Email Filtering Systems (Luo et al.,

2010)

Sistem pelayanan email telah rusak cukup parah dengan adanya spam atau email yang tidak diinginkan. Hal ini dapat terjadi karena belum adanya layanan penyaringan email yang dapat mengimbangi kecepatan dari perkembangan layanan email yang tersedia. Penelitian ini berusaha mengatasi masalah tersebut dengan memanfaatkan dukungan dari arsitertur computer. Dalam tulisan ini, sebagai langkah pertama menuju desain arsitektur baru, disajikan data-data dari pengukuran kinerja system penyaringan email yang tersedia seperti CRM114, DSPAM, SpamAssassin dan TREC Bogofilter. Penelitian ini menganalisis secara rinci mengenai waktu performansi dari system penyaringen email tersebut, juga menunjukkan bagaimana arsitektur dari prosesor computer berpengaruh terhadap kinerja dari system penyaringan email tersebut.

4. Stacking Classifiers for Anti-Spam Filtering of Email (Sakkis et al., 2001)

Penelitian ini mengevaluasi secara empiris skema untuk menggabungkan classifier, yang dikenal sebagai generalisasi tertumpuk, dalam konteks

penyaringan anti-spam, aplikasi berbiaya sensitif untuk pengkategorisasian teks.

Email komersial yang tidak diminta atau spam, membanjiri kotak surat,

(30)

commit to user

menunjukkan bahwa stacking dapat meningkatkan efisiensi penginduksian filter

anti-spam secara otomatis, dan bahwa filter tersebut dapat digunakan dalam

aplikasi real-life.

5. IEMS (The Intelligent Email Sorter) (Crawford et al., 2002)

Klasifikasi email merupakan tugas sehari-hari yang penting bagi sejumlah besar pengguna layanan email yang terus berkembang. Makalah ini menggambarkan pendekatan pembelajaran mesin yang mendasari sistem IEMS. Sistem ini memiliki dua aspek distictive: sistem ini menawarkan pemandangan di kotak masuk berdasarkan klasifikasi pesan terprediksi; dan menyediakan pengguna dengan rincian keakuratan prediksi dan proses yang mendasarinya. Sistem ini memperkenalkan aturan pembelajarn komposit yang mengklasifikasikan mail dengan menggabungkan pendekatan berbasis contoh yang membangun deskripsi eksplisit umum. Hal ini dimaksudkan dalam rangka untuk mencapai aturan klasifikasi yang dapat dimengerti, ringkas dan efektif. Penelitian ini melaporkan hasil dari pemnbelajaran serta beberapa data lain dari lima pengguna yang menerapkan cara yang berbeda untuk mengklasifikasi email mereka. Penelitian ini juga membahas implikasi dari hasil yang dicapai, seperti performansi dalam pendekatan pembelajaran, sensitivitas dalam pemusatan konsep dan kemudahan dengan aturan klasifikasi yang bisa dipahami oleh pengguna.

6. A Bayesian Approach to Filtering Junk Email: In Learning for Text

Categorization (Sahami et al., 1998)

(31)

commit to user

17

terlihat seperti masalah pengklasifikasian teks biasa, tetapi penelitian ini menunjukkan bahwa dengan mempertimbangkan fitur domain spesifik fitur masalah ini juga menyangkut masalah teks baku pada pesan email, dengan demikian dapat dihasilkan filter jauh lebih akurat. Akhirnya, pejelitian ini menunjukkan keampuhan filter tersebut dalam skenario penggunaan di dunia nyata, dan menyatakan bahwa teknologi ini layak dikembangkan.

7. An Evaluation of Naive Bayesian Anti-Spam Filtering

(Androutsopoulos et al., 2000)

Penelitian ini mengevaluasi metode Naïve Bayesian untuk penyaringan email. Berdasarkan penelitian ini, metode Naïve Bayesian masih memiliki kelemahan, yaitu meskipun memiliki spam recall dan presisi yang tinggi, metode ini tidak bekerja dengan baik bila pesan yang telah diblokir kemudian dihapus.

2.3 Rencana Penelitian

Rencana penelitian pada skripsi ini antara lain :

1. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini memanfaatkan prinsip information retrieval.

2. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang ditelusuri sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database.

3. Jaccard Similarity dalam program simulasi ini akan digunakan untuk

(32)

commit to user

18 BAB III

METODE PENELITIAN

Metodologi penelitian yang digunakan dalam penulisan skripsi ini adalah pembangunan program untuk mensimulasikan pendeteksian email dan disertai dengan studi literatur. Langkah-langkah yang dilakukan dalam penelitian skripsi ini adalah sebagai berikut:

3.1 Studi Literatur

Studi literatur dilakukan dengan mencari dan mengumpulkan referensi berupa jurnal, skripsi, serta tesis, maupun artikel yang berkaitan dengan email filtering dan information retrieval. Keluaran yang diperoleh dari tahap ini adalah

rangkuman dasar teori dan penelitian terkait yang pernah dilakukan sebelumnya.

3.2 Tahap Perancangan

3.2.1 Perancangan framework

Pada tahap ini yang dirancang adalah framework yang digunakan untuk mensimulasikan proses pendeteksian email.

3.2.2 Perancangan flowchart

Pada tahap ini yang dirancang adalah flowchart yang digunakan untuk mensimulasikan proses pendeteksian email.

3.3 Tahap Implementasi

Dalam tahap implementasi ini terdapat 3 kegiatan inti, yaitu: 1. Pembuatan Database

Database pada program simulasi pendeteksian email ini dibuat dengan

Database Management System (DBMS) MySQL.

2. Pembuatan Kode Program

(33)

commit to user

19

bisa digunakan. Rangkaian kode tersebut menggunakan bahasa pemrograman PHP (Hypertext Preprocessor).

3. Debugging

Debugging dilakukan untuk pengujian terhadap program dalam mencari

error yang masih terdapat pada program, untuk selanjutnya diperbaiki.

3.4 Tahap Pengujian

Pengujian ini akan dilakukan dengan 2 cara yaitu :

1. Menguji hasil pendeteksian email dengan melihat hasil/keluaran dari beberapa contoh yang dimasukkan ke dalam program.

(34)

commit to user

20 BAB IV

PEMBAHASAN

4.1 Analisis Kebutuhan

4.1.1 Deskripsi Umum Simulasi

Beberapa poin penting yang harus diperhatikan dalam simulasi ini, antara lain:

1. Spam yang dimaksud dalam simulasi pendeteksian spam email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno.

2. Setelah proses pendeteksian, email akan dikategorikan menjadi 2 yaitu email aman dan email porno.

3. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini cukup sederhana yaitu dengan memanfaatkan prinsip information retrieval. Program akan membaca menelusuri url yang terdapat di dalam email kemudian mengambil metadata keywords dari url tersebut untuk dibandingkan dan dihitung kemiripannya dengan keywords porno yang ada di database dengan menggunakan jaccard similarity.

4. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang dituju sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database.

5. Jaccard Similarity dalam program simulasi ini akan digunakan untuk

menghitung kemiripan antara metadata keywords yang diperoleh dari url dengan keywords porno yang sudah terdapat di dalam database.

6. Ambang batas Jaccard Similarity adalah 0.1, yang berarti bila Jaccard

Similarity< 0.1 maka akan dideteksi sebagai url aman, sebaliknya bila

(35)

commit to user

21

7. Ambang batas Jaccard Similarity diberi nilai 0.1 atau 10% karena diasumsikan bahwa kata-kata yang terdapat dalam database keywords porno merupakan kata-kata yang mewakili metadata keywords yang terdapat di dalam url porno, sedangkan metadata keywords dalam url sendiri mewakili keseluruhan isi dari url tersebut. Jadi jika ada 1 kata yang sama dari 10 gabungan kata dari metadata keywords dan dari database keywords porno, maka dapat diasumsikan url tersebut adalah url porno

8. Alasan digunakannya Jaccard Similarity dalam simulasi ini adalah:

Jaccard Similarity dalam penghitungan intersectionnya mempunyai sifat

exact atau harus sama persis. Maksudnya di dalam Jaccard similarity

hanya ada nilai 1 dan 0, 1 jika sama persis, 0 jika tidak sama. Misal di terdapat sebuah set sampel A yang berisi sebuah kata yaitu PORN, kemudian ada set sampel B yang berisi kata-kata CORN, HORN, PORN, BORN, dan TORN, maka intersection dari 2 set sampel A dan B tersebut

bernilai 1, karena hanya 1 kata yang sama persis denga kata yang diharapkan, yaitu PORN. Hal ini sangat penting dalam simulasi pendeteksian email ini, karena dalam simulasi pendeteksian email ini intersection diambil dari kata-kata yang terdapat dalam metadata

keywords yang harus sama persis dengan kata-kata yang terdapat di

dalam keywords porno yang terdapat di dalam database, mengingat kata-kata tersebut adalah karakteristik yang menentukan sebuah url adalah url porno atau bukan.

Penghitungan Jaccard Similarity dinilai mudah dan tidak memerlukan waktu eksekusi atau runtime yang lama. Hal ini sangat penting dalam simulasi pendeteksian email ini mengingat jika nanti simulasi pendeteksian email ini akan diwujudnyatakan ke dalam sebuah email

sever yang sebenarnya, maka waktu eksekusi atau runtime merupakan

(36)

commit to user

1.1.2 Fungsi- fungsi di Dalam Program Simulasi

Program untuk simulasi email filtering ini memiliki fungsi-fungsi antara lain sebagai berikut:

1. Fungsi Input Source email

Merupakan fungsi untuk memasukkan file email yang berupa text file (.txt) untuk disaring.

2. Fungsi cek status email

Merupakan fungsi untuk mengecek status email, apakah email sudah difilter atau belum.

3. Fungsi membaca url email

Merupakan fungsi untuk membaca alamat url yang terdapat di dalam file email yang berupa text file (.txt).

4. Fungsi pencocokan url

Merupakan fungsi untuk mencocokkan url yang dtemukan dengan url yang ada di dalam table porn_site di database.

5. Fungsi crawl dan metadata

Merupakan fungsi untuk menelusuri url yang terdapat di dalam email ke alamat yang sebenarnya, yang kemudian akan diambil metadata keywords-nya.

6. Fungsi menghitung Jaccard Similarity

Merupakan fungsi untuk menghitung kemiripan antara metadata keywords dari alamat web dengan keywords dari database.

7. Fungsi Penambahan Peringatan

Merupakan fungsi untuk menambahkan peringatan ke dalam file email yang telah disaring. Peringatan ditambahkan ke dalam subject email.

8. Fungsi menghitung runtime program

(37)

commit to user

23

4.2 Perancangan

4.2.1 Arsitektur Simulasi Pendeteksian Email

AGENT

Gambar 4.1. Arsitektur Simulasi Pendeteksian Email

Gambar 4.1 menunjukkan bahwa:

Arsitektur di atas memperlihatkan adanya tambahan layer baru yang akan dibangun di dalam email server, yaitu detection and clustering layer. Layer ini berfungsi untuk mendeteksi dan mengelompokkan email dalam database server yang mengandung konten pornografi. Hasilnya email yang dikirim ke inbox user akan dikelompokkan dan diberi notifikasi apakah email tersebut mengandung konten pornografi atau tidak. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam detection and clustering layer.

Bagian utama dalam detection dan clustering layer ada 2, yaitu:

1. Bagian yang pertama adalah modul untuk pendeteksian email.Modul ini berisi kode program dalam bahasa php yang dgunakan untuk mendeteksi email yang masuk di dalam database server.

(38)

commit to user

Rancangan cara kerja simulasi pendeteksian email ini adalah sebagai berikut:

1. SMTP akan mendownload email yang dikirim dari server lain ke dalam server sendiri.

2. Setelah itu, email yang diterima kemudian disimpan di database server, email tersebut belum dikelompokkan.

3. Email yang terdapat di database server kemudian dideteksi dan

dikelompokkan menurut ada tidaknya konten pornografi dalam email tersebut. Proses ini akan berlangsung di dalam detection and clustering layer. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam layer ini.

(39)

commit to user

25

4.2.2 Flowchart Pendektesian Email

mulai

(40)

commit to user

Gambar 4.2 menunjukkan bahwa:

1. Email yang masuk akan di cek apakah email tersebut sudah difilter atau

belum, jika sudah akan diberi peringatan bahwa email tersebut sudah difilter dan proses akan berhenti. Jika belum proses akan berlanjut.

2. Selanjutnya akan dihitung panjang email, dan diinisiasi variabel i = 0.

3. Selama i < panjang email, proses akan berlanjut dengan pencarian url di

dalam file email tersebut.

4. Jika terdapat url dalam email tersebut akan dicek apakah url tersebut termasuk salah satu url porno yang terdaftar di basis data. Jika tidak terdapat url di email tersebut maka proses akan berhenti dan diberi notifikasi sebagai

email yang aman dan proses berhenti.

5. Jika url tersebut cocok dengan url porno yang terdaftar di basis data, maka email akan diberi notifikasi sebagai email porno dan proses berhenti.

6. Jika url tidak cocok dengan porno yang terdaftar di basis data, maka url akan ditelusuri.

7. Selanjutnya diambil metadata keywords dari url yang dituju.

8. Kemudian dihitung kemiripan antara metadata keywords dengan porn

keywords yang terdapat di dalam database dengan menggunakan Jaccard

Similarity.

9. Jika nilai Jaccard Similarity >= 0.1, maka email akan diberi notifikasi sebagai email porno, kemudian url yang terdapat dalam email tersebut akan ditambahkan ke dalam database url porno kemudian proses berhenti.

10. Jika nilai Jaccard Similarity < 0.1, maka proses akan berlanjut dengan pengecekan url yang ditemukan selanjutnya.

(41)

commit to user

27

Jadi proses pendeteksian akan berhenti jika salah satu dari syarat-syarat berikut telah terpenuhi:

1. Email sudah difilter.

2. Tidak terdapat url di dalam email.

3. Url yang ditemukan adalah url porno, baik url tersebut sudah ada di dalam

database maupun belum terdapat di dalam database.

4. Pengecekan url email telah sampai end of file yaitu bila kondisi i = panjang email telah terpenuhi.

4.3 Pengujian Program Simulasi

Pengujian ini akan dilakukan dengan 2 cara yaitu

1. Menguji hasil pendeteksian email dengan melihat hasil/keluaran dari beberapa contoh yang dimasukkan ke dalam program. Dalam pengujian ini nilai keakuratan dapat dihitung dengan rumus seperti berikut:

= %

2. Menghitung runtime program dengan beberapa masukan atau input yang berbeda. Dalam pengujian ini nilai rata-rata runtime secara keseluruhan dapat dihitung dengan rumus seperti berikut:

Dengan :

(42)

commit to user

Lingkungan pengujian simulasi pendeteksian email ini dapat dilihat seperti pada table 4.1 berikut.

Tabel 4.1. Lingkungan Pengujian Simulasi Pendeteksian Email

No. Jenis Keterangan

1 Sistem Operasi Microsoft Windows 7 Ultimate

2 Software AppServ Open Project version 2.5.8 dengan:

Bahasa Pemrograman PHP 5.2.1, Web Server Apache 2.2.4,

Database Server MySQL 5.0.27, dan

Database Manager phpMyAdmin 2.9.2.

Mozilla Firefox 9.0.1

3 Hardware Notebook dengan spesifikasi:

Intel ® Pentium ® P6100 @ 2,00 GHz, RAM 1 GB,

Harddisk dengan kapasitas 320 GB

Modem Smartfren CE682 UI

Skenario pengujian adalah sebagai berikut:

1. User memasukkan source email yang akan difilter.

2. Kemudian klik tombol submit untuk memulai proses pendeteksian email tersebut.

3. Akan didapatkan hasil berupa url email, metadata keywords dan nilai Jaccard

Similarity dalam bentuk % (untuk url yang belum terdapat di dalam

database), notifikasi email safe atau email alert, serta runtime program.

Ambang batas Jaccard Similarity untuk pengujian hasil pendeteksian email adalah 0.1 atau 10% karena diasumsikan jika dalam 10 metadata keywords yang ditemukan ada sekurang-kurangnya 1 keywords yang sama dengan porn

keywords yang ada di dalam database maka url tersebut akan dideteksi

(43)

commit to user

29

4. Untuk pengujian runtime setiap url dilakukan sebanyak 3 kali yaitu waktu ke-1 pukul 23.00 WIB, ke-2 pukul 08.00 WIB, dan ke-3 pukul ke-13.00 WIB. Tujuan pengujian ini dilakukan sebanyak 3 kali adalah untuk mendapatkan hasil yang lebih akurat karena pada waktu-waktu tersebut biasanya kecepatan akses internet akan berbeda-beda.

Tabel 4.2 berikut ini adalah dataset yang akan digunakan dalam pengujian:

Tabel 4.2. Tabel Dataset Pengujian

NO JENIS JML KETERANGAN

1 File email

(.txt)

85 - 25 file txt yang berisi sebuah url yang sudah terdapat di dalam database.

- 35 file txt yang berisi sebuah url yang

belum terdapat di dalam database.

- 25 file txt yang berisi lebih dari 1 url, baik

url yang sudah terdapat di dalam database

maupun url yang belum terdapat di dalam database.

- Semua data url tersebut diperoleh dari data sekunder yang diambil dari internet.

2 Data url 60 - 25 merupakan data url yang sudah terdapat di dalam database.

- 35 merupakan url yang belum terdapat di dalam database. Semua data url tersebut diperoleh dari data sekunder yang diambil dari internet.

3 Data keywords porno

5 - Data keywords ini merupakan kata-kata yang diasumsikan mewakili metadata keywords yang terdapat di dalam url porno.

(44)

commit to user

Berikut ini disajikan hasil dari pengujian hasil pendeteksian email:

Tabel 4.3. Tabel Pengujian Hasil Pendeteksian Email dengan Url Terdapat Di dalam Database

Id Url Terdapat Dalam Database Hasil BENAR SALAH

(45)

commit to user

Tabel 4.4. Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database

id Url Tidak Terdapat Dalam Database Hasil BENAR SALAH

1 http://8x.com ALERT !

2 http://phonxxxxxxx.com ALERT ! 3 http://findxxxxx.com ALERT ! 4 http://pandxxxxxxx.com ALERT ! 5 http://cartoxxxxxx.com ALERT ! 6 http://kowalxxxxxxx.com ALERT ! 7 http://bravxxxx.com SAFE ! 8 http://eroxxxx.com ALERT ! 9 http://tubxxxxxx.com ALERT ! 10 http:/lobsxxxxxxx.com ALERT ! 11 http://wankxxxxxx.com ALERT ! 12 http://dinxxxxx.com ALERT ! 13 http://meexxx.com SAFE ! 14 http://clipxxxxxx.com ALERT ! 15 http://h2xxxx.com ALERT ! 16 http://persixxxxxxx.com ALERT !

17 http://xnxx.com ALERT !

18 http://bondaxxxxxx.com SAFE ! 19 http://vpxxx.com ALERT !

20 http://ixxx.com ALERT !

(46)

commit to user

Tabel 4.4. Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database (Lanjutan)

id Url Tidak Terdapat Dalam Database Hasil BENAR SALAH

22 http://yahoo.com SAFE ! 23 http://id.yahoo.com SAFE ! 24 http://answer.yahoo.com SAFE ! 25 http://id.answers.yahoo.com SAFE ! 26 http://solopos.com SAFE ! 27 http://kompas.com SAFE ! 28 http://libre.com SAFE ! 29 http://nytimes.com SAFE ! 30 http://libra.msra.cn SAFE ! 31 http://kpk.go.id SAFE ! 32 http://indosat.com SAFE !

33 http://amd.com SAFE !

34 http://greenpeace.org SAFE ! 35 http://tokobagus.com SAFE !

Dari tabel 4.4, dapat dianalisa bahwa :

1. Untuk kasus url yang belum terdapat dalam database, daat dilihat bawah dari 35 data yang diuji, data yang bernilai benar ada 32:

Tingkat akurasi = 32 x 100% = 91.4% 35

2. Kesalahan yang terjadi dalam metode pendeteksian ini dikarenakan url porno yang dituju tidak memiliki metadata keywords, sehingga url tersebut tidak terdeteksi sebagai url porno karena Jaccard Similarity bernilai 0 (kurang dari 0.1).

(47)

commit to user

33

tersebut tidak terdeteksi sebagai url porno karena Jaccard Similarity bernilai 0 (kurang dari 0.1).

Tabel 4.5. Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url

id Multiple url Jenis url Hasil Benar Salah

1 http://4xxxx.com,

http://answer.yahoo.com porn(in-db), safe ALERT ! 2 http://cinxxxxx-69.com,

http://solopos.com porn(in-db), safe ALERT ! 3 http://rabbitxxxxxxx.com,

http://kompas.com porn(in-db), safe ALERT ! 4 http://porxxxxxxxx.com,

http://libre.com porn(in-db), safe ALERT ! 5 http://porxxxx.com,

http://kpk.go.id porn(in-db), safe ALERT ! 6 http://8x.com,

http://answer.yahoo.com porn(out-db), safe ALERT ! 7 http://phonxxxxxxx.com,

http://solopos.com porn(out-db), safe ALERT ! 8 http://pandxxxxxxx.com,

http://kompas.com porn(out-db), safe ALERT ! 9 http://wanxxxxxxx.com,

http://kompas.com porn(out-db), safe ALERT ! 10 http://clipxxxxxx.com,

http://kpk.go.id porn(out-db), safe ALERT ! 11 http://answer.yahoo.com,

http://4xxxx.com safe, porn(in-db) ALERT ! 12 http://solopos.com,

(48)

commit to user

Tabel 4.5. Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url (Lanjutan)

id Multiple url Jenis url Hasil Benar Salah

13 http://kompas.com,

http://rabbixxxxxxxxx.com safe, porn(in-db) ALERT ! 14 http://libre.com,

http://porxxxxxxxx.com safe, porn(in-db) ALERT ! 15 http://kpk.go.id,

http://porxxxx.com safe, porn(in-db) ALERT ! 16 http://answer.yahoo.com,

http://8x.com safe, porn(out-db) ALERT ! 17 http://solopos.com,

http://mexxxx.com safe, porn(out-db) SAFE ! 18 http://kompas.com,

http://pandxxxxxxx.com safe, porn(out-db) ALERT ! 19 http://kompas.com,

http://wanxxxxxxx.com safe, porn(out-db) ALERT ! 20 http://kpk.go.id,

http://clixxxxxxx.com safe, porn(out-db) ALERT ! 21 http://answer.yahoo.com,

http://kompas.com safe, safe SAFE ! 22 http://answer.yahoo.com,

http://solopos.com safe, safe SAFE ! 23 http://answer.yahoo.com,

http://kpk.go.id safe, safe SAFE ! 24 http://kpk.go.id,

http://solopos.com safe, safe SAFE ! 25 http://kompas.com,

(49)

commit to user

35

Dari tabel 4.3, 4.4, dan 4.5 dapat dianalisa bahwa untuk kasus multiple url dapat dilihat bawah dari 25 data yang diuji, data yang bernilai benar ada 24. Jadi:

Tingkat akurasi = 24 x 100% = 96 % 25

Dari tabel 4.3, 4.4, dan 4.5 didapatkan data tingkat akurasi sebagai berikut:

- Url yang sudah terdapat di dalam database tingkat akurasi = 100%.

- Url yang belum tedapat di dalam database tingkat akurasi = 91.4 %.

- Multiple url tingkat akurasi = 96%.

Data tersebut dapat digambarkan dalam sebuah grafik seperti pada Gambar 4.3 berikut:

Gambar 4.3. Grafik Tingkat Akurasi Pendeteksian Email 86

Jenis urldalam email

(50)

commit to user

Berikut ini disajikan hasil dari pengujian runtime:

Tabel 4.6. Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database

(51)

commit to user

37

Tabel 4.6. Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database (Lanjutan)

id Url Terdapat

Jumlah total rata-rata per url 3.28

Dari tabel 4.6 dapat dianalisa bahwa untuk kasus url porno yang sudah terdapat dalam database, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 0.15 detik yang diperoleh dari :

Rata-rata keseluruhan = 3.28 = 0.15 detik

25

Tabel 4.7. Tabel Pengujian Runtime dengan Url Tidak Terdapat Di dalam Database

(52)

commit to user

Tabel 4.7. Tabel Pengujian Runtime

dengan Url Tidak Terdapat Di dalam Database (Lanjutan)

id Url Tidak Terdapat 24 http://answer.yahoo.com 4.071 3.913 2.474 3.486 25 http://id.answers.yahoo.com 2.151 1.345 2.138 1.878 26 http://solopos.com 4.385 4.588 4.976 4.6497 27 http://kompas.com 1.912 1.925 2.177 2.0047

(53)

commit to user

39

Dari tabel 4.7 dapat dianalisa bahwa :

1. Untuk kasus url yang belum terdapat dalam database, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 5.15 detik yang diperoleh dari :

Rata-rata keseluruhan = 159.321 = 5.15 detik 35

2. Untuk kasus url yang belum terdapat dalam database, waktu eksekusi (runtime) yang diperlukan untuk mendeteksi dipengaruhi oleh beberapa faktor

seperti lama loading dari url yang dituju dan koneksi internet.

Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url

id Multiple url Jenis url Pengujian

(54)

commit to user

Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url (Lanjutan)

id Multiple url Jenis url Pengujian

(55)

commit to user

41

Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url (Lanjutan)

id Multiple url Jenis url Pengujian

ke-1(s) Jumlah total rata-rata per url 105.67

Dari tabel 4.8 dapat dianalisa bahwa untuk kasus multiple url porno, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 4.23 detik yang diperoleh dari :

Rata-rata keseluruhan = 105.67= 4.23 detik 25

Dari tabel 4.6, 4.7, dan 4.8 untuk pengujian runtime hasil dapat dibedakan menjadi:

a. Single url, terdiri dari:

- Url yang sudah terdapat di dalam database dengan rata-rata 0.15 detik. - Url yang belum terdapat di dalam database dengan rata-rata 5.15 detik. b. Multiple url,dapat dibagi menurut pola:

- Url porn di dalam database, url safe dengan rata-rata:

0.175 + 0.175 + 0.15467 + 0.159 + 0.161 = 0.82467 = 0.16493 detik.

5 5

- Url porn di luar database, url safe dengan rata-rata:

4.5807 + 3.79467 + 4.66567 + 3.4513 + 4.5613 = 21.05367 = 4.21073 detik.

(56)

commit to user

- Url safe, url porn di dalam database dengan rata-rata:

4.83467 + 4.6903 + 2.61867 + 3.7673 + 5.113 = 21.024 = 4.2048 detik.

5 5

- Url safe, url porn di luar database dengan rata-rata:

5.096 + 5.62467 + 6.19567 + 5.621 + 9.5043 = 32.04167 = 6.4083 detik.

5 5

- Url safe, url safe dengan rata-rata:

6.5267 + 6.3573 + 5.9603 + 7.062 + 4.8183 = 30.72467 = 6.14493 detik.

5 5

Data tersebut bila digambarkan dalam sebuah grafik maka akan terlihat seperti pada Gambar 4.4 berikut:

Gambar 4.4. Grafik Rata-rata Runtime Dapat dilihat dari Gambar 4.4 bahwa :

- Rata-rata runtime untuk Single url (url yang sudah terdapat di dalam

database) hampir sama dengan runtime multiple url (url porn di dalam

database, url safe), ini dikarenakan kedua pola tersebut tidak melakukan

koneksi ke luar database. Meskipun terdapat url safe yang notabene terdapat di luar database, tetapi url tersebut tidak ditelusuri karena berdasarkan algoritma, jika sudah ditemukan sebuah url porno (baik di dalam database maupun di luar database), maka proses pendeteksian akan dihentikan dan email akan diberi notifikasi sebagai email porno.

0

Jenis urldalam email

single url (url in db)

single url (url out db)

mulkp le url (porn-in db, safe)

mulkp le url (porn-out db, safe)

mulkp le url (safe, porn-in db)

(57)

commit to user

43

- Untuk Single url (Url yang belum terdapat di dalam database), Multiple

url (Url porn di luar database, url safe), dan Multiple url (Url safe, url

porn di dalam database) memiliki runtime yang hampir sama dikarenakan

ketiga pola tersebut memerlukan sekali koneksi keluar database. Tetapi seperti terlihat tetap terdapat perbedaan dikarenakan beberapa faktor seperti lama loading masing-masing url dan kecepatan koneksi.

- Multiple url (Url safe, url porn di luar database) dan Multiple url (Url

safe, url safe) memiliki runtime terlama karena sesuai algoritma program

hanya akan berhenti jika sudah mendapatkan sebuah url porno (baik di dalam database maupun di luar database) atau jika semua url dalam file email telah melalui proses pendeteksian.

Gambar

Tabel 4.4 Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat
Gambar 2.1.  Arsitektur Email (Novasandro, 2009) ...............................................
Gambar 2.1.  Arsitektur Email (Novasandro, 2009)
Gambar 4.1. Arsitektur Simulasi Pendeteksian Email
+7

Referensi

Dokumen terkait

Suhu merupakan salah satu faktor lingkungan yang paling berpengaruh terhadap proses fisiologi tanaman, aktivitas fotosintesis menjadi sangat sensitif terhadap tekanan yang

Levine et al (2004) melakukan penelitian pada wanita hamil dan mendapatkan bahwa kadar sFlt  1 secara signifikan lebih tinggi pada wanita hamil dengan preeklampsia

Puji syukur kami panjatkan ke hadirat Tuhan YME, karena dengan rahmat dan hidayah Nya laporan hasil penelitian dengan judul ” Pengaruh Inflasi, Suku Bunga Deposito, Kurs

Perlakuan fumigasi harus dilaksanakan di ruangan yang kedap gas atau tidak bocor. Jika dapat dibuktikan bahwa ruangan fumigasi sudah kedap gas, maka penggunaan

•Dalam Perkara 76 Parlimen boleh membuat undang-undang dalam Senarai Negeri yang melibatkan perlaksanaan persetiaan, perjanjian atau konvonsyen antara persekutuan

Fungsi utama SDS pada metode SDS-PAGE (SDS-Polyacrylamide gel electrophoresis) yaitu untuk memberikan muatan negatif pada protein yang akan dianalisis, selain itu

Berdasarkan Keputusan Menteri Kesehatan No.1332/Menkes/SK/X/2002, apotek adalah suatu tempat tertentu, tempat dilakukan pekerjaan kefarmasian dan penyaluran sediaan farmasi,