commit to user
SIMULASI DETEKSI OTOMATIS
SPAM
BERKONTEN PORNOGRAFI
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Jurusan Informatika
Disusun Oleh:
Retisa Heryati Siwi
NIM. M0507036
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
i
SIMULASI DETEKSI OTOMATIS
SPAM
BERKONTEN PORNOGRAFI
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Jurusan Informatika
Disusun Oleh:
Retisa Heryati Siwi
NIM. M0507036
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
commit to user
iii MOTTO
(Martin Luther King, Jr)
"Be the Best of Whatever You Are"
(Douglas Malloch)
bout process
not result. Just give your best on your journey, do your best
commit to user
iv
commit to user
v
KATA PENGANTAR
Bismillahirrahmaanirrahiim
senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul Simulasi Deteksi Otomatis Spam Email
Berkonten Pornografi , yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta.
Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :
1. Ibu Dewi Wisnu Wardani, S. Kom, M. S., Dosen Pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,
2. Bapak Wisnu Widiarto, S.Si, M. Kom., Dosen Pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,
3. Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,
4. Bapak Drs. YS. Palgunadi, M.Sc., Pembimbing Akademik yang telah banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di Jurusan Informatika FMIPA UNS,
5. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini.
6. Ayah, ibu, dan kakakku tercinta yang tidak henti-hentinya mendukung serta mendoakan yang terbaik bagi penulis,
commit to user
vi
yang memberikan dukungan, semangat dan doa selama berjuang di Informatika UNS ini
Alka yang selama ini berjuang bersama, juga untuk sahabatku Fitria dan Dyah yang selalu menjadi pendengar semua keluhanku.
8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung dalam penulisan tugas akhir ini yang tidak dapat disebutkan satu persatu, terimakasih banyak atas semua bantuan, doa, serta dukungannya.
Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah diberikan dengan balasan yang lebih baik. Dan semoga skripsi ini dapat memeberikan manfaat bagi pembaca umumnya dan mahasiswa Informatika pada khususnya.
commit to user
vii
SIMULASI DETEKSI OTOMATIS
SPAM EMAIL BERKONTEN PORNOGRAFI
RETISA HERYATI SIWI
Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret
ABSTRAK
Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik yang mengandung banyak hal yang mengakibatkan ketidaknyamanan bagi para pengguna web. Salah satu konten spam yang sangat meresahkan adalah pornografi. Penelitian mengenai spam telah dilaukan dengan berbagai metode, antara lain degan metode pendekatan Bayesian, metode penggabungan classifier, metode pendataan statistik url spam, dan lain sebagainya.
Metode yang dikembangkan dalam pembangunan program simulasi ini cukup sederhana.Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan antara metadata keywords dengan keywords porno yang sudah ada di dalam database.
Hasil yang diperoleh adalah sebuah program yang dapat digunakan untuk mensimulasikan proses pendeteksian spam email porno di dalam email server. Dari hasil pengujian hasil didapatkan tingkat keakuratan pendeteksian untuk url yang sudah terdapat di dalam database mencapai 100%, sedangkan tingkat keakuratan untuk url yang belum terdapat di dalam database mencapai 91.4%. Sementara itu dari hasil pengujian runtime didapatkan rata-rata runtime pendeteksian untuk url yang sudah terdapat di dalam databaseadalah 0.15 detik, sedangkan rata-rata runtime untuk url yang belum terdapat di dalam database adalah 5.15 detik.
commit to user
viii
SIMULATION OF AUTOMATIC DETECTION
OF PORNOGRAPHIC-CONTAINED SPAM EMAIL
RETISA HERYATI SIWI
Department of Informatics. Mathematics and Science Faculty.
Sebelas Maret University
ABSTRACT
Spam or junk e-mail is abuse in the electronic delivery of news which contained many things that lead to discomfort for the web user. A very disturbing content of spam is pornographic. Research on spam have taken place with a variety of methods, including Bayesian approach method, join of classifier method, collection of url spam statistical data method, and so forth.
The method which was developed in the construction of this simulation program was quite simple. Method which was used in the construction of the simulation program used the principle of information retrieval to retrieve metadata keywords. Using Jaccard Similarity to calculate similarity between metadata keywords with porn keywords which have already existed in the database.
Obtained- result was a program that could be used to simulate the porn email spam detection in email server. From the experimental results, the accuracy of detection for the urls which have already existed in the database reaches 100%, while the level of accuracy for a urls which haven't been existed in the database reaches 91.4%. Meanwhile, from the runtime experimental obtained the average runtime for urls which have been existed in the database was 0.15 seconds, while the average runtime for the urls that haven't been existed in the database was 5.15 seconds.
commit to user
ix DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PENGESAHAN ... ii
HALAMAN MOTTO ... iii
HALAMAN PERSEMBAHAN ... iv
KATA PENGANTAR ... v
ABSTRAK ... viii
ABSTRACT ... viii
DAFTAR ISI ... ix
DAFTAR TABEL ... xi
DAFTAR GAMBAR ... xii
DAFTAR LAMPIRAN ... xiii
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Batasan Masalah ... 3
1.4 Tujuan dan Manfaat Penelitian ... 3
1.4.1 Tujuan Penelitian ... 3
1.4.2 Manfaat Penelitian ... 3
1.6 Sistematika Penulisan ... 4
BAB II TINJAUAN PUSTAKA ... 5
2.1 Dasar Teori ... 5
2.1.1 Email... 5
2.1.2 Spam ... 5
2.1.3 Email Server ... 6
2.1.3.1 SMTP (Simple Mail Transfer Protocol) ... 7
2.1.3.2 POP (Post Office Protocol) ... 8
2.1.3.3 IMAP (Internet Message Access Protocol) ... 9
2.1.3.4 Mail User Agent ... 10
commit to user
x
2.1.3.6 Mail Transfer Agent ... 11
2.1.3.7 DNS Server ... 11
2.1.4 Email Filtering ... 12
2.1.5 Information Retrieval ... 12
2.1.6 Metadata ... 13
2.1.7 Jaccard Similarity ... 14
2.2 Penelitian Terkait ... 14
BAB III METODE PENELITIAN ... 18
3.1 Studi Literatur ... 18
3.2 Tahap Perancangan ... 18
3.2.1 Perancangan framework ... 18
3.2.2 Perancangan flowchart ... 18
3.3 Tahap Implementasi ... 18
3.4 Tahap Pengujian ... 19
BAB IV PEMBAHASAN ... 20
4.1 Analisis Kebutuhan ... 20
4.1.1 Deskripsi Umum Simulasi ... 20
4.1.2 Fungsi- fungsi Di dalam Program Simulasi ... 22
4.2 Perancangan ... 23
4.2.1 Arsitektur Simulasi Pendeteksian Email ... 23
4.2.2 Flowchart Pendektesian Email ... 25
4.3 Pengujian Program Simulasi ... 27
BAB V PENUTUP ... 44
5.1 Kesimpulan ... 44
5.2 Saran ... 44
DAFTAR PUSTAKA ... 45
commit to user
xi
DAFTAR TABEL
Tabel 4.1 Tabel Lingkungan Pengujian Pendeteksian Email ... 28 Tabel 4.2 Tabel Dataset Pengujian ... 29 Tabel 4.3 Tabel Pengujian Hasil Pendeteksian Email dengan Url Terdapat Di dalam Database ... 30 Tabel 4.4 Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database ... 31 Tabel 4.5 Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url ... 33 Tabel 4.6 Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database ... 36 Tabel 4.7 Tabel Pengujian Runtime dengan Url Tidak Terdapat Di dalam Database ... 37
commit to user
xii
DAFTAR GAMBAR
Gambar 2.1. Arsitektur Email (Novasandro, 2009) ... 7
Gambar 4.1. Arsitektur Simulasi Pendeteksian Email ... 23
Gambar 4.2. Flowchart Pendektesian Email ... 25
Gambar 4.3. Grafik Tingkat Akurasi Pendeteksian Email... 35
commit to user
xiii
DAFTAR LAMPIRAN
commit to user
1 BAB I
PENDAHULUAN
1.1 Latar Belakang
Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan
sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebaban berkurangnya produktivitas (Zhu, 2011). Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web (Rahardjo, 2006). Sifat-sifat utama spam antara lain isi atau konten dari email tidak relevan dengan minat penerima dan penerima tidak dapat menolak datangnya email yang tidak diminta tersebut dengan cara-cara lazim (Lambert, 2003). Seperti disebutkan sebelumnya, isi atau konten dari spam ini bermacam-macam, seperti iklan, berita, dan lain sebagainya. Salah satu isi spam yang sangat meresahkan adalah pornografi.
Spam dalam simulasi pendeteksian email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno. Setelah proses pendeteksian, email akan dikategorian menjadi 2 yaitu email aman dan email porno.
commit to user
Bayesian Filter tidak bekerja dengan baik bila pesan yang telah diblokir kemudian
dihapus.
Penelitian Sakkis et al. (2001) mengevaluasi secara empiris skema untuk menggabungkan beberapa classifier untuk pendeteksian spam. Aplikasi ini berdasarkan pengkategorisasian teks. Penelitian ini menggunakan korpus publik, penelitian ini menunjukkan bahwa stacking atau penggabungan beberapa
classifier tersebut dapat meningkatkan efisiensi pendeteksian spam secara
otomatis, dan bahwa filter tersebut dapat digunakan dalam aplikasi real-life. Selanjutnya Kim et al. (2005) menyajikan teknik pendeteksian spam mail yang unik berbasis pada analisis mendalam statistik url yang dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan, kemudian memasukkan url-url tersebut dalam sebuah daftar hitam, sehingga waktu pendeteksian spam email berkurang secara signifikan. Selain itu, diusulkan teknik pendeteksian dengan pembaruan daftar url secara dinamis melalui umpan balik klien, sehingga kesalahan yang ditemukan dalam metode pendeteksian ini dapat dihilangkan.
Selain itu terdapat juga penelitian mengenai pengklasifikasian email, salah satunya Manco et al. (2002). Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi terstruktur dan tidak terstruktur yang
diekstrak dari pesan email. Beberapa hasil percobaan awal menunjukkan efektifitas metode ini, baik dari segi efisiensi maupun dari sudut pandang kualitas hasil .
Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata
keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan
antara metadata keywords dengan keywords porno yang sudah ada di dalam database.
commit to user
3
1.2 Rumusan Masalah
Rumusan masalah dari latar belakang masalah yang telah diuraikan diatas adalah bagaimana memanfatkan information retrieval untuk mensimulasikan penyaringan email sehingga dapat digunakan untuk mengetahui apakah email tersebut mengandung konten pornografi.
1.3 Batasan Masalah
Batasan masalah dari penelitian ini adalah sebagai berikut :
1. Pengujian yang dilakukan hanya berupa simulasi dan bukan diuji pada email server yang sebenarnya
2. Diasumsikan email berbentuk text file (.txt).
3. Diasumsikan semua url diawali dengan http:// atau https:// atau ftp:// atau ftps://.
4. Simulasi pendeteksian email berkonten pornografi ini hanya menggunakan text mining dan tidak mendeteksi gambar ataupun media yang lain.
1.4 Tujuan dan Manfaat Penelitian
1.4.1 Tujuan Penelitian
Tujuan dari penelitian ini adalah memanfatkan information retrieval untuk mensimulasikan penyaringan email di dalam email server yang dapat digunakan untuk menyaring dan mengelompokkan email yang mengandung konten pornografi.
1.4.2 Manfaat Penelitian
commit to user
1.6 Sistematika PenulisanSistematika penulisan laporan tugas akhir ini adalah sebagai berikut: BAB I PENDAHULUAN
Bab pendahuluan memuat tentang latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan laporan tugas akhir.
BAB II TINJAUAN PUSTAKA
Bab tinjauan pustaka menguraikan dasar teori yang mendasari pembahasan secara detail, penelitian terkait yang pernah dilakukan serta rencana penelitian yang akan dilakukan dalam tugas akhir.
BAB III METODE PENELITIAN
Bab metode penelitian menguraikan tentang gambaran objek penelitian, serta gambaran langkah-langkah yang dilakukan oleh penulis untuk melaksanakan dan menyelesaikan penelitian ini.
BAB IV PEMBAHASAN
Bab pembahasan memaparkan hasil-hasil dari tahapan penelitian, yaitu tahap analisis dan implementasi serta hasil pengujian berupa penjelasan teoritik, baik secara kualitatif, kuantitatif, atau secara statistik.
BAB V PENUTUP
commit to user
5 BAB II
LANDASAN TEORI
2.1 Dasar Teori
2.1.1 Email
Surat elektronik yang biasa disingkat surat-e atau yang biasanya di sebut email adalah sarana kirim mengirim surat melalui jalur internet. Email merupakan
salah satu layanan internet yang paling banyak digunakan, serta merupakan media komunikasi yang murah, cepat, dan mudah penggunaannya. (Jatmika, 2010)
Elektronik mail atau biasa disingkat sebagai email, merupakan sebuah metode untuk mengirimkan pesan dalam bentuk digital. Pesan ini biasanya dikirimkan melalui medium internet. Sebuah pesan elektronis terdiri dari isi, alamat pengirim, dan alamat-alamat yang dituju. (Novasandro, 2009)
2.1.2. Spam
Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan
sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebabkan berkurangnya produktivitas . (Zhu et al., 2011)
Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web. Spam adalah unsolicited email yang dikirim ke banyak orang. (Raharjo, 2006)
Sifat-sifat spam antara lain:
1. Isi atau konten dari email tidak relevan dengan minat penerima.
commit to user
3. Pengiriman dan penerimaan pesan tersebut hanya memberikan keuntungan bagi pengirimnya. (Lambert, 2003)
Spam dapat dikategorikan sebagai berikut:
1. Junk mail, yaitu email yang dikirimkan secara besar-besaran dari suatu
perusahaan atau prseorangan yang sifatnya tidak diinginkan.
2. Non-comercial spam, misalnya surat berantai atau cerita humor yang
dikirimkan secara massal tanpa tujuan komersial tertentu.
3. Pornographic spam, yaitu email yang dikirimkan secara massal untuk
mengirimkan konten-konten pornografi.
4. Virus spam, yaitu email yang dikirimkan secara massal dan mengandung virus
atau Trojans.(Jatmika, 2010)
2.1.3 EmailServer
Sistem email yang beroperasi di atas jaringan berbasis pada model store
and forward. Sistem ini mengaplikasikan sebuah sistem server email yang
menerima, meneruskan, mengirimkan, serta menyimpan pesan-pesan user, dimana user hanya perlu untuk mengkoneksikan pc mereka ke dalam jaringan. Email dapat dianalogikan dengan kotak surat yang ada di kantor POS sedangkan
server email dapat diibaratkan sebagai kantor POS. Dengan analogi ini sebuah
mail server dapat memiliki banyak account email yang ada didalamnya. Penulisan
email dan e-mail sama saja. Namun lebih direkomendasikan untuk menuliskannya
sebagai email. Pada RFC, spelling email yang digunakan adalah mail, dan sebuah
email dinamakan sebagai sebuah message. RFC yang baru dan grup IETF
membutuhkan penulisan email yang konsisten dari segi kapitalisasinya, penggunan underscorenya, serta ejaannya. Untuk mengirim sebuah email dari alamat email yang satu ke alamat email yang lain digunakan sebauh protocol (aturan) yaitu Simple Mail Transfer Protocol SMTP. Protocol SMTP telah menjadi aturan dasar yang disepakati untuk pengiriman email. Dengan demikian semua software email server pasti mendukung protokol ini.
commit to user
7
klien. Sedangkan untuk klien, digunakan protokol imap imaps pop3 pop3s. Supaya sebuah mail server dapat di akses oleh klien, dikembangkan sebuah aplikasi dimana klien dapat mengakses email dari sebuah email server. IMAP adalah sebuah aplikasi pada layer Internet protokol yang memungkinkan klien untuk mengakses email yang ada di server. Selain IMAP ada juga POP3 yang fungsinya sama dengan imap, akan tetapi memiliki karakteristik yang berbeda dalam cara pengaksesan pada server. (Novasandro, 2009)
Gambar 2.1. Arsitektur Email (Novasandro, 2009)
2.1.3.1 SMTP (Simple Mail Transfer Protocol)
Simple Mail Transfer Protocol adalah protokol standar untuk pengiriman
electronic mail (email) di internet. SMTP adalah protokol yang cukup sederhana, berbasis teks dimana protokol ini menyebutkan satu atau lebih penerima email untuk kemudian diverifikasi. Jika penerima email valid, maka email akan segera dikirim. SMTP menggunakan port 25 dan dapat dihubungi melalui program telnet. Agar dapat menggunakan SMTP server lewat nama domain, maka record DNS (Domain Name Server) pada bagian MX (Mail Exchanger) digunakan. Sendmail
commit to user
Kemudian, pada tahun 2001, ada sedikitnya 50 program Mail Transfer Agent yang mengimplementasikan SMTP baik sebagai klien maupun sebagai server. Contoh
Mail Transfer Agent yang populer adalah: Exim, IBM Postfix,
Qmail.(Novasandro, 2009)
Karena protokol SMTP berawal dari protokol yang benar-benar berbasis teks ASCII, maka SMTP tidak bekerja terlalu baik dalam mengirimkan file-file binary. Standar untuk mengencode file-file biner agar dapat dikirimkan lewat SMTP dikembangkan dan menelurkan standar-standar seperti MIME
(Multipurposes Internet Mail Extensions). Saat ini, hampir semua SMTP server
mendukung 8 BIT MIME, yang dapat mengirimkan file-file biner semudah mengirimkan file teks. SMTP hanya protokol yang melakukan push, artinya dia hanya bisa mengambil email dari klien tetapi tidak bisa melakukan pull, yaitu melayani pengambilan email di server oleh klien. Pengambilan pesan atau email tersebut dilakukan dengan menggunakan protocol tersendiri yaitu protokop POP3 (Post Office Protokol) atau IMAP (Internet Message Access Protocol).
(Novasandro, 2009)
MIME adalah format standar internet untuk email. MIME mendefinisikan pengiriman pesan selain 8 bit karakter ASCII dengan file yang berisi gambar, suara, movie, dan program komputer. MIME adalah salah satu komponen dasar pendukung protokol HTTP. (Novasandro, 2009)
2.1.3.2 POP (Post Office Protocol)
POP atau Post Office Protocol, sesuai dengan namanya merupakan protokol yang digunakan untuk pengelolaan mail. POP yang sekarang lebih umum dikenal dengan POP3 (POP - Version 3), dimaksudkan untuk mengizinkan klien untuk mengakses secara dinamis mail yang masih ada di POP3 server. POP3 menawarkan pada user untuk meninggalkan mail-nya di POP3 server, dan mengambil mail-nya tersebut dari sejumlah sistem sembarang.
commit to user
9
Mailtool, QualComm Inc.'s Eudora, Netscape Comm. Corp.'s Netscape Mail dan Microsoft Corp.'s Outlook Express. POP3 tidak dimaksudkan untuk menyediakan operasi manipulasi mail yang ada di server secara luas. Pada POP3, mail diambil dari server dan kemudian dihapus (bisa juga tidak dihapus).
Ada dua jenis mode pada POP3 yaitu mode offline dan mode inline. Pada mode offline, POP3 mengambil dan kemudian menghapus mail yang tersimpan dari server. POP3 bekerja dengan baik pada mode ini, karena terutama memang didesain untuk berlaku sebagai sebuah sistem mail yang memiliki sifat store and forward. Server, pada mode offline, berlaku seperti sebuah tempat penampungan
yang menyimpan mail sampai user memintanya. Pada mode inline, POP3 akan mengambil mail dari server tanpa menghapus mail yang sudah diambil tersebut. Mode ini lebih disukai oleh user yang sering berpindah tempat (nomadic user) karena memungkinkan mereka untuk melihat mail yang sama dari tempat atau komputer yang berbeda. Akan tetapi untuk nomadic user yang selalu bekerja dan bepergian dengan selalu membawa notebook, dan tetap menginginkan agar mail miliknya yang ada di server tidak dihapus, tentu saja menginginkan agar setiap kali mengambil mail tidak semua mail yang akan terambil, tapi hanya mail yang belum pernah dia lihat saja yang akan diambil. Keinginan user seperti ini dapat dipenuhi dengan menggunakan informasi pada klien yang memungkinkan untuk memberi tanda mail yang sudah pernah dilihat. Setiap klien layanan POP3 yang mendukung mode inline akan menyimpan informasi ini dalam sebuah file. Pada user yang menggunakan Netscape Mail, file yang menyimpan informasi ini adalah file popstate.dat, yang biasanya terdapat di /Program Files/Netscape/Users/Mail. File tersebut memberi tahu mail yang mana saja yang sudah diambil sehingga tidak perlu diambil lagi. Jika file ini dihapus maka tentu saja pada pengambilan mail berikutnya semua mail akan terambil. (Novasandro dkk, 2009)
2.1.3.3 IMAP (Internet Message Access Protocol)
commit to user
protokol sebagai sarana untuk mentransfer email dari server, seperti yang digunakan oleh Gmail ke klien, seperti Mozilla Thunderbird, Apple Mail dan Microsoft Outlook.
IMAP memiliki berbagai keunggulan bila dibandingkan dengan POP3 antara lain:
Memiliki 2 mode operasi : Connected dan Disconnected
Banyak pengguna dapat tersambungkan dengan sebuah mailbox yang sama secara simultan
Informasi berisikan status pesan Banyak mailboxes di dalam server Pencarian di bagian server
Namun, IMAP juga memiliki beberapa kekurangan. Tingkat kompleksitas akan bertambah ketika menggunakan IMAP. Misalnya, beberapa klien mengakses kotak surat yang sama pada saat yang sama perlu dilakukan untuk meng-kompensasikan server-side workarounds seperti Maildir atau database backends. (Novasandro dkk, 2009)
2.1.3.4 Mail User Agent
Definisi MUA (Mail User Agent) menurut FOLDOC adalah sebuah program atau aplikasi yang digunakan oleh seorang pengguna komputer untuk menulis atau membuat suatu email serta digunakan untuk membacanya . MUA merupakan penghubung antara pengguna dan MTA. (Afriansyah, 2011)
commit to user
11
2.1.3.5 Mail Delivery Agent
Sebuah pengiriman email agen atau agen pengiriman pesan (MDA) adalah sebuah perangkat lunak komputer komponen yang bertanggung jawab untuk pengiriman pesan e-mail ke kotak surat penerima lokal. Dalam arsitektur Internet mail, pengiriman pesan lokal dicapai melalui proses penanganan pesan dari agen transfer pesan, dan menyimpan surat ke lingkungan penerima (biasanya kotak surat). (Afriansyah, 2011)
MDA (Mail Delivery Agent ) bekerja sama dengan MTA untuk menangani pesan - pesan email yang datang untuk diletakkan sesuai pada mailbox user masing - masing. Didalam beberapa kasus, MDA sebenarnya yaitu sebuah Local Delivery Agent ( LDA ) seperti mail atau procmail.
2.1.3.6 Mail Transfer Agent
Menurut FOLDOC (Free Online Dictionary of Computing) definisi dari
MTA (Message Transfer Agent) adalah suatu program yang bertanggung jawab
dalam hal pengiriman sebuah email ke suatu tujuan alamat . Program ini biasanya akan menjadi sebuah daemon dan membuka koneksi pada port 25 (SMTP) yang digunakan sebagai penghubung antar MTA. (Afransyah, 2011)
MTA (Mail Transfer Agent ) yaitu mengirimkan atau mentransfer email
antar komputer dengan menggunakan SMTP. Sebuah pesan email mungkin saja sebelum sampai ketujuan melewati beberapa SMTP server lainnya. Contoh aplikasi MTA yaitu : sendmail, postfix, dan lain lain.
2.1.3.7 DNS Server
commit to user
alamat tujuan. Pesan tersebut disimpan di mail server tujuan sampai tiba saatnya pengguna mendownload Email. (Amri, 2003)
2.1.4 EmailFiltering
Email fitering adalah suatu proses yang otomatis akan mendeteksi sebuah
email apakah termasuk legitimate email atau bukan. Beberapa metode yang
digunakan untuk email filtering antara lain Keyword filtering, Black listing and White listing, Signature-based filtering, Naïve Bayesian filtering.
Beberapa karakteristik dari email filtering adalah: 1. Binary Class
Email filtering hanya mengklasifikasi email ke dalam kelas legitimate email
atau bukan. 2. Prediksi
Email filtering mampu melakukan prediksi kelas dari suatu email.
3. Komputasi mudah
Mengingat sifat data email yang memiliki dimensi tinggi, maka dibutuhkan sebuah email filter yang mampu melakukan komputasi dengan mudah.
4. Learning
Mampu melakukan learning dari email-email yang sudah ada sebelumnya. 5. Kinerja yang bagus
Memiliki akurasi yang tinggi, meminimalkan nilai false positive da mentolelir nilai false negative yang cukup tinggi. (Jatmika, 2010)
2.1.5 Information Retrieval
Information retrieval atau sistem temu kembali informasi berkaitan
commit to user
13
2.1.6 Metadata
Menurut Sicilia (2006) definisi yang paling umum untuk metadata mengatakan, "Metadata adalah data tentang data '. Tapi ini definisi umum ini tidak menangkap banyaknya kemungkinan deskripsi untuk sumber daya digital.
Sementara itu, Greenberg (2003) mendefinisikan metadata sebagai data terstruktur tentang obyek yang mendukung fungsi yang terkait dengan objek yang ditunjuk. Struktur dalam metadata mensyaratkan bahwa informasi disusun secara sistematis, dan ini adalah suatu aspek yang jauh dari kontroversi, terutama karena adanya fakta bahwa saat ini metadata dalam banyak domain adalah sebuah subjek untuk standardisasi.
Lain dengan Xiong et al. (2011) yang berpendapat bahwa metadata adalah data yang menggambarkan organisasi dan struktur file, biasanya termasuk isi direktori, atribut file, pointer berkas blok, organisasi dan informasi bentuk dari ruang fisik, dll. Pengolahan metadata tidak hanya mencakup pemeliharaan namespace, tetapi juga atribut file dan lokasi blok file.
Metadata memberikan fungsi yang sama seperti katalog yaitu:
membuat sumberdaya bisa ditemukan dengan menggunakan kriteria yang relevan;
mengidentifikasi sumberdaya
mengelompokkan sumberdaya yang serupa
membedakan sumberdaya yang tak miliki kesamaan memberikan informasi lokasi
Bretheron, F. P & Singley (1994) membagi metadata atas 2 kelas:
structural/control metadata dan guide metadata. Dimana Structural metadata
adalah digunakan untuk menjelaskan struktur dari sistem dari komputer seperti table, kolom dan index. Guide metadata adalah digunakan untuk membantu pengguna mencari item-item tertentu yang biasanya ditampilkan dengan menggunakan kata kunci/keywords dalam bahasa sehari-hari.
NISO (2004) membedakan metadata menjadi tiga tipe: descriptive,
structural dan administrative. Descriptive metadata adalah informasi yang
commit to user
subyek, kata kunci, penerbit; structural metadata memberikan deskripsi bagaimana komponen dari setiap object diorganisir; dan administrative metadata mengacu pada informasi teknis misalnya tipe file. Ada 2 tipe administrative metadata yaitu metadata hak cipta dan metadata pengelola. (NISO, 2004)
2.1.7 Jaccard Similarity
Juga dikenal sebagai indeks Jaccard, dengan koefisien kemiripan Jaccard adalah ukuran statistik kemiripan antara set sampel. Untuk dua set, Jaccard
Similarity dapat dicari dengan menbagi kardinalitas dari intersection dibagi
dengan kardinalitas union. Misalkan ada 2 buah himpunan atau set sampel A dan B, maka secara matematis dapat ditulis sebagai berikut: (Bank, 2008)
2.2 Penelitian Terkait
Penelitian yang terkait dengan email filtering yang telah dilakukan sebelumnya antara lain adalah sebagai berikut:
1. Spam Mail Filtering through Dynamically Updating Url Statistics
(Kim et al., 2005)
Makalah ini menyajikan teknik penyaringan spam mail yang unik berbasis pada analisis mendalam statistik url dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan. Karena teknik penyaringan email yang diusulkan hanya mencari url di
email, overhead diperkenalkan dengan mencari isi semua surat atau daftar hitam
commit to user
15
2. Towards an Adaptive Mail Classifier (Manco et al., 2002)
Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk keseluruhan arsitektur untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi tersruktur dan tidak terstruktur yang diekstrak dari pesan email tanpa supervisi, dan memanfaatkan algoritma yang dihasilkan dalam proses penciptaan dan pengelolaan folder serta email redirection. Beberapa hasil percobaan awal menunjukkan efektivitas teknik, baik
dari efisiensi dan sudut pandang kualitas hasil.
3. Workload Characterization of Spam Email Filtering Systems (Luo et al.,
2010)
Sistem pelayanan email telah rusak cukup parah dengan adanya spam atau email yang tidak diinginkan. Hal ini dapat terjadi karena belum adanya layanan penyaringan email yang dapat mengimbangi kecepatan dari perkembangan layanan email yang tersedia. Penelitian ini berusaha mengatasi masalah tersebut dengan memanfaatkan dukungan dari arsitertur computer. Dalam tulisan ini, sebagai langkah pertama menuju desain arsitektur baru, disajikan data-data dari pengukuran kinerja system penyaringan email yang tersedia seperti CRM114, DSPAM, SpamAssassin dan TREC Bogofilter. Penelitian ini menganalisis secara rinci mengenai waktu performansi dari system penyaringen email tersebut, juga menunjukkan bagaimana arsitektur dari prosesor computer berpengaruh terhadap kinerja dari system penyaringan email tersebut.
4. Stacking Classifiers for Anti-Spam Filtering of Email (Sakkis et al., 2001)
Penelitian ini mengevaluasi secara empiris skema untuk menggabungkan classifier, yang dikenal sebagai generalisasi tertumpuk, dalam konteks
penyaringan anti-spam, aplikasi berbiaya sensitif untuk pengkategorisasian teks.
Email komersial yang tidak diminta atau spam, membanjiri kotak surat,
commit to user
menunjukkan bahwa stacking dapat meningkatkan efisiensi penginduksian filter
anti-spam secara otomatis, dan bahwa filter tersebut dapat digunakan dalam
aplikasi real-life.
5. IEMS (The Intelligent Email Sorter) (Crawford et al., 2002)
Klasifikasi email merupakan tugas sehari-hari yang penting bagi sejumlah besar pengguna layanan email yang terus berkembang. Makalah ini menggambarkan pendekatan pembelajaran mesin yang mendasari sistem IEMS. Sistem ini memiliki dua aspek distictive: sistem ini menawarkan pemandangan di kotak masuk berdasarkan klasifikasi pesan terprediksi; dan menyediakan pengguna dengan rincian keakuratan prediksi dan proses yang mendasarinya. Sistem ini memperkenalkan aturan pembelajarn komposit yang mengklasifikasikan mail dengan menggabungkan pendekatan berbasis contoh yang membangun deskripsi eksplisit umum. Hal ini dimaksudkan dalam rangka untuk mencapai aturan klasifikasi yang dapat dimengerti, ringkas dan efektif. Penelitian ini melaporkan hasil dari pemnbelajaran serta beberapa data lain dari lima pengguna yang menerapkan cara yang berbeda untuk mengklasifikasi email mereka. Penelitian ini juga membahas implikasi dari hasil yang dicapai, seperti performansi dalam pendekatan pembelajaran, sensitivitas dalam pemusatan konsep dan kemudahan dengan aturan klasifikasi yang bisa dipahami oleh pengguna.
6. A Bayesian Approach to Filtering Junk Email: In Learning for Text
Categorization (Sahami et al., 1998)
commit to user
17
terlihat seperti masalah pengklasifikasian teks biasa, tetapi penelitian ini menunjukkan bahwa dengan mempertimbangkan fitur domain spesifik fitur masalah ini juga menyangkut masalah teks baku pada pesan email, dengan demikian dapat dihasilkan filter jauh lebih akurat. Akhirnya, pejelitian ini menunjukkan keampuhan filter tersebut dalam skenario penggunaan di dunia nyata, dan menyatakan bahwa teknologi ini layak dikembangkan.
7. An Evaluation of Naive Bayesian Anti-Spam Filtering
(Androutsopoulos et al., 2000)
Penelitian ini mengevaluasi metode Naïve Bayesian untuk penyaringan email. Berdasarkan penelitian ini, metode Naïve Bayesian masih memiliki kelemahan, yaitu meskipun memiliki spam recall dan presisi yang tinggi, metode ini tidak bekerja dengan baik bila pesan yang telah diblokir kemudian dihapus.
2.3 Rencana Penelitian
Rencana penelitian pada skripsi ini antara lain :
1. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini memanfaatkan prinsip information retrieval.
2. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang ditelusuri sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database.
3. Jaccard Similarity dalam program simulasi ini akan digunakan untuk
commit to user
18 BAB III
METODE PENELITIAN
Metodologi penelitian yang digunakan dalam penulisan skripsi ini adalah pembangunan program untuk mensimulasikan pendeteksian email dan disertai dengan studi literatur. Langkah-langkah yang dilakukan dalam penelitian skripsi ini adalah sebagai berikut:
3.1 Studi Literatur
Studi literatur dilakukan dengan mencari dan mengumpulkan referensi berupa jurnal, skripsi, serta tesis, maupun artikel yang berkaitan dengan email filtering dan information retrieval. Keluaran yang diperoleh dari tahap ini adalah
rangkuman dasar teori dan penelitian terkait yang pernah dilakukan sebelumnya.
3.2 Tahap Perancangan
3.2.1 Perancangan framework
Pada tahap ini yang dirancang adalah framework yang digunakan untuk mensimulasikan proses pendeteksian email.
3.2.2 Perancangan flowchart
Pada tahap ini yang dirancang adalah flowchart yang digunakan untuk mensimulasikan proses pendeteksian email.
3.3 Tahap Implementasi
Dalam tahap implementasi ini terdapat 3 kegiatan inti, yaitu: 1. Pembuatan Database
Database pada program simulasi pendeteksian email ini dibuat dengan
Database Management System (DBMS) MySQL.
2. Pembuatan Kode Program
commit to user
19
bisa digunakan. Rangkaian kode tersebut menggunakan bahasa pemrograman PHP (Hypertext Preprocessor).
3. Debugging
Debugging dilakukan untuk pengujian terhadap program dalam mencari
error yang masih terdapat pada program, untuk selanjutnya diperbaiki.
3.4 Tahap Pengujian
Pengujian ini akan dilakukan dengan 2 cara yaitu :
1. Menguji hasil pendeteksian email dengan melihat hasil/keluaran dari beberapa contoh yang dimasukkan ke dalam program.
commit to user
20 BAB IV
PEMBAHASAN
4.1 Analisis Kebutuhan
4.1.1 Deskripsi Umum Simulasi
Beberapa poin penting yang harus diperhatikan dalam simulasi ini, antara lain:
1. Spam yang dimaksud dalam simulasi pendeteksian spam email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno.
2. Setelah proses pendeteksian, email akan dikategorikan menjadi 2 yaitu email aman dan email porno.
3. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini cukup sederhana yaitu dengan memanfaatkan prinsip information retrieval. Program akan membaca menelusuri url yang terdapat di dalam email kemudian mengambil metadata keywords dari url tersebut untuk dibandingkan dan dihitung kemiripannya dengan keywords porno yang ada di database dengan menggunakan jaccard similarity.
4. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang dituju sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database.
5. Jaccard Similarity dalam program simulasi ini akan digunakan untuk
menghitung kemiripan antara metadata keywords yang diperoleh dari url dengan keywords porno yang sudah terdapat di dalam database.
6. Ambang batas Jaccard Similarity adalah 0.1, yang berarti bila Jaccard
Similarity< 0.1 maka akan dideteksi sebagai url aman, sebaliknya bila
commit to user
21
7. Ambang batas Jaccard Similarity diberi nilai 0.1 atau 10% karena diasumsikan bahwa kata-kata yang terdapat dalam database keywords porno merupakan kata-kata yang mewakili metadata keywords yang terdapat di dalam url porno, sedangkan metadata keywords dalam url sendiri mewakili keseluruhan isi dari url tersebut. Jadi jika ada 1 kata yang sama dari 10 gabungan kata dari metadata keywords dan dari database keywords porno, maka dapat diasumsikan url tersebut adalah url porno
8. Alasan digunakannya Jaccard Similarity dalam simulasi ini adalah:
Jaccard Similarity dalam penghitungan intersectionnya mempunyai sifat
exact atau harus sama persis. Maksudnya di dalam Jaccard similarity
hanya ada nilai 1 dan 0, 1 jika sama persis, 0 jika tidak sama. Misal di terdapat sebuah set sampel A yang berisi sebuah kata yaitu PORN, kemudian ada set sampel B yang berisi kata-kata CORN, HORN, PORN, BORN, dan TORN, maka intersection dari 2 set sampel A dan B tersebut
bernilai 1, karena hanya 1 kata yang sama persis denga kata yang diharapkan, yaitu PORN. Hal ini sangat penting dalam simulasi pendeteksian email ini, karena dalam simulasi pendeteksian email ini intersection diambil dari kata-kata yang terdapat dalam metadata
keywords yang harus sama persis dengan kata-kata yang terdapat di
dalam keywords porno yang terdapat di dalam database, mengingat kata-kata tersebut adalah karakteristik yang menentukan sebuah url adalah url porno atau bukan.
Penghitungan Jaccard Similarity dinilai mudah dan tidak memerlukan waktu eksekusi atau runtime yang lama. Hal ini sangat penting dalam simulasi pendeteksian email ini mengingat jika nanti simulasi pendeteksian email ini akan diwujudnyatakan ke dalam sebuah email
sever yang sebenarnya, maka waktu eksekusi atau runtime merupakan
commit to user
1.1.2 Fungsi- fungsi di Dalam Program SimulasiProgram untuk simulasi email filtering ini memiliki fungsi-fungsi antara lain sebagai berikut:
1. Fungsi Input Source email
Merupakan fungsi untuk memasukkan file email yang berupa text file (.txt) untuk disaring.
2. Fungsi cek status email
Merupakan fungsi untuk mengecek status email, apakah email sudah difilter atau belum.
3. Fungsi membaca url email
Merupakan fungsi untuk membaca alamat url yang terdapat di dalam file email yang berupa text file (.txt).
4. Fungsi pencocokan url
Merupakan fungsi untuk mencocokkan url yang dtemukan dengan url yang ada di dalam table porn_site di database.
5. Fungsi crawl dan metadata
Merupakan fungsi untuk menelusuri url yang terdapat di dalam email ke alamat yang sebenarnya, yang kemudian akan diambil metadata keywords-nya.
6. Fungsi menghitung Jaccard Similarity
Merupakan fungsi untuk menghitung kemiripan antara metadata keywords dari alamat web dengan keywords dari database.
7. Fungsi Penambahan Peringatan
Merupakan fungsi untuk menambahkan peringatan ke dalam file email yang telah disaring. Peringatan ditambahkan ke dalam subject email.
8. Fungsi menghitung runtime program
commit to user
23
4.2 Perancangan
4.2.1 Arsitektur Simulasi Pendeteksian Email
AGENT
Gambar 4.1. Arsitektur Simulasi Pendeteksian Email
Gambar 4.1 menunjukkan bahwa:
Arsitektur di atas memperlihatkan adanya tambahan layer baru yang akan dibangun di dalam email server, yaitu detection and clustering layer. Layer ini berfungsi untuk mendeteksi dan mengelompokkan email dalam database server yang mengandung konten pornografi. Hasilnya email yang dikirim ke inbox user akan dikelompokkan dan diberi notifikasi apakah email tersebut mengandung konten pornografi atau tidak. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam detection and clustering layer.
Bagian utama dalam detection dan clustering layer ada 2, yaitu:
1. Bagian yang pertama adalah modul untuk pendeteksian email.Modul ini berisi kode program dalam bahasa php yang dgunakan untuk mendeteksi email yang masuk di dalam database server.
commit to user
Rancangan cara kerja simulasi pendeteksian email ini adalah sebagai berikut:
1. SMTP akan mendownload email yang dikirim dari server lain ke dalam server sendiri.
2. Setelah itu, email yang diterima kemudian disimpan di database server, email tersebut belum dikelompokkan.
3. Email yang terdapat di database server kemudian dideteksi dan
dikelompokkan menurut ada tidaknya konten pornografi dalam email tersebut. Proses ini akan berlangsung di dalam detection and clustering layer. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam layer ini.
commit to user
25
4.2.2 Flowchart Pendektesian Email
mulai
commit to user
Gambar 4.2 menunjukkan bahwa:1. Email yang masuk akan di cek apakah email tersebut sudah difilter atau
belum, jika sudah akan diberi peringatan bahwa email tersebut sudah difilter dan proses akan berhenti. Jika belum proses akan berlanjut.
2. Selanjutnya akan dihitung panjang email, dan diinisiasi variabel i = 0.
3. Selama i < panjang email, proses akan berlanjut dengan pencarian url di
dalam file email tersebut.
4. Jika terdapat url dalam email tersebut akan dicek apakah url tersebut termasuk salah satu url porno yang terdaftar di basis data. Jika tidak terdapat url di email tersebut maka proses akan berhenti dan diberi notifikasi sebagai
email yang aman dan proses berhenti.
5. Jika url tersebut cocok dengan url porno yang terdaftar di basis data, maka email akan diberi notifikasi sebagai email porno dan proses berhenti.
6. Jika url tidak cocok dengan porno yang terdaftar di basis data, maka url akan ditelusuri.
7. Selanjutnya diambil metadata keywords dari url yang dituju.
8. Kemudian dihitung kemiripan antara metadata keywords dengan porn
keywords yang terdapat di dalam database dengan menggunakan Jaccard
Similarity.
9. Jika nilai Jaccard Similarity >= 0.1, maka email akan diberi notifikasi sebagai email porno, kemudian url yang terdapat dalam email tersebut akan ditambahkan ke dalam database url porno kemudian proses berhenti.
10. Jika nilai Jaccard Similarity < 0.1, maka proses akan berlanjut dengan pengecekan url yang ditemukan selanjutnya.
commit to user
27
Jadi proses pendeteksian akan berhenti jika salah satu dari syarat-syarat berikut telah terpenuhi:
1. Email sudah difilter.
2. Tidak terdapat url di dalam email.
3. Url yang ditemukan adalah url porno, baik url tersebut sudah ada di dalam
database maupun belum terdapat di dalam database.
4. Pengecekan url email telah sampai end of file yaitu bila kondisi i = panjang email telah terpenuhi.
4.3 Pengujian Program Simulasi
Pengujian ini akan dilakukan dengan 2 cara yaitu
1. Menguji hasil pendeteksian email dengan melihat hasil/keluaran dari beberapa contoh yang dimasukkan ke dalam program. Dalam pengujian ini nilai keakuratan dapat dihitung dengan rumus seperti berikut:
= %
2. Menghitung runtime program dengan beberapa masukan atau input yang berbeda. Dalam pengujian ini nilai rata-rata runtime secara keseluruhan dapat dihitung dengan rumus seperti berikut:
Dengan :
commit to user
Lingkungan pengujian simulasi pendeteksian email ini dapat dilihat seperti pada table 4.1 berikut.
Tabel 4.1. Lingkungan Pengujian Simulasi Pendeteksian Email
No. Jenis Keterangan
1 Sistem Operasi Microsoft Windows 7 Ultimate
2 Software AppServ Open Project version 2.5.8 dengan:
Bahasa Pemrograman PHP 5.2.1, Web Server Apache 2.2.4,
Database Server MySQL 5.0.27, dan
Database Manager phpMyAdmin 2.9.2.
Mozilla Firefox 9.0.1
3 Hardware Notebook dengan spesifikasi:
Intel ® Pentium ® P6100 @ 2,00 GHz, RAM 1 GB,
Harddisk dengan kapasitas 320 GB
Modem Smartfren CE682 UI
Skenario pengujian adalah sebagai berikut:
1. User memasukkan source email yang akan difilter.
2. Kemudian klik tombol submit untuk memulai proses pendeteksian email tersebut.
3. Akan didapatkan hasil berupa url email, metadata keywords dan nilai Jaccard
Similarity dalam bentuk % (untuk url yang belum terdapat di dalam
database), notifikasi email safe atau email alert, serta runtime program.
Ambang batas Jaccard Similarity untuk pengujian hasil pendeteksian email adalah 0.1 atau 10% karena diasumsikan jika dalam 10 metadata keywords yang ditemukan ada sekurang-kurangnya 1 keywords yang sama dengan porn
keywords yang ada di dalam database maka url tersebut akan dideteksi
commit to user
29
4. Untuk pengujian runtime setiap url dilakukan sebanyak 3 kali yaitu waktu ke-1 pukul 23.00 WIB, ke-2 pukul 08.00 WIB, dan ke-3 pukul ke-13.00 WIB. Tujuan pengujian ini dilakukan sebanyak 3 kali adalah untuk mendapatkan hasil yang lebih akurat karena pada waktu-waktu tersebut biasanya kecepatan akses internet akan berbeda-beda.
Tabel 4.2 berikut ini adalah dataset yang akan digunakan dalam pengujian:
Tabel 4.2. Tabel Dataset Pengujian
NO JENIS JML KETERANGAN
1 File email
(.txt)
85 - 25 file txt yang berisi sebuah url yang sudah terdapat di dalam database.
- 35 file txt yang berisi sebuah url yang
belum terdapat di dalam database.
- 25 file txt yang berisi lebih dari 1 url, baik
url yang sudah terdapat di dalam database
maupun url yang belum terdapat di dalam database.
- Semua data url tersebut diperoleh dari data sekunder yang diambil dari internet.
2 Data url 60 - 25 merupakan data url yang sudah terdapat di dalam database.
- 35 merupakan url yang belum terdapat di dalam database. Semua data url tersebut diperoleh dari data sekunder yang diambil dari internet.
3 Data keywords porno
5 - Data keywords ini merupakan kata-kata yang diasumsikan mewakili metadata keywords yang terdapat di dalam url porno.
commit to user
Berikut ini disajikan hasil dari pengujian hasil pendeteksian email:
Tabel 4.3. Tabel Pengujian Hasil Pendeteksian Email dengan Url Terdapat Di dalam Database
Id Url Terdapat Dalam Database Hasil BENAR SALAH
commit to user
Tabel 4.4. Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database
id Url Tidak Terdapat Dalam Database Hasil BENAR SALAH
1 http://8x.com ALERT !
2 http://phonxxxxxxx.com ALERT ! 3 http://findxxxxx.com ALERT ! 4 http://pandxxxxxxx.com ALERT ! 5 http://cartoxxxxxx.com ALERT ! 6 http://kowalxxxxxxx.com ALERT ! 7 http://bravxxxx.com SAFE ! 8 http://eroxxxx.com ALERT ! 9 http://tubxxxxxx.com ALERT ! 10 http:/lobsxxxxxxx.com ALERT ! 11 http://wankxxxxxx.com ALERT ! 12 http://dinxxxxx.com ALERT ! 13 http://meexxx.com SAFE ! 14 http://clipxxxxxx.com ALERT ! 15 http://h2xxxx.com ALERT ! 16 http://persixxxxxxx.com ALERT !
17 http://xnxx.com ALERT !
18 http://bondaxxxxxx.com SAFE ! 19 http://vpxxx.com ALERT !
20 http://ixxx.com ALERT !
commit to user
Tabel 4.4. Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat Di dalam Database (Lanjutan)
id Url Tidak Terdapat Dalam Database Hasil BENAR SALAH
22 http://yahoo.com SAFE ! 23 http://id.yahoo.com SAFE ! 24 http://answer.yahoo.com SAFE ! 25 http://id.answers.yahoo.com SAFE ! 26 http://solopos.com SAFE ! 27 http://kompas.com SAFE ! 28 http://libre.com SAFE ! 29 http://nytimes.com SAFE ! 30 http://libra.msra.cn SAFE ! 31 http://kpk.go.id SAFE ! 32 http://indosat.com SAFE !
33 http://amd.com SAFE !
34 http://greenpeace.org SAFE ! 35 http://tokobagus.com SAFE !
Dari tabel 4.4, dapat dianalisa bahwa :
1. Untuk kasus url yang belum terdapat dalam database, daat dilihat bawah dari 35 data yang diuji, data yang bernilai benar ada 32:
Tingkat akurasi = 32 x 100% = 91.4% 35
2. Kesalahan yang terjadi dalam metode pendeteksian ini dikarenakan url porno yang dituju tidak memiliki metadata keywords, sehingga url tersebut tidak terdeteksi sebagai url porno karena Jaccard Similarity bernilai 0 (kurang dari 0.1).
commit to user
33
tersebut tidak terdeteksi sebagai url porno karena Jaccard Similarity bernilai 0 (kurang dari 0.1).
Tabel 4.5. Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url
id Multiple url Jenis url Hasil Benar Salah
1 http://4xxxx.com,
http://answer.yahoo.com porn(in-db), safe ALERT ! 2 http://cinxxxxx-69.com,
http://solopos.com porn(in-db), safe ALERT ! 3 http://rabbitxxxxxxx.com,
http://kompas.com porn(in-db), safe ALERT ! 4 http://porxxxxxxxx.com,
http://libre.com porn(in-db), safe ALERT ! 5 http://porxxxx.com,
http://kpk.go.id porn(in-db), safe ALERT ! 6 http://8x.com,
http://answer.yahoo.com porn(out-db), safe ALERT ! 7 http://phonxxxxxxx.com,
http://solopos.com porn(out-db), safe ALERT ! 8 http://pandxxxxxxx.com,
http://kompas.com porn(out-db), safe ALERT ! 9 http://wanxxxxxxx.com,
http://kompas.com porn(out-db), safe ALERT ! 10 http://clipxxxxxx.com,
http://kpk.go.id porn(out-db), safe ALERT ! 11 http://answer.yahoo.com,
http://4xxxx.com safe, porn(in-db) ALERT ! 12 http://solopos.com,
commit to user
Tabel 4.5. Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url (Lanjutan)
id Multiple url Jenis url Hasil Benar Salah
13 http://kompas.com,
http://rabbixxxxxxxxx.com safe, porn(in-db) ALERT ! 14 http://libre.com,
http://porxxxxxxxx.com safe, porn(in-db) ALERT ! 15 http://kpk.go.id,
http://porxxxx.com safe, porn(in-db) ALERT ! 16 http://answer.yahoo.com,
http://8x.com safe, porn(out-db) ALERT ! 17 http://solopos.com,
http://mexxxx.com safe, porn(out-db) SAFE ! 18 http://kompas.com,
http://pandxxxxxxx.com safe, porn(out-db) ALERT ! 19 http://kompas.com,
http://wanxxxxxxx.com safe, porn(out-db) ALERT ! 20 http://kpk.go.id,
http://clixxxxxxx.com safe, porn(out-db) ALERT ! 21 http://answer.yahoo.com,
http://kompas.com safe, safe SAFE ! 22 http://answer.yahoo.com,
http://solopos.com safe, safe SAFE ! 23 http://answer.yahoo.com,
http://kpk.go.id safe, safe SAFE ! 24 http://kpk.go.id,
http://solopos.com safe, safe SAFE ! 25 http://kompas.com,
commit to user
35
Dari tabel 4.3, 4.4, dan 4.5 dapat dianalisa bahwa untuk kasus multiple url dapat dilihat bawah dari 25 data yang diuji, data yang bernilai benar ada 24. Jadi:
Tingkat akurasi = 24 x 100% = 96 % 25
Dari tabel 4.3, 4.4, dan 4.5 didapatkan data tingkat akurasi sebagai berikut:
- Url yang sudah terdapat di dalam database tingkat akurasi = 100%.
- Url yang belum tedapat di dalam database tingkat akurasi = 91.4 %.
- Multiple url tingkat akurasi = 96%.
Data tersebut dapat digambarkan dalam sebuah grafik seperti pada Gambar 4.3 berikut:
Gambar 4.3. Grafik Tingkat Akurasi Pendeteksian Email 86
Jenis urldalam email
commit to user
Berikut ini disajikan hasil dari pengujian runtime:
Tabel 4.6. Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database
commit to user
37
Tabel 4.6. Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database (Lanjutan)
id Url Terdapat
Jumlah total rata-rata per url 3.28
Dari tabel 4.6 dapat dianalisa bahwa untuk kasus url porno yang sudah terdapat dalam database, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 0.15 detik yang diperoleh dari :
Rata-rata keseluruhan = 3.28 = 0.15 detik
25
Tabel 4.7. Tabel Pengujian Runtime dengan Url Tidak Terdapat Di dalam Database
commit to user
Tabel 4.7. Tabel Pengujian Runtime
dengan Url Tidak Terdapat Di dalam Database (Lanjutan)
id Url Tidak Terdapat 24 http://answer.yahoo.com 4.071 3.913 2.474 3.486 25 http://id.answers.yahoo.com 2.151 1.345 2.138 1.878 26 http://solopos.com 4.385 4.588 4.976 4.6497 27 http://kompas.com 1.912 1.925 2.177 2.0047
commit to user
39
Dari tabel 4.7 dapat dianalisa bahwa :
1. Untuk kasus url yang belum terdapat dalam database, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 5.15 detik yang diperoleh dari :
Rata-rata keseluruhan = 159.321 = 5.15 detik 35
2. Untuk kasus url yang belum terdapat dalam database, waktu eksekusi (runtime) yang diperlukan untuk mendeteksi dipengaruhi oleh beberapa faktor
seperti lama loading dari url yang dituju dan koneksi internet.
Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url
id Multiple url Jenis url Pengujian
commit to user
Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url (Lanjutan)
id Multiple url Jenis url Pengujian
commit to user
41
Tabel 4.8. Tabel Pengujian Runtime dengan Multiple Url (Lanjutan)
id Multiple url Jenis url Pengujian
ke-1(s) Jumlah total rata-rata per url 105.67
Dari tabel 4.8 dapat dianalisa bahwa untuk kasus multiple url porno, metode pendeteksian ini hanya memerlukan rata-rata waktu eksekusi sekitar 4.23 detik yang diperoleh dari :
Rata-rata keseluruhan = 105.67= 4.23 detik 25
Dari tabel 4.6, 4.7, dan 4.8 untuk pengujian runtime hasil dapat dibedakan menjadi:
a. Single url, terdiri dari:
- Url yang sudah terdapat di dalam database dengan rata-rata 0.15 detik. - Url yang belum terdapat di dalam database dengan rata-rata 5.15 detik. b. Multiple url,dapat dibagi menurut pola:
- Url porn di dalam database, url safe dengan rata-rata:
0.175 + 0.175 + 0.15467 + 0.159 + 0.161 = 0.82467 = 0.16493 detik.
5 5
- Url porn di luar database, url safe dengan rata-rata:
4.5807 + 3.79467 + 4.66567 + 3.4513 + 4.5613 = 21.05367 = 4.21073 detik.
commit to user
- Url safe, url porn di dalam database dengan rata-rata:
4.83467 + 4.6903 + 2.61867 + 3.7673 + 5.113 = 21.024 = 4.2048 detik.
5 5
- Url safe, url porn di luar database dengan rata-rata:
5.096 + 5.62467 + 6.19567 + 5.621 + 9.5043 = 32.04167 = 6.4083 detik.
5 5
- Url safe, url safe dengan rata-rata:
6.5267 + 6.3573 + 5.9603 + 7.062 + 4.8183 = 30.72467 = 6.14493 detik.
5 5
Data tersebut bila digambarkan dalam sebuah grafik maka akan terlihat seperti pada Gambar 4.4 berikut:
Gambar 4.4. Grafik Rata-rata Runtime Dapat dilihat dari Gambar 4.4 bahwa :
- Rata-rata runtime untuk Single url (url yang sudah terdapat di dalam
database) hampir sama dengan runtime multiple url (url porn di dalam
database, url safe), ini dikarenakan kedua pola tersebut tidak melakukan
koneksi ke luar database. Meskipun terdapat url safe yang notabene terdapat di luar database, tetapi url tersebut tidak ditelusuri karena berdasarkan algoritma, jika sudah ditemukan sebuah url porno (baik di dalam database maupun di luar database), maka proses pendeteksian akan dihentikan dan email akan diberi notifikasi sebagai email porno.
0
Jenis urldalam email
single url (url in db)
single url (url out db)
mulkp le url (porn-in db, safe)
mulkp le url (porn-out db, safe)
mulkp le url (safe, porn-in db)
commit to user
43
- Untuk Single url (Url yang belum terdapat di dalam database), Multiple
url (Url porn di luar database, url safe), dan Multiple url (Url safe, url
porn di dalam database) memiliki runtime yang hampir sama dikarenakan
ketiga pola tersebut memerlukan sekali koneksi keluar database. Tetapi seperti terlihat tetap terdapat perbedaan dikarenakan beberapa faktor seperti lama loading masing-masing url dan kecepatan koneksi.
- Multiple url (Url safe, url porn di luar database) dan Multiple url (Url
safe, url safe) memiliki runtime terlama karena sesuai algoritma program
hanya akan berhenti jika sudah mendapatkan sebuah url porno (baik di dalam database maupun di luar database) atau jika semua url dalam file email telah melalui proses pendeteksian.