ANALISIS DAN IMPLEMENTASI SPAM EMAIL FILTERING MENGGUNAKAN VECTOR SPACE MODEL (ANALYSIS AND IMPLEMENTATION OF SPAM EMAIL
FILTERING USING VECTOR SPACE MODEL)
Noverman Sitanggang¹, -²
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak
Banyaknya penggunaan internet sebagai media komunikasi, penyebaran berita serta makin banyaknya layanan penyedia email di internet menyebabkan email spam semakin banyak. Hal ini tentu merugikan bagi pengguna email karena harus menghabiskan banyak waktu untuk
menghapus email-email spam tersebut dan dapat menyebabkan media penyimpanan pada email server menjadi penuh. Email spam biasanya berisi pesan komersial tentang suatu produk, usaha, atau bahkan pesan tentang pornografi yang tidak diinginkan oleh user. Saat ini sudah banyak teknik spam filtering yang dibuat untuk mengatasi email spam ini, seperti rule based filtering, naïve bayesian filtering dan support vector machine. Kebanyakan dari aplikasi yang
menggunakan teknik spam filtering saat ini, seperti Yahoo Mail tidak dapat mengenali pola dari dokumen email, dan menggunakan pencocokan ekspresi reguler, dimana jika terdapat suatu kata yang mengandung spam dalam suatu email, email tersebut difilter. Meskipun pendekatan ini dapat memfilter email spam, namun hal ini dapat menyebabkan email-email penting juga difilter karena mengandung term tersebut.
Pada tugas akhir ini telah dirancang dan diimplementasikan suatu perangkat lunak spam email filtering menggunakan salah satu pendekatan teknik information retreival, yang disebut Vector Space Model. Vektor Space Model memperlakukan query sebagai vektor dalam ruang
multidimensional. Sekumpulan data indexing berupa email spam dan email legitimate diberikan kepada perangkat lunak spam email filtering ini, sehingga dapat mengkategorisasikan email dengan mengidentifikasi content dari email untuk menentukan email mana yang merupakan spam email.. Sehingga, ketika spam tersebut cocok, maka perangkat lunak ini akan memfilternya. Kata Kunci : spam, email filtering, information retreival, vektor space model.
Abstract
Too much using of internet as communication media, news spreading, and there are a lot of email service provider in internet cause the number of spam email being excessively. It surely can harm the email user because the user have to spend much time to delete spam emails and can cause the storage media on email server being full. Spam email is flooding the internet with many copies of the same message, in a attempt to force the message on people who would not choose to receive it. Spam email usualy consist of commercial message to some product, bussiness message, or even porn message on user who would not want it. At present, there are many spam filtering technique that are developed to force this spam email, for example rule base filtering, naive bayesian filtering and support vector machine. Most of email applications that using spam filtering technique, such as Yahoo Mail, can not understand the semantics of email document, and use a regular expression match, where if a term appears in a particular email, it is filtered. Although this approach is able to filter spam emails, it could occasionally filter some important emails, which might just cotain such term.
This Final Project has designed and implemented a spam email filtering tool using one of
Information Retrieval Technique, called Vector Space Model. Vector Space Model act the query as a vector in mutidimensional room. Given an indexing data of spam and legitimate message, so that the spam email filtering tool is able to categorize email, by indentifying content of email to determine which one is spam email .Thus, whenever spam is match, it is filtered.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dunia internet semakin berkembang, begitupula penggunaan email dalam kehidupan sehari-hari menjadi meningkat. Kita cenderung menganggap email sebagai sarana komunikasi baik dalam hal pribadi maupun hal bisnis. Telah ada industri yang berkembang dengan pesat dalam menggunakan email sebagai alat bantu pemasaran beberapa tahun belakangan ini. Faktanya, saat ini email-email yang tidak diharapkan seperti iklan, pornografi, jasa dan lain sebagainya menjadi hal yang sangat umum saat ini. Email ini dianggap sebagai spam dan dapat meluas dari puluhan hingga ratusan dalam sehari. Dengan begitu spam menjadi suatu hal yang mengganggu dalam inbox email kita. Sebagai user, biasanya menginginkan email yang berguna, relevan dan dalam waktu yang sesingkat mungkin, tanpa harus melalui kerumitan dalam browsing inbox yang diserang spam. Pemecahan masalah ini adalah dengan menggunakan tool email filtering yang dapat menyaring email-email yang tidak diinginkan ini.
Saat ini sudah banyak teknik spam filtering yang dibuat untuk mengatasi spam email ini, seperti rule based filtering, naïve bayesian filtering dan support vector machine. Akan tetapi, spam dapat sampai ke inbox email user meskipun telah menggunakan tool tersebut. Dan dapat mengakibatkan user perlu menghabiskan waktu yang lama dalam menghapus spam email dari inbox email. Masing-masing memiliki kelebihan dan kekurangan, bahkan dengan teknik seperti itu bisa saja email penting tidak bisa masuk ke dalam inbox user.
Tugas akhir ini menganalisis dan mengimplementasikan sebuah perangkat
spam email filteing yang dapat mengkategorisasikan email dengan
mengidentifikasi content dari email untuk menentukan email mana yang merupakan spam email. Tugas akhir ini berfokus pada implementasi dari algoritma Vektor Space Model dalam mengkategorisasikan content dari email.
Vector Space Model adalah salah satu model Information Retreival {IR}, yang
merepresentasikan sebuah dokumen sebagai sekumpulan kata-kata beserta
Bab I – Pendahuluan 2
frekuensinya. Dengan email filter, user dapat memfokuskan diri pada email yang penting, dan mengabaikan spam email.
Disamping itu, Vector Space Model memiliki keuntungan berupa skema pembobotannya yang meningkatkan performansi pencarian, strategi pencocokannya mengijinkan pencarian dokumen yang cocok dengan kondisi query, dan rumus ranking kosinus mengurutkan dokumen menurut tingkat kemiripannya dengan query.
1.2 Perumusan Masalah
Adapun perumusan masalah pada Tugas Akhir ini adalah :
1. Bagaimana mengimplementasikan spam email filtering menggunakan salah satu teknik information retrieval yaitu Vector Space Model
2. Bagaimana mengimplementasikan spam email filtering yang dapat mengenali jenis dari spam yang terus berkembang.
1.3 Batasan Masalah
Pembahasan masalah pada tugas akhir ini akan dibatasi pada ruang lingkup :
1. Menggunakan salah satu teknik Information Retreival yaitu Vector Space
Model.
2. Sekumpulan dokumen email spam dan non-spam dari inbox user digunakan sebagai data indexing dan data testing pada aplikasi spam email
filtering ini dan sudah dalam bentuk file yang disimpan dalam folder
tersendiri.
3. Bagian yang dianalisis adalah bagian header dan body email yang berupa teks bukan gambar.
4. Menggunakan inputan email dalam bahasa Inggris.
1.4 Tujuan Penelitian
Tujuan penelitian dari tugas akhir ini adalah:
1. Mengimplementasikan salah satu teknik Information Retreival yaitu
Vector Space Model untuk membangun sebuah perangkat spam email filtering.
2. Menganalisis keakuratan dari hasil implementasi spam email filtering tersebut dalam memfilter email-email spam.
1.5 Metodologi Pemecahan Masalah
Metode yang digunakan dalam penyelesaian Tugas Akhir ini yaitu: 1. Studi Literatur
Mempelajari literatur-literatur tentang email, teknik-teknik email filtering dan konsep pada Information Retreival khususnya Vector Space Model. 2. Pengumpulan dan Analisis Data.
Mengumpulkan dokumen email spam dan non-spam yang akan digunakan sebagai data dalam proses indexing dan proses querying untuk aplikasi. Data tersebut diperoleh dari email yang terdapat pada inbox outlook
express user tertentu.
3. Analisis dan Perancangan Sistem
Menganalisis kebutuhan sistem. Dari hasil analisis tersebut dibuat perancangan aplikasinya.
4. Implementasi
Mengimplementasikan hasil dari perancangan sistem dengan membangun aplikasi spam email filtering yang dapat memfilter dokumen email menjadi spam dan non-spam dengan menggunakan teknik Vector Space
Model.
5. Pengujian Sistem dan Analisis Fungsi Hasil Implementasi.
Melakukan pengujian terhadap parameter performansi email filttering, hasil pengujian kemudian dianalisis untuk mendapatkan kesimpulan akhir. 6. Pengambilan Kesimpulan
7. Pendokumentasian Tugas Akhir.
Bab I – Pendahuluan 4
1.6 Sistematika Penulisan
Tugas Akhir ini akan disusun dengan sistematika sebagai berikut :
Bab I Pendahuluan.
Bab ini memberikan gambaran secara garis besar tentang Tugas Akhir yang dilakukan penulis. Mencakup latar belakang pembuatan Tugas Akhir, perumusan masalah, pembatasan masalah, tujuan, metodologi pemecahan masalah dan sistematika penulisan.
Bab II Landasan Teori.
Bab ini menjelaskan seluruh teori yang menjadi landasan konseptual dan pendukung penyelesaian Tugas Akhir ini yaitu teori tentang mekanisme Vektor Space Model
Bab III Analisis Kebutuhan dan Perancangan Sistem.
Menjelaskan tentang proses analisis masalah dan kebutuhan perangkat lunak. Berisi rancangan yang meliputi proses perancangan perangkat lunak dengan menggunakan Vektor Space Model.
Bab IV Implementasi dan Analisis Pengujian.
Mengimplementasikan dan analisis pengujian dari proses filtering email dengan menggunakan Vektor Space Model.
Bab V Kesimpulan dan Saran.
Bab ini berisi kesimpuan dari keseluruhan sistem yang dibuat serta saran yang berkaitan dengan aplikasi Tugas Akhir ini dan kemungkinan pengembangan selanjutnya.
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan percobaan dan analisa yang telah dibahas dan dilaksanakan pada bab IV, maka dapat disimpulkan beberapa hal sebagai berikut :
1. Vector Space Model dengan menggunakan tokenisasi stopword saja dapat digunakan sebagai spam email filtering.
2. Peningkatan jumlah dokumen pada proses indexing akan meningkatkan nilai spam precision dan spam recall.
3. Sebaliknya, jika jumlah dokumen pada proses indexing diperkecil akan mengurangi nilai spam precision dan spam recall.
4. Tokenisasi stopword memiliki pengaruh yang cukup signifikan dalam menghasilkan nilai spam precision dan spam recall yang tinggi dari spam email filtering.
5. Jumlah dokumen yang besar pada proses indexing memperlambat waktu proses query dokumen email.
6. Vector Space Model memiliki keunggulan dalam hal nilai Spam Recall yang lebih tinggi dari program email Yahoo.
5.2 Saran
1. Aplikasi Spam Email Filtering menggunakan metode Vector Space Model ini masih dalam bentuk command line, untuk pengembangan selanjutnya dapat dibangun visualnya serta terintegrasi dengan program email client. 2. Akurasi dari aplikasi spam email filtering menggunakan metode Vector
Space Model ini dapat ditingkatkan dengan menambahkan kembali
data-data email spam dan legitimate untuk proses indexing dan porses query.
Bab V – Kesimpulan dan Saran 44
3. Email legitimate yang digolongkan sebagai spam oleh aplikasi dapat ditanggulangi dengan mengirimkan kembali email tersebut kepada pengirim dengan notifikasi sebagai spam. Dan bisa dimasukkan sebuah pertanyaan yang digunakan untuk mengidentifikasikan kembali jika email tersebut dikirimkan kembali oleh pengirim.
DAFTAR PUSTAKA
[1] Byoung-Tak Zhang and Young-Woo Seo, “Personalize Web Document
Filtering Using Reinforcement Learning”, Biointellegence Lab, School
of Computer Science and Engineering , Seoul National University , Seoul, Korea, 2001
[2] Bruce Grunter, “Bruce Grunter Spam Email Corpus”,
http://www.brucegrunter.com/corpus, Tanggal akses terakhir:10 Maret
2006
[3] Christopher James Taylor, “Email Filtering”, Bachelor of Science with Honours in Artificial Intelligence and Computer Science by Christoper James Taylor, 2003.
[4] Craig Larman, “ Applying UML and Patterns”, Prentice Hall, 1998
[5] D. Fensel, “Lecture Telecooperation”, Leopold-Franzens Universitat Innsbruck 1999.
[6] Howard Anton, “Dasar-dasar Aljabar Linear”, Interaksara, 2000 [7] Ion Androutsopoulos , “Ling Spam Public Corpus”,
http://www.iit.demokritos.gr/~ionandr, Tanggal akses terakhir: 20 Maret 2006
[8] Michael J. Young, “Mastering Visual C++ 6”, Sybex, 1996 [9] Miguel Riguiz, “Automatic Indexing and Categorization”. 2001
[10] Raghu Ramakrishnan and Johannes Gehrke, “Database Management
Systems Third Edition”, McGraw Hill, 2003
[11] Raymond J. Money, “Data Warehousing, Filtering and Mining”, Temple University, 2004
[12] Roger Mensah, “Email Filtering Tool”, Bachelor of Science with Honours in Computer Science by Roger Mensah, 2002.
[13] Shankar Raghnatan, “Text Clasification Combining Clustering and
Hierarchical Approach”, Department of Electrical Engineering and
Computer Science, University of Madras, India.
Daftar Pustaka 46
[14] Siew-Kho-Chew, “Email Filtering Tool”, Bachelor of Engineering with Honours in Software Engineering by Siew-Kho-Chew, 2002.
[15] Yahoo Mail, http://www.mail.yahoo.com, Tanggal akses terakhir: 3 Mei 2006
[16] Zhi-When-Yu, Xing-She Zhou, Jian-Hua Gu, Xian-Jun Wu, “Adaptive
Program Filtering Under Vector Space Model and Relevance Feedback”, Department of Computer Science and Engineering,