• Tidak ada hasil yang ditemukan

Noverman Sitanggang¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "Noverman Sitanggang¹, -². ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom"

Copied!
9
0
0

Teks penuh

(1)

ANALISIS DAN IMPLEMENTASI SPAM EMAIL FILTERING MENGGUNAKAN VECTOR SPACE MODEL (ANALYSIS AND IMPLEMENTATION OF SPAM EMAIL

FILTERING USING VECTOR SPACE MODEL)

Noverman Sitanggang¹, -²

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak

Banyaknya penggunaan internet sebagai media komunikasi, penyebaran berita serta makin banyaknya layanan penyedia email di internet menyebabkan email spam semakin banyak. Hal ini tentu merugikan bagi pengguna email karena harus menghabiskan banyak waktu untuk

menghapus email-email spam tersebut dan dapat menyebabkan media penyimpanan pada email server menjadi penuh. Email spam biasanya berisi pesan komersial tentang suatu produk, usaha, atau bahkan pesan tentang pornografi yang tidak diinginkan oleh user. Saat ini sudah banyak teknik spam filtering yang dibuat untuk mengatasi email spam ini, seperti rule based filtering, naïve bayesian filtering dan support vector machine. Kebanyakan dari aplikasi yang

menggunakan teknik spam filtering saat ini, seperti Yahoo Mail tidak dapat mengenali pola dari dokumen email, dan menggunakan pencocokan ekspresi reguler, dimana jika terdapat suatu kata yang mengandung spam dalam suatu email, email tersebut difilter. Meskipun pendekatan ini dapat memfilter email spam, namun hal ini dapat menyebabkan email-email penting juga difilter karena mengandung term tersebut.

Pada tugas akhir ini telah dirancang dan diimplementasikan suatu perangkat lunak spam email filtering menggunakan salah satu pendekatan teknik information retreival, yang disebut Vector Space Model. Vektor Space Model memperlakukan query sebagai vektor dalam ruang

multidimensional. Sekumpulan data indexing berupa email spam dan email legitimate diberikan kepada perangkat lunak spam email filtering ini, sehingga dapat mengkategorisasikan email dengan mengidentifikasi content dari email untuk menentukan email mana yang merupakan spam email.. Sehingga, ketika spam tersebut cocok, maka perangkat lunak ini akan memfilternya. Kata Kunci : spam, email filtering, information retreival, vektor space model.

Abstract

Too much using of internet as communication media, news spreading, and there are a lot of email service provider in internet cause the number of spam email being excessively. It surely can harm the email user because the user have to spend much time to delete spam emails and can cause the storage media on email server being full. Spam email is flooding the internet with many copies of the same message, in a attempt to force the message on people who would not choose to receive it. Spam email usualy consist of commercial message to some product, bussiness message, or even porn message on user who would not want it. At present, there are many spam filtering technique that are developed to force this spam email, for example rule base filtering, naive bayesian filtering and support vector machine. Most of email applications that using spam filtering technique, such as Yahoo Mail, can not understand the semantics of email document, and use a regular expression match, where if a term appears in a particular email, it is filtered. Although this approach is able to filter spam emails, it could occasionally filter some important emails, which might just cotain such term.

This Final Project has designed and implemented a spam email filtering tool using one of

Information Retrieval Technique, called Vector Space Model. Vector Space Model act the query as a vector in mutidimensional room. Given an indexing data of spam and legitimate message, so that the spam email filtering tool is able to categorize email, by indentifying content of email to determine which one is spam email .Thus, whenever spam is match, it is filtered.

(2)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dunia internet semakin berkembang, begitupula penggunaan email dalam kehidupan sehari-hari menjadi meningkat. Kita cenderung menganggap email sebagai sarana komunikasi baik dalam hal pribadi maupun hal bisnis. Telah ada industri yang berkembang dengan pesat dalam menggunakan email sebagai alat bantu pemasaran beberapa tahun belakangan ini. Faktanya, saat ini email-email yang tidak diharapkan seperti iklan, pornografi, jasa dan lain sebagainya menjadi hal yang sangat umum saat ini. Email ini dianggap sebagai spam dan dapat meluas dari puluhan hingga ratusan dalam sehari. Dengan begitu spam menjadi suatu hal yang mengganggu dalam inbox email kita. Sebagai user, biasanya menginginkan email yang berguna, relevan dan dalam waktu yang sesingkat mungkin, tanpa harus melalui kerumitan dalam browsing inbox yang diserang spam. Pemecahan masalah ini adalah dengan menggunakan tool email filtering yang dapat menyaring email-email yang tidak diinginkan ini.

Saat ini sudah banyak teknik spam filtering yang dibuat untuk mengatasi spam email ini, seperti rule based filtering, naïve bayesian filtering dan support vector machine. Akan tetapi, spam dapat sampai ke inbox email user meskipun telah menggunakan tool tersebut. Dan dapat mengakibatkan user perlu menghabiskan waktu yang lama dalam menghapus spam email dari inbox email. Masing-masing memiliki kelebihan dan kekurangan, bahkan dengan teknik seperti itu bisa saja email penting tidak bisa masuk ke dalam inbox user.

Tugas akhir ini menganalisis dan mengimplementasikan sebuah perangkat

spam email filteing yang dapat mengkategorisasikan email dengan

mengidentifikasi content dari email untuk menentukan email mana yang merupakan spam email. Tugas akhir ini berfokus pada implementasi dari algoritma Vektor Space Model dalam mengkategorisasikan content dari email.

Vector Space Model adalah salah satu model Information Retreival {IR}, yang

merepresentasikan sebuah dokumen sebagai sekumpulan kata-kata beserta

(3)

Bab I – Pendahuluan 2

frekuensinya. Dengan email filter, user dapat memfokuskan diri pada email yang penting, dan mengabaikan spam email.

Disamping itu, Vector Space Model memiliki keuntungan berupa skema pembobotannya yang meningkatkan performansi pencarian, strategi pencocokannya mengijinkan pencarian dokumen yang cocok dengan kondisi query, dan rumus ranking kosinus mengurutkan dokumen menurut tingkat kemiripannya dengan query.

1.2 Perumusan Masalah

Adapun perumusan masalah pada Tugas Akhir ini adalah :

1. Bagaimana mengimplementasikan spam email filtering menggunakan salah satu teknik information retrieval yaitu Vector Space Model

2. Bagaimana mengimplementasikan spam email filtering yang dapat mengenali jenis dari spam yang terus berkembang.

1.3 Batasan Masalah

Pembahasan masalah pada tugas akhir ini akan dibatasi pada ruang lingkup :

1. Menggunakan salah satu teknik Information Retreival yaitu Vector Space

Model.

2. Sekumpulan dokumen email spam dan non-spam dari inbox user digunakan sebagai data indexing dan data testing pada aplikasi spam email

filtering ini dan sudah dalam bentuk file yang disimpan dalam folder

tersendiri.

3. Bagian yang dianalisis adalah bagian header dan body email yang berupa teks bukan gambar.

4. Menggunakan inputan email dalam bahasa Inggris.

(4)

1.4 Tujuan Penelitian

Tujuan penelitian dari tugas akhir ini adalah:

1. Mengimplementasikan salah satu teknik Information Retreival yaitu

Vector Space Model untuk membangun sebuah perangkat spam email filtering.

2. Menganalisis keakuratan dari hasil implementasi spam email filtering tersebut dalam memfilter email-email spam.

1.5 Metodologi Pemecahan Masalah

Metode yang digunakan dalam penyelesaian Tugas Akhir ini yaitu: 1. Studi Literatur

Mempelajari literatur-literatur tentang email, teknik-teknik email filtering dan konsep pada Information Retreival khususnya Vector Space Model. 2. Pengumpulan dan Analisis Data.

Mengumpulkan dokumen email spam dan non-spam yang akan digunakan sebagai data dalam proses indexing dan proses querying untuk aplikasi. Data tersebut diperoleh dari email yang terdapat pada inbox outlook

express user tertentu.

3. Analisis dan Perancangan Sistem

Menganalisis kebutuhan sistem. Dari hasil analisis tersebut dibuat perancangan aplikasinya.

4. Implementasi

Mengimplementasikan hasil dari perancangan sistem dengan membangun aplikasi spam email filtering yang dapat memfilter dokumen email menjadi spam dan non-spam dengan menggunakan teknik Vector Space

Model.

5. Pengujian Sistem dan Analisis Fungsi Hasil Implementasi.

Melakukan pengujian terhadap parameter performansi email filttering, hasil pengujian kemudian dianalisis untuk mendapatkan kesimpulan akhir. 6. Pengambilan Kesimpulan

7. Pendokumentasian Tugas Akhir.

(5)

Bab I – Pendahuluan 4

1.6 Sistematika Penulisan

Tugas Akhir ini akan disusun dengan sistematika sebagai berikut :

Bab I Pendahuluan.

Bab ini memberikan gambaran secara garis besar tentang Tugas Akhir yang dilakukan penulis. Mencakup latar belakang pembuatan Tugas Akhir, perumusan masalah, pembatasan masalah, tujuan, metodologi pemecahan masalah dan sistematika penulisan.

Bab II Landasan Teori.

Bab ini menjelaskan seluruh teori yang menjadi landasan konseptual dan pendukung penyelesaian Tugas Akhir ini yaitu teori tentang mekanisme Vektor Space Model

Bab III Analisis Kebutuhan dan Perancangan Sistem.

Menjelaskan tentang proses analisis masalah dan kebutuhan perangkat lunak. Berisi rancangan yang meliputi proses perancangan perangkat lunak dengan menggunakan Vektor Space Model.

Bab IV Implementasi dan Analisis Pengujian.

Mengimplementasikan dan analisis pengujian dari proses filtering email dengan menggunakan Vektor Space Model.

Bab V Kesimpulan dan Saran.

Bab ini berisi kesimpuan dari keseluruhan sistem yang dibuat serta saran yang berkaitan dengan aplikasi Tugas Akhir ini dan kemungkinan pengembangan selanjutnya.

(6)

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan percobaan dan analisa yang telah dibahas dan dilaksanakan pada bab IV, maka dapat disimpulkan beberapa hal sebagai berikut :

1. Vector Space Model dengan menggunakan tokenisasi stopword saja dapat digunakan sebagai spam email filtering.

2. Peningkatan jumlah dokumen pada proses indexing akan meningkatkan nilai spam precision dan spam recall.

3. Sebaliknya, jika jumlah dokumen pada proses indexing diperkecil akan mengurangi nilai spam precision dan spam recall.

4. Tokenisasi stopword memiliki pengaruh yang cukup signifikan dalam menghasilkan nilai spam precision dan spam recall yang tinggi dari spam email filtering.

5. Jumlah dokumen yang besar pada proses indexing memperlambat waktu proses query dokumen email.

6. Vector Space Model memiliki keunggulan dalam hal nilai Spam Recall yang lebih tinggi dari program email Yahoo.

5.2 Saran

1. Aplikasi Spam Email Filtering menggunakan metode Vector Space Model ini masih dalam bentuk command line, untuk pengembangan selanjutnya dapat dibangun visualnya serta terintegrasi dengan program email client. 2. Akurasi dari aplikasi spam email filtering menggunakan metode Vector

Space Model ini dapat ditingkatkan dengan menambahkan kembali

data-data email spam dan legitimate untuk proses indexing dan porses query.

(7)

Bab V – Kesimpulan dan Saran 44

3. Email legitimate yang digolongkan sebagai spam oleh aplikasi dapat ditanggulangi dengan mengirimkan kembali email tersebut kepada pengirim dengan notifikasi sebagai spam. Dan bisa dimasukkan sebuah pertanyaan yang digunakan untuk mengidentifikasikan kembali jika email tersebut dikirimkan kembali oleh pengirim.

(8)

DAFTAR PUSTAKA

[1] Byoung-Tak Zhang and Young-Woo Seo, “Personalize Web Document

Filtering Using Reinforcement Learning”, Biointellegence Lab, School

of Computer Science and Engineering , Seoul National University , Seoul, Korea, 2001

[2] Bruce Grunter, “Bruce Grunter Spam Email Corpus”,

http://www.brucegrunter.com/corpus, Tanggal akses terakhir:10 Maret

2006

[3] Christopher James Taylor, “Email Filtering”, Bachelor of Science with Honours in Artificial Intelligence and Computer Science by Christoper James Taylor, 2003.

[4] Craig Larman, “ Applying UML and Patterns”, Prentice Hall, 1998

[5] D. Fensel, “Lecture Telecooperation”, Leopold-Franzens Universitat Innsbruck 1999.

[6] Howard Anton, “Dasar-dasar Aljabar Linear”, Interaksara, 2000 [7] Ion Androutsopoulos , “Ling Spam Public Corpus”,

http://www.iit.demokritos.gr/~ionandr, Tanggal akses terakhir: 20 Maret 2006

[8] Michael J. Young, “Mastering Visual C++ 6”, Sybex, 1996 [9] Miguel Riguiz, “Automatic Indexing and Categorization”. 2001

[10] Raghu Ramakrishnan and Johannes Gehrke, “Database Management

Systems Third Edition”, McGraw Hill, 2003

[11] Raymond J. Money, “Data Warehousing, Filtering and Mining”, Temple University, 2004

[12] Roger Mensah, “Email Filtering Tool”, Bachelor of Science with Honours in Computer Science by Roger Mensah, 2002.

[13] Shankar Raghnatan, “Text Clasification Combining Clustering and

Hierarchical Approach”, Department of Electrical Engineering and

Computer Science, University of Madras, India.

(9)

Daftar Pustaka 46

[14] Siew-Kho-Chew, “Email Filtering Tool”, Bachelor of Engineering with Honours in Software Engineering by Siew-Kho-Chew, 2002.

[15] Yahoo Mail, http://www.mail.yahoo.com, Tanggal akses terakhir: 3 Mei 2006

[16] Zhi-When-Yu, Xing-She Zhou, Jian-Hua Gu, Xian-Jun Wu, “Adaptive

Program Filtering Under Vector Space Model and Relevance Feedback”, Department of Computer Science and Engineering,

Referensi

Dokumen terkait

Limbah thorium yang ditimbulkan dari pabrik kaos lampu petromaks merupakan limbah radioaktif yang mengandung radionuklida berumur paro panjang yang memerlukan pengelolaan

Parmun, 2007, Aktivitas Antiplasmodium Fraksi Nonpolar Ekstrak Metanol Kulit Batang Mimba (Azadirachta indica A. Juss.) Terhadap Plasmodium falciparum secara In Vitro dan

Pembalakan ilegal terjadi secara luas dan sistematis dibanyak wilayah Indonesia, dan pada tahun 2000, memasuki sekitar 50 sampai 70 persen kebutuhan kayu

Berdasarkan hasil pengumpulan data dan analisis data yang dilakukan peneliti, maka dapat ditarik kesimpulan Hasil ini menunjukkan bahwa terdapat hubungan antara Disiplin Belajar

pemahaman tentang diri sendiri, dimana klien diharapkan untuk lebih mampu mengetahui letak kekurangan dan kelebihan dalam diri sendiri. Pemahaman diri adalah suatu

Besarnya displacement horisontal bored pile walls untuk kedua tipe tanah yang ditinjau dengan penambahan sirtu di atas lapisan soft clay dapat dilihat pada Tabel 4.3 dan

Tujuan dari pembuatan tugas akhir ini adalah sebagai salah satu syarat untuk mencapai derajat sarjana Teknik Informatika dari Program Studi Teknik Informatika Fakultas Teknologi

Adapun permasalahan yang akan diteliti dalam tugas akhir ini adalah bagaimana mengimplementasikan berbagai tingkatan QoS dengan menggunakan arsitektur Diffserv pada jaringan