• Tidak ada hasil yang ditemukan

implementasi dan analiis granular support vector machine dengan repetitive undersampling untuk e-mail spam filtering

N/A
N/A
Protected

Academic year: 2021

Membagikan "implementasi dan analiis granular support vector machine dengan repetitive undersampling untuk e-mail spam filtering"

Copied!
5
0
0

Teks penuh

(1)

DENGAN REPETITIVE UNDERSAMPLING UNTUK E-MAIL SPAM FILTERING

Rahma Lestarini P¹, Tri Brotoharsono², Hetti Hidayati³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

E-mail spam adalah pengiriman pesan yang tidak diinginkan melalui e-mail dan dikirimkan dalam jumlah besar kepada siapapun. Para pengguna layanan e-mail terpaksa menerima e-mail spam tersebut, sehingga banyak pengguna layanan e-mail yang membuang waktunya dengan percuma untuk memilah e-mail yang masuk ke inbox mereka. Oleh karena itu, e-mail spam filtering banyak dikembangkan saat ini.

Dalam tugas akhir ini, dibangun sebuah sistem e-mail spam filtering dengan menggunakan Granular computing, support vector machine, dan undersampling untuk memecahkan masalah klasifikasi imbalance. Performansi sistem diukur dengan menggunakan g-mean.

Ada dua metode agregasi yang digunakan dalam penelitian ini, yaitu combine dan discard.

Namun, metode combine memberikan hasil yang lebih memuaskan dibandingkan metode discard, dengan akurasi sebesar 83,59%. Hal ini disebabkan oleh banyaknya data informatif yang

terekstrak, sehingga meminimalkan efek information loss.

Kata Kunci : Granular computing, e-mail spam filtering, undersampling, klasifikasi, support vector machine, granular support vector machine.

Abstract

E-mail spam means sending unsolicited messages via mail and sent in bulk to anyone. The e-mail service users are forced to receive the e-e-mail, so many users waste their time to sorting their e-mails that comes into their inboxes. Therefore, many e-mail spam filtering has been developed at this time.

In this work, we built an e-mail spam filtering system using granilar computing, support vector machines, and undersampling to solve the imbalanced classification problem. The system performance is measured by using the g-mean.

There are two methods of agregation used in this study, combine and discard. However, combine gives more satisfactory result than discard method, with 83,59% accuracy. It is because there are many informative data that are extracted, so it minimize the effect of information loss.

Keywords : Granular computing, e-mail spam filtering, undersampling, klasifikasi, support vector machine, granular support vector machine.

Powered by TCPDF (www.tcpdf.org)

(2)

1.

Pendahuluan

1.1

Latar belakang masalah

Spam adalah penyalahgunaan sistem pesan elektronik (termasuk sebagian besar media penyiaran, sistem pengiriman digital) untuk mengirim pesan massal yang tidak diminta oleh penerimanya. E-mail spam adalah salah satu jenis spam berupa pesan-pesan identik yang dikirim secara massal ke sejumlah penerima dengan menggunakan e-mail. E-mail spam menyebabkan banyak pengguna e-mail menjadi bingung, kesal dan terganggu. Oleh karena itu, e-mail filtering banyak digunakan oleh para pengguna e-mail.E-mail filtering adalah sebuah proses untuk melakukan pengelompokan e-mail berdasarkan kriteria tertentu. Untuk memisahkan antara e-mail yang merupakan spam dan yang bukan yang disebut dengan e-mail spam filtering. Salah satu teknik yang digunakan dalam e-mail spam filtering adalah klasifikasi.

Klasifikasi adalah teknik memetakan (mengklasifikasikan) data ke dalam satu atau beberapa kelas yang sudah didefinisikan sebelumnya. Ada banyak teknik klasifikasi yang dapat digunakan untuk pembangunan email spam filtering, diantaranya adalah Naïve Bayes, Support Vector Machines, k-Nearest Neighbor dan Artificial Neural Network. Support Vector Machines adalah salah satu metode supervised learning yang digunakan untuk klasifikasi data. Untuk menambah efektifitas dan efisiensi pada SVM, maka banyak dilakukan modifikasi.

Support Vector Machine (SVM) adalah suatu metode supervised learning yang digunakan untuk melakukan klasifikasi data. Support vector machine (SVM) memiliki hasil yang bagus dalam klasifikasi data. Performansi SVM turun jika dalam suatu dataset jumlah class yang satu dengan class yang lain sangat berbeda jauh atau disebut imbalance class [12]. Imbalance class adalah kondisi dataset dimana sampel negatif jauh lebih besar dibandingkan dengan sampel positif [12,13]. Kondisi tersebut menyebabkan class yang sedikit tersebut dianggap sebagai pencilan (outlier) atau bahkan tidak dianggap [12,13]. Strategi sampling, seperti oversampling dan undersampling dikenal sangat baik untuk menghadapi masalah imbalance class [13].

Salah satu penerapan modifikasi pada SVM adalah dengan menggunakan granular computing dan teori statistik [12]. Gabungan dari kedua cara tersebut disebut Granular Support Vector Machines (GSVM). Terdapat beberapa metode yang ditambahkan pada GSVM sesuai dengan tujuan pembangunan SVM. Salah satunya adalah metode Repetitive Undersampling yang berfungsi untuk meminimalkan dampak negatif dari hilangnya informasi sekaligus memaksimalkan dampak positif dari data cleaning dalam proses undersampling [13]. GSVM-RU dapat meningkatkan performansi klasifikasi dengan cara mengekstraksi informative sample yang penting untuk klasifikasi dan menghilangkan sejumlah besar sampel yang redundant dan bersifat noise [12].

(3)

2

1.2

Perumusan masalah

Berdasarkan latar belakang tersebut, maka dapat dirumuskan permasalahan sebagai berikut:

1. Bagaimana melakukan penanganan terhadap e-mail spam dengan Granular Support Vector Machine with Repetitive Undersampling?

2. Bagaimana pengaruh penanganan e-mail spam dengan GSVM-RU terhadap proses klasifikasi berdasarkan parameter sensitivity, specificity, dan G-Mean? Terdapat beberapa batasan masalah dalam penelitian tugas akhir ini, antara lain : 1. Data yang digunakan adalah data yang tidak mengandung gambar.

2. sistem yang dibangun adalah aplikasi yang berdiri sendiri (stand alone application) dan tidak diimplementasikan dalam e-mail server.

1.3

Tujuan

Tujuan dari penelitian tugas akhir ini adalah:

1. Mengimplementasikan metode Granular Support Vector Machine with Repetitive Undersampling untuk mengklasifikasikan email spam atau bukan spam.

2. Melakukan analisa akurasi pada sistem yang telah dibangun dengan parameter sensitivity, specitifity, dan G-Mean.

1.4

Metodologi penyelesaian masalah

Metode yang digunakan untuk menyelesaikan tugas akhir ini adalah:

1. Studi Literatur, yakni mempelajari referensi dan literatur, baik berupa makalah, jurnal, maupun buku yang relevan yang membahas tentang Granular Support Vector Machine with Repetitive Undersampling.

2. Mempersiapkan dataset yang akan digunakan untuk testing dan training dengan melakukan parser dan preprocessing terhadap dataset tersebut.

3. Pembuatan desain sistem e-mail spam filtering dengan Granular Support Vector Machine with Repetitive Undersampling.

4. Implementasi (Coding), yaitu mengimplementasikan perancangan menjadi sistem email spam filtering dengan menerapkan Granular Support Vector Machine with Repetitive Undersampling.

5. Training dan testing sistem, melakukan pelatihan dan pengujian pada sistem dengan menggunakan data training, data testing dan data e-mail.

6. Analisa hasil, melakukan analisa hasil dari sistem dengan cara membandingkan hasil klasifikasi data testing dengan data jawaban sebenarnya.

7. Pembuatan laporan, mendokumentasikan semua tahap metodologi penyelesaian masalah menjadi suatu laporan yang nantinya dapat dikembangkan sesuai perkembangan jaman dan dapat dimanfaatkan sebagaimana mestinya.

Powered by TCPDF (www.tcpdf.org)

(4)

5.

Kesimpulan dan Saran

5.1

Kesimpulan

Berdasarkan hasil pengujian dan analisis yang telah dilakukan, dapat diambil beberapa kesimpulan sebagai berikut:

1. Metode agregasi yang paling efektif untuk dataset yang digunakan adalah combine. Metode combine dapat menghindari terjadinya informationloss pada dataset.

2. Metode GSVM-RU dapat mengklasifikasikan dataset yang digunakan dengan akurasi yang tinggi, yaitu 99,81% untuk data testing dan 83,59% untuk data testing, dengan nilai parameter SVM (C) sebesar 0,8.

3. Dataset yang digunakan masih belum bisa menebak dengan benar data spam yang diambil dari account GMail. Hal ini dikarenakan sistem yang digunakan oleh GMail berbeda dengan yang digunakan dalam penellitian ini. Selain itu, data training yang dijadikan model dalam klasifikasi masih belum mewakili data GMail yang digunakan.

5.2

Saran

beberapa saran yang diberikan antara lain:

1. Penggunaan kernel lain pada SVM yang digunakan untuk klasifikasi data mungkin akan memberikan hasil yang berbeda. Namun perlu diperhatikan apakah jumlah atribut yang digunakan akan menimbulkan curse of dimensionality atau tidak.

2. Penggunaan metode GSVM-RU untuk menangani berbagai macam data spam lainnya, misalnya data spam yang mengandung gambar didalamnya.

(5)

36

Daftar Pustaka

[1] B. Steve, 2003, “Support Vector Machines”, Department of Computer Science and Artificial Intelligence, University of Malta.

[2] Cambridge University Press, 2008, “Stemming and Lemmatization”.

http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html diakses pada tanggal 23 Januari 2012.

[3] C. Gordon V., 2006, “Email Spam Filtering: A Systematic Review”, University of Waterloo.

[4] C. Nello, S. John, 2009, “An Introduction to Support Vector Machines and Other Kernel-based Learning Methods”.

[5] Google, “Gmail uses Google‟s innovative technology to keep spam out of your inbox”,

http://www.google.com/mail/help/fightspam/spamexplained.html diakses pada tanggal 29 november 2011.

[6] L. Qingliang, W. Yanli, B. Stephen H., 2009, “A novel method for mining highly imbalanced high-throughput screening data in PubChem”. National Institute of Health, Bethesda, USA.

[7] N. Anto S., W. Arief B., H. Dwi, 2003, “Support Vector Machine, Teori dan Aplikasinya dalam Bioinformatika”.

[8] N. Mathias, 2005, “An Experiment System for Text Classification”. [9] Oracle, 2008, “Classification”.

http://download.oracle.com/docs/cd/B28359_01/datamine.111/b28129/cla ssify.htm diakses pada tanggal 14 juni 2011.

[10] Prince, Brian, 2011, “Google adds DKIM for Google Apps to Adress Spam”. http://www.eweek.com/c/a/Security/Google-Adds-DKIM-for-Google-Apps-to-Address-Spam-243360/ diakses pada tanggal 29 november 2011.

[11] Statsoft, “Text Mining”. http://www.statsoft.com/textbook/text-mining/

diakses pada tanggal 23 Januari 2012.

[12] Tang, Yuchun, 2006, “Granular Support Vector Machines Based on Granular Computing, Soft Computing and Statistical Learning”, Georgia State University,.

[13] T. Yuchun, Z. Yan-Qing, C. Nitesh V., K. Sven, 2002, “SVMs Modeling for Highly Imbalanced Classification”. Journal of latex class files.

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

Gaya belajar adalah cara yang ditempuh oleh masing-masing individu untuk memahami atau menguasai informasi melalui persepsi yang berbeda. Gaya kognitif field

Untuk mempermudah pengolahan kualitas tandan, maka ditetapkan kriteria matang panen yang berdasarkan pada kandungan minyak dalam tandan semaksimal mungkin,

Dari hasil penelitian ini, dapat disimpulkan bahwa pemberian ekstrak daun kelor (Moringa oleifera) dan bawang putih (Allium sativum) melalui air minum dapat meningkatkan

penurunan pangkat setingkat lebih rendah selama 1 tahun dengan akibat hukum dikurangi tunjangan khusus remunerasi selama 1 tahun sebesar 90% tiap bulan PP No.53 tahun 2010 pasal 3

Skripsi, Jurusan Pemikiran Politik Islam, Fakultas Ushuluddin Dan Filsafat, UIN Syarif Hidayatullah, Jakarta. Loyalitas Masyarakat Terhadap Pemimpin

Nilai keragaman ini nantinya akan digunakan untuk menyusun strategi pemuliaan sesuai pernyataan dari Langga (2012) yang menyatakan bahwa Keragaman genetik merupakan

Telah dilakukan penelitian degradasi permetrin dengan menggunakan 200 mg zeolit alam persen degradasi 52 % dan 8 mg TiO 2 -anatase persen degradasi 45 % pada suhu 40 o C

Ke arah barat dari lintasan L 7, penampang seismik lintasan L 13 yang berarah utara–selatan sepanjang 65 km, lintasan ini menunjukan adanya sedimentasi yang cukup tebal di