• Tidak ada hasil yang ditemukan

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINES DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING

N/A
N/A
Protected

Academic year: 2021

Membagikan "IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINES DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING"

Copied!
7
0
0

Teks penuh

(1)

DENGAN DATA CLEANING (GSVM-DC) UNTUK E-MAIL SPAM FILTERING

Moh.mahsus¹, Z.k. Abdurahman Baizal², Shaufiah³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

E-mail spam adalah pembanjiran internet dengan banyak salinan pesan yang sama, dan memaksa pengguna internet untuk menerimanya walupun itu tidak dinginkan. Pengguna e-mail

membutuhkan waktu yang lebih banyak untuk membaca dan memutuskan apakah e-mail yang diterima tersebut adalah spam atau bukan. Oleh karena itu, banyak dikembangkan e-mail spam filtering.

Dalam tugas akhir ini, dibangun sebuah sistem e-mail spam filtering dengan metode klasifikasi menggunakan Support Vector Machine yang di tambahkan metode Granular Computing dan Data Cleaning. Penambahan metode tersebut diharapkan dapat meningkatkan akurasi pada

pengidentifikasian e-mail spam.

Kata Kunci : e-mail spam, klasifikasi, granular computing, support vector machines, data cleaning, support vector machine.

Abstract

E-mail spam is flooding the Internet with many copies of the same message, forcing users to accept it even though it was not cool. E-mail users need more time to read and decide whether the e-mail received is spam or not. Therefore, many developed the e-mail spam filtering.

In this final project, we built a system of filtering spam e-mail with a classification method using a Support Vector Machine in the add method of Granular Computing and Data Cleaning. By Adding the methods are expected to improve the accuracy in identifying spam e-mail.

Keywords : e-mail spam, classification, granular computing, support vector machines, data cleaning, support vector machine.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(2)

1

1. Pendahuluan

1.1 Latar Belakang

E-mail spam adalah pembanjiran internet dengan banyak salinan pesan yang sama, dan memaksa pengguna internet untuk menerimanya walupun itu tidak diinginkan. Pada era globalisasi ini, jumlah pengiriman e-mail meningkat drastis.

Masalahnya adalah, berdasarkan data tahun 2006, 40% dari e-mail yang dikirim dan diterima adalah spam. Pengguna e-mail membutuhkan waktu yang lebih banyak untuk membaca dan memutuskan apakah e-mail yang diterima tersebut adalah spam atau bukan. Penyedia layanan e-mail telah meng-install e-mail spam filtering pada server mereka untuk dapat meringankan beban pengguna e-mail [9].

E-mail spam filtering adalah suatu program yang digunakan untuk mendeteksi e-mail yang tidak diinginkan dan tidak diminta dan mencegah e-mail - tersebut untuk masuk kedalam kotak masuk pengguna e-mail [14]. Banyak teknik yang digunakan untuk membuat e-mail spam filtering, salah satunya dengan menggunakan teknik klasifikasi [7].

Klasifikasi adalah salah satu teknik dalam data mining yang digunakan untuk memprediksi kelompok keanggotaan(class) dari setiap instance data. Teknik klasifikasi yang biasa digunakan untuk membangun e-mail spam filtering diantaranya adalah Naïve Bayes, support vector machine (SVM) dan k-Nearest Neighbor (kNN). Dari beberapa teknik tersebut yang paling sering digunakan untuk klasifikasi data adalah SVM.

Support Vector Machine (SVM) adalah suatu metode supervised learning yang digunakan untuk melakukan klasifikasi data. Support vector machine (SVM) memiliki hasil yang bagus dalam klasifikasi data, akan tetapi hasil tersebut akan turun ketika dataset yang digunakan mengandung banyak atribut sehingga ketika dipetakan ke dalam ruang vektor menimbulkan curse of dimensionality. Selain hal tersebut, peformansi SVM turun jika dalam suatu dataset jumlah class yang satu dengan class yang lain sangat berbeda jauh atau disebut imbalance dataset.

Kondisi tersebut menyebabkan class yang sedikit tersebut dianggap sebagai pencilan (outlier) atau bahkan tidak dianggap. Penurunan peformansi SVM juga terjadi ketika pemilihan support vector (SV) yang digunakan untuk pembangunan hyperplane banyak terdapat data yang seharusnya bukan SV tetapi dianggap SV (noise) jika hanya dibangun sebuah SVM untuk keseluruhan dataset yang digunakan. Untuk mengatasi hal - hal tersebut, maka banyak dilakukan modifikasi terhadap SVM yang bertujuan untuk meningkatkan efektifitas dan efisiensi SVM [7].

Salah satu penerapan modifikasi pada SVM adalah dengan cara penggunaan granular computing dan teori statistik yang kemudian gabungan dari kedua cara tersebut disebut Granular Support Vector Machines (GSVM). Terdapat beberapa metode yang ditambahkan pada GSVM sesuai dengan tujuan pembangunan

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(3)

2

GSVM. Salah satunya adalah metode Data Cleaning yang berfungsi untuk mengurangi jumlah data masukan yang akan digunakan untuk proses training SVM [1].

1.2 Perumusan Masalah

Berdasarkan latar belakang tersebut, maka dapat dirumuskan permasalahan sebagai berikut:

1. Bagaimana membangun sebuah sistem e-mail spam filtering dengan Granular Support Vector Machines With Data Cleaning.

2. Bagaimana akurasi dan efisiensi waktu Support Vector Machines yang dimodifikasi dengan granular computing dan metode Data Cleaning terhadap e-mail spam fitering yang akan dibangun.

1.3 Tujuan

Tujuan dari penelitian tugas akhir ini adalah:

1. Merancang dan membangun sistem e-mail spam filtering menggunakan Granular Support Vector Machines With Data Cleaning.

2. Melakukan analisa akurasi dan efisiensi waktu pada sistem yang dibangun dengan membandingkan ukuran F-Measure dan waktu pemrosesan dengan SVM yang tidak dimodifikasi.

3. Melakukan analisa jumlah support vector yang ditemukan dengan akurasi pengujian terhadap waktu training pada GSVM-DC.

1.4 Batasan Masalah

Terdapat beberapa batasan dalam penelitian tugas akhir ini, antara lain:

1. Dataset yang digunakan untuk input space adalah dataset PKDD 2006 yang terdiri dari task_a_u00_eval_lab dan task_a_u01_eval_lab yang masing – masing berisi 2500 data e-mail. Data tersebut digabungkan menjadi satu menjadi 5000 dataset dan 49179 atribut. Dari gabungan dataset tersebut dipilih 4000 data digunakan untuk training dan 1000 data digunakan untuk testing.

2. Dilakukan preprocessing pada Dataset tersebut yakni ekstraksi dengan menggunakan modul Information Gain pada Weka 3.5 dan normalisasi.

3. Sistem yang dibangun hanya digunakan untuk dataset tersebut dan tidak dirancang untuk dataset lain.

4. Sistem e-mail spam filtering yang dibangun adalah aplikasi yang berdiri sendiri (stand alone application) dan tidak diimplementasikan dalam e- mail server.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(4)

3

1.5 Metodologi Penyelesaian Masalah

Metode yang digunakan untuk menyelesaikan tugas akhir ini adalah:

1. Identifikasi masalah, yakni melakukan identifikasi masalah yang akan di analisa pada tugas akhir ini.

2. Studi Literatur, yakni dengan mempelajari referensi dan literatur, baik berupa makalah, jurnal, maupun buku yang membahas tentang Support Vector Machines, granular computing, dan data cleaning.

3. Desain metodologi,

a. Melakukan preprocessing pada seluruh data set yang akan digunakan dengan melakukan ekstaksi untuk mendapatkan best classifier dengan menggunakan information gain pada Weka tool.

b. Melakukan normalisasi pada dataset, untuk mendapatkan skala data dari 0 sampai 1 untuk menyederhanakan proses perhitungan.

c. Pembangunan model, dengan menggunakan class diagram, use case diagram, dan sequence diagram.

d. Implementasi (coding), dengan menggunakan NETBEANS untuk membangun sistem berdasarkan model yang telah di bangun.

e. Training sistem, melakukan training pada sistem yang telah di bangun dengan menggunakan data training untuk mencari parameter – parameter yang sesuai untuk selanjutnya di lakukan pengujian dan menganalisa hasilnya.

4. Pengujian dan analisa hasil,

a. Testing sistem, menguji sitem yang telah di lakukan training dengan menggunakan data testing. Sistem akan memprediksi data yang diterima apakah spam atau bukan spam. Hasil dari pengujian sistem akan di simpan dalam file text untuk selanjutnya dilakukan analisa dari hasil pengujian tersebut.

b. Analisa hasil, melakukan analisa dengan membandingkan hasil klasifikasi data testing antara sistem yang dibangun dengan SVM tanpa modifikasi dengan menggunakan ukuran F-Measure yang ditampilkan berupa tabel.

5. Pembuatan laporan, melakukan pelaporan hasil pengerjaan tugas akhir berupa analisis sistem yang dibangun beserta dokumentasinya serta kesimpulan akhir.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(5)

42

5. Kesimpulan dan Saran

5.1 Kesimpulan

Berdasarkan hasil pengujian dan analisis yang telah dilakukan, dapat diambil beberapa kesimpulan sebagai berikut:

1. Modifikasi SVM menggunakan paradigma granular computing, dimana proses granulasi menggunakan fuzzy c-means clustering, dan metode data cleaning mampu meningkatkan akurasi pengujian sebesar 0,8% - 1% di bandingkan dengan linear SVM untuk dataset PKDD 2006.

2. Dataset PKDD 2006, menghasilkan pengujian terbaik dengan parameter SVM(C) = 0.718852837745963, jumlah granule = 4, fuzzyness parameter = 2, epsilon(ε) = 0.1 dengan waktu training 36.95 detik dan akurasi 97.2%.

3. Pada proses granulasi dengan menggunakan GSVM-DC, ditemukan beberapa kondisi yang menyebabkan pelatihan tidak selesai antara lain:

1. Ditemukan 1 atau lebih cluster yang tidak memiliki anggota.

2. Ditemukan cluster yang hanya memiliki anggota dengan class yang sama.

Kedua hal tersebut menyebabkan information granule yang terbentuk tidak dapat di lakukan training untuk mencari parameter SVM dan LSV terbaik untuk tiap – tiap information granule, karena untuk mendapatkannya digunakan linear SVM, dan SVM hanya bias di latih jika dalam suatu kumpulan data terdapat minimal 2 class yang berbeda.

5.2 Saran

beberapa saran yang diberikan antara lain:

1. Metode yang digunakan dalam paradigma granular computing ditambah, seperti set theory and interval analysis, decision trees, dan lain sebagainya.

2. Penambahan kernel dalam perhitungan GSVM yang diharapkan dapat menambah kemampuan generalisasi GSVM.

3. Penambahan jumlah pengujian dan parameternya agar diperoleh data lengkap dan pelatihan yang optimal.

4. Dalam tugas akhir ini hanya diemplementasikan hanya 1 dari 4 cara untuk menghindari kedua kasus yang telah dijelaskan pada subbab 4.2.2, untuk kedepannya bisa dilakukan perbandingan antara 4 cara tersebut mana yang dapat menghasilkan hasil yang lebih baik untuk menanganin kasus diatas.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(6)

43

Daftar pustaka

[1] Y.C. Tang, “Granular Support Vector Machines Based on Granular Computing, Soft Computing and Statistical Learning”, Georgia State University, 2006.

[2] Steinberg Dan, Golovnya Mikhaylo, “Identifying SPAM with Predictive Models”, Salford Systems, 2007.

[3] M. Eirinaios, A. Ion, P. Georgios, S. George, S. Panagiotis, “FIltron: A Learning-Based Anti-Spam Filter”, Radical Eye Software, 2002.

[4] S. N. William, 2006, What is A Support Vector Machines?, Nature Publishing Group, Nature Biotechnology Volume 24 Number 12, pages 1565-1567.

[5] B. Steve, 2003, Support Vector Machines, Department of Computer Science and Artificial Intelligence, University of Malta.

[6] C. Nello, S. John, 2009, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods.

[7] G. Sudipto, M. Adam, M. Nina, M. Rajeev, O. Liadan, 2003, Clustering Data Streams: Theory and Practice, Radical Eye Software, pages 1-4.

[8] H. Eyke, 2008, Granular Computation in Machine Learning and Data Mining. In P. Witold, S. Andrzej, K Vladik, (editors), Handbook of Granular Computing, John Wiley & Sons, pages 889-907.

[9] Junejo Khurum Nazir, Yousaf Mirza Muhammad, Karim Asim, “A Two- Pass Statistical Approach for Automatic Personalized Spam Filtering”, Dept. of Computer Science, Lahore University of Management Sciences Lahore, Pakistan, 2007

[10] “Fuzzy C-Means Clustering”

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html , diakses pada tanggal 20 oktober 2009.

[11] “Clustering: An Introduction”,

http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html , diakses pada tanggal 20 oktober 2009.

[12] H. Andreas, S. Gerd, 2003, Conceptual Clustering of Text Clusters.

Institute of Applied Informatics and Formal Description Methods AIFB, University of Karlsruhe.

[13] Wikipedia, “Cluster analysis”,

http://en.wikipedia.org/wiki/Cluster_Analysis#Fuzzy_c-means_clustering , diakses pada tanggal 20 oktober 2009.

[14] [email protected], “what is spam filter?”, http://searchmidmarketsecurity.techtarget.com/sDefinition/0,,sid198_gci93 1766,00.html , Midmarket IT security definition, diakses pada tanggal 20 oktober 2009

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

(7)

44

[15] Mori Tatsunori, 2002,”Information Gain Ratio as Term Weight –the case of summarization of IR Result”, Yokohama National University.

[16] Ikonomakis M., Kotsiantis S., Tampakas V.,2005,”Text Classification Using Machine Learning Techniques”, WSEAS TRANSACTION on COMPUTER.

[17] Tessy,”bab10 data mining”, lectures note, ITS.

Powered by TCPDF (www.tcpdf.org)

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Referensi

Dokumen terkait

Gaya belajar adalah cara yang ditempuh oleh masing-masing individu untuk memahami atau menguasai informasi melalui persepsi yang berbeda. Gaya kognitif field

penurunan pangkat setingkat lebih rendah selama 1 tahun dengan akibat hukum dikurangi tunjangan khusus remunerasi selama 1 tahun sebesar 90% tiap bulan PP No.53 tahun 2010 pasal 3

PT JAKARTA KYOEI STEEL WORKS Tbk CATATAN ATAS LAPORAN KEUANGAN UNTUK ENAM BULAN YANG BERAKHIR. PADA TANGGAL-TANGGAL 30 JUNI 2015 DAN 2014

Komunikasi merupakan dasar dari kehidupan. Manusia tidak pernah bisa lepas dari komunikasi, karena komunikasi merupakan salah satu cara manusia sebagai makhluk

Kementerian Penerangan dilepaskannya pada tanggal 3 Januari 1946 (Frederick D.. Amir Syariffudin mulai mengatur kementerian yaitu sebagai pusat penerangan Republik

Nilai keragaman ini nantinya akan digunakan untuk menyusun strategi pemuliaan sesuai pernyataan dari Langga (2012) yang menyatakan bahwa Keragaman genetik merupakan

Telah dilakukan penelitian degradasi permetrin dengan menggunakan 200 mg zeolit alam persen degradasi 52 % dan 8 mg TiO 2 -anatase persen degradasi 45 % pada suhu 40 o C

Ke arah barat dari lintasan L 7, penampang seismik lintasan L 13 yang berarah utara–selatan sepanjang 65 km, lintasan ini menunjukan adanya sedimentasi yang cukup tebal di