• Tidak ada hasil yang ditemukan

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial."

Copied!
7
0
0

Teks penuh

(1)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada tahun 1994 untuk pertama kalinya email spam berskala besar dikirimkan ke 6000 newsgroup (kelompok diskusi melalui email) sehingga bisa menjangkau jutaan orang penerima. Selanjutnya pada Juni 2005 jumlah email spam sudah mencapai 30 milyar perhari. Setahun kemudian pada Juni 2006 jumlah email spam meningkat hampir dua kali lipat menjadi 55 milyar per hari . Lalu pada Februari 2007 jumlah email spam sudah mencapai 90 milyar perhari di seluruh dunia (Suryanto, 2007).

Meningkatnya email spam seperti pada data di atas tentu saja memerlukan penanganan, terlebih lagi dengan munculnya berbagai macam kerugian akibat email spam. Berdasarkan data yang ditemukan oleh the California legislature, akibat banyaknya email spam yang beredar organisasi-organisasi di Amerika Serikat telah menghabiskan lebih dari US$ 10 milyar pada tahun 2004. Mereka juga mengalami kerugian berupa hilangnya produktivitas dan peralatan tambahan, software dan diperlukan banyak pegawai untuk mengatasi masalah tersebut (Suryanto, 2007).

(2)

Ada berbagai teknik pengenalan email spam yang telah berkembang yaitu teknik SMTP / email relay, identity-based filtering dan content filters. Dari pengelompokkan teknik-teknik tersebut, seringkali produk email spam filtering tidak menggunakan satu teknik saja. Hal ini untuk menghadapi strategi spammer yang sering berubah-ubah. Salah satu contohnya adalah produk SpamGuru, yang menggabungkan beberapa teknik spam filtering, diantaranya adalah DNS Analysis, Per User Whitelist, Per User Blacklist, JClassifier dan lain sebagainya. Hasil pengujian SpamGuru yang dilakukan terhadap 173.000 email menghasilkan nilai akurasi sebesar 95.8% ketika pengguna menginginkan false positive sebesar 0.01%, dan akurasi sebesar 98.1% ketika pengguna menginginkan false positive sebesar 0.1% (Suryanto, 2007).

Support Vector Machines (SVM) merupakan salah satu metode machine learning yang memiliki prinsip kerja yang baik dan telah banyak diimplementasikan di berbagai bidang untuk keperluan klasifikasi data. Proses pembelajaran pada SVM bertujuan untuk mendapatkan hyperplane terbaik yang tidak hanya meminimalkan empirical risk yaitu rata-rata error pada data pelatihan, tetapi juga memiliki generalisasi yang baik, yaitu kemampuan hipotesis untuk mengklasifikasi data yang tidak terdapat dalam peta pelatihan dengan benar. Untuk menjamin generalisasi ini, SVM bekerja berdasarkan prinsip Strucutural Risk Minimization (SRM). SRM pada SVM digunakan untuk menjamin batas atas dari generalisasi pada data pengujian dengan cara mengontrol kapasitas dari hipotesis hasil pembelajaran (Adhitia & Ayu, 2009).

(3)

Dalam konteks pengenalan email spam berbasis konten, metode Support Vector Machines (SVM) telah digunakan dalam beberapa penelitian. Pada penelitiannya, W.A. Awad dan S.M. Elseuofi telah membuktikan bahwa metode ini mampu melakukan pemgenalan email spam secara akurat dengan recall spam sebesar 95%, precision spam sebesar 93.12% dan akurasi sebesar 96.90% (Awad & Elseuofi, 2011).

Pada penelitian lainnya, M. Tariq Banday pun telah membuktikan keakuratan SVM dalam pengenalan email spam. Penelitian yang dilakukan terhadap 8000 email dengan 50 feature tersebut membuktikan keakuratan SVM dengan precision sebesar 89.79%, recall sebesar 93.27% dan f-measure sebesar 91.50% (Banday, 2008)

Ayahiko Niimi dkk meneliti kinerja SVM dalam melakukan pengenalan email berbahasa Jepang, Inggris dan campuran keduanya. Penelitiannya terhadap email berbahasa Jepang menghasilkan precision ham sebesar 98%, dan recall ham juga sebesar 98%. Penelitiannya terhadap email berbahasa Inggris menghasilkan presicion ham sebesar 100% dan recall ham sebesar 98.4%. Sedangkan penelitian yang dilakukan terhadap email berbahasa Jepang dan Inggris menghasilkan precision ham sebesar 97.59% dan recall ham sebesar 90% (Niimi, Inomata, Miyamoto, & Konish, 2004).

Pada penelitian lainnya yang dilakukan oleh Priyanka Chhabra dkk dengan rasio spam dan ham 1 : 1, linear dan polynomial kernel SVM dalam mengenali email spam menghasilkan recall sebesar 86.25% dan precision sebesar 99.16% (Chhabra, Wadhvani, & Sanyam, 2010)

(4)

Pada penelitian yang dilakukan oleh Rita Mccue, kinerja SVM dalam pengenalan email spam diukur dengan berbagai kernel. Dalam melakukan pengenalan dengan manual tuning, sigmoid kernel menghasilkan akurasi sebesar 96.2%, Radial basis kernel sebesar 96.6% dan linear kernel 95.8% (Mccue, 2009).

Metode lain yang banyak digunakan dalam klasifikasi email spam adalah k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC). Metode kNN memiliki beberapa kelebihan yaitu bahwa tangguh terhadap data training yang noisy dan efektif apabila data trainingnya besar (Sari, 2011).

Metode Naïve Bayes Classifier (NBC) dalam mengklasifikasi teks menggunakan atribut kata yang muncul dalam suatu dokumen sebagai dasar klasifikasinya. Dari kelompok pendekatan berbasis numeris, pendekatan berbasis probabilistic Naïve Bayes Classifier (NBC) memiliki beberapa kelebihan antara lain, sederhana, cepat dan berakurasi tinggi (Hamzah, 2012).

Alaa El-Halees melakukan penelitian pengenalan email spam berbahasa Arab dan Inggris dengan membandingkan beberapa metode, di antaranya adalah SVM, kNN dan NBC. Dataset yang digunakan untuk email berbahasa Arab adalah spam sebanyak 263 dan ham sebanyak 268, sedangkan untuk email berbahasa Inggris dengan spam sebanyak 298 dan ham sebanyak 218. Pada penelitian terhadap email berbahasa Inggris, SVM menghasilkan akurasi sebesar 99.03%, recall sebesar 98.72%, precision sebesar 98.34% dan f-measure sebesar 98.32%. NBC menghasilkan akurasi sebesar 92.12%, recall sebesar 78.15%, precision sebesar 98.75% (lebih tingi dari SVM) dan f-measure sebesar 86.56%. kNN menghasilkan

(5)

akurasi sebesar 86.60%, recall sebesar 97.78%, precision sebesar 88.78% dan f-measure sebesar 92.95%. Untuk pengenalan terhadap email berbahasa Arab SVM menghasilkan akurasi sebesar 78.83%, recall sebesar 87.06%, precision sebesar 77.59% dan f-measure sebesar 76.51%. NBC menghasilkan akurasi sebesar 80.77% (lebik tinggi dari SVM), recall sebesar 74.04%, precision sebesar 66.83% dan f-measure sebesar 71.84%. kNN menghasilkan akurasi sebesar 72.253%, recall sebesar 90.09% (lebih tinggi dari SVM), precision sebesar 71.55% dan f-measure sebesar 75.54% (El-Halees, 2009)

Sampai saat ini, penelitian tentang pengenalan email spam berbahasa Indonesia masih jarang sekali. Oleh karena itu, pada penelitian ini dilakukan pengenalan email spam berbahasa Indonesia mengingat banyaknya spam berbahasa Indonesia yang beredar dan butuh penanganan yang optimal. Metode yang digunakan pada penelitian ini adalah Support Vector Machines (SVM) yang akan dibandingkan dengan metode k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC).

 

1.2 Rumusan Permasalahan

Permasalahan dalam penelitian ini dapat dirumuskan sebagai berikut :

1. Seberapa efektif metode Support Vector Machines (SVM) dapat digunakan untuk pengenalan email spam berbahasa Indonesia?

2. Seberapa efektif metode Support Vector Machines (SVM) dalam pengenalan email ham berbahasa Indonesia?

(6)

3. Seberapa optimal kinerja metode Support Vector Machines (SVM) dalam pengenalan email spam dan email ham jika dibandingkan dengan metode k-Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC)?

 

1.3 Tujuan dan Manfaat

Penelitian ini bertujuan untuk menganalisis kinerja pengenalan email spam dan email ham berbahasa Indonesia dengan metode Support Vector Machines (SVM) yang dibandingkan dengan metode k-Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC).

Hasil penelitian ini diharapkan dapat bermanfaat bagi developer dan perusahaan vendor dalam mengembangkan produk software untuk filterisasi email spam yang akurat.

 

1.4 Ruang Lingkup

Ruang lingkup penelitian ini adalah sebagai berikut :

1. Metode yang digunakan dalam penelitian ini adalah Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC)

2. Data yang digunakan dalam penelitian ini adalah 1000 email berbahasa Indonesia sebagai training set, dan 1000 email berbahasa Indonesia lainnya sebagai testing set. Metode evaluasi kinerja classifier yang digunakan adalah recall, precision dan f-measure.

(7)

 

1.5 Metodologi Penelitian

Penelitian ini dilakukan dengan tahapan sebagai berikut : 1. Studi Pustaka

Dilakukan dengan mengkaji beberapa literatur yang mendukung penelitian ini untuk dapat memecahkan permasalahan-permasalahan yang ada dengan baik. 2. Desain Penelitian

Pada tahap ini rangkaian penelitian dirancang dalam sebuah skema agar penelitian dapat berjalan secara sistematis.

3. Eksperimen

Pada tahap ini, dilakukan eksperimen dengan menerapkan metode Support Vector Machines (SVM), k-Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC) untuk melakukan pengenalan email spam berbahasa Indonesia.

4. Analisis Hasil

Analisis hasil eksperimen dilakukan dengan menghitung nilai recall, precision dan f-measure.

Referensi

Dokumen terkait

Gaya belajar adalah cara yang ditempuh oleh masing-masing individu untuk memahami atau menguasai informasi melalui persepsi yang berbeda. Gaya kognitif field

Berdasarkan Hasil Penelitian pada Pra Siklus, peneliti bersama teman sejawat menyimpulkan hasil belajar siswa kelas IV SDN Jatijejer Trawas-ojokerto TA 2017/2018 dalam

Adapun asumsi-asumsi yang digunakan pada model penyebaran malaria adalah hanya terdapat penyakit malaria dalam populasi, Penyakit menyebar melalui kontak antara individu

Faktor yang berkontribusi terhadap kejadian pertumbuhan dan perkembangan yang terhambat meliputi kesehatan dan nutrisi ibu yang buruk, praktik pemberian makanan

Telah dilakukan penelitian degradasi permetrin dengan menggunakan 200 mg zeolit alam persen degradasi 52 % dan 8 mg TiO 2 -anatase persen degradasi 45 % pada suhu 40 o C

dapat digunakan peneliti untuk menarik kesimpulan yang masuk menjadi sebuah data riel dan dapat mendeskripsikan tentang pemaknaan khalayak mengenai gaya hidup

Dari hasil penelitian ini, dapat disimpulkan bahwa pemberian ekstrak daun kelor (Moringa oleifera) dan bawang putih (Allium sativum) melalui air minum dapat meningkatkan

Berdasarkan uraian di atas maka perlu adanya penelitian untuk mengetahui kondisi operasi optimum(mass ratio, suhu, dan waktu ekstraksi) dalam membuat karaginan dari rumput laut