ANALISIS NAÏVE BAYES BERNOULLI DAN DOMAIN SPECIFIC FEATURE SEBAGAI SPAM FILTER ANALYSIS OF NAÏVE BAYES BERNOULLI AND
DOMAIN SPECIFIC FEATURE FOR SPAM FILTERING
Maula Ismail Mohammad¹, -²
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Dengan semakin banyaknya penggunaan Internet sebagai media komunikasi dan penyebaran berita serta semakin banyaknya penyedia layanan email di Internet, jumlah dari e-mail Spam semakin bertambah banyak. Sebagai hasilnya banyak pembaca e-mail yang harus menghabiskan banyak waktunya untuk melakukan pemilihan secara manual terhadap e-mail tersebut. Tetapi email Sampah memiliki kerugian yang lain seperti bahwa e-mail Spam yang bisanya dikirim secara masal akan memenuhi media penyimpanan pada e-mail server, khususnya pada server dengan account yang berjumlah banyak.
Pada tugas akhir ini akan dibuat aplikasi e-mail filter dengan menggunakan metode Naive Bayes. Sebagai tambahan pada Aplikasi Spam Filter, Domain Specific feature juga diperhitungkan, yang akan digunakan untuk memeriksa e-mail sehingga Aplikasi Spam Filter ini tidak hanya
berdasarkan hanya pada pemeriksaan kata dalam email saja.
Hasil pengujian pada tugas akhir ini menunjukkan Naive bayes sebagai metode klasifikasi dapat digunakan sebagai e-mail spam filter. Dan penambahan domain specific feature pada naïve bayes mempertinggi nilai spam recall dan legitimate precission. Serta penambahan kata bentukan juga mempertinggi nilai spam recall dan legitimate precission.
Kata Kunci : E-mail Spam, E-mail Filter, Naïve Bayes, Domain Specific Feature.
Abstract
The overwhelming growth from people that using Internet as communications media and spreading news and also from the growth of mail Server from the Internet, amount of Junk E-Mail progressively increases. As its result many E-mail reader had to waste many of their time to manually read his or her E-Mail. But Junk E-mail have other loss, Junk E-Mail which sent
massively can easily fill out the storage media at E-Mail server, specially server that has many account.
On this final project, E-mail filter will be implemented using Naive Bayesian method. Domain Specific Feature has also included toward this method. So that this application not only concentrate on raw text but can also examine beyond the raw text.
The result from examination on this final project shows, that naive bayes as classification method can be used as e-mail spam filter. And the addition of domain specific feature that included to naïve bayes increases value from spam recall and legitimate precision. And addition of manually constructed phrase also heighten the value from spam recall and legitimate precision.
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dengan semakin banyak orang yang terhubung ke Internet, electronic mail ( e-mail ) menjadi salah satu bentuk komunikasi yang paling cepat dan ekonomis.
e-mail yang sangat mudah dan cepat dalam penggunaannya, e-mail selain
dimanfaatkan untuk berhubungan antara teman biasa maupun rekan bisnis tetapi e-mail juga digunakan sebagai salah satu media penyampaian berita dalam bidang electronic commerce. Sayangnya dari keuntungan yang membuat e-mail sangat populer di masyarakat, pebisnis juga turut memanfaatkan keuntungan yang dimiliki oleh e-mail, dengan cara melakukan pengiriman banyak e-mail ke mail box secara acak, yang berisi tentang barang yang akan dijual, cara menjadi kaya raya dengan cepat atau pun bagaimana mengakses situs - situs dewasa.
Dengan semakin banyaknya orang yang mengirim iklannya lewat Internet dan semakin banyaknya penyedia layanan e-mail di Internet, jumlah dari e-mail spam semakin bertambah banyak. Sebagai hasilnya banyak pembaca e-mail yang harus menghabiskan banyak waktunya untuk melakukan pemilihan secara manual terhadap e-mail tersebut. Tetapi e-mail spam memiliki kerugian yang lain seperti bahwa e-mail spam yang bisanya dikirim secara masal akan memenuhi media penyimpanan pada e-mail server, khususnya pada server dengan account yang berjumlah banyak.
Untuk menanggulangi masalah tersebut diatas diperlukan sebuah metode yang secara otomatis dapat melakukan filter atau seleksi e-mail yang dapat memisahkan antara spam e-mail dan legitimate e-mail (e-mail selain spam e-mail). Sistem Spam Filter harus secara otomatis dapat mengenali perubahan yang tentu saja akan selalu dilakukan oleh para pembuat spam e-mail, agar e-mail yang dibuat selalu dapat melewati sistem sejenis.
Naive Bayes merupakan salah satu Probabilistic Classifier yang dapat digunakan untuk dapat mendeteksi spam e-mail. Naive bayes yang berdasarkan
Bab I – Pendahuluan 2 pada teorema bayes, menggunakan asumsi bahwa masing – masing variabel yang ada didalamnya bersifat tidak saling tergantung. Metode ini didasarkan pada berapa banyak e-mail yang mengandung sebuah kata atau gabungan kata ataupun gabungan karakter tertentu, yang digolongkan sebagai spam e-mail atau Legitimate e-mail. Dengan data latih yang tepat metode ini dapat dengan akurat melakukan filterisasi e-mail.
Dengan menggunakan filter yang otomatis ini diharapkan spam e-mail dapat dipisahkan dengan legitimate e-mail. Yang pada akhirnya akan meringankan beban e-mail server sendiri ataupun pengguna e-mail server tersebut. 1.2 Rumusan Masalah
Permasalahan dalam Spam Filter adalah
• Bagaimana menerapkan dan menggabungkan Naive Bayesian Bernoulli dan Domain Spesific Feature yang digunakan sebagai Spam Filter.
• Bagaimana menentukan daftar Domain Specific Feature. • Bagaimana menetukan daftar kata bentukan.
• Bagaimana menentukan treshold yang digunakan batas penentu sebuah e-mail dikatakan sebagai e-mail spam.
1.3 Batasan Masalah
• Aplikasi ini menggunakan inputan e-mail yang berupa teks bukan gambar.
• Menggunakan Naive Bayesian Classifier Bernoulli sebagai metode klasifikasi.
• Aplikasi ini berdiri sendiri dan tidak menempel pada e-mail server. • E-mail yang digunakan sudah dalam bentuk file yang disimpan dalam
folder tersendiri.
• Menggunakan inputan e-mail dalam bahasa Inggris. 1.4 Tujuan Tugas Akhir
• Menganalisis keakuratan hasil klasifikasi yang dihasilkan oleh Aplikasi Spam Filter menggunakan Naive Bayes.
• Menganalisis pengaruh dari penambahan inputan berdasarkan kata bentukan dan Domain Specific Feature pada Naive Bayes.
• Manganalisis pengaruh dari perubahan nilai treshold pada aplikasi. 1.5 Metodologi Penelitian
• Studi literatur.
Mengumpulkan bahan-bahan referensi Tugas Akhir yang meliputi topik-topik Naïve bayesian classifier, Feature Selection, rekayasa perangkat lunak, dan topik lainnya yang mendukung penyusunan Tugas Akhir ini. Sumber referensi berupa buku, Tugas Akhir, jurnal, slide presentasi dan e-book. Referensi ini akan digunakan sebagai dasar teori penyusunan Tugas Akhir.
• Pengumpulan Data
Data yang dibutuhkan dalam penyusunan Tugas Akhir ini adalah e-mail yang akan digunakan dalam proses pelatihan untuk aplikasi. Data tersebut diperoleh dari e-mail yang terdapat pada inbox outlook express user tertentu. Dari data yang diperoleh maka akan didesain Perangkat Lunak yang nantinya akan digunakan untuk melakukan filter terhadap spam e-mail.
• Pengembangan Perangkat Lunak yang meliputi kegiatan: 1. Analisa Kebutuhan Sistem
Pembuatan perancangan perangkat lunak 2. Pengkodean
Implementasi perancangan menjadi perangkat lunak 3. Pengujian Perangkat Lunak
Perangkat lunak diuji dengan menggunakan data dengan beberapa kasus uji.
4. Analisa hasil pengujian
Hasil pengujian dianalisis untuk proses debugging0.
Bab I – Pendahuluan 4 5. Evaluasi Perangkat Lunak
Perangkat lunak yang dihasilkan dievaluasi berdasarkan data yang diperoleh dari hasil pengujian.
6. Pembuatan Dokumentasi Perangkat Lunak. 1.6 Sistematika Penulisan
BAB I PENDAHULUAN
Berisi tentang latar belakang, perumusan masalah, batasan masalah, metode penyelesaian masalah dan sistematika penulisan. BAB II LANDASAN TEORI
Berisi uraian beberapa landasan teori singkat mengenai Naïve Bayes, Email Filtering, spam, Domain Specific Feature, Feature Selection dan Zip’f Law.
BAB III ANALISIS DAN DESAIN SISTEM
Berisi mengenai pengumpulan data, proses pengolahan data dan perancangan aplikasi terdiri dari perancangan Aplikasi, basis model dan rancangan antar muka.
BAB IV IMPLEMENTASI DAN ANALISIS HASIL PENGUJIAN Bab ini akan membahas mengenai implementasi dan pengujian dari rancangan sistem yang telah dirancang.
BAB V KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dan saran untuk pengembangan Tugas Akhir.
45
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan percobaan dan analisa yang telah dibahas dan dilaksanakan pada bab IV, maka dapat disimpulkan beberapa hal sebagai berikut:
1. Naive Bayes yang hanya berdasarkan kata tanpa menggunakan tambahan
apapun, dapat digunakan sebagai Spam Filter.
2. Peningkatan nilai treshold akan mengurangi tingkat nilai spam recall dan legitimate precission.
3. Sebaliknya memperkecil nilai treshold berarti akan menambah nilai spam recall dan legitimate precission.
4. Penambahan kata bentukan bentukan sebagai inputan pada Naive Bayes berhasil meningkatkan nilai spam recall dan legitimate precission.
5. Penggunaan Domain Spesific Feature sebagai inputan pada Naive Bayes berhasil meningkatkan nilai spam recall dan legitimate precission.
6. Pengaruh domain specific feature lebih tampak jika menggunakan data latih yang tidak seimbang antara spam dan legitimate.
5.2 Saran
1. Penggunaan nilai treshold rendah disarankan agar melakukan pemrosesan lebih lanjut terhadap e-mail yang digolongkan sebagai spam. Misalnya pengiriman kembali kealamat tersebut dengan sebuah pernyataan yang mnerangkan bahwa e-mail tersebut adalah spam. Dan bisa dimasukkan sebuah pertanyaan mudah yang digunakan untuk mengidentifikasikan kembali jika e-mail tersebut dikirimkan kembali oleh pengirim.
2. Jumlah atribut yang digunakan pada aplikasi spam filter belum diperhatikan pada tugas akhir ini. Jumlah atribut tersebut bisa dihasilkan
46 3. dari feature selection atau user sendiri dapat menentukan jumlahnya. Hal
tersebut bisa digunakan unutk menganalisa lebih lanjut hasil keakuratan spam filter yang digunkan.
4. Penggunaan jenis feature selection yang lain juga belum diexploistasi. Hal ini digunakan untuk melihat pengaruh atribut yang digunakan dalam proses Spam Filter.