• Tidak ada hasil yang ditemukan

Analisis Deteksi Image Spam Menggunakan Metode Decision tree C4.5

N/A
N/A
Protected

Academic year: 2021

Membagikan "Analisis Deteksi Image Spam Menggunakan Metode Decision tree C4.5"

Copied!
5
0
0

Teks penuh

(1)

C4.5

Gumilar Irwan Supendi¹, Retno Novi Dayawati², Angelina Prima Kurniati³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Saat ini spam pada email mulai menggunakan media citra. Spam yang tadinya berbentuk text mulai disisipkan pada citra sehingga tidak bisa dikenali oleh anti-spam filter. Pada tahun 2007, sebanyak 50% dari email berisi spam berbentuk citra dan meningkat per bulannya sebesar 5%. Dalam Tugas Akhir ini telah dibangun perangkat lunak dengan menggunakan Microsoft visual C# untuk mendeteksi spam berbentuk citra pada email dengan menggunakan metode decision tree C4.5. Metode ini merupakan salah satu metode learning yang akan mengklasifikasikan data sesuai dengan informasi pada data latih. Informasi citra yang dijadikan atribut prediktor berasal dari file attribute, file header, dan histogram citra. Hasil learning adalah berupa rule berbentuk tree.

Pada proses analisis dilakukan dengan mencari model rule yang paling bagus dalam mengklasifikasikan citra spam dan ham. Model rule dihasilkan dari proses training pada beberapa data latih dan akan diuji dengan data lainnya sehingga bisa dihitung tingkat akurasi berdasarkan model rule yang dihasilkan.

Kata Kunci : Decision Tree C4.5, Image Spam filter, Histogram citra

Abstract

Nowadays, spam in email is starting to use image media. Spam that once use to be in a text form, is beginning to change into an image form so that it can’t be unidentified by an anti-spam filter. In 2007, almost 50% of email spam is made in a form of an image and it is increase by 5% every month.

In this final project, software was build using Microsoft Visual C# to detect image spam with the use of a method called decision tree C4.5. This method is one of the many learning method that classified the data from the training data. Image information that is made into an attribute predictor can come from a file attribute, file header, and histogram image. The learning result is a rule in a form of a tree.

Analysis process is done by finding the most reliable rule model that can classified an image spam and ham. The rule model is produce in the training process from some training data and will be tested and compared with other data, so that it accuracy can be calculated base on the rule model.

Keywords : Decision Tree C4.5, Image Spam filter, Histogram Image

Powered by TCPDF (www.tcpdf.org)

(2)

1.

Pendahuluan

1.1

Latar belakang

Sampai sekarang ini e-mail spam (email yang tidak sesuai dengan minat penerima e-mail) merupakan masalah utama yang harus terus dihadapi oleh Internet Service Providers (ISP), korporasi, dan setiap orang yang menggunakan layanan e-mail. Pada tahun 2007 Sekitar 80% dari semua e-mail yang beredar di Internet diperkirakan adalah spam[6][2]. Spammer (orang yang mengirimkan e-mail spam) selalu berusaha membuat terobosan baru agar spam yang dikirim tidak terdeteksi oleh anti-spam yang ada. Karena spam berbentuk teks sudah banyak terdeteksi oleh anti-spam maka muncul jenis spam berbentuk citra. Spammer mulai memanfaatkan file citra yang dimasukan tulisan sehingga anti-spam tidak bisa mengenali tulisan tersebut.

Berdasarkan hasil survey BorderWare Security Network, file citra yang biasa dijadikan sebagai spam diantaranya adalah GIF(94%), JPG(5,5%), dan PNG(0,5%)[3]. Pada tahun 2006 jumlah spam citra meningkat kurang lebih 5% per bulannya[2][3]. Sampai akhir tahun 2007 spam citra diperkirakan sudah mencapai 50% dari keseluruhan e-mail[2]. Untuk menanggulangi hal tersebut maka dibutuhkan anti-spam filtering khususnya pada file citra dengan tingkat akurasi yang tinggi dan kecepatan yang tinggi agar bisa mengenali spam citra secara efisien dan efektif.

Decision tree adalah suatu metoda yang sudah sangat terkenal dan banyak digunakan di dunia data mining. Decision tree ini biasa digunakan untuk klasifikasi data. Decision tree direpresentasikan dalam bentuk graph/node. Node tertinggi disebut sebagai root sebagai tanda mulainya tree. Node yang tidak ada percabangan disebut sebagai leaf/daun. Kelebihan yang bisa didapat dari metode decision tree untuk kasus image spam filtering diantaranya adalah : [12]

1. Detection rate sangat bagus (bisa mendeteksi image yang diberi noise/ polimorphic image spam)

2. False positive rate cukup rendah

3. Performansi waktu lebih bagus dibandingkan menggunakan metode Optical Character Recognition karena tidak perlu mengekstraksi text dari image.

4. Hanya menggunakan database sebagai learning set saja.

Algoritma untuk membuat decision tree yang paling terkenal diantaranya adalah ID3, C4.5, dan CART [11]. C4.5 adalah algoritma yang digunakan untuk membuat decision tree. Pada C4.5 digunakan konsep entropy untuk menentukan persebaran keragaman data dan Gain Ratio untuk menentukan atribut mana yang akan dipilih sebagai node. Salah satu kelebihan C4.5 dibandingkan dengan metode decision tree yang lain adalah bisa menangani data yang bersifat continuous dan terdapat proses pruning[9][11]. Diharapkan dengan digunakannya metode decision tree menggunakan algoritma C4.5 untuk deteksi image spam maka waktu pendeteksian spam menjadi lebih singkat dengan tidak menurunkan akurasi sistem secara drastis.

(3)

2

1.2

Perumusan masalah

Berdasarkan latar belakang di atas maka masalah-masalah yang dihadapi, yaitu : 1. Bagaimana mengimplementasikan image spam filtering dengan

menggunakan metode decision tree C4.5.

2. Bagaimana pengaruh pruning tree pada tingkat akurasi sistem.

3. Bagaimana menguji dan menganalisis tingkat akurasi pada image spam filtering dengan menggunakan decision tree C4.5.

1.3

Tujuan

Tujuan yang ingin dicapai dalam pembuatan tugas akhir ini adalah :

1. Membangun perangkat lunak untuk mengimplementasikan metode decision tree C4.5 pada permasalahan image spam filtering.

2. Menguji dan menganalisis pengaruh pruning pada tree terhadap tingkat akurasi sistem.

3. Menguji dan menganalisis keakuratan sistem pada image spam filtering dengan menggunakan decision tree C4.5.

1.4

Metodologi penyelesaian masalah

Untuk mencapai tujuan yang dimaksud, maka metodologi yang digunakan dalam penyusunan tugas akhir ini adalah :

1. Studi Pustaka

Tahap ini bertujuan untuk mencari dan mengumpulkan jurnal ilmiah, buku, artikel, dan literatur lainnya yang berkaitan dengan penelitian ini sebagai referensi.

2. Pengumpulan Data

Mengumpulkan data yang diperlukan sebagai bahan penelitian tugas akhir. Data yang akan dikumpulkan berupa data citra spam dan ham yang diambil dari internet.

3. Analisis

a. Mempelajari cara mendapatkan nilai-nilai histogram pada citra. b. Mempelajari dan memahami algoritma C4.5 pada decision tree

untuk pembangunan model sistem.

c. Mempelajari cara pengukuran akurasi sistem dan mengidentifikasi parameter-parameter yang digunakan untuk pengukuran akurasi. 4. Desain dan Implementasi Perangkat Lunak

Meliputi pembuatan aplikasi untuk simulasi image spam filtering. Sistem akan dikategorikan menjadi dua proses, yaitu feature extraction untuk mendapatkan informasi citra dan training untuk mendapatkan rule. Sistem dibangun menggunakan bahasa Microsoft Visual C#.

5. Evaluasi

Pada tahap ini akan dilakukan pengujian terhadap akurasi sistem dengan memasukkan data citra yang digunakan sebagai trainning set sehingga menghasilkan model/rule dan melakukan testing dengan citra lain.

6. Pembuatan Laporan dan Kesimpulan

Membuat laporan dan menarik kesimpulan dari hasil pengujian.

Powered by TCPDF (www.tcpdf.org)

(4)

5.

Kesimpulan dan Saran

5.1

Kesimpulan

Berdasarkan pengujian yang telah dilakukan maka dapat disimpulkan :

1. Metode Decision Tree C4.5 dapat digunakan sebagai salah satu cara untuk mendeteksi citra spam pada email.

2. Metode Decision Tree C4.5 dengan menggunakan informasi file attribute, file header, dan histogram citra dapat menghasilkan tingkat akurasi antara 80% sampai 99% pada jumlah data latih 2% sampai dengan 40% data latih. Tingkat akurasi tertinggi didapat pada 40% data latih (komposisi ham/spam 1/1) yaitu sebesar 98,95% dengan false positive rate sebesar 1,6%.

3. Akurasi yang dihasilkan pada metode ini sangat bergantung pada data latih yang digunakan. Perubahan pada beberapa data latih dapat menghasilkan tingkat akurasi yang berbeda. Semakin beragam data latih pada citra spam akan menimbulkan detection rate meningkat dan menaikan false positive rate. Sedangkan semakin beragam data latih pada citra ham maka detection rate akan menurun dan menurunkan false positive rate.

4. Penggunaan pruning tidak terlalu berpengaruh pada tingkat akurasi yang didapat (pruning meningkatkan tingkat akurasi sebesar 3,28% dan penurunan akurasi sebesar 1,48%), akan tetapi berpengaruh pada performansi waktu dikarenakan dapat menurunkan jumlah rule sampai dengan 40%.

5.2 Saran

1. Dikarenakan data latih yang digunakan sangat menentukan tingkat akurasi, maka dibutuhkan pengelompokan yang baik pada data latih agar rule yang dihasilkan mencapai tingkat akurasi yang maksimal.

2. Penggunaan file atribut dan histogram citra sebagai atribut prediktor sudah cukup baik akan tetapi belum cukup untuk bisa mengklasifikasikan citra ham dan spam secara konsisten. Perlu dilakukan analisis lebih lanjut terhadap karakteristik citra yang dapat membedakan antara citra ham dan spam.

3. Dikarenakan kesulitan untuk menemukan model tree yang tepat maka penggunaan metode boosting seperti AdaBoost dapat dilakukan untuk mencari model tree yang paling baik agar tingkat akurasi mencapai optimum.

(5)

44

Daftar Pustaka

[1] Anselm Lambert.2003.Analysis Of SPAM. Master’s thesis, Department of Computer Science, University of dublin, Trinity College.

[2] Bitdefender.2007. BitDefender Antispam. http://www.idg.ro/evenimente/ linux07/prezentari/Bitdefender_Antispam.pdf diambil pada tgl 6 Januari 2008 [3] BorderWare Security Network . 2006. Combatting Image spam.

http://www.borderware.com/pdfs/BW_image_spam101106.pdf diambil pada tanggal 6 Januari 2008

[4] Drezde M. 2007. Image Spam Datasets. http://www.cis.upenn.edu/ ~mdredze/datasets/Image_spam/ diambil pada tanggal 6 Januari 2008

[5] Drezde M, Gevaryahu R, Elias A,2007. Learning Fast Classifiers for Image Spam. http://www.cis.upenn.edu/~mdredze/publications/image_spam_

ceas07.pdf diambil pada tanggal 6 Januari 2008

[6] Fumera G, Pillai I, Roli P.2006. Spam Filtering Based On The Analysis Of text Information Embedded Into Images. Dept. of Electrical and Electronic Eng. University Of Cagliari: Italy.

[7] Ingargiola.2007.Building Classification Models: ID3 and C4.5. http://www.cis.temple.edu/~ingargio/cis587/readings/id3-c45.html diambil pada tanggal 30 Januari 2008

[8] Krasser S, Tang Y, Gould J, Alperovitch D, Judge P.2007. Identifying Image Spam based on Header and File properties using Decision tree C4.5 and Support Vector Machine Learning.United States Military Academy,West Point: New York.

[9] Quinlan, J.R. (1993): C4.5: Programs for Machine Learning, Morgan Kaufmann Pub., USA.

[10] Quinlan, J.R (1996): “Improved Use of Continuous Atributes in C4.5”, Journal of Artificial Intelligent Research, AI Access Foundation and Morgan Kaufmann Publishers, Inc..

[11] Suyanto,ST. Msc.2007.Artificial Intelligence.Informatika:Bandung

[12] Virusbuster.2007. Detecting Spam Pictures using Statistical Features. http://www.virusbtn.com/pdf/conference_slides/2007/AntalVB2007.pdf Diambil tanggal 15 januari 2008

[13] Wang Z, Josephson, Qin Lv, Charikar M, Li K.2007. Filtering Image Spam with Near-Duplicate Detection. Computer Science Department,Princeton University: USA

[14] Yan G, Ming Y, Xiaonan Z._____.Image Spam Hunter.www.ece.

northwestern.edu/~mya671/mypapers/04517972_Yan_Yang_Zhao_Pardo_IC ASSP08.pdf diambil pada tanggal 25 Juli 2008

Powered by TCPDF (www.tcpdf.org)

Referensi

Dokumen terkait

Dalam upaya membangun masyarakat nelayan yang kondisinya seperti di atas dan agar potensi pembangunan masyarakat bisa dikelola dengan baik, maka salah satu

1. Seorang pedagang beras menerima beras sebanyak 3.750 kg. Sebelumnya pedagang itu masih memiliki persediaan 1.570 kg beras. Ibu berencana membagikan semua berasnya

a. Menjelaskan tujuan pembelajaran atau kompetensi yang ingin dicapai. Menyampaikan cakupan materi dan penjelasan uraian kegiatan sesuai silabus. Guru menjelaskan tata cara

Dalam hal harga yaitu selain murah juga margin keuntungan kurang dari atau sama dengan 10%, ini bisa dilihat dari perhitungan pembelian bahan baku dan pencetakan kemasan roti

Perumusan, penetapan, dan pelaksanaan kebijakan dibidang tata ruang, infrastruktur keagrariaan/pertanahan hukum keagrariaan/pertanahan, penataan agraria/pertanahan,

Pada saat rasio NPM dengan BKM lebih besar dari satu, menunjukkan kondisi optimum belum tercapai, sehingga produsen yang rasional akan menambah penggunaan faktor

Sedangkan untuk mengetahui faktor apa saja yang mempengaruhi analisis evaluasi kebijakan Program BOS dalam peningkatan sarana pendidikan Sekolah Dasar di Kecamatan Tampan

2 (dua) orang dari unsur Kecamatan. Kepala Biro Perekonomian Sekretariat Daerah Provinsi Jawa Barat. Kepala Biro Pelayanan dan Pengembangan Sosial Sekretariat