i
ANALISIS PERFORMANSI ALGORITMA C5.0
DALAM PENGKLASIFIKASIAN SPAM EMAIL
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Rayi Tegar Pamungkas 08560075
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2014
ii
LEMBAR PERSETUJUAN
Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui
Pembimbing I Pembimbing II
Machmud Effendi, M.Eng NIP. 108.0203.0306
Gita Indah Marthasari, ST NIP. 108.0611.0442
iii
LEMBAR PENGESAHAN
Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email
TUGAS AKHIR
Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh : Rayi Tegar Pamungkas
08560075
Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji pada tanggal 21 Maret 2014
Menyetujui,
Penguji I Penguji II
Dhebys Suryani Hormansyah, S.Kom., M.T Sofyan Arifianto, S.Si., M.Kom NIDN. 0706118303 NIDN.
Mengetahui,
Ketua Jurusan Teknik Informatika
Yuda Munarko, S.Kom., M.Sc. NIP. 108.0611.0443
iv
LEMBAR PERNYATAAN
Yang bertanda tangan dibawah ini :
NAMA : RAYI TEGAR PAMUNGKAS NIM : 08560075
FAK/JUR : TEKNIK INFORMATIKA
Dengan ini saya menyatakan bahwa tugas akhir dengan judul “ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM EMAIL” beserta seluruh isinya adalah karya saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.
Demikian surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.
Mengetahui, Malang, 16 Februari 2014
Dosen Pembimbing Yang Membuat Pernyataan
v
LEMBAR PERSEMBAHAN
Alhamdulillah, puji syukur saya panjatkan kepada Allah Azza Wajalla yang telah memberikan rahmat, hidayah serta karunia-Nya sehingga penulis dapat menyelesaikan pembuatan laporan tugas akhir berjudul “Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email”. Penulis menyampaikan rasa terima kasih kepada :
1. Bapak Mahmud Effendi, M.Eng sebagai dosen pembimbing I. Terima kasih atas bimbingan yang telah diberikan dan pesan moral yang telah diberikan.
2. Ibu Gita Indah Marthasari, ST sebagai dosen pembimbing II. Terima kasih atas pengertian dan kesabaran beliau selama membimbing penulis yang jarang ke kampus untuk bimbingan dikarenakan kesibukan yang lain. 3. Sukisno dan Winarsih selaku orang tua penulis yang sabar menunggu
penulis untuk wisuda serta memotivasi penulis untuk menjadi orang yang lebih baik.
4. Prima Andy Winaya dan Atur Nanda Pambudi selaku saudara penulis yang telah memotivasi dan memberikan dorongan semangat kepada penulis.
5. (Alm) Soewono dan Sariatun selaku kakek dan nenek penulis, maaf tidak bisa memperlihatkan foto wisuda kepada beliau dikarenakan telah pergi ke alam barzah terlebih dahulu.
6. Lusyawati yang selama ini telah memotivasi dan mentransfer ilmu ekonominya kepada penulis.
7. Semua teman-teman seperjuangan baik yang sudah wisuda maupun yang masih mengulang kuliah, diantaranya Teguh, Anggit, Firman, Ferry, Fitrah, Ihwan, Bowo, Intan, Ayu, Mida, Luluk, dll.
Malang, 21 Maret 2014
vi
KATA PENGANTAR
ا ِمــــــــــــــــــْسِب
ِﷲ
ميِحَّراا ِنَمْحَّرلا
مُ مُا َ َرَبَ ِﷲ مُ َمْحَرَ ْممُ ْيَ َ مُ َ َّسلا
Segala puja dan puji syukur penulis panjatkan kehadirat Allah SWT, karena atas limpahan kasih dan sayang-Nya sehingga penulis diberikan kesehatan dan kesabaran dalam menyelesaikan tugas akhir yang berjudul “Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email”.
Tugas akhir ini membahas tentang pengujian tingkat performansi algoritma C5.0 menggunakan bantuan library WEKA (Waikato Environment For Knowledge Analysis) dalam mengklasifikasikan pesan email.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih jauh dari kata sempurna. Oleh karena itu, penulis mengharapkan kritik serta saran yang bersifat membangun guna penyempurnaan tugas akhir ini.
مُ مُا َ َرَبَ ِﷲ مُ َمْحَرَ ْممُ ْيَ َ مُ َ َّ َ
Malang, 21 Maret 2014
vii
DAFTAR ISI
HALAMAN JUDUL ... i
LEMBAR PERSETUJUAN ... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN KEASLIAN ... iv
ABSTRAKSI ... v
ABSTRACT ... vi
LEMBAR PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xii
DAFTAR TABEL ... xiv
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 2
1.3 Tujuan ... 2
1.4 Batasan Masalah ... 2
1.5 Metodologi Penyelesaian Masalah ... 3
1.6 Sistematika Penulisan ... 4
BAB II LANDASAN TEORI 2.1 Email ... 5
2.1.1 Sejarah Email ... 5
2.1.2 Pengalamatan Email ... 5
2.1.3 Cara Kerja Email ... 6
2.1.4 Spam Email... 7
2.2 Text Mining ... 9
2.2.1 Definisi Text Mining ... 9
2.2.2 Tahapan Proses Text Mining ... 9
2.3 Algoritma Term Frequency-Inverse Document Frequency (TF-IDF) ... 11
2.3.1 Definisi Algoritma TF-IDF ... 11
2.3.2 Cara Kerja Algoritma TF-IDF ... 12
2.4 Algoritma C5.0 ... 13
2.4.1 Definisi Algoritma C5.0 ... 13
2.4.2 Cara Kerja Algoritma C5.0 ... 13
2.5 Waikato Environment for Knowledge Analysis (WEKA) ... 14
2.5.1 Definisi WEKA ... 14
2.5.2 Fitur WEKA ... 15
2.5.3 Format Data WEKA ... 16
viii
BAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Analisis Masalah... 19
3.2 Analisa Kebutuhan ... 19
3.2.1 Kebutuhan Fungsional ... 19
3.2.2 Kebutuhan Non Fungsional ... 19
3.3 Analisa Sistem ... 20
3.3.1 Alur Sistem ... 20
3.3.2 Use Case Diagram ... 26
3.3.3 Activity Diagram ... 27
3.4 Perancangan Sistem ... 30
3.4.1 Class Diagram... 30
3.4.2 Sequence Diagram ... 31
3.5 Desain Interface Aplikasi ... 32
BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Perangkat Hardware Dan Software Yang Digunakan ... 35
4.2 Implementasi Sistem... 35 4.2.1 Implementasi Preprocessing ... 35 4.2.1.1 Case Folding ... 36 4.2.1.2 Tokenizing ... 36 4.2.1.3 Filtering ... 37 4.2.1.4 Stemming ... 37
4.2.2 Implementasi Algoritma Term Frequency - Inverse Document Frequency (TF-IDF) ... 38
4.2.2.1 Term Frequency (TF) ... 38
4.2.2.2 Document Frequency (DF) ... 39
4.2.2.3 Inverse Document Frequency (IDF) ... 40
4.2.2.4 Term Frequency-Inverse Document Frequency ... 40
4.2.3 Implementasi Algoritma C5.0 ... 41
4.3 Pengujian ... 42
4.3.1 Pengujian Fungsionalitas Sistem ... 42
4.3.2 Hasil Pengujian Sistem ... 44
4.3.3 Hasil Pengujian Gmail Dan Yahoo ... 49
BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan ... 52
5.2 Saran ... 53
DAFTAR PUSTAKA ... 54
ix
DAFTAR GAMBAR
Gambar 2.1 Cara Kerja Email ... 6
Gambar 2.2 Cara Kerja Email Lanjutan ... 6
Gambar 2.3 Tahapan Proses Text Mining... 10
Gambar 3.1 Alur Flowchart Sistem ... 20
Gambar 3.2 Use Case Aplikasi ... 27
Gambar 3.3 Activity Diagram Pilih File Email ... 27
Gambar 3.4 Activity Diagram Preprocessing Email ... 28
Gambar 3.5 Activity Diagram TF-IDF ... 29
Gambar 3.6 Activity Diagram C5.0 ... 30
Gambar 3.7 Class Diagram Aplikasi... 31
Gambar 3.8 Sequence Diagram Pilih File ... 31
Gambar 3.9 Sequence Diagram Hitung Performansi ... 32
Gambar 3.10 Form Preprocessing ... 33
Gambar 3.11 Form TF-IDF ... 33
Gambar 3.12 Form C5.0 ... 34
Gambar 4.1 Kode Program Case Folding ... 36
Gambar 4.2 Kode Program Tokenizing ... 36
Gambar 4.3 Kode Program Filtering... 37
Gambar 4.4 Kode Program Stemming ... 38
Gambar 4.5 Kode Program Term Frequency ... 39
Gambar 4.6 Kode Program Document Frequency ... 39
Gambar 4.7 Kode Program Inverse Document Frequency ... 40
Gambar 4.8 Kode Program Term Frquency Inverse Document Frequency 40 Gambar 4.9 Kode Program Preprocessing, TF-IDF dan C5.0 ... 41
Gambar 4.10 Interface Proses Preprocessing ... 42
Gambar 4.11 Interface Proses TF-IDF ... 43
Gambar 4.12 Interface Proses C5.0 ... 44
Gambar 4.13 Grafik Precision Dengan 500 File ... 45
Gambar 4.14 Grafik Recall Dengan 500 File ... 46
Gambar 4.15 Grafik Accuracy Dengan 500 File ... 47
Gambar 4.16 Grafik Precision Dengan 1000 File ... 47
Gambar 4.17 Grafik Recall Dengan 1000 File ... 48
x
DAFTAR TABEL
Tabel 2.1 Confusion Matrix ... 17
Tabel 3.1 Contoh Perhitungan TF-IDF ... 22
Tabel 3.2 Contoh Data Perhitungan C5.0 ... 23
Tabel 3.3 Perhitungan Information Gain, Entropy dan Gain ... 25
Tabel 4.1 Hasil Klasifikasi Dengan Total Data 500 ... 44
Tabel 4.2 Hasil Klasifikasi Dengan Total Data 1000 ... 45
Tabel 4.3 Pengujian Gmail Dengan 250 Data Testing ... 49
Tabel 4.4 Pengujian Gmail Dengan 500 Data Testing ... 50
Tabel 4.5 Pengujian Yahoo Dengan 250 Data Testing ... 50
xi
DAFTAR PUSTAKA
[1] Com, J. 2009. Cara Kerja Email: Jago Internet dari Nol hingga Mahir. Yogyakarta: Multicom.
[2] Defiyanti, Sofi. 2008. Perbandingan Kinerja Algoritma ID3 dan C4.5
Dalam Klasifikasi Spam-Mail. Universitas Gunadarma.
[3] Dunham, M.H. 2003. Data Mining Introductory And Advance Topics.
Upper Saddle River, NJ: Pearson Education, Inc.
[4] Han, J. Kamber, M. 2001. Data Mining: Concepts and Technique. San
Fransisco: Morgan Kaufmann Publishers.
[5] Indranandita, Amalia. 2008. Sistem Klasifikasi Dan Pencarian Jurnal
Dengan Menggunakan Metode Naïve Bayes Dan Vector Space Model. Universitas Kristen Duta Wacana.
[6] Insan, Pramudya Prima. Klasifikasi Emosi Untuk Teks Berbahasa
Indonesia Dengan Menggunakan Algoritma C5.0. Universitas Brawijaya
[7] Kantardzic M. 2003. Data Mining Concept Models, Methods, and
Algorithms. New Jersey, USA: A John Wiley & Sons.
[8] Kusrini dan Luthfi, Emha Taufiq. 2009. Algoritma Data Mining.
Yogyakarta: Andi Publisher.
[9] Robertson, Stephen. 2005. Understanding Inverse Document Frequency:
On Theoretical Arguments for IDF, England: Journal of Documentation, Vol. 60, pp. 502-520.
[10] Septiandana, Sandy. 2012. Klasifikasi Status Ketenagakerjaan
Menggunakan Algoritma Pohon Keputusan. UPN Veteran Jakarta.
[11] Sulistiyani, Sri. 2009. Bikin PC Aman Dari Serangan Virus, Spam, Dan Spyware. Yogyakarta: Andi Publisher.
[12] Witten, Ian H., Frank, Eibe, & Hall, Mark A. 2011. Data Mining Practical Machine Learning Tools And Techniques. Burlington: Morgan Kaufmann Publishers.
[13] Yuhefizar. 2008. 10 Jam Menguasai Internet Teknologi dan Aplikasinya.
Jakarta: Elex Media Komputindo.
[14] Zafikri, Atika. 2010. Implementasi Metode Term Frequency (TF-IDF)