• Tidak ada hasil yang ditemukan

ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM TUGAS AKHIR

N/A
N/A
Protected

Academic year: 2021

Membagikan "ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM TUGAS AKHIR"

Copied!
11
0
0

Teks penuh

(1)

i

ANALISIS PERFORMANSI ALGORITMA C5.0

DALAM PENGKLASIFIKASIAN SPAM EMAIL

TUGAS AKHIR

Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Rayi Tegar Pamungkas 08560075

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2014

(2)

ii

LEMBAR PERSETUJUAN

Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email

TUGAS AKHIR

Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Menyetujui

Pembimbing I Pembimbing II

Machmud Effendi, M.Eng NIP. 108.0203.0306

Gita Indah Marthasari, ST NIP. 108.0611.0442

(3)

iii

LEMBAR PENGESAHAN

Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email

TUGAS AKHIR

Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh : Rayi Tegar Pamungkas

08560075

Tugas Akhir ini telah diuji dan dinyatakan lulus melalui sidang majelis penguji pada tanggal 21 Maret 2014

Menyetujui,

Penguji I Penguji II

Dhebys Suryani Hormansyah, S.Kom., M.T Sofyan Arifianto, S.Si., M.Kom NIDN. 0706118303 NIDN.

Mengetahui,

Ketua Jurusan Teknik Informatika

Yuda Munarko, S.Kom., M.Sc. NIP. 108.0611.0443

(4)

iv

LEMBAR PERNYATAAN

Yang bertanda tangan dibawah ini :

NAMA : RAYI TEGAR PAMUNGKAS NIM : 08560075

FAK/JUR : TEKNIK INFORMATIKA

Dengan ini saya menyatakan bahwa tugas akhir dengan judul “ANALISIS PERFORMANSI ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN SPAM EMAIL” beserta seluruh isinya adalah karya saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun seluruhnya, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.

Demikian surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.

Mengetahui, Malang, 16 Februari 2014

Dosen Pembimbing Yang Membuat Pernyataan

(5)

v

LEMBAR PERSEMBAHAN

Alhamdulillah, puji syukur saya panjatkan kepada Allah Azza Wajalla yang telah memberikan rahmat, hidayah serta karunia-Nya sehingga penulis dapat menyelesaikan pembuatan laporan tugas akhir berjudul “Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email”. Penulis menyampaikan rasa terima kasih kepada :

1. Bapak Mahmud Effendi, M.Eng sebagai dosen pembimbing I. Terima kasih atas bimbingan yang telah diberikan dan pesan moral yang telah diberikan.

2. Ibu Gita Indah Marthasari, ST sebagai dosen pembimbing II. Terima kasih atas pengertian dan kesabaran beliau selama membimbing penulis yang jarang ke kampus untuk bimbingan dikarenakan kesibukan yang lain. 3. Sukisno dan Winarsih selaku orang tua penulis yang sabar menunggu

penulis untuk wisuda serta memotivasi penulis untuk menjadi orang yang lebih baik.

4. Prima Andy Winaya dan Atur Nanda Pambudi selaku saudara penulis yang telah memotivasi dan memberikan dorongan semangat kepada penulis.

5. (Alm) Soewono dan Sariatun selaku kakek dan nenek penulis, maaf tidak bisa memperlihatkan foto wisuda kepada beliau dikarenakan telah pergi ke alam barzah terlebih dahulu.

6. Lusyawati yang selama ini telah memotivasi dan mentransfer ilmu ekonominya kepada penulis.

7. Semua teman-teman seperjuangan baik yang sudah wisuda maupun yang masih mengulang kuliah, diantaranya Teguh, Anggit, Firman, Ferry, Fitrah, Ihwan, Bowo, Intan, Ayu, Mida, Luluk, dll.

Malang, 21 Maret 2014

(6)

vi

KATA PENGANTAR

ا ِمــــــــــــــــــْسِب

ِﷲ

ميِحَّراا ِنَمْحَّرلا

مُ مُا َ َرَبَ ِﷲ مُ َمْحَرَ ْممُ ْيَ َ مُ َ َّسلا

Segala puja dan puji syukur penulis panjatkan kehadirat Allah SWT, karena atas limpahan kasih dan sayang-Nya sehingga penulis diberikan kesehatan dan kesabaran dalam menyelesaikan tugas akhir yang berjudul “Analisis Performansi Algoritma C5.0 Dalam Pengklasifikasian Spam Email”.

Tugas akhir ini membahas tentang pengujian tingkat performansi algoritma C5.0 menggunakan bantuan library WEKA (Waikato Environment For Knowledge Analysis) dalam mengklasifikasikan pesan email.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih jauh dari kata sempurna. Oleh karena itu, penulis mengharapkan kritik serta saran yang bersifat membangun guna penyempurnaan tugas akhir ini.

مُ مُا َ َرَبَ ِﷲ مُ َمْحَرَ ْممُ ْيَ َ مُ َ َّ َ

Malang, 21 Maret 2014

(7)

vii

DAFTAR ISI

HALAMAN JUDUL ... i

LEMBAR PERSETUJUAN ... ii

LEMBAR PENGESAHAN ... iii

LEMBAR PERNYATAAN KEASLIAN ... iv

ABSTRAKSI ... v

ABSTRACT ... vi

LEMBAR PERSEMBAHAN ... vii

KATA PENGANTAR ... viii

DAFTAR ISI ... ix

DAFTAR GAMBAR ... xii

DAFTAR TABEL ... xiv

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan ... 2

1.4 Batasan Masalah ... 2

1.5 Metodologi Penyelesaian Masalah ... 3

1.6 Sistematika Penulisan ... 4

BAB II LANDASAN TEORI 2.1 Email ... 5

2.1.1 Sejarah Email ... 5

2.1.2 Pengalamatan Email ... 5

2.1.3 Cara Kerja Email ... 6

2.1.4 Spam Email... 7

2.2 Text Mining ... 9

2.2.1 Definisi Text Mining ... 9

2.2.2 Tahapan Proses Text Mining ... 9

2.3 Algoritma Term Frequency-Inverse Document Frequency (TF-IDF) ... 11

2.3.1 Definisi Algoritma TF-IDF ... 11

2.3.2 Cara Kerja Algoritma TF-IDF ... 12

2.4 Algoritma C5.0 ... 13

2.4.1 Definisi Algoritma C5.0 ... 13

2.4.2 Cara Kerja Algoritma C5.0 ... 13

2.5 Waikato Environment for Knowledge Analysis (WEKA) ... 14

2.5.1 Definisi WEKA ... 14

2.5.2 Fitur WEKA ... 15

2.5.3 Format Data WEKA ... 16

(8)

viii

BAB III ANALISA DAN PERANCANGAN SISTEM

3.1 Analisis Masalah... 19

3.2 Analisa Kebutuhan ... 19

3.2.1 Kebutuhan Fungsional ... 19

3.2.2 Kebutuhan Non Fungsional ... 19

3.3 Analisa Sistem ... 20

3.3.1 Alur Sistem ... 20

3.3.2 Use Case Diagram ... 26

3.3.3 Activity Diagram ... 27

3.4 Perancangan Sistem ... 30

3.4.1 Class Diagram... 30

3.4.2 Sequence Diagram ... 31

3.5 Desain Interface Aplikasi ... 32

BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Perangkat Hardware Dan Software Yang Digunakan ... 35

4.2 Implementasi Sistem... 35 4.2.1 Implementasi Preprocessing ... 35 4.2.1.1 Case Folding ... 36 4.2.1.2 Tokenizing ... 36 4.2.1.3 Filtering ... 37 4.2.1.4 Stemming ... 37

4.2.2 Implementasi Algoritma Term Frequency - Inverse Document Frequency (TF-IDF) ... 38

4.2.2.1 Term Frequency (TF) ... 38

4.2.2.2 Document Frequency (DF) ... 39

4.2.2.3 Inverse Document Frequency (IDF) ... 40

4.2.2.4 Term Frequency-Inverse Document Frequency ... 40

4.2.3 Implementasi Algoritma C5.0 ... 41

4.3 Pengujian ... 42

4.3.1 Pengujian Fungsionalitas Sistem ... 42

4.3.2 Hasil Pengujian Sistem ... 44

4.3.3 Hasil Pengujian Gmail Dan Yahoo ... 49

BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan ... 52

5.2 Saran ... 53

DAFTAR PUSTAKA ... 54

(9)

ix

DAFTAR GAMBAR

Gambar 2.1 Cara Kerja Email ... 6

Gambar 2.2 Cara Kerja Email Lanjutan ... 6

Gambar 2.3 Tahapan Proses Text Mining... 10

Gambar 3.1 Alur Flowchart Sistem ... 20

Gambar 3.2 Use Case Aplikasi ... 27

Gambar 3.3 Activity Diagram Pilih File Email ... 27

Gambar 3.4 Activity Diagram Preprocessing Email ... 28

Gambar 3.5 Activity Diagram TF-IDF ... 29

Gambar 3.6 Activity Diagram C5.0 ... 30

Gambar 3.7 Class Diagram Aplikasi... 31

Gambar 3.8 Sequence Diagram Pilih File ... 31

Gambar 3.9 Sequence Diagram Hitung Performansi ... 32

Gambar 3.10 Form Preprocessing ... 33

Gambar 3.11 Form TF-IDF ... 33

Gambar 3.12 Form C5.0 ... 34

Gambar 4.1 Kode Program Case Folding ... 36

Gambar 4.2 Kode Program Tokenizing ... 36

Gambar 4.3 Kode Program Filtering... 37

Gambar 4.4 Kode Program Stemming ... 38

Gambar 4.5 Kode Program Term Frequency ... 39

Gambar 4.6 Kode Program Document Frequency ... 39

Gambar 4.7 Kode Program Inverse Document Frequency ... 40

Gambar 4.8 Kode Program Term Frquency Inverse Document Frequency 40 Gambar 4.9 Kode Program Preprocessing, TF-IDF dan C5.0 ... 41

Gambar 4.10 Interface Proses Preprocessing ... 42

Gambar 4.11 Interface Proses TF-IDF ... 43

Gambar 4.12 Interface Proses C5.0 ... 44

Gambar 4.13 Grafik Precision Dengan 500 File ... 45

Gambar 4.14 Grafik Recall Dengan 500 File ... 46

Gambar 4.15 Grafik Accuracy Dengan 500 File ... 47

Gambar 4.16 Grafik Precision Dengan 1000 File ... 47

Gambar 4.17 Grafik Recall Dengan 1000 File ... 48

(10)

x

DAFTAR TABEL

Tabel 2.1 Confusion Matrix ... 17

Tabel 3.1 Contoh Perhitungan TF-IDF ... 22

Tabel 3.2 Contoh Data Perhitungan C5.0 ... 23

Tabel 3.3 Perhitungan Information Gain, Entropy dan Gain ... 25

Tabel 4.1 Hasil Klasifikasi Dengan Total Data 500 ... 44

Tabel 4.2 Hasil Klasifikasi Dengan Total Data 1000 ... 45

Tabel 4.3 Pengujian Gmail Dengan 250 Data Testing ... 49

Tabel 4.4 Pengujian Gmail Dengan 500 Data Testing ... 50

Tabel 4.5 Pengujian Yahoo Dengan 250 Data Testing ... 50

(11)

xi

DAFTAR PUSTAKA

[1] Com, J. 2009. Cara Kerja Email: Jago Internet dari Nol hingga Mahir. Yogyakarta: Multicom.

[2] Defiyanti, Sofi. 2008. Perbandingan Kinerja Algoritma ID3 dan C4.5

Dalam Klasifikasi Spam-Mail. Universitas Gunadarma.

[3] Dunham, M.H. 2003. Data Mining Introductory And Advance Topics.

Upper Saddle River, NJ: Pearson Education, Inc.

[4] Han, J. Kamber, M. 2001. Data Mining: Concepts and Technique. San

Fransisco: Morgan Kaufmann Publishers.

[5] Indranandita, Amalia. 2008. Sistem Klasifikasi Dan Pencarian Jurnal

Dengan Menggunakan Metode Naïve Bayes Dan Vector Space Model. Universitas Kristen Duta Wacana.

[6] Insan, Pramudya Prima. Klasifikasi Emosi Untuk Teks Berbahasa

Indonesia Dengan Menggunakan Algoritma C5.0. Universitas Brawijaya

[7] Kantardzic M. 2003. Data Mining Concept Models, Methods, and

Algorithms. New Jersey, USA: A John Wiley & Sons.

[8] Kusrini dan Luthfi, Emha Taufiq. 2009. Algoritma Data Mining.

Yogyakarta: Andi Publisher.

[9] Robertson, Stephen. 2005. Understanding Inverse Document Frequency:

On Theoretical Arguments for IDF, England: Journal of Documentation, Vol. 60, pp. 502-520.

[10] Septiandana, Sandy. 2012. Klasifikasi Status Ketenagakerjaan

Menggunakan Algoritma Pohon Keputusan. UPN Veteran Jakarta.

[11] Sulistiyani, Sri. 2009. Bikin PC Aman Dari Serangan Virus, Spam, Dan Spyware. Yogyakarta: Andi Publisher.

[12] Witten, Ian H., Frank, Eibe, & Hall, Mark A. 2011. Data Mining Practical Machine Learning Tools And Techniques. Burlington: Morgan Kaufmann Publishers.

[13] Yuhefizar. 2008. 10 Jam Menguasai Internet Teknologi dan Aplikasinya.

Jakarta: Elex Media Komputindo.

[14] Zafikri, Atika. 2010. Implementasi Metode Term Frequency (TF-IDF)

Referensi

Dokumen terkait

Apabila investor melihat sebuah perusahaan dengan asset yang tinggi namun resiko leverage nya juga tinggi, maka akan berpikir dua kali untuk berinvestasi pada perusahaan

Rekapitulasi hasil analisis ragam pengaruh metode penanganan awal yaitu perlakuan Pemberian jeruk nipis, pengukusan dan pengasapan terhadap uji sensorik yang

dalam membaca buku pelajaran sekolah, dan mau untuk mempelajari kembali apa yang sudah diajarkan masih rendah. Tingkat kelulusan siswa-siswi yang mengikuti Ujian

Sedangkan dalam tugas akhir ini, meneliti tentang kesalahan penulisan dan apa penyebab kesalahan penulisan dalam merubah kalimat aktif menjadi kalimat pasif oleh

Pengaturan atau pengorganisasian yang terencana akan banyak membantu kalian dalam menyelesaikan berbagai tugas sehingga kalian bisa memantau tugas atau tahapan yang

Dikarenakan banyak kasus terkait isu rasisme yang terjadi dikalangan masyarakat indonesia, terutama stereotipe yang sering didapat oleh etnis Papua oleh etnis lain

Alasan tersebut dapat dideskripsikan dengan menjawab berbagai hal, seperti apakah masalah yang dihadapi peneliti berdasarkan refleksi pengalaman nyata yang pernah

Persamaan van der Waals dalam bentuk seperti di bawah ini. Pada ketiga volum tersebut ada kesetimbangan antara fasa cair dan uap. Daerah kesetimbangan 2 fasa tersebut