BAB IV HASIL DAN PEMBAHASAN

(1)

BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Penelitian

4.1.1 Support Vector Machines (SVM)

Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera pada lampiran 4, yang akan dijadikan sebagai bahan analisis data sebagai berikut :

Tabel 3 Hasil Pengenalan Email Spam dengan SVM

Parameter Hasil

ns 500 nh 500 ns→s 375 ns→h 125 nh→h 490 nh→s 10

Keterangan :

ns : jumlah spam

(2)

nh : jumlah ham

ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham

nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam

Data hasil eksperimen dengan metode SVM di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :

1. Recall Spam

375 375 125

0.75

2. Recall Ham

490 490 0 〲 _0.98

3. Precision Spam

375 375 10

(3)

0.97

4. Precision Ham

490 490 125

0.80

5. F-measure Spam

2 x 0.75 0.974 0.75 0.974

0.85

6. F-measure Ham

2 x 0.98 0.796 0.98 0.796

0.88

4.1.2 K Nearest Neighbor (kNN)

Hasil pengenalan metode k-Nearest Neighbor (kNN) dengan k = 1 sebagaimana terlampir pada lampiran 5 adalah sebagai berikut :

(4)

Tabel 4 Hasil Pengenalan Email Spam dengan kNN

Parameter Hasil

Ns 500 Nh 500 ns→s 464 ns→h 36 nh→h 431 nh→s 69

Keterangan :

ns : jumlah spam nh : jumlah ham

Data hasil eksperimen dengan metode kNN di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :

(5)

1. Recall Spam

464 464 36

0.93

2. Recall Ham

431

431 69 0.86

3. Precision Spam

464 464 69 0.87

4. Precision Ham

431 431 36

0.92

5. F-measure Spam

2 x 0.928 0.870 0.928 0.870

(6)

0.90

6. F-measure Ham

2 x 0.862 0.922 0.862 0.922

0.89

4.1.3 Naïve Bayes Classifier (NBC)

Hasil pengenalan dengan metode Naïve Bayes Classifier (NBC) sebagaimana terlampir pada lampiran 6 direpresentasikan pada tabel berikut :

Tabel 5 Hasil Pengenalan Email Spam dengan NBC

Parameter Hasil

ns 500 nh 500 ns→s 496 ns→h 4 nh→h 118 nh→s 382

Keterangan :

ns : jumlah spam

(7)

nh : jumlah ham

Data hasil eksperimen dengan metode NBC di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :

1. Recall Spam :

496 496 4

0.99

2. Recall Ham :

118 118 382

晜 0.24

3. Precision Spam :

496 496 382

(8)

0.56

4. Precision Ham

118 118 4

0.97

5. F-measure Spam

2 x 0.992 0.564 0.992 0.564

0.72

6. F-measure Ham

2 x 0.236 0.967 0.236 0.67

0.38

(9)

4.2 Analisis Hasil Penelitian

4.2.1 Recall, Precision dan F-measure Spam

Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC).

Tabel 6 Recall, Precision dan F-measure Spam

Recall Spam Precision Spam F‐measureSpam

SVM 0.75 0.97 0.85

kNN 0.93 0.87 0.90

NBC 0.99 0.56 0. 72

Berdasarkan tabel di atas dapat terlihat bahwa nilai recall spam tertinggi diperoleh dari hasil pengenalan metode NBC, precision spam tertinggi diperoleh dari hasil pengenalan metode SVM, sedangkan f-measure spam tertinggi diperoleh dari hasil pengenalan metode kNN.

Metode Support Vector Machines (SVM) menghasilkan recall spam yang lebih rendah dari metode kNN dan NBC yaitu sebesar 0.75. Namun meski demikian metode SVM menghasilkan precision spamtertinggi dibandingkan dengan hasil pengenalan metode kNN dan NBC yaitu sebesar 0.97. F-measure spam yang dihasilkan metode SVM cukup tinggi yaitu sebesar 0.85, meskipun masih berada di bawah f-measure spam kNN.

Nilai precision spam SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa SVM sangat efektif dalam mempertahankan email ham agar

(10)

tidak dikenali sebagai spam. Hal ini sangat penting, karena jika email ham dikenali sebagai spam, maka penerima cenderung untuk tidak membaca email tersebut karena menganggapnya sebagai email spam. Namun recall spam yang rendah menunjukkan bahwa kinerja SVM dalam mengenali email spam lebih rendah dari kNN dan NBC.

Metode k Nearest Neighbor (kNN) menghasilkan recall spam yang cukup tinggi, yaitu sebesar 0.93 meskipun masih di bawah recall spam NBC. Precision spam kNN pun cukup tinggi yaitu sebesar 0.87, namun juga masih di bawah precision spam SVM. Untuk F-measure spam kNN menghasilkan nilai tertinggi dibandingkan dengan f-measure spam SVM dan NBC yaitu sebesar 0.90.

Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall spam yang lebih tinggi dari recall spam SVM dan kNN yaitu sebesar 0.99. Namun, precision spam yang dihasilkan sangat rendah yaitu sebesar 0.56. Hal ini menyebabkan nilai f- measure spam yang dihasilkan oleh metode NBC ini menjadi rendah, yaitu sebesar 0.72.

Nilai recall spam NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih baik dari SVM dan kNN. Hal ini juga sangat penting mengingat kerugian yang banyak terjadi akibat banyaknya email spam yang dikenali sebagai email ham sebagaimana disebutkan pada latar belakang penelitian. Namun precision spam yang sangat rendah menunjukkan bahwa kemampuan NBC dalam mengenali email ham lebih rendah dari SVM dan kNN sehingga banyak email ham yang dikenali sebagai email spam.

(11)

m B

4

m B

S k N

Graf metode Supp Bayes Class

4.2.2 Rec Beriku metode Supp Bayes Class

SVM kNN NBC

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

fik hasil per pport Vector

ifier (NBC)

Gambar 2

call, Preci

ut adalah tab pport Vector ifier (NBC)

T

Re 0.

0.

SVM

rhitungan n re Machines digambarka

22 Grafik Nila

ision dan

bel recall, pr r Machines

:

Tabel 7 Recall,

Recall Ham 98 86 24

kNN

nilai recall, s (SVM), k an seperti di

i Recall, Preci

n F-meas recision dan

(SVM), k

, Precision dan

Pre 0.80 0.92 0.97

N N

precision d Nearest Ne bawah ini :

ision dan F-me

ure Ham

f-measure s Nearest Ne

n F-measure H

ecision Ham 0

2 7

NBC

dan f-measu eighbor (kN

easure Spam

spam yang d ighbor (kNN

Ham

m F‐me

0.88 0.89 0. 38

Recall Sp Precision F‐Measu

ure spam d NN) dan Naï

dihasilkan ol N) dan Naï

easureHam

pam n Spam

re Spam

ari ïve

leh ïve

(12)

Berdasarkan tabel di atas, nilai recall ham tertinggi dihasilkan oleh metode SVM yaitu sebesar 0.98, precision ham tertinggi dihasilkan oleh metode NBC yaitu sebesar 0.97, sedangkan f-measure ham tertinggi dihasilkan oleh metode kNN yaitu sebesar 0.89.

Metode Support Vector Machines (SVM) menghasilkan nilai recall ham yang sangat tinggi, yaitu sebesar 0.98.. Namun, precision ham yang dihasilkan SVM lebih rendah dari precision ham hasil kNN dan NBC yaitu sebesar 0.80. Nilai f-measure ham yang dihasilkan oleh metode SVM cukup tinggi, yaitu sebesar 0.88, meskipun masih di bawah f-measureham kNN.

Nilai recall ham SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenali email ham lebih baik dari kNN dan NBC. Hal ini berarti proporsi email ham yang dikenali sebagai email spam lebih rendah dari kNN dan NBC. Namun nilai precision ham SVM yang lebih rendah dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenaliemail spam tidak lebih baik dari kNN dan NBC.

Metode k Nearest Neighbor (kNN) menghasilkan nilai recall ham yang cukup tinggi yaitu sebesar 0.86 meskipun masih di bawah recall ham SVM. Precision ham yang dihasilkan metode kNN pun cukup tinggi yaitu sebesar 0.92 meskipun masih di bawah precision ham NBC. Sedangkan nilai f-measure ham yang dihasilkan kNN lebih tinggi dari f-measure ham SVM dan NBC yaitu sebesar 0.89.

(13)

Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall ham yang sangat rendah yaitu sebesar 0.24. Namun, nilai precision ham yang dihasilkan NBC sangat tinggi, yaitu sebesar 0.97, lebih tinggi dari precision ham SVM dan kNN.

Sedangkan nilai f-measure ham yang dihasilkan NBC ini cukup rendah, yaitu sebesar 0.38.

Nilai precision ham NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih tinggi dari SVM dan kNN.

Sementara dalam mengenali email ham kinerja NBC sangat rendah jika dibandingkan dengan SVM dan kNN. Hal ini ditunjukkan oleh rendahnya nilai recall ham yang dihasilkan oleh NBC.

Secara keseluruhan, hasil perhitungan nilai recall, precision dan f-measure ham yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC) digambarkan dalam grafik di bawah ini :

(14)

p y e p

e m m

Hasi pengenalan yang lebih t email spam precision ha Hal t email ham.

menyebabka melakukan p

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Gambar 2

l penelitian email ham.

tinggi dari m NBC menu am yang lebi tersebut dap Ketersebara an hyperpla pengelompok

SVM

23 Grafik Nila

ini menunj Hal ini ditun metode kNN

unjukkan has ih tinggi dari at disebabka an data ema

ane yang kkan email s

kNN

i Recall, Preci

njukkan bah njukkan oleh

dan NBC. S sil yang leb i SVM dan k an karena str ail spam yan

dihasilkan spam sebaik

N N

ision dan F-me

hwa SVM le h nilai preci Sedangkan d

ih baik deng kNN.

ruktur email ng lebih kom

oleh algor k pengelompo

NBC

easure Spam

ebih baik d ision spam d dalam konte

gan nilai re

spam lebih mpleks pada ritma SVM

okkan email

Recall H Precisio F‐Measu

dalam konte dan recall ha

ks pengenal call spam d

kompleks d a ruang vect

tidak dap l ham.

am n Ham ure Ham

eks am lan dan

ari tor pat

(15)

Hasil penelitian ini berbeda dengan beberapa hasil penelitian sebelumnya yang telah disebutkan pada Bab I. Hal ini dapat disebabkan oleh beberapa faktor berikut :

1. Perbedaan jenis dan jumlah feature yang digunakan baik dalam proses training maupun testing.

2. Perbedaan dalam teknik pre-processing data.

3. Perbedaan dalam teknik pembobotan data.

4. Perbedaan jenis kernel yang digunakan.