BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Penelitian
4.1.1 Support Vector Machines (SVM)
Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera pada lampiran 4, yang akan dijadikan sebagai bahan analisis data sebagai berikut :
Tabel 3 Hasil Pengenalan Email Spam dengan SVM
Parameter Hasil
ns 500 nh 500 ns→s 375 ns→h 125 nh→h 490 nh→s 10
Keterangan :
ns : jumlah spam
nh : jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham
nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode SVM di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
1. Recall Spam
375 375 125
0.75
2. Recall Ham
490 490 0 〲 0.98
3. Precision Spam
375 375 10
0.97
4. Precision Ham
490 490 125
0.80
5. F-measure Spam
2 x 0.75 0.974 0.75 0.974
0.85
6. F-measure Ham
2 x 0.98 0.796 0.98 0.796
0.88
4.1.2 K Nearest Neighbor (kNN)
Hasil pengenalan metode k-Nearest Neighbor (kNN) dengan k = 1 sebagaimana terlampir pada lampiran 5 adalah sebagai berikut :
Tabel 4 Hasil Pengenalan Email Spam dengan kNN
Parameter Hasil
Ns 500 Nh 500 ns→s 464 ns→h 36 nh→h 431 nh→s 69
Keterangan :
ns : jumlah spam nh : jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham
nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode kNN di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
1. Recall Spam
464 464 36
0.93
2. Recall Ham
431
431 69 0.86
3. Precision Spam
464 464 69 0.87
4. Precision Ham
431 431 36
0.92
5. F-measure Spam
2 x 0.928 0.870 0.928 0.870
0.90
6. F-measure Ham
2 x 0.862 0.922 0.862 0.922
0.89
4.1.3 Naïve Bayes Classifier (NBC)
Hasil pengenalan dengan metode Naïve Bayes Classifier (NBC) sebagaimana terlampir pada lampiran 6 direpresentasikan pada tabel berikut :
Tabel 5 Hasil Pengenalan Email Spam dengan NBC
Parameter Hasil
ns 500 nh 500 ns→s 496 ns→h 4 nh→h 118 nh→s 382
Keterangan :
ns : jumlah spam
nh : jumlah ham
ns→s : jumlah spam yang benar dikenali sebagai spam ns→h : jumlah spam yang dikenali sebagai ham
nh→h : jumlah ham yang benar dikenali sebagai ham nh→s : jumlah ham yang dikenali sebagai spam
Data hasil eksperimen dengan metode NBC di atas selanjutnya menjadi bahan untuk proses evaluasi kinerja yang akan diukur dengan beberapa perhitungan sebagai berikut :
1. Recall Spam :
496 496 4
0.99
2. Recall Ham :
118 118 382
晜 0.24
3. Precision Spam :
496 496 382
0.56
4. Precision Ham
118 118 4
0.97
5. F-measure Spam
2 x 0.992 0.564 0.992 0.564
0.72
6. F-measure Ham
2 x 0.236 0.967 0.236 0.67
0.38
4.2 Analisis Hasil Penelitian
4.2.1 Recall, Precision dan F-measure Spam
Berikut adalah tabel recall, precision dan f-measure spam yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC).
Tabel 6 Recall, Precision dan F-measure Spam
Recall Spam Precision Spam F‐measureSpam
SVM 0.75 0.97 0.85
kNN 0.93 0.87 0.90
NBC 0.99 0.56 0. 72
Berdasarkan tabel di atas dapat terlihat bahwa nilai recall spam tertinggi diperoleh dari hasil pengenalan metode NBC, precision spam tertinggi diperoleh dari hasil pengenalan metode SVM, sedangkan f-measure spam tertinggi diperoleh dari hasil pengenalan metode kNN.
Metode Support Vector Machines (SVM) menghasilkan recall spam yang lebih rendah dari metode kNN dan NBC yaitu sebesar 0.75. Namun meski demikian metode SVM menghasilkan precision spamtertinggi dibandingkan dengan hasil pengenalan metode kNN dan NBC yaitu sebesar 0.97. F-measure spam yang dihasilkan metode SVM cukup tinggi yaitu sebesar 0.85, meskipun masih berada di bawah f-measure spam kNN.
Nilai precision spam SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa SVM sangat efektif dalam mempertahankan email ham agar
tidak dikenali sebagai spam. Hal ini sangat penting, karena jika email ham dikenali sebagai spam, maka penerima cenderung untuk tidak membaca email tersebut karena menganggapnya sebagai email spam. Namun recall spam yang rendah menunjukkan bahwa kinerja SVM dalam mengenali email spam lebih rendah dari kNN dan NBC.
Metode k Nearest Neighbor (kNN) menghasilkan recall spam yang cukup tinggi, yaitu sebesar 0.93 meskipun masih di bawah recall spam NBC. Precision spam kNN pun cukup tinggi yaitu sebesar 0.87, namun juga masih di bawah precision spam SVM. Untuk F-measure spam kNN menghasilkan nilai tertinggi dibandingkan dengan f-measure spam SVM dan NBC yaitu sebesar 0.90.
Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall spam yang lebih tinggi dari recall spam SVM dan kNN yaitu sebesar 0.99. Namun, precision spam yang dihasilkan sangat rendah yaitu sebesar 0.56. Hal ini menyebabkan nilai f- measure spam yang dihasilkan oleh metode NBC ini menjadi rendah, yaitu sebesar 0.72.
Nilai recall spam NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih baik dari SVM dan kNN. Hal ini juga sangat penting mengingat kerugian yang banyak terjadi akibat banyaknya email spam yang dikenali sebagai email ham sebagaimana disebutkan pada latar belakang penelitian. Namun precision spam yang sangat rendah menunjukkan bahwa kemampuan NBC dalam mengenali email ham lebih rendah dari SVM dan kNN sehingga banyak email ham yang dikenali sebagai email spam.
m B
4
m B
S k N
Graf metode Supp Bayes Class
4.2.2 Rec Beriku metode Supp Bayes Class
SVM kNN NBC
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
fik hasil per pport Vector
ifier (NBC)
Gambar 2
call, Preci
ut adalah tab pport Vector ifier (NBC)
T
Re 0.
0.
0.
SVM
rhitungan n re Machines digambarka
22 Grafik Nila
ision dan
bel recall, pr r Machines
:
Tabel 7 Recall,
Recall Ham 98 86 24
kNN
nilai recall, s (SVM), k an seperti di
i Recall, Preci
n F-meas recision dan
(SVM), k
, Precision dan
Pre 0.80 0.92 0.97
N N
precision d Nearest Ne bawah ini :
ision dan F-me
ure Ham
f-measure s Nearest Ne
n F-measure H
ecision Ham 0
2 7
NBC
dan f-measu eighbor (kN
easure Spam
spam yang d ighbor (kNN
Ham
m F‐me
0.88 0.89 0. 38
Recall Sp Precision F‐Measu
ure spam d NN) dan Naï
dihasilkan ol N) dan Naï
easureHam
pam n Spam
re Spam
ari ïve
leh ïve
Berdasarkan tabel di atas, nilai recall ham tertinggi dihasilkan oleh metode SVM yaitu sebesar 0.98, precision ham tertinggi dihasilkan oleh metode NBC yaitu sebesar 0.97, sedangkan f-measure ham tertinggi dihasilkan oleh metode kNN yaitu sebesar 0.89.
Metode Support Vector Machines (SVM) menghasilkan nilai recall ham yang sangat tinggi, yaitu sebesar 0.98.. Namun, precision ham yang dihasilkan SVM lebih rendah dari precision ham hasil kNN dan NBC yaitu sebesar 0.80. Nilai f-measure ham yang dihasilkan oleh metode SVM cukup tinggi, yaitu sebesar 0.88, meskipun masih di bawah f-measureham kNN.
Nilai recall ham SVM yang lebih tinggi dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenali email ham lebih baik dari kNN dan NBC. Hal ini berarti proporsi email ham yang dikenali sebagai email spam lebih rendah dari kNN dan NBC. Namun nilai precision ham SVM yang lebih rendah dari kNN dan NBC menunjukkan bahwa kinerja SVM dalam mengenaliemail spam tidak lebih baik dari kNN dan NBC.
Metode k Nearest Neighbor (kNN) menghasilkan nilai recall ham yang cukup tinggi yaitu sebesar 0.86 meskipun masih di bawah recall ham SVM. Precision ham yang dihasilkan metode kNN pun cukup tinggi yaitu sebesar 0.92 meskipun masih di bawah precision ham NBC. Sedangkan nilai f-measure ham yang dihasilkan kNN lebih tinggi dari f-measure ham SVM dan NBC yaitu sebesar 0.89.
Metode Naïve Bayes Classifier (NBC) menghasilkan nilai recall ham yang sangat rendah yaitu sebesar 0.24. Namun, nilai precision ham yang dihasilkan NBC sangat tinggi, yaitu sebesar 0.97, lebih tinggi dari precision ham SVM dan kNN.
Sedangkan nilai f-measure ham yang dihasilkan NBC ini cukup rendah, yaitu sebesar 0.38.
Nilai precision ham NBC yang lebih tinggi dari SVM dan kNN menunjukkan bahwa kinerja NBC dalam mengenali email spam lebih tinggi dari SVM dan kNN.
Sementara dalam mengenali email ham kinerja NBC sangat rendah jika dibandingkan dengan SVM dan kNN. Hal ini ditunjukkan oleh rendahnya nilai recall ham yang dihasilkan oleh NBC.
Secara keseluruhan, hasil perhitungan nilai recall, precision dan f-measure ham yang dihasilkan oleh metode Support Vector Machines (SVM), k Nearest Neighbor (kNN) dan Naïve Bayes Classifier (NBC) digambarkan dalam grafik di bawah ini :
p y e p
e m m
Hasi pengenalan yang lebih t email spam precision ha Hal t email ham.
menyebabka melakukan p
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Gambar 2
l penelitian email ham.
tinggi dari m NBC menu am yang lebi tersebut dap Ketersebara an hyperpla pengelompok
SVM
23 Grafik Nila
ini menunj Hal ini ditun metode kNN
unjukkan has ih tinggi dari at disebabka an data ema
ane yang kkan email s
kNN
i Recall, Preci
njukkan bah njukkan oleh
dan NBC. S sil yang leb i SVM dan k an karena str ail spam yan
dihasilkan spam sebaik
N N
ision dan F-me
hwa SVM le h nilai preci Sedangkan d
ih baik deng kNN.
ruktur email ng lebih kom
oleh algor k pengelompo
NBC
easure Spam
ebih baik d ision spam d dalam konte
gan nilai re
spam lebih mpleks pada ritma SVM
okkan email
Recall H Precisio F‐Measu
dalam konte dan recall ha
ks pengenal call spam d
kompleks d a ruang vect
tidak dap l ham.
am n Ham ure Ham
eks am lan dan
ari tor pat
Hasil penelitian ini berbeda dengan beberapa hasil penelitian sebelumnya yang telah disebutkan pada Bab I. Hal ini dapat disebabkan oleh beberapa faktor berikut :
1. Perbedaan jenis dan jumlah feature yang digunakan baik dalam proses training maupun testing.
2. Perbedaan dalam teknik pre-processing data.
3. Perbedaan dalam teknik pembobotan data.
4. Perbedaan jenis kernel yang digunakan.