BAB IV HASIL PENELITIAN DAN PEMBAHASAN
4.2 Pembahasan Hasil Penelitian
4.2.3 Pengujian Metode Dengan RapidMiner
Langkah selanjutnya yang dilakukan setelah menghitung denga Ms. Excel yakni mengimplementasikan metode algoritma
naive bayes menggunakan tools RapidMiner. RapidMiner
merupakan salah satu software pengolah data yang mempunyai tingkat perhitungan terbaik dalam mengklasifikasi dan memprediksi data mining dengan cepat dan akurat. Berikut tahapan dalam proses implementasi metode naive bayes menggunakan RapidMiner.
1. Proses import data
Pada tahap ini, data penjualan ATK di import kedalam tools
RapidMiner Studio 9.0.003. Dari 1303 data tersebut dijadikan
1000 data training dan 303 data testing pada pengujian pertama. Disini penulis akan melakukan empat kali pengujian dengan RapidMiner sesuai dengan pembahasan pada Bab III.
Gambar 4.2 Import 303 Data Testing
Pada gambar 4.1 dan 4.2 memperlihatkan proses import dari pengujian pertama yakni 1000 data training dan 303 data
testing. Untuk pengujian selanjutnya proses import data sama
dengan pengujian pertama.
Gambar 4.3. Proses Validation
Pada gambar 4.3. diatas memperlihatkan proses validation menggunakan tools RapidMiner dengan deskripsi sebagai berikut:
a. Operator Read Excel, merupakan operator untuk membaca contoh data dari file excel yang ditentukan. Pada operator ini penulis memasukkan data training yang akan dilakukan perhitungan.
b. Operator Naive Bayes, merupakan operator yang menghasilkan model klasifikasi dari metode naive bayes yang digunakan dalam proses perhitungan.
c. Operator Apply Model, merupakan operator yang menerapkan suatu model terlatih pada contoh data yang dilakukan perhitungan.
d. Operator Performance, merupakan operator yang digunakan untuk evaluasi kinerja. Operator ini memberikan daftar nilai kriteria kinerja. Kriteria kinerja ini secara otomatis ditentukan agar sesuai dengan jenis data yang dilakukan perhitungan.
e. Operator Read Excel (2), sama seperti operator read excel operator ini juga membaca contoh data dari file excel hanya saja pada operator ini penulis memasukkan data testing yang akan dilakukan perhitungan.
Seperti pada gambar 4.3 diatas. Masing-masing port pada operator dihubungkan agar dapat dilakukan pengujian dan menghasilkan nilai klasifikasi yang akurat. Penjelasan pada gambar 4.3. diatas merupakan deskripsi dari pengujian pertama yang dilakukan penulis. Untuk pengujian selanjutnya dilakukan hal yang sama seperti pengujian pertama.
4.2.4 Evaluasi dan Validasi Hasil
Masih dalam proses penggunaan tools RapidMiner, setelah proses validasi dalam mengklasifikasi data dilakukan tahap selanjutnya yakni melakukan evaluasi dan validasi hasil dengan melihat hasil dari beberapa perhitungan yang telah diuji sebagai berikut:
1. Confusion Matrix
Merupakan sebuah metode untuk evaluasi yang menggunakan tabel matrix. Evaluasi dengan confusion matrix menghasilkan nilai accurary, recall, dan precision.
2. Kurva ROC/AUC (Area Under Curve)
Recciver Operating Characteristic (ROC Curve) yang
digunakan untuk menghasilkan evaluasi dalam bentuk grafik. Pada kurva yang dihasilkan dari ROC terdapat dua dimensi kurva yakni nilai True Positive (TP) ditempatkan pada sumbu Y dan nilai False Positive (FP) ditempatkan pada sumbu X.
Klasifikasi nilai dari akurasi AUC sendiri dibagi menjadi 5 kelompok antara lain:
a. 0.90-1.00 = Excellent Classification b. 0.80-0.90 = Good Classification c. 0.70-0.80 = Fair Classification d. 0.60-0.70 = Poor Classification e. 0.50-0.60 = Failure 3. Performance Vector
Untuk mengetahui performance vector yang diperoleh, pengujian dilakukan dengan validasi silang. Performance
vector dapat dilihat penjelasannya pada pengujian RapidMiner.
Sesuai dengan yang telah dibahas dalam bab III, proses pengujian dilakukan sebanyak empat kali pengujian dengan total
dataset 1303 data dan dibagi masing-masing pengujian menjadi dua
bagian yakni data training dan data testing. Berikut hasil dari masing-masing pengujian data testing dan data training yang diuji menggunakan tools RapidMiner:
1. Hasil pengujian pertama (1000 data training, 303 data testing) Berikut ini merupakan confusion matrix dari pengujian pertama.
Gambar 4.4 Hasil Accuracy Pengujian Pertama
Diketahui : TP = 104 TN = 182 FP = 0 FN = 17 Accuracy = 𝑇𝑃+𝑇𝑁 (𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁) = 104+182 (104+17+182+0) = 286 303 = 0.94389 x 100 = 94.39%
Pada gambar 4.4 menjelaskan tentang hasil perhitungan
accuracy naive bayes dari pengujian pertama yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai accuracy pengujian pertama sebesar 94.39%. Perhitungan nilai accuracy didapat dari menjumlahkan nilai prediksi TP (true positive) + TN (true
negative) dibagi jumlah data testing yang diuji seperti pada
penjelasan perhitungan diatas.
Gambar 4.5 Hasil Precision Pengujian Pertama
Diketahui : TP = 104 TN = 182 FP = 0 FN = 17 Precision = 𝑇𝑃 (𝑇𝑃+𝐹𝑃) = 104 (104+0) = 104 104 = 1 x 100 = 100%
Pada gambar 4.5 menjelaskan tentang hasil perhitungan
precision naive bayes dari pengujian pertama yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai precision pengujian pertama sebesar 100%. Perhitungan nilai precision didapat dari membagi jumlah data benar yang bernilai positif (true positive/
TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai positif (false positive/ FP) seperti pada penjelasan perhitungan diatas.
Gambar 4.6 Hasil Recall Pengujian Pertama Diketahui : TP = 104 TN = 182 FP = 0 FN = 17 Recall = 𝑇𝑃 (𝑇𝑃+𝐹𝑁) = 104 (104+17) = 104 121 = 0.85950 x 100 = 85.95%
Pada gambar 4.6 menjelaskan tentang hasil perhitungan
recall naive bayes dari pengujian pertama yang dilakukan pada tools RapidMiner. Terlihat bahwa nilai recall pengujian pertama
sebesar 85.95%. Perhitungan nilai recall didapat dari membagi jumlah data benar yang bernilai positif (true positive/ TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai negatif (false negative/ FN) seperti pada penjelasan perhitungan diatas.
Gambar 4.7 Hasil Kurva ROC/AUC Pengujian Pertama
Gambar 4.7 menjelaskan hasil dari pengujian pertama menggunakan RapidMiner yang menghasilkan prediksi kurva
AUC sebesar 1.00 yang termasuk dalam kategori klasifikasi sangat baik (Excellent Classification).
Gambar 4.8 Performance Vector Pengujian Pertama
Gambar 4.9 Result History Pengujian Pertama
2. Hasil pengujian kedua (900 data training, 403 data testing) Berikut ini merupakan confusion matrix dari pengujian kedua.
Diketahui : TP = 111 TN = 289 FP = 3 FN = 0 Accuracy = 𝑇𝑃+𝑇𝑁 (𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁)
=
111+289 (111+3+289+0)=
400 403 = 0.99255 x 100 = 99.26%Pada gambar 4.10 menjelaskan tentang hasil perhitungan
accuracy naive bayes dari pengujian kedua yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai accuracy pengujian pertama sebesar 99.26%. Perhitungan nilai accuracy didapat dari menjumlahkan nilai prediksi TP (true positive) + TN (true negative) dibagi jumlah data testing yang diuji seperti pada penjelasan perhitungan diatas.
Gambar 4.11 Hasil Precision Pengujian Kedua
Diketahui : TP = 111 TN = 289 FP = 3 FN = 0 Precision = 𝑇𝑃 (𝑇𝑃+𝐹𝑃) = 111 (111+3) = 111 114
= 0.97368 x 100 = 97.37%
Pada gambar 4.11 menjelaskan tentang hasil perhitungan
precision naive bayes dari pengujian kedua yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai precision pengujian pertama sebesar 97.37%. Perhitungan nilai precision didapat dari membagi jumlah data benar yang bernilai positif (true positive/ TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai positif (false positive/ FP) seperti pada penjelasan perhitungan diatas.
Gambar 4.12 Hasil Recall Pengujian kedua
Diketahui : TP = 111 TN = 289 FP = 3 FN = 0 Recall = 𝑇𝑃 (𝑇𝑃+𝐹𝑁) = 111 (111+0) = 111 111 = 1 x 100 = 100%
Pada gambar 4.12 menjelaskan tentang hasil perhitungan
Recall naive bayes dari pengujian kedua yang dilakukan pada tools RapidMiner. Terlihat bahwa nilai recall pengujian
membagi jumlah data benar yang bernilai positif (true positive/
TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai negatif (false negative/ FN) seperti pada penjelasan perhitungan diatas.
Gambar 4.13 Hasil Kurva ROC/AUC pengujian Kedua
Gambar 4.13 menjelaskan hasil dari pengujian kedua menggunakan RapidMiner yang menghasilkan prediksi kurva AUC sebesar 0.997 yang termasuk dalam kategori klasifikasi sangat baik (Excellent Classification).
Gambar 4.14 Performance Vector Pengujian Kedua
Gambar 4.15 Result History Pengujian Kedua
3. Hasil pengujian ketiga (700 data training, 603 data testing) Berikut ini merupakan confusion matrix dari pengujian ketiga.
Gambar 4.16 Hasil Accuracy Pengujian ketiga
Diketahui :
FP = 2 FN = 5 Accuracy = 𝑇𝑃+𝑇𝑁 (𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁) = 171+425 (171+2+425+5) = 596 603 = 0.98839 x 100 = 98.84%
Pada gambar 4.16 menjelaskan tentang hasil perhitungan
accuracy naive bayes dari pengujian ketiga yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai accuracy pengujian pertama sebesar 98.84%. Perhitungan nilai accuracy didapat dari menjumlahkan nilai prediksi TP (true positive) + TN (true negative) dibagi jumlah data testing yang diuji seperti pada penjelasan perhitungan diatas.
Gambar 4.17 Hasil Precision Pengujian ketiga
Diketahui : TP = 171 TN = 425 FP = 2 FN = 5 Precision = 𝑇𝑃 (𝑇𝑃+𝐹𝑃) = 171 (171+2) = 171 173 = 0.98843 x 100 = 98.84%
Pada gambar 4.17 menjelaskan tentang hasil perhitungan
pada tools RapidMiner. Terlihat bahwa nilai precision pengujian pertama sebesar 98.84%. Perhitungan nilai
precision didapat dari membagi jumlah data benar yang
bernilai positif (true positive/ TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai positif (false positive/ FP) seperti pada penjelasan perhitungan diatas.
Gambar 4.18 Hasil Recall Pengujian Ketiga
Diketahui : TP = 171 TN = 425 FP = 2 FN = 5 Recall = 𝑇𝑃 (𝑇𝑃+𝐹𝑁) = 171 (171+5) = 171 176 = 0.97159 x 100 = 97.16%
Pada gambar 4.18 menjelaskan tentang hasil perhitungan
recall naive bayes dari pengujian ketiga yang dilakukan pada tools RapidMiner. Terlihat bahwa nilai recall pengujian
pertama sebesar 97.16%. Perhitungan nilai recall didapat dari membagi jumlah data benar yang bernilai positif (true positive/
positive/ TP) + data salah yang bernilai negatif (false negative/ FN) seperti pada penjelasan perhitungan diatas.
Gambar 4.19 Hasil Kurva ROC/AUC Pengujian Ketiga
Gambar 4.19 menjelaskan hasil dari pengujian ketiga menggunakan RapidMiner yang menghasilkan prediksi kurva AUC sebesar 0.997 yang termasuk dalam kategori klasifikasi sangat baik (Excellent Classification).
Gambar 4.20 Performance Vector Pengujian ketiga
Gambar 4.21 Result History Pengujian ketiga
4. Hasil pengujian keempat (500 data training, 803 data testing) Berikut ini merupakan confusion matrix dari pengujian keempat.
Diketahui : TP = 242 TN = 543 FP = 3 FN = 15 Accuracy = 𝑇𝑃+𝑇𝑁 (𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁) = 242+543 (242+3+543+15) = 785 803 = 0.97758 x 100 = 97.76%
Pada gambar 4.22 menjelaskan tentang hasil perhitungan
accuracy naive bayes dari pengujian keempat yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai accuracy pengujian pertama sebesar 97.76%. Perhitungan nilai accuracy didapat dari menjumlahkan nilai prediksi TP (true positive) + TN (true negative) dibagi jumlah data testing yang diuji seperti pada penjelasan perhitungan diatas.
Gambar 4.23 Hasil Precision Pengujian Keempat
Diketahui : TP = 242 TN = 543
FP = 3 FN = 15
Precision = 𝑇𝑃 (𝑇𝑃+𝐹𝑃) = 242 (242+3) = 242 245 = 0.98775 x 100 = 98.78%
Pada gambar 4.23 menjelaskan tentang hasil perhitungan
precision naive bayes dari pengujian keempat yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai precision pengujian pertama sebesar 98.78%. Perhitungan nilai
precision didapat dari membagi jumlah data benar yang
bernilai positif (true positive/ TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai positif (false positive/ FP) seperti pada penjelasan perhitungan diatas.
Gambar 4.24 Hasil Recall Pengujian Keempat
Diketahui : TP = 242 TN = 543 FP = 3 FN = 15
Recall = 𝑇𝑃 (𝑇𝑃+𝐹𝑁) = 242 (242+15) = 242 257 = 0.94163 x 100 = 94.16%
Pada gambar 4.24 menjelaskan tentang hasil perhitungan
recall naive bayes dari pengujian keempat yang dilakukan
pada tools RapidMiner. Terlihat bahwa nilai recal pengujian pertama sebesar 94.16%. Perhitungan nilai recall didapat dari membagi jumlah data benar yang bernilai positif (true positive/
TP) dibagi dengan jumlah data benar bernilai positif (true positive/ TP) + data salah yang bernilai negatif (false negative/ FN) seperti pada penjelasan perhitungan diatas.
Gambar 4.25 Hasil Kurva ROC/AUC Pengujian Keempat
Gambar 4.25 menjelaskan hasil dari pengujian keempat menggunakan RapidMiner yang menghasilkan prediksi kurva AUC sebesar 0.994 yang termasuk dalam kategori klasifikasi sangat baik (Excellent Classification).
Gambar 4.26 Performance Vector Pengujian Keempat
Gambar 4.27 Result History Pengujian Keempat
Berikut analisa hasil pengujian menggunakan tools RapidMiner:
Tabel 4.19 Hasil Pengujian dengan RapidMiner
Pengujian Accuracy Precision Recall AUC
1 94.39% 100% 85.95% 1.00
2 99.26% 97.37% 100% 0.997
3 98.84% 98.84% 97.16% 0.997
Berdasarkan Tabel 4.19 diatas dapat dilihat bahwa terdapat peningkatan dan penurunan hasil prediksi accuracy dari total dataset 1303 data yang telah diujikan. Dari hasil yang diperoleh dapat dilihat bahwa hasil accuracy dari pengujian pertama lalu dilanjutkan pada pengujian kedua mengalami peningkatan kurang lebih sebesar 5% namun di pengujian selanjutnya berangsur menurun masing-masing 1% . Dari keempat pengujian, hasil pengujian dengan nilai accuracy tertinggi yakni pada pengujian kedua sebesar 99.26% dan nilai
accuracy terendah yakni pada pengujian pertama sebesar 94.39%.
Sama halnya dengan hasil accuracy, hasil precision dan recall dari keempat pengujian yang dilakukan juga mengalami peningkatan serta penurunan nilai prediksi. Namun pada hasil kurva AUC hasil dari keempat pengujian termasuk dalam kategori klasifikasi sangat baik (excellent classification).