WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam
interface, berupa Simple Command Line Interface (CLI) dan Graphical User Interface
(GUI) dengan 3 pilihan, yaitu Explorer, Experimenter, dan Knowledge Flow. Gambar
3.5 berikut menunjukkan tampilan WEKA 3.7.8.
Gambar 3.5. Interface WEKA 3.7.8
Untuk memperoleh confusion matrix, penulis menggunakan menu Explorer pada WEKA GUI Chooser dan melalui dua tahapan, yaitu Preprocess dan Classify. Tahapan Preprocess bertujuan untuk memilih data set *.arff (attribute relation file
format) yang digunakan dalam penelitian, misalnya diabetes.arff. Gambar 3.6
Preprocess, juga terlihat detail atribut dan banyaknya kelas setelah file diabetes.arff dipilih. Jika dipilih atribut kelas, maka menampilkan detail atribut kelas, yaitu kelas
“tested negative” sebanyak 500 instances dan kelas “tested positive” sebanyak 268
instances beserta nilai weight masing-masing kelas.
Gambar 3.6. Tahapan Preprocess
Langkah berikutnya adalah tahapan Classify. Pada menu Classify, dilakukan pemilihan terhadap teknik klasifikasi pohon keputusan dan k-NN. Tahapan ini juga bertujuan menghasilkan confusion matrix berdasarkan metode evaluasi 10-fold cross
validation, dimana data sets dibagi menjadi 10 subsets (9 subsets sebagai training sets
dan 1 subset sebagai testing set) dengan jumlah 10 kali iterasi. Adapun classifier yang digunakan adalah J4.8 (pohon keputusan) dan Ibk (k-NN).
Gambar 3.7 menunjukkan tahapan Classify untuk menghasilkan confusion
Gambar 3.7. Tahapan Classify 3.4.2. Aplikasi Perhitungan Akurasi
Pada tahap ini, penulis menggunakan aplikasi Confusion Matrix for Accuracy yang dibangun sendiri menggunakan Visual C# versi 2010. Gambar 3.8 menunjukkan tampilan interface aplikasi perhitungan akurasi algoritma pohon keputusan dan k-NN.
Gambar 3.8. InterfaceConfusion Matrix for Accuracy Confusion Matrix
Pada Gambar 3.8 terdapat pilihan [1] TEKNIK KLASIFIKASI dan [2] DATA SETS. Teknik Klasifikasi yang dapat dipilih adalah Decision Tree (Pohon Keputusan) dan k-NN. Untuk data sets, terdapat 5 pilihan berupa BreastCancer, Car, Diabetes,
Ionosphere, dan Iris. Tombol “Tampilkan” digunakan untuk menampilkan confusion
matrix dan tombol “Kalkulasi” digunakan untuk melakukan perhitungan precision,
recall, F-measure, dan success rate. Tombol “Detail” digunakan untuk menampilkan
dan menyembunyikan table of confusion untuk setiap kelas yang ada, berdasarkan
Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai analisis akurasi algoritma klasifikasi pohon keputusan dan k-NN terhadap 5 data sets, yaitu BreastCancer, Car, Diabetes, Ionosphere, dan Iris berdasarkan confusion
matrix. Penulis juga melakukan perbandingan terhadap kedua macam teknik
klasifikasi tersebut melalui pengukuran performance dari sudut pandang akurasi
(Precision, Recall, F-measure, dan Success Rate).
4.1. Data Set BreastCancer
Data Set BreastCancer terdiri dari 286 instances, 10 atributtes, dan 2 classes
(no-recurrence-events dan recurrence-events).
Gambar 4.1 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set BreastCancer.
Pada Gambar 4.1, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 216 data (75.52%) dapat diklasifikasikan dengan benar, sedangkan 70 data (24.48%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.1 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada BreastCancer.arff.
Tabel 4.1. Nilai Akurasi Pohon Keputusan terhadap BreastCancer.arff
Class Precision Recall F-measure Success Rate
no-recurrence-events 0.757 0.960 0.846
75.52 %
recurrence-events 0.742 0.271 0.397
Weighted Average 0.752 0.755 0.713
Gambar 4.2 berikut ini menunjukkan hasil perhitungan akurasi algoritma k-NN terhadap data set BreastCancer.
Pada Gambar 4.2, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 207 data (72.38%) dapat diklasifikasikan dengan benar, sedangkan 79 data (27.62%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.2 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada BreastCancer.arff.
Tabel 4.2. Nilai Akurasi k-NN terhadap BreastCancer.arff
Class Precision Recall F-measure Success Rate
no-recurrence-events 0.756 0.896 0.820
72.38 %
recurrence-events 0.563 0.318 0.406
Weighted Average 0.699 0.724 0.697
4.2. Data Set Car
Data Set Car terdiri dari 1.728 instances, 7 atributtes, dan 4 classes (unac, acc, good,
dan vgood).
Gambar 4.3 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Car.
Pada Gambar 4.3, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 1.728 data, sebanyak 1.596 data (92.36%) dapat diklasifikasikan dengan benar, sedangkan 132 data (7.64%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.3 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Car.arff.
Tabel 4.3. Nilai Akurasi Pohon Keputusan terhadap Car.arff
Class Precision Recall F-measure Success Rate
unacc 0.972 0.962 0.967 92.36 % acc 0.841 0.867 0.854 good 0.689 0.609 0.646 vgood 0.770 0.877 0.820 Weighted Average 0.924 0.924 0.924
Gambar 4.4 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap
data set Car.
Pada Gambar 4.4, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 1.728 data, sebanyak 1.616 data (93.52%) dapat diklasifikasikan dengan benar, sedangkan 112 data (6.48%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.4 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Car.arff.
Tabel 4.4. Nilai Akurasi k-NN terhadap Car.arff
Class Precision Recall F-measure Success Rate
unacc 0.973 0.998 0.985 93.52 % acc 0.818 0.911 0.862 good 1.000 0.188 0.317 vgood 1.000 0.708 0.829 Weighted Average 0.940 0.935 0.925
4.3. Data Set Diabetes
Data Set Diabetes terdiri dari 768 instances, 9 atributtes, dan 2 classes
(tested_negative dan tested_positive).
Gambar 4.5 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Diabetes.
Gambar 4.5. Perhitungan Akurasi Pohon Keputusan terhadap Diabetes.arff
Pada Gambar 4.5, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 768 data, sebanyak 567 data (73.83%) dapat diklasifikasikan dengan benar, sedangkan 201 data (26.17%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.5 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Diabetes.arff.
Tabel 4.5. Nilai Akurasi Pohon Keputusan terhadap Diabetes.arff
Class Precision Recall F-measure Success Rate
tested_negative 0.790 0.814 0.802
73.83 %
tested_positive 0.632 0.597 0.614
Weighted Average 0.735 0.738 0.736
Gambar 4.6 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap
Gambar 4.6. Perhitungan Akurasi k-NN terhadap Diabetes.arff
Pada Gambar 4.6, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 768 data, sebanyak 539 data (70.18%) dapat diklasifikasikan dengan benar, sedangkan 229 data (29.82%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.6 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Diabetes.arff.
Tabel 4.6. Nilai Akurasi k-NN terhadap Diabetes.arff
Class Precision Recall F-measure Success Rate
tested_negative 0.759 0.794 0.776
70.18 %
tested_positive 0.580 0.530 0.554
Weighted Average 0.696 0.702 0.698
4.4. Data Set Ionosphere
Data Set Ionosphere terdiri dari 351 instances, 35 atributtes, dan 2 classes
Gambar 4.7 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Ionosphere.
Gambar 4.7. Perhitungan Akurasi Pohon Keputusan terhadap Ionosphere.arff
Pada Gambar 4.7, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 351 data, sebanyak 321 data (91.45%) dapat diklasifikasikan dengan benar, sedangkan 30 data (8.55%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.7 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Ionosphere.arff.
Tabel 4.7. Nilai Akurasi Pohon Keputusan terhadap Ionosphere.arff
Class Precision Recall F-measure Success Rate
bad 0.929 0.825 0.874
91.45 %
good 0.908 0.964 0.935
Weighted Average 0.915 0.915 0.913
Gambar 4.8 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap
Gambar 4.8. Perhitungan Akurasi k-NN terhadap Ionosphere.arff
Pada Gambar 4.8, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 351 data, sebanyak 303 data (86.32%) dapat diklasifikasikan dengan benar, sedangkan 48 data (13.68%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.8 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Ionosphere.arff.
Tabel 4.8. Nilai Akurasi k-NN terhadap Ionosphere.arff
Class Precision Recall F-measure Success Rate
bad 0.924 0.675 0.780
86.32 %
good 0.842 0.969 0.901
Weighted Average 0.871 0.863 0.857
4.5. Data Set Iris
Data Set Iris terdiri dari 150 instances, 5 atributtes, dan 3 classes (Iris-setosa,
Gambar 4.9 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Iris.
Gambar 4.9. Perhitungan Akurasi Pohon Keputusan terhadap Iris.arff
Pada Gambar 4.9, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 144 data (96%) dapat diklasifikasikan dengan benar, sedangkan 6 data (4%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.9 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Iris.arff.
Tabel 4.9. Nilai Akurasi Pohon Keputusan terhadap Iris.arff
Class Precision Recall F-measure Success Rate
Iris-setosa 1.000 0.980 0.990
96.00 %
Iris-versicolor 0.940 0.940 0.940
Iris-virginica 0.941 0.960 0.950
Gambar 4.10 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap data set Iris.
Gambar 4.10. Perhitungan Akurasi k-NN terhadap Iris.arff
Pada Gambar 4.10, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 143 data (95.33%) dapat diklasifikasikan dengan benar, sedangkan 7 data (4.67%) salah diklasifikasikan.
Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.10 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Iris.arff.
Tabel 4.10. Nilai Akurasi k-NN terhadap Iris.arff
Class Precision Recall F-measure Success Rate
Iris-setosa 1.000 1.000 1.000
95.33 %
Iris-versicolor 0.922 0.940 0.931
Iris-virginica 0.939 0.920 0.929