• Tidak ada hasil yang ditemukan

Aplikasi Training Sets dan Testing Sets

WEKA merupakan aplikasi open source berbasis java yang memiliki dua macam

interface, berupa Simple Command Line Interface (CLI) dan Graphical User Interface

(GUI) dengan 3 pilihan, yaitu Explorer, Experimenter, dan Knowledge Flow. Gambar

3.5 berikut menunjukkan tampilan WEKA 3.7.8.

Gambar 3.5. Interface WEKA 3.7.8

Untuk memperoleh confusion matrix, penulis menggunakan menu Explorer pada WEKA GUI Chooser dan melalui dua tahapan, yaitu Preprocess dan Classify. Tahapan Preprocess bertujuan untuk memilih data set *.arff (attribute relation file

format) yang digunakan dalam penelitian, misalnya diabetes.arff. Gambar 3.6

Preprocess, juga terlihat detail atribut dan banyaknya kelas setelah file diabetes.arff dipilih. Jika dipilih atribut kelas, maka menampilkan detail atribut kelas, yaitu kelas

“tested negative” sebanyak 500 instances dan kelas “tested positive” sebanyak 268

instances beserta nilai weight masing-masing kelas.

Gambar 3.6. Tahapan Preprocess

Langkah berikutnya adalah tahapan Classify. Pada menu Classify, dilakukan pemilihan terhadap teknik klasifikasi pohon keputusan dan k-NN. Tahapan ini juga bertujuan menghasilkan confusion matrix berdasarkan metode evaluasi 10-fold cross

validation, dimana data sets dibagi menjadi 10 subsets (9 subsets sebagai training sets

dan 1 subset sebagai testing set) dengan jumlah 10 kali iterasi. Adapun classifier yang digunakan adalah J4.8 (pohon keputusan) dan Ibk (k-NN).

Gambar 3.7 menunjukkan tahapan Classify untuk menghasilkan confusion

Gambar 3.7. Tahapan Classify 3.4.2. Aplikasi Perhitungan Akurasi

Pada tahap ini, penulis menggunakan aplikasi Confusion Matrix for Accuracy yang dibangun sendiri menggunakan Visual C# versi 2010. Gambar 3.8 menunjukkan tampilan interface aplikasi perhitungan akurasi algoritma pohon keputusan dan k-NN.

Gambar 3.8. InterfaceConfusion Matrix for Accuracy Confusion Matrix

Pada Gambar 3.8 terdapat pilihan [1] TEKNIK KLASIFIKASI dan [2] DATA SETS. Teknik Klasifikasi yang dapat dipilih adalah Decision Tree (Pohon Keputusan) dan k-NN. Untuk data sets, terdapat 5 pilihan berupa BreastCancer, Car, Diabetes,

Ionosphere, dan Iris. Tombol “Tampilkan” digunakan untuk menampilkan confusion

matrix dan tombol “Kalkulasi” digunakan untuk melakukan perhitungan precision,

recall, F-measure, dan success rate. Tombol “Detail” digunakan untuk menampilkan

dan menyembunyikan table of confusion untuk setiap kelas yang ada, berdasarkan

Pada bagian ini, penulis menyajikan hasil dan pembahasan penelitian mengenai analisis akurasi algoritma klasifikasi pohon keputusan dan k-NN terhadap 5 data sets, yaitu BreastCancer, Car, Diabetes, Ionosphere, dan Iris berdasarkan confusion

matrix. Penulis juga melakukan perbandingan terhadap kedua macam teknik

klasifikasi tersebut melalui pengukuran performance dari sudut pandang akurasi

(Precision, Recall, F-measure, dan Success Rate).

4.1. Data Set BreastCancer

Data Set BreastCancer terdiri dari 286 instances, 10 atributtes, dan 2 classes

(no-recurrence-events dan recurrence-events).

Gambar 4.1 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set BreastCancer.

Pada Gambar 4.1, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 216 data (75.52%) dapat diklasifikasikan dengan benar, sedangkan 70 data (24.48%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.1 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada BreastCancer.arff.

Tabel 4.1. Nilai Akurasi Pohon Keputusan terhadap BreastCancer.arff

Class Precision Recall F-measure Success Rate

no-recurrence-events 0.757 0.960 0.846

75.52 %

recurrence-events 0.742 0.271 0.397

Weighted Average 0.752 0.755 0.713

Gambar 4.2 berikut ini menunjukkan hasil perhitungan akurasi algoritma k-NN terhadap data set BreastCancer.

Pada Gambar 4.2, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 286 data, sebanyak 207 data (72.38%) dapat diklasifikasikan dengan benar, sedangkan 79 data (27.62%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.2 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada BreastCancer.arff.

Tabel 4.2. Nilai Akurasi k-NN terhadap BreastCancer.arff

Class Precision Recall F-measure Success Rate

no-recurrence-events 0.756 0.896 0.820

72.38 %

recurrence-events 0.563 0.318 0.406

Weighted Average 0.699 0.724 0.697

4.2. Data Set Car

Data Set Car terdiri dari 1.728 instances, 7 atributtes, dan 4 classes (unac, acc, good,

dan vgood).

Gambar 4.3 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Car.

Pada Gambar 4.3, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 1.728 data, sebanyak 1.596 data (92.36%) dapat diklasifikasikan dengan benar, sedangkan 132 data (7.64%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.3 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Car.arff.

Tabel 4.3. Nilai Akurasi Pohon Keputusan terhadap Car.arff

Class Precision Recall F-measure Success Rate

unacc 0.972 0.962 0.967 92.36 % acc 0.841 0.867 0.854 good 0.689 0.609 0.646 vgood 0.770 0.877 0.820 Weighted Average 0.924 0.924 0.924

Gambar 4.4 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap

data set Car.

Pada Gambar 4.4, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 1.728 data, sebanyak 1.616 data (93.52%) dapat diklasifikasikan dengan benar, sedangkan 112 data (6.48%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.4 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Car.arff.

Tabel 4.4. Nilai Akurasi k-NN terhadap Car.arff

Class Precision Recall F-measure Success Rate

unacc 0.973 0.998 0.985 93.52 % acc 0.818 0.911 0.862 good 1.000 0.188 0.317 vgood 1.000 0.708 0.829 Weighted Average 0.940 0.935 0.925

4.3. Data Set Diabetes

Data Set Diabetes terdiri dari 768 instances, 9 atributtes, dan 2 classes

(tested_negative dan tested_positive).

Gambar 4.5 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Diabetes.

Gambar 4.5. Perhitungan Akurasi Pohon Keputusan terhadap Diabetes.arff

Pada Gambar 4.5, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 768 data, sebanyak 567 data (73.83%) dapat diklasifikasikan dengan benar, sedangkan 201 data (26.17%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.5 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Diabetes.arff.

Tabel 4.5. Nilai Akurasi Pohon Keputusan terhadap Diabetes.arff

Class Precision Recall F-measure Success Rate

tested_negative 0.790 0.814 0.802

73.83 %

tested_positive 0.632 0.597 0.614

Weighted Average 0.735 0.738 0.736

Gambar 4.6 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap

Gambar 4.6. Perhitungan Akurasi k-NN terhadap Diabetes.arff

Pada Gambar 4.6, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 768 data, sebanyak 539 data (70.18%) dapat diklasifikasikan dengan benar, sedangkan 229 data (29.82%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.6 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Diabetes.arff.

Tabel 4.6. Nilai Akurasi k-NN terhadap Diabetes.arff

Class Precision Recall F-measure Success Rate

tested_negative 0.759 0.794 0.776

70.18 %

tested_positive 0.580 0.530 0.554

Weighted Average 0.696 0.702 0.698

4.4. Data Set Ionosphere

Data Set Ionosphere terdiri dari 351 instances, 35 atributtes, dan 2 classes

Gambar 4.7 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Ionosphere.

Gambar 4.7. Perhitungan Akurasi Pohon Keputusan terhadap Ionosphere.arff

Pada Gambar 4.7, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 351 data, sebanyak 321 data (91.45%) dapat diklasifikasikan dengan benar, sedangkan 30 data (8.55%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.7 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Ionosphere.arff.

Tabel 4.7. Nilai Akurasi Pohon Keputusan terhadap Ionosphere.arff

Class Precision Recall F-measure Success Rate

bad 0.929 0.825 0.874

91.45 %

good 0.908 0.964 0.935

Weighted Average 0.915 0.915 0.913

Gambar 4.8 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap

Gambar 4.8. Perhitungan Akurasi k-NN terhadap Ionosphere.arff

Pada Gambar 4.8, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 351 data, sebanyak 303 data (86.32%) dapat diklasifikasikan dengan benar, sedangkan 48 data (13.68%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.8 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Ionosphere.arff.

Tabel 4.8. Nilai Akurasi k-NN terhadap Ionosphere.arff

Class Precision Recall F-measure Success Rate

bad 0.924 0.675 0.780

86.32 %

good 0.842 0.969 0.901

Weighted Average 0.871 0.863 0.857

4.5. Data Set Iris

Data Set Iris terdiri dari 150 instances, 5 atributtes, dan 3 classes (Iris-setosa,

Gambar 4.9 berikut ini menunjukkan hasil perhitungan akurasi algoritma pohon keputusan terhadap data set Iris.

Gambar 4.9. Perhitungan Akurasi Pohon Keputusan terhadap Iris.arff

Pada Gambar 4.9, terlihat confusion matrix dan table of confusion dari pengujian pohon keputusan dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 144 data (96%) dapat diklasifikasikan dengan benar, sedangkan 6 data (4%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.9 menunjukkan hasil pengukuran akurasi algoritma pohon keputusan pada Iris.arff.

Tabel 4.9. Nilai Akurasi Pohon Keputusan terhadap Iris.arff

Class Precision Recall F-measure Success Rate

Iris-setosa 1.000 0.980 0.990

96.00 %

Iris-versicolor 0.940 0.940 0.940

Iris-virginica 0.941 0.960 0.950

Gambar 4.10 berikut ini menunjukkan hasil perhitungan akurasi k-NN terhadap data set Iris.

Gambar 4.10. Perhitungan Akurasi k-NN terhadap Iris.arff

Pada Gambar 4.10, terlihat confusion matrix dan table of confusion dari pengujian k-NN dengan metode 10-fold cross validation. Berdasarkan gambar tersebut, dapat dijelaskan bahwa dari total 150 data, sebanyak 143 data (95.33%) dapat diklasifikasikan dengan benar, sedangkan 7 data (4.67%) salah diklasifikasikan.

Dengan menggunakan persamaan (2.6), (2.7), (2.8), (2.9), dan (2.10), dihitung nilai precision, recall, dan F-measure. Tabel 4.10 menunjukkan hasil pengukuran akurasi algoritma k-NN pada Iris.arff.

Tabel 4.10. Nilai Akurasi k-NN terhadap Iris.arff

Class Precision Recall F-measure Success Rate

Iris-setosa 1.000 1.000 1.000

95.33 %

Iris-versicolor 0.922 0.940 0.931

Iris-virginica 0.939 0.920 0.929

Dokumen terkait