BAB II LANDASAN TEORI
2.2 Tinjauan Pustaka
2.2.6 Teknik Evaluasi dan Validasi
Keseluruhan akurasi pada pengujian dataset umumnya digunakan untuk mengevaluasi kinerja pengklasifikasi (Zhang & Wang, 2011). Tetapi untuk data yang tidak seimbang, akurasi yang mendalam didominasi oleh kelas minoritas, sehingga alternatif evaluasi metrik digunakan. Metrik evaluasi yang tepat termasuk Area Under the ROC (Receiver Operating Characteristic) Curve (AUC), F-Measure, Geometric Mean (G-Mean), semua akurasi dan rata-rata akurasi untuk kelas minoritas. Untuk melakukan evaluasi dan validasi terhadap model yang diusulkan, maka dilakukan beberapa pengujian menggunakan
confusion matrix.
2.2.6.1 K-Fold Cross Validation
Cross validaton adalah metode statistik untuk mengevaluasi dan
membandingkan algoritma pembelajaran (learning algorithms) dengan membagi data menjadi dua segmen, satu segmen digunakan untuk belajar atau data latih, dan yang lain digunakan untuk memvalidasi model (Refaeilzadeh, Tang, & Liu, 2009, p. 532). Dalam cross validation kumpulan pelatihan dan validasi harus
crossover berturut-turut sehingga setiap data memiliki kesempatan tervalidasi.
K-fold cross validation adalah teknik umum untuk memperkirakan kinerja pengklasifikasi. K-fold cross validation dilakukan dengan menggunakan kembali dataset yang sama, sehingga menghasilkan k perpecahan dari kumpulan data menjadi non-overlapping dengan proporsi pelatihan (k-1)/k dan 1/k untuk pengujian (Korb & Nicholson, 2011, p. 213).
Misalnya diberikan sekumpulan m data latih, dan menjalankan k-fold cross
validation mengikuti proses berikut ini:
1. Mengatur contoh pelatihan dalam urutan acak.
2. Membagi data latih menjadi k lipatan. (k potongan masing-masing sekitar m/k data latih).
3. For i = 1; : : : ; k:
ο· Latih pengklasifikasi menggunakan semua data latih yang bukan milik potongan ke-i.
ο· Uji pengklasifikasi dari semua data latih menggunakan potongan ke-i.
66
ο· Hitung ni, jumlah dari data latih dalam potongan ke-i yang diklasifikasikan salah.
4. Kembalikan perkiraan kesalahan pengklasifikasi sesuai rumus:
πΈ = βππ=1ππ
π (2. 39)
Untuk mendapatkan perkiraan yang akurat dari pengklasifikasi, k-fold cross
validation dijalankan beberapa kali, masing-masing dengan pengaturan acak yang
berbeda pada langkah 1. Misalnya E1; :::, Et menjadi perkiraan akurasi yang diperoleh t proses. Didefinisikan:
π =β πΈπ π‘ π=1 π‘ (2. 40) π =β (πΈπβπ) 2 π‘ π=1 π‘β1 (2. 41) π = βπ (2. 42)
Perkiraan kinerja algoritma adalah kesalahan e dengan standar deviasi π. Berdasarkan pengujian yang luas dengan berbagai dataset yang berbeda, dan teknik belajar yang berbeda, telah menunjukkan bahwa 10 merupakan jumlah lipatan yang tepat (Witten, Frank, & Hall, 2011, p. 153). Dengan 10-fold cross
validation, pengukuran hasil dapat lebih akurat karena data yang ada dibagi ke
dalam 10 data dengan jumlah yang sama, kemudian satu persatu diambil untuk pengujian, dan 9 bagian lainnya digunakan untuk pelatihan. Dengan
cross-validation akurasi dari hasil pengukuran data akan lebih terjamin karena
mengurangi kemungkinan data yang tidak konsisten dalam tahap prediksi.
Gambar 2.18 menunjukkan pembagian data pelatihan dan pengujian untuk k bernilai 10, biasa disebut 10-fold cross validation.
67 Gambar 2.18
Pembagian Dataset untuk 10-Fold Cross Validation
Pengujian secara ekstensif pada banyak dataset yang berbeda, dengan teknik pembelajaran yang berbeda, telah menunjukkan bahwa 10 adalah jumlah yang tepat dari lipatan untuk mendapatkan estimasi terbaik dari kesalahan, dan juga ada beberapa bukti teoritis yang mendukung hal ini. Meskipun argumen bukan sebagai kesimpulan, dan perdebatan masih ada dalam machine learning dan lingkup data mining tentang skema apa yang terbaik untuk evaluasi, 10-fold
cross-validation telah menjadi metode standar dalam praktik (Witten, Frank, &
Hall, 2011, p. 153).
2.2.6.2 Confusion Matrix
Untuk mengukur kinerja model digunakan confusion matrix, karena
confusion matrix merupakan alat yang berguna untuk menganalisa seberapa baik
pengklasifikasi dapat mengenali tupel/fitur dari kelas yang berbeda (Han, Kamber, & Pei, 2011, p. 365). Confusion matrix dapat membantu menunjukkan rincian kinerja pengklasifikasi dengan memberikan informasi jumlah fitur suatu kelas yang diklasifikasikan dengan tepat dan tidak tepat (Bramer, 2007, p. 89).
Confusion matrix memberikan penilaian kinerja model klasifikasi berdasarkan
jumlah objek yang diprediksi dengan benar dan salah (Gorunescu, 2011, p. 319).
Confusion matrix merupakan matrik 2 dimensi yang menggambarkan
Split 1 Split 2 Split 3 Split 4 Split 5 Split 6 Split 7 Split 8 Split 9 Split 10
Test Training Test Test Test Test Test Test Test Test Training Test Training Training Training Training Training Training Training Training Training Training Training Data Set Training Training Training Training Training
68
perbandingan antara hasil prediksi dengan kenyataan, ditunjukkan pada Tabel 2.12. Jika nilai prediksi benar dan nilai sebenarnya benar, maka disebut True
Positive (TP). Jika nilai prediksi benar dan nilai sebenarnya salah, maka disebut False Positive (FP). Jika nilai prediksi salah dan nilai sebenarnya benar, maka
disebut False Negative (FN). Jika nilai prediksi salah dan nilai sebenarnya salah, maka disebut True Negative (TN). Hasil yang baik dilihat dari nilai diagonal dari kiri atas (TP) ke kanan bawah (TN) yang tinggi, dan diagonal dari kiri bawah (FP) ke kanan atas (FN) yang rendah.
Tabel 2.12
Confusion Matrix
Kelas Nilai Sebenarnya
Benar Salah
Nilai Prediksi
Benar TP FP
(True Positive) (False Positive)
Salah FN TN
(False Negative) (True Negative)
Setelah dibuat confusion matrix, selanjutnya dihitung nilai akurasi, sensitivitas atau disebut recall atau True Positive Rate (TPrate), specificity (ketegasan) atau disebut True Negative Rate (TNrate), False Positive Rate (FPrate),
False Negative Rate (FNrate), precision atau disebut Positive Predictive Value
(PPV), Negative Predictive Value (NPV), F-Measure, Geometric Mean
(G-Mean), dan Area Under the ROC Curve (AUC). Rumus-rumus yang digunakan
untuk melakukan penghitungannya adalah (Gorunescu, 2011, pp. 320-322):
π΄ππ’πππ π = ππ+ππ ππ + ππ + πΉπ + πΉπ (2. 43) ππππ ππ‘ππ£ππ‘ππ = ππππππ = πππππ‘π = ππ ππ + πΉπ (2. 44) ππππππππππ‘π¦ = πππππ‘π = ππ ππ + πΉπ (2. 45) πΉππππ‘π = πΉπ πΉπ + ππ (2. 46)
69 πΉππππ‘π = πΉπ ππ + πΉπ (2. 47) ππππππ πππ = πππ = ππ ππ + πΉπ (2. 48) πππ = ππ ππ + πΉπ (2. 49) πΉ β ππππ π’ππ = (1+π½2) π₯ ππππππ π₯ ππππππ πππ (π½ π₯ ππππππ + ππππππ πππ) (2. 50) πΊ β ππππ = βππππ ππ‘ππ£ππ‘ππ π₯ ππππππππππ‘π¦ (2. 51)
Untuk data tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah AUC (Area Under the ROC
Curve), F-Measure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas
minoritas (Zhang & Wang, 2011, p. 85). Akurasi kelas minoritas dapat menggunakan metrik TPrate/recall (sensitivitas). G-Mean dan AUC merupakan evaluasi prediktor yang lebih komprehensif dalam konteks ketidakseimbangan (Wang & Yao, 2013, p. 438). Sedangkan F-Measure adalah metrik evaluasi yang populer untuk masalah ketidakseimbangan. F-Measure mengkombinasikan
recall/sensitivitas dan precision sehingga menghasilkan metrik yang efektif untuk
pencarian kembali informasi dalam himpunan yang mengandung masalah ketidakseimbangan. F-Measure juga bergantung pada faktor Ξ², yaitu parameter yang bernilai dari 0 sampai tak terhingga, dan digunakan untuk mengontrol pengaruh dari recall dan precision secara terpisah. Ini dapat menunjukkan bahwa ketika Ξ² bernilai 0, maka pengaruh precision terhadap F-Measure berkurang, dan sebaliknya, ketika Ξ² bernilai tak terhingga, maka pengaruh recall berkurang.
Ketika Ξ² bernilai 1, maka F-Measure terlihat sebagai integrasi kedua ukuran secara seimbang. Secara prinsip, F-Measure merepresentasikan rata-rata harmonis antara recall dan precision.
πΉ β ππππ π’ππ = 2 π₯ ππππππ π₯ ππππππ πππ
70
Rata-rata harmonis dari dua angka cenderung lebih dekat dengan yang lebih kecil dari keduanya. Oleh karena itu nilai F-Measure yang tinggi menjamin bahwa keduanya dari recall dan precision bernilai cukup tinggi.
2.2.6.3 Area Under the ROC (Receiver Operating Characteristic) Curve
Untuk dapat melihat akurasi secara manual dilakukan perbandingan klasifikasi menggunakan curva ROC hasil eksperesi dari confusion matrix. ROC menghasilkan dua garis dengan bentuk true positives sebagai garis vertikal dan
false positives sebagai garis horizontal (Vercellis, 2009, p. 233). Kurva ROC
adalah grafik antara sensitivitas (true positive rate) pada sumbu Y dengan 1-spesifisitas pada sumbu X (false positive rate), curve ROC ini seakan-akan menggambarkan tawar-menawar antara sumbu Y atau sensitivitas dengan sumbu X atau spesifisitas.
Nilai dari kurva ROC ini diharapkan mempunyai nilai yang akurat dalam uji kuantitas dalam sebuah pengujian kasus. Menentukan nilai cut off pada uji
diagnostic yang bersifat kontinyu dan membandingkan kualitas dari dua atau lebih
uji diagnostic.
Untuk menentukan model mana yang memiliki kinerja terbaik, maka dibutuhkan satu ukuran yang mewakili kinerja dari setiap model. Area Under the
ROC (Receiver Operating Characteristic) Curve (AUROC atau AUC) adalah
ukuran numerik untuk membedakan kinerja model, dan menunjukkan seberapa sukses dan benar peringkat model dengan memisahkan pengamatan positif dan negatif (Attenberg & Ertekin, 2013, p. 114). AUC menyediakan ukuran tunggal dari kinerja pengklasifikasi untuk menilai model mana yang lebih baik secara rata-rata (LΓ³pez, FernΓ‘ndez, & Herrera, 2014, p. 4). AUC merangkum informasi kinerja pengklasifikasi ke dalam satu angka yang mempermudah perbandingan model ketika tidak ada kurva ROC yang mendominasi (Weiss G. M., 2013, p. 27). AUC adalah cara yang baik untuk mendapatkan nilai kinerja pengklasifikasi secara umum dan untuk membandingkannya dengan pengklasifikasi yang lain (Japkowicz, 2013, p. 202). AUC adalah ukuran kinerja yang populer dalam ketidakseimbangan kelas, nilai AUC yang tinggi menunjukkan kinerja yang lebih baik (Liu & Zhou, 2013, p. 75). Sehingga untuk memilih model mana yang terbaik, dapat dilakukan dengan menganalisa nilai AUC.
71
AUC dihitung berdasarkan rata-rata perkiraan bidang berbentuk trapesium untuk kurva yang dibuat oleh TPrate dan FPrate (Dubey, Zhou, Wang, Thompson, & Ye, 2014, p. 225). AUC memberikan ukuran kualitas antara nilai positif dan negatif dengan nilai tunggal (Rodriguez, Herraiz, Harrison, Dolado, & Riquelme, 2014, p. 375). Ukuran AUC dihitung sebagai daerah kurva ROC (LΓ³pez, FernΓ‘ndez, & Herrera, 2014, p. 4) (Galar, FernΓ‘ndez, Barrenechea, & Herrera, 2013, p. 3462) menggunakan persamaan 2.53.
π΄ππΆ =1+ πππππ‘πβπΉππππ‘π
2 (2. 53)