Model Selection and Validation
•
Ketika bekerja dengan model-model machine learning, maka terdapat dua problem
yang timbul:
• Memilih model
• Bagaimana memilih parameter model yang optimal?
• Validasi
• Ketika kita sudah memilih suatu model, maka bagaimana menentukan tingkat kesalahan sebenarnya (true error rate)?
• Apabila kita memiliki data yang tidak terbatas, maka pilih model yang memiliki tingkat kesalahan terkecil (yang merupakan tingkat kesalahan sebenarnya)
The Holdout Method
•
Membagi data menjadi dua:
• Data training
• Data testing
•
Problem:
• Bagaimana jika pembagian data training (atau testing) mendapatkan yang data lebih mudah/sulit? (unfortunate split)
• Akibatnya prediksi error menjadi tidak valid
•
Metode lain yang dapat digunakan:
Cross Validation (CV): k-fold CV
• Prosedur k-fold CV:
1. Membagi data menjadi � grup secara random 2. Untuk setiap grup: � = , , … , �
• Gunakan grup, selain grup ke-�, untuk membentuk model
• Ujikan model yang terbentuk pada grup ke-� yang berguna sebagai data testing
• Hitung error untuk uji model pada data testing ��
• Drop semua model (�) yang terbentuk
• Estimasi error diperoleh: � = 1
�σ�=1� ��
• Umumnya, digunakan � = 5 atau
• The advantage of K-Fold Cross validation is that all the examples in the dataset
are eventually used for both training and testing
Bagian bewarna abu merupakan
Leave-One-Out CV (LOOCV)
•
Untuk data dengan
�
data, maka:
• Data training menggunakan sebanyak
� − data, sementara untuk uji digunakan hanya satu data saja
• Akan terdapat sebanyak � model
• Hitung error untuk setiap percobaan ��
•
Estimasi error:
� =
� 
�=1 �