Oleh
Deneng Eka Putra 5106100054
Pembimbing Ahmad Saikhu, S.Si, MT
NIP. 132318030
Mengimplementasikan Algoritma variable
predictive models based class
discrimination (VPMCD) sebagai metode
Data observasi yang relatif besar
Menggunakan metode Variable Predictive Model
Metode klasifikasi yang memanfaatkan hubungan antara variabel-variabel (inter-relation variables) dalam suatu objek untuk digunakan membentuk persamaan regresi yang mempunyai kemampuan untuk memprediksi / mengklasifikasikan sampel.
Classifier
Training
Data UnseenData
(a5, b2, c3) kelas? cl2 A B C Kelas a1 b1 c1 cl1 a2 b1 c2 cl1 a3 b2 c3 cl2 a4 b1 c1 cl2
Model yang digunakan untuk membentuk
persamaan VPM adalah :
Liniear (L)Linear Interaction (LI) Quadratic Interaction (QI) Quadratic (Q)
Jumlah suku pada tiap model ditentukan oleh
jumlah variabel prediktor yang digunakan
(order) r
r j j j i b b X X 1 0
r j k k j jk r j r j j j i b b X b X X X 1 1 1 0
r j r j k k j jk r j r j j jj j j i b b X b X b X X X 1 1 1 1 2 0Tipe Model Bentuk Persamaan
Linear Linear Interaction Quadratic Interaction Purequadratic
r j r j j jj j j ib
b
X
b
X
X
1 1 2 0Step 1
• pilih tipe model (L, LI, QI, Q) yang digunakan dan order r Step 2 • pilih himpunan variabel prediktor yang membuat persamaan regresi VPM paling optimum untuk prediksi Step 3 • hitung beta (koefisien tiap variabel prediktor)
Satu persamaan yang dibentuk adalah untuk satu variabel pada kelas
tertentu
Misal suatu objek memiliki g kelas dan p variabel/fitur maka persamaan yang terbentuk sebanyak g x p persamaan
d = p-1 Cr
Misal order (r) = 1 dan jumlah variabel/fitur (p) pada sebuah objek berjumlah 4 maka kemungkinannya adalah sebanyak 3
Variabel yang diprediksi Variabel prediktor X1 X2 X1 X3 X1 X4
Untuk setiap variabel memiliki d kandidat pilihan himpunan prediktor
Dari d kandidat, akan dipilih himpunan variabel prediktor yang memberikan model terbaik dengan melihat nilai SSE.
Hitung selisih kuadrat SSE antara nilai variabel respon yang sebenarnya dengan variabel respon yang diprediksi oleh persamaan regresi. Kemudian pilih himpunan variabel prediktor yang memberikan nilai SSE minimum
Setelah dipilih himpunan variabel prediktor yang menyebabkan persamaan regresi menjadi optimum, kemudian dilanjutkan dengan menghitung koefisien dari variabel prediktor tersebut
b : matrik koefisien variabel prediktor X : matrik variabel prediktor X’ : matrik transpose variabel prediktor y : matrik variabel respon
Set Data N [n x p ]
Gk = [ n1 x p ] Gk = [ n2 x p ] Gk = [ nk x p ]
X11 = b * X2 X12 = b * X2 X13 = b * X3 X1p = b * Xj + ...
Setelah terbentuk persamaan VPM yang terbentuk di tiap-tiap kelas, sekarang persamaan tersebut akan digunakan untuk
mengklasifikasikan sampel.
Step 1 : ambil matrik sampel S [1 x p] yang akan ditestingkan. Step 2 : masukkan tiap-tiap elemen nilai matrik S pada persamaan VPM yang bersesuaian pada setiap kelas, kemudian simpan nilainya pada matriks (k=1,2,...,g).
Step 3: Hitung nilai , setelah itu cari nilai SSE kelas mana yang minimum, dan pilih kelas tersebut untuk menjadi kelas dari sampel yang ditestingkan.
Vektor Spred
Hitung SSE vektor Spred
dengan S
Cari yang SSE yang paling minimum untuk menentukan Vektor S [1 x p ] Xi = b * Xj + .... Xi+1 = b * Xj + ... Xi+2 = b * Xj + ... Xp = b * Xj + ... Xi = b * Xj + .... Xi+1 = b * Xj + ... Xi+2 = b * Xj + ... Xp = b * Xj + ... Vektor Spred
Data set bunga IRIS memiliki jumlah data n sebanyak 150 data
Bunga IRIS memiliki kelas g sebanyak 3 yaitu Setosa ST, Verginica VC, dan Versicolor VS
Bunga IRIS memiliki variabel/fitur p sebanyak 4 yaitu sepal length (X1), sepal width (X2), petal length (X3), dan petal width (X4)
Tiap-tiap kelas memiliki data observasi sebanyak 50 data
Sepal Length Sepal Width Petal Length Petal Width Species
5.1 3.5 1.4 0.2 Setosa 4.9 3.0 1.4 0.2 Setosa 4.7 3.2 1.3 0.2 Setosa ... ... ... ... ... 7.0 3.2 4.7 1.4 Versicolor 6.4 3.2 4.5 1.5 Versicolor 6.9 3.1 4.9 1.5 Versicolor ... ... ... ... ... 6.3 3.3 6.0 2.5 Verginica 5.8 2.7 5.1 1.9 Verginica
kelas ST (G1) X1 X2 X3 X4 kelas VC (G2) X1 X2 X3 X4 kelasVS (G3) X1 X2 X3 X4 N11 Nj1 N21 N12 Nj2 N22 N13 Nj3 N23 N14 Nj4 N24 N11 Nj1 N21 N12 Nj2 N22 N13 Nj3 N23 N14 Nj4 N24 N11 Nj1 N21 N12 Nj2 N22 N13 Nj3 N23 N14 Nj4 N24 Split data set IRIS menjadi matriks Gk(k =1,2,3,….g)
Pilih matriks Gk, untuk setiap variable Xi(i=1,2,3…p) pada Gkbangun persamaan VPM dengan menggukanan kombinasi yang berbeda dari variable set (Xj ;j=1,2,3….r,j≠i) pada Gk
Pada kelas G1 Setelah dilakukan penghitungan terhadap SSE didapat
X1 baik diprediksi oleh X2, X2 baik diprediksi oleh X1, X3 baik diprediksi oleh X1, dan X4 baik diprediksi oleh X3 kelas G2 didapat
Setosa Versicolor Virginica
persamaan VPM tiap kelas untuk mendapatkan matrik Spred
Hitung SSE pada tiap-tiap kelas
SSE Minimum adalah
Artinya matriks sampel S diprediksi termasuk anggota kelas
Membaca data set Pembentukan VPM lokal optimum Penghitungan akurasi Pebentukan VPM global optimum Data set Persamaan VPM
Daftar seluruh kemungkinan kombinasi tipe model-order yang mungkin dibentuk. Jumlah kemungkinan dapat dirumuskan dengan 4 x (p-1) kemungkinan
Melakukan penghitungan akurasi untuk tiap kombinasi tipe model-order
Memilih pasangan tipe model-order yang memberikan nilai akurasi prediksi paling tinggi
Hasil uji coba data set Diabetic dengan proporsi data training 1/2 dari data seluruhnya
tipe model order Akurasi(%)
L 1 59.2 L 2 68.5 L 3 65.3 L 4 60.3 L 5 60.4 L 6 60.7 L 7 61.6 LI 1 59.2 LI 2 70.9* LI 3 63.7 LI 4 65 LI 5 64.7 LI 6 65 LI 7 61.2 QI 1 59.5 QI 2 60.7 QI 3 66.5 QI 4 63.9 QI 5 63
L 1 64.5 L 2 70 L 3 65 L 4 58.3 L 5 58.5 L 6 57.4 L 7 60.4 LI 1 64.5 LI 2 73.8* LI 3 67.1 LI 4 65.2 LI 5 63.6 LI 6 61.8 LI 7 63.1 QI 1 65.3 QI 2 67 QI 3 64.2 QI 4 60.7 QI 5 59.6 QI 6 59.1 QI 7 58.2 Q 1 65.3 Q 2 68.7 Q 3 58.8 Q 4 60.4 Q 5 57.6 Q 6 57.9 Q 7 58.5
Berikut adalah hasil rangkuman uji coba dari 6 data set
Data set proporsi Tipe model Order (r) Akurasi(%) Diabetic ½ training ½ testing linear interaction 2 70.9% Diabetic 2/3 training 1/3 testing linear interaction 2 73.8% Heart ½ training ½ testing quadratic interaction 10 79.3% Heart 2/3 training 1/3 testing quadratic interaction 10 79.7% Iris ½ training ½ testing Pure quadratic 2 93.3% Iris 2/3 training 1/3 testing Pure quadratic 1 96 % Wine ½ training ½ testing Pure quadratic 6 90.6% Wine 2/3 training 1/3 testing Pure quadratic 5 91.3% Digit ½ training ½ testing quadratic interaction 15 100% Digit 2/3 training 1/3 testing linear interaction 6 99.4% Letter ½ training ½ testing quadratic interaction 9 94.2%
1. Tiap data set memiliki bentuk (tipe model dan order) VPM optimum yang berbeda-beda dipengaruhi oleh jumlah data set yang ditrainingkan
2. Naiknya jumlah order prediktor tidak selalu menyebabkan naiknya prosentase akurasi prediksi
4. Variable Predictive Models Based Class Discrimination (VPMCD) terbukti mampu untuk menjadi classifier, dan mampu untuk mengkasifikasikan sampel baru suatu data set. 3. Semakin komplek tipe model tidak selalu menyebabkan prosentase akurasi prediksi meningkat.
Berikut adalah saran yang dapat diberikan pada pengerjaan Tugas Akhir ini
1. Perlu dikembangkan algoritma untuk mengatasi data set yang memiliki data observasi sangat banyak, sehingga waktu eksekusi untuk training tidak terlalu lama
3. Perlu dikembangkan lagi algoritma untuk mengatasi agar jika 2.Perlu dikembangkan algoritma untuk menentukan model yang paling kecil kompleksitasnya bila ada dua atau beberapa model yang memiliki hasil akurasi yang tepat sama.