Mengimplementasikan Algoritma variable predictive models based class discrimination (VPMCD) sebagai metode klasifikasi kesamaan pola

(1)

Oleh

Deneng Eka Putra 5106100054

Pembimbing Ahmad Saikhu, S.Si, MT

NIP. 132318030

Mengimplementasikan Algoritma variable

predictive models based class

discrimination (VPMCD) sebagai metode

(2)

Data observasi yang relatif besar

(3)

Menggunakan metode Variable Predictive Model

Metode klasifikasi yang memanfaatkan hubungan antara variabel-variabel (inter-relation variables) dalam suatu objek untuk digunakan membentuk persamaan regresi yang mempunyai kemampuan untuk memprediksi / mengklasifikasikan sampel.

(4)

Classifier

Training

Data Unseen_Data

(a₅, b₂, c₃) kelas? cl₂ A B C Kelas a1 b1 c1 cl1 a2 b1 c2 cl1 a3 b2 c3 cl2 a4 b1 c1 cl2

(5)



Model yang digunakan untuk membentuk

persamaan VPM adalah :

Liniear (L)

Linear Interaction (LI) Quadratic Interaction (QI) Quadratic (Q)



Jumlah suku pada tiap model ditentukan oleh

jumlah variabel prediktor yang digunakan

(order) r



   r j j j i b b X X 1 0



       r j k k j jk r j r j j j i b b X b X X X 1 1 1 0



        r j r j k k j jk r j r j j jj j j i b b X b X b X X X 1 1 1 1 2 0

Tipe Model Bentuk Persamaan

Linear Linear Interaction Quadratic Interaction Purequadratic



 





r j r j j jj j j i

b

X

b

X

1 1 2 0

(6)

Step 1

• pilih tipe model (L, LI, QI, Q) yang digunakan dan order r Step 2 • pilih himpunan variabel prediktor yang membuat persamaan regresi VPM paling optimum untuk prediksi Step 3 • hitung beta (koefisien tiap variabel prediktor)

(7)

Satu persamaan yang dibentuk adalah untuk satu variabel pada kelas

tertentu

Misal suatu objek memiliki g kelas dan p variabel/fitur maka persamaan yang terbentuk sebanyak g x p persamaan

d = p-1 Cr

Misal order (r) = 1 dan jumlah variabel/fitur (p) pada sebuah objek berjumlah 4 maka kemungkinannya adalah sebanyak 3

Variabel yang diprediksi Variabel prediktor X1 X2 X1 X3 X1 X4

Untuk setiap variabel memiliki d kandidat pilihan himpunan prediktor

Dari d kandidat, akan dipilih himpunan variabel prediktor yang memberikan model terbaik dengan melihat nilai SSE.

Hitung selisih kuadrat SSE antara nilai variabel respon yang sebenarnya dengan variabel respon yang diprediksi oleh persamaan regresi. Kemudian pilih himpunan variabel prediktor yang memberikan nilai SSE minimum

(8)

Setelah dipilih himpunan variabel prediktor yang menyebabkan persamaan regresi menjadi optimum, kemudian dilanjutkan dengan menghitung koefisien dari variabel prediktor tersebut

b : matrik koefisien variabel prediktor X : matrik variabel prediktor X’ : matrik transpose variabel prediktor y : matrik variabel respon

Set Data N [n x p ]

Gk = [ n1 x p ] Gk = [ n2 x p ] Gk = [ nk x p ]

X11 = b * X2 X12 = b * X2 X13 = b * X3 X1p = b * Xj + ...

(9)

Setelah terbentuk persamaan VPM yang terbentuk di tiap-tiap kelas, sekarang persamaan tersebut akan digunakan untuk

mengklasifikasikan sampel.

Step 1 : ambil matrik sampel S [1 x p] yang akan ditestingkan. Step 2 : masukkan tiap-tiap elemen nilai matrik S pada persamaan VPM yang bersesuaian pada setiap kelas, kemudian simpan nilainya pada matriks (k=1,2,...,g).

Step 3: Hitung nilai , setelah itu cari nilai SSE kelas mana yang minimum, dan pilih kelas tersebut untuk menjadi kelas dari sampel yang ditestingkan.

Vektor Spred

Hitung SSE vektor Spred

dengan S

Cari yang SSE yang paling minimum untuk menentukan Vektor S [1 x p ] Xi = b * Xj + .... Xi+1 = b * Xj + ... Xi+2 = b * Xj + ... Xp = b * Xj + ... Xi = b * Xj + .... Xi+1 = b * Xj + ... Xi+2 = b * Xj + ... Xp = b * Xj + ... Vektor Spred

(10)

Data set bunga IRIS memiliki jumlah data n sebanyak 150 data

Bunga IRIS memiliki kelas g sebanyak 3 yaitu Setosa ST, Verginica VC, dan Versicolor VS

Bunga IRIS memiliki variabel/fitur p sebanyak 4 yaitu sepal length (X1), sepal width (X2), petal length (X3), dan petal width (X4)

Tiap-tiap kelas memiliki data observasi sebanyak 50 data

Sepal Length Sepal Width Petal Length Petal Width Species

5.1 3.5 1.4 0.2 Setosa 4.9 3.0 1.4 0.2 Setosa 4.7 3.2 1.3 0.2 Setosa ... ... ... ... ... 7.0 3.2 4.7 1.4 Versicolor 6.4 3.2 4.5 1.5 Versicolor 6.9 3.1 4.9 1.5 Versicolor ... ... ... ... ... 6.3 3.3 6.0 2.5 Verginica 5.8 2.7 5.1 1.9 Verginica

(11)

kelas ST (G1) X1 X2 X3 X4 kelas VC (G2) X1 X2 X3 X4 kelasVS (G3) X1 X2 X3 X4 N11 N_j1 N21 N12 N_j2 N22 N13 N_j3 N23 N14 N_j4 N24 N₁₁ N_j1 N21 N₁₂ N_j2 N22 N₁₃ N_j3 N23 N₁₄ N_j4 N24 N₁₁ Nj1 N₂₁ N₁₂ Nj2 N₂₂ N₁₃ Nj3 N₂₃ N₁₄ Nj4 N₂₄ Split data set IRIS menjadi matriks Gk(k =1,2,3,….g)

Pilih matriks G_k, untuk setiap variable X_i(i=1,2,3…p) pada G_kbangun persamaan VPM dengan menggukanan kombinasi yang berbeda dari variable set (Xj ;j=1,2,3….r,j≠i) pada Gk

Pada kelas G1 Setelah dilakukan penghitungan terhadap SSE didapat

X1 baik diprediksi oleh X2, X2 baik diprediksi oleh X1, X3 baik diprediksi oleh X1, dan X4 baik diprediksi oleh X3 kelas G2 didapat

(12)

Setosa Versicolor Virginica

persamaan VPM tiap kelas untuk mendapatkan matrik Spred

Hitung SSE pada tiap-tiap kelas

SSE Minimum adalah

Artinya matriks sampel S diprediksi termasuk anggota kelas

(13)

Membaca data set Pembentukan VPM lokal optimum Penghitungan akurasi Pebentukan VPM global optimum Data set Persamaan VPM

Daftar seluruh kemungkinan kombinasi tipe model-order yang mungkin dibentuk. Jumlah kemungkinan dapat dirumuskan dengan 4 x (p-1) kemungkinan

Melakukan penghitungan akurasi untuk tiap kombinasi tipe model-order

Memilih pasangan tipe model-order yang memberikan nilai akurasi prediksi paling tinggi

(14)

Hasil uji coba data set Diabetic dengan proporsi data training 1/2 dari data seluruhnya

tipe model order Akurasi(%)

L 1 59.2 L 2 68.5 L 3 65.3 L 4 60.3 L 5 60.4 L 6 60.7 L 7 61.6 LI 1 59.2 LI 2 70.9* LI 3 63.7 LI 4 65 LI 5 64.7 LI 6 65 LI 7 61.2 QI 1 59.5 QI 2 60.7 QI 3 66.5 QI 4 63.9 QI 5 63

(15)

L 1 64.5 L 2 70 L 3 65 L 4 58.3 L 5 58.5 L 6 57.4 L 7 60.4 LI 1 64.5 LI 2 73.8* LI 3 67.1 LI 4 65.2 LI 5 63.6 LI 6 61.8 LI 7 63.1 QI 1 65.3 QI 2 67 QI 3 64.2 QI 4 60.7 QI 5 59.6 QI 6 59.1 QI 7 58.2 Q 1 65.3 Q 2 68.7 Q 3 58.8 Q 4 60.4 Q 5 57.6 Q 6 57.9 Q 7 58.5

Berikut adalah hasil rangkuman uji coba dari 6 data set

Data set proporsi Tipe model Order (r) Akurasi(%) Diabetic ½ training ½ testing linear interaction 2 70.9% Diabetic 2/3 training 1/3 testing linear interaction 2 73.8% Heart ½ training ½ testing quadratic interaction 10 79.3% Heart 2/3 training 1/3 testing quadratic interaction 10 79.7% Iris ½ training ½ testing Pure quadratic 2 93.3% Iris 2/3 training 1/3 testing Pure quadratic 1 96 % Wine ½ training ½ testing Pure quadratic 6 90.6% Wine 2/3 training 1/3 testing Pure quadratic 5 91.3% Digit ½ training ½ testing quadratic interaction 15 100% Digit 2/3 training 1/3 testing linear interaction 6 99.4% Letter ½ training ½ testing quadratic interaction 9 94.2%

(16)

1. Tiap data set memiliki bentuk (tipe model dan order) VPM optimum yang berbeda-beda dipengaruhi oleh jumlah data set yang ditrainingkan

2. Naiknya jumlah order prediktor tidak selalu menyebabkan naiknya prosentase akurasi prediksi

4. Variable Predictive Models Based Class Discrimination (VPMCD) terbukti mampu untuk menjadi classifier, dan mampu untuk mengkasifikasikan sampel baru suatu data set. 3. Semakin komplek tipe model tidak selalu menyebabkan prosentase akurasi prediksi meningkat.

Berikut adalah saran yang dapat diberikan pada pengerjaan Tugas Akhir ini

1. Perlu dikembangkan algoritma untuk mengatasi data set yang memiliki data observasi sangat banyak, sehingga waktu eksekusi untuk training tidak terlalu lama

3. Perlu dikembangkan lagi algoritma untuk mengatasi agar jika 2.Perlu dikembangkan algoritma untuk menentukan model yang paling kecil kompleksitasnya bila ada dua atau beberapa model yang memiliki hasil akurasi yang tepat sama.