Dasar Pengenalan Pola 2
Imam Cholissodin S.Si., M.Kom.
Pengenalan Pola/
Dasar Pengenalan Pola 2
1. The Design Cycle
2. Collect Data
3. Object to Dataset
4. Feature Selection Using PCA
– Menghitung Eigen Value – Menghitung Eigen Vector – Transformasi Data Fitur – Menghitung Nilai Error
The Design Cycle
Collect data Choose features Choose model Train system Evaluate systemApa sensor yang harus kita gunakan? Bagaimana mengumpulkan data?
Bagaimana mengetahui fitur apa yang dipilih, dan bagaimana kita memilihnya ...?
(Misal transformasi data fitur dengan PCA)
Apa classifier yang akan digunakan? Apakah ada classifier yang terbaik ...?
Bagaimana kita melakukan proses Training? Bagaimana mengevaluasi kinerja sistem? Bagaimana memvalidasi hasil?
Collect Data
• Mengambil nilai data dari objek, Tipe data berdasarkan penskalaan datanya :
– Data Kualitatif : Data yang bukan berupa angka,. Terbagi dua : • Nominal : Data yang paling rendah dalam level pengukuran
data. Contoh : Jenis kelamin, Merk mobil, Nama tempat
• Ordinal : Ada tingkatan data. Contoh : Sangat setuju, Setuju, kurang setuju, tidak setuju.
– Data Kuantitatif : Data berupa angka dalam arti sebenarnya. Terbagi dua :
• Data Interval, Contoh : Interval temperatur ruang adalah sbb : Cukup panas jika antara 50C-80 C, Panas jika antara 80
C-110 C, Sangat panas jika antara 110 C-140 C.
• Data Rasio, Tingkat pengukuran paling „tinggi‟ ; bersifat angka dalam arti sesungguhnya. Contoh : Tinggi badan, Berat badan, Usia.
• Ilustrasi transformasi data dari objek yang diamati : – Text – Citra – Audio – Video – Etc Keterangan :
– M menyatakan banyak data, N menyatakan banyak fitur.
– Ektraksi fitur dilakukan jika data yang diamati masih berupa data mentah (misalnya masih berupa kumpulan data awal).
– Fitur yang diambil adalah yang merupakan ciri khas yang membedakan satu objek dengan objek lainnya.
Object to Dataset
No Fitur 1 Fitur 2 . . Fitur N Kelas 1 2 3 . . M
Dimensionality Reduction
• Problem : kompleksitas komputasi
terhadap pengenalan pola pada ruang
dimensi yang tinggi.
• Solusi : mapping data ke dalam ruang
dimensi yang lebih rendah
Dimensionality Reduction
• Pengurangan dimensi data dapat dilakukan
dengan :
• Mengkombinasikan Fitur (secara linear maupun non-linear)
• Memilih himpunan bagian dari fitur-fitur yang tersedia
• Kombinasi Linier merupakan pendekatan yang
menarik karena metode tersebut dilakukan
dengan perhitungan yang sederhana dan
terlacak secara analitis
Dimensionality Reduction
• Diberikan x ϵ R
N, dengan tujuan untuk mencari
transformasi linier U sehingga y = U
Tx ϵ R
Kdimana K<N
K N
b b b y a a a x k N ... lity dimensiona reduce ... 2 1 2 1Dimensionality Reduction
• Dua pendekatan klasik untuk menghitung
transformasi linier yang optimal :
– Principal Components Analysis (PCA): mencari proyeksi yang menyediakan informasi sebanyak mungkin dalam data dengan pendekatan
least-squares.
– Linear Discriminant Analysis (LDA): mencari proyeksi terbaik yang dapat memisahkan data dengan pendekatan least-squares.
• Tujuan PCA : mengurangi dimensi data dengan
mempertahankan
sebanyak mungkin informasi
dari dataset yang asli.
Dimensionality Reduction
• Pendekatan vektor dengan menemukan basis
ke dalam ruang dimensi yang lebih rendah
– Representasi ruang Dimensi-Lebih Tinggi :
– Representasi ruang Dimensi-Lebih Rendah :
N Nv a v a v a x 1 1 2 2 ... N v v
v1, 2,..., merupakan basis dari ruang dimensi N
K Ku b u b u b xˆ 1 1 2 2 ... K u u
u1, 2,..., merupakan basis dari ruang dimensi K
N a a a x ... 2 1 k b b b y ... 2 1
Feature Selection Using PCA
• Pengurangan dimensi berdampak pada
hilangnya informasi
• PCA mempertahankan sebanyak mungkin
informasi, dengan cara meminimalkan error :
• Bagaimana caranya menentukan sub-ruang
dimensi yang lebih rendah yang terbaik ?
• Eigenvektor yang terbaik dari matriks covarians x Eigenvalue yang terbesar
• Disebut sebagai Principal Components
x
x
ˆ
Feature Selection Using PCA
• Misalkan x
1, x
2, ..., x
Mterdapat dalam vektor N x 1
1. Mencari Mean (nilai rata-rata) dari data
2. Menghitung Zero Mean (setiap nilai pada data sampel dikurangi nilai rata-rata tiap parameter yang terkait) 3. Membangun matriks Covarians dengan mengkalikan
matriks Zero Mean dengan transposenya 4. Menghitung eigenvalue
5. Menghitung matriks eigenvektor
6. Mengurangi dimensi N sebesar K dimensi yang didapatkan dari eigenvalue yang terbesar sampai sampai yang terkecil sebanyak K pertama
Feature Selection Using PCA
• Langkah 1: Mencari Mean Global (nilai rata-rata)
• Langkah 2: Menghitung Zero Mean
M
x
x
x
x
1
2
...
MM
x
M i i
1x
x
i i
Feature Selection Using PCA
• Langkah 3: Membangun matriks Covarians
dengan mengkalikan matriks Zero Mean dengan
transposenya
– Populasi – Sampel
M i i T iN
C
11
M i i T iN
C
11
1
Feature Selection Using PCA
• Langkah 4 : Menghitung eigenvalue dari C
• Hasil :
0
)
(
U
C
I
U
I
U
C
U
I
U
C
I
U
U
C
det(
I
C
)
0
N
1,
2,
3,
...
,
n m m m n n N c c c c c c c c c , 2 , 1 , , 2 2 , 2 1 , 2 , 1 2 , 1 1 , 1 2 1 .... .... .... .... .... .... .... .... 0 0 .... .... .... .... 0 .... 0 0 .... 0 n m N m m n n c c c c c c c c c , 2 , 1 , , 2 2 , 2 2 1 , 2 , 1 2 , 1 1 , 1 1 .... .... .... .... .... .... .... Feature Selection Using PCA
• Langkah 5 : Menghitung eigenvektor
– Dari eigenvalue yang dihitung pada langkah 4, disubstitusikan ke rumus :
– Selesaikan dengan menemukan nilai U
• Hasil :
0
)
(
I
C
U
Nu
u
u
u
1,
2,
3,
...
,
Feature Selection Using PCA
• Langkah 6 : Mengurangi dimensi sebesar K
dimensi
– Pilihlah fitur sebanyak K berdasarkan nilai eigenvalue terbesar
– merupakan hasil transformasi dari x xˆ
K i i iu where K N b x x 1 ˆFeature Selection Using PCA
• PCA memproyeksikan data sepanjang suatu arah dimana data tersebut memiliki varians yang tinggi
• Arah tersebut ditentukan oleh eigenvectors dari matriks covariance yang memiliki nilai eigenvalues terbesar. • Nilai besaran dari eigenvalues merupakan nilai varians
data sepanjang arah dari eigenvector (garis lurus merah dan biru)
Feature Selection Using PCA
• Pemilihan nilai K menggunakan kriteria berikut :
• Pada contoh kasus diatas, dapat dikatakan bahwa kita “menyediakan” 90% atau 95% informasi dari data yang tersedia
• Jika K=N, maka kita “menyediakan” 100% dari data yang tersedia ) 95 . 0 9 . 0 ., . ( 1 1 Threshold e g or N i i K i i
Feature Selection Using PCA
• Vektor asal x dapat dibangun kembali menggunakan komponen prinsipal-nya
• PCA meminimalkan error dari rekonstruksi prinsipal tersebut:
• Hal itu dapat ditunjukkan bahwa error sama dengan :
K i K i i i i iu or x b u x b x x 1 1 ˆ ˆ x x e ˆ
N K i i e 1 2 1 PCA : Menghitung Eigen Value
• Misal diketahui dataset :
• Mean global
• Zero Mean
• Kovarian
No Fitur 1 Fitur 2 Kelas 1 P11 P12 Mobil 2 P21 P22 Rumah D = 22 21 12 11 P P P P
Data
Banyak
P
P
x
_
21 11 1
5
1
2
4
,
2 22 1 21 2 12 1 11 2 1 2 1misal
x
P
x
P
x
P
x
P
x
x
x
x
D
29 13 13 17 29 13 13 17 1 2 1 5 1 2 4 5 1 2 4 1 1 T N C
Data
Banyak
P
P
x
_
22 12 2
PCA : Menghitung Eigen Value
• Eigen Value :
0 det I C 0 324 46 0 169 493 17 29 0 169 ) 29 ( 17 29 0 169 ) 29 ( 17 0 13 * 13 ) 29 ( 17 0 29 13 13 17 det 0 29 13 13 17 1 0 0 1 * det 2 2 31782 . 37 2 63564 . 28 46 68218 . 8 2 63564 . 28 46 2 820 46 2 1296 2116 46 1 * 2 324 * 1 * 4 46 ) 46 ( 2 4 2 1 2 , 1 2 , 1 2 2 , 1 2 2 , 1 a ac b b 31782 . 37 0 0 68218 . 8 Value Eigen MatrikPCA : Menghitung Eigen Vector
• Eigen Vector :
31782 . 37 0 0 68218 . 8 Value Eigen Matrik U CU 0 1 0 0 1 1 0 0 1 1 0 0 1 2 1 22 21 12 11 2 1 2 1 22 21 12 11 2 1 2 1 22 21 12 11 2 1 2 1 22 21 12 11 u u c c c c u u u u c c c c u u u u c c c c u u u u c c c c 0 ) ( 0 ) ( 2 22 1 21 2 12 1 11 u c u c u c u c Vektor eigen didapatkan dengan persamaan : 0 ) 29 ( 13 0 13 ) 17 ( 2 1 2 1 u u u u 29 13 13 17 C Matrik kovarian : Untuk λ1 = 8.68218 maka : 0 20.3178 13 0 13 8.3178 2 1 2 1 u u u u
PCA : Menghitung Eigen Vector
• Eigen Vector :
Untuk λ1 = 8.68218 maka : 0 20.3178 13 0 13 8.3178 2 1 2 1 u u u u Untuk λ2 = 37.31782 maka : 0 8.3178 -13 0 13 20.3178 -2 1 2 1 u u u uSolusi non trivial sistem persamaan ini adalah : 8.3178 13 13 8.3178 2 1 2 1 u u u u Misalkan maka u1 a 13 8.3178a 2 u
Jadi vektor eigen untuk λ1 = 8.68218 adalah : 13 3178 . 8 a a U
dimana a adalah bilangan sembarang yang tidak nol.
Solusi non trivial sistem persamaan ini adalah : 3178 . 20 13 13 3178 . 20 2 1 2 1 u u u u Misalkan maka u2 b 3178 . 20 13b 1 u
Jadi vektor eigen untuk λ2 = 37.31782 adalah : b b U 20.3178 13
dimana b adalah bilangan sembarang yang tidak nol.
PCA : Menghitung Eigen Vector
• Eigen Vector :
Vektor eigen untuk λ1 = 8.68218 adalah : 13 3178 . 8 a a U misalkan a = -0.8423 maka
Vektor eigen untuk λ2 = 37.31782 adalah : b b U 20.3178 13 misalkan b = 0.8423 maka . 0.5389 0.8423 -U 8423 . 0 0.5389 U
Jadi Vektor eigen globalnya adalah :
8423 . 0 0.5389 0.5389 0.8423 -U
PCA : Transformasi x
• Transformasi data fitur :
• Tentukan nilai K dengan 90%
informasi data yang kita gunakan
• Dari nilai K yang ditentukan akan
diperoleh fitur yang dijadikan sebagai
proses pengenalan pola
k k