4 Model Linear untuk Klasifikasi

(1)

Model Linear untuk Klasifikasi

Departemen Matematika, Universitas Indonesia – Depok 16424

Dr. rer. nat. Hendri Murfi

Intelligent Data Analysis (IDA) Group

Telp. +62-21-7862719/7863439, Fax. +62-21-7863439, Email. hendri@ui.ac.id

MMA10991 Topik Khusus - Machine Learning

2

Machine Learning

y(

x

,

w

)

t

x

₁

x

₂

:

x

_D

Input Model/Metode Output

Diberikan data pelatihan (training data), yaitu x_idan/atau t_i, i = 1 sd N

• Preprocessing: pemilihan/ekstraksi fitur dari data, misal x_i = (x₁, x₂, .., x_D)T

• _Learning_{: penentuan parameter metode, misal}_w_{, berdasarkan data}

pelatihan

• Testing: pengujian metode dengan data baru. Data penguji (testing data) tersebut harus dilakukan preprocessing yang sama dengan data

(2)

3

Diberikan data pelatihan

x

_i

, i = 1 sd N,

dan/atau

t

_i

, i = 1 as N

• _{Supervised Learning}

_{. Data pelatihan disertai target, yaitu {}

x

_i

,

t

_i

}, i = 1 sd

N. Tujuan pembelajaran adalah membangun model yang dapat

menghasilkan output yang benar untuk suatu data input, misal untuk

regresi, klasifikasian, regresi ordinal, ranking, dll

• _{Unsupervised Learning}

_{. Data pelatihan tidak disertai target, yaitu}

x

_i

, i = 1

sd N. Tujuan pembelajaran adalah membagun model yang dapat

menemukan komponen/variabel/fitur tersembunyi pada data pelatihan,

yang dapat digunakan untuk: pengelompokan (

clustering

), reduksi

dimensi (

dimension reduction

), rekomendasi, dll

Learning

4

Supervised Learning

• _Regresi

–

Nilai output

t

i

bernilai kontinu (riil)

–

Bertujuan memprediksi output dari

data baru dengan akurat

• _Klasifikasi

–

Nilai output

t

i

bernilai diskrit (kelas)

–

Bertujuan mengklasifikasi data baru

(3)

5

Masalah Dua Kelas

Klasifikasi

Decision Boundary / Decision Surface

Kelas 1 Kelas 2

• _{Diberikan vektor input}_x

berdimensi D, bagaimana

mengklasifikasikannya pada salah satu kelas

• Salah satu cara adalah mencari batas (decision boundary/decision surface) antara area kelas (decision region) bedasarkan data

pembelajaran

• Misal dengan menggunakan fungsi linear (model linear) yang dikenal juga dengan istilah fungsi

diskriminan (discriminant function)

6

Model Linear

Klasifikasi

• _{Model linear adalah kombinasi linear dari fungsi nonlinear dari variabel input:}

Dimana x = (x₁, x₂, ..., x_D)T_{adalah variabel input, dan}_w_{= (}_w

0, w1, ..., wD)

T

adalah parameter, φφφφ(x) adalah fungsi basis, M adalah jumlah total parameter dari model

• Biasanya, φ₀(x) = 1, sehingga w₀ berfungsi sebagai bias

• _{Ada banyak pilihan yang mungkin untuk fungsi basis}_φ_φ_φ_φ₍_x_),_{misal fungsi linear,}

(4)

7

Hyperplane

Klasifikasi

• _{Bentuk model linear yang paling}

sederhana untuk fungsi diskriminan linear:

y(x) = wT_x_{+ w} 0

Dimana x adalah vektor input, w

adalah vektor bobot dan w₀ adalah bias.

• _Sehingga,_{decision boundary}_adalah

y(x)=0, yaitu suatu hyperplane berdimensi (D-1)

• _{Suatu vektor input}_x_akan

diklasifikasikan ke kelas 1 (R₁) jika

y(x)≥0, dan kelas 2 (R₂) jika y(x)<0

8

Sifat-Sifat Hyperplane

Klasifikasi

• Jika x_A dan x_B terletak pada decision

boundary (DS), maka y(x_A)=y(x_B)=0 atau wT₍_x

A-xB)=0, sehingga w tegak

lurus terhadap semua vektor di DS. Dengan kata lain w menentukan orientasi dari DS

• _{Jarak titik awal ke DS adalah}

-w₀/||w||. Dengan kata lain w₀

menentukan lokasi DS.

• _{Jarak sembarang vektor}_x_{ke DS}

(5)

9

Bentuk Umum

Perceptron

• Asumsikan kita memiliki data pembelajaran {x_n, t_n}, n = 1 sd N. Suatu vektor input x pertama-tama ditransformasi menggunakan suatu transformasi nonlinear φ(.)untuk membentuk vektor fitur φ(x) yang digunakan untuk membentuk model linear dengan bentuk:

y(x) = f(wT_φ_φ_φ_φ₍_x₎₎

dimana fungsi aktifasi nonlinear f(.) diberikan oleh fungsi tangga dengan bentuk:

• Diberikan data pembelajaran x_n

dan t_n, dimana t_n = +1 untuk kelas

diklasifikasi dengan benar jika

(6)

11

Fungsi Error

Perceptron

• _{Untuk setiap vektor}

_x

_{yang tidak diklasifikasikan dengan benar,}

maka metode perceptron akan meminimumkan fungsi error,

disebut juga kriteria perceptron (

perceptron criterion

), sbb:

Dimana

M

adalah himpunan indeks vektor

x

yang tidak

diklasifikasikan dengan benar

• _{Sehingga, bobot diperbarui secara berulang sbb:}

w

(τ+1)

_{= w}

(τ)

_{- η}

_∇

_E

P

(w) = w

(τ)

_{+ η}

_φ(

_x

n

)t

n

dimana

η

adalah parameter

learning rate,

dan

τ

ada langkah

dari iterasi algoritma

E_pw=−

∑

n∈M

wTx_nt_n

12

Algoritma

Perceptron

1)

{(

x

₁

,t

₁

), ..., (

x

_N

,t

_N

)} adalah data pembelajaran

2)

Inisialisasi w

(0)

_{dengan bilangan random}

3)

Untuk setiap data pembelajan (x

_n

,t

_n

), Jika data

diklasifikasikan dengan benar maka tidak ada perubahan

terhadap

w

4)

Untuk setiap data pembelajan (x

_n

,t

_n

), Jika data pembelajaran

tidak diklasifikasikan dengan benar maka

w

diperbarui sbb:

w

(τ+1)

_{= w}

(τ)

_{- η}

_∇

_E

P

(w) = w

(7)

13

Contoh

Perceptron

Diberikan data sebagai berikut

Tentukan

hyperplane

yang menjadi batas (

decision

boundary

) dari ke dua kelas dari data tersebut dengan

menggunakan metode perceptron!

No x₁ x₂ Kelas (t)

1 1 1 +1

2 1 -1 -1

3 -1 1 -1

4 -1 -1 -1

14

Contoh

Perceptron

Misal

ɳ

= 1,

ɸ

(

x

) =

x

,

ɸ

₀

(

x

) = 1,

w

(0)

_{= (0, 0, 0)}

1)

Ambil

x

₁

= (1,1)

T

_{dan t}

1

= +1

sebagai data pembelajaran:

w(1) ₌_w(0)₊_{ɳ ɸ}_(x 1) t1

= w(0)₊_ɳ_{(1, x}

1, x2) t1

= (0, 0, 0)T₊_{1 . (1, 1, 1)}T_{. 1}

= (1, 1, 1)T

sehingga

decision boundary

(8)

15

Contoh

Perceptron

2)

Ambil

x

₂

= (1,-1)

T

_{dan t}

2

= -1

sebagai data pembelajaran:

w(2) ₌_w(1)₊_{ɳ ɸ}_(x 2) t2

= w(1)₊_ɳ_{(1, x}

1, x2) t2

= (1, 1, 1)T₊_{1 . (1, 1, -1)}T_{. -1}

= (0, 0, 2)T

sehingga

decision boundary

adalah 2x

₂

= 0

16

Contoh

Perceptron

3)

Ambil

x

₃

= (-1,1)

T

_{dan t}

3

= -1

sebagai data pembelajaran:

w(3) ₌_w(2)₊_{ɳ ɸ}_(x 3) t3

= w(2)₊_ɳ_{(1, x}

1, x2) T_t

3

= (0, 0, 2)T₊_{1 . (1, -1, 1)}T_{. -1}

= (-1, 1, 1)T

sehingga

decision boundary

(9)

17

Beberapa Catatan

Perceptron

• _{Pada tahun 1962, Novikoff telah mebuktikan teorema pertama}

tentang perceptron. Teorema ini memulai teori tentang

pembelajaran (

learning

) yang menyatakan bahwa jika

–

Norm dari vektor input

x

dibatasi oleh konstanta

R (|

x

|

≤

R)

–

Data pembelajaran dapat dipisahkan dengan margin

ρ

:

Maka setelah paling banyak

K

≤ [

R

2

_/ρ

2