Algoritma Support Vector Machine (SVM) - OPTIMISASI ALGORITMA SMOOTH SUPPORT VECTOR MACHINE MEN

Support Vector Machine (SVM) dikembangkan oleh Boser, Guyon, dan Vapnik, pertama kali diperkenalkan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep dasar metode SVM sebenarnya merupakan gabungan atau kombinasi dari teori-teori komputasi yang telah ada pada tahun sebelumnya, seperti kernel diperkenalkan oleh Aronszajn tahun 1950, Lagrange Multiplier yang ditemukan oleh Joseph Louis Lagrange pada tahun 1766, dan demikian juga dengan konsep-konsep

pendukung lain. Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari pemisah dua buah kelas pada input space (Listiana & Much, 2017).

SVM merupakan salah satu metode unggulan dibidang pattern recognition, sebagai algoritma yang terhitung masih baru (1992), SVM berkembang pesat karena berprinsip Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik untuk memisahkan dua buah kelas pada suatu space sehingga algoritma ini cocok untuk diimplementasikan sebagai clasificator. Berbeda dengan strategi neural network yang berusaha mencari hyperplane pemisah antar class, SVM berusaha menemukan hyperplane yang terbaik pada input space. Prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada problem non-linear.

dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi .

Konsep SVM adalah mendesain sebuah hyperplane yang dapat mengklasifikasikan seluruh data training menjadi dua buah kelas, pada Gambar 2.1 memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class yang berbentuk lingkaran dan kotak. Berbagai alternatif garis pemisah (discrimination boundaries) ditunjukkan pada Gambar 2.1.

Gambar 2.1 Hyperplane Mengklasifikasikan Data Menjadi Dua Kelas (Listiana & Much, 2017)

Hyperplane terbaik antara kedua class dapat ditemukan dengan cara mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane dengan pattern terdekat dari masing-masing kelas, seperti yang terlihat pada Gambar 2.2 Pattern yang paling dekat ini disebut sebagai Support Vector.

Gambar 2.2 Support Vector, Jarak Terdekat Dengan Masing-Masing Kelas (Listiana & Much, 2017)

Pattern yang merupakan anggota dari dua buah kelas: +1 dan -1 dan berbagi alternatif garis pemisah (discrimination boundaries). Margin adalah jarak antara pemisah tersebut dengan pattern terdekat dari masing-masing kelas. Pattern yang memiliki jarak paling dekat disebut sebagai support vector. Dalam menyelesaikan permasalahan linear diasumsikan terdapat data latih {𝑥𝑖 , 𝑦𝑖 } , 𝑥𝑖 merupakan atribut untuk data latih {𝑥1,

… , 𝑥𝑛 } dan 𝑦𝑖 ∈ {−1,1} adalah label kelas dari data latih 𝑥𝑖. Bidang pemisah yang baik tidak hanya bisa memisahkan data tetapi juga memiliki margin yang besar atau maksimal, data yang berada dekat dan diatas bidang pemisah.

Klasifikasi menggunakan SVM dapat dijelaskan secara sederhana yaitu usaha untuk mendapatkan garis sebagai fungsi pemisah terbaik yang dapat memisahkan dua kelas yang berbeda (+1,-1) pada ruang input.

Gambar 2.3. Konsep Fungsi Pemisah pada SVM

Pada Gambar 2.3 memperlihatkan bahwa beberapa data yang merupakan anggota dari kelas -1 dan +1. Data yang disimbolkan dengan kotak adalah anggota data -1 sedangkan yang bulat menyimbolkan anggota data +1. Fungsi pemisah terbaik adalah fungsi yang mampu memisahkan data dengan nilai margin (m) yang terbesar, dan tepat berada di antara kedua kelas data. Margin merupakan jarak antara fungsi pemisah dengan data terdekat dari masing-masing kelas (Prasetyo, 2012). Pada gambar 1, fungsi pemisah terbaik ditunjukkan dengan garis tebal yang memisahkan kedua kelas. Data yang berada pada bidang pembatas dan terdekat dengan fungsi pemisah terbaiklah yang disebut dengan support vector. Hanya data support vector yang digunakan selama proses mendapatkan fungsi pemisah terbaik (Prasetyo, 2012). SVM merupakan metode berbasis machine learning yang berpotensi untuk dikembangkan lebih jauh karena memiliki performansi tinggi dan dapat diaplikasikan secara luas untuk klasifikasi dan estimasi.

Apabila terdapat dua kelas yang dipisahkan oleh dua bidang pembatas secara sejajar yaitu kelas +1 dan kelas -1. Bidang pembatas dinyatakan dengan H. H1 dinyatakan sebagai bidang pembatas pada kelas +1 dan H2 dinyatakan sebagai bidang pembatas kelas -1, yang dinyatakan dengan persamaan 2.1 dan 2.2 sebagai berikut:

𝑤. 𝑥𝑖 + 𝑏 ≥ +1 𝑓𝑜𝑟 𝑦𝑖 = +1 ……….………….….. (2.1)

Sehingga didapatkan persamaan 2.3 sebagai berikut:

𝑦𝑖 (𝑥𝑖 . 𝑤 + 𝑏) ≥ 1 ……….………... (2.3) Jika titik terpisah secara linear fungsi untuk permukaan ini ditentukan dengan persamaan 2.4 sebagai berikut:

f(x) =(∑^𝑛_𝑖=1∝_𝑖^∗yi (xi.x)+b*) (xi,yi) €Rⁿ x{-1,1} ……….……..… (2.4) Keterangan :

𝛼𝑖 ∗ : Lagrange Multiplier 𝑏∗ : Bias

Jika kelas tidak terpisah secara linear maka fungsi untuk permukaan ditentukan oleh

Terdapat beberapa fungsi kernel yang digunakan untuk menyelesaikan masalah pada VM non linear dapat dilihat pada persamaan 2.6 hingga 2.7 berikut ini:

a. Fungsi Kernel Linear

Metode Sequential Training merupakan metode yang digunakan untuk training data agar menghasilkan hyperlane yang optimal. Metode ini digunakan juga untuk mendapatkan nilai α. Metode ini dikembangkan oleh Vijayakumar dan memiliki langkah proses seperti berikut:

a. Melakukan perhitungan kernel dan melakukan inisialisasi parameter-parameter SVM seperti contoh nilai αi = 0; ε = 0,001; γ = 0,01; λ = 1; C = 1; dan nilai iterasi maksimal = 10;

b. Menghitung matriks Hessian dengan persamaan 2.9.

𝐷𝑖𝑗 = 𝑦𝑖𝑦𝑗 (𝐾(𝑥𝑖 , 𝑥𝑗 ) + λ²) ……….….. (2.9) c. Melakukan iterasi untuk setiap iterasi = 1, 2, 3, … , n dan dihitung menggunakan

persamaan 2.10 hingga 2.13.

- Menghitung nilai Ei menggunakan persamaan 2.10.

Ei= ∑^𝑛_𝑗=1∝_𝑖∗ 𝐷ij ………..………..….… (2.10) - Menghitung nilai γ dan δαi menggunakan persamaan 2.11 dan 2.12.

ɤ =^{𝐾𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑎}

𝑚𝑎𝑥𝐷𝑖𝑖 ………. (2.11)

δα𝑖 = min[max[𝛾(1 − 𝐸𝑖 ), 𝛼𝑖 ] , 𝐶 − 𝛼𝑖 ] ……….. (2.12) - Memperbarui nilai αi menggunakan persamaan 2.13.

𝛼𝑖 = 𝛼𝑖 + 𝛿𝛼 ……….…….. (2.13) atau ketika nilai iterasi sudah mencapai nilai maksimum maka iterasi dihentikan.

e. Menghitung nilai w.x+ dan w.x- untuk mendapatkan nilai bias menggunakan

𝐾(𝑥, 𝑥+) : Nilai kernel data x dengan data x kelas positif yang memiliki nilai α tertinggi.

𝐾(𝑥, 𝑥−) : Nilai kernel data x dengan data x kelas negatif yang memiliki nilai α tertinggi dan 𝑏 : Nilai bias.

2.2.2 Algoritma Smooth Support Vector Machine (SSVM)

SSVM adalah pengembangan SVM dengan menggunakan teknik smoothing dimana metode ini pertama kali diperkenalkan oleh Lee pada tahun 2001. Algoritma SVM memanfaatkan optimasi dengan quadratic programming, sehingga untuk data berdimensi tinggi dan data jumlah besar SVM menjadi kurang efisien. SVM adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik (Christianini, 2000). Oleh karena itu dikembangkan smoothing technique yang menggantikan plus function SVM

dengan integral dari fungsi sigmoid neural network yang selanjutnya dikenal dengan Smooth Support Vector Machine (SSVM).

Smooth Support Vector Machine (SSVM) merupakan mengembangan dari kasifikasi Support Vector Machine (SVM) dimana melibatkan fungsi smoothing didalamnya. Jika terdapat masalah dari klasifikasi titik 𝑚 di dalam 𝑛 ruang dimensi nyata 𝑅𝑛, gambaran dari matriks 𝑚 × 𝑛 adalah matrik 𝐴, anggota dari titik 𝐴𝑖 di dalam kelas +1 atau −1 seperti yang diberikan 𝑚 ×𝑚 matriks diagonal 𝐷 dengan diagonal +1 atau −1. Untuk masalah support vector machine dengan sebuah kernel linier 𝐴𝐴′

Dimana 𝑤 adalah normal untuk bounding planes:

𝑥′𝑤−𝛾=+1 ……….……….….… (2.19) 𝑥′𝑤−𝛾=+1 ……….……….….… (2.20) Dan 𝛾 menentukan daerah relative asal. Garis pemisah pertama batasanya adalah +1 dan garis pemisah kedua batasnya adalah −1 ketika kedua kelas dipisahkan secara 𝑙𝑖𝑛𝑖𝑒𝑟, yaitu ketika variabel slack 𝑦 = 0. Garis pemisah linier ketika: 𝑥′𝑤=𝛾. Batasan tengah antara dua garis (lihat gambar 2.3). Jika kelas linier tidak bisa dipisahkan kemudian dua plane membatasi dua kelas dengan ”soft margin” ditentukan oleh variabel slack y non negatif, yaitu

𝑥′− 𝛾+𝑦𝑖 ≥ +1 𝑢𝑛𝑡𝑢𝑘 𝑥′=𝐴𝑖 𝑑𝑎𝑛 𝐷𝑖𝑖=+1 𝑥′− 𝛾−𝑦𝑖 ≤ +1 𝑢𝑛𝑡𝑢𝑘 𝑥′=𝐴𝑖 𝑑𝑎𝑛 𝐷𝑖𝑖=−1 Solusi dari permasalahan di atas adalah:

𝑦=(𝑒−𝐷(𝐴𝑤−𝑒𝛾))+ ……….….… (2.21)

Dimana, terlebih dahulu menggambarkan, (.)+ diganti dengan komponen negative dari vektor nol, dengan demikian dapat mengganti y dalam persamaan (2.22) dengan (𝑒−𝐷(𝐴𝑤−𝑒𝛾))+ dan mengubah masalah Support Vector Machine (SVM) pada persamaan (2.3) kedalam Support Vector Machine (SVM) yang merupakan masalah optimasi dibatasi sebagai berikut:

𝑚𝑖𝑛_(𝑤,𝑦) ^𝑣

2‖(𝑒 − 𝐷(𝐴𝜔 − 𝑒𝛾))‖²

2+¹

2(𝜔^′𝜔 + 𝛾²) ……… (2.22)

Masalah ini adalah masalah minimisasi tanpa banyak kendala. Tetapi tujuan fungsi dalam persamaan (2.23) tidak dua kali terdiferensiasi yang menghalangi penggunaan metode Newton. Penerapan teknik smoothing dengan mengganti 𝑥+ dengan sebuah akurasi penaksiran smooth pemulusan yang diberikan oleh 𝑝(𝑥,𝛼), fungsi integral sigmoid 1/1+𝜀−𝛼𝑥 dari neural networks:

p(x,α) = x +¹

𝛼log(1-ɛ^-αx), α > 0 ………..….… (2.23) Fungsi 𝑝 dengan parameter pemulusan 𝛼 digunakan untuk menggantikan fungsi plus pada persamaan (2.24) untuk mendapatkan sebuah Smooth Support Vector Machine (SSVM):

Algoritma pelatihan Backpropagation Neural Network (BPNN) pertama kali dirumuskan oleh Werbos dan dipopulerkan oleh Rumelhart & Mc. Clelland (Kusumadewi, 2004). Pada supervised learning terdapat pasangan data input dan output yang dipakai untuk melatih JST hingga diperoleh bobot penimbang (weight) yang diinginkan.

Pelatihan Backpropagation meliputi 3 fase:

1. Fase propagsi maju (feedforward) pola pelatihan masukan. Pola masukan dihitung maju mulai dari layer masukan hingga layer keluaran dengan fungsi aktivasi yang ditentukan.

2. Fase propasi mundur (backpropagation) dari error yang terkait. Selisih antara keluaran dan target merupakan kesalahn yang terjadi. Kesalahan tersebut dipropagasi mundur, dimulai dari garis yang berhubungan langsung dengan unit-unit dilayar keluaran.

3. Fase modifikasi bobot.

Ketiga tahapan tersebut diulangi terus-menerus sampai mendapatkan nilai error yang diinginkan. Setelah training selesai dilakukan, hanya tahap pertama yang diperlukan untuk memanfaatkan jaringan syaraf tiruan tersebut. Kemudian, dilakukan pengujian terhadap jaringan yang telah dilatih. Pembelajaran algoritma jaringan syaraf membutuhkan perambatan maju dan diikuti dengan perambatan mundur.

Dalam dokumen OPTIMISASI ALGORITMA SMOOTH SUPPORT VECTOR MACHINE MENGGUNAKAN ALGORITMA BACKPROPAGATION NGUYEN WIDROW PADA KLASIFIKASI PENYAKIT DIABETES MELLITUS (Halaman 21-28)