Implementasi Support Vector Machine dengan Optimasi Pruning Pada Persoalan Klasifikasi Pola

(1)

Abstrak— Support Vector Machine (SVM) merupakan topik penting dalam banyak area seperti pengenalan pola, pengolahan citra, machine learning dan bioinformatics. SVM memiliki beberapa kelemahan. Salah satunya adalah sulitnya pemakaian SVM apabila menyelesaikan masalah yang berskala besar.

Maksud dari pengertian skala besar dalam hal ini adalah berkaitan dengan jumlah sample yang diolah.

Untuk menyelesaikan masalah SVM ini agar dapat digunakan sebagai pengklasifikasi dengan cepat, maka dalam Tugas Akhir ini akan diusulkan sebuah metode yang dapat menyelesaikan permasalahan tersebut berdasarkan properti dari support vectors yang dapat mengeliminasi training vectors duplikat pada waktu bersamaan. Metode yang dipilih adalah SVM yang menggunakan Sequential Minimal Optimization (SMO) dengan proses pruning. Proses pruning berdasarkan pemodelan Gaussian dan proses proyeksi.

Uji coba pada Tugas Akhir ini menggunakan citra berwarna.

Dari hasil uji coba, metode ini memiliki rata-rata akurasi 97,14%

dan rata-rata waktu komputasi 13 kali lebih cepat daripada metode SVM biasa yaitu 19,64 detik. Dari hasil yang diperoleh dapat disimpulkan bahwa metode yang digunakan pada Tugas Akhir ini mampu melakukan klasifikasi pola yaitu membedakan objek dan latar belakang dengan waktu komputasi yang cepat tanpa mempengaruhi nilai akurasi dari hasil klasifikasi.

Kata Kunci—Support Vector Machine, Sequential Minimal Optimization, Pruning, Klasifikasi Pola.

I. PENDAHULUAN

upport Vector Machine (SVM) merupakan topik penting dalam banyak area seperti pengenalan pola, pengolahan citra, machine learning dan bioinformatics. Hal ini dikarenakan SVM dapat diaplikasikan secara luas. SVM merupakan sebuah pendekatan untuk menemukan hyperplane yang dapat memaksimalkan margin dan meminimalkan kesalahan klasifikasi ketika diberikan masalah dua kelas secara linear dipisahkan.

Pendekatan SVM dapat dibagi menjadi dua yaitu dari pandangan aljabar dan pandangan geometri. Pandangan aljabar memiliki tujuan bagaimana meminimalkan kesalahan klasifikasi dan mengurangi biaya komputasi, salah satunya dengan Sequential Minimal Optimization (SMO) [1]. Lain halnya dengan pandangan geometri yang berguna untuk menyelesaikan masalah klasifikasi.

SVM memiliki beberapa kelemahan. Salah satunya adalah sulitnya pemakaian SVM apabila menyelesaikan masalah

yang berskala besar. Maksud dari pengertian skala besar dalam hal ini adalah berkaitan dengan jumlah sample yang diolah.

Untuk menyelesaikan masalah SVM agar dapat digunakan sebagai penglasifikasi dengan cepat, maka dalam Tugas Akhir ini akan diusulkan sebuah metode yang dapat menyelesaikan permasalahan tersebut berdasarkan properti dari support vectors yang dapat mengeliminasi training vectors duplikat pada waktu bersamaan dengan asumsi persoalan harus separable dan memenuhi convexhull. Metode yang dipilih adalah SVM menggunakan SMO dengan proses pruning.

Hasil yang diharapkan adalah keakuratan dari metode yang dikembangkan apabila diaplikasikan terhadap segmentasi citra maupun klasifikasi, serta dapat mengurangi biaya komputasi.

II. METODOLOGI A. Data Masukan

Data Masukan adalah data awal yang akan diproses pada proses klasifikasi pola dengan Support Vector Machine menggunakan optimasi pruning. Data tersebut harus separable dan memenuhi convexhull. Data masukan berupa citra berwarna. Selain itu, data masukan berupa citra training yang diambil dari proses cropping citra awal. Citra training yang dipilih ada dua yaitu citra yang merepresentasikan objek dan latar belakang.

B. Proses Ekstraksi Nilai RGB

Proses ekstraksi nilai RGB ini merupakan proses pengambilan nilai red, green, dan blue sebagai masukan untuk melakukan proses klasifikasi. Masukan tersebut dapat dilihat pada Gambar 1 berupa warna biru yang merepresentasikan kelas 1 dan warna merah yang merepresentasikan kelas 2.

C. Eliminasi Training Vectors dengan Pemodelan Gaussian Proses eliminasi training vectors dengan pemodelan Gaussian ini bertujuan untuk mempercepat waktu komputasi dalam melakukan klasifikasi pola. Tahap pertama yang dilakukan adalah mengestimasi training vectors dengan distribusi Gaussian yang multivariat dengan Persamaan (1) dimana merupakan mean dari model Gaussian G, dan merupakan diagonal matriks covariance dengan pada diagonalnya. Untuk mencari mean dapat diperoleh dengan Persamaan (2) dan diagonal matriks covariance, diperoleh dengan Persamaan (3).

Implementasi Support Vector Machine dengan Optimasi Pruning Pada Persoalan Klasifikasi

Pola

Dinda F. Paramitha, Arya Y. Wijaya, dan Dini A. Navastara Jurusan Teknik Informatika, Fakultas Teknologi Informasi,

Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia

e-mail: arya@cs.its.ac.id

S

(2)

Gambar 1. Masukan training vectors yang akan dieksekusi

Gambar 2. Eliminasi training vectors dengan pemodelan Gaussian

(1)

∑

(2)

∑ (3)

Setelah mendapatkan hasil distribusi Gaussian, menghitung probabilitas multivariat distribusi Gaussian dengan nilai masukan training vectors f berdasarkan Persamaan (4).

√

(4)

Untuk menghitung training vectors pada salah satu kelas, dapat dilakukan dengan cara mencari rata-rata probabilitas P pada masing-masing training vectors menggunakan Persamaan (5) dimana

merupakan pusat dari kelas.

̅ ∑

(5)

Setelah mendapatkan rata-rata probabilitas P, kemudian mencari rata-rata minimum probabilitas ̅

menggunakan Persamaan (6) dan rata-rata maksimum probabilitas ̅

menggunakan Persamaan (7).

Gambar 3. Eliminasi training vectors dengan proses proyeksi

Gambar 4. Contoh Decision Boundary

̅ ∑ ( )

(6)

̅ ∑

(7)

Setelah mendapat hasil dari perhitungan yang dilakukan, dapat didefinisikan kondisi dengan Persamaan (8) dan Persamaan (9). Apabila banyak training vectors yang berlokasi pada batas kelas, maka training vectors yang diambil adalah yang training vectors yang masuk ke dalam ̅

.

̅

(8)

̅

(9) Hasil eliminasi training vectors dengan pemodelan Gaussian ditunjukan dengan warna hijau pada Gambar 2 karena dekat dengan decision boundary. Untuk training vectors yang dieliminasi adalah training vectors yang berada dekat dengan pusat dari masing-masing kelas.

D. Eliminasi Training Vectors dengan Proses Proyeksi

Proses proyeksi merupakan proses di mana melakukan

eliminasi pada data yang berulang. Training vectors dibagi

menjadi dua kelas yaitu I

train

dan J

train

. I

train

diasumsikan

sebagai asal dari koordinat sistem ke pusat dari kelas

diperoleh dengan Persamaan (10). Kemudian vektor yang

merupakan vektor gabungan pusat dari dua kelas diperoleh

dengan Persamaan (11).

(3)

(10)

(11)

Setelah memproyeksikan semua vektor pada vektor dengan Persamaan (12) dimana merupakan angle diantara input vektor dan vektor dapat disubstitusi dengan dan untuk dan seperti pada Persamaan (13).

| |

(12)

| |

(13)

Untuk pembagi di atas tidak perlu dilakukan karena merupakan nilai absolut. Apabila hasilnya memenuhi kriteria pada Persamaan (14), training vectors |

| akan dipertahankan. Hal ini ditunjukan dengan warna kuning pada Gambar 3. Apabila hasilnya 0 maka training vectors akan dieliminasi.

| | { | |

(14)

E. Sequential Minimal Optimization

Klasifikasi pola dilakukan dengan SVM menggunakan Sequential Minimal Optimization (SMO). SMO ditemukan oleh John Platt pada tahun 1998. SMO merupakan sebuah algoritma sederhana yang cepat dalam menyelesaikan masalah SVM Quadratic Problem (QP) tanpa memakai penyimpanan matriks ekstra dan tanpa melibatkan sebuah kegiatan numerikal berulang pada setiap sub masalah.

SMO memiliki 3 komponen yaitu metode analitis untuk menyelesaikan masalah Lagrange multipliers, sebuah heuristik untuk memilih multipliers manakah untuk mengoptimalkan, dan metode untuk menghitung. Keuntungan dari SMO adalah dalam menyelesaikan masalah dua Lagrange multipliers dapat dilakukan secara analitis[2].

F. Decision Boundary

Dalam masalah statistik klasifikasi dengan dua kelas, decision boundary atau permukaan keputusan merupakan hypersuperface yang partisinya ruang vektor yang mendasari dalam dua set, satu untuk masing-masing kelas. Classifier akan mengklasifikasi semua poin di satu sisi dari decision boundary sebagai milik satu kelas dan semua orang di sisi lain sebagai milik kelas lain [3]. Jika permukaan keputusan adalah sebuah hyperplane, maka masalah klasifikasi adalah linier, dan kelas-kelasnya dapat dipisahkan secara linier. Gambar 4 merupakan salah satu contoh decision boundary yang memisahkan kelas untuk diklasifikasi dengan SVM.

G. Evaluasi Hasil Klasifikasi Pola

Dalam mengevaluasi hasil klasifikasi pola dengan SVM menggunakan optimasi pruning, fungsi yang digunakan adalah dengan perhitungan akurasi seperti pada Persamaan (15).

(15)

III. UJI COBA DAN EVALUASI A. Data Uji Coba

Data uji coba merupakan citra berwarna. Data uji coba harus separable dan memenuhi convexhull. Uji coba berdasarkan ukuran citra training menggunakan 6 citra berwarna, sedangkan uji coba berdasarkan metode eliminasi training vectors yang digunakan menggunakan 25 citra berwarna. Salah satu contoh citra berwarna yang digunakan dapat dilihat pada Gambar 5 yang berupa citra bunga.jpg dan kanguru.jpg.

(a) (b)

Gambar 5. Citra berwarna yang digunakan pada uji coba; (a) citra bunga.jpg, dan (b) citra kanguru.jpg

B. Skenario Uji Coba

Uji coba pada sistem ini dilakukan beberapa skenario uji coba diantaranya adalah:

1. Perbandingan ukuran citra sebagai data masukan training dengan menggunakan ukuran berbeda-beda, yaitu 30x30,40x40, 50x50, dan 60x60.

2. Perbandingan hasil klasifikasi berdasarkan metode tanpa eliminasi training vectors, metode dengan eliminasi training vectors menggunakan pemodelan Gaussian, dan metode dengan eliminasi training vectors menggunakan pemodelan Gaussian dan proses proyeksi (optimasi pruning).

C. Hasil dan Analisa Uji Coba

Pada skenario pertama dilakukan perbandingan hasil akurasi klasifikasi pola berdasarkan ukuran citra training sebagai masukan yaitu 30x30, 40x40, 50x50, dan 60x60.

Perbandingan hasil tersebut dapat dilihat pada Gambar 6. Dari percobaan yang sudah dilakukan membuktikan bahwa ukuran citra training sangat mempengaruhi hasil klasifikasi pola. Hal tersebut ditunjukan pada akurasi terhadap citra uji coba.

Nilai akurasi setiap ukuran citra training yang optimal saat dilakukan uji coba adalah pada ukuran 50x50 dengan rata-rata akurasi sebesar 97,41%. Hal ini dapat dilihat pada Tabel 1.

Gambar 6. Grafik Perbandingan Hasil Akurasi Klasifikasi Pola Berdasarkan Ukuran Citra Training

0 20 40 60 80 100 120

1 2 3 4 5 6 7 8 9 10

Akurasi (%)

Citra Berwarna

Akurasi Berdasarkan Ukuran Citra Training

30x30 40x40 50x50 60x60

(4)

Selain melakukan perbandingan nilai akurasi, skenario ini juga menguji waktu komputasi yang dibutuhkan dalam melakukan klasifikasi pola. Semakin besar ukuran citra training yang digunakan, semakin lama waktu yang dibutuhkan untuk komputasi. Hal ini dapat dilihat pada Gambar 7 mengenai waktu komputasi berdasaarkan ukuran citra training 30x30, 40x40, 50x50, dan 60x60. Rata-rata waktu komputasi pada masing-masing ukuran citra training dapat dilihat pada Tabel 1. Hasil keluaran klasifikasi pola berdasarkan ukuran citra training dapat dilihat pada Gambar 8.

Gambar 7. Grafik Perbandingan Hasil Waktu Komputasi Klasifikasi Pola Berdasarkan Ukuran Citra Training

(a) (b)

(c) (d)

Gambar 8. Hasil Klasifikasi Pola Berdasarkan Ukuran Citra Training (a) 30x30 (b) 40x40 (c) 50x50 (d) 60x60

Pada skenario kedua dilakukan perbandingan hasil klasifikasi pola berdasarkan metode eliminasi training vectors yang digunakan. Selain itu juga dilakukan perbandingan berdasarkan waktu komputasi yang dibutuhkan dan akurasi.

Perbandingan waktu komputasi yang dibutuhkan berdasarkan metode eliminasi yang digunakan dapat dilihat pada Gambar 9, sedangkan perbandingan nilai akurasi berdasarkan metode eliminasi yang digunakan dapat dilihat pada Gambar 10.

Dari percobaan yang sudah dilakukan membuktikan bahwa metode eliminasi yang dilakukan mempengaruhi waktu komputasi dalam menjalankan sistem. Hal ini ditunjukan pada waktu komputasi pada setiap citra uji coba.

Rata-rata waktu komputasi untuk semua citra uji coba yaitu untuk klasifikasi tanpa pruning dibutuhkan waktu selama 267,15 detik. Untuk klasifikasi dengan eliminasi training vectors menggunakan pemodelan Gaussian, rata-rata waktu yang dibutuhkan selama 62,92 detik . Sedangkan untuk klasifikasi dengan pruning, rata-rata waktu yang dibutuhkan adalah selama 19,04 detik. Rata-rata waktu tersebut 13 kali lebih cepat apabila dibandingkan dengan klasifikasi tanpa pruning dan 3 kali lebih cepat apabila dibandingkan dengan klasifikasi dengan pemodelan Gaussian. Hasil tersebut dapat dilihat pada Tabel 2. Dari uji coba yang sudah dilakukan dapat membuktikan bahwa metode eliminasi yang digunakan mempengerahi waktu untuk menjalankan klasifikasi.

Gambar 9. Grafik Perbandingan Hasil Waktu Komputasi Berdasarkan Metode Eliminasi yang Digunakan

Gambar 10. Grafik Perbandingan Hasil Akurasi Berdasarkan Metode Eliminasi yang Digunakan

Untuk nilai akurasinya, terkadang ada yang citra yang diolah dengan klasifikasi menggunakan pruning memiliki 0

20 40 60 80 100 120

1 2 3 4 5 6 7 8 9 10

Waktu (detik)

Citra Berwarna

Waktu Komputasi Berdasarkan Ukuran Citra Training

60x60 50x50 40x40 30x30

500 100150 200250 300350 400450 500

1 3 5 7 9 11 13 15 17 19 21 23 25

Waktu (detik)

Citra Berwarna

Perbandingan Waktu Komputasi Berdasarkan Metode Eliminasi yang Digunakan

Tanpa Pruning Gaussian Pruning

80 82 84 86 88 90 92 94 96 98 100 102

1 3 5 7 9 11 13 15 17 19 21 23 25

Akurasi (%)

Citra berwarna

Perbandingan Akurasi Berdasarkan Metode Eliminasi yang Digunakan

Tanpa Pruning Gaussian Pruning

(5)

akurasi lebih rendah daripada citra yang diolah dengan tanpa pruning maupun dengan eliminasi dengan pemodelan Gaussian. Namun, akurasinya terkadang tidak terlalu berbeda jauh. Hal tersebut dapat dilihat pada Gambar 10.

Rata-rata akurasi untuk klasifikasi SVM tanpa pruning adalah 97,25%, dengan eliminasi pemodelan Gaussian adalah 97,27% dan SVM dengan pruning memiliki rata-rata akurasi sebesar 97,05%. Hasil keluaran klasifikasi pola berdasarkan metode eliminasi yang digunakan dapat dilihat pada Gambar 11 yaitu hasil klasifikasi pola tanpa pruning, dengan pemodelan Gaussian, dan menggunakan pruning.

(a) (b) (c)

Gambar 11. Hasil Klasifikasi Pola Berdasarkan Metode Eliminasi yang Digunakan (a) Tanpa Pruning (b) Eliminasi dengan Pemodelan

Gaussian (c) Menggunakan Pruning

IV. KESIMPULAN

Metode Support Vector Machine (SVM) dengan optimasi pruning dapat digunakan untuk melakukan klasifikasi pola menggunakan citra berwarna dengan hasil yang baik. Metode ini secara optimal melakukan klasifikasi pola dengan ukuran citra training sebesar 50x50 dengan rata-rata akurasi 97,41%.

Metode SVM dengan optimasi pruning memiliki waktu komputasi yang 13 kali lebih cepat daripada metode SVM tanpa pruning (267,15 detik) yaitu 19,64 detik. Dari hasil uji coba tersebut dapat disimpulkan bahwa mereduksi waktu komputasi tidak banyak mempengaruhi hasil akurasi.

LAMPIRAN

Tabel 1. Rata-rata Akurasi dan Waktu Komputasi Berdasarkan Ukuran Citra Training

No. Rata-rata Ukuran Citra Training 30x30 40x40 50x50 60x60 1. Akurasi (%) 93,98 95,95 97,41 92,43 2. Waktu

komputasi

(detik) 11,69 16,86 18,65 28,16

Tabel 2. Rata-rata Akurasi dan Waktu Komputasi Berdasarkan Metode Eliminasi yang Digunakan

No. Rata-rata

Metode Eliminasi Tanpa

Pruning

Eliminasi dengan

Gaussian Pruning

1. Akurasi (%) 97,25 97,27 97,05

2. Waktu komputasi

(detik) 267,15 69,92 19,64

UCAPAN TERIMA KASIH

Penulis D.F.P. mengucapkan terima kasih kepada Tuhan Yang Maha Esa dan semua pihak yang membantu dalam menyelesaikan penelitian ini.

DAFTAR PUSTAKA

[1] John C. Platt, "Using analytic QP and sparseness to speed training of support vector," NIPS, pp. 557-563, 1998.

[2] John C. Platt, "Fast Training of Support Vector Machines using Sequential Minimal Optimization," Microsoft Research, 1998.

[3] Wikipedia. (2014, Mei) Decision boundary - Wikipedia, the free encyclopedia. [Online]. http://en.wikipedia.org/wiki/Decision_boundary