TINJAUAN PUSTAKA Hyperspectral - Seleksi Hyperspectral Band Menggunakan Recursive Feature Elimi

Recursive Feature Elimination (RFE) dan prediksi yield menggunakan Support Vector Regression (SVR).

2 Mendapatkan kernel yang cocok untuk

Support Vector Regression.

3 Membandingkan kaidah p-norm pada hasil SVR.

Ruang Lingkup Penelitian

Data yang digunakan adalah data

hyperspectral milik PTISDA - BPPT yaitu data

airbone (hymap) dengan ketinggian 2000 m dari permukaan bumi pada tahun 2008 di kawasan Indramayu dan Subang. Data hyperspectral ini terdiri atas nilai-nilai reflectance dan panjang gelombang (wavelength) tanaman padi.

Hasil seleksi fitur dan prediksi dengan

Recursive Feature Elimination – Support Vector Regression akan dievaluasi menggunakan Root Mean Square Error (RMSE) dan sebagai pembanding juga digunakan koefisien determinasi (R2).

TINJAUAN PUSTAKA Hyperspectral

Penginderaan jauh adalah ilmu untuk memperoleh informasi tentang objek, daerah atau gejala, dengan jalan menganalisis data

2 yang diperoleh dengan menggunakan alat, tanpa

kontak langsung dengan objek, daerah atau gejala yang akan dikaji (Lillesand & Kiefer 1990). Contoh teknologi yang digunakan yaitu

multispectral dan hyperspectral.

Multispectral menghasilkan gambar dengan beberapa band panjang gelombang yang relatif luas, sedangkan hyperspectral mengumpulkan data gambar dalam ratusan atau ribuan band

spektral yang berdekatan secara bersamaan. Data citra hyperspectral dihasilkan oleh alat yang disebut spektrometer yang melibatkan konvergensi dua teknologi yaitu spektroskopi dan pencitraan jauh (Smith 2006).

Citra hyperspectral memiliki data spektrum puluhan hingga ribuan band. Lebar band data memiliki interval 1 nm - 15 nm, sedangkan pada

multispectral lebar band berkisar antara 50 sampai 120 nm. Data multispectral bisa memiliki celah atau renggang antar-spektral

band yang dikumpulkan, sedangkan data

hyperspectral memiliki kumpulan band yang kontinu (Borengasser et al. 2008). Gambar 2 memperlihatkan perbandingan antara data

multispectral dan hyperspectral. Data

hyperspectral (ASD FieldSpec 3 spectroradiometer) memiliki 150 band dengan rentang sebesar 350 nm sampai dengan 2500 nm, sedangkan data multispectral (Landsat ETM+) merupakan pendekatan rentang band

dari data hyperspectral, tidak merepresentasikan semua sensor (Mutanga et al. 2009).

Gambar 2 Perbandingan data multispectral dan

hyperspectral tanaman Eucalyptus grandis (Mutanga et al. 2009).

Reflectance adalah persentase cahaya yang dipantulkan oleh suatu material. Nilai

reflectance bervariasi untuk setiap benda dengan bahan yang berbeda (Borengasser et al.

2008). Gelombang elektromagnetik yang diterima oleh daun dapat dilihat pada Gambar 3. Klorofil menyerap cahaya tampak secara efektif. Akan tetapi, penyerapan berpusat pada panjang gelombang merah (sekitar 650 nm) dan

gelombang biru pada bagian palisade daun. Gelombang hijau hanya diperlukan sedikit dan dipantulkan kembali, sehingga warna daun tanaman sehat tampak hijau. Reflektansi naik tajam 40-50% antara gelombang infrared dan

near infrared (NIR) sekitar 700-1000 nm karena interaksi yang terjadi pada sel internal daun. Daun menyerap gelombang merah dan biru pada saat pertumbuhan, sedangkan reflektansi NIR menurun dan memantulkan gelombang merah pada akhir pertumbuhan (gugur), sehingga warna daun terlihat merah, kuning atau kecoklatan (Smith 2006).

Gambar 3 Penyerapan gelombang elektromagnetik pada daun (http://rst.gsfc.nasa.gov).

Support Vector Machine (SVM)

Support Vector Machine (SVM) pertama kali diperkenalkan oleh Boser, Guyon, dan Vapnik pada tahun 1992. Konsep dasar SVM merupakan kombinasi dari teori-teori komputasi yang telah ada, seperti marginhyperplane oleh Duda dan Hart pada tahun 1973, kernel yang diperkenalkan oleh Aronszajn pada tahun 1950, dan konsep pendukung lainnya.

Menurut Nugroho et al. (2003), prinsip dasar SVM adalah linear classifier, dan selanjutnya dikembangkan agar dapat bekerja pada masalah non-linear, dengan memasukkan konsep kernel trick. Gambar 4a memperlihatkan beberapa pola yang merupakan anggota dari dua buah kelas : +1 dan -1. Pola yang tergabung pada kelas -1 disimbolkan dengan kotak, sedangkan pola pada kelas +1 disimbolkan dengan lingkaran. Masalah klasifikasi ini dapat diselesaikan dengan usaha menemukan garis (hyperplane) maksimum yang memisahkan antara kedua kelas tersebut (Nugroho et al.

3 (a)

(b)

Gambar 4 Pemisah antar-kelas (hyperplane) (Nugroho et al. 2003).

Data yang tersedia dinotasikan sebagai ∈

, sedangkan label masing-masing dinotasikan

yi∈{-1,+1} untuk i = 1, 2,…, l, dengan l adalah

banyaknya data. Diasumsikan kedua kelas -1 dan +1 dapat terpisah secara sempurna oleh

hyperplane berdimensi d, yang didefinisikan

. + = 0 (1)

Pola yang termasuk kelas -1 (sampel negatif) dapat dirumuskan sebagai pola yang memenuhi pertidaksamaan

. + −1 (2)

Sedangkan pola yang termasuk kelas +1 (sampel positif)

. + +1 (3)

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane

dan titik terdekatnya, yaitu 2/|| ||. Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan (4), dengan memperhatikan

constraint persamaan (5). � = 1 2 2₍₄₎ . + −1 0,∀ (5) Persoalan ini dapat diselesaikan dengan beberapa teknik komputasi, di antaranya

Lagrange Multiplier (Cristianini & Taylor 2000). , , =1 2 2 − ( ( . + −1)) =1 (i = 1, 2, …, l) (6) Pada persamaan (6), adalah Lagrange multipliers data yang memiliki nilai 0 atau positif. Nilai optimal dari persamaan (6) dapat dihitung dengan meminimalkan L terhadap dan b, serta memaksimalkan L terhadap . Persamaan (6) dapat dimodifikasi dengan memerhatikan sifat bahwa pada titik optimal

gradient L = 0, sebagai maksimalisasi masalah yang hanya mengandung , sebagaimana persamaan (7). Memaksimalkan: −1₂ , =1 =1 (7) dengan kendala : 0 = 1, 2,…, =1 = 0 (8) Dari hasil perhitungan ini diperoleh yang kebanyakan bernilai positif. Data yang berkorelasi dengan yang positif ini yang disebut sebagai support vector (Nugroho et al. 2003).

Support Vector Regression

SVR merupakan penerapan konsep Support Vector Machine (SVM) untuk kasus regresi. Output berupa bilangan riil atau kontinu dalam kasus regresi. SVR merupakan metode yang dapat mengatasi overfitting, sehingga akan menghasilkan kinerja yang bagus. SVR digunakan untuk menemukan suatu fungsi f(x)

yang mempunyai deviasi paling besar dari nilai aktual y, untuk semua data training. Jika nilai = 0, maka kita dapatkan suatu regresi yang sempurna (Santosa 2007).

Diketahui suatu data training regresi = ₁, ₁ , ₂, ₂ ,…, , ⊆ × , dapat menghitung model SVR yang optimal

∗₌ ∗_{⋅ −} ∗_{dengan masalah optimasi} dual max , ′ � , ′ ₌









, 1 1 1 max 2 l l i j i i j j i j x x                  











1 1 l l i i i i i i i y

 



 

         _ 



Discrimination boundaries Kelas -1 Kelas +1 Kelas -1 Kelas +1 Margin

4 dengan kendala − ′ =1 = 0, , ′ 0 untuk i = 1, …,l, dengan ∗₌ ∗₋ ′∗ =1 , ∗₌1∗_{⋅ −} =1 ,

Model SVR dapat menginterpretasikan , untuk koefisien − ′ yang tidak bernilai nol merupakan support vector. Perhatikan solusi untuk model regresi yang optimal ∗₌ ∗_{⋅ −} ∗ = ∗− ′∗ =1 ⋅ −1 ∗₋ ′∗ =1 =1 ⋅ −

hanya tergantung pada support vector. Oleh karena itu, Support Vector Regression dapat mengacu pada model tersebut.

Penggunaan regresi linear dengan SVR dapat diterapkan pada kasus regresi non linear dengan menggunakan kernel trick, sehingga penggunaan dot product pada model optimasi tersebut dapat diganti dengan fungsi kernel

(Hamel 2000). Konstanta C > 0 menentukan

trade off antara ketipisan fungsi f dan batas atas deviasi lebih dari masih ditoleransi. Semua deviasi lebih besar dari akan dikenakan pinalti C (Gambar 5). ekuivalen dengan akurasi dan aproksimasi terhadap training (Santosa 2007).

Gambar 5 Linear SVR (Santosa 2007). Kernel Trick

Data dipetakan oleh fungsi Φ( ) ke ruang vektor yang berdimensi lebih tinggi.

Hyperplane yang menjadi garis regresi dapat dikonstruksikan dalam ruang vektor yang baru ini. Ilustrasi dapat dilihat pada Gambar 6.

Gambar 6a memperlihatkan data pada regresi non-linear berdimensi dua. Selanjutnya, Gambar 6b menunjukkan bahwa fungsi Φ memetakan tiap data pada input space tersebut ke ruang vektor baru yang berdimensi lebih tinggi (dimensi 3). Notasi matematika dari pemetaan ini adalah

Φ ∶ → , < (11)

(a)

(b) Gambar 6 Pemetaan ruang vektor. Selanjutnya proses pembelajaran pada SVM regresi dalam menemukan titik-titik support vector, hanya bergantung pada dot product dari data yang sudah ditransformasikan pada ruang baru yang berdimensi lebih tinggi, yaitu Φ( Ԑ.Φ( ). Oleh karena transformasi Φ ini tidak diketahui, dan sangat sulit untuk dipahami secara mudah, maka perhitungan dot product

tersebut sesuai teori Mercer dapat digantikan dengan fungsi , yang mendefinisikan secara implisit transformasi Φ . Hal ini disebut sebagai Kernel Trick, yang dirumuskan

, = Φ( Ԑ.Φ( ) (12)

Kernel trick memberikan berbagai kemudahan, karena dalam proses pembelajaran SVM, untuk menentukan support vector, cukup mengetahui fungsi kernel yang dipakai, dan tidak perlu mengetahui wujud dari fungsi non linear Φ (Nugroho et al. 2003). Berbagai jenis fungsi kernel dikenal, dapat dilihat pada Tabel 1.

5 Tabel 1 Beberapa jenis kernel yang digunakan.

Jenis Kernel Definisi Linear , = ( ′. ) Polynomial , = ( . + 1) Gaussian/RBF , = exp − − 2 2�2 Sigmoid , = tanh . + LIBSVM

LIBSVM adalah library untuk Support Vector Machines (SVM) yang telah dikembangkan sejak tahun 2000. Tujuannya adalah untuk membantu pengguna supaya mudah menerapkan SVM untuk keperluan berbagai aplikasi, seperti masalah optimasi, klasifikasi multi-kelas, prediksi dan pemilihan parameter (Chang & Lin 2011). LIBSVM mendukung pembelajaran berikut :

1 SVC: support vector classification (dua atau lebih kelas).

2 SVR: support vector regression. 3 One-class SVM.

Penggunaan LIBSVM melibatkan dua langkah. Pelatihan data untuk memperoleh model dan menggunakan model untuk memprediksi informasi dari data pengujian.

Pembelajaran yang dipakai yaitu �-Support Vector Regression. Berdasarkan data training, {(x1, z1Ԑ,…, (xl, zl)}, dengan xi ∈ adalah

vektor fitur dan zi ∈ 1 adalah nilai output.

Parameter C > 0 dan �> 0, memiliki bentuk standar min , ,�,�∗ 1 2 + � + =1 �∗ =1 dengan kendala: � + − �+�, − � − �+�∗, �,�∗ 0, = 1,…, .

Permasalahan dual yaitu min , ∗ 1 2 − ∗ − ∗ +� ( + ∗) + =1 ( − ∗) =1 (13) dengan kendala − ∗ _{= 0,} 0 , ∗ , = 1,…, , dengan , = ( , )≡ � � .

Setelah penyelesaian persamaan 13, pendekatan fungsinya :

−=1 + ∗ , + (14) Recursive Feature Elimination (RFE)

Feature selection adalah upaya untuk memilih fitur subset dari fitur asli yang paling berguna. Feature extraction adalah upaya untuk memetakan semua fitur ke dalam fitur baru yang lebih sedikit. Kelebihan feature selection

dibandingkan feature extraction adalah akusisi data yang lebih cepat. Oleh karena itu, pengurangan fitur pada data hyperspectral yang berupa band akan lebih baik jika menggunkan

feature selection dibandingkan feature extraction (Nakariyakul & Casasent 2004).

Recursive Feature Elimination (RFE) merupakan salah satu teknik seleksi fitur.

Properti yang terkenal dari sebuah SVM yaitu terdapat generalisasi error (GE), yang dibatasi oleh

� 1 22 (15) dengan R adalah jari-jari terkecil dari data pelatihan yang ditransformasikan, dipisahkan oleh M margin sebanyak data N.

RFE fokus untuk meminimalkan GE dengan menghilangkan fitur-fitur yang memaksimalkan margin. Pengukuran prediksi berbanding terbalik dengan margin pada persamaan

�2₌ _Φ _,

=1 =1

(16) Oleh karena itu, margin dapat dimaksimalkan dengan meminimalkan W dengan algoritme RFE. Pengembangan dari persamaan (16) yaitu

�2

− = =1 =1 Φ − , − dengan ₋ yaitu data pelatihan ke-i dengan dengan membuang fitur f (Archibald & Fann 2007).

Bootstrapping (8-fold)

Peningkatan akurasi dalam proses kalibrasi regresi (model prediksi), sampel yang tersedia dibagi ke dalam 8 bagian secara acak, yaitu satu bagian merupakan data pengujian (test set), sedangkan sisanya merupakan data pelatihan

6 (train set). Proses kalibrasi dilakukan secara

iterasi sebanyak 8 kali pelatihan dan pengujian. Dari hasil pengujian diperoleh 8 alternatif hasil dan model yang terbaik dipilih berdasarkan nilai

error yang paling minimum (Mulyono, dkk 2011).

Koefisien Determinasi (R2)

Koefisien determinasi digunakan untuk menilai kecocokan model regresi yang digunakan dengan data. Koefisien ini disimbolkan dengan R2, sedangkan

persamaannya sebagai berikut: 2₌ ( − )

2 =1

( − )2 =1

dengan adalah nilai y hasil prediksi dan adalah rata-rata dari y aktual (Sembiring 1995).

Sembiring (1995) menyatakan bahwa semakin dekat 2_{dengan 1, maka semakin baik} kecocokan data dengan model, sedangkan semakin dekat 2_{dengan 0, semakin kurang} baik kecocokan data dengan model. Range nilai

2_{yaitu dari 0 sampai dengan 1.} Root Mean Square Error (RMSE)

Memeriksa error dapat dilakukan dengan menghitung Root Mean Square Error (RMSE) pada sebuah model dengan persamaan sebagai berikut:

= ( − ) 2 =1

dengan n adalah jumlah data, adalah nilai aktual data ke-i, dan adalah nilai prediksi data ke-i.

P-Norm

P-norm didefinisikan sebagai

= ( =1 )1 , dengan 1, ∈ dapat dibuktikan bahwa sifat euclidean norm

berikut berlaku untuk semua p-norm:

0 = 0 ⟺ = 0,

= , ,

+ +

Akan tetapi, kenyataannya hanya tiga bentuk dari p-norm yang digunakan, yaitu

1= =1 , 2= 2 =1 1 2 , _∞= lim →∞ = lim→∞ =1 1 2

(Max norm) (Meyer 2000).

Dalam dokumen Seleksi Hyperspectral Band Menggunakan Recursive Feature Elimination untuk Prediksi Produksi Padi dengan Support Vector Regression (Halaman 32-37)