BAB 2
LANDASAN TEORI
2.1. Klasifikasi
Klasifikasi adalah sebuah proses untuk menemukan sebuah model yang menjelaskan dan membedakan konsep atau kelas data dengan tujuan memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et al., 2004). Dalam klasifikasi, diberikan sejumlah record yang dinamakan data latih, yang terdiri dari beberapa atribut yang dapat berupa kontinu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record, dimana pemetaannya dapat dilihat pada Gambar 2.1.
Gambar 2.1. Pemetaan atribut (x) ke dalam label kelas (y)
2.1.1. Tujuan Klasifikasi
Tujuan dari klasifikasi adalah untuk :
1. Menemukan model dari data latih yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada
testing set.
2.1.2. Konsep Pembuatan Model dalam Klasifikasi
Untuk mendapatkan model, harus dilakukan analisis terhadap data latih, Sedangkan data uji digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu objek data. Proses klasifikasi data dapat dibedakan dalam dua tahap, yaitu :
1. Pembangunan Model
Tiap-tiap record yang digunakan dalam pembangunan model dianalisis berdasarkan nilai-nilai atributnya dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
2. Klasifikasi
Pada tahap ini, data diuji untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan
record data baru yang belum pernah dilatihkan atau diujikan sebelumnya. Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai :
1. Setiap record diasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh label kelas atribut.
2. Kumpulan record yang digunakan untuk membuat model disebut data pelatihan.
3. Model direpresentasikan sebagai pola dalam penentuan klasifikasi.
Penggunaan model menguraikan pengklasifikasian data yang akan diuji ataupun objek yang belum diketahui. Adapun parameter keberhasilan dari model yang terdiri dari:
1. Label yang telah diketahui dari data latih dibandingkan dengan hasil klasifikasi dari model.
2. Nilai akurasi adalah persentase dari kumpulan data uji yang diklasifikasikan secara tepat oleh model.
3. Data uji tidak sama dengan data latih.
2.2.Citra
Citra adalah suatu komponen multimedia yang berperan penting untuk memberikan informasi yang bersifat visual dan memiliki karektiristik yang tidak dimiliki oleh teks maupun audio (Hermawati, 2013). Citra didefinisikan sebagai fungsi dua dimensi f(x,y), dimana x dan y merupakan koordinat spasial dengan nilai f pada koordinat tersebut yang diberi nama intensitas (intensity) atau gray level (Gonzales et al., 2002).
2.2.1. Citra Warna
Citra warna atau citra RGB merupakan jenis citra yang menyediakan warna dalam bentuk red (R), green (G), dan blue (B). Setiap komponen warna menggunakan 8 bit, nilainya berada diantara 0 sampai 255. Warna yang disediakan yaitu 255 x 255 x 255. Warna ini disebut juga dengan true color karena memiliki jumlah warna yang cukup besar.
2.2.2. Citra Keabuan
Citra keabuan menggunakan warna hitam sebagai warna minimum, warna putih sebagai warna maksimum, dan warna abu-abu yaitu warna diantara warna dimana komponen merah, hijau, dan biru memiliki intensitas yang sama. Jumlah bit yang dibutuhkan untuk tiap piksel menentukan jumlah tingkat keabuan yang tersedia. Misalnya untuk citra keabuan 8 bit yang tersedia adalah atau 256.
2.3. Pengolahan Citra
Pengolahan citra atau image processing adalah ilmu yang mempelajari tentang
manipulasi dan modifikasi citra, seperti perbaikan kualitas citra, pemilihan ciri citra
atau feature images yang bertujuan untuk analisis, dan transformasi citra dengan
menggunakan komputer untuk mendapatkan hasil yang lebih baik (Kadir et al., 2013).
2.3.1. Grayscaling
Grayscaling merupakan proses mengubah citra warna (RGB) menjadi citra keabuan.
Grayscaling digunakan untuk menyederhanakan model citra RGB yang memiliki 3
dan blue dengan konstanta yang jumlahnya 1, ditunjukkan pada persamaan 2.1 (Kadir & Susanto, 2012).
I = a x R + b x G + c x B, a+ b+ c = 1
Dimana:
I = nilai intensitas keabuan sebuah piksel citra hasil grayscaling R = nilai komponen merah pada sebuah piksel
G = nilai komponen hijau sebuah piksel
B = nilai komponen biru sebuah piksel
2.3.2. Gaussian
Gaussian filtering didapat dari hasil operasi konvolusi. Operasi perkalian yang dilakukan ialah perkalian antara matriks kernel dengan matriks gambar asli. Perhitungan matriks kernel gauss didapat dari fungsi komputasi dari distribusi
Gaussian berdasarkan teori gaussian function (Weisstein, 2002), seperti pada persamaan 2.2.
� , =
�� − − + −�Dimana: � = konstanta
G (i, j) = elemen matriks kernel gauss pada posisi (i, j) (u, v) = indeks tengah dari matriks kernel gauss
Contoh matriks kernel gauss 5 x 5 dengan � = 1.0 ditunjukkan pada Tabel 2.1. Tabel 2.1. Contoh matriks kernel gaussian 5 x 5 dengan � = 1.0
1 4 7 4 1
4 16 26 16 4 7 26 41 26 7 4 16 26 16 4
1 4 7 4 1
(2.2)
Perkalian antara bobot matriks gambar asli dengan bobot matriks kernel gauss
ditunjukkan pada persamaan 2.3.
� , = . ∑ (∑ − � , . �
= + − − , + − − )
− =
Dimana:
Piksel A = gambar A (Gambar Asli)
Piksel B(i,j) = bobot hasil perkalian pada posisi (i,j) N = jumlah kolom matriks kernel
M = jumlah baris matriks kernel K = jumlah semua bobot di G
G(p,q) = elemen matriks kernel gauss pada posisi (p,q)
2.3.3. Thresholding
Cara untuk mengubah citra keabuan menjadi citra biner adalah thresholding. Proses
thresholding menggunakan nilai batas (threshold) untuk mengubah nilai piksel pada citra keabuan menjadi hitam atau putih. Jika nilai piksel pada citra keabuan lebih besar dari threshold, maka nilai piksel akan diganti dengan 1 (putih), sebaliknya jika nilai piksel citra keabuan lebih kecil dari threshold maka nilai piksel akan diganti dengan 0 (hitam).
Thresholding sering disebut dengan proses binerisasi. Thresholding dapat digunakan dalam proses segmentasi citra untuk mengidentifikasi dan memisahkan objek yang diinginkan dari background berdasarkan distribusi tingkat keabuan atau tekstur citra (Liao et.al., 2001). Proses thresholding ditunjukkan pada persamaan 2.4.
, { ,, > �≤ �}
Dimana:
g (x,y) = piksel citra hasil binerisasi f (x,y) = piksel citra asal
T = nilai threshold
(2.3)
2.4. Invariant moment
Invariant moment sering digunakan sebagai fitur dalam pemrosesan citra, pengenalan bentuk maupun klasifikasi. Moment dapat memberikan karakteristik suatu objek yang merepresentasikan bentuknya secara unik. Pengenalan bentuk invariant dilakukan dengan mengklasifikasi ruang fitur invariant moment multi-dimensi. Beberapa teknik telah dikembangkan untuk penurunan fitur invariant dari moment objek untuk representasi dan pengenalan objek. Teknik ini dibedakan oleh definisi momentnya, seperti jenis data yang dieksploitasi dan metode untuk menurunkan nilai invariant dari moment citra. (Hu, 1962) melakukan penghimpunan dasar matematika untuk moment invariant dua dimensi dan menunjukkan aplikasinya dalam pengenalan bentuk untuk pertama kali. Nilai moment invariant ini adalah invariant terhadap translasi, skala dan rotasi bentuk salah satu metode untuk ektraksi ciri bentuk yang ada pada pengolahan citra.
2.4.1. Konsep Invariant Moment
Invariant moment terdiri dari 7 nilai descriptor bentuk yang dihitung dari moment
pusat melalui tiga derajat yang bebas terhadap translasi, skala dan arah objek.
Invariant translasi dicapai dengan menghitung moment yang dinormalisasi dengan pusat grafitasi sehingga pusat dari masa distribusi berada pada moment pusat. Moment invariant ukuran diturunkan dari invariant aljabar tapi moment ini dapat diperlihatkan dari hasil penyederhanaan momen ukuran. Dari nilai order dua dan tiga moment pusat yang ternormalisasi, 7 moment invariant dapat dihitung yang juga bebas rotasi.
Secara tradisional, moment invariant dihitung berdasarkan informasi yang diberikan oleh boundary bentuk dan daerah interiornya (Prokop & Reeves, 1992).
Moment digunakan untuk membentuk moment invariant yang didefinisikan secara kontinu namun untuk implementasi praktis, moment dihitung secara diskrit. Perhitungan invariant moment diambil dan diringkas dari (Hu, 1962) sebagai berikut. Diberikan sebuah fungsi f(x,y) moment didefinisikan oleh :
Mpq merupakan moment dua dimensi dari fungsi f(x,y). Order moment adalah (p +
q) dimana p dan q adalah bilangan asli. Untuk implementasi di dalam bentuk digital dinyatakan pada persamaan 2.6.
Dimana m merupakan moment yang akan dicari, p dan q merupakan integer yaitu 0,1,2,…, H merupakan tinggi citra, W merupakan lebar citra, x merupakan baris, y merupakan kolom, dan f(x,y) merupakan nilai intensitas citra. Selanjutnya moment
pusat untuk suatu citra dinyatakan pada persamaan 2.7.
� = ∑ ∑�− − ̅ − ̅
− �−
= ,
Dimana nilai moment pusat ̅merupakan hasil pembagian dari nilai moment pusat m10 dan m00 sedangkan nilai moment pusat ̅ diperoleh dari hasil pembagian dari nilai moment pusat m01 dan m00 yang dinyatakan pada persamaan 2.8.
̅ = dan ̅ =
Setelah mendapatkan nilai � , � , � , � , � , � , dan � untuk setiap objek, maka masuk ke tahap menormalisasikan nilai moment pusat dengan menggunakan persamaan 2.9.
Maka akan didapatkan nilai normalisasi moment pusat dari setiap objek � , � , � , � , � , � , dan � . Setelah itu masuk ke dalam persamaan 2.10 untuk mendapatkan tujuh nilai invariant moment untuk setiap objek.
� = � − � + � + � � = � + � + � + �
� = � − � � + � [ � + � − � + � ]
+ � − � � + � [ � + � − � + � ]
� = � − � [ � + � − � + � ] + � � + � � + �
� = � − � � + � [ � + � − � + � ]
− � − � � + � [ � + � − � + � ]
2.5. Jaringan Saraf Tiruan
Jaringan saraf tiruan merupakan suatu artificial intelligent yang mengolah informasi dengan cara meniru kinerja jaringan saraf biologis yaitu otak manusia yang terjadi pada jaringan sel syaraf (neuron). Konsep dari jaringan saraf tiruan ini adalah menerima rangsangan lalu mengolah rangsangan tersebut dan keputusan diambil berdasarkan pola yang telah dipelajari.
Tujuan melatih jaringan saraf tiruan adalah untuk mencapai keseimbangan antara kemampuan memorisasi dan generalisasi. Kemampuan memorisasi merupakan kemampuan untuk memanggil kembali sebuah pola yang telah dipelajari secara sempurna sedangkan kemampuan generalisasi merupakan kemampuan untuk menghasilkan respon yang dapat diterima terhadap pola-pola input yang serupa (tidak identik) dengan pola – pola yang sebelumnya telah dipelajari (Bishop, 1995)
Komponen utama pada jaringan saraf tiruan yaitu : 1. Neuron
Neuron merupakan elemen pengolahan jaringan saraf tiruan. Pada setiap
neuron menerima input, memproses input (melakukan sejumlah perkalian dengan melibatkan summation function dan fungsi aktivasi) dan mengirimkan hasilnya berupa output (Puspitaninggrum, 2006).
2. Bobot
3. Summation Function
Summation function merupakan suatu fungsi yang digunakn untuk merata - rata bobot dari semua elemen input dengan mengalikan setiap nilai input
dengan bobot dan menjumlahkan bobotnya 4. Fungsi Aktivasi
Fungsi aktivasi merupakan fungsi yang menentukan output dari suatu neuron
berdasarkan sinyal masukan yang diterima. 5. Layer
Layer merupakan lapisan pada jaringan saraf tiruan. Asritekur jaringan saraf tiruan terbagi menjadi 3 yaitu jaringan lapisan tunggal dan lapisan
multilayer. Jaringan layer tunggal terdiri dari lapisan input dan output saja. Sedangkan jaringan multilayer terdiri dari lapisan input, lapisan tersembunyi yang terletak diantara lapisan input dan lapisan output serta lapisan output.
Pengelompokkan jaringan saraf tiruan terbagi menjadi 2 yaitu jaringan saraf tiruan umpan maju dan jaringan saraf tiruan umpan balik
1. Jaringan saraf tiruan umpan maju (feed-forward networks)
Jaringan saraf tiruan umpan maju (feed-forward networks) merupakan sebuah jaringan sederhana dimana signal bergerak dari input menuju lapisan tersembunyi dan akhirnya mencapai unit output. Tipe jaringan umpan maju mempunyai sel saraf yang tersusun dari beberapa lapisan. Lapisan ini hanya mengenalkan suatu nilai dari suatu variabel. Lapisan tersembunyi dan lapisan output sel syaraf terhubung satu sama lain dengan lapisan sebelumnya. Contoh jaringan saraf tiruan umpan maju adalah single layer perceptron, multi layer perceptron, Radial Basis Function (Argadinata, 2013).
2. Jaringan saraf tiruan umpan balik (feedback networks)
2.6. Radial Basis Function (RBF)
Radial Basis Function merupakan salah satu model jaringan saraf tiruan berbentuk
multilayer perceptron yang memperbaiki nilai-nilai bobot, nilai tengah, dan jarak antar data untuk memecahkan suatu permasalahan (Buhmann, 2003). RBF terdiri dari 3 lapisan yaitu lapisan masukan (input layer), lapisan tersembunyi (hidden layer), dan lapisan keluaran (output layer). Jaringan saraf tiruan RBF dapat digambarkan seperti pada Gambar 2.2.
Gambar 2.2. Arsitektur umum Radial Basis Function
Neuron pada lapisan tersembunyi pada RBF melakukan transformasi non-linear dan memetakan masukan pada neuron lapisan masukan ke neuron lapisan tersembunyi tanpa parameter yang diubah-ubah. Selanjutnya neuron pada lapisan keluaran melakukan kombinasi linear terhadap neuron lapisan tersembunyi dengan parameter yang diubah-ubah yakni bobot hubungan antara neuron di lapisan tersembunyi dengan neuron pada lapisan keluaran.
Pada jaringan RBF, hidden layer menggunakan fungsi gaussian sebagai fungsi aktivasi Radial Basis Function (Bors, n.d.). Fungsi gaussian dinyatakan dengan:
� = −
‖�− � ‖
Dimana:
cj = nilai center Gaussian ke-j
σj = standar deviasi Gaussian ke-j
x = masukan fungsi basis ϕj= fungsi Gaussian
Fungsi σ dinyatakan dengan persamaan 2.13.
� =
���√�
Dimana merupakan nilai distance atau jarak terbesar dari hiddenj dan Cj
merupakan nilai centroid pada hidden j.
2.6.1. Algoritma K-Means
Jaringan RBF mempunyai karakteristik dalam perhitungan fungsi aktivasi. RBF membutuhkan sebuah metode untuk mendapatkan nilai centroid dan standar deviasi pada jaringan hidden layer. Data input dikelompokkan menjadi beberapa kelompok atau cluster sehingga nilai centroid dan standar deviasi lebih mudah untuk dihitung. Salah satu cara untuk mendapatkan nilai centroid dan standar deviasi adalah menggunakan metode K-Means. Flowchart algoritma K-Means dapat dilihat pada Gambar 2.3 (Wu, 2012).
Gambar 2.3. Flowchart algoritma K-Means Clustering (Wu, 2012)
Tahapan algoritma K-Means (Wu, 2012) dapat dijabarkan sebagai berikut:
1. Menentukan jumlah cluster atau kelompok pada jaringan Radial Basis Function. Cluster merupakan jumlah hidden yang digunakan
2. Menentukan nilai centroid secara acak dari data dari sumber yang ditentukan.
3. Menghitung jarak data ke centroid menggunakan Euclidean Distance
dengan persamaan 2.14
( , ) = √ ∑ = − ²
Dimana adalah nilai vector input dari i dan adalah nilai vektor dari
centroid hidden ke j.
4. Kemudian memperbaharui nilai centroid dengan cara mencari nilai mean
dari anggota kelompok yang dapat dinyatakan pada persamaan sebagai berikut.
= ∑ =
5. Pengelompokan data sesuai dengan kelompok atau cluster, yaitu data yang memiliki jarak terpendek misalnya d( , < d( , maka masuk kedalam kelompok 1.
6. Ulangi langkah pertama sampai kelima hingga nilai centroid tidak berubah. Setelah proses pencarian nilai centroid dari data input menggunakan algoritma K-Means dilakukan, tahap selanjutnya dilakukan perhitungan nilai gaussian dengan menggunakan persamaan 2.12. Nilai input hasil pencarian centroid digunakan pada
hidden layer. Sebelum menghitung nilai gaussian, nilai standar deviasi ditentukan terlebih dahulu menggunakan persamaan 2.13.
Setelah nilai gaussian diketahui, maka proses selanjutnya adalah mencari nilai deviasi adalah menghitung bobot baru (W) dengan mengalikan pseudoinverse dari matriks G (gaussian) dengan vector target(d) dengan persamaan 2.15
= �+
= ��� − ��
Setelah nilai weight diketahui maka tahap selanjutnya adalah menyimpan hasil nilai centroid dan nilai standar deviasi untuk dapat digunakan kembali pada saat proses pengujian.
tahap selanjutnya adalah menghitung nilai output jaringan Y(n) ditambah dengan bobot bias (b) dengan persamaan 2.16
= ∑ = � ‖ − ‖ + )
2.7. Penelitian Terdahulu
Pada bagian ini akan dijabarkan beberapa penelitian terdahulu. Penelitian tentang klasifikasi tanaman sudah dilakukan oleh peneliti terdahulu dengan menggunakan berbagai metode. Penelitian untuk mengidentifikasi jenis tanaman dengan menggunakan citra daun dilakukan oleh Sharma & Gupta (2015). Penelitian ini
(2.15)
(2.16)
menggunakan metode Multilayer Feed Forward Neural Network untuk metode klasifikasi. Hasil percobaan menunjukkan tingkat akurasi sebesar 91%.
Penelitian lain dilakukan oleh Agustin & Prasetyo (2011) mengenai klasifikasi jenis pohon mangga gadung dan curut berdasarkan tekstur citra daun. Klasifikasi dilakukan menggunakan metode K-Nearest Neighbor (KNN) dan Backpropagation. Penelitian ini menggunakan 30 citra daun untuk setiap mangga dan memiliki tingkat akurasi 65.19%.
Bowo et al. (2011) melakukan penelitian deteksi tepi untuk mengidentifikasi pola daun dengan membandingkan tiga metode yaitu, Sobel, Prewitt dan Roberts.
Penelitian ini menggunan 5 jenis daun yang berbeda untuk mengetahui performansi terbaik diantara ketiga metode dalam mengidentifikasi daun. Hasil pengujian menunjukkan bahwa Prewitt dan Roberts mempunyai tingkat keberhasilan pengenalan paling tinggi sebesar 75% sedangkan Sobel sebesar 74%.
Klasifikasi dan penggunaan Radial Basis Function juga telah dilakukan pada penelitian terdahulu, Chairunnisaq (2016) melakukan penelitian pada padi dengan mengklasifikasi warna tanaman padi untuk menentukan jumlah pupuk yang tepat untuk tanaman tersebut menggunakan Radial Basis Function. Penelitian ini menggunakan HSV model sebagai metode feature extraction dan memiliki tingkat akurasi sebesar 90% dengan menggunakan 90 citra tanaman padi, dimana 60 citra digunakan dalam proses training dan 30 citra lainnya digunakan dalam pengujian sistem.
Penelitian lain yaitu mengenai pengenalan genre musik yang dilakukan oleh Gradhianta & Fuad (2013). Musik ditransformasi menjadi bentuk digital. Kemudian dilakukan proses ekstraksi fitur menggunakan Mel-Frequency Cepstrum Coefficients
(MFCC) dan Radial Basis Function sebagai metode klasifikasi. Hasil penelitian ini dapat mengidentifikasi musik berdurasi 2 detik, 5 detik dan 10 detik dengan tingkat akurasi 54.17% , 70.83% dan 75% secara berurutan.
Tabel 2.2. Penelitian terdahulu
No Peneliti Tahun Metode Keterangan
1. Sapna Sharma & Chitvan Gupta
5. Soffiana Agustin & Eko Prasetyo
2011 KNN
Backpropagation