BAB II. LANDASAN TEORI

(1)

BAB II. LANDASAN TEORI

2.1. Fase Tumbuh Tanaman Padi

Tanaman padi secara umum memiliki 3 fase tumbuh yaitu fase vegetative, fase reproductive dan fase ripening. (Institute, AfricaRice, & Agriculture, n.d.)

2.1.1. Fase Vegetative

Fase vegetativedapat dibagi menjadi 3 tahap pertumbuhanyaitu tahap

germination, tahap seedling, dan tahap tillering. Tahap pertumbuhanfase vegetatif

dapat dibedakan secara fisiologis. Pertama pada tahap germinationditandai dengan radikula atau koleoptil yang memecah bungkus biji. Kemudian pada tahap

seedlingditandai dengan tumbuhnya daun pada koleoptil. Kemudian pada tahap

terakhir yaitu tahap tillering akan ditandai dengan tumbuhnya anakan atau batang pada tumbuhan padi.(Institute et al., n.d.)

2.1.2. Fase Reproductive

Setelah fase vegetativeberakhir, pertumbuhan tanaman padi akan memasuki fase reproductive. Fase reproductivedapat juga dibagi menjadi 3 tahap pertumbuhan yaitu tahap booting, tahap heading, dan tahap flowering. Tahap

booting ditandai dengan batang yang gembung dimanapada batang tersebut mulai

membentuk malai. Dilanjutkan pada tahap heading yang ditandai dengan keluarnya malai. Pada tahap flowering ditandai dengan keluarnya serbuk sari dan

(2)

2.1.3. Fase Ripening

Fase ripening dapat dibagi menjadi 3 tahap pertumbuhan yaitu tahap milky, tahap dough, tahap yellow. Pada fase ripening, setiap tahap ditentukan berdasarkan tekstur dan warna dari padi.(Institute et al., n.d.)

2.2. Reduksi

Dimensi

Menurut Maaten(2007), Reduksi dimensi adalah transformasi data yang memiliki dimensi tinggi menjadi sebuah representasi dengan data yang lebih sedikit dimensinya. Reduksi dimensi memiliki manfaat dalam pengolahan data. Reduksi dimensi dapat menghilangkan features yang tidak relevan dan mengurangi noise serta mengatasi curse of dimensionality. Curse of

dimensionality adalah sebuah fenomena dimana analisis data menjadi hal yang

sulit dikarenakan oleh jumlah dimensi data yang meningkat (Tan, 2007). Teknik Reduksi dimensi dapat dibagi menjadi 2 yaitu feature extraction dan feature

selection (Fang et al., 2015). Pada penelitian ini menggunakan teknik reduksi

dimensi untuk feature extraction.

Feature extraction adalah salah satu kategori dari reduksi dimensi. Feature extraction bertujuan untuk membuat sebuah kumpulan fitur-fitur baru dengan

memetakan fitur-fitur asli pada data. Salah satu teknik unsupervised pada feature

extraction yang terkenal adalah principal component analysis

(3)

2.2.1. Principal Component Analysis (PCA)

PCA membuat sebuah representasi data yang menggambarkan banyaknya kemungkinan sebaran data. Metode ini melakukan reduksi dimensi dengan mencari hubungan lineardata. Secara matematis, PCA mencari sebuah transformasi linear T yang memaksimalkan persamaan (1).

(1) dimana adalah matriks kovarians dari data X dengan rata-rata nol. Pemetaan linear ini dapat dibentuk dengan d principal eigenvectors dari matriks kovarians tersebut. Oleh karena itu PCA menyelesaikan eigenproblem.

(2)

Eigenproblem dapat diselesaikan untuk d principal dengan eigenvalues

λ.Eigenvectors ini yang membentuk kolom pada matriks transformasi linear T. Data representasi yi dari titik xi dapat dihitung dengan memetakannya pada matriks T secara linear, contohnya T.(Maaten, 2007)

2.2.2. Kernel PCA (KPCA)

KPCA merupakan reformulasi dari PCA linear dalam sebuah ruang dimensi yang tinggi dimana dibuat dengan fungsi kernel. KPCA menghitung principal

eigenvectors menggunakan matriks kernel daripada matriks kovarians.

Implementasi PCA dalam ruang kernel membuat KPCA mampu untuk melakukan pemetaan nonlinear. KPCA dapat menghitung matriks kernel K dengan persamaan (3).

(4)

dimana k adalah sebuah fungsi kernel. Selanjutnya matriks kernel k dipusatkan dengan modifikasi dari input.

1 1 1 ₍₄₎

Operasi pemusatan berhubungan dengan pengurangan rata-rata dari fitur-fitur pada PCA dimana berfungsi untuk membuat fitur-fitur dalam ruang dimensi tinggi yang ditentukan oleh fungsi kernel memiliki rata-rata nol. Selanjutnya,

principal d eigenvectors vidari matriks kernel yang dipusatkan dapat dihitung.

Kovarians dari eigenvectorsmatriks αi(matriks yang dibentuk oleh k dalam ruang dimensi tinggi) adalah versi skala dari eigenvectors matriks kernel vi.

1

(5)

Untuk memperoleh representasi data berdimensi rendah, data akan diproyeksikan pada eigenvectors dari matriks kovarians. Hasil proyeksi dapat dihitung dengan persamaan (6).

, , , , , , (6)

dimana k adalah fungsi kernel yang digunakan dalam perhitungan matriks kernel. Dikarenakan KPCA adalah sebuah metode berdasarkan kernel, pemetaan yang dilakukan KPCA sangat bergantung terhadap pemilihan fungsi kernel k. Fungsi

kernel yang memungkinkan adalah kernel polynomial(7), kernelGaussian(8), serta kernellinear(9).(Maaten, 2007)

(5)

exp

2 (8)

(9)

2.3. Klasifikasi

Klasifikasi adalah sebuah bentuk analisis data dimana mengekstraksi model yang mendeskripsikan kelas data yang penting. Model-model hasil ekstraksi tersebut disebut classifiers. Klasifikasi data pada dasarnya dilakukan dengan 2 proses yaitu tahap belajar dimana model klasifikasi dibentuk dan tahap klasifikasi dimana model akan digunakan untuk memprediksi label kelas untuk data yang diberikan. Pertama-tama sebuah classifier akan dibentuk dengan menggambarkan sebuah kumpulan kelas data yang telah ditentukan. Pada tahap ini, sebuah algoritma klasifikasi akan membuat classifier dengan menganalisa sebuah kumpulan data training yang membentuk database tuples dan label kelasnya. Setiap tuple, X, diasumsikan milik sebuah kelas yang ditentukan atribut database lain disebut atribut label kelas. Dalam konteks klasifikasi data, data tuples dapat dianggap sebagai sampel atau contoh. Selanjutnya pada tahap klasifikasi dapat dilihat bahwa pembelajaran dari sebuah pemetaaan atau fungsi yang dapat memprediksi label kelas y dari sebuah tuple X. Pemetaaan ini direpresentasikan dalam bentuk classification rules, decision trees, atau persamaan matematika. Kemudian model yang dihasilkan akan digunakan pada tahap selanjutnya yaitu tahap klasifikasi.(Han et al., 2011)

(6)

2.3.1. Support

Vector Machine (SVM)

SVM adalah sebuah metode klasifikasi untuk data linear dan nonlinear. SVM melakukan pemetaan nonlinear pada data ke dimensi yang lebih tinggi. Kemudian, SVM akan melakukan pemisahan data dengan mencari hyperplane pemisah secara linear yang optimal. SVM mencari hyperplane menggunakan

support vector, dimana merupakan training tuples yang penting, dan margins

yang ditentukan oleh support vectors. Pada data linear, SVM akan mencari

maximum marginal hyperplane (MMH) tanpa melakukan pemetaan data ke

dimensi yang lebih tinggi. Semakin besar margin yang dihasilkan pada saat dilakukan pemisahan linear, maka SVM akan menghasilkan akurasi yang lebih baik. Sedangkan data nonlinear, SVM akan melakukan pemetaan data ke dimensi yang lebih tinggi sebelum dilakukan pemisahan secara linear. Pemetaan data

nonlinear dapat menggunakan fungsi kernel. Berdasarkan penelitian yang ada,

ada 3 fungsi kernel yang sesuai untuk SVM yaitu polynomial kernel of degree h (10), Gaussian radial basis function kernel (11), dan sigm oid kernel (12).

, · 1 (10)

, (11)

, tanh · (12)

Dari ketiga fungsi kernel tersebut belum ada peraturan yang menentukan fungsi

(7)

2.3.2. Naïve Bayesian

Classifier bayesian adalah classifier statistik. Classifier ini menentukan atau

memprediksi kelas dari sebuah tuple berdasarkan kemungkinan atau peluang dalam sebuah kelas. Asumsi D adalah kumpulan training tuples beserta label kelasnya dimana masing-masing tuple direpresentasikan dengan sebuah vektor atribut n-dimensi.Classifier ini akan memprediksi tuple, X, ke dalam sebuah kelas

(asumsi dari m kelas) dengan kondisi | 1 ,

. Oleh karena itu | akan dimaksimalkan dengan maximum posteriori

hypothesis pada persamaan (13).

| | (13)

Apabila kelas berdasarkan peluang tersebut tidak diketahui maka akan diasumsikan bahwa ,

| | , dimana , adalah jumlah training tuples

dari kelas Cidalam D. Agar mengurangi komputasi dalam evaluasi | , pada metode ini akan berasumsi nilai-nilai atribut tidak bergantung satu sama lain. Oleh karena itu, komputasi akan dihitung dengan persamaan (14).

| | (14)

Dalam komputasi | harus mempertimbangkan atribut Ak adalah

categorical atau continuous-valued. Apabila Akadalah categorical, maka |

adalah jumlah tuples dari kelas Ci dalam D yang memiliki nilai xkuntuk Ak, dibagi dengan , , jumlah tuples dari kelas Cidalam D. Dan apabila Akadalah

(8)

Gaussian dengan rata-rata µ dan standar deviasi yang dihitung dengan

persamaan (15).

, , 1

√2 (15)

Sehingga persamaan | menjadi seperti persamaan (16).

| , , (16)

Berdasarkan persamaan tersebut, untuk memprediksi label kelas X, |

dievaluasi untuk setiap kelas Ci. Classifier memprediksi label kelas X jika dan

hanya jika | 1 , . Dengan kata

lain, label kelas hasil prediksi adalah kelas Cidengan nilai maksimum dari persamaan | .(Han et al., 2011)

2.3.3. k-Nearest-Neighbor

Nearest-neighbor classifiersmempelajari perbandingan test tuples dan training tuples berdasarkan persamaan pola. Persamaan pola yang dimaksud

ditentukan dengan distance metric. Salah satu distance metric yang dapat digunakan adalah euclidean distance. Pada klasifikasi k-nearest-neighbor, tuples akan dikelompokan dalam kelas yang paling umum diantara k-nearest-neighbor. Misal k=1, maka tuples akan dikelompokan pada kelas yang memiliki persamaan pola paling tinggi.(Han et al., 2011)

2.3.4. Cross-Validation

Cross-validation adalah salah satu bentuk dari teknik statistika. Pada cross-validation dibutuhkan sebuah nilai untuk menentukan jumlah folds. Data akan

(9)

dibagi secara acak dan merata sesuai dengan jumlah folds yang ditentukan. Setiap bagian data akan digunakan sebagai data testing dan sisanya akan digunakan sebagai data training. Prosedur ini akan dilakukan terus menerus hingga seluruh bagian data telah digunakan sebagai data testing. Pada umumnya untuk memprediksi error rate dari sebuah teknik machine learning, nilai fold yang digunakan adalah 10 yang disebut tenfold cross-validation. (Witten, Frank, & Hall, 2011)

2.4. Penelitian

yang

Relevan

Penelitian dengan menggunakan teknik reduksi dimensi sudah pernah dilakukan sebelumnya. Kontribusi dan hasil penelitian pada umumnya berupa meningkatkan performa klasifikasi baik dari akurasi klasifikasi maupun waktu yang dibutuhkan untuk klasifikasi serta jumlah dimensi atau fitur yang digunakan setelah melalui proses reduksi dimensi.

Pada paper penelitian yang dilakukan oleh Singh, Jayas, Paliwal, & White, (2009) dengan judul “Detection of insect-damaged wheat kernels using

near-infrared hyperspectral imaging”, PCA membantu dalam feature extraction dari

data hiperspektral untuk digunakan dalam klasifikasi. Klasifikasi pada penelitian ini menggunakan linear discriminant analysis (LDA) dan quadratic discriminant

analysis (QDA). Akurasi klasifikasi pada penelitian ini mencapai 85% hingga

100% dengan menggunakan 2 principal component (PC) dimana variabilitas PC-1 mencapai hamper 94% dan untuk PC-2 mencapai hamper 5%.

(10)

reflectance databased on principal component analysis and support vector classification”. Tujuan penelitian ini adalah mendeteksi kondisi padi dengan

klasifikasi menggunakan metode support vector classification. Data hiperspektral padi direduksi dimensi-nya menggunakan PCA menjadi masing-masing 3 PC untuk training dataset dan testing dataset. Hasil penelitian ini menyatakan bahwa kombinasi support vector classification dan PCA memberikan hasil klasifikasi yang memuaskan.

Shahin & Symons, (2011) melakukan penelitian menggunakan PCA untuk mereduksi dimensi data gambar hiperspektral pada paper penelitian yang berjudul “Detection of Fusarium damaged kernels in Canada Western Red Spring wheat

using visible/near-infrared hyperspectral imaging and principal component analysis”. Pada penelitian ini, PCA berhasil melakukan reduksi dimensi data

menjadi 10 PC. LDA akan digunakan sebagai kernel klasifikasi. Hasil klasifikasi menunjukan bahwa akurasi rata-rata mencapai 92%.

Pada paper penelitian yang dilakukan oleh Senthilnath et al., (2012) dengan berjudul “Crop Stage Classification of Hyperspectral Data Using Unsupervised

Techniques”, PCA digunakan untuk melakukan reduksi dimensi terhadap data

fase tumbuh tanaman pada gambar hiperspektral. Pada penelitian ini, jumlah

features yang digunakan metode Modified Broken-Stick Rule. Dengan metode

tersebut, pada penelitian ini menggunakan 6 PC pertama dari data. Data hasil reduksi dimensi tersebut digunakan untuk klasifikasi dengan algoritma ISODATA,

AIS, HAIS dan NHAIS. Hasil penelitian ini menunjukan bahwa algoritma NHAIS

(11)

Melalui hasil penelitian ini, PCA dapat digunakan untuk mereduksi dimensi pada data hiperspektral dengan tetap menghasilkan performa klasifikasi yang optimal.

Wang, (2012) membandingkan PCA dan KPCA dalam aplikasi face

recognition dan active shape models. Paper penelitian ini berjudul “Kernel Principal Component Analysis and its application in Face Recognition and Active Shape Models”. Hasil penelitian ini menunjukan bahwa KPCA menghasilkan

performa klasifikasi yang lebih baik dibandingkan dengan PCA dalam hal face

recognition.

Pada paper penelitian yang dilakukan oleh Liao, Bellens, Pizurica, Philips, & Pi, (2012) dengan judul “Classification of Hyperspectral Data over Urban

Areas Based on Extended Morphological Profile with Partial Reconstruction”,

KPCA juga memberikan hasil yang lebih baik dalam melakukan ekstraksi fitur dengan classifier linear. Pada paper penelitian ini, KPCA dibandingkan dengan teknik reduksi dimensi yang lain yaitu PCA dan Independent Component Analysis (ICA).

(12)

Tabel 2.1Ringkasan Penelitian yang Relevan

No. Peneliti (Tahun) Teknik Reduksi Dimensi Hasil Penelitian

1

Singh, Jayas, Paliwal, & White, (2009)

PCA pada klasifikasi menggunakan LDA dan QDA

Akurasi klasifikasi mencapai 85%-100% dimana hanya menggunakan 2 PC. Jumlah PC ditentukan berdasarkan hasil dari feature extraction dengan PCA dimana PC-1 mencapai 94% dan PC-2 mencapai 5%.

2

Liu, Shi, Zhang, & Huang, (2010)

PCA pada klasifikasi menggunakan SVM.

Kombinasi support vector

classification dan PCA

memberikan hasil klasifikasi yang memuaskan.

3

Shahin & Symons, (2011)

PCA pada klasifikasi untuk mendeteksi Fusarium

damaged kernels

menggunakan LDA

Rata-rata akurasi hasil klasifikasi menunjukan bahwa dengan melakukan reduksi dimensi dengan PCA, LDA dapat

memprediksi kerusakan lebih tepat.

4

Senthilnath et al., (2012)

PCA untuk klasifikasi dengan algoritma

ISODATA, AIS, HAIS, dan NHAIS.

Algoritma NHAIS memberikan performa klasifikasi yang lebih baik dibandingkan algoritma

(13)

No. Peneliti (Tahun) Teknik Reduksi Dimensi Hasil Penelitian

lainnya. PCA digunakan

untuk mereduksi dimensi data hiperspektral dengan tetap menghasilkan performa klasifikasi yang optimal.

5 Wang, (2012)

PCA dan KPCA dalam aplikasi face recognition dan active shape models.

KPCA menghasilkan performa klasifikasi yang lebih baik dibandingkan dengan PCA dalam hal face

recognition.

6

Liao, Bellens, Pizurica, Philips, & Pi, (2012)

PCA, KPCA, dan ICA pada klasifikasi data

hiperspektral daerah kota berdasarkan Extended

Morphological Profile

dengan Partial

Reconstruction.

KPCA juga memberikan hasil yang lebih baik dalam melakukan ekstraksi fitur dengan classifier linear.