Maret 2017, pp. 19~24 19
PENDEKATAN METODE FEATURE EXTRACTION
DENGAN ALGORITMA NAÏVE BAYES
Riski Annisa AMIK BSI Pontianak e-mail: [email protected]
Abstrak
Feature adalah alat ukur proses yang sedang diamati. Menggunakan seperangkat feature, setiap algoritma pembelajaran dapat melakukan proses klasifikasi. Penelitian ini akan melakukan pendekatan metode feature extraction. Dengan metode principal componen analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM) dengan algoritma klasifikasi Naïve Bayes. Pendekatan feature extraction yang diusulkan bertujuan untuk mengatasi masalah yang timbul dari klasifikasi Naïve Bayes dengan mengukur kinerja pengurangan dimensi algoritma klasifikasi Naïve Bayes menggunakan dataset heart disease for male. Untuk validasi menggunakan 10-fold cross validation. Hasil pengukuran algoritma dengan membandingkan accuracy dan tingkat error dari ketiga metode yang digabung dengan algoritma Naïve Bayes. Metode feature extraction dan Naïve Bayes tersebut dimanfaatkan sebagai pendekatan klasifikasi dan perbandingan yang dibuat diukur dengan membandingkan accuracy dari ketiganya. Hasil penelitian didapatkan dari Confusion Matrix untuk mendapatkan nilai accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean. Hasilnya
didapatlah nilai accuracy dan tingkat error yang menunjukkan metode feature extraction ICA lebih baik kinerja pengurangan dimensinya diimplementasikan menggunakan Naïve Bayes dibandingkan PCA dan SOM yaitu sebesar 69.84%.
Keywords: Feature Extraction, Naïve Bayes, PCA, ICA, SOM
1. Pendahuluan
Feature adalah alat ukur proses yang sedang diamati. Menggunakan seperangkat feature, setiap algoritma pembelajaran dapat melakukan proses klasifikasi. Dalam beberapa tahun terakhir dalam aplikasi pembelajaran algoritma atau pengenalan pola, domain feature telah diperluas dari puluhan hingga ratusan variabel atau feature yang digunakan dalam aplikasi tersebut. Beberapa teknik yang dikembangkan untuk mengatasi masalah mengurangi variabel yang tidak relevan dan berlebihan yang
merupakan tugas menantang
(Chandrashekar & Sahin, 2014).
Ada dua pendekatan utama untuk pengurangan dimensi: feature extraction dan feature selection (Bonev, Escolano, & Cazorla, 2008). Feature extraction merupakan masalah penting dalam klasifikasi data dengan dimensi besar. Tujuan dari feature extraction adalah untuk menghasilkan satu set fitur yang memiliki dimensi lebih kecil dari dimensi dari data asli, sementara untuk tetap mempertahankan karakteristik data asli yang cukup untuk mengklasifikasikan data (Park & Choi, 2009). Metode feature extraction digambarkan dari dimensi data
yang tinggi ke ruang dimensi rendah dengan membangun ruang fitur baru. Saat ini, ada banyak metode ekstraksi fitur, seperti analisis komponen utama (PCA), non-linear dimensionality reduction (NLDR), independent component analysis (ICA), linear discriminant analysis (LDA), etc (Wang & Wei, 2016).
Beberapa teknik klasifikasi yang telah diusukan dan meningkat selama beberapa tahun misalnya: Linear supervised classification yaitu: Rule-based classifier, Nearest-Neighbor classifier, Bayesian classifier, Principal Component Analysis (PCA), Decision Trees, Fisher discriminant analysis (FDA), Partial Least Squares (PLS); dan teknik non-linear classification yaitu: Artificial Neural Networks (ANN), Support Vector Machine (SVM), dan lainnya (Jing & Hou, 2015). Klasifikasi Naïve Bayes adalah klasifikasi probabilistik yang sederhana menerapkan teorema Bayes dengan asumsi independensi yang kuat (Li, Wu, & Ye, 2015) dan Principal Component Analysis dan Independent Component Analysis banyak digunakan adalah baik pengurangan dimensi dan alat diagnosis kesalahan. Selain diterapkan sebagai pengurangan dimensi,
juga diterapkan untuk kesalahan klasifikasi (Jing & Hou, 2015)(Cai, Tian, & Chen, 2014). Penelitian ini akan melakukan pendekatan metode feature extraction. Dengan metode principal componen analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM) dengan algoritma klasifikasi Naïve Bayes. Metode feature extraction dan Naïve Bayes tersebut dimanfaatkan sebagai pendekatan klasifikasi dan perbandingan yang dibuat diukur dengan membandingkan accuracy dari ketiganya. Paper ini disusun dengan urutan sebagai berikut: Pada bagian 2, menjelaskan metode penelitian yang diusulkan akan dipaparkan. Selanjutnya pada bagian 3 akan menyajikan pembahasan. Kemudian pada bagian akhir bagian 4 akan disampaikan kesimpulan dari penelitian yang dilakukan.
2. Metode Penelitian
Penelitian ini membahas performa salah satu teknik feature extraction yaitu PCA dengan algoritma klasifikasi Naïve Bayes. Dalam penelitian ini menerapkan tiga aturan pengurangan dimensi algoritma klasifikasi Naïve Bayes, yaitu (NB + PCA), (NB + ICA), dan (NB + SOM). Karena pendekatan feature extraction yang diusulkan bertujuan untuk mengatasi masalah yang timbul dari klasifikasi Naïve Bayes.
Naïve Bayes didasarkan pada teorema Bayes. Oleh karena itu, meninjau teorema Bayes dan kemudian menggambarkan klasifikasi. List dari paket software data mining yang mendukung pembelajaran klasifikasi Naïve Bayes tersedia. Beberapa aplikasi klasifikasi Naïve Bayes tersedia dengan referensi (Brown, 2014). Teorema Bayes berasal dari persamaan:
( | ) ( | ) ( ) ( )
Klasifikasi Naïve Bayes memperkirakan persamaan probabilitas berikut:
( ) ( | ) Keterangan:
n , total nomor dari point data pada data set training
ny , nomor dari point data target class y
ny&xi , nomor dari point data dengan target
class y
i , variabel atribut yang mengambil nilai dari xi
PCA adalah teknik pengurangan variabel. Hal ini digunakan ketika variabel yang sangat berkorelasi. Hal ini mengurangi jumlah variabel yang diamati untuk sejumlah kecil komponen utama yang menjelaskan sebagian dari varians dari variabel yang diamati. Ini adalah prosedur sampel yang besar. Jumlah total varians dalam PCA adalah sama dengan jumlah variabel yang diamati dianalisis. Dalam PCA, mengamati variabel yang standar, misalnya, mean = 0, standar deviasi = 1, diagonal dari matriks sama dengan 1. jumlah perbedaan dijelaskan sama dengan jejak matriks (jumlah dari diagonal dari korelasi membusuk matriks). Jumlah komponen diekstraksi adalah sama dengan jumlah variabel yang diamati dalam analisis (Chandrashekar & Sahin, 2014). Konsep sentral dari PCA adalah untuk menurunkan dimensi dari dataset yang memiliki berbagai variabel yang saling terkait sementara tetap variasi di dalamnya sebanyak mungkin. Ini membangun yang disebut pemuatan vektor terdiri dari sekelompok vektor orthogonal. vektor ini diurutkan menurut nilai varians. Mempertimbangkan n × m dataset training (n observasi dan variabel pengamatan m) dan susun nilai tersebut ke matriks X, maka pemuatan vektor dihitung melalui dekomposisi eigenvalue.
Dimana V ∈ Rmxm adalah matriks kesatuan, dan Λ adalah matriks diagonal utama yang diurutkan berdasarkan besarnya penurunan nilai eigen nyata non negatif di sepanjang diagonal utamanya, (yaitu, λ1 ≥ λ2 ... ≥ λm ≥ 0) dan unsur-unsur sisa diagonal utama adalah nol. Vektor-vektor kolom dalam matriks V ortogonal, dan vektor dalam matriks yang diberi nama pemuatan vektor, λi adalah i
th
nilai karakteristik dari dataset pelatihan. Statistik T2 dapat digunakan untuk mendeteksi kesalahan untuk proses data yang berhubungan antara dua variabel. Beranggapan bahwa Λ=ΣTΣ , Σ∈Rn×m adalah terbalik, representasi PCA berikut digunakan untuk menghitung statistik T2 secara langsung.
( )
Statistik T2 untuk ruang dimensi yang lebih rendah harus dihitung sebagai berikut:
Dimana P terdiri dari nilai-nilai singular terbesar, Σα mengandung baris pertama dari
Σ. Statistik T2
berasal dari: ( )( )
( ) ( ( )) Dimana α adalah tingkat signifikan (Jing & Hou, 2015).
SOM adalah salah satu model jaringan saraf yang paling populer untuk belajar tanpa pengawasan. kelompok SOM contoh data yang sama ke dalam 2D atau 3D kisi, yaitu, peta output. Di sisi lain, contoh data yang berbeda akan terpisah dalam peta output. Selain itu, beberapa sifat ruang input penting dapat disimpulkan dari itu peta keluaran. Algoritma SOM secara singkat dijelaskan dalam apa yang berikut. Misalkan X ϵ Rn
data manifold n-dimensi (De la Hoz, De La Hoz, Ortiz, Ortega, & Prieto, 2015). Peta SOM terdiri dari unit d, masing-masing diwakili oleh ωi model vektor n-dimensi. Untuk setiap input
data misalnya v, Best Matching Unit (BMU) didefinisikan sebagai unit ωi terdekat v:
∈ Dimana adalah jarak Euclidean dan X adalah dataset pelatihan. Setelah BMU ditentukan untuk iterasi saat ini, vektor Model diperbarui sesuai dengan aturan:
( ) ( ) ( ) ( )( ( )) dimana α(t) adalah tingkat pembelajaran dan hi(t) adalah fungsi yang mendefinisikan
lingkungan sekitar ωi BMU. Biasanya, α(t)
berkurang menyusul aturan peluruhan eksponensial dan hi adalah teknik Gaussian
yang lebar menyusut dalam waktu (iterasi). SOM telah diinisialisasi linear sebagai berikut untuk menghindari efek acak. Linear SOM prototipe inisialisasi bertujuan untuk mengakomodasi nilai-nilai eigen data training dan vektor eigen. Metode inisialisasi ini menyiratkan bahwa dimensi pertama dari prototipe diatur secara proporsional ke komponen utama pertama dan bahwa dimensi kedua diatur proporsional untuk komponen utama kedua (De la Hoz et al., 2015).
Independent Component Analysis (ICA) adalah yang teknik multivariate statistical yang relatif baru untuk menemukan
faktor-faktor tersembunyi yang mendasari satu set variabel acak. Dibandingkan dengan analisis komponen utama yang mencoba untuk mengubah Ulasan variabel ini menjadi satu set variabel berkorelasi, ICA mencoba untuk mengubah mereka menjadi variabel baru yang saling independen atau sebagai independen mungkin satu sama lain. Oleh karena itu teknik yang lebih kuat yang telah Banyak digunakan dalam memecahkan berbagai masalah klasifikasi, misalnya analisis microarray data dan klasifikasi EKG beat (Fan, Poh, & Zhou, 2009).
Untuk mengukur kinerja pengurangan dimensi algoritma klasifikasi Naïve Bayes dengan menggunakan dataset heart disease for male. Untuk validasi menggunakan 10-fold cross validation. Hasil pengukuran algoritma dengan membandingkan accuracy ketiga metode yang digabung dengan
algoritma Naïve Bayes.
Gambar 1. Stratified 10 Fold Cross Validation Proses pengujian metode dimulai dari pembagian dataset dengan metode 10-fold cross validation yang membagi dataset menjadi dua yaitu data training dan data testing. Selanjutnya diterapkan tahapan evaluasi menggunakan Area Under Curve (AUC) untuk mengukur hasil akurasi dari performa model klasifikasi. Hasil akurasi dilihat menggunakan curva Receiver Operating Characteristic (ROC) dan hasil confusion matrix. ROC menghasilkan dua garis dengan bentuk true positive sebagai garis vertikal dan false positive sebagai garis horizontal. Pengukuran akurasi dengan confusion matrix dapat dilihat pada tabel berikut ini: Validation - 5 Validation - 1 Validation - 2 Validation - 3 Validation - 4 Validation - 6 Validation - 8 Validation - 7 Validation - 9 Validation - 10 Partisi Dataset
Tabel 1. Confusion Matrix
Actual True Actual False
Predicted True True Positive (TP) False Negative(FN) Predicted False False Positive (FP) True Negative (TN) Formulasi perhitungan adalah sebagai berikut: √
Dalam pengklasifikasian data menggunakan AUC penjelasannya sebagai berikut:
Tabel 2. Nilai AUC dan Keterangan Nilai AUC Klasifikasi 0.90 - 1.00 excellent classification 0.80 - 0.90 good classification 0.70 - 0.80 fair classification 0.60 - 0.70 poor classification 0.50 - 0.60 failure
Hasil pengukuran algoritma dengan membandingkan accuracy ketiga metode yang digabung dengan algoritma Naïve Bayes.
3. Pembahasan
Dalam eksperimen ini menggunakan dataset heart disease male. Dataset diambil dari UCI repository yang terdiri dari data numerik dan nominal.
Gambar 2. Model Penerapan Pendekatan Feature Extraction dengan Algoritma Naïve
Bayes
Metode yang diuji untuk pengurangan dimensi algoritma klasifikasi Naïve Bayes dengan principal component analysis (PCA), independent component analysis (ICA), dan self organizing map (SOM). Hasil eksperimen yang disajikan dalam confusion matrix untuk mendapatkan hasil accuracy, sensitivity/recall, specitifity, FPrate, precision,
F measure, dan G-mean. Confusion matrix merupakan matrik 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan kenyataan.
3.1. Naïve Bayes dan PCA
Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Principal Component Analysis (PCA):
Tabel 3. Confusion Matrix NB+PCA
True False
Pred. True 19 10
Pred. False 10 24
Dari tabel tersebut didapat perhitungan accuracy, sensitivity/recall, specitifity, FPrate,
precision, F measure, dan G-mean.
√ 3.2. Naïve Bayes dan ICA
Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Independent Component Analysis (PCA):
Tabel 4. Confusion Matrix NB+ICA
True False
Pred. True 13 7
Pred. False 12 31
Dari tabel tersebut didapat perhitungan sebagai berikut: √
3.3. Naïve Bayes dan SOM
Berikut ini tabel pengukuran menggunakan Confusion Matrix yang didapat dari algoritma Naïve Bayes dengan Metode Self Organizing Map (SOM):
Tabel 5. Confusion Matrix NB+SOM
True False
Pred. True 11 5
Pred. False 18 29
Dari tabel tersebut didapat perhitungan sebagai berikut: √
Berdasarkan perhitungan dari penggabungan ketiga metode dengan algoritma Naïve bayes, dapat dijabarkan dalam tabel berikut:
Tabel 6. Hasil Perhitungan dari Confusion Matrix
NB+PCA NB+ICA NB+SOM Accuracy Recall Spesificity FPrate Precision F-Measure Dari tabel diatas menunjukkan hasil accuracy dan spesificity tertinggi pada metode NB+ICA, sedangkan nilai recall dan FPrate
oleh metode NB+SOM, serta nilai precision dan f-measure oleh metode NB+PCA. Dikukur dari tingkat akurasinya maka metode
ICA lebih baik dibanding PCA dan SOM pada Naïve Bayes. Jika kita bandingkan lagi dengan tingkat error masing-masing metode dengan Naïve Bayes maka didapatkan data sebagai berikut:
Tabel 7. Tingkat Error masing-masing metode
NB+PCA NB+ICA NB+SOM
0.3175 0.3016 0.3651
Dari data tabel diatas didapatkan hasil bahwa NB+ICA memiliki tingkat error yang jauh lebih kecil dari pada PCA dan SOM yaitu sebesar 0.3016. Semakin kecil implikasi error suatu metode maka metode tersebut semakin baik. Dari hasil perbandingan nilai accuracy tertingi sebesar 69.86% dan memiliki tingkat error terkecil maka kinerja pengurangan dimensinya akan semakin baik.
4. Simpulan
Penelitian ini menggunakan dataset heart disease for male dengan mengkomparasi algoritma Naïve Bayes dengan metode feature extraction untuk mengukur kinerja pengurangan dimensi algoritma Naïve Bayes. Dengan menggunakan validasi 10-fold cross validation. Dengan menggunakan dataset untuk menguji metode feature extraction terbaik dengan algoritma Naïve Bayes. Menggunakan Confusion Matrix untuk mendapatkan nilai accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan
G-mean. Hasil penelitian dengan menggunakan pengukuran accuracy dan tingkat error menunjukkan metode feature extraction ICA lebih baik kinerja pengurangan dimensinya diimplementasikan menggunakan Naïve Bayes dibandingkan PCA dan SOM yaitu sebesar 69.84%.
Referensi
Bonev, B., Escolano, F., & Cazorla, M. (2008). Feature selection, mutual information, and the classification of high-dimensional patterns: Applications to image classification and microarray data analysis. Pattern Analysis and Applications, 11(3–4), 309–319. https://doi.org/10.1007/s10044-008-0107-0
Brown, M. S. (2014). (For Dummies) Meta S. Brown-Data Mining For Dummies-Wiley Publishing Inc. (2014).pdf. Retrieved
from www.wiley.com
Cai, L., Tian, X., & Chen, S. (2014). A process monitoring method based on noisy independent component analysis. Neurocomputing, 127, 231–246. https://doi.org/10.1016/j.neucom.2013.0 7.029
Chandrashekar, G., & Sahin, F. (2014). A survey on feature selection methods. Computers and Electrical Engineering,
40(1), 16–28.
https://doi.org/10.1016/j.compeleceng.2 013.11.024
De la Hoz, E., De La Hoz, E., Ortiz, A., Ortega, J., & Prieto, B. (2015). PCA filtering and probabilistic SOM for network intrusion detection. Neurocomputing, 164, 71–81. https://doi.org/10.1016/j.neucom.2014.0 9.083
Fan, L., Poh, K. L., & Zhou, P. (2009). A sequential feature extraction approach for na??ve bayes classification of microarray data. Expert Systems with Applications, 36(6), 9919–9923. https://doi.org/10.1016/j.eswa.2009.01.0 75
Jing, C., & Hou, J. (2015). SVM and PCA based fault classification approaches for complicated industrial process. Neurocomputing, 167, 636–642. https://doi.org/10.1016/j.neucom.2015.0 3.082
Li, L., Wu, Y., & Ye, M. (2015). Experimental comparisons of multi-class classifiers. Informatica (Slovenia), 39(1), 71–85. Park, M. S., & Choi, J. Y. (2009). Theoretical
analysis on feature extraction capability of class-augmented PCA. Pattern Recognition, 42(11), 2353–2362. https://doi.org/10.1016/j.patcog.2009.04. 011
Wang, S., & Wei, J. (2016). Feature selection based on measurement of ability to classify subproblems. Neurocomputing,
(March), 0–1.
https://doi.org/10.1016/j.neucom.2016.1 0.062