View of Analisis Random Forest Menggunakan Principal Component Analysis Pada Data Berdimensi Tinggi

(1)

Jln. Khatib Sulaiman Dalam, No. 1, Padang, Indonesia, Telp. (0751) 7056199, 7058325 Website: ijcs.stmikindonesia.ac.id | E-mail: [email protected]

Analisis Random Forest Menggunakan Principal Component Analysis Pada Data Berdimensi Tinggi

Farah Diba¹, Maya Silvi Lydia², Poltak Sihombing³

[email protected], [email protected], [email protected] Universitas Sumatera Utara

Informasi Artikel Abstrak Diterima : 3 Ags 2023

Direview : 15 Ags 2023 Disetujui : 29 Ags 2023

Data yang memiliki dimensi tinggi membutuhkan metode machine learning yang mampu bekerja lebih cepat dan efektif dalam proses klasifikasi. Salah satu algoritma yang mampu menangani data kompleks adalah Random Forest. Random Forest bekerja dengan membangun beberapa decision tree secara random sebagai acuan feature selection.

Namun, data berdimensi tinggi membutuhkan ruang penyimpanan yang lebih besar sehingga mengakibatkan lamanya proses komputasi. Oleh karena itu, Principal Component Analysis merupakan salah satu metode reduksi dimensi dalam merepresentasikan data berdimensi tinggi. PCA akan membentuk beberapa Principal Component yang mengandung informasi penting dari data asli. Dataset yang digunakan pada penelitian ini bersumber dari kaggle repository terdiri atas 26 atribut dan 129880 intances. Hasil dari penelitian ini RF dengan dengan n_estimators = 7 setelah direduksi PCA memiliki akurasi terbaik yaitu 90,13% pada data water quality.. Hal ini membuktikan bahwa PCA mampu mereduksi dimensi dengan membentuk pohon n_estimators sebanyak 7.

Kata Kunci Random Forest, Principal Component Analysis, Reduksi Dimensi

Keywords Abstrak

Random Forest, Principal Component Analysis, Dimension Reduction

Data that has high dimensions requires machine learning methods that are able to work faster and more effectively in the classification process. One algorithm that is capable of handling complex data is Random Forest. Random Forest works by building several decision trees randomly as a reference for feature selection. However, high-dimensional data requires more storage space, resulting in a longer computation time. Therefore, Principal Component Analysis is a method of dimension reduction in representing high-dimensional data. PCA will form several Principal Components that contain important information from the original data. The dataset used in this study comes from the Kaggle repository consisting of 26 attributes and 129880 instances. The results of this study RF with n_estimators = 7 after reduction by PCA has the best accuracy of 90.13% in water quality dataset.. This proves that PCA is able to reduce dimensions by forming a tree of 7 n_estimators.

(2)

A. Pendahuluan

Klasifikasi merupakan proses pengelompokan data yang belum diketahui label kelasnya. Klasifikasi dalam data mining didefinisikan sebagai suatu pekerjaan yang melakukan pelatihan atau pembelajaran terhadap fungsi target yang memetakan setiap vektor (set fitur) ke dalam satu dari sejumlah kelas yang tersedia (Prasetyo, 2014). Hasil dari pelatihan tersebut adalah sebuah model yang kemudian disimpan sebagai memori.

Para Peneliti telah mengembangkan beberapa algoritma klasifikasi dalam data mining seperti Decision Tree, K-Nearest Neighbor, Artificial Neural Network, Support Vector Machine, dan sebagainya. Dalam prosesnya, beberapa teknik klasifikasi data tersebut mudah diimplementasikan dan memiliki akurasi yang baik, tetapi kurang sesuai untuk data yang berdimensi tinggi atau memiliki banyak fitur (Prasetyo, 2012). Dari beberapa penelitian menunjukkan bahwa data yang diproses dalam mining umumnya memiliki kerakteristik data yang berdimensi tinggi sehingga perlu dilakukan pemrosesan awal seperti agregasi, binerisasi, atau reduksi dimensionalitas.

(El Boujnouni et al., 2021) telah melakukan penelitian untuk mengetahui asal virus SARS-coV-2 (Severe Acute Respiratory Syndrome COronaVirus 2) dengan menggunakan tiga teknik machine learning, yaitu Ngram, Principal Component Analysis, dan Random Forest. Penelitian ini menggunakan dataset besar (berdimensi tinggi) yang berisi asam nukleat coronaviridae yaitu terdiri atas 2649 genom dari 96 spesies. Sehingga digunakan pendekatan metode PCA untuk mengubah kumpulan atribut yang besar menjadi atribut yang lebih kecil dengan tetap mempertahankan informasi yang penting dalam data.

Di waktu yang sama, (Yan et al., 2021) melakukan penelitian klasifikasi plastik dengan metode laser-induced breakdown spectroscopy (LIBS) yang dikombinasikan dengan analisis principal compenent analysis dan algoritma K nearest neighbor. Namun, metode PCA ini juga memiliki keterbatasan dalam proses pengurangan dimensi pada data, yaitu PCA cenderung menemukan korelasi linier antar variabel sehingga memperoleh hasil yang tidak diinginkan. Lebih jauh, (Priyono et al., 2020) menggunakan kombinasi Functional Link Neural Network (FLNN) dan principal compenent analysis untuk melakukan deteksi tumor usus besar, kanker ovarium dan kanker paru-paru. Pada penelitian tersebut, didapatkan bahwa PCA dapat membantu proses klasifikasi dengan cara memproyeksikan inti dari setiap fitur dengan membentuk subset fitur yang baru sehingga dimensi fitur menjadi lebih kecil dengan tetap memperhatikan varians penting pada data. Hal ini dilakukan untuk menjaga keseimbangan informasi yang berpengaruh besar pada data, karena PCA masih sulit untuk menginterpretasikan fitur dalam skala yang sangat besar.

Astuti et al., 2021 juga mengusulkan algoritma Random Forest (RF) dan Support Vector Machine (SVM) untuk mendeteksi daging ayam segar dengan daging ayam yang telah mengandung bakteri Escherichia coli (E.coli) pada Gas Sensor Array (GAS). Pendeteksian gas ini ditunjukkan dengan munculnya pola tegangan dari output sensor untuk setiap variasi sampel. Hasil akurasi klasifikasi Random Forest untuk sampel daging segar dan terkontaminasi adalah 99,25% dan 98,42%. Sedangkan klasifikasi dengan SVM diperoleh akurasi 98,61% untuk sampel daging segar dan 86,66% untuk sampel daging yang telah terkontaminasi.

(3)

Walaupun akurasi kinerja RF lebih tinggi daripada SVM, proses Random Forest lebih sesuai untuk kumpulan fitur yang lebih kecil karena kelompok data memiliki korelasi dan relevansi untuk memperoleh hasil klasifikasi.

Pengembangan beberapa algoritma klasifikasi dalam menangani data berdimensi tinggi yang diusulkan oleh beberapa peneliti diatas, maka penelitian ini diusulkan dengan maksud menganalisis performance metode Random Forest melalui pengurangan dimensi kumpulan data dengan tetap mempertahankan fitur yang memiliki kontribusi besar pada data. Sehingga, Peneliti berharap dapat mengurangi permasalahan Random Forest dengan hasil tingkat akurasi yang maksimal dalam melakukan proses klasifikasi.

1. Random Forest

Random Forest merupakan sebuah metode ensemble yang terdiri atas sekumpulan decision tree (pohon keputusan) yang digunakan untuk klasifikasi data ke suatu kelas. Teknik dasar dari algoritma Random Forest adalah decision tree, dimana inputan data sebagai bagian atas (root) dan membentuk daun (leaf) yang digunakan untuk menentukan kelas. Random Forest merupakan salah satu algoritma dari ensemble yang dapat meningkatkan hasil akurasi pada data latih yang banyak. Leo Breiman mengusulkan skema ditahun 2001 untuk membangun prediktor ensamble yaitu Random Forest dengan pohon keputusan yang tumbuh dari data random.

Langkah awal untuk menentukan pohon keputusan adalah dengan menghitung nilai entropy dan information gain. Pendekatan entropy sebagai penentu ketidakmurnian atribut dan information gain merupakan nilai perolehan informasi dalam memilah simpul. Perhitungan gini sangat berpengaruh terhadap setiap node teratas dan node pemisah. Perhitungan gini masih berlanjut ketika hasil akhir gini masih berupa angka dan berhenti ketika hasil akhir gini adalah nol. Berikut adalah persamaan 1.1 untuk menghitung nilai entropy dan persamaan 1.2 untuk menghitung information gain yaitu sebagai berikut :

(1.1)

Keterangan :

𝑆 : Himpunan dataset 𝑛 : Banyaknya jumlah kelas

𝑝𝑖 : Probabilitas kelas ke-i dalam output S

(1.2) : Atribut

: Himpunan dataset

: Jumlah sampel untuk nilai ke-i : Banyaknya jumlah data

(4)

2. Principal Component Analysis

Secara teori, menurut (Suyanto, 2018) PCA adalah sebuah metode matematis yang mentransformasikan data ke dalam ranah baru dengan menghasilkan sejumlah principal component yang lebih penting. Namun, pada proses data mining berdimensi tinggi sering terjadi oversimplification yaitu hanya berfokus pada penghapusan suatu fitur yang mengakibatkan model tidak mampu mengerti kompleksitas permasalahan. Daripada menghapus fitur, cara lain yang lebih baik untuk mengurangi kompleksitas komputasi adalah dengan mentransformasikan data ke dalam dimensi lebih kecil.

Terdapat dua fungsi utama dari PCA yaitu reduksi dan transformasi. Fungsi reduksi bekerja dengan mengurangi jumlah variabel menjadi lebih sedikit sehingga memudahkan analisis data mining. Sedangkan fungsi transformasi bekerja dengan mengubah variabel yang awalnya saling berkorelasi menjadi tidak saling berkorelasi. Berikut ini adalah langkah-langkah dari PCA, yaitu sebagai berikut :

1. Standarisasi data

Standarisasi data adalah proses penyeragaman nilai-nilai data agar memiliki nilai range yang sama dan konsisten, sehingga mudah diaplikasikan untuk menghitung korelasi suatu data.

2. Menghitung matriks covariance

Korelasi (covariance) adalah hubungan antara dua fitur yang nantinya sebagai nilai masukan untuk mendapatkan nilai eigen value dan eigen vector.

a. Varian atribut

(2.1) (2.2)

b. Kovarian dua atribut

(2.3)

Keterangan:

: data ke-i

: nilai rata-rata dari seluruh nilai x : data ke-i

: nilai rata-rata dari seluruh nilai y n : banyaknya data

c. Matriks kovarian

(2.4)

(5)

3. Menghitung nilai eigen

Eigenvalue dalam PCA berperan untuk menyatakan seberapa besar keragaman yang mampu dijelaskan oleh suatu variabel principal component (PC). Jika 𝑀 adalah matriks 𝑚 𝑥 𝑚, maka setiap 𝜆 memenuhi persamaan :

𝑀𝑣 = 𝜆𝑣 (2.5) Sehingga setiap nilai eigenvalue harus memenuhi persamaan determinan dibawah ini :

|𝑀 − 𝜆𝐼| = 0 (2.6) Keterangan :

𝑀 : matriks covariance 𝑣 : eigenvector

𝜆 : eigenvalue I : matriks identitas

4. Menghitung principal component (PC)

Setelah nilai eigenvalue dan eigenvector sudah diketahui, maka principal component dapat dihitung dengan cara mengurutkan nilai eigen dari yang terbesar ke terkecil.

5. Reduksi Dimensi

Setelah nilai eigen diurutkan, tidak semua variabel PC akan dipilih. Hanya PC yang mempunyai nilai persentase > 80% atau boleh membuat asumsi untuk digunakan dalam proses mereduksi dimensi data. Rumus reduksi dimensi dapat dilihat pada persamaan 2.9 dibawah ini :

𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚𝑒𝑑 𝐷𝑎𝑡𝑎 = 𝑅𝑜𝑤 𝐷𝑎𝑡𝑎 𝑥 𝑅𝑜𝑤 𝐹𝑒𝑎𝑡𝑢𝑟𝑒 𝑉𝑒𝑐𝑡𝑜𝑟 (2.7) 3. Pengukur Akurasi

Pada klasifikasi Random Forest akan dilakukan pengujian data training dan data testing dalam mencari nilai akurasi data yang kemudian akan ditampilkan pada tabel confusion matrix (Written, 2015). Klasifikasi yang dihasilkan oleh data testing memiliki kelas yang berbeda yaitu positif dan negatif. Berikut ini merupakan ilustrasi tabel confusion matrix :

Tabel 1. Confusion Matrix Dua Kelas

Prediksi Kelas Prediksi

Ya Tidak

Kelas

Aktual Ya Benar Positif Salah Negatif Tidak Salah Positif Benar Negatif

a. Pada data yang didalamnya memiliki kelas yang bernilai positif yang hasilprediksi klasifikasinya sesuai dengan actual maka memiliki nilai positif disebut dengan True Positive.

(6)

b. Pada data yang didalamnya memiliki kelas yang bernilai negative yang hasil prediksi klasifikasinya sesuai dengan actual maka memiliki nilai negative disebut dengan True Negative.

c. Pada data yang didalamnya memiliki kelas yang bernilai negative tetapi hasil prediksinya memiliki nilai positif maka disebut dengan False Positive.

d. Pada data yang didalamnya memiliki kelas yang bernilai positif tetapi hasil prediksinya memiliki nilai negative maka disebut False Negative.

B. Metode Penelitian

Pada penelitian ini, dataset yang digunakan bersumber dari Kaggle Repository, yaitu airline satisfaction dan water quality.. Adapun rincian dari dataset tersebut yaitu sebagai berikut:

Tabel 2. Dataset Airline Satisfaction

Dataset Jumlah Atribut Jumlah Intances Jumlah Kelas

Airline Satisfaction 26 129880 2

Water Quality 21 7999 ²

Sebelum dilakukan proses klasifikasi, ketiga jenis data tersebut akan dinormalisasi terlebih dahulu. Normalisasi bertujuan untuk menyetarakan nilai inputan agar tidak terjadi ketimpangan data yang nilainya lebih besar dari nilai ratarata atributnya. Selain itu normalisasi akan membersihkan data (cleaning data) yang nilainya tidak ditemukan saat proses loading pada program. Untuk proses selanjutnya dapat dilihat pada penjelasan rancangan penelitian pada gambar 1 dibawah ini :

Gambar 1. Rancangan Penelitian Dataset

Preprocessing

Reduksi Dengan PCA

Klassifikasi Random Forest

Pengujian Akurasi Dengan Confusion

Matrix

(7)

C. Hasil dan Pembahasan

Pada tahap ini akan dilakukan proses reduksi dimensi dengan menggunakan metode Principal Component Analysis pada dataset airline satisfaction dan water quality. Hasil dari reduksi dimensi ini akan menghasilkan ukuran dimensi data yang lebih kecil. Penulis menggunakan n_estimator (pembentukan pohon) sebanyak 3, 5, 7 dan n_components sebanyak 5, artinya jumlah asli dataset akan direduksi menjadi 5 PC. Berikut ini adalah hasil confusion matrix dari hasil klasifikasi RF dengan PCA pada data airline satisfaction dan water qualiy.

Tabel 3. Hasil Confusion Matrix Pada Dataset Airline Satisfaction

n_estimator Akurasi Presisi Recall F1-Score

3 88,62% 88,61% 88,62% 88,60%

5

7 89,35%

90,13% 95,36%

90,14% 89,35%

90,13% 95,35%

90,10%

Tabel 4. Hasil Confusion Matrix Pada Dataset Water Quality

n_estimator Akurasi Presisi Recall F1-Score

3 86,31% 85,27% 86,31% 85,75%

5

7 87,43%

88,12% 85,62%

86,11% 87,43%

88,12% 86,37%

86,86%

Gambar 2. Perbandingan Akurasi Pada Dataset Airline Satisfaction dan Water Quality

Gambar 2 merupakan hasil akurasi klasifikasi random forest dengan reduksi principal component analysis pada dataset airline satisfaction dan water quality.

Klasifikasi menggunakan n_estimator = 3, 5, 7. Dataset airline satisfaction memiliki akurasi tertinggi saat membangun n_estimator = 7 yaitu sebesar 90,13%. Begitu juga pada dataset water quality memiliki akurasi tertinggi saat membangun n_estimator = 7 yaitu sebesar 88,12%.

88,62%

89,35%

90,13%

86,31%

87,43%

88,12%

84,00%

85,00%

86,00%

87,00%

88,00%

89,00%

90,00%

91,00%

3 5 7

Perbandingan Akurasi Pada Dataset Airline Satisfaction dan Water Quality

Airline Satisfacton Water Quality

(8)

D. Simpulan

Pada dataset airline satisfaction akurasi terendah saat membangun n_estimator

= 3 yaitu sebesar 88,62% dengan mereduksi dataset asli menjadi 5 principal component. Akurasi terus meningkat pada n_estimator = 5 dan n_estimator = 7 yaitu mengalami kenaikan sebanyak 1,51%. Hal yang sama juga terjadi pada dataset water quality. Akurasi terendah saat membangun n_estimator = 3 yaitu sebesar 86,13% dan akurasi tertinggi saat membangun n_estimator = 7 yaitu sebesar 88,12%.

Tidak ada batasan dalam membangun n_estimator pada proses klasifikasi random forest. Artinya semakin banyak n_estimator yang dibangun, belum tentu menghasilkan akurasi yang baik pada proses klasifikasi dan begitu juga sebaliknya.

Dan hal ini juga bergantung pada data yang digunakan. Untuk dataset airline satisfaction dan water quality akurasi meningkat pada n_estimator = 7.

E. Ucapan Terima Kasih

Terimakasih kepada seluruh sivitas akademika Universitas Sumatera Utara, Fakultas Ilmu Komputer dan Teknologi Informasi atas dukungan dan partisipasinya.

F. Referensi

[1] Agjee, N.E.H., Mutanga, O., Peerbhay, K. and Ismail, R., 2018. The impact of simulated spectral noise on random forest and oblique random forestclassification performance. Journal of Spectroscopy, Vol.2018, pp.1-8, doi:10.1155/2018/8316918

[2] Astuti, S. D., Tamimi, M. H., Pradhana, A. A. S., Alamsyah, K. A., Purnobasuki, H., Khasanah, M., Susilo, Y., Triyana, K., Kashif, M., & Syahrom, A. (2021). Gas sensor array to classify the chicken meat with E. coli contaminant by using random forest and support vector machine. Biosensors and Bioelectronics: X, 9, 100083. https://doi.org/10.1016/j.biosx.2021.100083

[3] Chang, C., Wu, Y., Hou, S. 2009. Preparation and Characterization of Superparamagnetic Nanocomposites of Aluminosilicate/Silica/Magnetite, Coll.

Surf. A. 336(1-3), pp.159–166. doi:10.1016/j.colsurfa.2008.11.04

[4] Dai Qin-yun,. Zang Chun-Ping., Wu Hao. 2016. Research of Decision tree Classification Algorithm in Data Mining. Dept. of Electric and Electronic Engineering, Shijiazhuang Vocational and Technology Institute. China. Vol.9, No.5 (2016), pp.1-8, doi:10.14257/ijdta.2016.9.5.01.

[5] Davies, and Paul Beynon, 2004, Database Systems Third Edition, Palgrave Macmillan, New York. 1996(1), pp.1-572, doi: 10.1007/978-0-230-00107-7.

[6] El Boujnouni, H., Rahouti, M., & El Boujnouni, M. (2021). Identification of SARSCoV-2 origin: Using Ngrams, principal component analysis and Random Forest algorithm. Informatics in Medicine Unlocked, 24, 100577.

https://doi.org/10.1016/j.imu.2021.100577

[7] Gorunescu, F, 2011. Data Mining Concepts, Model and Techniques. Berlin:

Springer, Vol.12, ISBN: 978-3-642-19720-8.

[8] Gou, J., Yi. Z., Du. L. &Xiong, T. January 2012. A Local Mean-Based k-Nearest Centroid Neighbor Classifier. The Computer Journal 55(6): pp. 1058-1071, doi:

10.1093/comjnl/bxr131

(9)

[9] Han, J., Kamber, M.& Pei, J. 2012. Data Mining: Concepts and Techniques. 3rd Edition. Morgan Kaufmann Publishers: Sa`n Francisco. ISBN 978-0-12381479- 1.

[10] Hussain, H., Quazilbash. N.Z., Bai. S. &Khoja, S. 2015. Reduction of Variable for Predicting Breast Cancer Survivability Using Principal Component Analysis.International Conference on Computer-Based Medical Systems, Vol.

2015 (15) pp. 131-134. doi:10.1109/cbms.2015.62.

[11] Juez-Gil, M., Arnaiz-González, Á., Rodríguez, J.J., López-Nozal, C. And GarcíaOsorio, C., 2021. Rotation forest for big data. Information fusion, 74, pp.3949. https://doi.org/10.1016/j.inffus.2021.03.007

[12] Kotu, V., &Desphande, B. 2015. Predictive Analytics and Data Mining.

Waltham, USA : Morgan Kaufmann Publishers. 1st Edition - November 27, 2014. eBook ISBN: 9780128016503.

[13] Larose, D.T. 2005.Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons. ISBN 0-471-66657-2. Inc. pp. 129-240.

[14] Maimon, O. dan Last, M. 2000. Knowledge Discovery and Data Mining, The Fuzzy network (IFN) Methodology. Dordrecht: Kluwer Academik. ISBN:

139780792366478.

[15] Manasi M. Phadatare, Sushma S. Nandgaonkar. 2014. Uncertain Data Mining using Decision Tree and Bagging Technique. Department of ComputerEngineering, India. Vol. 5 (3), 2014, 3069-3073. doi:

10.1.1.659.6194.