Peningkatan Akurasi Metode K-Nearest Neighbor dengan Seleksi Fitur Symmetrical Uncertainty

(1)

**Peningkatan Akurasi Metode K-Nearest Neighbor dengan Seleksi Fitur Symmetrical Uncertainty**

Anirma Kandida Br Ginting, Maya Silvi Lydia, Elviawaty Muisa Zamzami^* Magister Teknik Informatika, Universitas Sumatera Utara, Medan, Indonesia Email: ¹[email protected], ²[email protected], ^3,*[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak− Perolehan akurasi dari K-Nearest Neighbor (KNN) cenderung lebih rendah dibandingkan dengan metode klasifikasi lainnya. Penyebab dari hal tersebut yaitu berkaitan dengan atribut yang digunakan dan persentase pengaruh atribut tersebut terhadap proses klasifikasi pada suatu data. Dan juga atribut dengan pengaruh yang kurang relevan dapat menjadi masalah yang dalam penentuan kelas baru. Salah satu cara yang dapat dilakukan untuk mengatasi tersebut yaitu dengan melakukan Seleksi Fitur. Maka pada penelitian ini, penulis melakukan seleksi fitur pada K-Nearest Neighbor dengan menggunakan Symmetrical Uncertainty untuk menghapus atribut yang pengaruhnya kurang baik dari data set. Pengujian dari metode yang diusulkan menggunakan data set yang diperoleh dari UCI Machine Learning Repository. Hasil yang diperoleh dari pengujian metode yang diusulkan menggunakan seleksi fitur dengan Symmetrical Uncertainty mampu meningkatkan akurasi klasifikasi dari KNN, dengan peningkatan akurasi yang diperoleh setelah dilakukan seleksi fitur yaitu sebesar 3.00 %.

Kata Kunci: K-Nearest Neighbor; Symmetrical Uncertainty; Seleksi Fitur; Klasifikasi; Peningkatan Akurasi

Abstract− Accuracy of K-Nearest Neighbor (KNN) tends to be lower than other classification methods. The cause of this is related to the attributes used and the percentage of the influence of these attributes on the classification process in a data. And also attributes with less relevant influence can be a problem in determining the new class. One way that can be done to overcome this is by doing Feature Selection. In this research, the author selects features on K-Nearest Neighbor by using Symmetrical Uncertainty to remove attributes that have an unfavorable effect from the data set. Testing of the proposed method uses data sets obtained from the UCI Machine Learning Repository. The results obtained from testing the proposed method using feature selection with Symmetrical Uncertainty are able to increase the classification accuracy of KNN, with an increase in accuracy obtained after feature selection is 3.00 %.

Keywords: K-Nearest Neighbor; Symmetrical Uncertainty; Feature Selection; Classification; Accuracy of Improvement

1. PENDAHULUAN

Klasifikasi merupakan proses yang umumnya digunakan dalam menentukan suatu data baru dari himpunan data untuk digolongkan pada kelas-kelas target dari suatu kumpulan data [1]. Ada beberapa meode yang umumnya digunakan untuk proses klasifikasi. Dari beberapa metode tersebut, salah isatunya yaitu K-Nearest Neighbor (K- NN) yang merupakan termasuk dalam golongan metode terawasi yangidimana hasil dariiuji data yangibaruidiklasifikasikan berdasarkan kelas mayoritas [2].

Dan juga KNN merupakan metodeiklasifikasiiyang efektif, sederhana dengan performa yang baik untuk proses klasifikasi [3]. Akan tetapi permasalahan yang terdapat pada KNN yaitu persoalan dalam perolehan akurasi.

Pada beberapa ipenelitian terdahulu, akurasi yang dihasilkan oleh K-NN cenderung lebihirendah bilaidibandingkan dengan imetode klasifikasi lainnya.

Padaipenelitian [4], dalam penelitian tersebut melakukan perbandingan kinerja dari segi akurasi antara Support Vector Machine (SVM) idan iKNN dengan ihasil yang diperoleh dariipenelitian tersebutiterlihatibahwa kinerja SVM lebih baik idaripada KNN, dimana inilai iakurasi yang diperoleh SVM sebesar 82.54%, dan KNN yaitu sebesar 79,22%.

Penelitian [5], yang membandingkan KNN dan metode Neural Network atau Jaringan SyarafiTiruan (JST) dengan hasil penelitian tersebutimenunjukkanibahwa kinerja dari iNeural Network idengan menggunakan pengujiani5 hidden ilayer memperoleh ihasil yang lebih maksimal dibandingkan denganiKNN yang denganiakurasi yang idicapaiiyaituisebesar 90,5%.

Penelitian [6], pada penelitian tersebut membandingkan ikinerja idari iNaïve iBayes, Decision iTree dan iK- Nearest iNeighbor (KNN). Hasil imenunjukkan iNaïve iBayes imemiliki iakurasi iterbaik dibandingkan Decision Tree idan iK-Nearest iNeighbor (KNN) dengan akurasi rata-rata 73,7%, sedangkan iakurasi rata-rata iDecision Tree dengan akurasi rata-rata 58,9% dan KNN dengan akurasi rata-rata 56,7%.

Dari beberapaipenelitianiterdahuluidiatas, dapat ditarik kesimpulan bahwa rendahnya akurasi yang dihasilkan KNN jika dibandingkan dengan kinerja dari metode kalsifikasi lainnya. Hal tersebut disebabkan, karena setiap atribut memiliki pengaruh yang sama terhadap proses klasifikasi.

Dalam upaya untuk meningkatkan akurasi pada KNN, salah satu penelitian dariimengusulkan untuk meningkatkaniakurasiidariiKNN yaitu dengan melakukaniseleksiifituriuntukimembuang atribut-atributiyang kurang berpengaruh terhadap dataiyangidiujikan sebelum dilakukaniklasifikasiidengan KNN [7].

Seleksi ifitur imerupakan iproses iyang idigunakan iuntuk memilih ibeberapa ifitur yang ipaling iberpengaruh iterhadap iakurasi idari imetode iklasifikasi. Seleksi fitur ijuga solusi iterbaik iuntuk imengurangi

(2)

Anirma Kandida Br Ginting, Copyright ©2021, MIB, Page 1715 idimensi iyang itinggi idari isuatu idata yang akan diproses. Seleksi ifitur idapat imeningkatkan ikinerja isuatu imetode iklasifikasi dengan cara imenghapus iatau imembuang ifitur iyang itidak irelevan [8].

Salah satu penelitian yang menerapkan proses seleksi atribut dengan metode Symmetrical Uncertainty yaitu pada penelitian Kumar & Sree [9]. Pada penelitian tersebut membandingkan performa seleksi atribut dari beberapa metode seleksi atribut yang terdiri dari Chi Square, Information Gain, Gain Ratio, Relief, dan Symmetrical Uncertainty dalam melakukan seleksi atribut pada evaluasi jawaban otomatis berbasis deskriptif. Hasil penelitian tersebut menunjukkan bahwa metode Symmetrical Uncertainty memperoleh hasil yang lebih unggul dibandingkan metode lainnya untuk evaluasi otomatis jawaban deskriptif.

Maka pada penelitian ini, penulis akan menggunakan metode Symmetrical Uncertainty. Sehingga dengan menggunakan seleksi atribut berdasarkan Symmetrical Uncertainty, nantinya dapat menyeleksi atribut-atribut yang kurang relevan sebelum dilakukannya klasifikasi dengan K-Nearest Neighbor dan diharapkan mampu dalam meningkatkan akurasi pada K-Nearest Neighbor. Kemudian dalam pengujian yang akan dilakukan yaitu dengan menguji KNN secara konvensional dan KNN dengan seleksi fitur menggunakan Symmetrical Uncertainty dan membandingkan dari hasil perolehan akurasi dari masing-masing pengujian.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Dalam menguji dari metode yang diusulkan pada penelitian ini untuk meningkatkan akurasi pada K-Nearest Neighbor dengan seleksi fitur, maka dilakukan pengujian penelitian dengan tahapan penelitiannya ditunjukkan pada Gambar 1 berikut.

Gambar 1. Tahapan Penelitian 2.1.1 Dataset

Data Set yang digunakan yaitu Indian Liver Patient Dataset (ILPD) sebanyak 583 data yang merupakan kumpulan data yang berisi 416 catatan pasien dengan kategori Liver dan 167 catatan pasien dengan kategori Non Liver yang berasal dari Andhra Pradesh, India. Kemudian label kelas yang digunakan untuk membagi kedua kelompok tersebut yaitu terdiri dari dua kelas yaitu Liver dan Non Liver. Jumlah atribut pada data set tersebut terdiri dari 10 atribut yaitu Age (Usia Pasien), Gender (Jenis Kelamin), TB (Total Bilirubin), DB (Direct Bilirubin), Alkhos Alkanine Phosphotase, Sgpt Alamine Aminotransferase, Sgot Asparte Aminotransferase, TP (Total Protiens), ALB (Albumin), A/G (Ratio Albumin & Globulin Ratio). Adapun data set tersebut diperoleh dari website (https://archive.ics.uci.edu/ml/datasets/ILPD+(Indian+Liver+Patient+Dataset).

(3)

Tabel 1. Data yang Digunakan

Data Set Fitur Tipe Atribut Kelas Jumlah Data

Indian Liver Patient

Dataset (ILPD) 10 Real, Integer 2 583

Tabel 2. Jumlah Data Berdasarkan Kelas Atribut

No. Kelas Atribut Jumlah Data

1.

2.

Liver Non-Liver

416 167 2.1.2 Preprocessing

Preprocessing dilakukan untuk menormalisasi data untuk mendapatkan data yang valid serta atribut yang relevan [10]. Pada proses normalisasi data dilakukan dengan menggunakan metode Min-Max dengan rumus berikut.

𝑁𝑒𝑤𝑑𝑎𝑡𝑎 = (𝐷𝑎𝑡𝑎−𝑀𝑖𝑛)∗(𝑁𝑒𝑤𝑀𝑎𝑥−𝑁𝑒𝑤𝑀𝑖𝑛)

(𝑀𝑎𝑥−𝑀𝑖𝑛) + 𝑁𝑒𝑤𝑀𝑖𝑛 (1)

2.1.3 Symmetrical Uncertainty

Symmetrical Uncertainty, salah satu metode seleksi fitur yang berbasis Entropy [11]. Kemudian Entropy digunakan untuk mengukur heterogenitas dalam suatu data. Jika semakin heterogen suatu kumpulan data, maka semakin besar nilai entropy dari data tersebut. Tahapan dalam menghitung Symmetrical Uncertainty yaitu sebagai berikut:

a. Menghitung nilai Entropy dengan persamaan (2) berikut:

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑^𝑛_𝑖=1− 𝑝𝑖 ∗ log₂𝑝𝑖 (2) b. Menghitung nilai Information Gain dengan rumus persamaan (3 )berikut:

𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑^𝑛_𝑖=1^|𝑆_|𝑆|^𝑖^| × 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆_𝑖) (3) c. Menghitung nilai Symmetrical Uncertainty dengan menggunakan persamaan (4) berikut:

𝑆𝑦𝑚𝑚𝑒𝑡𝑟𝑖𝑐𝑎𝑙 𝑈𝑛𝑐𝑒𝑟𝑡𝑎𝑖𝑛𝑡𝑦 (𝑆, 𝐴) = 2 ×𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝐺𝑎𝑖𝑛 (𝑆,𝐴)

𝐻(𝑆)+𝐻(𝐴) (4)

d. Menghitung persentase bobot Symmetrical Uncertainty dengan menggunakan perhitungan min-max [12]

yaitu bobot terendah setelah dinormalisasi adalah 0 % dan bobot tertinggi yaitu 100 % dihitung dengan persamaan (2.7) sebagai berikut:

𝑊_𝑖= ^(𝐺^𝑖^{−𝑀𝑖𝑛 (𝐺))}

𝑀𝑎𝑥 (𝐺)−𝑀𝑖𝑛 (𝐺)× 100 % (5)

2.1.4 Fold Cross Validation

Penelitian iini imenggunakan imetode ievaluasi i10-fold icross ivalidation. Pada imetode ini, dibentuk 10 subsets dari data set yang ada. Ini berarti 9 subsets digunakan sebagai data latih dan 1 subset digunakan isebagai idata iuji.

Hasil ipengukuran adalah nilai rata-rata dari 10 kali pengujian [13].

2.1.5 K-Nearest Neighbor

Klasifikasi pada K-Nearest Neightbor (KNN) yaitu dengan langkah-langkah perhitungannya sebagai berikut [14]:

a. Menentukan iparameter k i (jumlah itetangga ipaling idekat).

b. Menghitung ikedekatan iberdasarkan imodel ijarak iEuclidean iterhadap idata ilatih yang idiberikan, dengan ipersamaan (6) berikut:

𝐷(𝑥, 𝑦) = ||𝑥 − 𝑦||₂= √∑^𝑁_𝑗=1|𝑥 − 𝑦|² (6) c. Mengurutkan ihasil ijarak iyang ididapatkan isecara iascending i (berurutan idari inilai tinggi ike irendah).

d. Hitung ijumlah isetiap ikelas iberdasarkan k itetangga iterdekat.

e. Kelas imayoritas idijadikan isebagai ikelas ibagi idata iuji.

2.2 Perhitungan Akurasi

Dalam pengukuran perolehan akurasi dari pengujian metode yang diusulkan, yaitu dengan menggunakan pengukuran Accuracy untuk melihat seberapa besar ketepatan klasifikasi terhadap data set yang diujikan.

Kemudian rumus yang digunakan untuk menghitung nilai accuracy dari pengujian yaitu menggunakan persamaan (7) berikut.

(4)

𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎 𝐾𝑒𝑠𝑒𝑙𝑢𝑟𝑢ℎ𝑎𝑛× 100% (7)

3. HASIL DAN PEMBAHASAN

3.1 Hasil Penelitian

Pengujian dilakukan untuk mengetahui hasil akurasi dari K-Nearest Neighbor dalam mengklasifikasi data.

Kemudian membandingkan hasil akurasi sebelum dan sesudah seleksi fitur dilakukan. Seleksi fitur dilakukan dengan Symmetrical Uncertainty. Sehingga, nantinya dapat diketahui perbedaan hasil akurasi yang diperoleh dalam seleksi fitur pada KNN untuk klasifikasi dan hasil klasifikasi KNN dengan cara konvensional (tanpa seleksi atribut). Dalam pengujian, agar memudahkan memperoleh hasil yang akan dicapai maka penulis dibantu dengan Tools Bahasa pemrograman python yaitu Jupyter Notebook dan RapidMiner Studio.

3.1.1 Hasil Seleksi Fitur dengan Symmetrical Uncertainty

Symmetrical Uncertainty digunakan sebagai metode seleksi fitur pada data set yang bertujuan untuk melihat atribut yang memiliki pengaruh terbesar dan atribut yang mempunyai pengaruh terendah pada data set. Langkah yang dilakukan yaitu terlebih dahulu menghitung perolehan bobot dan persentase pengaruh atribut terhadap data set dari masing-masing atribut. Persentase atribut dihitung berdasarkan normalisasi min-max dari bobot terendah dan bobot tertinggi dari seluruh bobot atribut. Dalam proses perhitungan bobot atribut dibantu dengan Rapid Miner Studio dengan skema pengujiannya seperti pada gambar 2 berikut.

Gambar 2. Proses Perhitungan Bobot Fitur Indian Liver Patient Dataset (ILPD)

Pada gambar 2 di atas menunjukkan skema dalam pengujian untuk menghasilkan nilai bobot pada data set yang diujikan. Kemudian untuk hasil bobot atribut berserta dengan persentase pengaruh masing-masing bobot pada Indian Liver Patient Dataset dapat dilihat pada tabel 3 berikut.

Tabel 3. Nilai Bobot Fitur Indian Liver Patient Dataset (ILPD)

No. Fitur Bobot Fitur Persentase

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Age (Usia Pasien) Gender (Jenis Kelamin)

TB (Total Bilirubin) DB (Direct Bilirubin) Alkhos Alkanine Phosphotase Sgpt Alamine Aminotransferase

Sgot Asparte Aminotransferase TP (Total Protiens)

ALB (Albumin)

A/G (Ratio Albumin & Globulin Ratio)

0.027 0 0.097 0.103 0.071 0.074 0.075

0 0.023 0.030

26.7 % 0 % 94.1 % 100 % 68.8 % 72.1 % 73.1 % 0 % 22.1 % 29.5 %

Kemudian langkah selanjutnya yaitu proses untuk seleksi fitur. Berdasarkan penelitian yang dilakukan oleh [15] dalam menentukan jumlah atribut yang dipilih dari seluruh atribut yang akan diseleksi, menggunakan rumus:

log₂𝑛 (n = jumlah seluruh atribut) (8) Maka pada Indian Liver Patient Dataset, jumlah atribut yang dipilih untuk proses klasifikasi selanjutnya jika mengikuti persamaan (8) yaitu:

log₂10 = 3.32

(5)

Kemudian nilai 3.32 tersebut digenapkan menjadi 3. Kemudian 3 atribut yang dipilih tersebut merupakan atribut dengan urutan persentase atribut yang terbesar. Adapun atribut yang terpilih pada data Indian Liver Patient Dataset dapat dilihat pada tabel 4 berikut.

Tabel 4. Hasil Seleksi Fitur Indian Liver Patient Dataset (ILPD)

No. Fitur Persentase Keterangan

1.

2.

3.

DB (Direct Bilirubin) TB (Total Bilirubin) Sgot Asparte Aminotransferase

100 % 94.1 % 73.1 %

Terpilih Terpilih Terpilih

Pada Tabel 4 atribut dari Indian Liver Patient Dataset yang diseleksi yaitu Age, Gender, Alkhos Alkanine Phosphotase, Sgpt Alamine Aminotransferase, TP, ALB, dan A/G dikarenakan memiiliki persentase terkecil sehingga dapat disimpulkan bahwa atribut-atribut tersebut memiliki pengaruh yang kurang signifikan terhadap data set. Maka atribut yang terpilih adalah TB, DB, dan Sgot Asparte Aminotransferase yang sebagai atribut terpilih untuk selanjutnya pada proses klasifikasi Indian Liver Patient Dataset karena memiliki persentase pengaruh yang besar terhadap data set.

3.1.2 Hasil Perbandingan Akurasi KNN dan KNN + Symmetrical Uncertainty

Kemudian dalam menghitung akurasi dari Indian Liver Patient Dataset berdasarkan hasil klasifikasi dengan KNN dan KNN menggunakan seleksi fitur Symmetrical Uncertainty. Dalam pembagian data, menggunakan 10fold Cross Validation yaitu 9 subset untuk data latih dan 1 subset untuk data uji. Kemudian setelah hasil jarak antar data diperoleh untuk k = 1 dan fold = 1, maka dilakukan perhitungan yang sama sampai fold = 10 dan k = 10.

Adapun hasil akurasi yang diperoleh pada Indian Liver Patient Dataset dari perbandingan akurasi KNN secara konvensional dengan KNN + Symmetrical Uncertainty dapat dilihat pada Tabel 5 berikut.

Tabel 5. Perbandingan Akurasi KNN dan KNN + Symmetrical Uncertainty

k

Perbandingan Akurasi

Selisih Akurasi KNN Konvensional KNN + Symmetrical Uncertainty

Jumlah Data Benar Akurasi Jumlah Data Benar Akurasi 1

2 3 4 5 6 7 8 9 10

379 389 359 383 385 396 388 392 394 403

65.00 66.72 61.58 65.70 66.04 67.93 66.55 67.24 67.58 69.13

366 391 383 417 404 415 419 420 415 419

62.78 67.07 65.70 71.53 68.30 71.18 71.87 72.04 71.18 71.87

-2.22 0.35 4.12 5.83 2.26 3.25 5.32 4.8 3.6 2.74

Rata-Rata 66.35 69.35 3.00

3.2 Pembahasan

Dari tabel 5 terlihat bahwa seleksi fitur menggunakan Symmetrical Uncertainty pada KNN mampu meningkatkan akurasi yang lebih tinggi dibandingkan dengan KNN tanpa menggunakan seleksi fitur dengan perbedaan rata- rata akurasi sebesar 3.00 %. Akurasi tertinggi KNN + Symmetrical Uncertainty diperoleh pada saat k bernilai 4 yaitu sebesar 5.83 %, sedangkan nilai akurasi terendah diperoleh pada saat k bernilai 1 yaitu sebesar -2.22 %.

Rata-rata akurasi seluruh k pada KNN + Symmetrical Uncertainty yaitu sebesar 69.35 %. Adapun rata-rata nilai akurasi pada KNN konvensional sebesar 66.35 %. Berdasarkan pengujian yang telah dilakukan dari seluruh data set terlihat bahwa KNN menggunakan Symmetrical Uncertainty mampu memberikan nilai akurasi yang lebih baik dibandingkan nilai akurasi yang dihasilkan oleh KNN konvensional.

4. KESIMPULAN

Berdasarkan dari pengujian yang dilakukan serta diperoleh hasil evaluasi terhadap metode yang diusulkan untuk meningkatkan akurasi pada K-Nearest Neighbor dengan seleksi fitur menggunakan Symmetrical Uncertainty, maka didapatkan kesimpulan bahwa dengan menggunakan Symmetrical Uncertainty terbukti dapat meningkatkan akurasi pada K-Nearest Neighbor. Peningkatan akurasi yang diperoleh yaitu dengan rata-rata sebesar 3.00 %.

Dalam proses seleksi fitur dari data set yang diujikan, Symmetrical Uncertainty mampu dalam menyeleksi atribut yang memiliki pengaruh kurang signifikan dari kumpulan data pada data set yang diujikan. Sehingga atribut yang memiliki tingkat pengaruh terbesar yang diperoleh berdasarkan seleksi fitur Symmetrical Uncertainty yang kemudian digunakan pada proses klasifikasi, memperoleh hasil akurasi yang meningkat dibandingkan sebelum

(6)

Anirma Kandida Br Ginting, Copyright ©2021, MIB, Page 1719 dilakukannya proses seleksi fitur pada data set yang diujikan. Hal tersebut menandakan bahwa, jumlah atribut berpengaruh pada proses klasifikasi. Sehingga dengan melakukan seleksi fitur, merupakan satu cara yang dapat dilakukan untuk meningkatkan akurasi pada proses klasifikasi suatu data.

REFERENCES

[1] A. Danades, D. Pratama, D. Anggraini, and D. Anggriani, "Comparison of Accuracy Level K-Nearest Neighbor Algorithm and Support Vector Machine Algorithm in Classification Water Quality Status," International Conference on System Engineering and Technology, pp. 137-141, 2016.

[2] J. Han, J. Pei, and M. Kamber, "Data Mining Concept and Techniques, 3rd edition," Morgan Kaufmann-Elsevier. vol. 2, no. 1, pp. 88-97, 2012.

[3] Y. Chen, and Y. Hao, "A Feature Weighted Support Vector Machine and K-Nearest Neighbor Algorithm for Stock Market Indices Prediction," Expert Systems with Applications (2017), vol. 80, pp. 340-355, 2017.

[4] J. S. Raikwal, and K. Saxena, "Performance Evaluation of SVM and K-Nearest Neighbor Algorithm over Medical Data set," International Journal of Computer Applications. vol. 50, no. 14, pp. 35-39, 2012.

[5] A. Moosavian, H. Ahmadi, A. Tabatabaeefar, M. Khazaee, "Comparison of two classifiers; K-nearest neighbor and artificial neural network, for fault diagnosis on a main engine journal-bearing," Shock and Vibration, vol. 20, no. 2, pp.

263-272, 2012.

[6] A. Ashari, I. Paryudi, and A. M. Tjoa, "Performance Comparison between Naïve Bayes, Decision Tree and k-Nearest Neighbor in Searching Alternative Design in an Energy Simulation Tool," (IJACSA) International Journal of Advanced Computer Science and Applications. vol. 4, no. 11, pp. 33-39, 2013.

[7] M. Danil, S. Efendi, and R. W. Sembiring, "The Analysis of Attribution Reduction of K-Nearest Neighbor (KNN) Algorithm by Using Chi-Square," In Journal of Physics: Conference Series, vol. 1424, no. 1, pp. 012004, 2019.

[8] N. S. I. M. Rafei, R. Hassan, R. D. R. Saedudin, A. F. M. Raffei, Z. Zakaria, and S. Kasim, "Comparison of feature selection techniques in classifying stroke documents," Indonesian Journal of Electrical Engineering and Computer Science, vol. 14, no. 3, pp.1244–1250, 2019.

[9] C. S. Kumar, and R. J. Sree, "Application of Ranking Based Attribute Selection Filters to Perform Automated Evaluation of Descriptive Answers Through Sequential Minimal Optimization Models," ICTACT Journal on Soft Computing, vol.

92, no. 2012, pp. 124-132, 2014.

[10] P. Refaeilzadeh, L. Tang, and H. Liu, "Encyclopedia of Database Systems," In Cross-validation, pp. 532-538, 2009.

[11] M. Piao, Y. Piao, and J. Y. Lee, "Symmetrical uncertainty-based feature subset generation and ensemble learning for electricity customer classification," Symmetry, vol. 11, no. 4, pp. 498-504, 2019.

[12] C. Saranya, and G. Manikandan, "A Study on Normalization Techniques for Privacy Preserving Data Mining,"

International Journal of Engineering and Technology (IJET), vol. 5, no. 3, pp. 2701-2704, 2013.

[13] J. D. Novaković, A. Veljović, S. S. Ilić, Ž. Papić, and T. Milica, "Evaluation of Classification Models in Machine Learning," Theory and Applications of Mathematics & Computer Science, vol. 7, no. 1, pp. 39-46, 2017.

[14] M. Kuhkan, "A Method to Improve the Accuracy of K-Nearest Neighbor Algorithm," Internatonal Journal of Computer Engineering and Information Technology, vol. 8, no. 6, pp. 90-95, 2016.

[15] H. Wang, T. M. Khoshgoftaar, and A. Napolitano, "Software measurement data reduction using ensemble techniques,"

Neurocomputing, vo. 92, pp.124-132, 2012.

[16] Rezki, A., Mawengkang, H., Efendi, S., &Khair, H. (2018). Classification Accuracy of K-Nearest Neighbours Algorithm to Predict Rice Quality. International Journal of Progressive Sciences and Technologies, 10(1), 158-162

[17] Saikhu, A., Arifin, A. Z., & Fatichah, C. 2019. Correlation and Symmetrical Uncertainty-Based Feature Selection for Multivariate Time Series Classification. International Journal of Intelligent Engineering and System. 12(3), 129-137.