Pembahasan - Pengujian Algoritma kNN dengan Reduksi Data pada

BAB 4 : HASIL DAN PEMBAHASAN

A. Pengujian Algoritma kNN dengan Reduksi Data pada

4.3. Pembahasan

4.3. Pembahasan

Berdasarkan proses pengujian yang dilakukan antara klasifikasi data menggunakan algoritma kNN tanpa reduksi data dengan reduksi data menggunakan algoritma FCM dan Pearson correlation memperoleh hasil yang tidak jauh berbeda. Perbedaan dapat dilihat dari hasil akurasi klasifikasi pengujian dan jumlah data pelatihan yang digunakan. Metode yang diusulkan mampu meningkatkan akurasi algoritma kNN dan juga mengurangi dimensi pada data pelatihan. Akurasi yang dihasilkan meningkat dikarenakan metode yang diusulkan mampu menghilangkan data yang mengganggu proses klasifikasi. Data tersebut dapat memiliki pengaruh untuk menentukan kelompok data lainnya agar dapat berada pada kelompoknya sendiri, sehingga dapat menurunkan akurasi klasifikasi data.

Proses reduksi data pada algoritma kNN dapat dilakukan agar dimensi data menjadi kecil dan mempercepat proses komputasi. Pada pengujian yang dilakukan, proses reduksi data dapat memperoleh peningkatan akurasi dan pengurangan dimensi data. Adapun hasil yang diperoleh dapat dilihat pada Tabel 4.8 sebagai berikut.

Tabel 4.8. Perbandingan Hasil Pengujian Klasifikasi Data Nama Metode Dataset

Nilai Rata-Rata kNN_FCM_Pearson 80,88% 92,22%

Pada Tabel 4.8 di atas, dapat dilihat akurasi pengujian menggunakan algoritma kNN tanpa reduksi data memperoleh akurasi rata-rata sebesar 89,52%. Sedangkan, untuk pengujian menggunakan reduksi data pada algoritma kNN memperoleh akurasi rata-rata sebesar 92,22%. Dari hasil tersebut dapat dilihat bahwa peningkatan akurasi yang terjadi sebesar 2,7%. Nilai ini merupakan hasil yang diperoleh dari pengurangan antara persentase hasil klasifikasi data pengujian menggunakan algoritma kNN biasa dengan persentase hasil akurasi menggunakan algoritma kNN dan reduksi data menggunakan algoritma FCM dan Pearson correlation. Peningkatan akurasi tersebut

terjadi dikarenakan metode reduksi data yang digunakan mampu menemukan data-data pelatihan dengan korelasi terendah dengan asumsi bahwa data-data tersebut dapat mengakibatkan data pada kelompok lain dimasukkan pada kelompoknya yang berdampak pada penurunan akurasi klasifikasi menggunakan algoritma kNN.

Reduksi data menggunakan metode fuzzy c-means clustering dan Pearson correlation juga mampu mengefisienkan penggunaan data pelatihan yang dilibatkan dalam proses pembelajaran pada algoritma kNN. Proses pengujian pada algoritma kNN umumnya akan melibatkan seluruh data pelatihan yang ada. Algoritma tersebut akan menempatkan kelompok data berdasarkan pemilihan parameter k yang ditentukan sebelumnya. Permasalahan ini dapat menjadi besar ketika dimensi data yang digunakan juga tergolong tinggi. Langkah yang dapat dilakukan salah satunya yaitu dengan menerapkan metode lainnya untuk mereduksi data sebelum proses klasifikasi dilakukan menggunakan algoritma kNN. Pada penelitian ini, metode yang diusulkan dapat mengurangi atau mereduksi data pelatihan dengan rata-rata pengurangan sebesar 19,22%. Data yang direduksi merupakan data yang dihitung menggunakan persamaan fuzzy c-means clustering dan Pearson correlation.

Adapun hasil yang diperoleh dapat digambarkan menggunakan grafik seperti pada Gambar 4.1 dan Gambar 4.2 sebagai berikut.

Gambar 4.1. Grafik Perbandingan Akurasi Pengujian Klasifikasi Data

Dataset I Dataset II Dataset III Akurasi Rata-Rata

Gambar 4.2. Grafik Perbandingan Persentase Penggunaan Data Pelatihan Pada Gambar 4.1 akurasi dari pengujian yang dilakukan menggunakan algoritma kNN dengan mereduksi data memperoleh peningkatan akurasi yang lebih tinggi sebesar 2,7% dibandingkan metode tanpa reduksi data. Metode reduksi data yang diusulkan dapat diterapkan dan memperoleh akurasi yang lebih tinggi baik pada dataset I, II dan III. Pada Gambar 4.2 persentase penggunaan data pelatihan juga mengalami peningkatan. Hasil pengujian dengan mereduksi data yang dilakukan pada algoritma kNN dapat mengurangi persentase penggunaan data pelatihan dengan rata-rata pengurangan sebesar 19,22%. Data pelatihan yang digunakan untuk proses klasifikasi memiliki dimensi yang lebih kecil dan akhirnya dapat mempercepat proses komputasi pada algoritma kNN.

Reduksi data pada penelitian ini dilakukan menggunakan algoritma fuzzy c-means clustering dan Pearson correlation pada algoritma kNN dengan memperhatikan nilai korelasi yang ditentukan dengan proses random. Algoritma fuzzy c-means clustering akan menentukan titik cluster data dari tiap kelompok data yang terbentuk pada data pelatihan. Setiap kelompok data akan menghasilkan satu titik cluster data, sehingga banyaknya titik pusat cluster yang dihasilkan sebanyak kelas data tersebut.

Selanjutnya, setiap titik pusat cluster data tersebut akan dihitung tingkat korelasinya dengan setiap data pelatihan pada kelompok data yang sama menggunakan persamaan Pearson correlation. Nilai yang terbentuk akan digambarkan dengan rentang nilai 0

Dataset I Dataset II Dataset III Akurasi Rata-Rata

sampai dengan 1. Nilai 0 menggambarkan bahwa data tersebut tidak memiliki kemiripan atau korelasi sama sekali. Sedangkan nilai 1 menggambarkan bahwa kedua data memiliki korelasi yang sangat tinggi.

Proses reduksi terjadi saat memasukkan nilai korelasi yang sesuai dengan penentuan nilai acak > 0 sampai dengan < 1. Nilai yang mendekati nilai 0 mampu mereduksi data dengan jumlah yang sangat kecil bahkan tidak terjadi reduksi. Hal ini disebabkan karena korelasi yang terbentuk pada data sebelumnnya memiliki nilai minimum di atas nilai korelasi yang dimasukkan. Sedangkan nilai korelasi mendekati nilai 1 akan mampu mereduksi banyak data, namun juga banyak menghilangkan informasi pada data pelatihan tersebut. Nilai korelasi yang tidak sesuai akan menyebabkan penurunan akurasi pengujian atau berada di bawah nilai akurasi algoritma kNN tanpa reduksi data. Nilai korelasi yang sesuai dapat dilakukan secara berulang-ulang agar diperoleh nilai akurasi yang maksimum. Cara tersebut akan memakan waktu yang cukup lama dalam proses pengklasifikasian data dan mendapatkan hasil yang tidak maksimal. Cara lain yang bisa dilakukan adalah dengan mencari nilai maksimum dan minimum dari perhitungan persamaan Pearson correlation sebelumnya dan memasukkan nilai diantaranya sebagai nilai korelasi yang diijinkan. Pemilihan nilai korelasi lainnya mungkin dapat dicari dengan menggunakan algoritma optimasi, seperti algoritma genetika atau particle swarm optimization (PSO). Namun, penelitian ini tidak membahasnya dikarenakan kajian yang terlalu mendalam.

Berdasarkan paparan yang dijelaskan bahwa metode yang diusulkan dengan mereduksi data menggunakan algoritma fuzzy c-means clustering dan Pearson correlation mampu meningkatkan akurasi klasifikasi data pada algoritma kNN dan mengurangi dimensi data pelatihan yang digunakan. Metode ini dapat digunakan baik pada dataset kecil ataupun besar dengan jumlah baris data, atribut dan kelas yang berbeda-beda. Salah satu parameter yang menentukan dalam peningkatan tersebut adalah penggunaan nilai korelasi. Nilai korelasi yang digunakan harus tepat karena jika nilai tersebut tidak sesuai, maka akan menurunkan akurasi pengujian pada algoritma kNN dan proses reduksi data tidak memiliki pengaruh atau tidak layak digunakan.

BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan penelitian yang telah dilakukan dapat diambil kesimpulan bahwa akurasi klasifikasi data pada algoritma kNN dengan reduksi data menggunakan algoritma fuzzy c-means clustering dan Person correlation memperoleh akurasi rata-rata sebesar 92,22% dan mengalami peningkatan sebesar 2,7% dibandingkan dengan hasil klasifikasi pada algoritma kNN tanpa reduksi data dengan perolehan akurasi rata-rata sebesar 89,52%. Selain itu, penggunaan metode reduksi data yang diusulkan pada algoritma kNN dapat mereduksi data menjadi dimensi yang lebih kecil dengan rata-rata persentase reduksi data pelatihan sebesar 19,22%.

5.2. Saran

Adapun saran yang diberikan pada penelitian ini adalah sebagai berikut:

1. Metode yang diusulkan memiliki parameter penting yaitu nilai korelasi yang diuji dengan rentang nilai tertentu. Metode ini dapat bekerja lebih efektif dengan melakukan optimasi menggunakan metode lain dalam penentuan nilai korelasi yang sesuai, seperti: algoritma genetika atau particle swarm optimization (PSO).

2. Penentuan hasil klasifikasi data sangat berpengaruh terhadap titik pusat cluster yang diperoleh. Perhitungan titik pusat cluster yang tidak tepat pada FCM akan menurunkan tingkat akurasi klasifikasi data. Sehingga, perlu dilakukannya teknik kombinasi lainnya pada FCM untuk menentukan titik pusat cluster yang sesuai dan mampu meningkatkan akurasi klasifikasi data pada algoritma kNN.

DAFTAR PUSTAKA

Annasaheb, A.B. & Verma, V.K. (2016). Data Mining Classification Techniques: A Recent Survey. International Journal of Emerging Technologies in Engineering Research (IJETER). Available at https://www.ijeter.everscience.org/

Manuscripts/Volume-4/Issue-8/Vol-4-issue-8-M-11.pdf

Balamurugan, M., Nancy, A. & Vijaykumar, S. (2017). Alzheimer’s Disease Diagnosis by using Dimensionality Reduction Based on Knn Classifier.

Biomedical and Pharmacology Journal. Available at https://dx.doi.org/

10.13005/bpj/1299

Barigou, F. (2018). Impact of Instance Selection on kNN-Based Text Categorization.

Journal of Information Processing Systems, 14(2), 418-434. Available at https://dx.doi.org/10.3745/JIPS.02.0080

Bhuvaneshwari, K.V. & Poornima, B. (2019). Cervical Cancer Cell Identification &

Detection Using Fuzzy C Mean and K nearest Neighbor Techniques.

International Journal of Innovative Technology and Exploring Engineering (IJITEE). Available at https://dx.doi.org/10.35940/ijitee.I7892.0881019

Chen, S. (2017). K-Nearest Neighbor Algorithm Optimization in Text Categorization.

IOP Conference Series: Earth and Environmental Science. Available at https://dx.doi.org/10.1088/1755-1315/108/5/052074

Cover, T. & Hart, P. (1967). Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory. Available at https://dx.doi.org/10.1109/

TIT.1967.1053964

Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques (Second Edition). San Francisco : Morgan KaufmannPublishers

Handayani, I. (2019). Application of K-Nearest Neighbor Algorithm on Classification of Disk Hernia and Spondylolisthesis in Vertebral Column. Indonesian Journal of Information Systems (IJIS). Available at https://dx.doi.org/

10.24002/ijis.v2i1.2352

Jabbar, M.A,. Deekshatulu, B.L. & Candra, P. (2013). Classification of Heart Disease Using K-Nearest Neighbor and Genetic Algorithm. International Conference on Computational Intelligence: Modeling Techniques and Applications (CIMTA). Available at https://dx.doi.org/10.1016/j.protcy.2013.12.340

Kaur, A., Kaur, L. & Gupta, S. (2012). Image Recognition using Coefficient of Correlation and Structural SIMilarity Index in Uncontrolled Environment.

International Journal of Computer Applications, Volume 59 – No 5. Available at https://www.ijcaonline.org/archives/volume59/number5/9546-3999

Kusrini & Taufiq, L.E. (2009). Algoritma Data Mining. Yogyakarta: Andi Offset

Larose, D.T. (2005). Discovering Knowledge in Data : An Introduction to Data Mining. New Jersey : Wiley-Interscience

Li, J. (2019). An improved k-nearest neighbor algorithm using tree structure and pruning technology. Intelligent Automation & Soft Computing, vol. 25, no.1.

Available at https://www.techscience.com/iasc/v25n1/39631

Miloud-Aouidate, A. & Baba-Ali, A.R. (2012). A Hybrid KNN-Ant Colony Optimization Algorithm for Prototype Selection. International Conference on Neural Information Processing. Available at https://dx.doi.org/10.1007/978-3-642-34487-9_38

Saadatfar, H., Khosravi, S., Joloudari, J.H., Mosavi, A., & Shamshirband, S. (2020). A New K-Nearest Neighbors Classifier for Big Data Based on Efficient Data Pruning. Mathematics. Available at https://doi.org/10.3390/math8020286 Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis :

Edisi Pertama. Yogyakarta: Graha Ilmu

Sjarif, N.N., Rusydi, M., Yusof, M., Hooi, D., Wong, T., Ya’akob, S., Ibrahim, R., &

Osman, M.Z. (2019). A Customer Churn Prediction using Pearson Correlation Function and K Nearest Neighbor Algorithm for Telecommunication Industry.

Int. J. Advance Soft Compu. Appl, Vol. 11, No. 2. Available at http://home.ijasca.com/data/documents/04_Page46-59_A-Customer-Churn-Prediction-using-Pearson.pdf

Sumathi, K., Kannan, S. & Nagarajan, K. (2016). Data Mining: Analysis of student database using Classification Techniques. International Journal of Computer Applications. 141. 22-27. Available at https://doi.org/10.5120/ijca2016909703 Tan, P-N., Steinbach, M. & Kumar, V. (2006). Introduction to Data Mining. Boston :

Pearson Addison-Wesley

Tang, L., Pan, H. & Yao, Y. (2018). K-Nearest Neighbor Regression with Principal Component Analysis for Financial Time Series Prediction. ICCAI 2018:

Proceedings of the 2018 International Conference on Computing and Artificial Intelligence. Available at https://doi.org/10.1145/3194452.3194467

Thanuja, C. & Shreedevi, G.R. (2013). Content Based Image Retrieval System for Kannada Query Image from Multilingual Document Image. International Journal of Engineering Research and Applications (IJERA). Available at https://www.ijera.com/papers/Vol3_issue4/HF3413291335.pdf

Tomar, D. & Agarwal, S. (2013). A survey on Data Mining approaches for Healthcare. International Journal of Bio-Science and Bio-Technology, 5, 241-266. Available at https://doi.org/10.14257/ijbsbt.2013.5.5.25

Tripathy, B.K., Basu, A. & Govel S. (2014). Image Segmentation using Spatial Intuitionistic Fuzzy C Means Clustering. IEEE International Conference on Computational Intelligence and Computing Research. Available at https://doi.org/10.1109/ICCIC.2014.7238446

Turban, E., Sharda, R. & Delen, D. (2010). Decision Support and Business Intelligent Systems. United States : Prentice Hall Press

Valarmathle, P., Srinath, M.V., Ravichandran, T. & Dinakaran, K. (2009). Hybrid Fuzzy C-Means Clustering Technique for Gene Expression Data. International Journal of Research and Reviews in Applied Sciences. Available at https://www.arpapress.com/Volumes/Vol1/IJRRAS_1_04.pdf

Wu, X., Kumar, V., Quinlan, R., Ghosh, J., Yang, Q., Motoda, H., Mclachlan, G., Ng, S. K. A., Liu, B., Yu, P., Zhou, Z-H., Steinbach, M., Hand, D., Steinberg, D.

(2007). Top 10 algorithms in data mining. Knowledge and Information Systems. 14. Available at https://doi.org/10.1007/s10115-007-0114-2

Yu, K., Geng, Y., Li, X. & Yang, M. (2018). Improvement of Fuzzy KNN Classification Algorithm Based on Fuzzy C-means. CSAE '18: Proceedings of the 2nd International Conference on Computer Science and Application Engineering. 1-5. Available at https://doi.org/10.1145/3207677.3278080 Zhang, S., Li, X., Zong, M., Zhu, X., & Wang, R. (2018). Efficient kNN

Classification With Different Numbers of Nearest Neighbors. IEEE Transactions on Neural Networks and Learning Systems, 29(5), 1774–1785.

Available at https://doi.org/10.1109/tnnls.2017.2673241

Dalam dokumen ANALISIS METODE FUZZY C-MEANS DAN PEARSON CORRELATION UNTUK REDUKSI DATA PADA ALGORITMA KNN TESIS CUT DESY ARISANDI NIM (Halaman 58-0)