BAB IV IMPLEMENTASI DAN ANALISIS
4.4 Uji Validasi
Pada sistem K-Nearest Neighbor dengan variasi normalisasi, jumlah tetangga, jarak dan cross validation ini tanpa menggunakan library yang disediakan oleh Matlab, maka perlunya uji validasi dengan data manual menggunakan excel. Pada uji validasi ini digunakan 25 data sampel. Pada variasi metode yang digunakan untuk uji coba adalah normalisasi z-score, menggunakan k 3 dan menggunakan variasi jarak Euclidean distance dan 5-fold cross validation. Hasil perhitungan manual menggunakan excel dan hasil perhitungan dengan sistem akan dibandingkan, uji validasi akan ditampilkan pada gambar berikut :
Gambar 4.21 Euclidean distance menggunakan z-score normaliasi hitung manual
Gambar 4.22 Euclidean distance menggunakan z-score normaliasi dengan sistem
Gambar 4.21 merupakan hasil dari perhitungan Euclidean distance pada data testing 1 dihitung manual menggunakan excel. Gambar 4.22 merupakan hasil dari perhitungan Euclidean distance pada data testing 1 dihitung menggunakan sistem. Dari kedua gambar tersebut diperoleh bahwa perhitungan manual menggunakan excel sama dengan hasil perhitungan pada system. Selanjutnya dilakukan uji validasi untuk metode k –fold cross validation
Gambar 4.23 Perhitungan k = 3 hitungan manual 1-Fold Cross Validation
Gambar 4.24 Perhitungan k= 3 jarak terdekat dengan sistem
Gambar 4.23 merupakan hasil dari perhitungan K-Fold Cross Validation yang dihitung manual menggunakan excel. Gambar 4.24 merupakan hasil perhitungan K-Fold Cross Validation menggunakan sistem. Pada perhitungan sistem dibagi menjadi 3 bagian kesamping yaitu bagian distance dan pada bagian menurun kebawah adalah hasil dari test nya.
Perhitungan manual pada excel dan juga perhitungan dengan sistem memiliki nilai yang sama.
Pengujian validasi sistem dengan menggunakan 25 data sampel menunjukkan sistem yang telah di buat dengan hitungan manual yang telah dihitung memililiki nilai yang sama.
4.5 Perbandingan nilai Confusion Matrix pada 3-Fold Cross Validation dan 5-Fold Cross Validation
Tabel 4.1 Nilai Confusion Matrix pada 3-Fold dan 5-Fold
Normalisasi Variasi Jarak Tetangga (K)
Nilai Rata-rata
Non-Normalisasi Euclidean Distance 3 0,908966667 0,918
Non-Normalisasi Euclidean Distance 5 0,926466667 0,917
Non-Normalisasi Euclidean Distance 7 0,927466667 0,9235
Non-Normalisasi Euclidean Distance 9 0,932466667 0,9305
Non-Normalisasi
Distance 9 0,923466667 0,8985
Min-Max Euclidean Distance 3 0,890533333 0,8875
Min-Max Euclidean Distance 5 0,890033333 0,8885
Min-Max Euclidean Distance 7 0,890533333 0,8885
Min-Max Euclidean Distance 9 0,902966667 0,8905
Min-Max
Manhattan
Distance 3 0,878533333 0,916
Min-Max
Manhattan
Distance 5 0,883533333 0,9195
Min-Max
Manhattan
Distance 7 0,896533333 0,9215
Min-Max
Manhattan
Distance 9 0,8955 0,926
Z-Score Euclidean Distance 3 0,877533333 0,8825
Z-Score Euclidean Distance 5 0,886033333 0,889
Z-Score Euclidean Distance 7 0,889033333 0,8955
Z-Score Euclidean Distance 9 0,897 0,9
Distance 5 0,883533333 0,8825
Z-Score
Manhattan
Distance 7 0,893033333 0,8935
Z-Score
Manhattan
Distance 9 0,892033333 0,8935
Nilai rata-rata akurasi keseluruhan 0,899444444 0,900583333
Penelitian ini menggunakan 2000 data dengan variasi normalisasi, jarak dan jumlah tetangga terdekat (k). Pada percobaan ini, hasil evaluasi Confusion Matrix pada 3-Fold Cross Validation yang memiliki rata-rata akurasi paling tinggi adalah dengan menggunakan variasi tanpa normalisasi, Euclidean Distance dan tetangga k = 9 yang bernilai 0,932466667 yang memiliki akurasi sangat baik. Hasil evaluasi Confusion Matrix pada 5-Fold Cross Validation yang memiliki rata-rata akurasi paling tinggi adalah dengan menggunakan variasi tanpa normalisasi, Euclidean Distance dan tetangga k = 9 yang bernilai 0,9305 yang memiliki akurasi sangat baik. Pada percobaan ini, hasil evaluasi Confusion Matrix pada 3-Fold Cross Validation yang memiliki rata-rata akurasi paling rendah adalah dengan menggunakan variasi z-score normalisasi, Manhattan Distance dan tetangga k = 3 yang bernilai 0,869033333 yang memiliki akurasi baik. Hasil evaluasi Confusion Matrix pada 5-Fold Cross Validation yang
memiliki rata-rata akurasi paling rendah adalah dengan menggunakan variasi normalisasi z-score, Manhattan Distance dan tetangga k = 3 yang bernilai 0,877 yang memiliki akurasi baik.
Hal ini membuktikan bahwa algoritma K-Nearest Neighbor dalam penentuan kalsifikasi harga handphone dapat bekerja dengan baik pada data ini. Seleksi atribut sangat berpengaruh dalam peningkatan nilai rata-rata akurasi dalam percobaan yang dilakukan. Pada 4 atribut yang sudah di seleksi melalui aplikasi WEKA yaitu RAM, Batery Power, PX Height dan PX Width hasil rata-rata akurasinya sangat tinggi sehingga dapat dikatakan bahwa ke 4 atribut ini sangat berpengaruh dalam penentuan harga handphone. Pada penelitian ini percobaan tanpa menggunakan normalisasilah yang memiliki tingkat rata-rata akurasi terbaik dibandingkan menggunakan normalisasi z-score dan min-max. Pada data ini penggunaan fold cross validation dalam evaluasi dapat meningkatkan akurasi menjadi lebih baik terlihat dari nilai rata-rata keseluruhan percobaan antara 3-fold dan 5-fold mengalami kenaikan walau tidak terlalu jauh.
Gambar 4.25 Grafik rata-rata akurasi keseluruhan
Pada grafik ini terlihat bahwa rata-rata akurasi paling tinggi dari antara semua percobaan adalah pada percobaan 3-fold cross validation tanpa normalisasi dengan menggunakan variasi jarak Euclidean dan jumlah tetangga sebanyak k = 9 dengan hasil akurasi rata-rata yaitu 0,932466667. Sedangkan hasil akurasi terendah dari seluruh percobaan adalah pada percobaan
5-fold cross validation menggunakan normalisasi z-score dengan variasi jarak Manhattan dan jumlah tetangga sebanyak k = 3 dengan hasil akurasi rata-rata yaitu 0,869033333.
Gambar 4. 26 Grafik rata-rata Akurasi non-normalisasi, min-max dan z-score keseluruhan Hasil pengujian pada seluruh percobaan terlihat pada grafik ini, semakin tinggi penentuan tetangga terdekat maka juga akan berpengaruh meningkatkan hasil akurasi. Maka ketika memiliki jumlah tetangga terdekat lebih banyak akan mempengaruhi perhitungan K-Nearest Neighbor untuk menjadi lebih baik. Terlihat pada gambar semakin tinggi k maka semakin tinggi juga nilai akurasi. Terlihat pada gambar menggunakan variasi jarak z-score memiliki akurasi yang paling rendah dari semua normalisasi.
Tabel 4.2 Akurasi Terendah dan Tertinggi 3-Fold dan 5-Fold Non-Normalisasi Min-max Z-score Akurasi Tertinggi
3-fold 0,93246667 0,90296667 0,897
Akurasi Terendah
3-fold 0,908966667 0,878533333 0,869033333
Akurasi Tertinggi
5-fold 0,9305 0,9 0,8935
Akurasi Terendah
5-fold 0,916 0,8825 0,877
Akurasi Keseluruhan
Rata-rata 3-fold 0,921408333 0,891020833 0,885904167 Akurasi Keseluruhan
Rata-rata 5-fold 0,9215 0,892563 0,887688
48
BAB V KESIMPULAN
5.1 KESIMPULAN
Dari hasil pengujian yang dilakukan kesimpulan yang dapat di ambil adalah sebagai berikut : 1. Algoritma K-Nearest Neighbour dapat digunakan pada sistem untuk membantu dalam
mengklasifikasikan harga handphone dilihat dari hasil percobaan yang dilakukan menggunakan 3-Fold Cross Validation dan 5-Fold Cross Validation mendapat hasil yang maksimal yaitu 0,899444444 dan 0,900583 hal ini menunjukkan jika algoritma ini baik dalam pengklasifikasian.
2. Dalam penelitian ini atribut/vitur yang tidak relevan ada sebanyak 16 atribut didapat dari hasil seleksi melakui metode Info Gain pada aplikasi WEKA karena dari 20 atribut ini hanya 4 atribut yang memiliki bobot paling baik yaitu RAM, PX Width, PX Height dan Baterry Power. Hal ini membuktikan bahwa 4 atribut ini sangat berpengaruh dalam penentuan harga hanphone.
3. Hasil rata-rata akurasi keseluruhan untuk 3-fold cross validation adalah 0,899444444 yang memiliki struktur baik. Hasil rata-rata akurasi keseluruhan untuk 5-fold cross validation adalah 0,900583333 yang memiliki struktur sangat baik. Dari rata-rata keseluruhan percobaan didapatkan kesimpulan bahwa semakin tinggi fold nya maka akan semakin tinggi juga tingkat akurasi rata yang didapatkan. Pada percobaan untuk mencari rata-rata keseluruhan akurasi menggunakan 5-fold cross validation yang lebih baik.
5.2 SARAN
1.
Pada tahap seleksi atribut dapat menggunakan algoritma yang berbeda.2. Pada normalisasi data bisa menggunakan metode yang berbeda seperti Penskalaan Decimal.
3.
Dapat menggunakan variasi k yang lebih banyak49
DAFTAR PUSTAKA
Fajar Astuti Hermawati. (2013). Data Mining. Penerbit Andi. Yogyakarta.
Lailil Muflikah, Dian Eka Ratnawati, Rekyan Regasari Mardi Putri. (2018). Press. Buku Ajar:
Data Mining. Penerbit UB. Malang.
Retno Tri Vulandari, S.Si., M.Si. (2017). Data Mining: Teori dan Aplikasi Rapidminer. Penerbit Gava Media. Yogyakarta.
Dr. Suyanto, (2019). Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Penerbit Informatika.
Bandung.
Eko Prasetyo. (2014). Data Mining- Mengelola Data menjadi Informasi Menggunakan Matlab.
Penerbit Andi. Yogyakarta.
Budi Santosa. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Penerbit Graha Ilmu. Yogyakarta
Sumarno Hadi Putra, Barzan Trio Putra. (2018). Klasifikasi Harga Cell Phone menggunakan Metode K-Nearest Neighbor (KNN). Prosiding Annual Research Seminar 2018, Computer Science and ICT.
Alfriyandi Dwi. (2020). Klasifikasi Akreditasi Menggunakan Metode K-Nearest Neighbor (KNN) Pada Data Sekolah Menengah Atas. Skripsi. Yogyakarta
N. N. Dzikrulloh and B. D. Setiawan. (2017). Penerapan Metode K–Nearest Neighbor (KNN) dan Metode Weighted Product (WP) Dalam Penerimaan Calon Guru Dan Karyawan Tata Usaha Baru Berwawasan Teknologi (Studi Kasus : Sekolah Menengah Kejuruan Muhammadiyah 2 Kediri ).
Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 1, no. 5, pp. 378–385. Malang
F. Liantoni. (2015). Klasifikasi Daun Dengan Perbaikan Fitur Citra Menggunakan Metode K-Nearest Neighbor. Skripsi. Surabaya
Han J and Kamber M. (2016). Data Mining: Concept and Techniques. Morgan Kaufmann Publisher. New York