Uji Validasi - IMPLEMENTASI DAN ANALISIS - ALGORITMA K-NEAREST NEIGHBOUR UNTUK KLASIFIKASI HARG

BAB IV IMPLEMENTASI DAN ANALISIS

4.4 Uji Validasi

Pada sistem K-Nearest Neighbor dengan variasi normalisasi, jumlah tetangga, jarak dan cross validation ini tanpa menggunakan library yang disediakan oleh Matlab, maka perlunya uji validasi dengan data manual menggunakan excel. Pada uji validasi ini digunakan 25 data sampel. Pada variasi metode yang digunakan untuk uji coba adalah normalisasi z-score, menggunakan k 3 dan menggunakan variasi jarak Euclidean distance dan 5-fold cross validation. Hasil perhitungan manual menggunakan excel dan hasil perhitungan dengan sistem akan dibandingkan, uji validasi akan ditampilkan pada gambar berikut :

Gambar 4.21 Euclidean distance menggunakan z-score normaliasi hitung manual

Gambar 4.22 Euclidean distance menggunakan z-score normaliasi dengan sistem

Gambar 4.21 merupakan hasil dari perhitungan Euclidean distance pada data testing 1 dihitung manual menggunakan excel. Gambar 4.22 merupakan hasil dari perhitungan Euclidean distance pada data testing 1 dihitung menggunakan sistem. Dari kedua gambar tersebut diperoleh bahwa perhitungan manual menggunakan excel sama dengan hasil perhitungan pada system. Selanjutnya dilakukan uji validasi untuk metode k –fold cross validation

Gambar 4.23 Perhitungan k = 3 hitungan manual 1-Fold Cross Validation

Gambar 4.24 Perhitungan k= 3 jarak terdekat dengan sistem

Gambar 4.23 merupakan hasil dari perhitungan K-Fold Cross Validation yang dihitung manual menggunakan excel. Gambar 4.24 merupakan hasil perhitungan K-Fold Cross Validation menggunakan sistem. Pada perhitungan sistem dibagi menjadi 3 bagian kesamping yaitu bagian distance dan pada bagian menurun kebawah adalah hasil dari test nya.

Perhitungan manual pada excel dan juga perhitungan dengan sistem memiliki nilai yang sama.

Pengujian validasi sistem dengan menggunakan 25 data sampel menunjukkan sistem yang telah di buat dengan hitungan manual yang telah dihitung memililiki nilai yang sama.

4.5 Perbandingan nilai Confusion Matrix pada 3-Fold Cross Validation dan 5-Fold Cross Validation

Tabel 4.1 Nilai Confusion Matrix pada 3-Fold dan 5-Fold

Normalisasi Variasi Jarak Tetangga (K)

Nilai Rata-rata

Non-Normalisasi Euclidean Distance 3 0,908966667 0,918

Non-Normalisasi Euclidean Distance 5 0,926466667 0,917

Non-Normalisasi Euclidean Distance 7 0,927466667 0,9235

Non-Normalisasi Euclidean Distance 9 0,932466667 0,9305

Non-Normalisasi

Distance 9 0,923466667 0,8985

Min-Max Euclidean Distance 3 0,890533333 0,8875

Min-Max Euclidean Distance 5 0,890033333 0,8885

Min-Max Euclidean Distance 7 0,890533333 0,8885

Min-Max Euclidean Distance 9 0,902966667 0,8905

Min-Max

Manhattan

Distance 3 0,878533333 0,916

Min-Max

Manhattan

Distance 5 0,883533333 0,9195

Min-Max

Manhattan

Distance 7 0,896533333 0,9215

Min-Max

Manhattan

Distance 9 0,8955 0,926

Z-Score Euclidean Distance 3 0,877533333 0,8825

Z-Score Euclidean Distance 5 0,886033333 0,889

Z-Score Euclidean Distance 7 0,889033333 0,8955

Z-Score Euclidean Distance 9 0,897 0,9

Distance 5 0,883533333 0,8825

Z-Score

Manhattan

Distance 7 0,893033333 0,8935

Z-Score

Manhattan

Distance 9 0,892033333 0,8935

Nilai rata-rata akurasi keseluruhan 0,899444444 0,900583333

Penelitian ini menggunakan 2000 data dengan variasi normalisasi, jarak dan jumlah tetangga terdekat (k). Pada percobaan ini, hasil evaluasi Confusion Matrix pada 3-Fold Cross Validation yang memiliki rata-rata akurasi paling tinggi adalah dengan menggunakan variasi tanpa normalisasi, Euclidean Distance dan tetangga k = 9 yang bernilai 0,932466667 yang memiliki akurasi sangat baik. Hasil evaluasi Confusion Matrix pada 5-Fold Cross Validation yang memiliki rata-rata akurasi paling tinggi adalah dengan menggunakan variasi tanpa normalisasi, Euclidean Distance dan tetangga k = 9 yang bernilai 0,9305 yang memiliki akurasi sangat baik. Pada percobaan ini, hasil evaluasi Confusion Matrix pada 3-Fold Cross Validation yang memiliki rata-rata akurasi paling rendah adalah dengan menggunakan variasi z-score normalisasi, Manhattan Distance dan tetangga k = 3 yang bernilai 0,869033333 yang memiliki akurasi baik. Hasil evaluasi Confusion Matrix pada 5-Fold Cross Validation yang

memiliki rata-rata akurasi paling rendah adalah dengan menggunakan variasi normalisasi z-score, Manhattan Distance dan tetangga k = 3 yang bernilai 0,877 yang memiliki akurasi baik.

Hal ini membuktikan bahwa algoritma K-Nearest Neighbor dalam penentuan kalsifikasi harga handphone dapat bekerja dengan baik pada data ini. Seleksi atribut sangat berpengaruh dalam peningkatan nilai rata-rata akurasi dalam percobaan yang dilakukan. Pada 4 atribut yang sudah di seleksi melalui aplikasi WEKA yaitu RAM, Batery Power, PX Height dan PX Width hasil rata-rata akurasinya sangat tinggi sehingga dapat dikatakan bahwa ke 4 atribut ini sangat berpengaruh dalam penentuan harga handphone. Pada penelitian ini percobaan tanpa menggunakan normalisasilah yang memiliki tingkat rata-rata akurasi terbaik dibandingkan menggunakan normalisasi z-score dan min-max. Pada data ini penggunaan fold cross validation dalam evaluasi dapat meningkatkan akurasi menjadi lebih baik terlihat dari nilai rata-rata keseluruhan percobaan antara 3-fold dan 5-fold mengalami kenaikan walau tidak terlalu jauh.

Gambar 4.25 Grafik rata-rata akurasi keseluruhan

Pada grafik ini terlihat bahwa rata-rata akurasi paling tinggi dari antara semua percobaan adalah pada percobaan 3-fold cross validation tanpa normalisasi dengan menggunakan variasi jarak Euclidean dan jumlah tetangga sebanyak k = 9 dengan hasil akurasi rata-rata yaitu 0,932466667. Sedangkan hasil akurasi terendah dari seluruh percobaan adalah pada percobaan

5-fold cross validation menggunakan normalisasi z-score dengan variasi jarak Manhattan dan jumlah tetangga sebanyak k = 3 dengan hasil akurasi rata-rata yaitu 0,869033333.

Gambar 4. 26 Grafik rata-rata Akurasi non-normalisasi, min-max dan z-score keseluruhan Hasil pengujian pada seluruh percobaan terlihat pada grafik ini, semakin tinggi penentuan tetangga terdekat maka juga akan berpengaruh meningkatkan hasil akurasi. Maka ketika memiliki jumlah tetangga terdekat lebih banyak akan mempengaruhi perhitungan K-Nearest Neighbor untuk menjadi lebih baik. Terlihat pada gambar semakin tinggi k maka semakin tinggi juga nilai akurasi. Terlihat pada gambar menggunakan variasi jarak z-score memiliki akurasi yang paling rendah dari semua normalisasi.

Tabel 4.2 Akurasi Terendah dan Tertinggi 3-Fold dan 5-Fold Non-Normalisasi Min-max Z-score Akurasi Tertinggi

3-fold 0,93246667 0,90296667 0,897

Akurasi Terendah

3-fold 0,908966667 0,878533333 0,869033333

Akurasi Tertinggi

5-fold 0,9305 0,9 0,8935

Akurasi Terendah

5-fold 0,916 0,8825 0,877

Akurasi Keseluruhan

Rata-rata 3-fold 0,921408333 0,891020833 0,885904167 Akurasi Keseluruhan

Rata-rata 5-fold 0,9215 0,892563 0,887688

BAB V KESIMPULAN

5.1 KESIMPULAN

Dari hasil pengujian yang dilakukan kesimpulan yang dapat di ambil adalah sebagai berikut : 1. Algoritma K-Nearest Neighbour dapat digunakan pada sistem untuk membantu dalam

mengklasifikasikan harga handphone dilihat dari hasil percobaan yang dilakukan menggunakan 3-Fold Cross Validation dan 5-Fold Cross Validation mendapat hasil yang maksimal yaitu 0,899444444 dan 0,900583 hal ini menunjukkan jika algoritma ini baik dalam pengklasifikasian.

2. Dalam penelitian ini atribut/vitur yang tidak relevan ada sebanyak 16 atribut didapat dari hasil seleksi melakui metode Info Gain pada aplikasi WEKA karena dari 20 atribut ini hanya 4 atribut yang memiliki bobot paling baik yaitu RAM, PX Width, PX Height dan Baterry Power. Hal ini membuktikan bahwa 4 atribut ini sangat berpengaruh dalam penentuan harga hanphone.

3. Hasil rata-rata akurasi keseluruhan untuk 3-fold cross validation adalah 0,899444444 yang memiliki struktur baik. Hasil rata-rata akurasi keseluruhan untuk 5-fold cross validation adalah 0,900583333 yang memiliki struktur sangat baik. Dari rata-rata keseluruhan percobaan didapatkan kesimpulan bahwa semakin tinggi fold nya maka akan semakin tinggi juga tingkat akurasi rata yang didapatkan. Pada percobaan untuk mencari rata-rata keseluruhan akurasi menggunakan 5-fold cross validation yang lebih baik.

5.2 SARAN

1.

Pada tahap seleksi atribut dapat menggunakan algoritma yang berbeda.

2. Pada normalisasi data bisa menggunakan metode yang berbeda seperti Penskalaan Decimal.

3.

Dapat menggunakan variasi k yang lebih banyak

DAFTAR PUSTAKA

Fajar Astuti Hermawati. (2013). Data Mining. Penerbit Andi. Yogyakarta.

Lailil Muflikah, Dian Eka Ratnawati, Rekyan Regasari Mardi Putri. (2018). Press. Buku Ajar:

Data Mining. Penerbit UB. Malang.

Retno Tri Vulandari, S.Si., M.Si. (2017). Data Mining: Teori dan Aplikasi Rapidminer. Penerbit Gava Media. Yogyakarta.

Dr. Suyanto, (2019). Data Mining: Untuk Klasifikasi dan Klasterisasi Data. Penerbit Informatika.

Bandung.

Eko Prasetyo. (2014). Data Mining- Mengelola Data menjadi Informasi Menggunakan Matlab.

Penerbit Andi. Yogyakarta.

Budi Santosa. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Penerbit Graha Ilmu. Yogyakarta

Sumarno Hadi Putra, Barzan Trio Putra. (2018). Klasifikasi Harga Cell Phone menggunakan Metode K-Nearest Neighbor (KNN). Prosiding Annual Research Seminar 2018, Computer Science and ICT.

Alfriyandi Dwi. (2020). Klasifikasi Akreditasi Menggunakan Metode K-Nearest Neighbor (KNN) Pada Data Sekolah Menengah Atas. Skripsi. Yogyakarta

N. N. Dzikrulloh and B. D. Setiawan. (2017). Penerapan Metode K–Nearest Neighbor (KNN) dan Metode Weighted Product (WP) Dalam Penerimaan Calon Guru Dan Karyawan Tata Usaha Baru Berwawasan Teknologi (Studi Kasus : Sekolah Menengah Kejuruan Muhammadiyah 2 Kediri ).

Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 1, no. 5, pp. 378–385. Malang

F. Liantoni. (2015). Klasifikasi Daun Dengan Perbaikan Fitur Citra Menggunakan Metode K-Nearest Neighbor. Skripsi. Surabaya

Han J and Kamber M. (2016). Data Mining: Concept and Techniques. Morgan Kaufmann Publisher. New York

Dalam dokumen ALGORITMA K-NEAREST NEIGHBOUR UNTUK KLASIFIKASI HARGA HANDPHONE SKRIPSI (Halaman 59-0)