METODOLOGI PENELITIAN
3.4 Implementasi algoritma KNN dan Matriks Jarak
Penelitian ini menggunakan algoritma KNN sebagai metode klasifikasi pada data set iris dan menggunakan algoritma Bray Curtis distance dan Canberra distance sebagai metode untuk menghitung jarak antara data tes dan data uji pada algoritma K-Nearest Neighbor.
Dan akan dibandingkan dengan algoritma K-Nearest Neighbor menggunakan metode jarak Euclidean Distance yang merupakan metode jarak yang paling banyak digunakan pada klasifikasi algoritma K-Nearest Neighbor.
Setelah dilakukan proses pembagian data menggunakan 10-Fold Cross Validation, dimana data ini akan dibagi menjadi dua jenis data yaitu data latih dan data uji. Data yang telah dibagi akan membentuk 10 subset, dimana 9 subset akan digunakan sebagai data latih dan 1 subset digunakan sebagai data uji. Selanjutnya dilakukan proses perhitungan matriks jarak pada algoritma K-Nearest Neighbor. Dimana jumlah data yang akan digunakan pada data latih sebesar 135 data dengan jumlah data yang sama pada setiap kelas. . Kemudian diasumsikan pada data uji dengan jumlah karakteristik yang sama dengan data latih, dimana kelas pada setiap data uji akan ditentukan dalam satu kali pengujian dengan membandingkan jarak dengan data latih. Adapun jumlah data uji yang akan digunakan sebesar 15 data. Tabel 3.4 menunjukkan rincian data yang akan digunakan sebagai data latih. Dan Tabel 3.5 menunjukkan rincian data yang akan digunakan sebagai data uji.
Tabel 3.4 Rincian Data Latih
Tabel 3.5 Rincian Data Uji Data ke Sepal
21
Dari rincian data latih pada Tabel 3.4 dan rincian data Uji pada Tabel 3.5, dapat diasumsikan menjadi rincian data uji dan data latih pada Tabel 3.6 yang akan digunakan pada proses perhitungan jarak matriks.
Tabel 3.6 Rincian Data Latih dan Data Uji Data
width species Keterangan
1 5.2 4.1 1.5 0.1 setosa Data Latih-1
3.4.1 Arsitektur algoritma KNN dan Bray Curtis
Adapun langkah-langkah implementasi algoritma KNN menggunakan metode jarak Bray Curtis distance digambarkan dalam bentuk diagram alir pada Gambar 3.3
Gambar 3.3 Diagram alir algoritma KNN dan matriks jarak Bray Curtis Distance Berikut asumsi perhitungan algoritma KNN menggunakan matriks jarak Bray Curtis distance. Dimana data yang akan diuji akan dibandingkan dan dihitung jarak matriks dengan data latih pada Tabel 3.6.
Proses perhitungan KNN menggunakan matriks jarak Bray Curtis adalah : 1. Parameter K = 3
2. Perhitungan jarak data testing dan jarak data latih menggunakan jarak Bray Curtis Pada penelitian ini akan dilakukan proses perhitungan data latih-1 sebagai data latih dan data uji-1 sebagai data testing
Data Latih-1 : (5.2, 4.1, 1.5, 0.1) Data uji-1 : (4.8, 3.4, 1.9, 0.2) Jarak yang digunakan : Bray Curtis
∑ | | ( )
Jarak data adalah :
23
| | | | | | | |
( ) ( ) ( ) ( ) Perhitungan yang sama juga dilakukan pada data latih lainnya dengan membandingkan dengan data testing sehingga didapatkan perhitungan jarak antar data uji dengan semua data latih. Hasil perhitungan jarak dapat dilihat pada Tabel 3.7.
Tabel 3.7 Perhitungan jarak Bray Curtis Distance Data
width species Jarak dengan data Uji
3. Urutkan jarak data terkecil
Setelah dilakukan perhitungan jarak terkecil pada setiap data latih terhadap data testing, maka dilakukan pengurutan dari jarak terkecil. Hasil pengurutan jarak terkecil data dilihat pada tabel 3.8
Tabel 3.8 Pengurutan Jarak Bray-Curtis Distance Data
width species Jarak dengan data tes
7 7.4 2.8 6.1 1.9 virginica 0.3193 4. Tentukan kelompok data dengan kelas mayoritas
Pada awal perhitungan telah ditetapkan nilai k pada K-Nearest Neighbor adalah 3, maka data yang akan diambil sebagai kelas adalah tiga data yang memiliki nilai paling kecil yaitu data ke-4, data ke-1, dan data ke-2. Dimana dari ketiga
tetangganya memiliki klasifikasi terbanyak adalah setosa, maka data uji-1 sebagai data uji akan diklasifikasikan sebagai spesies setosa.
3.4.2. Arsitektur algoritma KNN dan Canberra
Adapun langkah-langkah implementasi algoritma KNN menggunakan metode jarak Canberra distance digambarkan dalam bentuk diagram alir pada Gambar 3.3
Gambar 3.4 Diagram alir algoritma KNN dan matriks jarak Canberra Distance
Proses perhitungan jarak pada algoritma KNN dan matriks jarak Canberra distance dilakukan sama seperti proses perhitungan jarak menggunakan jarak Bray Curtis distance. Data latih dan data uji yang akan dilakukan perhitungan juga sama seperti yang ditampilkan pada Tabel 3.6 sebagai contoh data latih dan data uji.
25
Proses perhitungan KNN menggunakan matriks jarak Canberra Distance adalah : 1. Parameter K = 3
2. Perhitungan jarak data testing dan jarak data latih menggunakan jarak Canberra Distance.
Pada penelitian ini akan dilakukan proses perhitungan data latih-1 sebagai data latih dan data uji-1 sebagai data testing
Data Latih-1 : (5.2, 4.1, 1.5, 0.1) Data uji-1 : (4.8, 3.4, 1.9, 0.2)
Jarak yang digunakan : Canberra Distance
∑ | | membandingkan dengan data testing. Hasil perhitungan jarak dapat dilihat pada Tabel 3.9.
Tabel 3.9 Perhitungan jarak Canberra Distance Data
width species Jarak dengan data Uji
3. Urutkan jarak data terkecil
Setelah dilakukan perhitungan jarak terkecil pada setiap data latih terhadap data testing, maka dilakukan pengurutan dari jarak terkecil. Hasil pengurutan jarak terkecil data dilihat pada tabel 3.10
Tabel 3.10 Pengurutan jarak Canberra Distance Data
width species Jarak dengan data tes
width species Jarak dengan data tes
3 5.5 2.4 3.8 1.1 versicolor 1.266
5 5.5 2.5 4 1.3 versicolor 1.31
6 6.7 3 5.2 2.3 virginica 1.533
7 7.4 2.8 6.1 1.9 virginica 1.644
4. Tentukan kelompok data dengan kelas mayoritas
Pada awal perhitungan telah ditetapkan nilai k pada K-Nearest Neighbor adalah 3, maka data yang akan diambil sebagai kelas adalah tiga data yang memiliki nilai paling kecil yaitu data ke-4, data ke-1, dan data ke-2. Dimana dari ketiga
tetangganya memiliki klasifikasi terbanyak adalah setosa, maka data uji-1 sebagai data uji akan diklasifikasikan sebagai spesies setosa.
3.4.3. Arsitektur algoritma KNN dan Euclidean Distance
Adapun langkah-langkah implementasi algoritma KNN menggunakan metode jarak Euclidean distance digambarkan dalam bentuk diagram alir pada Gambar 3.5
27
Gambar 3.5 Diagram alir algoritma KNN dan matriks jarak Euclidean Distance Proses perhitungan jarak pada algoritma KNN dan matriks jarak Euclidean distance dilakukan sama seperti proses perhitungan jarak menggunakan jarak Bray Curtis distance dan Canberra Distance. Data latih dan data uji yang akan dilakukan perhitungan juga sama seperti yang ditampilkan pada Tabel 3.6 sebagai contoh data latih dan data uji.
Proses perhitungan KNN menggunakan matriks jarak Euclidean Distance adalah : 1. Parameter K = 3
2. Perhitungan jarak data testing dan jarak data latih menggunakan jarak Canberra Distance.
Pada penelitian ini akan dilakukan proses perhitungan data latih-1 sebagai data latih dan data uji-1 sebagai data testing
Data Latih-1 : (5.2, 4.1, 1.5, 0.1) Data uji-1 : (4.8, 3.4, 1.9, 0.2)
Jarak yang digunakan : Euclidean Distance
√∑(
)
Jarak data adalah :
√( ) ( ) ( ) ( )
Perhitungan yang sama juga dilakukan pada data latih lainnya dengan membandingkan dengan data testing. Hasil perhitungan jarak dapat dilihat pada Tabel 3.11.
Tabel 3.11 Perhitungan jarak Euclidean Distance Data
width species Jarak dengan data Uji
3. Urutkan jarak data terkecil
Setelah dilakukan perhitungan jarak terkecil pada setiap data latih terhadap data testing, maka dilakukan pengurutan dari jarak terkecil. Hasil pengurutan jarak terkecil data dilihat pada tabel 3.12
Tabel 3.12 Pengurutan jarak Euclidean Distance
29
width species Jarak dengan data tes
4. Tentukan kelompok data dengan kelas mayoritas
Pada awal perhitungan telah ditetapkan nilai k pada K-Nearest Neighbor adalah 3, maka data yang akan diambil sebagai kelas adalah tiga data yang memiliki nilai paling kecil yaitu data ke-4, data ke-1, dan data ke-2. Dimana dari ketiga
tetangganya memiliki klasifikasi terbanyak adalah setosa, maka data uji-1 sebagai data uji akan diklasifikasikan sebagai spesies setosa.