KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL
MEAN VECTOR DAN HARMONIC DISTANCE
TESIS
DEDI CANDRO PARULIAN SINAGA 167038044
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN
2019
KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL
MEAN VECTOR DAN HARMONIC DISTANCE
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magester Teknik Informatika
DEDI CANDRO PARULIAN SINAGA 167038044
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN
2019
iii
PERNYATAAN
KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEARST NEIGHBOR MENGGUNAKAN LOCAL MEAN VECTOR
DAN HARMONIC DISTANCE
TESIS
Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 15 Januari 2019
Dedi Candro Parulian Sinaga 167038044
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini :
Nama : Dedi Candro Parulian Sinaga
NIM : 167038044
Program Studi : Magister(S-2) Teknik Informatika Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :
KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEARST NEIGHBOR MENGGUNAKAN LOCAL MEAN VECTOR
DAN HARMONIC DISTANCE
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 15 Januari 2019
v
Dsedi Candro Parulian Sinaga 167038044
Telah diuji pada
Tanggal : 15 Januari 2019
PANITIA PENGUJI TESIS Ketua : Prof. Dr. Tulus
Anggota : 1. Dr. Poltak Sihombing, M.Kom 2. Prof. Dr. Muhammad Zarlis 3. Dr. Zakaria Situmorang
vi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap berikut gelar : Dedi Candro Parulian Sinaga Tempat dan Tanggal Lahir : Padang Maninjau, 27 Agustus 1988 Alamat Rumah : Jl. Sembada XVI No. 8 BB Medan
Kecamatan Medan Selayang, Kota Medan
Telp/HP : 0858 3090 9560
Email : [email protected]
DATA PENDIDIKAN
SD : SDN 112309 Padang Maninjau TAMAT : 2000
SMP : SMP RK Bintang Timur Rantauprapat TAMAT : 2003 SMK : SMA RK Bintang Timur Rantauprapat TAMAT : 2006 S1 : Universitas Methodist Indonesia TAMAT : 2011
S2 : Teknik Informatika USU TAMAT : 2019
vii
UCAPAN TERIMA KASIH
Puji dan syukur atas nikmat kepada Tuhan Yang Maha Esa sehingga dapat menyelesaikan penyusunan tesis ini, sebagai syarat untuk memperoleh gelar Magister Komputer pada Program Magister (S-2) Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih saya sampaikan kepada semua pihak yang telah membantu dalam menyelesaikan tesis ini baik secara langsung maupun tidak langsung, teristimewa orangtua saya yang sangat mengasihi dan menyayangi dan memberi dukungan tiada henti. Pada kesempatan ini saya ingin mengucapkan terima kasih yang sebesar-besarnya kepada:
1. Bapak Prof. Dr. Runtung Sitepu, S.H.,M.Hum. selaku Rektor Universitas Sumatera Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik Informatika Universitas Sumatera Utara.
4. Bapak Syahril Efendi, S.Si.,M.IT selaku Sekretaris Program Studi Magister Teknik Informatika Universitas Sumatera Utara.
5. Bapak Prof. Dr. Tulus selaku Dosen Pembimbing I yang telah memberikan kritik, saran dalam penyempurnaan tesis ini.
6. Bapak Dr. Poltak Sihombing, M.Kom selaku Dosen Pembimbing II yang telah memberikan memberikan kritik, saran dalam penyempurnaan tesis ini.
viii
7. Semua Dosen dan semua Pegawai di Program Studi Magister (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
8. Buat Keluarga besar saya, Orang tua tersayang Arjon Sinaga, S.Pd dan Demika Sihole, S.Pd yang senantiasa mendoakan dan mendukung serta adik-adik tersayang Maria Novayanti Sinaga, Minar Veronika Sinaga, Pattun Imansyah Sinaga.
9. Buat Istri tersayang Listra Agripa Sitanggang yang senantiasa mendoakan dan mendukung selama menempuh pendidikan Magister Teknik Informatika.
10. Seluruh rekan-rekan seperjuangan mahasiswa Magister Teknik Informatika Kom A 2016 USU, terkhusus untuk Maulana Erwin Saputra.
11. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian tesis ini.
Semoga Tuhan Yang Maha Esa memberikan rahmat, kasih sayang dan balasan kepada semua pihak yang telah memberikan bantuan, masukan dan semangat kepada saya untuk menyelesaikan tesis ini. Berharap tesis ini dapat bermanfaat kepada penulis dan pembaca.
Medan, 15 Januari 2019
Dedi Candro Parulian Sinaga
ix
ABSTRAK
K-Nearest Neighbor merupakan salah satu dari top ten algoritma data mining dalam proses klasifikasi. Rendahnya hasil akurasi pada metode klasifikasi K-NN dikarenakan metode ini menggunakan sistem vote majority yang memungkinkan terpilihnya outlier sebagai tetangga terdekat dan pada model jarak yang digunakan sebagai metode penentuan kemiripan antar data. Dalam peroses ini terbukti bahwa local mean vector dan harmonic distance mampu meningkatkan akurasi, dimana peningkatan rata-rata akurasi tertinggi yang diperoleh pada data set wine yaitu sebesar 6.29% dan peningkatan akurasi tertinggi terhadap LMKNN diperoleh pada data set glass identification yaitu sebesar 16.18%. Berdasarkan pengujian yang telah dilakukan terhadap seluruh data set yang digunakan terlihat bahwa metode yang diusulkan mampu memberikan nilai akurasi yang lebih baik dari pada nilai akurasi yang dihasilkan oleh K-NN tradisional dan LMKNN.
Keywords: Harmonic Distance, K-Nearest Neighbor, Local Mean K-Nearest Neighbor
x
PERFORMANCE OF DISTANCE-BASED K-NEARST NEIGHBOR CLASSIFICATION METHOD USING LOCAL
MEAN VECTOR AND HARMONIC DISTANCE ABSTRACT
K-Nearest Neighbor is one of the top ten algorithms data mining in the classification process. The low accuracy results in the K-NN classification method because this method uses the system majority vote which allows the selection of outliers as the closest neighbors and in the distance model used as a method of determining similarity between data. In this process it is evident that local mean vector and harmonic distance can improve accuracy, where the highest increase in average accuracy obtained in the set data wine is 6.29% and the highest accuracy increase for LMKNN is obtained in set data glass identification which is 16.18%. Based on the tests that have been conducted on all data sets used, it can be seen that the proposed method is able to provide a better value of accuracy than the value of accuracy produced by traditional K-NN and LMKNN.
Keywords: Harmonic Distance, K-Nearest Neighbor, Local Mean K-Nearest Neighbor
xi
DAFTAR ISI
Halaman Halaman Judul
Persetujuan ii
Pernyataan Orisinalitas iii
Persetujuan Publikasi iv
Panitia Penguji v
Riwayat Hidup vi
Ucapan Terima Kasih vii
Abstrak ix
Abstract x
Daftar Isi xi
Daftar Tabel xiii
Daftar Gambar xiv
Daftar Lampiran xv
BAB 1 PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 3
1.3. Tujuan Penelitian 3
1.4. Batasan Penelitian 3
1.5. Manfaat Penelitian 3
BAB 2 LANDASAN TEORI 4
2.1. Klasifikasi 4
2.2. K-Nearest Neighbor 5
2.3. Local Mean Based K-Nearest Neighbor (LMKNN) 7
2.4. Model Jarak 8
2.5. Riset-riset Terkait 9
2.6. Perbedaan Dengan Riset Yang Lain 10
BAB 3 METODOLOGI PENELITIAN 11
3.1. Data Yang Digunakan 11
3.2. Arsitektur Umum 11
3.3. Tahapan Analisa Kinerja Metode 13
3.3.1. Penentuan Data Latih dan Data Uji 14
3.3.2. Proses Klasifikasi 14
3.3.2.1. Proses Klasifikasi pada Metode LKMNN Dan
Harmonic Distance 14
3.3.2.2. Proses Klasifikasi LMKNN 15
3.3.2.3. Proses Klasifikasi KNN 16
3.3.3. Perbandingan Kinerja Metode 17
3.4. Software Dan Tools Yang Digunakan 18
xii
BAB 5 KESIMPULAN DAN SARAN 39
5.1. Kesimpulan 39
5.2. Saran 39
DAFTAR PUSTAKA
LAMPIRAN
BAB 4 HASIL DAN PEMBAHASAN
4.1. Hasil 19
4.2. Pengujian 21
4.2.1. Pengujian Data Set Ionosphare 21
4.2.2. Pengujian Data Set Wine 24
4.2.3. Pengujian Data Set Glass Identification 28
4.2.4. Pengujian Data Set Habeman 31
4.3.5. Pengujian Data Set Hayes-Roth 34
4.3. Pembahasan 37
xiii
DAFTAR TABEL
Halaman
Tabel 2.1. Riset-Riset Terkait 10
Tabel 3.1. Rincian Data Yang Digunakan 11
Tabel 3.2. Rincian Data Latih Dan Data Uji 14
Tabel 3.3. Jarak Data Uji ke Setiap Data Latih 14
Tabel 3.4. Urutan Jarak Terdekat Antara Data Uji ke Seluruh Data Latih 15
Tabel 3.5. Harmonic Distance Untuk Setiap Kelas 15
Tabel 3.6. Urutan Jarak Terdekat Untuk Setiap Kelas Data 16 Tabel 3.7. Local Mean Vector Untuk Setiap Kelas Data 16
Tabel 3.8. Jarak Data Uji Ke Local Mean Vector 16
Tabel 3.9. Urutan K Tetangga Terdekat 17
Tabel 4.2. Rincian Data Ionosphare Yang Digunakan 22
Tabel 4.3. Jarak Antara Data Pada Dataset Ionosphare 22 Tabel 4.4. Urutan Jarak Terdekat Pada Dataset Ionosphare 23 Tabel 4.5. Perbandingan Akurasi Pada Dataset Ionosphare 23
Tabel 4.6. Rincian Data Latih Wine Yang Digunakan 25
Tabel 4.7. Rincian Data Uji Wine Yang Digunakan 25
Tabel 4.8. Jarak Antara Data Pada Dataset Wine 25
Tabel 4.9. Urutan Jarak Terdekat Pada Dataset Wine 26
Tabel 4.10. Perbandingan Akurasi Pada Dataset Wine 26
Tabel 4.11. Rincian Data Latih Glass Identification 28
Tabel 4.12. Rincian Data Uji Glass Identification 28
Tabel 4.13. Jarak Antara Data Pada Dataset Glass Identification 29 Tabel 4.14. Urutan Jarak Terdekat Pada Dataset Glass Identification 29 Tabel 4.15. Perbandingan Akurasi Pada Dataset Glass Identification 30
Tabel 4.16. UrutvData Latih Haberman 31
Tabel 4.17. Rincian Data Uji Haberman 31
Tabel 4.18. Jarak Antara Data Pada Dataset Haberman 32 Tabel 4.19. Urutan Jarak Terdekat Pada Dataset Haberman 32 Tabel 4.20. Perbandingan Akurasi Pada Dataset Haberman 33
Tabel 4.21. Rincian Data Latih Hayes-Roth 34
Tabel 4.22. Rincian Data Uji Hayes-Roth 34
Tabel 4.23. Jarak Antara Data Pada Dataset Hayes-Roth 35 Tabel 4.24. Urutan Jarak Terdekat Pada Dataset Hayes-Roth 35 Tabel 4.25. Perbandingan Akurasi Pada Dataset Hayes-Roth 36
xiv
DAFTAR GAMBAR
Halaman
Gambar 2.1. Proses Kerja Klasifikasi
5
Gambar 3.1. Arsitektur Umum Metode Yang Diusulkan 12
Gambar 3.2. Tahapan Penyelesaian Masalah 13
Gambar 4.1. Output Akurasi Pengujian Pada Dataset Ionosphare 19 Gambar 4.2. Output Akurasi Pengujian Pada Dataset Wine 19 Gambar 4.3. Output Akurasi Pengujian Pada Dataset Glass Identification 20 Gambar 4.4. Output Akurasi Pengujian Pada Dataset Haberman 20 Gambar 4.5. Output Akurasi Pengujian Pada Dataset Hayes-Roth 21 Gambar 4.6. Grafik Perbandingan Akurasi Pada Dataset Ionosphare 24 Gambar 4.7. Grafik Perbandingan Akurasi Pada Dataset Wine 27 Gambar 4.8. Grafik Perbandingan Akurasi Pada Dataset Glass
Identification 30
Gambar 4.9. Grafik Perbandingan Akurasi Pada Dataset Haberman 33 Gambar 4.10. Grafik Perbandingan Akurasi Pada Dataset Hayes-Roth 36 Gambar 4.11. Grafik Rata-Rata Nilai Akurasi Dari Seluruh Data 37
xv
DAFTAR LAMPIRAN
Lampiran 1. Rincian Data Ionosphare Lampiran 2. Rincian Data Wine
Lampiran 3. Rincian Data Glass Identification Lampiran 4. Rincian Data Haberman
Lampiran 5. Rincian Data Hayes-Roth Lampiran 6. Listing Program
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Metode K-NN pertama kali diperkenalkan pada awal tahun 1950-an (Han.
2011). K-NN merupakan salah satu metode klasifikasi bersifat lazy learning yang paling banyak digunakan dalam pengklasifikasian, pengenalan pola, text categorization, (Prasetyo. 2012; Bhatia & Vandana. 2010; Jabbar, et al. 2013; Rui-Jia
& Xing. 2014; Sánchez, et al. 2014; Zheng, et al. 2017). Hal ini dikarenakan K-NN cukup atraktif, mudah dalam penerapan, intuitif, dapat dieksplorasi pada berbagai domain aplikasi, dan sederhana (Wang, et al. 2007; García-Pedrajas & Ortiz-Boyer, 2009; Pan, et al. 2017; Ougiaroglou & Evangelidis, 2012; Song, et al. 2016; Feng, et al. 2016).
Algoritma K-Nearest Neighbor (K-NN) merupakan algoritma yang termasuk kedalam kategori distance-based algorithms (Wang, et al. 2007). Algoritma Distance- Based adalah suatu algoritma yang menentukan kemiripan antar data atau objek berdasarkan dari kedekatan jarak data ke suatu kelas atau label atau kelompok data lainnya (Kataria & Singh, 2013; Lei, et al. 2016). Kemiripan atau pengukuran jarak adalah komponen inti dari algoritma yang termasuk kedalam kelompok distance-based (Shirkhorshidi, et al. 2015).
Kemiripan antar data pada K-NN ditentukan dengan menggunakan pengukuran model jarak, dimana model jarak tradisional sangat rapuh dalam penentuan kemiripan tersebut, terlebih lagi pada model jarak tradisional nilai attribut yang terlalu besar dapat menutupi pengaruh dari attribut lainnya, dan kebanyakan model jarak tradisional kurang mengambarkan perbedaan antar data, terutama pada sampel data besar (Jo. 2017; Loohach & Garg. 2012; Pandit & Gupta. 2011).
Pada Jurnal penelitian oleh A.A Nababan, et al (2018), mengusulkan Atribut Weighting Based K-Nearest Neighbor Menggunakan Gain Ratiose bagai parameter untuk melihat korelasi antara masing-masing atribut dalam data dan Gain Ratio juga
2
akan digunakan sebagai dasar untuk pembobotan setiap atribut dari dataset.
Keakuratan hasil dibandingkan dengan akurasi yang diperoleh dari metode KNN asli menggunakan 10-fold Cross-Validation denganbeberapa set data dari repositori Machine Learning UCI dan KEEL-Dataset Repository, seperti abalone, identifikasi kaca, haberman, hayes-roth dan kualitas air status.
Jo (2017) memberi solusi pada kelemahan tersebut dengan cara menggantikan model jarak tradisional menggunakan model jarak yang didasari pada feature similarity dan feature value similarity. Pan (2016) dalam penelitiannya menyarankan menggunakan model jarak harmonic sebagai pengganti dari model jarak Euclidean.
Selain itu, K-NN bekerja dengan melihat K tetangga terdekat dari setiap data dimana dalam proses klasifikasi K-NN tradisional menggunakan sistem voting terbanyak sebagai kelas prediksi dari data yang baru (Kalaivani & Shunmuganathan.
2014; Iswarya & Radha. 2015; Gou et al. 2012; Lidya, et al. 2015). Pemilihan nilai K yang kecil menyebabkan hasil klasifikasi sensitive terhadap noise atau outlier, jika nilai K terlalu besar kemungkinan jumlah tetangga terdekat dari kelas lain terlalu banyak yang akhirnya dapat menurunkan hasil klasifikasi (Gou, et al. 2014).
Solusi dari permasalahan ini salah satunya diberikan oleh Syaliman et al (2017) dengan menggunakan gabungan metode LMKNN (Mitani et al. 2006) dan DWKNN (Kuhkan. 2016). Pan (2017) mengatakan bahwa LMKNN dengan local mean vector-nya mampu untuk mengurangi pengaruh outlier. Begitu pula dengan DWKNN, metode distance weight yang disarankan oleh Kuhkan (2016) mampu untuk mengurangi pengaruh outlier yang terpilih menjadi tetangga terdekat serta, sekaligus memberikan bobot kemiripan antar data yang lebih baik dari model jarak tradisional.
Berdasakan penjelasan diatas maka, pada penelitian ini bertujuan untuk meningkatkan akurasi dari K-NN tradisional dengan menggunakan local mean vector sebagai penentuan kelas bagi data yang baru dengan menggunakan model jarak Harmonic dalam proses perhitungan kemiripan antar datanya. Diharapkan kedua metode tersebut mampu untuk meningkatkan kinerja dari K-NN tradisional, yang mana kinerja metode pada penelitian ini hanya diukur berdasarkan nilai akurasi yang didapatkan.
3
1.2. Rumusan Masalah
Rendahnya hasil akurasi pada metode klasifikasi K-NN tradisional dikarenakan metode ini menggunakan sistem vote majority yang memungkinkan terpilihnya outlier sebagai tetangga terdekat, dan pada model jarak yang digunakan sebagai metode penentuan kemiripan antar data, dimana model jarak tradisional sangat rapuh terhadap perhitungan kemiripan. Hal-hal ini dapat meningkatkan kesalahan dalam proses klasifikasi.
1.3. Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah untuk meningkatkan nilai akurasi dari metode klasifikasi K-Nearest Neighbor (K-NN) tradisional dengan menggabungkan beberapa tahapan dari metode Local Mean Based K-Nearest Neighbor dan harmonic distance yang terbukti lebih baik untuk mengatasi outlier.
1.4. Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut:
1. Pada penelitian ini akan menggunakan Local Mean Based K-Nearest Neighbor dan Harmonic Distance untuk meningkatkan akurasi pada metode K-Nearest Neighbor (K-NN) tradisional.
2. Pada penelitian ini hanya menggunakan K bernilai 1 sampai dengan 10.
3. Penelitian ini menggunakan beberapa dataset dari UCI Machine Learning Repository, yaitu ionosphere, wine, glass identification, hayes-roth dan haberman yang digunakan untuk menguji kinerja metode.
4. Kinerja diukur hanya berdasarkan dari tingkat akurasi.
1.5. Manfaat Penelitian
Manfaat yang diharapkan dari penelitian ini adalah sebagai berikut :
1. Mendalami metode tentang klasifikasi terutama yang bersifat distance-based.
Memberi kontribusi kepada ilmu pengetahuan dalam bidang klasifikasi khususnya pada algoritma klasifikasi lazy learning.
BAB 2
LANDASAN TEORI
2.1. Klasifikasi
Klasifikasi adalah suatu proses penilaian terhadap objek untuk menentukannya ke dalam kelas tertentu berdasarkan ciri yang dimiliki oleh objek tersebut. Klasifikasi pertama kali digunkan untuk mengidentikasi taman yang dikemukakan oleh Carolus Lineus.
Pada bidang ilmu komputer, klasifikasi digunakan untuk menilai suatu data dan menentukan kelas dari data tersebut. Sebuah sistem klasifikasi diharapkan mampu mengelompokkan semua data input dengan benar, namun tidak dapat dimungkiri bahwa kinerja suatu sistem klasifikasi tidak bisa seratus persen benar, sehingga sebuah sistem klasifikasi juga harus diukur kinerjanya. Umumnya, pengukuran kinerja klasifikasi dapat dilakukan dengan menggunakan matriks konfusi (confusion matrix).
Dengan mengetahui jumlah data yang berhasil diklasifikasi secara benar, maka dapat diketahui tingkat akurasi serta laju error dari hasil prediksi pada sistem klasifikasi tersebut. Untuk menghitung tingkat akurasi dapat menggunakan persamaan di bawah ini: (Eko Prasetyo, 2013)
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟
𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛 (2.1)
Sedangkan untuk mengukur laju error digunakan persamaan:
𝐿𝑎𝑗𝑢 𝑒𝑟𝑟𝑜𝑟 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑎𝑙𝑎ℎ
𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛 (2.2)
Seluruh algoritma klasifikasi berusaha membuat model dengan hasil akurasi yang tinggi (laju error yang rendah). Pada umumnya, model yang dibangun mampu memprediksi data latih dengan tepat, namun ketika model dievaluasi dengan data uji saat itulah kinerja model klasifikasi terlihat jelas.
Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototipe dan (2) penggunaan model tersebut untuk melakukan klasifikasi pada suata objek data. Model dalam klasifikasi mempunyai arti yang sama
5
dengan kotak hitam, dimana ada suatu model yang menerima masukan, kemudian mampu melakukan pemikiran terhadap masukkan tersebut dan mampu memberikan
keluaran dari hasil pemikirannya. Kerangka kerja klasifikasi dapat dijelakan oleh gambar 2.1:
Gambar 2.1 Proses Kerja Klasifikasi
Kerangka kerja klasifikasi yang dijelaskan pada gambar 2.1 meliputi dua langkah proses. Pertam, proses induksi yang merupakan tahapan dengan tujuan membangun model klasifikasi dengan menggunakan data latih, kedua proses deduksi yang merupakan tahpan untuk menerapkan model tersebut dan dievaluasi dengan menggunakan data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui atau biasa disebut proses prediksi.
Ada banyak algoritma yang telah dikembangkan oleh para ahli, akan tetapi berdasarkan cara pelatihannya algoritma ini dibedakan menjadi dua macam, yang pertama eager learner dan yang kedua lazy learner. Eager learner dirancang untuk melakukan pelatihan / pembacaan/ pembelajaran dari data latih agar mampu memetakan dengan tepat setiap vektor inputan ke label kelas keluarannya sehingga di akhir proses pelatihannya model sudah dapat memetakan semua vektor data uji ke label kelas dengan benar. Selanjutnya, setelah proses pelatihan selesai, model (biasanya berupa bobot atau sejumlah nilai kuantitas tertentu) disimpan sebagai memori. Proses prediksi dilakukan dengan menggunakan model yang telah dibangun dimana tidak lagi melibatkan data latih. Cara ini membuat proses prediksi dapat dilakukan dengan cepat, akan tetapi harus dibayar dengan proses pelatihan yang lama.
Algoritma yang bersifat eager learner diantaranya Artificial Neural Network (ANN), Support Vectore Mechine (SVM), Decision Tree, Bayesian, dan lain sebagainya.
Masukan Data Latih
Algoritma Pelatihan
Pembangunan Model Penerapan
Model Masukan
Data Uji
Keluaran Data Uji
6
Sementara Algoritma lazy learner adalah algoritma yang masuk dalam kategori sedikit melakukan pelatihan atau sama sekali tidak melakukan pelatihan, algoritma ini hanya menyimpan sebagian atau seluruh data latih yang kemudian menggunkan seluruh atau sebagian dari data latih tersebut unutk proses prediksi. Hal ini mengakibatkan proses prediksi menjadi lama karena model harus membaca kembali data latihnya agar dapat memberikan keluaran label kelas dengan benar pada data uji. Kelebihan algoritma ini adalah proses pelatihan yang berjalan dengan cepat.
Algoritma klasifikasi yang termasuk kategori ini diantaranya adalah K-Nearest Neighboar (K-NN), Fuzzy K-Nearest Neighboar (FK-NN), Regresi Linear, dan sebagainya. Dimana algoritma jenis ini untuk melakukan klasifikasi akan memerlukan seluruh data latih (Buana, et al. 2012).
2.2. K-Nearest Neighbor (K-NN)
K-Nearest Neighbor (K-NN) merupakan salah satu dari top ten algoritma data mining dalam proses klasifikasi (Wu & Kumar. 2009). K-NN memiliki daya tarik tersendiri yang membuat algoritma ini sering digunakan. Hal ini disebabkan, K-NN merupakan teknik klasifikasi yang sederhana, intuitif, dan mudah disesuaikan disegala domain permasalahan. Selain itu K-NN juga memiliki kerja yang cukup baik. Adapun karakteristik dari K-NN adalah sebagai berikut:
1. K-NN merupakan algoritma yang menggunakan seluruh atau sebagian data latih untuk melakukan proses klasifikasi. Hal ini mengakibatkan proses prediksi yang sangat lama.
2. K-NN tidak membedakan setiap fitur (attribut) data dengan suatu bobot.
3. Hal yang rumit dari K-NN adalah menentukan nilai K yang paling sesuai.
4. Prinsip K-NN adalah memilih tetangga terdekat dan melakukan pe-label- an dengan sistem vote majority.
Pada proses penentuan label bagi data yang baru, K-NN menggunakan sistem vote majority yang sederhana (Lidya, et al. 2015). Dimana kelas mayoritas dari K tetangg terdekat akan dijadikan kelas bagi data uji yang baru. K-NN bekerja dengan dengan prinsip melihat tetangga terdekat (Kalaivani & Shunmuganathan. 2014;
Iswarya & Radha. 2015).
Nilai K pada K-NN merupakan jumlah tetangga terdekat, jika K bernilai 1, maka kelas dari satu data latih yang merupakan tetangga terdekat akan menjadi kelas
7
bagi data uji yang baru. Jika K bernilai 2, maka akan diambil dua data latih yang merupakan tetangga terdekat dan akan dijadikan kelas bagi data uji yang baru. Begitu juga jika nilai K 3, 4, 5, dan seterusnya. Adapun alur kerja dari K-NN adalah sebagai berikut:
i. Tentukan Nilai K.
ii. Hitung jarak antar data latih dan data uji dengan persamaan model jarak.
iii. Tentukan K tetangga terdekat.
iv. Tentukan kelas mayoritas dari tetangga terdekat
Algoritma K-Nearest Neighbor (K-NN) termasuk kedalam kategori distance- based algorithms (Wang, et al. 2007). Distance-Based Algorithms adalah algoritma yang menentukan kemiripan data atau objek berdasarkan pada kedekatan jarak antar data ke suatu kelas atau label atau kelompok data lainnya (Kataria & Singh, 2013; Lei, et al. 2016).
2.3. Local Mean Based K-Nearest Neighbor (LMKNN)
Mitani, et al. (2006) mengajukan penggunaan Local Mean pada K-Nearest Neighbor untuk mengurangi pengaruh outlier. Metode ini tergolong metode yang simple, efektif dan tangguh. Pan, et al (2016) Mengatakan penggunaan Local Mean terbukti dapat memperbaiki kinerja dan juga mengurangi pengaruh outlier pada metode K-NN tradisional, terutama untuk jumlah data yang kecil.
Adapun alur kerja dari LMKNN menurut Pan et al (2016) adalah sebagai berikut:
i. Tentukan Nilai K
ii. Hitung jarak data uji keseluruh data dari masing-masing kelas data dengan menggunakan model jarak Euclidean.
iii. Urutkan jarak antar data dari yang terkecil ke yang terbesar sebanyak K dari setiap kelas
iv. Hitung local mean vector dari setiap kelas dengan persamaan (Pan, et al. 2016) :
𝑚𝑤𝑘𝑗 = 𝑖
𝑘∑𝑘𝑖=1𝑦𝑖,𝑗𝑁𝑁 (2.3)
8
v. Tentukan kelas data uji dengan cara menghitung jarak terdekat ke local mean vector dari setiap kelas data dengan persamaan:
𝑤𝑐 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑤𝑗𝑑 (𝑥, 𝑚𝑤𝑘𝑗) , 𝑗 = 1, 2, … , 𝑀 (2.4) Pan, et al. (2016) mengatakan nilai K pada LMKNN sangat berbeda jauh dari K-NN tradisional, pada LMKNN nilai K merupakan jumlah tetangga terdekat dari setiap kelas data, sedangkan pada K-NN tradisional nilai K merupakan jumlah tetangga terdekat dari seluruh data. LMKNN sama dengan 1-NN jika nilai K bernilai 1 (Mitani, et al. 2006).
2.4. Model Jarak
Model jarak merupakan salah satu cara untuk mengukur kemirpan antar data. Terdapat berbagai macam model jarak, antara lain Chebyshev, Harmonic, Euclidean, Manhattan, Minkowsky, dan lain sebagainya. Berikut ini adalah beberapa persamaan dari model jarak tersebut:
Pengukuran jarak Manhattan menggunakan formula:
D(𝑥, 𝑦) = ||𝑥 − 𝑦||1 = ∑𝑁𝑗=1|𝑥 − 𝑦| (2.8)
Pengukuran jarak Chebyshev menggunakan formula:
D(𝑥, 𝑦) = ||𝑥 − 𝑦||λ = lim
λ→∞√∑λ 𝑁𝑗=1|𝑥 − 𝑦|λ (2.9)
Pengukuran jarak Euclidean menggunakan formula:
D(𝑥, 𝑦) = ||𝑥 − 𝑦||2 = √∑𝑁𝑗=1|𝑥 − 𝑦|2 (2.10)
Pengukuran jarak Minkowsky menggunakan formula:
D(𝑥, 𝑦) = ||𝑥 − 𝑦||λ = √∑λ 𝑁𝑗=1|𝑥 − 𝑦|λ (2.11)
Dimana:
D adalah jarak antara data x dan y.
N adalah jumlah fitur (dimensi) data.
𝛌 adalah parameter jarak Minkowsky.
Secara umum Minkowsky merupakan generalisasi dari jarak yang ada seperti Euclidean dan Manhattan (Mergio & Casanovas, 2011). Lamda (λ) merupakan parameter penentu dan bernilai bilangan positif dari 1 sampai dengan tak terhingga (∞), jika nilai λ = 1 maka ruang jarak Minkowsky sama dengan Manhattan
9
(Labellapansa, et al. 2016), dan jika λ = 2 ruang jaraknya sama dengan Euclidean (Mergio & Casanovas, 2008), dan jika λ= ∞ sama dengan ruang jarak Chebyshev (Rao, et al. 2012).
Setiap model pengukuran jarak mempunyai kelebihan masing-masing, Manhattan sangat teguh untuk mendeteksi outlier pada data, sedangkan Euclidean cocok untuk menentukan jarak terdekat (lurus) antara dua data. Akan tetapi, model jarak Euclidean dinilai kurang dalam menginterpretasikan kemiripan antar data (Pandit & Gupta. 2011).
Model jarak tradisional sangat rapuh dalam penentuan kemiripan tersebut, terlebih lagi pada model jarak tradisional nilai attribut yang terlalu besar dapat menutupi pengaruh dari attribut lainnya, dan kebanyakan model jarak tradisional kurang mengambarkan perbedaan antar data, terutama pada sampel data besar (Jo.
2017; Loohach & Garg. 2012; Pandit & Gupta. 2011).
Pan, et al (2016) dalam penelitiannya menyarankan menggunakan model jarak Harmonic, dimana model jarak ini dinilai lebih baik dalam menggambarkan kemiripan antar data. Adapun pengukuran jarak Harmonic dapat menggunakan persamaan 2.12.
D(𝑥, 𝑦) = 1
∑𝑁𝑗=1|𝑥−𝑦|1 ) (2.12)
Ide utama dari model jarak Harmonic adalah mengambil jumlah harmonik rata-rata dari jarak Euclidean antar satu titik data tertentu ke suati titik dari kelompok data lainya. Dibandingkan dengan model jarak lainnya, jarak Harmonic lebih fokus kepada pengaruh data yang lebih dekat (Pan, et al. 2016).
2.5. Riset-Riset Terkait
Para peneliti telah banyak melakukan upaya peningkatan kinerja dari K-NN tradisional. Antara lain dengan menggunakan Local K (García-Pedrajas, et al. 2015), local mean vector (Mitani, et al. 2006), Local Mean Vector dikombinasi dengan harmonic distance (Pan, et al. 2016), Local Mean dikombinasikan dengan Distance Weight (Syaliman, et al. 2017), dan lain sebagainya. Hal ini bertujuan untuk mengurangi kesalahan dalam klasifikasi yang disebabkan oleh kelemahan K-NN tradisional tersebut, terutama pengaruh outlier yang terpilih menjadi K tetangga terdekat.
10
Jadi untuk memperkuat bahwa penelitian ini layak untuk diteliti, maka dibawah ini akan dipaparkan beberapa riset yang berkaitan dengan riset yang akan dilakukan.
Tabel 2.1 Riset-Riset Terkait
No
Nama Peneliti dan Tahun
Penelitian
Judul Riset
Algoritma / Metode yang
digunakan
Hasil Penelitian
1 Mitani, et al (2006)
A Local Mean- Based Nonparametric
Classifier
Local Mean Vector, K-NN
Mampu mengurangi pengaruh outlier dan mampu meningkatkan
kinerja dari metode K-NN
2 García-Pedrajas et al (2015)
A Proposal for Local k Values for k -Nearest Neighbor Rule
Local K, K-NN
Menghasilkan nilai akurasi yang lebih baik pada metode K-
NN
3 Pan, et al (2016)
A New K- Harmonic
Nearest Neighbor Classifer Based
On The Multi- Local Means
LMKNN, Harmonic Distance
Menghasilkan kinerja yang lebih baik jika dibandinkan dengan K-NN konvensional
4 Syaliman, et al (2017)
Improving The Accuracy Of K-
Nearest Neighbor Using
Local Mean Based And Distance Weight
LMKNN, DWKNN
Berhasil memberikan akurasi yang lebih baik dari pada metode
K-NN tradisional
2.6. Perbedaan Dengan Riset Yang Lain
Adapun perbedaan riset yang akan dilakukan terletak pada model jarak yang digunakan serta penentuan label pada tetangga baru. Dimana pada penelitian ini akan menggunakan model jarak Harmonic dan Local Mean Vector sebagai penentuan label baru terhadap data uji.
BAB 3
METODOLOGI PENELITIAN
3.1. Data Yang Digunakan
Untuk menguji kinerja dari metode yang disarankan maka pada penelitian ini akan menggunakan 5 dataset yang berasal dari UCI Machine Learning Repository. Dataset yang pertama adalah ionosphere, wine, glass identification, hayes-roth, dan haberman. Adapun rincian dari data yang digunakan dapat dilihat pada tabel 3.1.
Tabel 3.1. Rincian Data Yang Digunakan
No Data Set Atribut Tipe Kelas Total Data
1 Ionosphere 34 Real 2 351
2 Wine 13 Integer, Real 3 178
3 Glass Identification 10 Real 6 214
4 Haberman 3 Real, Integer, Nominal 2 306
5 Hayes-roth 4 Real, Integer, Nominal 3 160
Pada penelitian ini akan menggunakan metode evaluasi Direct Partition. Pada metode ini dataset akan langsung dibagi menjadi 2 kategori, dimana sebesar 85% dari data dijadikan data latih dan 15% dari data dijadikan data uji.
3.2. Arsitektur Umum
Penelitian ini bertujuan untuk meningkatkan akurasi dari K-NN tradisional dengan menggunakan model jarak Harmonic sebagai metode untuk mengukur kemiripan antar data, dimana model jarak ini dianggap mampu memberikan nilai kemiripan yang lebih baik dari model jarak lainnya.
Pada penelitian ini juga akan menggunakan gabungan dari beberapa tahapan pada Local Mean Based K-Nearest Neighbor dan Harmonic Distance sebagai penentu
12
label bagi data uji. Diharapkan dengan menggunakan gabungan kedua metode tersebut dapat meningkatkan akurasi dari metode K-NN tradisional.
Gambaran secara umum tahapan dari metode yang diusulkan pada penelitian ini ditunjukkan pada gambar 3.1.
Gambar 3.1. Arsitektur Umum Metode Yang Diusulkan
Berdasarkan gambar 3.1 terlihat bahwa metode yang diusulkan memiliki beberapa tahapan, antara lain:
i. Dataset, pada proses ini data yang digunakan akan dibagi menjadi.
Sebanyak 85% dari data akan dijadikan data latih dan 15% dijadikan sebagai data uji.
ii. Hitung jarak antar data latih dan data uji dengan persamaan 2.10.
iii. Tentukan K tetangga terdekat, pada LMKNN penentuan tetangga terdekat diambil dari setiap kelas dari data. Sedangkan pada K-NN tradisional, penentuan K tetangga terdekat diambil dari seluruh data. Pada proses ini, metode yang diusulkan akan mengikuti aturan dari LMKNN.
iv. Tentukan Harmonic Distance dari setiap kelas data dengan persamaan 2.12.
v. Penentuan Label bagi data uji. Label bagi data uji ditentukan berdasarkan nilai dari Harmonic Distance, semakin kecil nilai yang didapati menunjukkan kemiripan data semakin dekat.
Dataset Hitung Jarak Antar Data Latih dan Data Uji
Tentukan K Tetangga Terdekat
Tentukan Harmonic Distance Tentukan Label
Data Uji
13
3.3. Tahapan Analisa Kinerja Metode
Secara garis besar tahapan-tahapan yang dilakukan untuk menyelesaikan masalah pada penelitian ini dapat dilihat pada gambar 3.2.
Gambar 3.2. Tahapan Penyelesaian Masalah
Dari Gambar 3.2 terlihat bahwa tahapan-tahapan dalam penyelesaian masalah pada penelitian adalah sebagai berikut:
i) Penentuan Data. Dalam penelitian sebanyak 85% dataset akan dijadikan data latih, dan 15% akan dijadikan data uji yang dilakukan secara random.
ii) Setelah data dibagi, data tersebut akan digunakan untuk mengukur kinerja dari metode yang diusulkan, LMKNN, dan K-NN tradisional.
iii) Tahapan akhir adalah dengan melihat nilai akurasi dari setiap metode, dimana untuk mengukur tingkat akurasi dapat menggunakan persamaan di bawah ini (Han, 2011):
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = TP+TN
P+N × 100% = Jumlah prediksi benar
Seluruh data yang prediksi× 100% (3.1) 𝐸𝑟𝑟𝑜𝑟 = FP+FN
P+N × 100% = Jumlah prediksi salah
Seluruh data yang prediksi× 100% (3.2) Dataset
K-NN dengan Harmonic Distance dan Local Mean Vector
Local Mean Based K-NN
K-NN Tradisional
Perbandingan Kinerja Metode Berdasarkan Hasil Akurasi
14
3.3.1. Penentuan Data Latih dan Data Uji
Sebuah dataset dengan jumlah data sebanyak 8 record, yang mana data tersebut memiliki 3 atribut dan 2 kelas. 85% dari data dijadikan data latih dan 15% dijadikan sebagai data uji. Adapun rincian dataset tersebut dapat dilihat pada tabel 3.2.
Tabel 3.2. Rincian Data
No X1 X2 X3 Kelas Keterangan
1 85 85 85 1 Data Latih 1
2 87 73 70 1 Data Latih 2
3 80 71 78 1 Data Latih 3
4 82 90 90 1 Data Latih 4
5 77 91 83 1 Data Latih 5
6 70 70 70 2 Data Latih 6
7 70 70 70 2 Data Latih 7
8 75 78 70 2 Data Uji
3.3.2. Proses Klasifikasi
Setelah data latih dan data uji ditentukan, selanjutnya akan dilakukan proses klasifikasi, dengan menggunakan metode yang diusulkan, LMKNN, dan K-NN tradisional.
3.3.2.1. Proses Klasifikasi Pada Metode Yang Diusulkan (LMKNN+Harmonic Distance)
Langkah pertama dalam proses klasifikasi pada metode yang diusulkan adalah dengan menentukan nilai K, diasumsikan nilai K yang digunakan adalah 2. Selanjutnya hitung jarak antara data latih dan data uji dengan menggunakan persamaan 2.9.
𝐷(Data Uji, 𝐷𝑎𝑡𝑎 𝐿𝑎𝑡𝑖ℎ 1) = √(75 − 85)2+ (78 − 85)2+ (70 − 85)2 𝐷(Data Uji, 𝐷𝑎𝑡𝑎 𝐿𝑎𝑡𝑖ℎ 1) = √374 = 19.34
Lakukan hal yang sama untuk seluruh data latih lainnya, adapun jarak yang didapati dapat dilihat pada tabel 3.3.
Tabel 3.3. Jarak Data Uji ke Setiap Data Latih Jarak Antar
Data Latih 1 Latih 2 Latih 3 Latih 4 Latih 5 Latih 6 Latih 7
Uji 19.34 13 11.75 24.35 18.49 9.34 9.43
Tahapan selanjutnya adalah menentukan K tetangga terdekat dari setiap kelas data. Adapun 2 tetangga terdekat untuk setiap kelasnya dapat dilihat pada tabel data latih terdekat dari setiap kelasnya dapat dilihat pada tabel 3.4.
15
Tabel 3.4. Urutan Jarak Terdekat Antara Data Uji ke Seluruh Data Latih
1st 2nd 3rd 4th 5th 6th 7th
Data Latih
Uji 6 7 3 2 5 1 4
Kelas 2 2 1 1 1 1 1
Berdasarkan tabel 3.4, 3 tetangga terdekat dari data uji untuk kelas 1 adalah data latih 6, dan data latih 7. Untuk kelas 2, yang merupakan 2 tetangga terdekat dari data uji adalah data latih 3, dan data latih 2.
Selanjutnya hitung nilai harmonic distance (dengan persamaan 2.12) untuk setiap setiap kelas data, Adapun nilai harmonic distance dari masing-masing kelas data dapat dilihat pada tabel 3.5.
Tabel 3.5 Harmonic Distance Untuk Setiap Kelas
Data Kelas Harmonic
Distance
Uji 1 12.37
2 9.34
Tahapan dalam penentuan kelas bagi data uji dalam gabungan LMKNN dan Harmonic Distance adalah dengan menjadikan kelas dengan nilai Harmonic Distance tertinggi sebagi kelas bagi data uji. Berdasarkan tabel 3.5 terlihat bahwa nilai tertinggi pada data uji didapati oleh kelas 2 (dua), sehingga data uji berada pada kelas 2 (dua).
3.3.2.2 Proses Klasifikasi LMKNN
Langkah pertama pada metode LMKNN adalah menentukan nilai K, pada sub bab sebelumnya nilai K telah diasumsikan bernilai 2, selanjutnya hitung jarak data uji ke seluruh data latih dengan menggunakan model jarak Euclidean (Persamaan 2.10).
Adapun nilai jarak yang dihasilkan sama dengan jarak yang didapati pada sub bab sebelumnya (tabel 3.3).
Tahapan selanjutnya urutkan jarak secara ascending sebanyak K untuk setiap kelasnya, pada tahapan ini akan diurutkan 2 data latih terdekat terhadap data uji untuk setiap kelasnya. Adapun urutan jarak terdekat antara data uji dan data latih dapat dilihat pada tabel 3.4 dan untuk 2 data latih terdekat dari setiap kelasnya dapat dilihat pada tabel 3.6.
16
Tabel 3.6. Urutan Jarak Terdekat Untuk Setiap Kelas Data
Data Kelas Urutan Data Latih
Uji 1 Data Latih 6 Data Latih 7
2 Data Latih 3 Data Latih 2
Berdasarkan tabel 3.6, 2 tetangga terdekat dari data uji untuk kelas 1 adalah data latih 6 dan data latih 7. Untuk kelas 2, yang merupakan 2 tetangga terdekat dari adalah data latih 3 dan data latih 2.
Tahapan selanjutnya dilakukan perhitungan local mean vector (dengan persamaan 2.4) untuk setiap keleas data, Adapun local mean vector yang didapati dapat dilihat pada tabel 3.7.
Tabel 3.7. Local Mean Vector Untuk Setiap Kelas Data
Data Kelas Local Mean Vector
Uji 1 83.5 72 74
2 70 70 70
Kemudian hitung jarak data uji ke masing-masing local mean vector dengan persamaan 2.10. Adapun jarak yang didapati dapat dilihat pada tabel 3.8.
Tabel 3.8. Jarak Data Uji Ke Local Mean Vector Jarak Antar
Data
Local Mean Vector Kelas 1
Local Mean Vector Kelas 2
Uji 124.25 89
Tahapan terakhir dalam LMKNN adalah dengan menjadikan Local Mean Vector dari kelas terdekat sebagi kelas bagi data uji. Berdasarkan tabel 3.8 terlihat bahwa Local Mean Vector terdekat didapati oleh kelas 2 (dua), sehingga kelas 2 dijadikan sebagai kelas baru bagi data uji.
3.3.2.3. Proses Klasifikasi K-NN
Sedangkan pada K-NN tradisional langkah pertama dimulai dengan penentuan nilai K, dimana K telah diasumsikan bernilai 2, tahapan selanjutnya adalah menghitung jarak data uji ke data latih dengan persamaan 2.10. Adapun perhitungan jarak yang dihasilkan sama dengan jarak yang didapati pada gabungan metode LMKNN dan Harmonic Distance (dapat dilihat pada tabel 3.3). Selanjutnya dilakukan pengurutan
17
tetangga terdekat sebanyak K, adapun urutan data latih terdekat dapat dilihat pada tabel 3.6.
Tabel 3.9 Urutan K Tetangga Terdekat Data Latih
1st 2nd 3rd
Data 6 7 3
Kelas 2 2 1
Tahapan terakhir adalah penentuan kelas bagi data uji dengan menggunakan sistem vote majority. Berdasarkan tabel 3.6 terlihat bahwa kelas mayoritas adalah kelas 2 (dua), sehingga data uji berada pada kelas 2 (dua).
3.3.3. Perbandingan Kinerja Metode
Penelitian ini hanya berfokus kepada tingkat akurasi yang dihasilkan. Dimana untuk mengukur tingkat akurasi dapat menggunakan persamaan 3.1 dan laju error dapat menggunakan persamaan 3.2.
𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑀𝑒𝑡𝑜𝑑𝑒 𝑌𝑎𝑛𝑔 𝐷𝑖𝑢𝑠𝑢𝑙𝑘𝑎𝑛 =1
1× 100% = 100%
𝐸𝑟𝑟𝑜𝑟𝑀𝑒𝑡𝑜𝑑𝑒 𝑌𝑎𝑛𝑔 𝐷𝑖𝑢𝑠𝑢𝑙𝑘𝑎𝑛 = 0
1× 100% = 0%
𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝐿𝑀𝐾𝑁𝑁 =1
1× 100% = 100%
𝐸𝑟𝑟𝑜𝑟𝐿𝑀𝐾𝑁𝑁 =0
1× 100% = 0%
𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝐾−𝑁𝑁 = 1
1× 100% = 100%
𝐸𝑟𝑟𝑜𝑟𝐾−𝑁𝑁 = 0
1× 100% = 0%
Maka nilai akurasi dari metode yang diusulkan adalah sebesar 100% dan laju error sebesa 0%. Pada metode LMKNN nilai akurasi yang dihasilkan juga sebesar 100%
dengan laju error 0%, begitu juga dengan nilai akurasi dari K-NN tradisional, nilai akurasi yang dihasilkan juga sebesar 100% dan laju error sebesar 0%. Hal ini disebabkan semua metode mampu memprediksi seluruh data uji dengan benar. Maka hasil analisa kinerja pada semua metode adalah sama baiknya.
18
3.4. Software dan Tools yang digunakan
Untuk mempermudah perhitungan dalam penelitian ini penulis menggunakan bantuan aplikasi MATLAB®. Dimana langkah-langkah dari metode diimplementasikan secara manual, dan untuk K-NN tradisional penulis menggunakan fungsi yang sudah tersedia pada MATLAB®.
BAB 4
HASIL DAN PEMBAHASAN
4.1. Hasil
Setiap proses yang telah dijelaskan pada sub bab sebelumnya diimplementasi dengan menggunakan bahasa pemograman MATLAB® untuk mempermudah perhitungan dan proses analisa dari metode yang diusulkan. Adapun hasil output dari pengujian terhadap dataset ionosphare dapat dilihat pada gambar 4.1.
Gambar 4.1. Output Akurasi Pengujian Pada Dataset Ionosphare
Adapun hasil output dari pengujian terhadap dataset wine dapat dilihat pada gambar 4.2.
Gambar 4.2. Output Akurasi Pengujian Pada Dataset Wine
20
Adapun hasil output dari pengujian terhadap dataset Glass Identification dapat dilihat pada gambar 4.3.
Gambar 4.3. Output Akurasi Pengujian Pada Dataset Glass Identification
Adapun hasil output dari pengujian terhadap dataset Haberman dapat dilihat pada gambar 4.4.
Gambar 4.4. Output Akurasi Pengujian Pada Dataset Haberman
21
Adapun hasil output dari pengujian terhadap dataset Hayes-roth dapat dilihat pada gambar 4.5.
Gambar 4.5. Output Akurasi Pengujian Pada Dataset Hayes-roth
4.2. Pengujian
Pengujian dilakukan dengan menggunakan beberapa data yang didapat dari UCI Repository. Pada saat pengujian, sebanyak 85% dari data akan dijadikan sebagai data latih dan sebanyak 15% dari data akan dijadikan data uji yang dilakukan secara random. Pengujian ini bertujuan untuk melihat kinerja dari metode yang diusulkan.
Pengukuran kinerja pada penelitian ini dilihat berdasarkan dari hasil akurasi yang didapati dari setiap metode yang digunakan.
4.2.1. Pengujian Terhadap Dataset Ionosphare
Pengujian pertama dilakukan menggunakan dataset ionosphere, dimana dataset ini berjumlah 351 record dengan 34 atribut dan terdiri dari 2 kelas data. Pada pengujian menggunakan dataset ionosphere ini, data latih berjumlah 298 data, dan data uji berjumlah 53 data. Adapun rincian data latih dan data uji yang digunakan dapat dilihat pada tabel 4.2.
22
Tabel 4.2. Rincian Data Ionosphare Yang digunakan Data Latih
No Id X1 X2 X3 X4 X5 X6 … X34 Kelas
1 L1 1.00 0.00 0.50 0.02 0.43 -0.10 … -0.09 Good 2 L2 1.00 0.00 0.74 0.05 0.79 0.03 … 0.15 Good 3 L3 1.00 0.00 0.05 0.01 -0.03 0.05 … -0.01 Bad 4 L4 1.00 0.00 0.96 -0.07 1.00 -0.14 … -0.73 Good 5 L5 1.00 0.00 0.92 0.29 0.83 -0.17 … 0.04 Good 6 L6 0.00 0.00 1.00 1.00 1.00 -1.00 … 1.00 Bad
… … … … … … … … … … …
298 L298 1.00 0.00 0.69 1.00 0.92 -0.76 … 0.24 Bad Data Uji
No Id X1 X2 X3 X4 X5 X6 … X34 Kelas
1 U1 1.00 0.00 0.50 0.02 0.43 -0.10 … -0.09 Good 2 U2 1.00 0.00 0.74 0.05 0.79 0.03 … 0.15 Bad 3 U3 1.00 0.00 0.05 0.01 -0.03 0.05 … -0.01 Good 4 U4 1.00 0.00 0.96 -0.07 1.00 -0.14 … -0.73 Good 5 U5 1.00 0.00 0.92 0.29 0.83 -0.17 … 0.04 Bad
… … … … … … … … … … …
53 U53 1.00 0.00 0.69 1.00 0.92 -0.76 … 0.24 Good
Selanjutnya dilakukan perhitungan jarak antara data latih dan data uji menggunakan model jarak Euclaudien (persamaan 2.10). Adapun jarak yang dihasilkan dapat dilihat pada tabel 4.3. Selanjutnya dilakukan pengurutan jarak antar data secara ascending, adapun urutan jarak terdekat antar data dapat dilihat pada tabel 4.4.
Tabel 4.3. Jarak Antara Data Pada Dataset Ionosphare
Data Uji Data Latih
L1 L2 L3 L4 L5 … L291
U1 1.33 0.85 3.42 2.26 0.78 … 1.99
U2 2.29 2.80 1.91 4.15 3.09 … 3.48
U3 1.03 1.12 2.83 2.04 1.33 … 2.59
U4 0.87 0.53 2.80 2.60 0.99 … 2.09
U5 5.07 5.64 4.38 5.97 5.84 … 5.78
U6 0.78 0.90 2.39 2.44 1.44 … 2.12
U7 3.87 4.31 3.14 5.06 4.67 … 4.91
U8 2.58 1.94 3.62 4.29 2.31 … 2.54
U9 4.23 4.59 3.76 5.40 4.89 … 5.13
U10 1.12 1.84 1.22 3.05 2.37 … 2.95
… … … … … … … …
U53 0.58 0.74 2.55 2.45 1.16 … 2.17
23
Tabel 4.4. Urutan Jarak Terdekat Pada Dataset Ionosphare Data
Uji
Urutan Jarak Terdekat
1st 2nd 3rd 4th 5th … 298th
U1 L32 L161 L112 L50 L259 … L129
U2 L78 L230 L22 L48 L268 … L170
U3 L182 L178 L283 L211 L150 … L218
U4 L8 L2 L49 L42 L11 … L218
U5 L162 L122 L262 L26 L201 … L25
U6 L211 L178 L150 L199 L1 … L218
… … … … … … … …
U53 L211 L199 L150 L11 L1
… L218
Untuk K-NN tradisional akan ditentukan kelas mayoritasnya berdasarkan K tetangga terdekat dan akan menjadian kelas mayoritas sebagai kelas bagi data uji, sedangkan tahap selanjutnya untuk LMKNN akan menghitung local mean vector sebanyak K tetangga terdekat untuk setiap kelas data, dan akan menjadikan jarak data uji ke local mean vector terdedat sebagai kelas bagi data uji, adapun hasil yang didapati dari K-NN tradisional, LMKNN, dan Metode yang diusulkan dapat dilihat pada tabel 4.5.
Tabel 4.5. Perbandingan Akurasi Pada Dataset Ionosphare
No K Akurasi
K-NN Konvensioanl LMKNN Metode yang diusulkan
1 1 81.13% 81.13% 81.13%
2 2 81.13% 81.13% 84.91%
3 3 86.79% 86.79% 86.79%
4 4 84.91% 84.91% 88.68%
5 5 84.91% 86.79% 88.68%
6 6 86.79% 86.79% 88.68%
7 7 86.79% 86.79% 88.68%
8 8 86.79% 88.68% 88.68%
9 9 86.79% 88.68% 88.68%
10 10 86.79% 88.68% 88.68%
AVG 85.28% 86.04% 87.36%
24
81.13% 84.91% 84.91% 86.79% 86.79% 86.79% 86.79% 86.79%
81.13% 81.13%
86.79%
84.91% 86.79% 86.79% 86.79% 88.68% 88.68% 88.68%
84.91% 88.68% 88.68% 88.68% 88.68% 88.68% 88.68% 88.68%
76.00%
78.00%
80.00%
82.00%
84.00%
86.00%
88.00%
90.00%
1 2 3 4 5 6 7 8 9 10
A k u r a s i
Nilai K
K-NN Tradisional LMKNN Metode Yang Diusulkan
Adapun grafik yang dihasilkan dari perbadingan akurasi K-NN konvesional, LMKNN serta metode yang diusulkan dapat dilhat pada gambar 4.6.
Gambar 4.6. Grafik Perbandingan Akurasi Pada Dataset Ionosphare
Merujuk dari tabel 4.5 dan gambar 4.6 terlihat bahwa nilai akurasi yang dihasilkan dari metode yang diusulkan tidak pernah sekalipun berada dibawah dari nilai akurasi yang dihasilkan oleh K-NN tradisional dan LMKNN. Nilai akurasi terendah yang dihasilkan dari metode yang diusulkan adalah sebesar 81.13% yaitu pada saat K bernilai 1, sedangkan pada K-NN tradisional dan LMKNN nilai akurasi terendah dihasilkan sebesar 81.13% saat K bernilai 1 dan 2. Nilai Tertinggi yang dihasilkan oleh metode yang diusulkan adalah sebesar 88.68% saat K bernilai 2 sampai dengan K bernilai 10, sedangkan K-NN konvensioanl hanya mampu menghasilkan nilai akurasi tertinggi sebesar 86.79% saat K bernilai 3,6,7,8,9, dan 10, dan pada LMKNN nilai akurasi tertinggi yang dicapai sebesar 88.68% saat K bernilai 8,9 dan 10.
4.2.2. Pengujian Terhadap Dataset Wine
Pengujian selanjutnya menggunakan dataset wine, dimana dataset merupakan salah satu dataset yang populer. Data set ini ini berjumlah 178 record dengan 13 atribut dan terdiri dari 3 kelas data. Pada pengujian ini, data latih berjumlah 151 data, dan data uji