KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL MEAN VECTOR DAN HARMONIC DISTANCE TESIS

(1)

KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL

MEAN VECTOR DAN HARMONIC DISTANCE

TESIS

DEDI CANDRO PARULIAN SINAGA 167038044

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN

2019

(2)

KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEAREST NEIGHBOR MENGGUNAKAN LOCAL

MEAN VECTOR DAN HARMONIC DISTANCE

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magester Teknik Informatika

DEDI CANDRO PARULIAN SINAGA 167038044

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN

2019

(3)

(4)

iii

PERNYATAAN

KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEARST NEIGHBOR MENGGUNAKAN LOCAL MEAN VECTOR

DAN HARMONIC DISTANCE

TESIS

Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 15 Januari 2019

Dedi Candro Parulian Sinaga 167038044

(5)

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini :

Nama : Dedi Candro Parulian Sinaga

NIM : 167038044

Program Studi : Magister(S-2) Teknik Informatika Jenis Karya Ilmiah : Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :

KINERJA METODE KLASIFIKASI DISTANCE-BASED K-NEARST NEIGHBOR MENGGUNAKAN LOCAL MEAN VECTOR

DAN HARMONIC DISTANCE

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

(6)

v

Dsedi Candro Parulian Sinaga 167038044

Telah diuji pada

Tanggal : 15 Januari 2019

PANITIA PENGUJI TESIS Ketua : Prof. Dr. Tulus

Anggota : 1. Dr. Poltak Sihombing, M.Kom 2. Prof. Dr. Muhammad Zarlis 3. Dr. Zakaria Situmorang

(7)

vi

RIWAYAT HIDUP

DATA PRIBADI

Nama Lengkap berikut gelar : Dedi Candro Parulian Sinaga Tempat dan Tanggal Lahir : Padang Maninjau, 27 Agustus 1988 Alamat Rumah : Jl. Sembada XVI No. 8 BB Medan

Kecamatan Medan Selayang, Kota Medan

Telp/HP : 0858 3090 9560

Email : [email protected]

DATA PENDIDIKAN

SD : SDN 112309 Padang Maninjau TAMAT : 2000

SMP : SMP RK Bintang Timur Rantauprapat TAMAT : 2003 SMK : SMA RK Bintang Timur Rantauprapat TAMAT : 2006 S1 : Universitas Methodist Indonesia TAMAT : 2011

S2 : Teknik Informatika USU TAMAT : 2019

(8)

vii

UCAPAN TERIMA KASIH

Puji dan syukur atas nikmat kepada Tuhan Yang Maha Esa sehingga dapat menyelesaikan penyusunan tesis ini, sebagai syarat untuk memperoleh gelar Magister Komputer pada Program Magister (S-2) Ilmu Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih saya sampaikan kepada semua pihak yang telah membantu dalam menyelesaikan tesis ini baik secara langsung maupun tidak langsung, teristimewa orangtua saya yang sangat mengasihi dan menyayangi dan memberi dukungan tiada henti. Pada kesempatan ini saya ingin mengucapkan terima kasih yang sebesar-besarnya kepada:

1. Bapak Prof. Dr. Runtung Sitepu, S.H.,M.Hum. selaku Rektor Universitas Sumatera Utara.

2. Bapak Prof. Dr. Opim Salim Sitompul selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

3. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik Informatika Universitas Sumatera Utara.

4. Bapak Syahril Efendi, S.Si.,M.IT selaku Sekretaris Program Studi Magister Teknik Informatika Universitas Sumatera Utara.

5. Bapak Prof. Dr. Tulus selaku Dosen Pembimbing I yang telah memberikan kritik, saran dalam penyempurnaan tesis ini.

6. Bapak Dr. Poltak Sihombing, M.Kom selaku Dosen Pembimbing II yang telah memberikan memberikan kritik, saran dalam penyempurnaan tesis ini.

(9)

viii

7. Semua Dosen dan semua Pegawai di Program Studi Magister (S-2) Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

8. Buat Keluarga besar saya, Orang tua tersayang Arjon Sinaga, S.Pd dan Demika Sihole, S.Pd yang senantiasa mendoakan dan mendukung serta adik-adik tersayang Maria Novayanti Sinaga, Minar Veronika Sinaga, Pattun Imansyah Sinaga.

9. Buat Istri tersayang Listra Agripa Sitanggang yang senantiasa mendoakan dan mendukung selama menempuh pendidikan Magister Teknik Informatika.

10. Seluruh rekan-rekan seperjuangan mahasiswa Magister Teknik Informatika Kom A 2016 USU, terkhusus untuk Maulana Erwin Saputra.

11. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian tesis ini.

Semoga Tuhan Yang Maha Esa memberikan rahmat, kasih sayang dan balasan kepada semua pihak yang telah memberikan bantuan, masukan dan semangat kepada saya untuk menyelesaikan tesis ini. Berharap tesis ini dapat bermanfaat kepada penulis dan pembaca.

Dedi Candro Parulian Sinaga

(10)

ix

ABSTRAK

K-Nearest Neighbor merupakan salah satu dari top ten algoritma data mining dalam proses klasifikasi. Rendahnya hasil akurasi pada metode klasifikasi K-NN dikarenakan metode ini menggunakan sistem vote majority yang memungkinkan terpilihnya outlier sebagai tetangga terdekat dan pada model jarak yang digunakan sebagai metode penentuan kemiripan antar data. Dalam peroses ini terbukti bahwa local mean vector dan harmonic distance mampu meningkatkan akurasi, dimana peningkatan rata-rata akurasi tertinggi yang diperoleh pada data set wine yaitu sebesar 6.29% dan peningkatan akurasi tertinggi terhadap LMKNN diperoleh pada data set glass identification yaitu sebesar 16.18%. Berdasarkan pengujian yang telah dilakukan terhadap seluruh data set yang digunakan terlihat bahwa metode yang diusulkan mampu memberikan nilai akurasi yang lebih baik dari pada nilai akurasi yang dihasilkan oleh K-NN tradisional dan LMKNN.

Keywords: Harmonic Distance, K-Nearest Neighbor, Local Mean K-Nearest Neighbor

(11)

x

PERFORMANCE OF DISTANCE-BASED K-NEARST NEIGHBOR CLASSIFICATION METHOD USING LOCAL

MEAN VECTOR AND HARMONIC DISTANCE ABSTRACT

K-Nearest Neighbor is one of the top ten algorithms data mining in the classification process. The low accuracy results in the K-NN classification method because this method uses the system majority vote which allows the selection of outliers as the closest neighbors and in the distance model used as a method of determining similarity between data. In this process it is evident that local mean vector and harmonic distance can improve accuracy, where the highest increase in average accuracy obtained in the set data wine is 6.29% and the highest accuracy increase for LMKNN is obtained in set data glass identification which is 16.18%. Based on the tests that have been conducted on all data sets used, it can be seen that the proposed method is able to provide a better value of accuracy than the value of accuracy produced by traditional K-NN and LMKNN.

Keywords: Harmonic Distance, K-Nearest Neighbor, Local Mean K-Nearest Neighbor

(12)

xi

DAFTAR ISI

Halaman Halaman Judul

Persetujuan ii

Pernyataan Orisinalitas iii

Persetujuan Publikasi iv

Panitia Penguji v

Riwayat Hidup vi

Ucapan Terima Kasih vii

Abstrak ix

Abstract x

Daftar Isi xi

Daftar Tabel xiii

Daftar Gambar xiv

Daftar Lampiran xv

BAB 1 PENDAHULUAN 1

1.1. Latar Belakang 1

1.2. Rumusan Masalah 3

1.3. Tujuan Penelitian 3

1.4. Batasan Penelitian 3

1.5. Manfaat Penelitian 3

BAB 2 LANDASAN TEORI 4

2.1. Klasifikasi 4

2.2. K-Nearest Neighbor 5

2.3. Local Mean Based K-Nearest Neighbor (LMKNN) 7

2.4. Model Jarak 8

2.5. Riset-riset Terkait 9

2.6. Perbedaan Dengan Riset Yang Lain 10

BAB 3 METODOLOGI PENELITIAN 11

3.1. Data Yang Digunakan 11

3.2. Arsitektur Umum 11

3.3. Tahapan Analisa Kinerja Metode 13

3.3.1. Penentuan Data Latih dan Data Uji 14

3.3.2. Proses Klasifikasi 14

3.3.2.1. Proses Klasifikasi pada Metode LKMNN Dan

Harmonic Distance 14

3.3.2.2. Proses Klasifikasi LMKNN 15

3.3.2.3. Proses Klasifikasi KNN 16

3.3.3. Perbandingan Kinerja Metode 17

3.4. Software Dan Tools Yang Digunakan 18

(13)

xii

BAB 5 KESIMPULAN DAN SARAN 39

5.1. Kesimpulan 39

5.2. Saran 39

DAFTAR PUSTAKA

LAMPIRAN

BAB 4 HASIL DAN PEMBAHASAN

4.1. Hasil 19

4.2. Pengujian 21

4.2.1. Pengujian Data Set Ionosphare 21

4.2.2. Pengujian Data Set Wine 24

4.2.3. Pengujian Data Set Glass Identification 28

4.2.4. Pengujian Data Set Habeman 31

4.3.5. Pengujian Data Set Hayes-Roth 34

4.3. Pembahasan 37

(14)

xiii

DAFTAR TABEL

Halaman

Tabel 2.1. Riset-Riset Terkait 10

Tabel 3.1. Rincian Data Yang Digunakan 11

Tabel 3.2. Rincian Data Latih Dan Data Uji 14

Tabel 3.3. Jarak Data Uji ke Setiap Data Latih 14

Tabel 3.4. Urutan Jarak Terdekat Antara Data Uji ke Seluruh Data Latih 15

Tabel 3.5. Harmonic Distance Untuk Setiap Kelas 15

Tabel 3.6. Urutan Jarak Terdekat Untuk Setiap Kelas Data 16 Tabel 3.7. Local Mean Vector Untuk Setiap Kelas Data 16

Tabel 3.8. Jarak Data Uji Ke Local Mean Vector 16

Tabel 3.9. Urutan K Tetangga Terdekat 17

Tabel 4.2. Rincian Data Ionosphare Yang Digunakan 22

Tabel 4.3. Jarak Antara Data Pada Dataset Ionosphare 22 Tabel 4.4. Urutan Jarak Terdekat Pada Dataset Ionosphare 23 Tabel 4.5. Perbandingan Akurasi Pada Dataset Ionosphare 23

Tabel 4.6. Rincian Data Latih Wine Yang Digunakan 25

Tabel 4.7. Rincian Data Uji Wine Yang Digunakan 25

Tabel 4.8. Jarak Antara Data Pada Dataset Wine 25

Tabel 4.9. Urutan Jarak Terdekat Pada Dataset Wine 26

Tabel 4.10. Perbandingan Akurasi Pada Dataset Wine 26

Tabel 4.11. Rincian Data Latih Glass Identification 28

Tabel 4.12. Rincian Data Uji Glass Identification 28

Tabel 4.13. Jarak Antara Data Pada Dataset Glass Identification 29 Tabel 4.14. Urutan Jarak Terdekat Pada Dataset Glass Identification 29 Tabel 4.15. Perbandingan Akurasi Pada Dataset Glass Identification 30

Tabel 4.16. UrutvData Latih Haberman 31

Tabel 4.17. Rincian Data Uji Haberman 31

Tabel 4.18. Jarak Antara Data Pada Dataset Haberman 32 Tabel 4.19. Urutan Jarak Terdekat Pada Dataset Haberman 32 Tabel 4.20. Perbandingan Akurasi Pada Dataset Haberman 33

Tabel 4.21. Rincian Data Latih Hayes-Roth 34

Tabel 4.22. Rincian Data Uji Hayes-Roth 34

Tabel 4.23. Jarak Antara Data Pada Dataset Hayes-Roth 35 Tabel 4.24. Urutan Jarak Terdekat Pada Dataset Hayes-Roth 35 Tabel 4.25. Perbandingan Akurasi Pada Dataset Hayes-Roth 36

(15)

xiv

DAFTAR GAMBAR

Halaman

Gambar 2.1. Proses Kerja Klasifikasi

5

Gambar 3.1. Arsitektur Umum Metode Yang Diusulkan 12

Gambar 3.2. Tahapan Penyelesaian Masalah 13

Gambar 4.1. Output Akurasi Pengujian Pada Dataset Ionosphare 19 Gambar 4.2. Output Akurasi Pengujian Pada Dataset Wine 19 Gambar 4.3. Output Akurasi Pengujian Pada Dataset Glass Identification 20 Gambar 4.4. Output Akurasi Pengujian Pada Dataset Haberman 20 Gambar 4.5. Output Akurasi Pengujian Pada Dataset Hayes-Roth 21 Gambar 4.6. Grafik Perbandingan Akurasi Pada Dataset Ionosphare 24 Gambar 4.7. Grafik Perbandingan Akurasi Pada Dataset Wine 27 Gambar 4.8. Grafik Perbandingan Akurasi Pada Dataset Glass

Identification 30

Gambar 4.9. Grafik Perbandingan Akurasi Pada Dataset Haberman 33 Gambar 4.10. Grafik Perbandingan Akurasi Pada Dataset Hayes-Roth 36 Gambar 4.11. Grafik Rata-Rata Nilai Akurasi Dari Seluruh Data 37

(16)

xv

DAFTAR LAMPIRAN

Lampiran 1. Rincian Data Ionosphare Lampiran 2. Rincian Data Wine

Lampiran 3. Rincian Data Glass Identification Lampiran 4. Rincian Data Haberman

Lampiran 5. Rincian Data Hayes-Roth Lampiran 6. Listing Program

(17)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Metode K-NN pertama kali diperkenalkan pada awal tahun 1950-an (Han.

2011). K-NN merupakan salah satu metode klasifikasi bersifat lazy learning yang paling banyak digunakan dalam pengklasifikasian, pengenalan pola, text categorization, (Prasetyo. 2012; Bhatia & Vandana. 2010; Jabbar, et al. 2013; Rui-Jia

& Xing. 2014; Sánchez, et al. 2014; Zheng, et al. 2017). Hal ini dikarenakan K-NN cukup atraktif, mudah dalam penerapan, intuitif, dapat dieksplorasi pada berbagai domain aplikasi, dan sederhana (Wang, et al. 2007; García-Pedrajas & Ortiz-Boyer, 2009; Pan, et al. 2017; Ougiaroglou & Evangelidis, 2012; Song, et al. 2016; Feng, et al. 2016).

Algoritma K-Nearest Neighbor (K-NN) merupakan algoritma yang termasuk kedalam kategori distance-based algorithms (Wang, et al. 2007). Algoritma Distance- Based adalah suatu algoritma yang menentukan kemiripan antar data atau objek berdasarkan dari kedekatan jarak data ke suatu kelas atau label atau kelompok data lainnya (Kataria & Singh, 2013; Lei, et al. 2016). Kemiripan atau pengukuran jarak adalah komponen inti dari algoritma yang termasuk kedalam kelompok distance-based (Shirkhorshidi, et al. 2015).

Kemiripan antar data pada K-NN ditentukan dengan menggunakan pengukuran model jarak, dimana model jarak tradisional sangat rapuh dalam penentuan kemiripan tersebut, terlebih lagi pada model jarak tradisional nilai attribut yang terlalu besar dapat menutupi pengaruh dari attribut lainnya, dan kebanyakan model jarak tradisional kurang mengambarkan perbedaan antar data, terutama pada sampel data besar (Jo. 2017; Loohach & Garg. 2012; Pandit & Gupta. 2011).

Pada Jurnal penelitian oleh A.A Nababan, et al (2018), mengusulkan Atribut Weighting Based K-Nearest Neighbor Menggunakan Gain Ratiose bagai parameter untuk melihat korelasi antara masing-masing atribut dalam data dan Gain Ratio juga

(18)

2

akan digunakan sebagai dasar untuk pembobotan setiap atribut dari dataset.

Keakuratan hasil dibandingkan dengan akurasi yang diperoleh dari metode KNN asli menggunakan 10-fold Cross-Validation denganbeberapa set data dari repositori Machine Learning UCI dan KEEL-Dataset Repository, seperti abalone, identifikasi kaca, haberman, hayes-roth dan kualitas air status.

Jo (2017) memberi solusi pada kelemahan tersebut dengan cara menggantikan model jarak tradisional menggunakan model jarak yang didasari pada feature similarity dan feature value similarity. Pan (2016) dalam penelitiannya menyarankan menggunakan model jarak harmonic sebagai pengganti dari model jarak Euclidean.

Selain itu, K-NN bekerja dengan melihat K tetangga terdekat dari setiap data dimana dalam proses klasifikasi K-NN tradisional menggunakan sistem voting terbanyak sebagai kelas prediksi dari data yang baru (Kalaivani & Shunmuganathan.

2014; Iswarya & Radha. 2015; Gou et al. 2012; Lidya, et al. 2015). Pemilihan nilai K yang kecil menyebabkan hasil klasifikasi sensitive terhadap noise atau outlier, jika nilai K terlalu besar kemungkinan jumlah tetangga terdekat dari kelas lain terlalu banyak yang akhirnya dapat menurunkan hasil klasifikasi (Gou, et al. 2014).

Solusi dari permasalahan ini salah satunya diberikan oleh Syaliman et al (2017) dengan menggunakan gabungan metode LMKNN (Mitani et al. 2006) dan DWKNN (Kuhkan. 2016). Pan (2017) mengatakan bahwa LMKNN dengan local mean vector-nya mampu untuk mengurangi pengaruh outlier. Begitu pula dengan DWKNN, metode distance weight yang disarankan oleh Kuhkan (2016) mampu untuk mengurangi pengaruh outlier yang terpilih menjadi tetangga terdekat serta, sekaligus memberikan bobot kemiripan antar data yang lebih baik dari model jarak tradisional.

Berdasakan penjelasan diatas maka, pada penelitian ini bertujuan untuk meningkatkan akurasi dari K-NN tradisional dengan menggunakan local mean vector sebagai penentuan kelas bagi data yang baru dengan menggunakan model jarak Harmonic dalam proses perhitungan kemiripan antar datanya. Diharapkan kedua metode tersebut mampu untuk meningkatkan kinerja dari K-NN tradisional, yang mana kinerja metode pada penelitian ini hanya diukur berdasarkan nilai akurasi yang didapatkan.

(19)

3

1.2. Rumusan Masalah

Rendahnya hasil akurasi pada metode klasifikasi K-NN tradisional dikarenakan metode ini menggunakan sistem vote majority yang memungkinkan terpilihnya outlier sebagai tetangga terdekat, dan pada model jarak yang digunakan sebagai metode penentuan kemiripan antar data, dimana model jarak tradisional sangat rapuh terhadap perhitungan kemiripan. Hal-hal ini dapat meningkatkan kesalahan dalam proses klasifikasi.

1.3. Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah untuk meningkatkan nilai akurasi dari metode klasifikasi K-Nearest Neighbor (K-NN) tradisional dengan menggabungkan beberapa tahapan dari metode Local Mean Based K-Nearest Neighbor dan harmonic distance yang terbukti lebih baik untuk mengatasi outlier.

1.4. Batasan Masalah

Batasan masalah dalam penelitian ini adalah sebagai berikut:

1. Pada penelitian ini akan menggunakan Local Mean Based K-Nearest Neighbor dan Harmonic Distance untuk meningkatkan akurasi pada metode K-Nearest Neighbor (K-NN) tradisional.

2. Pada penelitian ini hanya menggunakan K bernilai 1 sampai dengan 10.

3. Penelitian ini menggunakan beberapa dataset dari UCI Machine Learning Repository, yaitu ionosphere, wine, glass identification, hayes-roth dan haberman yang digunakan untuk menguji kinerja metode.

4. Kinerja diukur hanya berdasarkan dari tingkat akurasi.

1.5. Manfaat Penelitian

Manfaat yang diharapkan dari penelitian ini adalah sebagai berikut :

1. Mendalami metode tentang klasifikasi terutama yang bersifat distance-based.

Memberi kontribusi kepada ilmu pengetahuan dalam bidang klasifikasi khususnya pada algoritma klasifikasi lazy learning.

(20)

BAB 2

LANDASAN TEORI

2.1. Klasifikasi

Klasifikasi adalah suatu proses penilaian terhadap objek untuk menentukannya ke dalam kelas tertentu berdasarkan ciri yang dimiliki oleh objek tersebut. Klasifikasi pertama kali digunkan untuk mengidentikasi taman yang dikemukakan oleh Carolus Lineus.

Pada bidang ilmu komputer, klasifikasi digunakan untuk menilai suatu data dan menentukan kelas dari data tersebut. Sebuah sistem klasifikasi diharapkan mampu mengelompokkan semua data input dengan benar, namun tidak dapat dimungkiri bahwa kinerja suatu sistem klasifikasi tidak bisa seratus persen benar, sehingga sebuah sistem klasifikasi juga harus diukur kinerjanya. Umumnya, pengukuran kinerja klasifikasi dapat dilakukan dengan menggunakan matriks konfusi (confusion matrix).

Dengan mengetahui jumlah data yang berhasil diklasifikasi secara benar, maka dapat diketahui tingkat akurasi serta laju error dari hasil prediksi pada sistem klasifikasi tersebut. Untuk menghitung tingkat akurasi dapat menggunakan persamaan di bawah ini: (Eko Prasetyo, 2013)

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛 (2.1)

Sedangkan untuk mengukur laju error digunakan persamaan:

𝐿𝑎𝑗𝑢 𝑒𝑟𝑟𝑜𝑟 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑎𝑙𝑎ℎ

𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛 (2.2)

Seluruh algoritma klasifikasi berusaha membuat model dengan hasil akurasi yang tinggi (laju error yang rendah). Pada umumnya, model yang dibangun mampu memprediksi data latih dengan tepat, namun ketika model dievaluasi dengan data uji saat itulah kinerja model klasifikasi terlihat jelas.

Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototipe dan (2) penggunaan model tersebut untuk melakukan klasifikasi pada suata objek data. Model dalam klasifikasi mempunyai arti yang sama

(21)

5

dengan kotak hitam, dimana ada suatu model yang menerima masukan, kemudian mampu melakukan pemikiran terhadap masukkan tersebut dan mampu memberikan

keluaran dari hasil pemikirannya. Kerangka kerja klasifikasi dapat dijelakan oleh gambar 2.1:

Gambar 2.1 Proses Kerja Klasifikasi

Kerangka kerja klasifikasi yang dijelaskan pada gambar 2.1 meliputi dua langkah proses. Pertam, proses induksi yang merupakan tahapan dengan tujuan membangun model klasifikasi dengan menggunakan data latih, kedua proses deduksi yang merupakan tahpan untuk menerapkan model tersebut dan dievaluasi dengan menggunakan data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui atau biasa disebut proses prediksi.

Ada banyak algoritma yang telah dikembangkan oleh para ahli, akan tetapi berdasarkan cara pelatihannya algoritma ini dibedakan menjadi dua macam, yang pertama eager learner dan yang kedua lazy learner. Eager learner dirancang untuk melakukan pelatihan / pembacaan/ pembelajaran dari data latih agar mampu memetakan dengan tepat setiap vektor inputan ke label kelas keluarannya sehingga di akhir proses pelatihannya model sudah dapat memetakan semua vektor data uji ke label kelas dengan benar. Selanjutnya, setelah proses pelatihan selesai, model (biasanya berupa bobot atau sejumlah nilai kuantitas tertentu) disimpan sebagai memori. Proses prediksi dilakukan dengan menggunakan model yang telah dibangun dimana tidak lagi melibatkan data latih. Cara ini membuat proses prediksi dapat dilakukan dengan cepat, akan tetapi harus dibayar dengan proses pelatihan yang lama.

Algoritma yang bersifat eager learner diantaranya Artificial Neural Network (ANN), Support Vectore Mechine (SVM), Decision Tree, Bayesian, dan lain sebagainya.

Masukan Data Latih

Algoritma Pelatihan

Pembangunan Model Penerapan

Model Masukan

Data Uji

Keluaran Data Uji

(22)

6

Sementara Algoritma lazy learner adalah algoritma yang masuk dalam kategori sedikit melakukan pelatihan atau sama sekali tidak melakukan pelatihan, algoritma ini hanya menyimpan sebagian atau seluruh data latih yang kemudian menggunkan seluruh atau sebagian dari data latih tersebut unutk proses prediksi. Hal ini mengakibatkan proses prediksi menjadi lama karena model harus membaca kembali data latihnya agar dapat memberikan keluaran label kelas dengan benar pada data uji. Kelebihan algoritma ini adalah proses pelatihan yang berjalan dengan cepat.

Algoritma klasifikasi yang termasuk kategori ini diantaranya adalah K-Nearest Neighboar (K-NN), Fuzzy K-Nearest Neighboar (FK-NN), Regresi Linear, dan sebagainya. Dimana algoritma jenis ini untuk melakukan klasifikasi akan memerlukan seluruh data latih (Buana, et al. 2012).

2.2. K-Nearest Neighbor (K-NN)

K-Nearest Neighbor (K-NN) merupakan salah satu dari top ten algoritma data mining dalam proses klasifikasi (Wu & Kumar. 2009). K-NN memiliki daya tarik tersendiri yang membuat algoritma ini sering digunakan. Hal ini disebabkan, K-NN merupakan teknik klasifikasi yang sederhana, intuitif, dan mudah disesuaikan disegala domain permasalahan. Selain itu K-NN juga memiliki kerja yang cukup baik. Adapun karakteristik dari K-NN adalah sebagai berikut:

1. K-NN merupakan algoritma yang menggunakan seluruh atau sebagian data latih untuk melakukan proses klasifikasi. Hal ini mengakibatkan proses prediksi yang sangat lama.

2. K-NN tidak membedakan setiap fitur (attribut) data dengan suatu bobot.

3. Hal yang rumit dari K-NN adalah menentukan nilai K yang paling sesuai.

4. Prinsip K-NN adalah memilih tetangga terdekat dan melakukan pe-label- an dengan sistem vote majority.

Pada proses penentuan label bagi data yang baru, K-NN menggunakan sistem vote majority yang sederhana (Lidya, et al. 2015). Dimana kelas mayoritas dari K tetangg terdekat akan dijadikan kelas bagi data uji yang baru. K-NN bekerja dengan dengan prinsip melihat tetangga terdekat (Kalaivani & Shunmuganathan. 2014;

Iswarya & Radha. 2015).

Nilai K pada K-NN merupakan jumlah tetangga terdekat, jika K bernilai 1, maka kelas dari satu data latih yang merupakan tetangga terdekat akan menjadi kelas

(23)

7

bagi data uji yang baru. Jika K bernilai 2, maka akan diambil dua data latih yang merupakan tetangga terdekat dan akan dijadikan kelas bagi data uji yang baru. Begitu juga jika nilai K 3, 4, 5, dan seterusnya. Adapun alur kerja dari K-NN adalah sebagai berikut:

i. Tentukan Nilai K.

ii. Hitung jarak antar data latih dan data uji dengan persamaan model jarak.

iii. Tentukan K tetangga terdekat.

iv. Tentukan kelas mayoritas dari tetangga terdekat

Algoritma K-Nearest Neighbor (K-NN) termasuk kedalam kategori distance- based algorithms (Wang, et al. 2007). Distance-Based Algorithms adalah algoritma yang menentukan kemiripan data atau objek berdasarkan pada kedekatan jarak antar data ke suatu kelas atau label atau kelompok data lainnya (Kataria & Singh, 2013; Lei, et al. 2016).

2.3. Local Mean Based K-Nearest Neighbor (LMKNN)

Mitani, et al. (2006) mengajukan penggunaan Local Mean pada K-Nearest Neighbor untuk mengurangi pengaruh outlier. Metode ini tergolong metode yang simple, efektif dan tangguh. Pan, et al (2016) Mengatakan penggunaan Local Mean terbukti dapat memperbaiki kinerja dan juga mengurangi pengaruh outlier pada metode K-NN tradisional, terutama untuk jumlah data yang kecil.

Adapun alur kerja dari LMKNN menurut Pan et al (2016) adalah sebagai berikut:

i. Tentukan Nilai K

ii. Hitung jarak data uji keseluruh data dari masing-masing kelas data dengan menggunakan model jarak Euclidean.

iii. Urutkan jarak antar data dari yang terkecil ke yang terbesar sebanyak K dari setiap kelas

iv. Hitung local mean vector dari setiap kelas dengan persamaan (Pan, et al. 2016) :

𝑚_𝑤^𝑘_𝑗 = ^𝑖

𝑘∑^𝑘_𝑖=1𝑦_𝑖,𝑗^𝑁𝑁 (2.3)

(24)

8

v. Tentukan kelas data uji dengan cara menghitung jarak terdekat ke local mean vector dari setiap kelas data dengan persamaan:

𝑤_𝑐 = 𝑎𝑟𝑔𝑚𝑖𝑛_𝑤_𝑗𝑑 (𝑥, 𝑚_𝑤^𝑘_𝑗) , 𝑗 = 1, 2, … , 𝑀 (2.4) Pan, et al. (2016) mengatakan nilai K pada LMKNN sangat berbeda jauh dari K-NN tradisional, pada LMKNN nilai K merupakan jumlah tetangga terdekat dari setiap kelas data, sedangkan pada K-NN tradisional nilai K merupakan jumlah tetangga terdekat dari seluruh data. LMKNN sama dengan 1-NN jika nilai K bernilai 1 (Mitani, et al. 2006).

2.4. Model Jarak

Model jarak merupakan salah satu cara untuk mengukur kemirpan antar data. Terdapat berbagai macam model jarak, antara lain Chebyshev, Harmonic, Euclidean, Manhattan, Minkowsky, dan lain sebagainya. Berikut ini adalah beberapa persamaan dari model jarak tersebut:

Pengukuran jarak Manhattan menggunakan formula:

D(𝑥, 𝑦) = ||𝑥 − 𝑦||₁ = ∑^𝑁_𝑗=1|𝑥 − 𝑦| (2.8)

Pengukuran jarak Chebyshev menggunakan formula:

D(𝑥, 𝑦) = ||𝑥 − 𝑦||_λ = lim

λ→∞√∑^λ ^𝑁_𝑗=1|𝑥 − 𝑦|^λ (2.9)

Pengukuran jarak Euclidean menggunakan formula:

D(𝑥, 𝑦) = ||𝑥 − 𝑦||₂ = √∑^𝑁_𝑗=1|𝑥 − 𝑦|² (2.10)

Pengukuran jarak Minkowsky menggunakan formula:

D(𝑥, 𝑦) = ||𝑥 − 𝑦||_λ = √∑^λ ^𝑁_𝑗=1|𝑥 − 𝑦|^λ (2.11)

Dimana:

D adalah jarak antara data x dan y.

N adalah jumlah fitur (dimensi) data.

𝛌 adalah parameter jarak Minkowsky.

Secara umum Minkowsky merupakan generalisasi dari jarak yang ada seperti Euclidean dan Manhattan (Mergio & Casanovas, 2011). Lamda (λ) merupakan parameter penentu dan bernilai bilangan positif dari 1 sampai dengan tak terhingga (∞), jika nilai λ = 1 maka ruang jarak Minkowsky sama dengan Manhattan

(25)

9

(Labellapansa, et al. 2016), dan jika λ = 2 ruang jaraknya sama dengan Euclidean (Mergio & Casanovas, 2008), dan jika λ= ∞ sama dengan ruang jarak Chebyshev (Rao, et al. 2012).

Setiap model pengukuran jarak mempunyai kelebihan masing-masing, Manhattan sangat teguh untuk mendeteksi outlier pada data, sedangkan Euclidean cocok untuk menentukan jarak terdekat (lurus) antara dua data. Akan tetapi, model jarak Euclidean dinilai kurang dalam menginterpretasikan kemiripan antar data (Pandit & Gupta. 2011).

Model jarak tradisional sangat rapuh dalam penentuan kemiripan tersebut, terlebih lagi pada model jarak tradisional nilai attribut yang terlalu besar dapat menutupi pengaruh dari attribut lainnya, dan kebanyakan model jarak tradisional kurang mengambarkan perbedaan antar data, terutama pada sampel data besar (Jo.

2017; Loohach & Garg. 2012; Pandit & Gupta. 2011).

Pan, et al (2016) dalam penelitiannya menyarankan menggunakan model jarak Harmonic, dimana model jarak ini dinilai lebih baik dalam menggambarkan kemiripan antar data. Adapun pengukuran jarak Harmonic dapat menggunakan persamaan 2.12.

D(𝑥, 𝑦) = ¹

∑^𝑁_𝑗=1_{|𝑥−𝑦|}¹ ) (2.12)

Ide utama dari model jarak Harmonic adalah mengambil jumlah harmonik rata-rata dari jarak Euclidean antar satu titik data tertentu ke suati titik dari kelompok data lainya. Dibandingkan dengan model jarak lainnya, jarak Harmonic lebih fokus kepada pengaruh data yang lebih dekat (Pan, et al. 2016).

2.5. Riset-Riset Terkait

Para peneliti telah banyak melakukan upaya peningkatan kinerja dari K-NN tradisional. Antara lain dengan menggunakan Local K (García-Pedrajas, et al. 2015), local mean vector (Mitani, et al. 2006), Local Mean Vector dikombinasi dengan harmonic distance (Pan, et al. 2016), Local Mean dikombinasikan dengan Distance Weight (Syaliman, et al. 2017), dan lain sebagainya. Hal ini bertujuan untuk mengurangi kesalahan dalam klasifikasi yang disebabkan oleh kelemahan K-NN tradisional tersebut, terutama pengaruh outlier yang terpilih menjadi K tetangga terdekat.

(26)

10

Jadi untuk memperkuat bahwa penelitian ini layak untuk diteliti, maka dibawah ini akan dipaparkan beberapa riset yang berkaitan dengan riset yang akan dilakukan.

Tabel 2.1 Riset-Riset Terkait

No

Nama Peneliti dan Tahun

Penelitian

Judul Riset

Algoritma / Metode yang

digunakan

Hasil Penelitian

1 Mitani, et al (2006)

A Local Mean- Based Nonparametric

Classifier

Local Mean Vector, K-NN

Mampu mengurangi pengaruh outlier dan mampu meningkatkan

kinerja dari metode K-NN

2 García-Pedrajas et al (2015)

A Proposal for Local k Values for k -Nearest Neighbor Rule

Local K, K-NN

Menghasilkan nilai akurasi yang lebih baik pada metode K-

NN

3 Pan, et al (2016)

A New K- Harmonic

Nearest Neighbor Classifer Based

On The Multi- Local Means

LMKNN, Harmonic Distance

Menghasilkan kinerja yang lebih baik jika dibandinkan dengan K-NN konvensional

4 Syaliman, et al (2017)

Improving The Accuracy Of K-

Nearest Neighbor Using

Local Mean Based And Distance Weight

LMKNN, DWKNN

Berhasil memberikan akurasi yang lebih baik dari pada metode

K-NN tradisional

2.6. Perbedaan Dengan Riset Yang Lain

Adapun perbedaan riset yang akan dilakukan terletak pada model jarak yang digunakan serta penentuan label pada tetangga baru. Dimana pada penelitian ini akan menggunakan model jarak Harmonic dan Local Mean Vector sebagai penentuan label baru terhadap data uji.

(27)

BAB 3

METODOLOGI PENELITIAN

3.1. Data Yang Digunakan

Untuk menguji kinerja dari metode yang disarankan maka pada penelitian ini akan menggunakan 5 dataset yang berasal dari UCI Machine Learning Repository. Dataset yang pertama adalah ionosphere, wine, glass identification, hayes-roth, dan haberman. Adapun rincian dari data yang digunakan dapat dilihat pada tabel 3.1.

Tabel 3.1. Rincian Data Yang Digunakan

No Data Set Atribut Tipe Kelas Total Data

1 Ionosphere 34 Real 2 351

2 Wine 13 Integer, Real 3 178

3 Glass Identification 10 Real 6 214

4 Haberman 3 Real, Integer, Nominal 2 306

5 Hayes-roth 4 Real, Integer, Nominal 3 160

Pada penelitian ini akan menggunakan metode evaluasi Direct Partition. Pada metode ini dataset akan langsung dibagi menjadi 2 kategori, dimana sebesar 85% dari data dijadikan data latih dan 15% dari data dijadikan data uji.

3.2. Arsitektur Umum

Penelitian ini bertujuan untuk meningkatkan akurasi dari K-NN tradisional dengan menggunakan model jarak Harmonic sebagai metode untuk mengukur kemiripan antar data, dimana model jarak ini dianggap mampu memberikan nilai kemiripan yang lebih baik dari model jarak lainnya.

Pada penelitian ini juga akan menggunakan gabungan dari beberapa tahapan pada Local Mean Based K-Nearest Neighbor dan Harmonic Distance sebagai penentu

(28)

12

label bagi data uji. Diharapkan dengan menggunakan gabungan kedua metode tersebut dapat meningkatkan akurasi dari metode K-NN tradisional.

Gambaran secara umum tahapan dari metode yang diusulkan pada penelitian ini ditunjukkan pada gambar 3.1.

Gambar 3.1. Arsitektur Umum Metode Yang Diusulkan

Berdasarkan gambar 3.1 terlihat bahwa metode yang diusulkan memiliki beberapa tahapan, antara lain:

i. Dataset, pada proses ini data yang digunakan akan dibagi menjadi.

Sebanyak 85% dari data akan dijadikan data latih dan 15% dijadikan sebagai data uji.

ii. Hitung jarak antar data latih dan data uji dengan persamaan 2.10.

iii. Tentukan K tetangga terdekat, pada LMKNN penentuan tetangga terdekat diambil dari setiap kelas dari data. Sedangkan pada K-NN tradisional, penentuan K tetangga terdekat diambil dari seluruh data. Pada proses ini, metode yang diusulkan akan mengikuti aturan dari LMKNN.

iv. Tentukan Harmonic Distance dari setiap kelas data dengan persamaan 2.12.

v. Penentuan Label bagi data uji. Label bagi data uji ditentukan berdasarkan nilai dari Harmonic Distance, semakin kecil nilai yang didapati menunjukkan kemiripan data semakin dekat.

Dataset Hitung Jarak Antar Data Latih dan Data Uji

Tentukan K Tetangga Terdekat

Tentukan Harmonic Distance Tentukan Label

Data Uji

(29)

13

3.3. Tahapan Analisa Kinerja Metode

Secara garis besar tahapan-tahapan yang dilakukan untuk menyelesaikan masalah pada penelitian ini dapat dilihat pada gambar 3.2.

Gambar 3.2. Tahapan Penyelesaian Masalah

Dari Gambar 3.2 terlihat bahwa tahapan-tahapan dalam penyelesaian masalah pada penelitian adalah sebagai berikut:

i) Penentuan Data. Dalam penelitian sebanyak 85% dataset akan dijadikan data latih, dan 15% akan dijadikan data uji yang dilakukan secara random.

ii) Setelah data dibagi, data tersebut akan digunakan untuk mengukur kinerja dari metode yang diusulkan, LMKNN, dan K-NN tradisional.

iii) Tahapan akhir adalah dengan melihat nilai akurasi dari setiap metode, dimana untuk mengukur tingkat akurasi dapat menggunakan persamaan di bawah ini (Han, 2011):

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = ^TP+TN

P+N × 100% = Jumlah prediksi benar

Seluruh data yang prediksi× 100% (3.1) 𝐸𝑟𝑟𝑜𝑟 = ^FP+FN

P+N × 100% = Jumlah prediksi salah

Seluruh data yang prediksi× 100% (3.2) Dataset

K-NN dengan Harmonic Distance dan Local Mean Vector

Local Mean Based K-NN

K-NN Tradisional

Perbandingan Kinerja Metode Berdasarkan Hasil Akurasi

(30)

14

3.3.1. Penentuan Data Latih dan Data Uji

Sebuah dataset dengan jumlah data sebanyak 8 record, yang mana data tersebut memiliki 3 atribut dan 2 kelas. 85% dari data dijadikan data latih dan 15% dijadikan sebagai data uji. Adapun rincian dataset tersebut dapat dilihat pada tabel 3.2.

Tabel 3.2. Rincian Data

No X1 X2 X3 Kelas Keterangan

1 85 85 85 1 Data Latih 1

2 87 73 70 1 Data Latih 2

3 80 71 78 1 Data Latih 3

4 82 90 90 1 Data Latih 4

5 77 91 83 1 Data Latih 5

6 70 70 70 2 Data Latih 6

7 70 70 70 2 Data Latih 7

8 75 78 70 2 Data Uji

3.3.2. Proses Klasifikasi

Setelah data latih dan data uji ditentukan, selanjutnya akan dilakukan proses klasifikasi, dengan menggunakan metode yang diusulkan, LMKNN, dan K-NN tradisional.

3.3.2.1. Proses Klasifikasi Pada Metode Yang Diusulkan (LMKNN+Harmonic Distance)

Langkah pertama dalam proses klasifikasi pada metode yang diusulkan adalah dengan menentukan nilai K, diasumsikan nilai K yang digunakan adalah 2. Selanjutnya hitung jarak antara data latih dan data uji dengan menggunakan persamaan 2.9.

𝐷(Data Uji, 𝐷𝑎𝑡𝑎 𝐿𝑎𝑡𝑖ℎ 1) = √(75 − 85)²+ (78 − 85)²+ (70 − 85)² 𝐷(Data Uji, 𝐷𝑎𝑡𝑎 𝐿𝑎𝑡𝑖ℎ 1) = √374 = 19.34

Lakukan hal yang sama untuk seluruh data latih lainnya, adapun jarak yang didapati dapat dilihat pada tabel 3.3.

Tabel 3.3. Jarak Data Uji ke Setiap Data Latih Jarak Antar

Data Latih 1 Latih 2 Latih 3 Latih 4 Latih 5 Latih 6 Latih 7

Uji 19.34 13 11.75 24.35 18.49 9.34 9.43

Tahapan selanjutnya adalah menentukan K tetangga terdekat dari setiap kelas data. Adapun 2 tetangga terdekat untuk setiap kelasnya dapat dilihat pada tabel data latih terdekat dari setiap kelasnya dapat dilihat pada tabel 3.4.

(31)

15

Tabel 3.4. Urutan Jarak Terdekat Antara Data Uji ke Seluruh Data Latih

1^st 2^nd 3^rd 4^th 5^th ^6th 7^th

Data Latih

Uji 6 7 3 2 5 1 4

Kelas 2 2 1 1 1 1 1

Berdasarkan tabel 3.4, 3 tetangga terdekat dari data uji untuk kelas 1 adalah data latih 6, dan data latih 7. Untuk kelas 2, yang merupakan 2 tetangga terdekat dari data uji adalah data latih 3, dan data latih 2.

Selanjutnya hitung nilai harmonic distance (dengan persamaan 2.12) untuk setiap setiap kelas data, Adapun nilai harmonic distance dari masing-masing kelas data dapat dilihat pada tabel 3.5.

Tabel 3.5 Harmonic Distance Untuk Setiap Kelas

Data Kelas Harmonic

Distance

Uji 1 12.37

2 9.34

Tahapan dalam penentuan kelas bagi data uji dalam gabungan LMKNN dan Harmonic Distance adalah dengan menjadikan kelas dengan nilai Harmonic Distance tertinggi sebagi kelas bagi data uji. Berdasarkan tabel 3.5 terlihat bahwa nilai tertinggi pada data uji didapati oleh kelas 2 (dua), sehingga data uji berada pada kelas 2 (dua).

3.3.2.2 Proses Klasifikasi LMKNN

Langkah pertama pada metode LMKNN adalah menentukan nilai K, pada sub bab sebelumnya nilai K telah diasumsikan bernilai 2, selanjutnya hitung jarak data uji ke seluruh data latih dengan menggunakan model jarak Euclidean (Persamaan 2.10).

Adapun nilai jarak yang dihasilkan sama dengan jarak yang didapati pada sub bab sebelumnya (tabel 3.3).

Tahapan selanjutnya urutkan jarak secara ascending sebanyak K untuk setiap kelasnya, pada tahapan ini akan diurutkan 2 data latih terdekat terhadap data uji untuk setiap kelasnya. Adapun urutan jarak terdekat antara data uji dan data latih dapat dilihat pada tabel 3.4 dan untuk 2 data latih terdekat dari setiap kelasnya dapat dilihat pada tabel 3.6.

(32)

16

Tabel 3.6. Urutan Jarak Terdekat Untuk Setiap Kelas Data

Data Kelas Urutan Data Latih

Uji 1 Data Latih 6 Data Latih 7

2 Data Latih 3 Data Latih 2

Berdasarkan tabel 3.6, 2 tetangga terdekat dari data uji untuk kelas 1 adalah data latih 6 dan data latih 7. Untuk kelas 2, yang merupakan 2 tetangga terdekat dari adalah data latih 3 dan data latih 2.

Tahapan selanjutnya dilakukan perhitungan local mean vector (dengan persamaan 2.4) untuk setiap keleas data, Adapun local mean vector yang didapati dapat dilihat pada tabel 3.7.

Tabel 3.7. Local Mean Vector Untuk Setiap Kelas Data

Data Kelas Local Mean Vector

Uji 1 83.5 72 74

2 70 70 70

Kemudian hitung jarak data uji ke masing-masing local mean vector dengan persamaan 2.10. Adapun jarak yang didapati dapat dilihat pada tabel 3.8.

Tabel 3.8. Jarak Data Uji Ke Local Mean Vector Jarak Antar

Data

Local Mean Vector Kelas 1

Local Mean Vector Kelas 2

Uji 124.25 89

Tahapan terakhir dalam LMKNN adalah dengan menjadikan Local Mean Vector dari kelas terdekat sebagi kelas bagi data uji. Berdasarkan tabel 3.8 terlihat bahwa Local Mean Vector terdekat didapati oleh kelas 2 (dua), sehingga kelas 2 dijadikan sebagai kelas baru bagi data uji.

3.3.2.3. Proses Klasifikasi K-NN

Sedangkan pada K-NN tradisional langkah pertama dimulai dengan penentuan nilai K, dimana K telah diasumsikan bernilai 2, tahapan selanjutnya adalah menghitung jarak data uji ke data latih dengan persamaan 2.10. Adapun perhitungan jarak yang dihasilkan sama dengan jarak yang didapati pada gabungan metode LMKNN dan Harmonic Distance (dapat dilihat pada tabel 3.3). Selanjutnya dilakukan pengurutan

(33)

17

tetangga terdekat sebanyak K, adapun urutan data latih terdekat dapat dilihat pada tabel 3.6.

Tabel 3.9 Urutan K Tetangga Terdekat Data Latih

1^st 2^nd 3^rd

Data 6 7 3

Kelas 2 2 1

Tahapan terakhir adalah penentuan kelas bagi data uji dengan menggunakan sistem vote majority. Berdasarkan tabel 3.6 terlihat bahwa kelas mayoritas adalah kelas 2 (dua), sehingga data uji berada pada kelas 2 (dua).

3.3.3. Perbandingan Kinerja Metode

Penelitian ini hanya berfokus kepada tingkat akurasi yang dihasilkan. Dimana untuk mengukur tingkat akurasi dapat menggunakan persamaan 3.1 dan laju error dapat menggunakan persamaan 3.2.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖𝑀𝑒𝑡𝑜𝑑𝑒 𝑌𝑎𝑛𝑔 𝐷𝑖𝑢𝑠𝑢𝑙𝑘𝑎𝑛 =1

1× 100% = 100%

𝐸𝑟𝑟𝑜𝑟𝑀𝑒𝑡𝑜𝑑𝑒 𝑌𝑎𝑛𝑔 𝐷𝑖𝑢𝑠𝑢𝑙𝑘𝑎𝑛 = 0

1× 100% = 0%

𝐴𝑘𝑢𝑟𝑎𝑠𝑖_{𝐿𝑀𝐾𝑁𝑁} =1

1× 100% = 100%

𝐸𝑟𝑟𝑜𝑟_{𝐿𝑀𝐾𝑁𝑁} =0

1× 100% = 0%

𝐴𝑘𝑢𝑟𝑎𝑠𝑖_{𝐾−𝑁𝑁} = 1

1× 100% = 100%

𝐸𝑟𝑟𝑜𝑟_{𝐾−𝑁𝑁} = 0

1× 100% = 0%

Maka nilai akurasi dari metode yang diusulkan adalah sebesar 100% dan laju error sebesa 0%. Pada metode LMKNN nilai akurasi yang dihasilkan juga sebesar 100%

dengan laju error 0%, begitu juga dengan nilai akurasi dari K-NN tradisional, nilai akurasi yang dihasilkan juga sebesar 100% dan laju error sebesar 0%. Hal ini disebabkan semua metode mampu memprediksi seluruh data uji dengan benar. Maka hasil analisa kinerja pada semua metode adalah sama baiknya.

(34)

18

3.4. Software dan Tools yang digunakan

Untuk mempermudah perhitungan dalam penelitian ini penulis menggunakan bantuan aplikasi MATLAB^®. Dimana langkah-langkah dari metode diimplementasikan secara manual, dan untuk K-NN tradisional penulis menggunakan fungsi yang sudah tersedia pada MATLAB^®.

(35)

BAB 4

HASIL DAN PEMBAHASAN

4.1. Hasil

Setiap proses yang telah dijelaskan pada sub bab sebelumnya diimplementasi dengan menggunakan bahasa pemograman MATLAB^®untuk mempermudah perhitungan dan proses analisa dari metode yang diusulkan. Adapun hasil output dari pengujian terhadap dataset ionosphare dapat dilihat pada gambar 4.1.

Gambar 4.1. Output Akurasi Pengujian Pada Dataset Ionosphare

Adapun hasil output dari pengujian terhadap dataset wine dapat dilihat pada gambar 4.2.

Gambar 4.2. Output Akurasi Pengujian Pada Dataset Wine

(36)

20

Adapun hasil output dari pengujian terhadap dataset Glass Identification dapat dilihat pada gambar 4.3.

Gambar 4.3. Output Akurasi Pengujian Pada Dataset Glass Identification

Adapun hasil output dari pengujian terhadap dataset Haberman dapat dilihat pada gambar 4.4.

Gambar 4.4. Output Akurasi Pengujian Pada Dataset Haberman

(37)

21

Adapun hasil output dari pengujian terhadap dataset Hayes-roth dapat dilihat pada gambar 4.5.

Gambar 4.5. Output Akurasi Pengujian Pada Dataset Hayes-roth

4.2. Pengujian

Pengujian dilakukan dengan menggunakan beberapa data yang didapat dari UCI Repository. Pada saat pengujian, sebanyak 85% dari data akan dijadikan sebagai data latih dan sebanyak 15% dari data akan dijadikan data uji yang dilakukan secara random. Pengujian ini bertujuan untuk melihat kinerja dari metode yang diusulkan.

Pengukuran kinerja pada penelitian ini dilihat berdasarkan dari hasil akurasi yang didapati dari setiap metode yang digunakan.

4.2.1. Pengujian Terhadap Dataset Ionosphare

Pengujian pertama dilakukan menggunakan dataset ionosphere, dimana dataset ini berjumlah 351 record dengan 34 atribut dan terdiri dari 2 kelas data. Pada pengujian menggunakan dataset ionosphere ini, data latih berjumlah 298 data, dan data uji berjumlah 53 data. Adapun rincian data latih dan data uji yang digunakan dapat dilihat pada tabel 4.2.

(38)

22

Tabel 4.2. Rincian Data Ionosphare Yang digunakan Data Latih

No Id X1 X2 X3 X4 X5 X6 … X34 Kelas

1 L1 1.00 0.00 0.50 0.02 0.43 -0.10 … -0.09 Good 2 L2 1.00 0.00 0.74 0.05 0.79 0.03 … 0.15 Good 3 L3 1.00 0.00 0.05 0.01 -0.03 0.05 … -0.01 Bad 4 L4 1.00 0.00 0.96 -0.07 1.00 -0.14 … -0.73 Good 5 L5 1.00 0.00 0.92 0.29 0.83 -0.17 … 0.04 Good 6 L6 0.00 0.00 1.00 1.00 1.00 -1.00 … 1.00 Bad

… … … … … … … … … … …

298 L298 1.00 0.00 0.69 1.00 0.92 -0.76 … 0.24 Bad Data Uji

No Id X1 X2 X3 X4 X5 X6 … X34 Kelas

1 U1 1.00 0.00 0.50 0.02 0.43 -0.10 … -0.09 Good 2 U2 1.00 0.00 0.74 0.05 0.79 0.03 … 0.15 Bad 3 U3 1.00 0.00 0.05 0.01 -0.03 0.05 … -0.01 Good 4 U4 1.00 0.00 0.96 -0.07 1.00 -0.14 … -0.73 Good 5 U5 1.00 0.00 0.92 0.29 0.83 -0.17 … 0.04 Bad

… … … … … … … … … … …

53 U53 1.00 0.00 0.69 1.00 0.92 -0.76 … 0.24 Good

Selanjutnya dilakukan perhitungan jarak antara data latih dan data uji menggunakan model jarak Euclaudien (persamaan 2.10). Adapun jarak yang dihasilkan dapat dilihat pada tabel 4.3. Selanjutnya dilakukan pengurutan jarak antar data secara ascending, adapun urutan jarak terdekat antar data dapat dilihat pada tabel 4.4.

Tabel 4.3. Jarak Antara Data Pada Dataset Ionosphare

Data Uji Data Latih

L1 L2 L3 L4 L5 … L291

U1 1.33 0.85 3.42 2.26 0.78 … 1.99

U2 2.29 2.80 1.91 4.15 3.09 … 3.48

U3 1.03 1.12 2.83 2.04 1.33 … 2.59

U4 0.87 0.53 2.80 2.60 0.99 … 2.09

U5 5.07 5.64 4.38 5.97 5.84 … 5.78

U6 0.78 0.90 2.39 2.44 1.44 … 2.12

U7 3.87 4.31 3.14 5.06 4.67 … 4.91

U8 2.58 1.94 3.62 4.29 2.31 … 2.54

U9 4.23 4.59 3.76 5.40 4.89 … 5.13

U10 1.12 1.84 1.22 3.05 2.37 … 2.95

… … … … … … … …

U53 0.58 0.74 2.55 2.45 1.16 … 2.17

(39)

23

Tabel 4.4. Urutan Jarak Terdekat Pada Dataset Ionosphare Data

Uji

Urutan Jarak Terdekat

1^st 2^nd 3^rd 4^th 5^th … 298^th

U1 L32 L161 L112 L50 L259 … L129

U2 L78 L230 L22 L48 L268 … L170

U3 L182 L178 L283 L211 L150 … L218

U4 L8 L2 L49 L42 L11 … L218

U5 L162 L122 L262 L26 L201 … L25

U6 L211 L178 L150 L199 L1 … L218

… … … … … … … …

U53 L211 L199 L150 L11 L1

… L218

Untuk K-NN tradisional akan ditentukan kelas mayoritasnya berdasarkan K tetangga terdekat dan akan menjadian kelas mayoritas sebagai kelas bagi data uji, sedangkan tahap selanjutnya untuk LMKNN akan menghitung local mean vector sebanyak K tetangga terdekat untuk setiap kelas data, dan akan menjadikan jarak data uji ke local mean vector terdedat sebagai kelas bagi data uji, adapun hasil yang didapati dari K-NN tradisional, LMKNN, dan Metode yang diusulkan dapat dilihat pada tabel 4.5.

Tabel 4.5. Perbandingan Akurasi Pada Dataset Ionosphare

No K Akurasi

K-NN Konvensioanl LMKNN Metode yang diusulkan

1 1 81.13% 81.13% 81.13%

2 2 81.13% 81.13% 84.91%

3 3 86.79% 86.79% 86.79%

4 4 84.91% 84.91% 88.68%

5 5 84.91% 86.79% 88.68%

6 6 86.79% 86.79% 88.68%

7 7 86.79% 86.79% 88.68%

8 8 86.79% 88.68% 88.68%

9 9 86.79% 88.68% 88.68%

10 10 86.79% 88.68% 88.68%

AVG 85.28% 86.04% 87.36%

(40)

24

81.13% 84.91% 84.91% 86.79% 86.79% 86.79% 86.79% 86.79%

81.13% 81.13%

86.79%

84.91% 86.79% 86.79% 86.79% 88.68% 88.68% 88.68%

84.91% 88.68% 88.68% 88.68% 88.68% 88.68% 88.68% 88.68%

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

88.00%

90.00%

1 2 3 4 5 6 7 8 9 10

A k u r a s i

Nilai K

K-NN Tradisional LMKNN Metode Yang Diusulkan

Adapun grafik yang dihasilkan dari perbadingan akurasi K-NN konvesional, LMKNN serta metode yang diusulkan dapat dilhat pada gambar 4.6.

Gambar 4.6. Grafik Perbandingan Akurasi Pada Dataset Ionosphare

Merujuk dari tabel 4.5 dan gambar 4.6 terlihat bahwa nilai akurasi yang dihasilkan dari metode yang diusulkan tidak pernah sekalipun berada dibawah dari nilai akurasi yang dihasilkan oleh K-NN tradisional dan LMKNN. Nilai akurasi terendah yang dihasilkan dari metode yang diusulkan adalah sebesar 81.13% yaitu pada saat K bernilai 1, sedangkan pada K-NN tradisional dan LMKNN nilai akurasi terendah dihasilkan sebesar 81.13% saat K bernilai 1 dan 2. Nilai Tertinggi yang dihasilkan oleh metode yang diusulkan adalah sebesar 88.68% saat K bernilai 2 sampai dengan K bernilai 10, sedangkan K-NN konvensioanl hanya mampu menghasilkan nilai akurasi tertinggi sebesar 86.79% saat K bernilai 3,6,7,8,9, dan 10, dan pada LMKNN nilai akurasi tertinggi yang dicapai sebesar 88.68% saat K bernilai 8,9 dan 10.

4.2.2. Pengujian Terhadap Dataset Wine

Pengujian selanjutnya menggunakan dataset wine, dimana dataset merupakan salah satu dataset yang populer. Data set ini ini berjumlah 178 record dengan 13 atribut dan terdiri dari 3 kelas data. Pada pengujian ini, data latih berjumlah 151 data, dan data uji