vii
KATA PENGANTAR
Puji syukur kepada Allah atas berkat dan rahmat-Nya yang telah diberikan kepada Penulis sehingga dapat menyelesaikan Tugas Akhir ini dengan baik. Tugas akhir ini disusun untuk memenuhi salah satu syarat guna menyelesaikan pendidikan program Strata-1 pada Fakultas Ilmu Komputer Program Studi Teknik Informatika di Universitas Sriwijaya.
Dalam menyelesaikan Tugas Akhir ini banyak pihak yang telah memberikan bantuan dan dukungan baik secara langsung maupun secara tidak langsung. Penulis ingin menyampaikan rasa terima kasih kepada:
1. Orang tuaku, Amrifan Saladin Mohruni dan Erna Yuliwati, saudaraku, Alif Tias Mangkunegara, Anugerah Al-Amin Mangkunegara dan M. Rafif Al-Farouq Mangkunegara yang selalu mendoakan serta memberikan dukungan baik moril maupun materil.
2. Bapak Jaidan Jauhari, M.T selaku Dekan Fakultas Ilmu Komputer Universitas Sriwijaya, Bapak Rifkie Primartha, M.T. selaku Ketua Jurusan Teknik Informatika, dan Ibu Alvi Syahrini, M.T. selaku Sekretaris Jurusan Teknik Informatika.
3. Ibu Dian Palupi Rini, M.Kom., Ph.D. selaku dosen pembimbing I dan Bapak Danny Matthew Saputra, S.T, M.Sc. selaku pembimbing II yang telah membimbing, mengarahkan, dan memberikan motivasi dalam proses perkuliahan dan pengerjaan Tugas Akhir.
4. Ibu Alvi Syahrini Utami, M.Kom. selaku dosen penguji I dan Ibu Mastura Diana Marieska, M.T. selaku dosen penguji II yang telah memberikan masukan dan ilmu pengetahuan.
viii
5. Seluruh dosen Program Studi Teknik Informatika Fakultas Ilmu Komputer Universitas Sriwijaya.
6. Mbak Wiwin dan seluruh staf tata usaha yang telah membantu dalam kelancaran proses administrasi dan akademik selama masa perkuliahan. 7. Sahabat seperjuangan; Evita Hardanitah, Nadya Parameswari Jasmine,
Adryan Yudha Pratama, dan Sari Dwi Septiani yang telah banyak mendukung dan memberi semangat selama proses penulisan tugas akhir ini. 8. Teman-teman jurusan Teknik Informatika yang telah berbagi keluh kesah,
motivasi, semangat, dan canda tawa selama masa perkuliahan.
Penulis menyadari dalam penyusunan Tugas Akhir ini masih terdapat banyak kekurangan disebabkan keterbatasan pengetahuan dan pengalaman, oleh karena itu kritik dan saran yang membangun sangat diharapkan untuk kemajuan penelitian selanjutnya. Akhir kata semoga Tugas Akhir ini dapat berguna dan bermanfaat bagi kita semua.
Palembang, Agustus 2020
ix DAFTAR ISI
Halaman LEMBAR PENGESAHAN PROPOSAL SKRIPSI ... Error! Bookmark not defined.
TANDA LULUS UJIAN SIDANG TUGAS AKHIR ... Error! Bookmark not defined.
HALAMAN PERNYATAAN ... Error! Bookmark not defined.i MOTTO DAN PERSEMBAHAN ... Error! Bookmark not defined. ABSTRAK ... v ABSTRACT ... Error! Bookmark not defined. KATA PENGANTAR ... vError! Bookmark not defined. DAFTAR ISI ... Error! Bookmark not defined.x DAFTAR TABEL ... xError! Bookmark not defined.i DAFTAR GAMBAR ... xiii DAFTAR LAMPIRAN ... Error! Bookmark not defined.xiv BAB I ... I-1 PENDAHULUAN ... I-1
1.1 Pendahuluan ... I-1 1.2 Latar Belakang ... I-1 1.3 Rumusan Masalah ... I-4 1.4 Tujuan Penelitian ... I-5 1.5 Manfaat Penelitian ... I-5 1.6 Batasan Masalah ... I-6 1.7 Sistematika Penulisan ... I-6 1.8 Kesimpulan ... I-8 BAB II ... II-Error! Bookmark not defined. KAJIAN LITERATUR ... II-Error! Bookmark not defined. 2.1 Pendahuluan ... II-Error! Bookmark not defined. 2.2 Landasan Teori ... II-Error! Bookmark not defined. 2.2.1 Data Mining ... II-Error! Bookmark not defined.
x
2.2.2 Klasifikasi ... II-Error! Bookmark not defined. 2.2.3 K Nearest Neighbor (KNN) ... II-Error! Bookmark not defined. 2.2.4 Zero R... II-Error! Bookmark not defined. 2.2.5 Metrik Jarak ... II-7 2.2.6 Confusion Matriks ... II-Error! Bookmark not defined. 2.2.7 Rapid Prototyping ... II-Error! Bookmark not defined. 2.3 Penelitian Lain Yang Relevan ... II-Error! Bookmark not defined. 2.4 Kesimpulan ... II-Error! Bookmark not defined. BAB III ... III-Error! Bookmark not defined. METODOLOGI PENELITIAN ... III-Error! Bookmark not defined. 3.1 Pendahuluan ... III-Error! Bookmark not defined. 3.2 Data ... III-Error! Bookmark not defined. 3.2.1 Jenis, Tipe, dan Sumber Data ... III-Error! Bookmark not defined. 3.3 Tahapan Penelitian ... III-Error! Bookmark not defined. 3.3.1 Menetapkan Kerangka Kerja / Framework ... III-Error! Bookmark not defined.
3.3.2 Menetapkan Kriteria Pengujian.. III-Error! Bookmark not defined. 3.3.3 Menentukan Alat yang Digunakan dalam Pengujian ... III-Error! Bookmark not defined.
3.3.4 Melakukan Pengujian Penelitian III-Error! Bookmark not defined. 3.3.5 Melakukan Analisis Hasil Pengujian dan Membuat Kesimpulan III-6 3.4 Metode Pengembangan Perangkat Lunak ... III-Error! Bookmark not defined.
3.5 Manajemen Proyek Penelitian ... III-Error! Bookmark not defined. 3.6 Kesimpulan ... III-Error! Bookmark not defined. BAB IV ... IV-Error! Bookmark not defined. PENGEMBANGAN PERANGKAT LUNAK . IV-Error! Bookmark not defined.
4.1 Pendahuluan ... IV-Error! Bookmark not defined. 4.2 Pembangunan Prototype ... IV-Error! Bookmark not defined. 4.3 Demonstrasi Prototype ... IV-Error! Bookmark not defined. 4.4 Evaluasi Pelanggan ... IV-Error! Bookmark not defined. 4.5 Pendefinisian Kebutuhan ... IV-3
xi
4.6 Update Prototype ... IV-3 4.7 Kesimpulan ... IV-6 BAB V ... V-Error! Bookmark not defined. ANALISIS PENELITIAN ... V-Error! Bookmark not defined. 5.1 Pendahuluan ... V-Error! Bookmark not defined. 5.2 Hasil Percobaan Penelitian ... V-Error! Bookmark not defined. 5.2.1 Hasil Pengujian Akurasi ... V-Error! Bookmark not defined. 5.2.2 Hasil Pengujian Precision ... V-3 5.2.3 Hasil Pengujian Recall... V-3 5.3 Analisis Penelitian ... V-8 5.4 Kesimpulan ... V-9 BAB VI ... VI-Error! Bookmark not defined. KESIMPULAN DAN SARAN ... VI-Error! Bookmark not defined. 6.1 Pendahuluan ... VI-Error! Bookmark not defined. 6.2 Kesimpulan ... VI-Error! Bookmark not defined. 6.3 Saran ... VI-Error! Bookmark not defined. DAFTAR PUSTAKA ... xv
xii
DAFTAR TABEL
Tabel II-1. Confusion Matriks Zero R ... II-7 Tabel III-1. Informasi Data Penelitian ... III-1 Tabel III-2.1. Tabel Pengujian Hasil Akurasi ... III-8 Tabel III-2.2. Tabel Pengujian Hasil Precision ... III-9 Tabel III-2.3. Tabel Pengujian Hasil Recall ... III-10 Tabel III-3.1. Tabel Proses Pembangunan Perangkat Lunak (Rapid Prototyping) ... III-11 Tabel III-3.2. Design Spesification ... III-13 Tabel III-4. Tabel Penjadwalan Penelitian dalam Bentuk WBS ... III-14 Tabel IV-1. Design Spesifcation Prototype 1 ... IV-4 Tabel IV-2. Feedback dari Pelanggan Prototype 1 ... IV-3 Tabel IV-3. Design Spesifcation Prototype 2 ... IV-5 Tabel V-1. Tabel Percobaan Pengujian Penelitian ... V-2 Tabel V-2. Tabel Pengujian Hasil Akurasi ... V-5 Tabel V-3. Tabel Pengujian Hasil Precision ... V-6 Tabel V-4. Tabel Pengujian Hasil Recall ... V-7
xiii
DAFTAR GAMBAR
Gambar II-1. Proses Knowledge Discovery in Database (KDD) ... II-2 Gambar II-2.1. Proses Learning ... II-3 Gambar II-2.2. Proses Klasifikasi ... II-3 Gambar II-3. Pengklasifikasian K Nearest Neighbor (KNN) ... II-5 Gambar II-4. Proses Zero R ... II-6 Gambar II-5. Confusion Matriks ... II-10 Gambar II-4. Proses Rapid Prototyping ... II-11 Gambar III-1. Kerangka Kerja Penelitian ... III-2 Gambar III-2. Tahapan Pengujian Penelitian ... III-6 Gambar IV-I. Prototype Awal ... IV-2 Gambar IV-2. Prototype Akhir ... IV-3
xiv
DAFTAR LAMPIRAN
Lampiran A. Demonstrasi Prototype ... A-1 Lampiran B. Data Penelitian ... B-1 Lampiran C. Kode Program ... C-1
I-1 BAB I
PENDAHULUAN
1.1 Pendahuluan
Pada bab pendahuluan ini akan menjelaskan secara umum tentang penjelasan secara keseluruhan penelitian yang terdiri dari latar belakang masalah, rumusan masalah, tujuan penelitian, manfaat penelitian, batasan masalah, sistematika penulisan serta kesimpulan dalam tugas akhir.
Pendahuluan dimulai dengan menjelaskan mengenai data mining, klasifikasi, K Nearest Neighbour. Serta penelitian yang berkaitan dengan perbandingan metrik jarak pada metode K Nearest Neighbour.
1.2 Latar Belakang
Data mining adalah ilmu untuk mengekstraksi ilmu pengetahuan yang tersembunyi di dalam data (Chomboon, Chujai, Teerarassamee, et al. 2015). Pada ilmu data mining terdapat banyak cara dalam melakukan penggalian data salah satunya klasifikasi, dimana klasifikasi merupakan metode di dalam data mining yang mengkategorikan informasi menjadi kelas-kelas berdasarkan kesamaan antar atribut-atribut dari informasi tersebut.(Tarapitakwong, Chartrungruang, and Tantranont 2017)
I-2
Dalam melakukan pengklasifikasian dapat secara eager learners dan lazy learners. Perbedaan eager learners dan lazy learners adalah ketika mendapatkan training data, eager learners akan membangun model umum sebelum menerima data baru untuk diklasifikasikan. Sedangkan lazy learners hanya akan menyimpannya dan menunggu sampai diberikan testing data. Contoh dari eager learners adalah decision tree, SVM (Support Vector Machines), Naïve Bayes, dll. Dan untuk lazy learners contohnya adalah (KNN) K Nearest Neighbor dan case based reasoning (Han, Kamber, and Pei 2012).
Digunakannya algoritma K Nearest Neighbor (KNN) pada penelitian ini dikarenakan, K Nearest Neighbour (KNN) adalah sebuah metode konvesional non-parametric classifier dimana berguna untuk mengklasifikasikan instance yang tidak dikenal yang direpresentasikan dengan data sebagai titik di dalam ruang fitur, K Nearest Neighbour (KNN) akan menghitung jarak di antara titik-titik data yang terdapat di dalam training dataset (Hu et al. 2016). Training data, nilai k, dan perhitungan jarak menjadi komponen penting bagi metode K Nearest Neighbor (KNN), dikarenakan dalam melakukan pengklasifikasian metode K Nearest Neighbor (KNN) membutuhkan training data dan mendefinisikan nilai k pada awal pengklasifikasian yang berguna untuk mencari k data terdekat yang berdasarkan perhitungan jarak antara data yang tidak diketahui dengan training data (Chomboon, Chujai, Teerarassammee, et al. 2015).
I-3
Seperti pada penelitian (Mulak and Talhar 2015) “Analysis of Distance Measures Using K-Nearest Neighbor Algorithm on KDD Dataset”. Penelitian ini melakukan klasifikasi dengan membandingkan metrik jarak dalam keluarga minkowski distance untuk melakukan pengklasifikasian dengan metode K Nearest Neighbor, dan menghasilkan manhattan distance memilki hasil akurasi, sensitifitas, dan spesifiksitas paling baik.
Metrik jarak merupakan metode yang digunakan untuk menghitung jarak di antara titik data yang baru dengan training dataset yang sudah ada(Chomboon, Chujai, Teerarassamee, et al. 2015). Di dalam penelitian ini metrik distance yang akan digunakan adalah euclidean, manhattan dan chebycev distance. Digunakannya ketiga metrik jarak tersebut dikarenakan euclidean distance merupakan metrik jarak yang paling sering digunakan dalam melakukan pengklasifikasian dengan metode K Nearest Neighbor (KNN) (Hu et al. 2016). Di pilihlah manhattan dan chebycev distance sebagai pembandingnya, dimana ketiga metrik jarak ini termasuk dalam keluarga metrik jarak minkowski distance. Euclidean distance merupakan metrik sederhana dari jarak kuadrat antara titik(Dokmanic, Ranieri, and Vetterli 2015). Manhattan distance adalah metrik jarak yang menghitung perbedaan diantara kedua titik data(Mulak and Talhar 2015). Sedangkan chebycev distance adalah metrik jarak yang menghitung nilai maksimum jarak (Prasath et al. 2017).
I-4
Sehingga pada penelitian ini akan dilakukan klasifikasi menggunakan metode K Nearest Neighbor (KNN) dengan membandingkan euclidean, manhattan, dan chebycev distance dalam melakukan perhitungan jaraknya dan menggunakan empat dataset dengan jumlah atribut dan instance yang berbeda, serta menggunakan Zero R sebagai pembanding dari hasil klasifikasi metode K Nearest Neighbor (KNN).
1.3 Rumusan Masalah
Pada penelitian “Perbandingan Metrik Jarak Pada Metode K Nearest Neighbor” memiliki rumusan masalah yaitu bagaimana pengaruh dari perbedaan metode perhitungan jarak pada hasil klasifikasi dari algoritma K Nearest Neighbor? untuk menyelesaikan rumusan masalah tersebut maka dapat di pecahkan menjadi beberapa pertanyaan penelitian sebagai berikut
1. Apa pengaruh metode Euclidean Distance, Manhattan Distance, dan Chebycev Distance pada hasil klasifikasi dari algoritma K Nearest Neighbor?
2. Apa perbedaan dari hasil klasifikasi metode K Nearest Neighbor dengan menggunakan metrik jarak yang berbeda?
3. Apa perbedaan dari hasil klasifikasi metode K Nearest Neighbor dengan menggunakan metrik jarak yang berbeda dan dataset yg berbeda?
I-5 1.4 Tujuan Penelitian
Tujuan dari penelitian “Perbandingan Metrik Jarak Pada Metode K Nearest Neighbor” adalah sebagai berikut:
1. Mengetahui pengaruh euclidean distance, manhattan distance, dan chebycev distance pada hasil klasifikasi metode K Nearest Neighbour (KNN).
2. Mengetahui perbedaan pada hasil klasifikasi metode K Nearest Neighbour (KNN) dengan menggunakan metrik jarak yang berbeda.
3. Mengetahui perbedaan pada hasil klasifikasi metode K Nearest Neighbour (KNN) dengan menggunakan metrik jarak yang berbeda dan dataset yang berbeda.
1.5 Manfaat Penelitian
Manfaat yang didapatkan dalam penelitian ini sebagai berikut :
1. Memaparkan hasil pengklasifikasian K Nearest Neighbor dengan menggunakan metrik jarak yang berbeda sehingga dapat melihat perbedaan hasil dari tiap pengklasifikasian dengan metrik jarak yang berbeda.
2. Mengetahui perbedaan dari hasil klasifikasi K Nearest Neighbor (KNN) menggunakan metrik jarak yang berbeda.
I-6 1.6 Batasan Masalah
Batasan permasalahan yang akan diambil dalam penelitian ini adalah sebagai berikut : 1. Data yang digunakan dalam penelitian merupakan data yang diperoleh dari UCI Machine
Learning.
2. Metrik jarak yang digunakan adalah euclidean distance, manhattan distance dan chebycev distance.
3. Pembangunan perangkat lunak hanya sampai menghasilkan akurasi dari pengklasifikasian metode K Nearest Neighbor (KNN).
4. Pada penelitian ini klasifikasi pada metode KNN hanya melihat dari aspek metrik jarak.
1.7 Sistematika Penulisan
Sistematika penulisan tugas akhir ini mengikuti standar penulisan tugas akhir Fakultas Ilmu Komputer Universitas Sriwijaya yaitu sebagai berikut :
BAB I. PENDAHULUAN
Pada bab ini dijelaskan mengenai latar belakang, perumusan masalah, tujuan dan manfaat penelitian, batasan masalah atau ruang lingkup, dan sistematika penulisan.
I-7
BAB II. KAJIAN LITERATUR
Pada bab ini akan dijelaskan landasan teori yang digunakan dalam penelitian ini, seperti definisi Data Mining, Klasifikasi, K Nearest Neighbor, Metrik Jarak dan Rapid Prototyping serta beberapa kajian literatur mengenai penelitian lain yang relevan pada penelitian ini.
BAB III. METODOLOGI PENELITIAN
Pada bab ini akan dijelaskan tahapan yang akan dilaksanakan pada penelitian ini. Masing-masing rencana tahapan penelitian dideskripsikan dengan rinci dengan mengacu pada suatu kerangka kerja. Di akhir bab ini berisi perancangan manajemen proyek pada pelaksanaan penelitian.
BAB IV. PENGEMBANGAN PERANGKAT LUNAK
Pada bab ini akan dijelaskan tahapan-tahpan dari pengembangan perangkat lunak klasifikasi metode K Nearest Neighbor (KNN) dengan menggunakan metrik jarak euclidean, manhattan, dan chebycev distance.
BAB V. ANALISIS PENELITIAN
Pada bab ini akan diberi penjelasan mengenai hasil dan analisis dari pengujian yang dilakukan dalam penelitian
BAB VI. METODOLOGI PENELITIAN
Pada bab ini akan di jelaskan kesimpulan dari penelitian ini dan saran untuk penelitian kedepannya.
I-8 1.8 Kesimpulan
Pada bab ini telah dibahas mengenai penelitian yang akan dilaksanakan yaitu “Perbandingan Metrik Jarak Pada Metode K Nearest Neighbor”. Selanjutnya teori-teori yang berkaitan dengan penelitian akan dibahas pada
xv
DAFTAR PUSTAKA
Abu Alfeilat, Haneen Arafat et al. 2019. “Effects of Distance Measure Choice on K-Nearest Neighbor Classifier Performance: A Review.” Big Data 00(00).
Chomboon, Kittipong, Pasapitch Chujai, Pongsakorn Teerarassamee, et al. 2015. “An Empirical Study of Distance Metrics for K-Nearest Neighbor Algorithm.”
Chomboon, Kittipong, Pasapichi Chujai, Pongsakorn Teerarassammee, et al. 2015. “An Empirical Study of Distance Metrics for K-Nearest Neighbor Algorithm.” : 280–85. Deng, Xinyang, Qi Liu, Yong Deng, and Sankaran Mahadevan. 2016. “An Improved Method to
Construct Basic Probability Assignment Based on the Confusion Matrix for Classification Problem.” Information Sciences 340–341: 250–61.
http://dx.doi.org/10.1016/j.ins.2016.01.033.
Devadiga, Nitish M. 2017. “With Rapid Prototyping.” (Icces): 924–30.
Dokmanic, Ivan, Juri Ranieri, and Martin Vetterli. 2015. “Relax and Unfold: Microphone Localization with Euclidean Distance Matrices.” 2015 23rd European Signal Processing Conference, EUSIPCO 2015: 265–69.
Dominguez-Olmedo, Juan L., Jacinto Mata, Victoria Pachón, and Jose L. Lopez Guerra. 2019. 452 Biomedical Engineering Systems and Technologies Application of a Rule-Based Classifier to Data Regarding Radiation Toxicity in Prostate Cancer Treatment. http://link.springer.com/10.1007/978-3-662-44485-6.
García, Salvador. 2015. Data Preprocessing in Data Mining. http://www.springer.com/series/8578.
xvi
Han, Jiawei, Micheline Kamber, and Jian Pei. 2012. Data Mining: Concepts and Techniques 3rd Edition.
Hu, Li Yu, Min Wei Huang, Shih Wen Ke, and Chih Fong Tsai. 2016. “The Distance Function Effect on k ‑ Nearest Neighbor Classification for Medical Datasets.”
Mulak, Punam, and Nitin Talhar. 2015. “Analysis of Distance Measures Using K-Nearest
Neighbor Algorithm on KDD Dataset.” International Journal of Science and Research 4(7): 2319–7064. www.ijsr.net.
Prasath, V B Surya et al. 2017. “Distance and Similarity Measures Effect on the Performance of K-Nearest Neighbor Classifier.” : 1–50.
S, Vijayarani, and Dhayanand S. 2015. “Data Mining Classification Algorithms for Kidney Disease Prediction.” International Journal on Cybernetics & Informatics 4(4): 13–25. Tarapitakwong, Jittaporn, Bungon Chartrungruang, and Nuttiya Tantranont. 2017. “A
Classification Model for Predicting Standard Levels of OTOP ’ s Wood Handicraft Products by Using the K-Nearest Neighbor.” International Journal of the Computer, the Internet and Management 25(2): 135–41.