ANALISIS KINERJA METODE K-NEAREST NEIGHBOR DALAM SISTEM ZONASI PPDB
TESIS
RAHMAD SYUHADA 177038040
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
ANALISIS KINERJA METODE K-NEAREST NEIGHBOR DALAM SISTEM ZONASI PPDB
TESIS
Diajukan Untuk Melengkapi Tugas dan Memenuhi Syarat Memperoleh Jazah Magister Teknik Informatika
RAHMAD SYUHADA 177038040
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
MEDAN 2019
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan dibawah ini :
Nama : Rahmad Syuhada
NIM : 177038040
Program Studi : MAGISTER (S-2) TEKNIK INFORMATIKA
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti Free Right) atas tesis saya yang berjudul :
ANALISIS KINERJA METODE K-NEAREST NEIGHBOR DALAM SISTEM ZONASI PPDB
beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non- Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 15 Agustus 2019
Rahmad Syuhada 177038040
Telah diuji pada
Tanggal: 15 Agustus 2019
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Dr. Maya Silvi Lydia, B.Sc., M.Sc
2. Dr. Sawaluddin, M.IT
3. Dr. Erna Budhiarti Nababan, M.IT
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap (berikut gelar) : Rahmad Syuhada, S.Kom Tempat dan Tanggal Lahir : Medan, 22 November 1992
Alamat Rumah : Jl. Kutilang 1 No. 19, Dusun III Kamboja
Bandar Khalifah, Kec. Percut Sei Tuan
Kab. Deli Serdang, Sumatera Utara,
20371
Telepon/Faks/HP : 081-221-523-818
E-mail : [email protected]
Instansi Tempat Bekerja : SMK TELKOM 2 MEDAN Alamat Kantor : Jl. Halat No. 68 Medan, 20215 DATA PENDIDIKAN
SD/MI : SD Muhammadiyah 27 Medan TAMAT : 2004
SMP/MTs : Madrasah Tsanawiyah Negeri 2 Medan TAMAT : 2007 SMA/MA : Madrasah Aliyah Negeri 1 Medan TAMAT : 2010
D-3 : Telkom University TAMAT : 2013
S-1 : Universitas Sumatera Utara TAMAT : 2017
S-2 : Universitas Sumatera Utara TAMAT : 2019
KATA PENGANTAR
Puji dan syukur kehadirat Allah SWT yang telah memberikan rahmat dan hidayah-Nya serta terutama nikmat kesehatan, sehingga penulis dapat menyelesaikan penyusunan tesis ini, sebagai salah satu syarat untuk memperoleh gelar Magister Komputer pada Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Pada penyusunan tesis dengan judul Analisis Kinerja Metode K-Nearest Neighbor Dalam Sistem Zonasi PPDB, penulis menyadari bahwa banyak pihak yang turut membantu, Dalam kesempatan ini penulis mengucapkan terima kasih kepada:
1. Kedua orang tua tercinta Ibunda Dra. Farida Hannum Siagian dan Ayahanda Supriatno atas semangat dan dukungan terbaiknya hingga tesis ini dapat diselesaikan dengan baik, serta Adik-adik yang saya sayangi dan banggakan.
2. Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera Utara.
3. Bapak Prof. Dr. Drs. Opim Salim Sitompul, M.Sc selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi S-2 Teknik Informatika Universitas Sumatera Utara.
5. Bapak Prof. Dr. Herman Mawengkang selaku Dosen Pembimbing I yang telah memberikan bimbingan, saran, dan masukan kepada penulis dalam pengerjaan tesis ini.
6. Ibu Dr. Maya Silvi Lydia B.Sc, M. Sc selaku Dosen Pembimbing II yang telah memberikan bimbingan terbaik, saran, dan masukan kepada penulis dalam pengerjaan tesis ini.
7. Bapak Dr. Sawaluddin, M.IT selaku Dosen Pembanding I yang telah memberikan memberikan saran, dan masukan kepada penulis dalam penyempurnaan tesis ini.
8. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembanding II yang telah memberikan saran terbaik, dan masukan terbaik kepada penulis dalam penyempurnaan tesis ini.
9. Teman-teman mahasiswa S-2 Magister Teknik Informatika yang telah memberikan semangat untuk penulis sehingga dapat menyelesaikan tesis ini.
Akhir kata, penulis berharap semoga tesis ini dapat bermanfaat bagi penulis dan pembaca, khususnya rekan-rekan mahasiswa yang mengikuti perkuliahan di Universitas Sumatera Utara.
Medan, 15 Agustus 2019 Penulis,
Rahmad Syuhada 177038040
ABSTRAK
Pada tahun pelajaran 2018-2019 pemerintah melalui Menteri Pendidikan dan Kebudayaan Republik Indonesia mengeluarkan Peraturan Menteri nomor 51 tahun 2018 tentang penerimaan peserta didik baru (PPDB), hal tersebut dianggap penting demi tercapainya pendidikan dengan kualitas yang merata bagi tiap sekolah khususnya SMP Negeri di Kota Medan. Penelitian ini dilakukan terhadap data Penerimaan Peserta Didik Baru pada 4 sampel sekolah dengan 1725 data training yang telah dilakukan pemodelan terlebih dahulu. Hasil dari data yang telah ditentukan atributnya kemudian dikelompokkan berdasarkan kategori sekolah, dengan melakukan perhitungan menggunakan Metode K-Nearest Neighbor untuk menentukan jarak terdekat (distance). Hasil dari klasifikasi kemudian dibandingkan berdasarkan tingkat kemiripan, penggunaan Metode K-Nearest Neighbor kemudian dibandingkan berdasarkan dengan penentuan nilai k untuk dilakukan pengujian kinerja dengan menghitung perbedaan nilai akurasi. Pada akhir penelitian disimpulkan nilai akurasi penggunaan metode K-Nearest Neighbor dalam klasifikasi zonasi PPDB.
Keyword: Zonasi Penerimaan Peserta Didik Baru (PPDB), Distance, K-Nearest Neighbor
ANALYSIS OF PERFORMANCES K-NEAREST NEIGHBOR METHOD IN SYSTEM OF ZONASI PPDB
ABSTRACT
In the 2018-2019 school year the government through the Minister of Education and Culture of the Republic of Indonesia issued Ministerial Regulation number 51 of 2018 regarding the admission of new students (PPDB), it was considered important for the achievement of education with equal quality for each school, especially junior high school (SMP) in Medan City. This research was conducted on the data of New Student Acceptance on 4 school samples with 1725 training data that had been done in advance modeling. The results of the predetermined data are then grouped by school category, by doing calculations using the K-Nearest Neighbor method to determine distances. The results of the classification are then compared based on the level of similarity, the use of the K-Nearest Neighbor method is then compared based on determining the value of k for performance testing by calculating the difference in accuracy values. At the end of the study, it was concluded that the accuracy of using the K-Nearest Neighbor method in the classification of zonasi PPDB.
Keyword: The Admission of New Students (PPDB), Distance, K-Nearest Neighbor
DAFTAR ISI
Halaman
HALAMAN JUDUL
PERSETUJUAN i
PERNYATAAN ii
PERSETUJUAN PUBLIKASI iii
PANITIA PENGUJI iv
RIWAYAT HIDUP v
KATA PENGANTAR vi
ABSTRAK viii
ABSTRACT ix
DAFTAR ISI x
DAFTAR TABEL xii
DAFTAR GAMBAR xiv
BAB 1. PENDAHULUAN 1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 3
1.4. Tujuan dan Manfaat Penelitian 3
BAB 2. LANDASAN TEORI 2.1. Data Mining 4
2.1.1. Teknik Data Mining 4 2.1.2. Tahapan Data Mining 7
2.2 Sistem Zonasi PPDB 9
2.3. K-Nearest Neighbor 11
2.4. Penelitian Terkait 11
BAB 3. METODOLOGI PENELITIAN
3.1. Pendahuluan 14
3.2. Teknik Pengumpulan Data 15
3.3. Pemrosesan Data 15
3.4. Rancangan Penelitian 17
3.5. Analisis Data 19
3.6. Pemodelan Data 21
BAB 4. HASIL DAN PEMBAHASAN
4.1. Pendahuluan 23
4.2 Pengumpulan Dataset 23
4.2.1 Data Training 23
4.2.2 Data Testing 24
4.3 Hasil Pengujian dengan Menggunakan Algoritma K-Nearest Neighbor 25 4.3.1 Hasil Pengujian klasifikasi K-Nearest Neighbor 37
4.4 Penentuan nilai k 40
4.4.1 Proses penentuan jumlah k-fold cross validation 40
4.6.2 Classification Model 41
4.5 Pembahasan 41
BAB 5. KESIMPULAN DAN SARAN
5.1 Kesimpulan 42
5.2 Saran 42
DAFTAR PUSTAKA
LAMPIRAN
DAFTAR TABEL
Hal.
Tabel 2.1 Penelitian terkait 12
Tabel 3.1 Pemodelan sampel data rata-rata Nilai Akhir 16
Tabel 3.2 Contoh Data pada zonasi PPDB 20
Tabel 3.3 Pemodelan zonasi PPDB 21
Tabel 3.4 Contoh Pemodelan Data Prestasi 22
Tabel 3.5 Model data nilai Akhir 22
Tabel 4.1 Jumlah data hasil pembersihan 25
Tabel 4.2 Data Training 26
Tabel 4.3 Data Testing 26
Tabel 4.4 Data Testing 1 27
Tabel 4.5 Perhitungan jarak menggunakan Euclidean Distance 28 Tabel 4.6 Hasil Perhitungan Distance pada data Testing 1, untuk data uji ke-1 33 Tabel 4.7 Hasil Perhitungan yang telah diurutkan berdasarkan Distance terkecil 33 dari tabel data Testing 1, untuk data uji ke-1
Tabel 4.8 Hasil Perhitungan Distance pada data testing 1, untuk data uji ke-2 34 Tabel 4.9 Hasil Perhitungan yang telah diurutkan berdasarkan Distance terkecil 34 dari tabel data Testing 1, untuk data uji ke-2
Tabel 4.10 Hasil Perhitungan Distance pada data testing 1, untuk data uji ke-3 35 Tabel 4.11 Hasil Perhitungan yang telah diurutkan berdasarkan Distance terkecil 35 dari tabel data Testing 1, untuk data uji ke-3
Tabel 4.12 Hasil Perhitungan Distance pada data testing 1, untuk data uji ke-4 35 Tabel 4.13 Hasil Perhitungan yang telah diurutkan berdasarkan Distance terkecil 36 dari tabel data Testing 1, untuk data uji ke-4
Tabel 4.14 Hasil Pengujian 37
Tabel 4.15 Perhitungan operasi dasar metode K-Nearest Neighbor 40
Tabel 4.16 Penentuan jumlah k-optimal 40
Tabel 4.17 Kategori hasil analisis 41
DAFTAR GAMBAR
Hal.
Gambar 1.1 Proses Knowledge Discovery in Databases 4
Gambar 1.2 Classification (Decision Tree) 5
Gambar 1.3 Clustering 5
Gambar 1.4 Product Association 6
Gambar 1.5 Time Series 6
Gambar 1.6 Web Navigation Sequence 7
Gambar 1.7 Tahapan Data Mining Pada Proses Knowledge Discovery 8 Gambar 3.1 Kerangka Pikiran Data Mining dan Aplikasi Scoring 17
Gambar 3.2 Alur Sistem Rancangan Penelitian 18
Gambar 3.3 Alur Sistem Proses Learning 18
Gambar 3.4 Alur Sistem Proses Prediksi 18
Gambar 3.5 Prosedur Kerja 19
Gambar 3.6 Tahapan Proses Metode K-Nearest Neighbor 19
Gambar 4.1 perubahan format data training 24
Gambar 4.2 pengujian data testing 24
Gambar 4.3 Data PPDB yang telah di modifikasi 25
Gambar 4.4 Visualisasi klasifikasi zonasi PPDB 39
Gambar 4.5 Threshold Curve dengan Plot Area under ROC 41
BAB 1 PENDAHULUAN
1.1. Latar Belakang
Penerimaan Peserta Didik Baru atau disingkat (PPDB) merupakan proses untuk menjaring calon siswa baru sesuai kriteria dan karakteristik sekolah dengan arahan Peraturan Menteri Pendidikan No 14 Tahun 2018 tentang PPDB pada Taman Kanak- Kanak, Sekolah Dasar, Sekolah Menengah Pertama, Sekolah Menengah Atas, Sekolah Menengah Kejuruan, atau bentuk lain yang sederajat. Hal penting dalam penerbitan peraturan ini adalah sekolah dapat melaksanakan PPDB dengan objektif, transparan, akuntabel, dan non-diskriminatif melalui jalur zonasi, prestasi dan perpindahan tugas orang tua/wali. Dimana kriteria utama dalam penerimaan siswa wajib berdasarkan zonasi atau menggunakan jarak antara rumah dengan sekolah.
Model dan konsep zonasi sekolah merupakan wewenang dari masing-masing Pemerintah Daerah. Sistem zonasi ini menyebabkan banyaknya orang tua yang protes karena anak mereka tidak diterima disekolah negeri, padahal jarak tempat tinggal dengan sekolah negeri sangat dekat (Bere, S.M. 2018). Federasi Serikat Guru Indonesia (FSGI) menilai salah satu yang paling kentara adalah tidak seimbangnya daya tampung sekolah dengan jumlah siswa. Akibatnya, banyak di antara siswa yang tidak tertampung oleh sekolah. Padahal, rumah dan sekolah yang dituju tidak terlalu jauh. Masalah lainnya berkaitan dengan perpindahan tempat tinggal yang tiba-tiba.
Seorang siswa menumpang nama di Kartu Keluarga saudaranya demi bisa bersekolah di salah satu sekolah di daerah yang dituju, dengan kata lain sistem zonasi dapat dikelabui (Apinino, R. 2018).
Proses sistem zonasi PPDB ini mengacu pada petunjuk teknis Penerimaan Peserta Didik Baru TK, SD dan SMP tahun ajaran 2018/2019 yang memfokuskan pada aspek dan kriteria sebagai landasan seleksi di tingkat sekolah. Puspito, T.A.
(2017) dalam penelitiannya Menentukan pilihan sekolah di dalam Penerimaan Peserta Didik Baru dengan menggunakan metode Naive Bayes dan K-Nearest Neighbor, bertujuan memberikan rekomendasi kepada orangtua dalam penyelenggaraan PPDB jenjang SMP agar dapat mempermudah orang tua dalam menentukan pilihan sekolah yang sesuai dengan keadaan calon siswa. Metode dilakukan pengujian dengan
menggunakan 175 data testing yang diambil secara acak. Hasil penelitian menunjukkan algoritma Naive Bayes maupun K-Nearest Neighbor menghasilkan 159 data prediksi yang mendekati sama, hanya berbeda antara pilihan pertama dan pilihan kedua.
Penentuan kriteria dalam menggunakan metode klasifikasi dapat ditentukan dengan pemodelan data. Klasifikasi terbagi menjadi dua pendekatan yaitu Supervised dan Unsupervised. Klasifikasi penentuan kriteria termasuk ke dalam tipe Supervised Learning, artinya dibutuhkan data pelatihan untuk membangun suatu model klasifikasinya. Berdasarkan kesimpulan penggunaan metode tersebut, kemudian dapat dianalisis kembali dari penggunaan metode Naïve Bayes dan K-Nearest Neighbor masih terdapat kekurangan, dalam hal ini penentuan dua pilihan sekolah yang mengakibatkan masih banyaknya data yang mendekati sama dalam pengujian menggunakan 175 data testing.
Terlihat sebuah prediksi menjadi kurang tepat jika ada pengambilan keputusan yang kompleks, kompleks maksudnya adalah suatu kesatuan yang terdiri dari sejumlah bagian, khususnya yang memiliki bagian yang saling berhubungan dan saling tergantung, metode Naïve Bayes lebih cocok digunakan dalam pengambilan keputusan yang sederhana. Jika contohnya, dalam menentukan alternatif pilihan dalam hal ini adalah penentuan sekolah sebagai tujuan umum, dan dilanjutkan dengan penentuan kriteria pilihan, baik dari domisili, asal sekolah, prestasi, dan nilai Ujian Nasional, akan lebih tepat jika teori umum tentang klasifikasi yang digunakan cukup menggunakan metode K-Nearest Neighbor untuk melihat akurasinya dan membandingkan dengan penentuan secara manual.
Maka, dari beberapa penjelasan di atas, akan di analisis lebih lanjut mengenai kinerja dari metode K-Nearest Neighbor dalam hal klasifikasi sistem zonasi PPDB diharapkan akan menentukan prediksi kelulusan pilihan sekolah dengan probabilitas dan tingkat keakuratan data dengan melihat kedekatan data uji terhadap data training, data terdekat yang akan digunakan untuk memberikan rekomendasi kepada sekolah baru terhadap calon siswa sehingga mendapatkan prediksi dengan hasil yang baik.
1.2. Rumusan Masalah
Berdasarkan latar belakang diatas diperoleh rumusan masalah yaitu pengelompokkan dengan sistem zonasi masih dilakukan secara manual sehingga keputusan masih
subjektif atau tidak optimal. Oleh karenanya diperlukan sebuah analisis untuk memberikan prediksi kelulusan pilihan sekolah, dalam penentuan sistem zonasi dengan metode K-Nearest Neighbor yang digunakan untuk melihat kedekatan suatu data terhadap data training yang digunakan dalam memberikan rekomendasi kepada sekolah baru terhadap calon siswa.
1.3. Batasan Masalah
Berdasarkan perumusan masalah dalam penelitian diperlukan batasan masalah agar penelitian dapat fokus dan tujuan dari penelitian tercapai.
Adapun batasan masalah dalam penelitian ini, yaitu :
1. Metode dalam penelitian ini adalah K-Nearest Neighbor digunakan untuk menganalisis kinerja dan membandingkan hasil prediksi dalam membantu menentukan pengelompokan alternatif pilihan sekolah.
2. Data yang digunakan yaitu data dari peserta calon PPDB Dinas Pendidikan Kota Medan, Sumatera Utara 2018.
3. Kriteria yang digunakan dalam penentuan sekolah adalah domisili, prestasi dan nilai UN yang akan di klasifikasikan berdasarkan Zonasi.
Model ini digunakan untuk menentukan sekolah sesuai rayon yang sudah ditetapkan, agar mengurangi pengelompokan pilihan pada sekolah favorit.
1.4. Tujuan Penelitian
1. Adapun tujuan dari penulisan tesis ini adalah melakukan analisis kinerja metode K-Nearest Neighbor untuk mengetahui nilai akurasi sistem zonasi PPDB dengan jarak tempat tinggal dengan sekolah dan memberikan rekomendasi kelulusan kepada calon siswa dalam penentuan pilihan sekolah.
1.5. Manfaat Penelitian
Manfaat dari hasil penelitian ini diharapkan :
1. Mendapatkan tingkat akurasi yang baik dalam penerapan metode K- Nearest Neighbor dalam memberikan masukan kepada sekolah baru dalam memilih calon siswa sesuai dengan prediksi zonasi jarak terdekat antara rumah dan sekolah.
BAB 2
LANDASAN TEORI
2.1. Data Mining
Data mining merupakan proses percarian secara otomatis informasi dalam tempat penyimpanan data dengan ukuran besar. Istilah yang sering digunakan diantaranya knowledge discovery in databases (KDD), knowledge extraction, pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence.
Data mining merupakan proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling utama dari suatu proses dengan data mining adalah feature selection dan proses pengenalan pola dari suatu sistem database (Fayyad et al, 1996).
Data mining merupakan bagian integral dari knowledge discovery in databases (KDD). Keseluruhan proses tersebut untuk konversi raw data ke dalam informasi yang berguna ditunjukkan seperti gambar.
Gambar 1.1 Proses Knowledge Discovery in Databases
Sumber : (Tan et al, 2006, p3)
2.1.1. Teknik Data Mining
Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Berikut adalah fungsi data mining secara umum menurut (Maclennan, Z. Tang., & Crivat, B. 2008) :
1. Classification
Fungsi dari Classification adalah untuk klasifikasi paling umum sebagai fungsi dari data mining. Proses bisnis menghasilkan analisis, manajemen risiko, dan ditujukan untuk mengklasifikasikan suatu target kelas ke dalam kategori yang dipilih.
Klasifikasi merupakan proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau obyek yang memiliki label kelas tidak diketahui. Model yang turunkan didasarkan pada analisis dari data training (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti aturan IF-THEN klasifikasi, pohon keputusan, formula matematika atau jaringan syaraf tiruan.
Gambar 1.2 Classification (Decision Tree)
Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)
2. Clustering
Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised) dan suatu metode untuk mencari dan mengelompokan data yang memiliki kemiripan karakteristik antara satu data dengan data lain (Ong, J. O. 2013).
Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke dalam segmentasi berdasarkan similaritas.
Gambar 1.3 Clustering
Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)
3. Association
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian. Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada.
Gambar 1.4 Product Association
Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)
Association rule ini menjelaskan seberapa sering suatu produk dibeli secara bersamaan. Dalam suatu association rule X =>Y, X disebut dengan antecedent dan Y disebut dengan consequent.
4. Regression
Tujuannya adalah menemukan pola untuk menentukan nilai numerik atau mencari prediksi dari suatu pola yang ada. contoh, regresi di mana hasilnya adalah berfungsi untuk menentukan output berdasarkan nilai-nilai masukan. Nilai numerik yang paling populer adalah teknik yang digunakan untuk regresi linier dan regresi logistik.
5. Forecasting
Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.
Gambar 1.5 Time Series
6. Sequence Analysis
Sequence analysis akan digunakan untuk menemukan pola dalam serangkaian peristiwa disebut urutan. Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian.
Gambar 1.6 Web Navigation Sequence
Sumber : (MacLennan, Z. Tang., & B. Crivat, 2008)
7. Deviation Analysis
Deviation Analysis digunakan untuk menemukan kasus yang jarang berperilaku dengan cara yang sangat berbeda dari biasanya. Fungsi dari devation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).
2.1.2. Tahapan Data Mining
Sebagai suatu yang disebut sebagai rangkaian proses, maka data mining dapat dibagi menjadi beberapa fase. Fase tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Banyak orang memperlakukan data mining sebagai sinonim untuk istilah lain yang populer digunakan Knowledge Discovery Databases atau KDD. Sementara yang lain melihat data mining hanya sebagai langkah penting dalam proses knowledge discovery. Sesuai yang tercantum dalam buku “Data mining concepts and techniques”(Han, J. and Kamber,M. 2012).
Proses knowledge discovery terdiri dari beberapa tahapan, Tahapan itu antara lain sebagai berikut :
Gambar 1.7 Tahapan Data Mining Pada Proses Knowledge Discovery
Sumber : (Han, J. and Kamber,M. 2011)
1. Data Cleaning
Menghapus noise dan data yang tidak konsisten, Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik.
Data-data yang tidak relevan itu lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya.
2. Data Integration
Dimana beberapa sumber data dapat dikombinasikan, Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya.
3. Data Selection
Dimana data relevan untuk analisis adalah diperoleh dari database, seleksi data dan sekumpulan data operasional dilakukan sebelum tahap penggalian informasi, data hasil seleksi kemudian digunakan untuk proses data mining dan disimpan pada berkas terpisah dari basis data operasional.
4. Data Transformation
Dimana data yang diubah dan konsolidasi ke dalam bentuk yang sesuai dengan ringkasan atau agregasi dengan melakukan operasi. Prosesnya biasa disebut dengan binning. Dimana terlebih dahulu dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data sangat menentukan kualitas dari hasil data mining.
5. Data Mining
Dimana proses penting dapat diketahui dengan menerapkan metode untuk mengekstrak pola data. Teknik dan metode dalam data mining sangat bervariasi.
Sehingga pemilihan metode atau teknik yang tepat sangat bergantung pada tujuan dan proses.
6. Pattern Evaluation
Knowledge Discovery Databases merupakan bentuk pola evaluasi untuk mengidentifikasi dengan menarik pola yang mewakili dasar pengetahuan pada keterkaitan mengukur tindakan. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
7. Knowledge Presentation
Dimana visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan yang ditambang kepada pengguna. Bagaimana membuat formulasi keputusan atau aksi dari hasil analisa yang didapat. Dalam presentasi, visualisasi bisa membantu mengkomunikasikan hasil data mining.
2.2. Sistem Zonasi PPDB
Pelaksanaan PPDB (Penerimaan Peserta Didik Baru) 2018 mengacu pada peraturan terbaru tentang PPDB yakitu : Permendikbud Nomor 14 Tahun 2018, salah satunya mengatur tentang sistem zonasi PPDB. Beberapa hal yang perlu diperhatikan mengenai sistem zonasi dalam PPDB 2018 diantaranya:
1. Sekolah yang diselenggarakan oleh pemerintah daerah (pemda) wajib menerima calon peserta didik berdomisili pada radius zona terdekat dari sekolah dengan kuota paling sedikit 90% dari total jumlah keseluruhan peserta didik yang diterima.
2. Domisili calon peserta didik yang termasuk dalam zonasi sekolah didasarkan padaalamat pada kartu keluarga (KK) yang diterbitkan paling lambat 6 (enam) bulan sebelum pelaksanaan PPDB.
3. Radius zona terdekat dalam sistem zonasi ditetapkan oleh pemda sesuai dengan kondisi di daerah tersebut dengan memperhatikan ketersediaan anak usia sekolah di daerah tersebut; dan jumlah ketersediaan daya tampung sekolah.
4. Penetapan radius zona pada sistem zonasi ditentukan oleh pemda dengan melibatkan musyawarah atau kelompok kerja kepala sekolah.
5. Bagi sekolah yang berada di daerah perbatasan provinsi/kabupaten/kota, ketentuan persentase penerimaan siswa dan radius zona terdekat dapat ditetapkan melalui kesepakatan tertulis antar pemerintah daerah yang saling berbatasan.
6. Calon siswa di luar zonasi dapat diterima melalui beberapa cara yakni:
a. Melalui jalur prestasi dengan kuota paling banyak 5% (lima persen) dari total jumlah keseluruhan peserta didik yang diterima.
b. Alasan perpindahan domisili orangtua/wali atau alasan terjadi bencana alam/sosial dengan paling banyak 5% (lima persen) dari total keseluruhan siswa yang diterima.
7. Sistem zonasi menjadi prioritas utama atau terpenting dalam PPDB jenjang SMP dan SMA. Setelah seleksi zonasi baru kemudian dipertimbangkan hasil seleksi ujian tingkat SD atau hasil ujian nasional SMP untuk tingkat SMA.
8. Untuk jenjang SD, sistem zonasi menjadi pertimbangan seleksi tahap kedua setelah faktor minimum usia masuk sekolah sudah terpenuhi. Sedangkan bagi SMK sama sekali tidak terikat mengikuti sistem zonasi.(Wahyuni, D. 2018)
2.3. K-Nearest Neighbor
Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Data pembelajaran diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran. Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru berdasarkan atribut dan sampel dari data training. Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titk tersebut. Dekat atau jauhnya tetangga biasanya dihitung berdasarkan jarak Euclidean.
Langkah – langkah algoritma K-NN ditunjukkan sebagai berikut : 1. Tentukan nilai k, yaitu jumlah tetangga terdekat.
2. Menghitung kuadrat jarak euclidean (euclidean distance) masing-masing objek terhadap data sampel yang diberikan
( ) √∑
( )
2 ………(1)Dimana
d : jarak kedekatan x : data training y : data testing
n : jumlah attribut individu antara 1 sampai n f : fungsi atribut I antara kasus x & kasus y Wi : bobot yang diberika pada atribut ke-i
Jarak antara objek x dan y didefinisikan sebagai D(xy), dimana xi merupakan record yang akan diprediksi dan yi merupakan record data pola sedangkan nilai n didefinisikan sebagai jumlah atribut dan nilai I merujuk pada record ke-i.
3. Mengurutkan objek-objek tersebut ke dalam kelompok yang mempunyai jarak Euclid terkecil
4. Mengumpulkan kategori Y (klasifikasi nearest neighbor)
5. Dengan menggunakan kategori mayoritas, maka dapat diprediksikan nilai query instance yang telah dihitung.
Sumber : (Amril, et.al, 2016)
2.4. Penelitian Terkait
Penelitian ini dilakukan berdasarkan beberapa penelitian sebelumnya yang berkaitan, pada Tabel 2.1 di bawah ini akan dipaparkan beberapa penelitian sebelumnya.
Tabel 2.1 Penelitian Terkait No Judul Penelitian Nama Peneliti
dan Tahun
Hasil Penelitian
1. Students Performance Prediction Using KNN and
Naïve Bayesian
Ihsan, A. &
Maghari, A.Y.
(2017)
Tujuan utama dari penelitian yang dilakukan klasifikasi tersebut dapat membantu kementerian pendidikan untuk meningkatkan prediksi kinerja prestasi awal siswa dan guru juga bisa mengambil evaluasi dalam menentukan tingkatan nilai pembelajaran siswa.
Hasil membuktikan bahwa Naïve Bayes lebih baik dari pada K-Nearest Neighbors dengan menerima nilai akurasi tertinggi 93,6%.
2. Perbandingan Algoritma K- Nearest Neighbors dan Naive Bayes sebagai studi data ‘wisconsin diagnosis
breast cancer’
Wicaksana,P D. (2015)
Dari hasil penelitian yang dilakukan oleh peneliti bahwa Algoritma Naïve Bayes mempunyai akurasi lebih akurat dibandingkan dengan Algoritma K-NN dalam mengklasifikasi ‘wisconsin diagnosis breast cancer’.
Parameter yang dibandingkan adalah tingkat akurasi sistem,
dan waktu proses kedua metode. Hal ini dikarenakan data 'winsconsin diagnosis breast cancer’ memiliki atribut yang beberapa tidak saling berhubungan, sehingga pada proses perhitungan algoritma k-neirest neighbor lebih unggul dari naive bayes yang bersifat independen.
3. Breast Cancer Classification Using Machine Learning
Amrane et.al, (2018)
Dalam tulisan menghadirkan dua pengklasifikasi yaitu Naive Bayes Classifier dan K- Nearest Neighbor (KNN) untuk klasifikasi breast cancer. Perbandingan antara keduanya mengimplementasi dan mengevaluasi akurasinya menggunakan cross validasi.
Hasil menunjukkan bahwa KNN memberikan akurasi tertinggi (97,51%) dengan tingkat kesalahan terendah kemudian NB classifier (96,19%).
4 Menentukan Pilihan Sekolah Didalam Penerimaan Peserta
Didik Baru dengan Menggunakan Metode Naive
Bayes dan K-Nearest Neighbor
Puspito, T.A.
(2017)
Metode dilakukan pengujian dengan menggunakan 175 data testing yang diambil secara acak dari data training masing – masing sekolah.
Disimpulkan menggunakan algoritma Naive Bayes maupun K-NN menghasilkan
159 data prediksi yang mendekati sama, hanya berbeda antara pilihan pertama dan pilihan kedua.
Dengan cara Menggunakan algoritma Naïve Bayes dan K- Nearest Neighbor juga didapatkan 16 data yang memiliki prediksi sama antara pilihan pertama dan pilihan kedua.
Dari beberapa penelitian yang dipaparkan pada Tabel 2.1, akan dianalisis lebih lanjut kinerja dari metode K-Nearest Neighbor untuk melihat nilai akurasi kedekatan suatu data terhadap data training dan data terdekat yang akan digunakan untuk memberikan rekomendasi kepada sekolah dalam menentukan calon siswa.
BAB 3
METODOLOGI PENELITIAN
3.1. Pendahuluan
Penelitian ini dilaksanakan untuk membantu pihak sekolah dalam menentukan pilihan calon siswa atau sebagai pendukung dalam membuat keputusan pada saat memilih calon siswa. Maka, dilakukanlah analisis kinerja dengan menggunakan metode K-Nearest Neighbor agar dapat memprediksi dan menentukan jarak tempat tinggal dengan sekolah untuk kinerja yang lebih baik dan optimal. Dengan menggunakan metode K-Nearest Neighbor dilakukan penentuan parameter yang akan menjadi atribut untuk dikelompokan berdasarkan kategori pilihan sekolah.
Untuk mengelompokan data tersebut digunakan parameter, yaitu standard deviasi (σ) dan Mean. Setelah data terkelompok pada metode ini, maka selanjutnya data akan di klasifikasi menggunakan metode K-Nearest Neighbor. Pada metode ini data yang digunakan merupakan data yang telah dilakukan pembersihan terhadap data-data yang tidak lengkap serta data tidak konsisten atau kosong. Adapun pembersihan data dilakukan dengan menghilangkan atribut yang tidak digunakan serta mengurangi efek noise pada saat proses perhitungan.Terdapat banyak tahapan pada metode K-Nearest Neighbor dalam membentuk klasifikasi.
Tahapan pertama yaitu menginisialisasi data, selanjutnya menghitung rata – rata nilai akhir dari setiap data. Kemudian, nilai rata – rata dari setiap data akan diberikan label atau kategori.Tahapan selanjutnya, menghitung tingkat kemiripan dengan euclidean distance, membandingkan tingkat kemiripan dalam menentukan jarak lalu mengambil nilai jarak untuk menjadi nilai klasifikasi. Pada tahapan selanjutnya disebut tahapan penentuan nilai k yang memungkinan akan membandingkan k terdekat untuk mencari k optimal. Selanjutnya dilakukan pengujian kinerja dengan menghitung akurasi.
Berdasarkan hal tersebut, dilakukan penelitian dengan data zonasi PPDB sekolah SMP Negeri di Kota Medan. Objek penelitian ini adalah untuk seluruh SMP yang berada di kota Medan. Namun, peneliti hanya mengambil sampel penelitian
dengan jumlah 4 sekolah. Penelitian ini akan dilakukan dengan menggunakan metode yang telah dipaparkan sebelumnya berupa metode K-Nearest Neighbor.
3.2. Pengumpulan Data
Pada penelitian ini dilakukan pengumpulan data yang digunakan peneliti adalah sebagai berikut:
Peneliti melakukan pengumpulan data penelitian yang diperoleh dengan mengambil data peserta calon PPDB. Data yang digunakan merupakan data yang telah di normalisasi, data set atau atribut informasi yang ada pada data sistem zonasi PPDB terdiri dari nilai : B.IND, MM, IPA, RERATA, NA30%, Zonasi, NA70% memiliki 4 kelas kategori yaitu: SMPN 17, SMPN 27, SMPN 29 dan SMPN 35.
Adapun pengukuran performance pada penelitian ini menggunakan metode Mean Square Error (MSE). Berikut persamaan Mean Square Error (3.1)
MSE =
∑
( )
(3.1) Ket :X = Nilai aktual atau sebenarnya Y = Nilai yang tercapai
3.3 Pemrosesan Data
Setelah data berhasil dikumpulkan, maka selanjutnya yaitu memodelkan data berdasarkan kategori sekolah. Pada pemrosesan data dilakukan 2 tahap perhitungan yaitu penentuan standar deviasi (σ) dan Mean ( ̅). dilakukan menggunakan aturan seperti berikut :
a. Menghitung nilai rata-rata (mean) dari seluruh data nilai akhir dengan menggunakan rumus pada persamaan (3.2) :
̅
∑(3.2) Ket
̅ :Mean
∑ : Hasil penjumlahan nilai akhir n : Jumlah data peserta PPDB
b. Setelah didapatkan nilai rata-rata dari seluruh data nilai akhir kemudian, dilanjutkan dengan menghitung standard deviasi dari seluruh data nilai akhir
dengan menggunakan rumus pada persamaan (3.3) :
√
∑( ̅)(3.3)
Ket
:standar deviasi
: data nilai akhir dari nilai individu ̅ : nilai rata-rata (mean)
: jumlah data peserta PPDB
Setelah selesai melakukan perhitungan, lalu data yang diolah diberikan label sesuai dengan hasil nilai mean dan standar deviasi. Sedangkan data pendukung seperti data Alamat, Jenis Kelamin, dan NISN tidak diproses.
Tabel 3.1 Pemodelan sampel data rata-rata Nilai Akhir Pemodelan data rata-rata Nilai Akhir Kategori Kualifikasi Label SMPN 17 TNA < ( ̅- σ) 4 SMPN 27 ( ̅-σ) ≤TNA ≤ ̅ 3 SMPN 29 ̅ ≤ TNA< ( ̅ + σ) 2
SMPN 35 TNA ≥ ( ̅+ σ) 1
Ket :
NA 30% = (Nilai B.IND+MM+IPA) x 30%
NA 70% = (Skor Zonasi) x 70 % TNA = (NA30%+NA70%)
1. Kualifikasi dengan kategori SMPN 17 diambil dari (NA30%+NA70%), lebih kecil dari rata-rata ( ̅) - standard deviasi(σ), maka termasuk kedalam label 4.
2. Kualifikasi dengan kategori SMPN 27 diambil dari rata-rata ( ̅) - standard deviasi. Jika (NA30%+NA n a rata-rata a a ter as abe 3. Kualifikasi dengan kategori SMPN 27 diambil dari rata-rata ( ̅) Jika (NA30%+NA70%) < rata-rata ( ̅) - standard deviasi(σ), maka termasuk label 2.
4. Kualifikasi dengan kategori SMPN 35 diambil dari (NA30%+NA70%), rata-rata ( ̅) - standard deviasi(σ), maka termasuk kedalam label 1.
c. Perhitungan Data
1) Data yang akan dihitung merupakan nilai rata-rata (mean), untuk mendapatkan nilai rata-rata menggunakan persamaan (3.2) Selengkapnya lihat pada Lampiran 2
x = NA30% +70%
D1 = (82,8 + 70) = 152,8 D2 = (82,5 + 69,3) = 151,8 D3 = (83,4 + 67,2) = 150,6
… = …. + …. = … D1725= (62,3 + 60,2) = 122,5
̅ = ∑ =
2) Data yang akan dihitung merupakan nilai standard deviasi, untuk mendapatkan nilai tersebut menggunakan persamaan (3.3) Selengkapnya lihat pada Lampiran 2
√∑( )
0,550140374
√∑( )
0,526785519
√∑( )
0,498615229
…
….…….
………….
√∑( )
0,177712494 3.4 Rancangan Penelitian
Pada bab ini menjelaskan langkah-langkah yang dilakukan dalam penelitian di mulai dari dataset yang digunakan untuk melakukan analisis atribut pada algoritma yaitu K- Nearest Neighbor. Adapun rancangan dari penelitian ini dapat dilihat sebagai berikut :
Gambar 3.1 Kerangka Pikiran Data Mining dan Scoring
Adapun rancangan dari penelitian ini dapat dilihat sebagai berikut :
Gambar 3.2 Gambaran Alur Sistem Rancangan Penelitian
Gambar 3.3 Alur Sistem Proses Learning Gambar 3.4 Alur Sistem Proses Prediksi
3.5 Analisis Data
Adapun prosedur yang dilakukan dari penelitian ini dapat dilihat pada prosedur kerja pada gambar berikut 3.5 berikut :
Proses Algoritma K-Nearest Neighbor
Pemodelan Data
a. Penentuan Label Klasifikasi Output:
Input : Data Training b. Klasifikasikan data berdasarkan Kinerja parameter. dari K-NN
Operasi Seleksi
Proses K-Nearest Neighbor a. Penentuan jarak menggunakan
Euclidean Distance b. Penentuan nilai K dengan
optimasi parameter (cross-validation)
Pengujian akurasi (Confusion Matriks)
Gambar 3.5 Prosedur Kerja
Blok diagram dari Metode K-Nearest Neighbor dapat dilihat pada Gambar3.6 berikut:
Penetuan parameter dari setiap Hitung Distance dari setiap Penentuan dataset data training dengan data training ke data testing memberikan label. menggunakan Euclidean
Distance
Data Testing d(x,y) = √∑ ( )
Hitung K dari hasil Klasifikasikan data klasifikasi berdasarkan berdasarkan dengan jarak
label terkecil dari setiap data
Hitung Akurasi
Tampilkan Hasil Klasifikasi
Gambar 3.6 Tahapan Proses Metode K-Nearest Neighbor
Pada Gambar 3.6. dapat dilihat bahwa pada algoritma K-Nearest Neighbor terdapat beberapa jumlah tahapan sebagai berikut.
1. Penentuan Dataset
Dataset yang digunakan di dalam penelitian ini adalah nilai : B.IND, MM, IPA, RERATA, NA30%, Zonasi, NA70% memiliki 4 kelas kategori yaitu:
SMPN 17, SMPN 27, SMP 29 dan SMPN 35.
2. Penentuan kelas dan nilai k
Penentuan jumlah label atau kategori dapat disesuaikan dengan permasalahan yang ada dan pada dataset zonasi PPDB yaitu sebanyak 4 label. Sedangkan penentuan nilai k pada K-Nearest Neighbor sudah disepakati sebelumnya.
3. Hitung jarak dari tiap objek data testing ke data training untuk menghitung jarak dari data testing ke data training dapat dilakukan dengan menggunakan perhitungan Euclidean Distance.
4. Kelompokkan tiap objek berdasarkan jarak mininum, kemudian setelah diperoleh jarak dari data testing ke data training maka langkah selanjutnya adalah dilakukan pengelompokan dari tiap objek berdasarkan jarak minimum yang diperoleh.
5. Tentukan nilai k berdasarkan yang telah disepakati.
6. Kemudian jika sudah mencapai iterasi maksimal maka proses akan berhenti.
Berdasarkan pada uraian tahapan sebelumnya, maka proses penentuan class dapat diuraikan sebagai berikut (contoh menggunakan data set zonasi PPDB). Untuk mempermudah pemahaman, maka kita misalkan data pada zonasi PPDB adalah seperti dapat dilihat pada tabel berikut :
Tabel 3.2. Contoh Data pada zonasi PPDB
1 NISN B.IND MM IPA RERA
TA
NA 30%
ZON ASI
NA
70% Kategori 2
3 0051100583 89.2 93.4 93.3 90.9 81.8 100 70 SMP NEGERI 17 MEDAN 4 0061823267 89.2 92.5 93.3 90.0 81.0 99 69.3 SMP NEGERI 17 MEDAN 7 0069533570 89.2 92.5 89.9 89.1 80.2 98 68.6 SMP NEGERI 17 MEDAN 319 0065291316 84.2 79.1 88.7 84.0 75.6 89 84.0 SMP NEGERI 27 MEDAN 322 0066881449 71.5 84.0 72.8 76.1 68.5 88 76.1 SMP NEGERI 27 MEDAN 323 0065882294 82.4 74.4 83.5 80.1 72.1 87 80.1 SMP NEGERI 27 MEDAN 699 0069560962 91.5 89.5 88.9 90.0 81.0 93 65.1 SMP NEGERI 29 MEDAN 701 0069674596 84.3 83.9 80.9 83.0 74.7 96 67.2 SMP NEGERI 29 MEDAN 702 0068467423 92 92 81 88.3 79.5 85 59.5 SMP NEGERI 29 MEDAN
… ... …. …. …. ….. ….. …. …. ………
1193 0069443843 55.8 89 92.9 79.2 71.3 86 60.2 SMP NEGERI 35 MEDAN 1194 0055318476 79 84.7 82 81.9 73.7 85 59.5 SMP NEGERI 35 MEDAN
3.6 Pemodelan Data
Pemodelan dilakukan pada atribut jenis kelamin,asal daerah, gakin, nilai UN dan prestasi, melakukan pengambilan data training dari data siswa, adapun penjelasan atribut yang digunakan dalam mengklasifikasi data adalah sebagai berikut :
1. Jenis kelamin
Merupakan variabel jenis kelamin siswa yang dikelompokkan dalam dua kategori yaitu laki-laki dan perempuan.
2. Domisili
Merupakan variabel nilai yang dikelompokkan dalam tabel nilai zonasi
3. Prestasi
Merupakan variabel nilai yang dikelompokkan dalam 10 kategori yaitu : Prestasi dari tingkat Kab/Kota sampai dengan Nasional.
4. Nilai UN
Merupakan variabel nilai yang ditentukan berdasarkan hasil total nilai ujian
Pemodelan nilai zonasi PPDB
Tabel.3.3 Pemodelan zonasi PPDB
NO
JARAK RUMAH (SESUAI KK) DENGAN SEKOLAH TEMPAT MENDAFTAR
(METER)
SKOR ZONASI
1 0 - 250 100
2 250 - 500 99
3 500 - 750 98
4 750 - 1,000 97
5 1,000 - 1,250 96
6 1,250 - 1,500 95
7 1,500 - 1,750 94
8 1,750 - 2,000 93
9 2,000 - 2,250 92
10 2,250 - 2,500 91
.. …. - …. ….
100 24,750 - 25,000 1
Pemodelan data prestasi dapat dilihat pada tabel berikut :
Tabel.3.4 Contoh Pemodelan Data Prestasi
Kualifikasi Kode
Bukan Siswa Prestasi 10
Juara 3 Tingkat Kab/Kota 20 Juara 2 Tingkat Kab/Kota 30 Juara 1 Tingkat Kab/Kota 40 Juara 3 Tingkat Provinsi 50 Juara 2 Tingkat Provinsi 60 Juara 1 Tingkat Provinsi 70 Juara 3 Tingkat Nasional 80 Juara 2 Tingkat Nasional 90 Juara 1 Tingkat Nasional 100 Pemodelan data rata-rata Nilai Akhir
Tabel 3.5 Model data nilai Akhir
Kategori Kualifikasi Label SMPN 17 TNA ( - σ) 4 SMPN 27 ( -σ) ≤ TNA ≤ 3 SMPN 29 ≤ TNA ( + σ) 2 SMPN 35 TNA ≥ ( + σ) 1
Data yang dimodelkan dalam penelitian ini yaitu zonasi PPDB dengan format CSV (Comma Delimited) yang dirubah kedalam format arff. Dataset tersebut kemudian dimodelkan dan hasilnya akan menjadi sumber data baru untuk klasifikasi menggunakan metode K-Nearest Neighbor.
BAB 4
HASIL DAN PEMBAHASAN
4.1 Pendahuluan
Pada bab ini akan dijelaskan data yang diperoleh dari hasil daftar nilai seleksi zonasi akademik Penerimaan Peserta Didik Baru (PPDB). Setelah dataset berhasil terkumpul kemudian dilakukan pemodelan data terlebih dahulu, pemodelan dilakukan pada atribut zonasi (jarak antar rumah dengan sekolah), prestasi dan nilai akhir. Setelah itu, jika seluruh data sudah dimodelkan dan diberi label maka dapat dilanjutkan dengan menyeleksi atau mengurangi data yang tidak relevan sehingga tidak ada atribut yang berisikan informasi yang tidak berguna dan informasi yang berlebih terdapat dalam atribut lainnya. Penentuan jumlah label klasifikasi dan pemodelan data rerata nilai akhir dilakukan dengan cara menghitung standar deviasi dan mean pada data rerata nilai akhir. Selanjutnya, data hasil klasifikasi dapat diprediksikan dan disimpulkan apakah dengan menggunakan metode K-NN dapat menghasilkan klasifikasi sesuai kriteria yang telah ditentukan dalam penelitian dibandingkan secara manual dalam menentukan pilihan sekolah terhadap calon siswa SMP Negeri di Kota Medan berdasarkan (distance) jarak terdekat.
4.2 Pengumpulan Dataset
Dalam pengumpulan dataset dilakukan dengan cara pengambilan data berdasarkan daftar riwayat penerimaan peserta didik baru pada sekolah SMP Negeri di Kota Medan TP 2017/2018. Penelitian ini menggunakan Ms.Excel dan Weka (Waikato Environment for Knowledge Analysis) dalam pengelompokan data dengan metode K- Nearest Neighbor.
4.2.1 Data Training
Sebelum dilakukan sebuah pengujian disiapkan terlebih dahulu data training yang disimpan kedalam CSV(Comma Delimited) kemudian dirubah kedalam format arff.
Pada gambar gambar 4.1 dibawah ini terlihat data training yang telah dirubah dalam format arff.
Gambar 4.1 perubahan format data training
Pada Gambar 4.1 dapat dilihat proses pengubahan data training pada dataset.
4.2.2 Data Testing
Untuk menguji data testing dapat diproses menggunakan format yang sama, namun pada kali ini dapat menyesuaikan.Proses penentuan nilai k dapat dilihat pada gambar 4.2 berikut ini :
Gambar 4.2 pengujian data testing
Pada Gambar 4.2 dapat dilihat proses pengujian data testing pada dataset, terdapat perubahan Atribut kategori yang masih kosong.
4.3 Hasil Pengujian dengan Menggunakan Algoritma K-Nearest Neighbor
Pengujian dilakukan dengan menggunakan perhitungan jarak menggunakan euclidean distance dan menggunakan atribut yang relevan. Sebelum melakukan pengujian pada fase ini, dilakukan pembersihan terhadap data-data yang tidak lengkap dan data tidak konsisten atau kosong. Pembersihan data dilakukan setelah proses integrasi sementara, penyeleksian data yang akan dibersihkan akan mengurangi jumlah data. Berikut merupakan jumlah data yang telah dibersihkan :
Tabel 4.1 Jumlah data hasil pembersihan
Data PPDB Jumlah data zonasi PPDB
Data Awal 1725
Data Tidak Konsisten 533
Jumlah Data Bersih 1192
Dalam pengujian ini menggunakan 126 data, setiap data testing akan di uji menggunakan metode K-Neirest Neighbor dengan menggunakan nilai k yang telah ditentukan yaitu, 3,5,10,15,25. Total data secara keseluruhan adalah 1192 data. Hasil pengujian dapat dilihat seluruhnya dibawah ini. Berdasarkan pada Tabel 4.1 yang telah dilakukan pembersihan terhadap data, dibawah ini merupakan contoh data riwayat sampel hasil PPDB yang telah dimodifikasi, kemudian akan dilakukan penentuan parameter yang akan menjadi atribut dalam proses pemodelan perhitungan distance terhadap data uji. Adapun pembersihan data dilakukan dengan menghilangkan atribut yang tidak digunakan serta mengurangi efek noise pada saat proses perhitungan.
Gambar 4.3 Data PPDB yang telah di modifikasi
Selanjutnya, memisahkan data menjadi testing set dan training dimaksudkan agar model nantinya diperoleh memiliki kemampuan generalisasi yang baik dalam melakukan klasifikasi data.
Tabel 4.2 Data Training
1 NISN B.IND MM IPA RERAT
A
NA 30%
ZON ASI
NA
70% Kategori
2
3 0051100583 89.2 93.4 93.3 90.9 81.8 100 70 SMP NEGERI 17 MEDAN 4 0061823267 89.2 92.5 93.3 90.0 81.0 99 69.3 SMP NEGERI 17 MEDAN 7 0069533570 89.2 92.5 89.9 89.1 80.2 98 68.6 SMP NEGERI 17 MEDAN 319 0065291316 84.2 79.1 88.7 84.0 75.6 89 84.0 SMP NEGERI 27 MEDAN 322 0066881449 71.5 84.0 72.8 76.1 68.5 88 76.1 SMP NEGERI 27 MEDAN 323 0065882294 82.4 74.4 83.5 80.1 72.1 87 80.1 SMP NEGERI 27 MEDAN 699 0069560962 91.5 89.5 88.9 90.0 81.0 93 65.1 SMP NEGERI 29 MEDAN 701 0069674596 84.3 83.9 80.9 83.0 74.7 96 67.2 SMP NEGERI 29 MEDAN 702 0068467423 92 92 81 88.3 79.5 85 59.5 SMP NEGERI 29 MEDAN
… ... …. …. …. ….. ….. …. …. ………
1193 0069443843 55.8 89 92.9 79.2 71.3 86 60.2 SMP NEGERI 35 MEDAN 1194 0055318476 79 84.7 82 81.9 73.7 85 59.5 SMP NEGERI 35 MEDAN
15% dari 1725 data awal digunakan untuk data testing dengan menggunakan analisis kinerja metode K-Nearest Neighbor dalam memprediksi sistem zonasi PPDB, sebelumnya data dinormalisasikan terlebih dahulu.
Berikut data Testing dapat dilihat pada tabel dibawah ini : Tabel 4.3 Data Testing
1 NISN B.IND MM IPA RERATA NA
30% ZONASI NA
70% Prediksi 2
3 0006964704 87 85 79.8 83.93 75.54 80 56 ?
4 0006964705 80 80 80.6 80.2 72.18 92 64.4 ?
5 0006964706 59.5 78.5 76.8 71.6 64.44 70 49 ?
6 0006964707 87.5 89.5 78.9 85.3 76.77 89 62.3 ?
7 0006964708 83.9 90.1 87.6 87.2 78.48 32 22.4 ?
8 0006964709 86.8 81.7 76.9 81.8 73.62 78 54.6 ?
9 0006964710 88.5 78.3 75 80.6 72.54 98 68.6 ?
10 0006964729 58.2 84.0 85.8 76.0 68.4 89 76.0 ?
11 0006967449 71.5 84.0 72.8 76.1 68.5 88 76.1 ?
13 0006964794 82.4 74.4 83.5 80.1 72.1 87 80.1 ?
… ... …. …. …. ….. ….. …. …. …
125 0006964783 55.8 89 92.9 79.2 71.3 86 60.2 ?
126 0006964776 79 84.7 82 81.9 73.7 85 59.5 ?
Pada Tabel 4.3 terlihat 126 dari 1194 data testing untuk hasil pengujian dengan model terbaik dari K-Nearest Neighbor. Kemudian dari data ini akan didapatkan kesimpulan sebuah data akan masuk ke dalam kategori keempat, ketiga, kedua, atau pertama berdasarkan nilai k yang telah di proses. Proses perhitungan K-Nearest Neighbor menggunakan persamaan Eulidean Distance. Sebagai sampel perhitungan data baru yang akan dihitung dapat diambil contoh pada data tabel 4.3 di atas sebagai berikut :
Tabel 4.4 Data Testing 1
B.IND MM IPA RERATA NA 30% ZONASI NA 70% Prediksi
87.0 85.0 79.8 83.93 75.54 80 56.0 ?
80.0 80.0 80.6 80.2 72.18 92 64.4 ?
59.5 78.5 76.8 71.6 64.44 70 49.0 ?
87.5 89.5 78.9 85.3 76.77 89 62.3 ?
Proses perhitungan dilakukan kesetiap data lama sehingga nantinya akan menghasilkan nilai jarak sesuai dengan jumlah data lama. Dari perhitungan tersebut diperoleh hasil jarak seperti pada Tabel 4.5 di bawah ini :
Menghitung jarak data testing terhadap jarak setiap data peserta dengan menggunakan Euclidean distance :
d(x,y) = √∑ ( )
Perhitungan distance data uji ke-1 dengan data training diurutkan berdasarkan jarak terdekat.
Tabel 4.5 Perhitungan jarak menggunakan Euclidean Distance
D1 = √( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 3,4735
D22 =√( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 8,3904
D136 =√( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 13,3142
D235 = √( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 15,3335
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D416 = √ = √
= 18,2571
D799 = √( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 23,4631
D1193 = √( ) ( ) ( ) ( ) ( ) ( ) ( )
= √ = √
= 45,4108
Perhitungan distance data uji ke-2 dengan data training diurutkan berdasarkan jarak terdekat.
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D1 =√
= √
= 1,5812
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D22 = √
= √
= 4,8667
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D136 = √
= √
= 7,8977
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D235 = √ = √ = 9,3443
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D416 =√
= √
= 11,7444
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D799 = √
= √
= 17,1864
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D1193 = √
= √
= 38,9150
Perhitungan distance data uji ke-3 dengan data training diurutkan berdasarkan jarak terdekat
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D1 =√
= √
= 24,1776
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D22 = √ = √
= 26,9542
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D136 = √
= √ = 31,8410
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D235 = √ = √
= 34,0985
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D416 =√
= √
= 33,9070
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D799 = √
= √
= 36,7548
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D1193 = √
= √
= 58,9242
Perhitungan distance data uji ke-4 dengan data training diurutkan berdasarkan jarak terdekat
= √( ) ( ) ( ) ( ) ( ) ( ) ( )
D1 =√
= √
= 3,3575