Prediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma Menggunakan metode Klasifikasi Naive Bayes

Teks penuh

(1)PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA MENGGUNAKAN METODE KLASIFIKASI NAÏVE BAYES SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika. Oleh: Artha Dian Sinaga 165314073. PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2020.

(2) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. STUDENTS GRADUATION PREDICTION AT THE FACULTY OF SCIENCE AND TECHNOLOGY OF THE UNIVERSITY OF SANATA DHARMA USING NAÏVE BAYES CLASSIFICATION THESIS Present as Partial Fulfillment of the Requirements to Obtain Sarjana Komputer Degree in Informatics Study Program. Created by : Artha Dian Sinaga 165314073. INFORMATICS STUDY PROGRAM INFORMATICS DEPARTMENT FACULTY OF SCIENCE OF TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2020.

(3) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. HALAMAN PERSEMBAHAN “I can do all this through Him who gives me strength.” (Philippians 4:13). iii.

(4) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. ABSTRAK Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke dalam Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah satu standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan tepat waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester dengan total beban studi minimal 144 SKS. Penelitian ini mencoba untuk memprediksi kelulusan mahasiswa agar pihak akademik dapat meminimalisir mahasiswa yang lulus tidak tepat waktu. Data yang digunakan dalam penelitian ini adalah data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai 2018. Metode yang digunakan adalah metode klasifikasi dengan menerapkan algoritma naïve bayes. Percobaan dilakukan pada 1630 data menggunakan 3Fold Cross Validation dengan hasil akurasi tertinggi sebesar 80.5402%.. Kata kunci: Kelulusan, Naive Bayes, klasifikasi, K-Fold Cross Validation, Confusion Matrix.. vi.

(5) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. ABSTRACT Graduation of college students is one of the factors that is included into college’s internal quality assurance standards (SPMI). One of the standards used for college in higher education is for the institution to produce students that graduated on time where they finished their college courses with maximum 8 semesters and minimum 144 credit hours. The objective of this research was to evaluate and predict college student’s graduation rate for the academic administration to utilize this information and minimize the rate of students who were not graduating on time. The data used for this research derived from 2010-2018 graduation data of students from the Faculty of Science and Technology of The University of Sanata Dharma. The method used was the classification method using the naïve bayes algorithm. The testing was done on 1630 data using 3-fold cross validation which resulted in the highest result of 80.5402%. Key words: Graduation, Naïve Bayes, Clarification, K-Fold Cross Validation, Confusion Matrix.. vii.

(6) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. KATA PENGANTAR Puji dan syukur saya ucapkan kepada Tuhan Yesus atas berkat dan rahmatnya sehingga penulis dapat menyelesaikan skripsi ini dengan baik. Penulis menyadari bahwa penelitian ini tidak dapat terselesaikan dengan baik tanpa bimbingan dan dukungan dari berbagai pihak. Oleh karena itu, penulis ingin menyampaikan ucapan terima kasih kepada semua pihak yang telah membantu dalam penyusunan skripsi ini terutama kepada: 1. Kedua orang tua, kakak, dan adik tercinta yang senantiasa memberikan dukungan dan doa kepada penulis. 2. Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. selaku dosen pembimbing skripsi saya yang dengan sabar memberikan masukkan dan membimbing saya dalam penyusunan skripsi. 3. Bapak Robertus Adi Nugroho S.T., M.Eng., selaku Ketua Program Studi Informatika Universitas Sanata Dharma Yogyakarta. 4. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta. 5. Ibu Agnes Maria Polina S.Kom., M.Sc. selaku Dosen Pembimbing Akademik yang sering memberikan perhatian dan masukkan selama perkuliahan. 6. Valen, Dodi, Hananto, Caroline, Alfri, Indah, Yiyin, Yuni, Arsa, Maretha yang membantu dan menemani penyusunan skripsi. 7. Sahabat-sahabat yang saling menguatkan ketika sama-sama merasa down yaitu Gabby, Meisi, Dila, Jason, dan Chanley. 8. Teman-teman pejuang skripsi yang saling memberikan semangat yaitu Fica, Retno, Lauren, Clara, Vicky, dan Winda. 9. Teman-teman Informatika angkatan 2016 yang saling menyemangati dalam menyelesaikan skripsi. 10. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis dalam menyelesaikan skripsi ini.. viii.

(7) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR ISI HALAMAN PERSETUJUAN PEMBIMBING ...................................................... i HALAMAN PENGESAHAN ................................................................................ ii HALAMAN PERSEMBAHAN ............................................................................ iii PERNYATAAN KEASLIAN KARYA ................................................................ iv LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ................................ v ABSTRAK ............................................................................................................. vi ABSTRACT ............................................................................................................ vii KATA PENGANTAR ......................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL ................................................................................................. xii DAFTAR GAMBAR ........................................................................................... xiii BAB I PENDAHULUAN ....................................................................................... 1 1.1 Latar Belakang .............................................................................................. 1 1.2 Rumusan Masalah ......................................................................................... 2 1.3 Tujuan............................................................................................................ 2 1.4 Manfaat .......................................................................................................... 2 1.5 Batasan Masalah ............................................................................................ 2 1.6 Metodologi Penelitian ................................................................................... 3 1.7 Sistematika Penulisan .................................................................................... 3 BAB II LANDASAN TEORI ................................................................................. 5 2.1 Kelulusan Studi Mahasiswa .......................................................................... 5 2.2 Data Mining .................................................................................................. 6 2.2.1 Pengertian Data Mining.......................................................................... 6 2.2.2 Pengelompokkan Data Mining ............................................................... 8. ix.

(8) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 2.2.3 Klasifikasi ............................................................................................... 9 2.2.4 Naïve bayes ........................................................................................... 10 2.3 Information Gain ......................................................................................... 11 2.4 Normalisasi Min-Max .................................................................................. 12 2.5 Cross Validation .......................................................................................... 13 2.6 Confusion Matrix......................................................................................... 13 BAB III METODE PENELITIAN ....................................................................... 15 3.1 Gambaran Umum ........................................................................................ 15 3.1.2 Data ....................................................................................................... 17 3.1.3 Preprocessing ....................................................................................... 19 3.1.3.1 Data Cleaning ................................................................................ 19 3.1.3.2 Data Selection ................................................................................ 20 3.1.3.3 Data Transformation ..................................................................... 21 3.1.4 Modelling Naïve Bayes ......................................................................... 22 3.1.5 Akurasi .................................................................................................. 26 3.2 Peralatan Penelitian ..................................................................................... 27 3.3 Perancangan Interface ................................................................................. 28 BAB IV HASIL DAN ANALISIS ....................................................................... 30 4.1 Preprocessing .............................................................................................. 30 4.1.1 Data Cleaning....................................................................................... 30 4.1.2 Data Selection ....................................................................................... 30 4.1.3 Data Transformation ............................................................................ 31 4.2 Klasifikasi.................................................................................................... 32 4.3 Uji Data ....................................................................................................... 36 4.3.1 Uji Data Tunggal .................................................................................. 36. x.

(9) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 4.3.2 Uji Data Kelompok ............................................................................... 37 BAB V PENUTUP ............................................................................................... 39 5.1 Kesimpulan.................................................................................................. 39 5.2 Saran ............................................................................................................ 39 DAFTAR PUSTAKA ........................................................................................... 40 LAMPIRAN .......................................................................................................... 42. xi.

(10) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR TABEL Tabel 2. 1 Confusion Matrix ................................................................................. 14 Tabel 3. 1 Contoh Data Awal ............................................................................... 17 Tabel 3. 2 Contoh Data Training .......................................................................... 22 Tabel 3. 3 Contoh Data Testing ............................................................................ 22 Tabel 3. 4 Prior Kelas ........................................................................................... 23 Tabel 3. 5 Mean dan Standar Deviasi IPS 2 ......................................................... 23 Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4 ........................................ 23 Tabel 3. 7 Mean dan Standar Deviasi Lama TA ................................................... 24 Tabel 3. 8 Probabilitas Data Testing No. 9 ........................................................... 24 Tabel 3. 9 Probabilitas Data Testing No.10 .......................................................... 24 Tabel 3. 10 Probabilitas Data Testing No. 11 ....................................................... 24 Tabel 3. 11 Probabilitas Data Testing No. 12 ....................................................... 25 Tabel 3. 12 Posterior Fold Pertama ....................................................................... 25 Tabel 3. 13 Hasil Klasifikasi Fold Pertama .......................................................... 25 Tabel 3. 14 Hasil Klasifikasi Fold Kedua ............................................................. 26 Tabel 3. 15 Hasil Klasifikasi Fold Ketiga ............................................................. 26 Tabel 3.16 Confusion Matrix Fold Pertama.......................................................... 26 Tabel 3. 17 Confusion Matrix Fold Kedua ........................................................... 27 Tabel 3. 18 Confusion Matrix Fold Ketiga ........................................................... 27 Tabel 4. 1 Hasil Perankingan Atribut.................................................................... 30 Tabel 4. 2 Contoh Transformasi Data Awal ......................................................... 31 Tabel 4. 3 Contoh Transformasi Data Akhir......................................................... 31 Tabel 4. 4 Hasil Pengujian Akurasi ...................................................................... 32 Tabel 4. 5 Data Testing Uji Data Tunggal ............................................................ 36 Tabel 4. 6 Data Testing Uji Data Kelompok ........................................................ 37. xii.

(11) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR GAMBAR Gambar 2. 1 Knowledge Discovery Database (KDD) ............................................ 6 Gambar 2. 2 3-Fold Cross Validation ................................................................... 13 Gambar 3. 1 Diagram Blok ................................................................................... 15 Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning ................................... 19 Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning .................................... 20 Gambar 3. 4 Contoh Data Selection ..................................................................... 20 Gambar 3. 5 Contoh Data Pakai ........................................................................... 21 Gambar 3. 6 Perancangan Interface ...................................................................... 28 Gambar 3. 7 Confusion Matrix Fold Pertama ....................................................... 34 Gambar 3. 8 Confusion Matrix Fold Kedua ......................................................... 35 Gambar 3. 9 Confusion Matrix Fold Ketiga ......................................................... 35 Gambar 3. 10 Akurasi Total.................................................................................. 35 Gambar 4. 1 Akurasi Rata-rata ............................................................................. 34 Gambar 4. 2 Uji Data Tunggal Tepat .................................................................... 36 Gambar 4. 3 Uji Data Tunggal Tidak Tepat ......................................................... 37 Gambar 4. 4 Upload Uji Data Kelompok ............................................................. 38 Gambar 4. 5 Hasil Uji Data Kelompok ................................................................. 38. xiii.

(12) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB I PENDAHULUAN 1.1 Latar Belakang Kelulusan mahasiswa merupakan salah satu bidang yang termasuk ke dalam Standar Penjaminan Mutu Internal (SPMI) suatu perguruan tinggi. Salah satu standar yang ditetapkan oleh perguruan tinggi untuk menghasilkan lulusan tepat waktu yaitu mahasiswa dapat menempuh kuliah maksimal 8 semester dengan total beban studi minimal 144 SKS. Dalam proses akreditasi suatu perguruan tinggi, salah satunya di Universitas Sanata Dharma, ketepatan kelulusan mahasiswa merupakan hal yang penting karena dapat mempengaruhi penilaian akreditasi. Untuk mengurangi jumlah mahasiswa yang tidak lulus tepat waktu, perlu adanya suatu sistem yang dapat digunakan untuk memprediksi kelulusan mahasiswa. Sistem tersebut memerlukan data atau informasi untuk menentukan mahasiswa tersebut lulus tepat waktu atau tidak. Jika kelulusan mahasiswa dapat diprediksi sejak awal, maka pihak akademik dapat menerapkan suatu kebijakan untuk meminimalisir jumlah mahasiswa yang tidak lulus tepat waktu. Salah. satu. cara. memanfaatkan. data. mahasiswa. adalah. dengan. mengelolahnya menggunakan teknik data mining untuk menghasilkan informasi yaitu prediksi kelulusan mahasiswa. Teknik data mining yang akan digunakan adalah metode klasifikasi dengan menggunakan algoritma naïve bayes. Dalam dunia pendidikan, algoritma naïve bayes telah banyak digunakan pada beberapa penelitian, salah satunya yang dilakukan oleh Yuda Septian Nugroho (2014) dengan judul “Data Mining Menggunakan Algoritma Untuk Klasifikasi Kelulusan Mahasiswa Universitas Dian Nuswantoro”. Pada penelitian tersebut, atribut yang digunakan adalah NIM, nama, jenjang, program studi, nama provinsi, jenis kelamin, SKS yang telah ditempuh, IPK, dan tahun kelulusan. Berdasarkan proses klasifikasi tersebut dengan menggunakan algoritma naïve bayes, dihasilkan tingkat akurasi sebesar 82,08%.. 1.

(13) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2. Dari hasil penelitian tersebut, maka penulis juga ingin menggunakan metode klasifikasi dengan algoritma naïve bayes dalam memprediksi kelulusan mahasiswa karena penelitian yang telah dilakukan sebelumnya mendapatkan tingkat akurasi yang tergolong baik. 1.2 Rumusan Masalah 1. Bagaimana metode naïve bayes mampu dengan tepat memprediksi kelulusan mahasiswa? 2. Berapa hasil akurasi yang didapatkan dengan menggunakan metode naïve bayes? 1.3 Tujuan 1. Mampu memprediksi kelulusan mahasiswa secara tepat dengan menggunakan metode naïve bayes. 2. Mengetahui tingkat akurasi metode naïve bayes dalam memprediksi kelulusan mahasiswa. 1.4 Manfaat 1. Dapat memprediksi mahasiswa yang lulus tepat waktu dan tidak tepat waktu. 2. Dapat membantu pihak akademik dalam meminimalisir mahasiswa yang lulus tidak tepat waktu. 1.5 Batasan Masalah 1. Data hanya berasal dari mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai 2018. 2. Data yang digunakan dalam penelitian ini adalah data akademik dan data pribadi mahasiswa yang meliputi program studi, jenis kelamin, daerah asal, Indeks Prestasi Semester 1 sampai 4, jumlah SKS yang telah ditempuh pada saat semester 4, jumlah poin, lama tugas akhir, dan masa studi..

(14) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3. 1.6 Metodologi Penelitian Penelitian ini menggunakan beberapa tahap sebagai berikut: 1. Studi Pustaka Pada tahap ini, peneliti mempelajari teori-teori yang berkaitan dengan data mining dan algoritma naïve bayes melalui jurnal, buku, dan artikel. 2. Pengumpulan data Data yang diperoleh mempunyai beberapa atribut dan record. Data tersebut kemudian akan diintegrasikan dan dijadikan sebagai dataset yang akan diproses lebih lanjut. 3. Pengolahan awal data Pada tahap ini, data akan diseleksi dan dibersihkan dari noise. Selanjutnya data akan ditransformasi untuk mendapatkan bentuk atau format yang valid. 4. Pengujian model Model yang akan diuji pada tahap ini adalah dengan menggunakan algoritma naïve bayes dan beberapa metode lainnya. 5. Evaluasi dan validasi hasil Evaluasi pada model dilakukan pada tahap ini sebagai hasil untuk mengetahui tingkat akurasi. 1.7 Sistematika Penulisan Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu: BAB I PENDAHULUAN Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan, manfaat, batasan masalah, metodologi penelitian, dan sistematika penulisan..

(15) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4. BAB II LANDASAN TEORI Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar dalam penelitian klasifikasi dengan menggunakan algoritma naïve bayes. BAB III METODOLOGI PENELITIAN Bab ini berisi tentang gambaran umum sistem yang akan dibangun, data yang digunakan dan tahap-tahap prediksi kelulusan dengan menggunakan metode naïve bayes. BAB IV IMPLEMENTASI DAN ANALISA HASIL Bab ini menjelaskan tentang hasil dari perancangan sistem dan pengujian metode klasifikasi naïve bayes. BAB V PENUTUP Bab ini akan menjelaskan tentang hasil kesimpulan dari analisa dan saransaran untuk pengembangan lebih lanjut..

(16) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB II LANDASAN TEORI Bab ini akan menjelaskan secara singkat teori-teori yang digunakan pada penelitian, antara lain, kelulusan studi mahasiswa, data mining, k-fold cross validation dan confusion matrix. Teori-teori tersebut antara lain: 2.1 Kelulusan Studi Mahasiswa Kriteria kelulusan mahasiswa dari suatu program studi dirumuskan dalam bentuk Standar Kompetensi Lulusan yang yang terdapat dalam rancangan kurikulum. Secara khusus, Pasal 1 butir 4 Peraturan Pemerintah No. 19 tahun 2005 tentang Standar Nasional Pendidikan, menyebutkan bahwa “Standar Kompetensi Lulusan” adalah kualifikasi kemampuan lulusan yang mencakup sikap, pengetahuan, dan keterampilan. Pada suatu perguruan tinggi contohnya Universitas Sanata Dharma Fakultas Sains dan Teknologi, jumlah mahasiswa yang lulus tidak tepat waktu tergolong lebih banyak daripada mahasiswa yang lulus tepat waktu. Mahasiswa dapat dikatakan lulus tepat waktu jika mampu menyelesaikan masa studinya tidak lebih dari 4 tahun, sedangkan mahasiswa yang menyelesaikan masa studinya lebih dari 4 tahun termasuk dalam mahasiswa yang lulus tidak tepat waktu. Terdapat beberapa faktor yang mempengaruhi lama masa studi mahasiswa, diantaranya faktor eksternal dan internal. Faktor internal penyebab lamanya masa studi mahasiswa antara lain: (1) kuliah karena keterpaksaan dan (2) salah memilih jurusan. Sedangkan faktor eksternal penyebab lamanya masa studi mahasiswa antara lain: (1) terlalu menikmati kebebasan karena jauh dari orang tua, (2) terlalu aktif mengikut organisasi kemahasiswaan, (3) menekuni hobi secara berlebihan, (4) bekerja, dan (5) tidak adanya jaminan mendapatkan pekerjaan setelah lulus (Wahyu, 2010).. 5.

(17) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6. Menurut buku panduan akademik Universitas Sanata Dharma yang mengacu pada peraturan akademik Universitas Sanata Dharma tahun 2010, BAB VI, Pasal 30, mahasiswa dinyatakan lulus program sarjana apabila: a. Telah menyelesaikan 144 satuan kredit; b. Mencapai IPK sekurang-kurangnya 2,00; c. Proporsi nilai D tidak melebihi 15% dari jumlah satuan kredit program studi yang bersangkutan. d. Tidak ada nilai E; e. Mencapai nilai sekurang-kurangnya C untuk mata kuliah wajib Universitas yang diatur dengan SK Rektor. f. Lulus ujian akhir g. Memenuhi jumlah poin softskills yang ditetapkan Universitas 2.2 Data Mining 2.2.1 Pengertian Data Mining Data mining merupakan proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk, 2005).. Gambar 2.1 Knowledge Discovery Database (KDD) Han, Jiawei (2011).

(18) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 7. Data mining mengacu pada mining knowledge dari data dalam jumlah besar (Han & Kamber, 2006). Secara umum data mining dikenal dengan proses Knowledge Discovery from Data (KDD). Proses KDD sebagai berikut: 1. Pembersihan data (Data Cleaning). Proses pembersihan data atau data cleaning dilakukan untuk menghilangkan noise dan data yang tidak konsisten. 2. Integrasi data (Data Integration). Proses data integrasi adalah proses menggabungkan data dari sumber data yang berbeda. 3. Seleksi data (Data Selection). Seleksi data adalah proses memilih data atau atribut yang relevan untuk atribut ini. Pada tahap ini dilakukan analisis korelasi atribut data. Atribut – atribut data tersebut dicek apakah relevan untuk dilakukan penambangan data. 4. Transformasi data (Data Transformation). Transformasi. atau. data. transformation. proses. menggabungkan data ke dalam bank yang sesuai untuk ditambang. 5. Penambangan data (Data Mining). Langkah ini adalah langkah paling penting yaitu melakukan pengaplikasian metode yang tepat untuk pola data. 6. Evaluasi pola (Pattern Evaluation). Pada langkah ini dilakukan identifikasi pola dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting. 7. Presentasi pengetahuan (Knowledge Presentation). Pada langkah ini dilakukan proses penyajian pengetahuan dari hasil penambangan data. hasil klasifikasi data nasabah akan ditampilkan. ke. user/pengguna.. dalam. bentuk. yang. mudah. dipahami.

(19) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 8. 2.2.2 Pengelompokkan Data Mining Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan (Larose, 2005), yaitu: a. Deskripsi Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam data. b. Estimasi Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. c. Prediksi Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. d. Klasifikasi Dalam klasifikasi, terdapat target variabel kategori. Model data mining memeriksa serangkaian record yang besar, masing-masing record berisi informasi tentang target variabel serta serangkaian input atau prediktor variabel. e. Pengklusteran Clustering merupakan suatu metode untuk mencari dan mengelompokkan. data. yang. memiliki. kemiripan. karakteriktik (similarity) antara satu data dengan data yang lain. Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan (unsupervised). f. Asosiasi Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja..

(20) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9. Dalam melakukan proses data mining, terdapat teknik-teknik dengan 2 pendekatan yang berbeda yaitu supervised learning dan unsupervised learning. Berikut penjelasan dari supervised learning dan unsupervised learning (Jiawei, 2011). a. Supervised learning Supervised learning merupakan sebuah pendekatan yang pada umumnya disebut dengan teknik klasifikasi. Pada supervised learning, pembelajaran model berasal dari label dan juga data yang digunakan sebagai training. b. Unsupervised Learning Unsupervised learning merupakan sebuah pendekatan yang pada umumnya disebut dengan teknik klaster. Input yang digunakan pada unsupervised learning tidak diberi label kelas, biasanya pengguna teknik ini menggunakan teknik clustering untuk menemukan kelas pada data. Pada. penelitian. ini,. penulis. menggunakan. pendekatan. supervised learning dengan menerapkan metode klasifikasi dimana algoritma yang digunakan adalah algoritma naïve bayes. 2.2.3 Klasifikasi Klasifikasi adalah proses penemuan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui. Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu direpresentasikan dalam bentuk rule klasifikasi. Proses kedua adalah klasifikasi, dimana data tes digunakan untuk memperkirakan akurasi dari rule klasifikasi (Kamber & Han, 2006)..

(21) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 10. 2.2.4 Naïve Bayes Naïve bayes merupakan salah satu metode yang digunakan untuk pengklasifikasian sebuah data dengan berdasarkan teorema bayes dengan mengasumsikan bahwa suatu data memiliki sifat tidak saling terkait antar satu dengan yang lain atau disebut independent. Teknik penggunaan naïve bayes sangat sederhana dan cepat dengan penggunaan probabilistik. Algoritma ini menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuan Inggris Thomas Bayes yaitu memprediksi peluang di masa depan berdasarkan pengalaman sebelumnya (Tan & Kumar, 2006). Berikut persamaan dari teorema Bayes: 𝑃(𝐻|𝑋) =. 𝑃(𝑋|𝐻). 𝑃(𝐻) 𝑃(𝑋). (2.1). Keterangan : X. : Data dengan class yang belum diketahui. H. : Hipotesis data merupakan suatu class spesifik. P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posterior Probabilitas) P(H). : Probabilitas hipotesis H (prior probabilitas). P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X). : Probabilitas X. Atau dengan kata lain dapat ditulis: 𝑃𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =. 𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒. (2.2). Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan..

(22) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 11. Untuk klasifikasi dengan data kontinyu, digunakan rumus densitas gauss sebagai berikut: P(𝑋𝑖 = 𝑥𝑖 |𝑌 = 𝑌𝑗 ) =. 1 √2𝜋𝜎. −(𝑥𝑖−𝜇)2 𝑒 2(𝜎)2. (2.3). Keterangan : 𝑃. : Peluang. 𝑋𝑖. :. 𝑥𝑖. : Nilai atribut ke-i. 𝑌. : Kelas yang dicari. 𝜇. : mean, menyatakan rata-rata dari seluruh atribut. 𝜎. : Standar deviasi. Atribut ke-i. 2.3 Information Gain Information Gain merupakan metode seleksi fitur paling sederhana dengan melakukan perangkingan atribut dan banyak digunakan dalam aplikasi kategorisasi teks, analisis data microarray dan analisis data citra. (Chormunge & Jena, 2016). Information gain digunakan pada tahap preprocessing untuk mengurangi noise yang disebabkan oleh atribut-atribut yang tidak sesuai. Untuk menghitung information gain digunakan persamaan (2.4), persamaan (2.5) dan persamaan (2.6) sebagai berikut (Han et al., 2012): 𝑚. 𝑖𝑛𝑓𝑜(𝐷) = ∑. − 𝑃𝑖 𝑙𝑜𝑔2 (𝑃𝑖 ). 𝑖=1. Keterangan: 𝐷. : Jumlah seluruh sampel data. 𝑚. : Jumlah nilai yang ada pada kelas klasifikasi. 𝑖. : Maksimal nilai yang ada pada kelas klasifikasi. 𝑃𝑖. : Jumlah sampel untuk kelas i. (2.4).

(23) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 12. 𝑣. 𝑖𝑛𝑓𝑜𝐴 (𝐷) = 𝐸(𝐴) = ∑ 𝑗=1. |𝐷𝑗 | 𝑥 𝑖𝑛𝑓𝑜 (𝐷𝑖 ) |𝐷|. (2.5). Keterangan: 𝐴. : Atribut. 𝑣. : Suatu nilai yang mungkin untuk atribut A. 𝑗. : Maksimal nilai yang mungkin untuk atribut A. 𝐷. : Jumlah seluruh sampel data. 𝐷𝑗. : Jumlah sampel untuk nilai j. 𝐷𝑖. : Jumlah sampel untuk nilai i 𝐺𝑎𝑖𝑛(𝐴) = |𝑖𝑛𝑓𝑜(𝐷) − 𝑖𝑛𝑓𝑜𝐴 (𝐷)|. (2.6). Keterangan: 𝐴. : Atribut. 𝑖𝑛𝑓𝑜(𝐷). : Entropi untuk kelas D. 𝑖𝑛𝑓𝑜𝐴 (𝐷). : Entropi untuk kelas D pada atribut A. 2.4 Normalisasi Min-Max Tahap preprocessing lainnya ialah normalisasi data. Tujuan normalisasi data adalah untuk memberikan tiap atribut bobot yang sama. Contohnya data minA dan maxA adalah nilai minimum dan maksimum atribut. Normalisasi min-max memetakan nilai, vi, dari A ke v0 i dalam kisaran [minA baru, maks baru] (Han et al., 2012).Berikut rumus dari normalisasi min-max: 𝑉𝑖 =. 𝑋 − min(𝑋) (𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 ) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 max(𝑋) − min(𝑋). (2.7).

(24) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 13. Keterangan: 𝑋. : Data yang akan di normalisasi. Min(𝑋). : Jumlah minimum data. Max(𝑋). : Jumlah maksimum data. 𝑁𝑒𝑤_𝑚𝑖𝑛𝐴. : range minimum data. 𝑁𝑒𝑤_𝑚𝑎𝑥𝐴 : range maximum data 2.5 Cross Validation Pada pendekatan ini, setiap data digunakan dalam jumlah yang sama untuk pelatihan dan tepat satu kali untuk pengujian. Bentuk umum pendekatan ini disebut dengan k-fold cross validation, yang memecah set data menjadi k bagian set data dengan ukuran yang sama. Setiap kali berjalan, satu pecahan berperan sebagai data set data latih sedangkan pecahan lainnya menjadi set data latih. Prosedur tersebut dilakukan sebanyak k kali sehingga setiap data kesempatan menjadi data uji tepat satu kali dan menjadi data latih sebanyak k1 kali. Total error didapatkan dengan menjumlahkan semua error yang didapatkan dari k kali proses (Prasetyo, 2014).. Gambar 2.2 3-Fold Cross Validation Ketika pengujian dilakukan sebanyak k kali iterasi, maka rata-rata akurasi tiap pengujian akan dihitung untuk mendapatkan tingkat akurasi keseluruhan. Tingkat akurasi dapat dihasilkan dari perhitungan metode confusion matrix. 2.6 Confusion Matrix Confusion matrix adalah suatu metode yang digunakan untuk melakukan perhitungan akurasi pada konsep data mining. Evaluasi dengan confusion matrix.

(25) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14. menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi adalah persentase ketepatan record data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi (Jiawei, Kamber, & Pei, 2006). Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode pengujian confusion matrix yang dapat dilihat pada tabel berikut: Tabel 2.1 Confusion Matrix Kategori. Nilai Prediksi. Nilai Sebenarnya Benar. Salah. Benar. TP. FP. Salah. FN. TN. Keterangan: TP. : Klasifikasi bernilai benar menurut prediksi dan benar menurut nilai sebenarnya. FP. : Klasifikasi bernilai benar menurut prediksi dan salah menurut nilai Sebenarnya. FN. : Klasifikasi bernilai salah menurut prediksi dan benar menurut nilai sebenarnya. TN. : Klasifikasi bernilai salah menurut prediksi dan salah menurut nilai sebenarnya. Untuk menghitung tingkat akurasi digunakan rumus perhitungan sebagai berikut: 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 𝑇𝑃 + 𝑇𝑁 𝑥 100% 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁. (2.8).

(26) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB III METODE PENELITIAN Bab ini akan menjelaskan tentang gambaran umum sistem, peralatan penelitian, dan perancangan interface untuk prediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma menggunakan metode klasifikasi naïve bayes. 3.1 Gambaran Umum. Gambar 3.1 Diagram Blok Gambar 3.1 diatas merupakan proses sistem dalam mengolah data. Berikut alur sistem yang dibangun dengan menggunakan algoritma naïve bayes: 1. Sistem membaca file bertipe .xlsx atau .xls yang di-upload melalui direktori komputer. 2. File yang telah di-upload akan melalui tahap preprocessing untuk menghilangkan noise. Tahap preprocessing yang digunakan adalah data cleaning, data selection, dan data transformation. 3. Pada tahap data cleaning, data yang memiliki missing value akan dihapus dengan melakukan cek terhadap kolom/atribut, jika salah satu kolom atau lebih memiliki nilai kosong, maka baris data tersebut akan dihapus dari tabel.. 15.

(27) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16. 4. Pada tahap data selection, dilakukan seleksi atribut dimana atribut akan diranking menggunakan info gain untuk mendapatkan variasi atribut paling optimal, dan hasil perankingan akan dimasukkan secara manual pada program. 5. Pada tahap data transformation, tiap kolom/atribut yang ingin diubah ke nilai tertentu akan diambil untuk dilakukan transformasi data. Transformasi data dilakukan pada atribut masa studi dengan membuat kategori tepat dan tidak tepat, serta dilakukan normalisasi min-max pada atribut SKS semester 4 untuk mengubah rentang nilai dari 0 sampai 1. 6. Setelah data awal melalui tahap preprocessing, maka sistem akan menghasilkan dataset atau data yang siap dipakai untuk proses pembentukan model naïve bayes. 7. Kemudian dataset akan dibagi menjadi data training dan data testing berdasarkan 3-fold cross validation. Data tersebut memiliki 3 bagian set dimana 1/3 data akan dijadikan sebagai data testing dan 2/3 data akan digunakan sebagai data training. 8. Tahap selanjutnya adalah melakukan perhitungan untuk mencari probabilitas tiap atribut dan probabilitas kelas (prior). 9. Untuk mencari probabilitas atribut, tiap kolom pada data training akan dihitung mean dan standar deviasinya terlebih dahulu, kemudian probabilitas dihitung menggunakan rumus densitas gauss atau persamaan (2.3) berdasarkan nilai data testing. 10. Setelah probabilitas didapatkan, maka probabilitas tiap atribut akan dikali untuk menghitung likelihood berdasarkan kelas tepat dan tidak tepat. 11. Selanjutnya rumus naïve bayes pada persamaan (2.2) akan diterapkan untuk mencari nilai posterior dari kelas tepat dan tidak tepat dengan memasukkan nilai likelihood, probabilitas kelas/prior, dan nilai evidence. 12. Setelah nilai posterior tiap kelas didapatkan, maka hasil posterior tersebut akan dibandingkan untuk dicari nilai tertingginya, jika salah.

(28) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 17. satu kelas memiliki nilai posterior terbesar, maka kelas tersebut akan menjadi label dari data testing. Pada tahap ini model dari naïve bayes telah dibentuk. 13. Setelah model naïve bayes telah dibentuk, tahap selanjutnya adalah membandingkan hasil klasifikasi dengan label testing, kemudian menguji akurasi dengan menggunakan confusion matrix dengan menggunakan persamaan (2.8). 14. Selanjutnya akan dilakukan uji data tunggal dengan memasukkan data baru sebagai data test. Setelah melalui tahap perhitungan model naïve bayes, maka sistem akan menampilkan hasil prediksi yakni tepat atau tidak tepat. 3.1.2 Data Data awal yang digunakan merupakan data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma lulusan tahun 2010 sampai 2018 yang diambil dari BAPSI kampus 3 Universitas Sanata Dharma. Dari data tersebut diperoleh 1630 data record dan terdapat 10 atribut serta 1 kelas yang digunakan sebagain inputan dalam perhitungan metode klasifikasi naïve bayes. Atribut-atribut tersebut antara lain program studi, jenis kelamin, daerah asal, Indeks Prestasi Semester 1, Indeks Prestasi Semester 2, Indeks Prestasi Semester 3, Indeks Prestasi Semester 4, SKS yang telah ditempuh selama semester 1 sampai 4, poin, lama tugas akhir dan masa studi. Berikut merupakan contoh data awal yang belum melalui tahap preprocessing: Tabel 3.1 Contoh Data Awal No.. IPS 2. SKS S4. Lama TA. Masa studi. 1.. 1.55. 66. 2. 7. 2.. 3.47. 81. 1. 4. 3.. 2.55. 81. 7. 5.

(29) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18. 4.. 3.88. 81. 1. 4. 5.. 3.64. 79. 1. 4. 6.. 1.95. 78. 5. 6. 7.. 2.77. 83. 1. 6. 8.. 3.37. 81. 2. 4. 9.. 2.32. 65. 3. 5. 10.. 3.24. 77. 1. 4. 11.. 2.33. 69. 2. 5. 12.. 3.17. 83. 1. 4. 13.. 2.91. 2. 6. Berikut penjelasan masing-masing atribut yang digunakan pada penelitian ini: 1. Prodi. : Program studi atau disingkat prodi merupakan kesatuan rencana belajar yang digunakan sebagai pedoman jalannya pendidikan akademik yang penyelenggaraannya berdasarkan suatu kurikulum. Data prodi terdiri dari TM, TE, INF, dan MAT.. 2. JK. : JK merupakan singkatan dari jenis kelamin yang terdiri dari laki-laki dan perempuan.. 3. Daerah asal. : Daerah asal yang digunakan adalah nama asal provinsi mahasiswa.. 4. IPS 1. : Indeks Prestasi mahasiswa pada saat semester 1.. 5. IPS 2. : Indeks Prestasi mahasiswa pada saat semester 2.. 6. IPS 3. : Indeks Prestasi mahasiswa pada saat semester 3.. 7. IPS 4. : Indeks Prestasi mahasiswa pada saat semester 4.. 8. SKS S4. : Jumlah SKS yang telah ditempuh pada saat semester 4.. 9. Poin. : Jumlah poin kegiatan kemahasiswaan.. 10. Lama TA. : Lama pengerjaan tugas akhir mahasiswa dalam.

(30) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 19. satuan semester. 11. Masa studi. : Jangka waktu penyelesaian studi mahasiswa dalam satuan tahun.. 3.1.3 Preprocessing Pada tahap ini data akan melalui tahap preprocessing untuk menghilangkan noise sehingga sistem menghasilkan dataset yang siap dipakai untuk proses klasifikasi selanjutnya. Jenis Preprocessing yang ada pada sistem ini adalah data cleaning, data selection, dan data transformation. 3.1.3.1 Data Cleaning Proses pembersihan data dilakukan untuk menghilangkan noise dan data yang tidak konsisten. Jika terdapat nilai kosong pada salah satu atribut maka baris data tersebut akan dihapus atau dihilangkan dari tabel. Pada tabel 3.1 terdapat field kosong pada baris ke-13 yaitu atribut SKS semester 4, maka baris data tersebut akan dihapus dari tabel.. Gambar 3. 2 Contoh Data Sebelum Proses Data Cleaning Pada gambar 3.2 diatas, data awal yang telah di-upload ditampilkan pada tabel dan terdapat field kosong pada baris nomor 13 yaitu atribut SKS semester 4 sehingga sistem mengembalikan nilai nan..

(31) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20. Gambar 3. 3 Contoh Data Sesudah Proses Data Cleaning Pada gambar 3.3, setelah tombol preprocessing dijalankan, maka baris nomor 13 akan dihapus dari tabel dan menyisakan 12 data. 3.1.3.2 Data Selection Pada tahap seleksi data, semua atribut akan diranking dengan menerapkan metode information gain. Untuk mendapatkan hasil information gain, penulis menggunakan weka tools versi 3.9 dan jumlah atribut dengan akurasi tertinggi akan digunakan untuk proses klasifikasi selanjutnya. Pada tabel 3.1, contoh data awal memiliki tiga atribut dimana seluruh atribut tersebut digunakan untuk proses klasifikasi. Jumlah atribut akan dimasukkan secara manual dan menghasilkan tabel seperti gambar 3.4 berikut:. Gambar 3. 4 Contoh Data Selection.

(32) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 21. 3.1.3.3 Data Transformation Transformasi data adalah proses perubahan data ke dalam kategori atau nilai tertentu yang sesuai untuk proses data mining. Pada tahap ini data yang akan ditransformasikan adalah atribut SKS semester 4 dengan menggunakan normalisasi min-max dan atribut masa studi dengan mengkategorikan nilai menjadi 1 dan 0. a. Transformasi kelas masa studi Pada kelas masa studi terdapat nilai yang terdiri dari 2, 3, 4, 5, 6, 7, 8 dan 9. Nilai-nilai tersebut akan dikelompokkan menjadi 1 dan 0 atau tepat dan tidak tepat berdasarkan syarat berikut: •. Masa studi <= 4 tahun. :1. •. Masa studi > 4 tahun. :0. b. Normalisasi min-max SKS semester 4 Normalisasi min-max digunakan pada atribut SKS semester 4 karena atribut tersebut memiliki nilai yang rentangnya cukup jauh dibandingkan dengan atribut lainnya. Untuk melakukan proses normalisasi data, dilakukan perhitungan min-max dengan menggunakan persamaan (2.7). Setelah melalui tahap data cleaning, data selection, dan data transformation maka sistem menghasilkan data pakai sebagai berikut:. Gambar 3. 5 Contoh Data Pakai.

(33) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 22. 3.1.4 Modelling Naïve Bayes Dalam tahap pembentukan model, data yang telah melalui tahap preprocessing akan dibentuk modelnya terlebih dahulu dengan menggunakan algoritma naïve bayes. Sebelum masuk ke perhitungan modelling naïve bayes, data pakai dibagi menjadi 3 bagian terlebih dahulu dengan menggunakan metode 3-fold cross validation. Selanjutnya 2/3 data partisi tersebut akan digunakan sebagai data training dan 1/3 lainnya akan digunakan sebagai data testing. Berikut contoh pembagian data training dan data testing pada fold pertama: Tabel 3. 2 Contoh Data Training No.. IPS 2. SKS S4. Lama TA. Masa Studi. 1.. 1.55. 0.777777778. 2. 0. 2.. 3.47. 0.722222222. 1. 1. 3.. 2.55. 1. 7. 0. 4.. 3.88. 0.888888889. 1. 1. 5.. 3.64. 0. 1. 1. 6.. 1.95. 0.666666667. 5. 0. 7.. 2.77. 0.222222222. 1. 0. 8.. 3.37. 1. 2. 1. Tabel 3. 3 Contoh Data Testing No.. IPS 2. SKS S4. Lama TA. Masa Studi. 9.. 2.32. 0.055555556. 3. 0. 10.. 3.24. 0.888888889. 1. 1. 11.. 2.33. 0.888888889. 2. 0. 12.. 3.17. 0.888888889. 1. 1. Setelah data training dan data testing didapatkan, selanjutnya adalah mencari prior dan probabilitas tiap atribut. Pada data pakai, atribut.

(34) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 23. yang digunakan adalah IPS 2, SKS semester 4, dan lama tugas akhir dimana nilai tiap atribut bersifat kontinu, maka untuk mencari probabilitas atributatribut tersebut, digunakan perhitungan mean dan standar deviasi terlebih dahulu. Tabel 3. 4 Prior Kelas Masa studi. P(masa studi). 1. 4/8. 0. 4/8. Untuk menghitung mean, digunakan rumus sebagai berikut: 𝑥̅ =. 𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖 𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎. (3.1). Untuk menghitung standar deviasi, digunakan rumus sebagai berikut:. 𝑆= √. ∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 𝑛−1. (3.2). Berikut hasil perhitungan mean dan standar deviasi tiap atribut: Tabel 3. 5 Mean dan Standar Deviasi IPS 2 IPS 2 Mean Standar Deviasi. Tepat 3.59 1.377717902. Tidak Tepat 2.205 1.427983203. Tabel 3. 6 Mean dan Standar Deviasi SKS Semester 4 SKS S4 Mean Standar Deviasi. Tepat 0.861111111 0.435025813. Tidak Tepat 0.666666667 0.452515562.

(35) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 24. Tabel 3. 7 Mean dan Standar Deviasi Lama TA Lama TA Mean Standar Deviasi. Tepat 1.25 1.841115391. Tidak Tepat 3.75 1.872792819. Jika mean dan standar deviasi telah dihitung, selanjutnya menggunakan data testing pada tabel 3.5 untuk mencari nilai probabilitas tiap atribut. Hasil akan dihitung berdasarkan persamaan (2.3) atau menggunakan rumus densitas gauss dengan memasukkan mean, standar deviasi, dan nilai data testing. Berikut hasil probabilitas tiap atribut berdasarkan data testing: Tabel 3. 8 Probabilitas Data Testing No. 9 Data testing no.9. Tepat. Tidak Tepat. IPS 2. 0.189334928. 0.278470144. SKS S4. 0.377385952. 0.613584785. lama TA. 0.137924966. 0.196605123. Tabel 3. 9 Probabilitas Data Testing No.10 Data testing no.10. Tepat. Tidak Tepat. IPS 2. 0.280372566. 0.214838644. SKS S4. 0.463987358. 0.69365332. lama TA. 0.214696645. 0.072478771. Tabel 3. 10 Probabilitas Data Testing No. 11 Data testing no.11. Tepat. TidakTepat. IPS 2. 0.190600971. 0.278306316. SKS S4. 0.405558222. 0.641024052. lama TA. 0.199432008. 0.137662238.

(36) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 25. Tabel 3. 11 Probabilitas Data Testing No. 12 Data testing no.12. Tepat. TidakTepat. IPS 2. 0.276419863. 0.222341729. SKS S4. 0.509170704. 0.641024052. lama TA. 0.214696645. 0.072478771. Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan, nilai posterior untuk kelas tepat dan tidak tepat akan dicari berdasarkan data testing dengan menggunakan persamaan (2.2). Jika salah satu posterior kelas memiliki nilai paling tinggi, maka kelas pada posterior tersebut adalah label dari data testing yang diuji. Berikut hasil perhitungan naïve bayes berdasarkan persamaan (2.2): Tabel 3. 12 Posterior Fold Pertama Posterior. Tepat. Tidak Tepat. Data testing no. 9. 0.004927531. 0.016796471. Data testing no. 11. 0.013964871. 0.005400521. Data testing no. 12. 0.007708026. 0.012279543. Data testing no. 13. 0.015108728. 0.005165069. Setelah melakukan perhitungan yang sama pada data testing fold kedua dan ketiga, maka didapatkan hasil klasifikasi sebagai berikut: Tabel 3. 13 Hasil Klasifikasi Fold Pertama No.. IPS 2. SKS S4. Lama TA. Masa Studi. Klasifikasi. 9.. 2.32. 0.2814. 3. 0. 0. 10.. 3.24. 0.3533. 1. 1. 1. 11.. 2.33. 0.3054. 2. 0. 0. 12.. 3.17. 0.3892. 1. 1. 1.

(37) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 26. Tabel 3. 14 Hasil Klasifikasi Fold Kedua No.. IPS 2. SKS S4. Lama TA. Masa Studi. Klasifikasi. 5.. 3.64. 0.3653. 1. 1. 1. 6.. 1.95. 0.3593. 5. 0. 0. 7.. 2.77. 0.3892. 1. 0. 1. 8.. 3.37. 0.3772. 2. 1. 1. Tabel 3. 15 Hasil Klasifikasi Fold Ketiga No.. IPS 2. SKS S4. Lama TA. Masa Studi. Klasifikasi. 1.. 1.55. 0.2874. 2. 0. 0. 2.. 3.47. 0.3772. 1. 1. 1. 3.. 2.55. 0.3772. 7. 0. 0. 4.. 3.88. 0.3772. 1. 1. 1. 3.1.5 Akurasi Untuk mencari hasil akurasi dari hasil perhitungan naïve bayes, digunakan perhitungan confusion matrix yakni dengan menjumlahkan data yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian dilakukan sebanyak 3 kali sehingga menghasilkan akurasi sebagai berikut: Tabel 3.16 Confusion Matrix Fold Pertama Masa Studi. Tepat. Tidak Tepat. Tepat. 2. 0. Tidak Tepat. 0. 2. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 2+2 𝑥 100% = 100% 2 + 0 + 0 + 2.

(38) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 27. Tabel 3. 17 Confusion Matrix Fold Kedua Masa Studi. Tepat. Tidak Tepat. Tepat. 2. 0. Tidak Tepat. 1. 1. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 2+1 𝑥 100% = 75% 2 + 0 + 1 + 1. Tabel 3. 18 Confusion Matrix Fold Ketiga Masa Studi. Tepat. Tidak Tepat. Tepat. 2. 0. Tidak Tepat. 0. 2. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 2+2 𝑥 100% = 100% 2 + 0 + 0 + 2. Setelah mendapatkan hasil akurasi tiap pengujian, selanjutnya hasil akurasi tersebut dihitung rata-ratanya untuk mendapatkan tingkat akurasi keseluruhan. Berikut tingkat akurasi keseluruhan dengan menggunakan rumus rata-rata: 𝑇𝑖𝑛𝑔𝑘𝑎𝑡 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 100 + 75 + 100 = 91,6% 3. 3.2 Peralatan Penelitian Penelitian ini menggunakan beberapa peralatan untuk membangun sistem, yaitu sebagai berikut: 1. Perangkat keras a. Merk. : Asus. b. Type. : X505Z. c. Processor. : AMD Quad Core R5, 3.6 GHz. d. RAM. : 8,00 GB. e. HDD. : 1 TB.

(39) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 28. 2. Perangkat Lunak a. Windows 10 Home b. Microsoft Excel 2013 c. Weka Tools 3.9 d. Matlab R2014B 3.3 Perancangan Interface. Gambar 3.6 Perancangan Interface Pada perancangan interface yang dibuat, terdapat bagian untuk pembentukan model dan uji data. Untuk membuat model, terdapat tombol upload pada area 2 untuk membuka file excel dari direktori komputer dan data yang dipilih akan ditampilkan dalam bentuk tabel pada area 1. Sebelum masuk pada tahap preprocessing terdapat field pada area 3 untuk memasukkan jumlah atribut yang akan digunakan. Kemudian tombol preprocessing pada area 5 akan menghasilkan dataset yang ditampilkan pada area 4. Setelah data hasil preprocessing ditampilkan, tombol hitung pada area 7 akan menghitung tingkat akurasi dan menampilkannya pada area 6. Kemudian hasil confusion matrix dari tiap pengujian akan ditampilkan pada area 8, area 9, dan area 10. .. Untuk melakukan uji data tunggal, data tiap atribut diinputkan satu persatu terlebih dahulu di area 13. Kemudian ketika tombol klasifikasi pada area 14 dijalankan, maka hasil prediksi masa studi yakni tepat atau tidak tepat akan.

(40) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 29. ditampilkan pada area 15. Ketika tombol hapus pada area 16 dijalankan, maka isi dari tiap field uji data tunggal akan dihapus. Untuk melakukan uji data dengan data yang berjumlah banyak, maka pengguna melakukan upload data terlebih dahulu pada area 17 dan hasil data akan ditampilkan di area 11. Setelah itu ketika tombol klasifikasi pada area 18 dijalankan, hasil klasifikasi tiap data akan ditampilkan pada area 12..

(41) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB IV HASIL DAN ANALISIS Bab ini akan membahas hasil implementasi dari sistem yang telah dibuat serta menganalisa hasil pengujian yang telah dilakukan. 4.1 Preprocessing 4.1.1 Data Cleaning Pada tahapan data cleaning, baris data yang memiliki missing value akan dihapus dari tabel sehingga tidak terdapat data kosong. Dari data yang berjumlah 1630, terdapat satu data yang mengandung nilai kosong. Karena jumlah data yang bernilai kosong hanya sebesar 0,06135%, maka baris data tersebut dihapus dari tabel. Penelitian ini hanya menggunakan data yang memiliki nilai pada setiap atribut agar tidak terdapat noise pada saat proses klasifikasi. 4.1.2 Data Selection Tahap ini akan melakukan seleksi atribut dengan menggunakan Weka Tools 3.9 dan hasil seleksi atribut didapatkan berdasarkan infomation gain dengan hasil sebagai berikut: Tabel 4. 1 Hasil Perankingan Atribut Ranking. Atribut. 1. SKS semester 4. 2. Lama tugas akhir. 3. IPS 2. 4. IPS 3. 5. IPS 4. 6. IPS 1. 7. Prodi. 8. Poin. 30.

(42) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 31. 9. Daerah asal. 10. Jenis kelamin. 4.1.3 Data Transformation Pada tahap ini, atribut yang memiliki rentang nilai yang jauh atau tidak seimbang terhadap atribut lain akan ditransformasi menggunakan normalisasi min-max. Salah satu atribut yang rentang nilainya cukup jauh adalah SKS Semester 4 dengan nilai terendah yaitu 18 dan nilai tertinggi yaitu 185. Kemudian nilai dari atribut masa studi akan diubah menjadi 1 dan 0, dimana nilai 1 merupakan masa studi <= 4 tahun dan nilai 0 merupakan masa studi > 4 tahun. Berikut contoh data awal pada tahap transformasi data: Tabel 4. 2 Contoh Transformasi Data Awal No.. SKS Semester 4. Masa Studi. 1.. 66. 5. 2.. 81. 4. 3.. 107. 5. Setelah melalui tahap transformasi data, atribut SKS semester 4 dan masa studi akan menghasilkan contoh data akhir seperti pada tabel 4.4 berikut: Tabel 4. 3 Contoh Transformasi Data Akhir No.. SKS Semester 4. Masa Studi. 1.. 0.2874. 0. 2.. 0.3772. 1. 3.. 0.5329. 0. Keterangan: a. Masa studi = 1 : Tepat b. Masa studi = 0 : Tidak Tepat.

(43) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 32. 4.2 Klasifikasi Setelah melalui tahap preprocessing, sistem akan menghasilkan dataset atau data pakai dengan jumlah keseluruhan yaitu 1629 data. Penelitian ini menggunakan seluruh atribut yang berjumlah 10 untuk diuji pada proses klasifikasi. Penulis mencoba melakukan variasi terhadap tiap atribut untuk mencari hasil akurasi yang optimal dan atribut dengan hasil paling optimal akan digunakan pada uji data tunggal. Variasi atribut akan diurut berdasarkan hasil ranking atribut pada tabel 4.3. Pengujian dilakukan menggunakan 3-fold cross validation dengan membagi data menjadi 3 bagian dimana 2/3 data akan menjadi data training dan 1/3 data akan menjadi data testing. Berikut merupakan hasil variasi dan akurasi dari tiap atribut: Tabel 4. 4 Hasil Pengujian Akurasi Jumlah Atribut. Nama Atribut. Akurasi. 1. SKS semester 4. 66.1142%. 2 3. 4. 5. 6. 7. SKS semester 4 lama tugas akhir SKS semester 4 lama tugas akhir IPS 2 SKS semester 4 lama tugas akhir IPS 2 IPS 3 SKS semester 4 lama tugas akhir IPS 2 IPS 3 IPS 4 SKS semester 4 lama tugas akhir IPS 2 IPS 3 IPS 4 IPS 1 SKS semester 4 lama tugas akhir IPS 2. 80.4788% 80.5402%. 79.6808%. 78.9441%. 78.0233%. 80.3560%.

(44) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 33. 8. 9. 10. IPS 3 IPS 4 IPS 1 prodi SKS semester 4 lama tugas akhir IPS 2 IPS 3 IPS 4 IPS 1 Prodi poin SKS semester 4 lama tugas akhir IPS 2 IPS 3 IPS 4 IPS 1 Prodi poin daerah asal SKS semester 4 lama tugas akhir IPS 2 IPS 3 IPS 4 IPS 1 Prodi poin daerah asal jenis kelamin. 80.1150%. 79.8036%. 79.9263%. Tabel 4.6 merupakan hasil akurasi dari 10 kali percobaan terhadap variasi atribut. Setelah penulis melakukan percobaan tersebut, didapatkan hasil akurasi yang berbeda-beda pada tiap variasi atribut dengan tingkat akurasi tertinggi sebesar 80.5402% dan akurasi terendah sebesar 66.1142%. Tingkat akurasi tertinggi terdapat pada atribut berjumlah 3 yaitu SKS semester 4, lama tugas akhir, dan IPS 2 sedangkan tingkat akurasi terendah terdapat pada atribut yang berjumlah 1 yaitu SKS semester 4. Hal ini menunjukkan bahwa atribut SKS semester 4, lama tugas akhir, dan IPS 2 merupakan variasi atribut paling optimal dan sudah tepat dalam memprediksi kelulusan mahasiswa karena memiliki tingkat akurasi paling baik..

(45) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 34. Berdasarkan penelitian ini, jenis atribut yang baik dalam menentukan kelulusan adalah atribut dengan tipe numerik. Hal ini dapat dilihat dari hasil ranking atribut dimana atribut bertipe numerik berada diatas atribut bertipe kategorik. Grafik tingkat akurasi tiap variasi atribut akan ditampilkan pada gambar 4.1 berikut:. Akurasi 90.00%. Tingkat Akurasi. 85.00% 80.00% 75.00% 70.00% 65.00% 60.00% 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Jumlah Atribut. Gambar 4. 1 Akurasi Rata-rata Berikut hasil confusion matrix dengan menggunakan 3 atribut untuk 3-fold cross validation:. Gambar 3. 7 Confusion Matrix Fold Pertama. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 255 + 184 𝑥100% = 80.8471% 255 + 58 + 46 + 184.

(46) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 35. Gambar 3. 8 Confusion Matrix Fold Kedua. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 269 + 40 𝑥100% = 83.2413% 269 + 40 + 51 + 183. Gambar 3. 9 Confusion Matrix Fold Ketiga. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =. 264 + 64 𝑥100% = 77.5322% 264 + 64 + 58 + 157. Gambar 3. 10 Akurasi Total. 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 𝑇𝑜𝑡𝑎𝑙 =. 80.8471 + 83.2413 + 77.5322 𝑥100% = 80.5402% 3.

(47) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 36. 4.3 Uji Data 4.3.1 Uji Data Tunggal Pada tahap uji data tunggal, sistem akan menentukan hasil klasifikasi berdasarkan data yang dimasukkan oleh pengguna. Untuk melakukan validasi, penulis menggunakan model yang telah dibentuk dari pengujian pertama atau fold pertama. Data training yang digunakan adalah 2/3 dari jumlah data dan data testing yang digunakan adalah 1/3 dari jumlah data dimana data testing berada pada set bawah. Inputan yang digunakan dalam proses klasifikasi hanya atribut dengan tingkat akurasi tertinggi yaitu SKS semester 4, lama tugas akhir, dan IPS 2. Berikut merupakan dua dari data testing yang akan diuji: Tabel 4. 5 Data Testing Uji Data Tunggal No.. IPS 2. SKS S4. Lama TA. Masa Studi. 1.. 3.17. 81. 1. 1. 2.. 3.00. 78. 3. 0. a. Data 1. Gambar 4. 2 Uji Data Tunggal Tepat Pada gambar 4.2 diatas, data diklasifikasikan sebagai label tepat. Hasil klasifikasi tersebut sesuai dengan label baris pertama pada tabel 4.5.

(48) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 37. b. Data 2. Gambar 4. 3 Uji Data Tunggal Tidak Tepat Pada gambar 4.3 diatas, data diklasifikasikan sebagai label tidak tepat. Hasil klasifikasi tersebut sesuai dengan label baris kedua pada tabel 4.5 4.3.2 Uji Data Kelompok Pada tahap ini sistem akan melakukan klasifikasi terhadap data dalam jumlah banyak. Data yang di-upload adalah data bertipe .xls atau .xlsx dengan label yang belum diketahui. Ketika tombol klasifikasi dijalankan, maka masing-masing data uji akan ditampilkan kembali beserta label hasil klasifikasi. Pada uji data kelompok, penulis kembali melakukan validasi dengan cara yang sama pada tahap uji data tunggal. Berikut merupakan tiga dari data testing yang akan diuji: Tabel 4. 6 Data Testing Uji Data Kelompok No.. IPS 2. SKS S4. Lama TA. Masa Studi. 1.. 3.17. 81. 1. 1. 2.. 3.00. 78. 3. 0. 3.. 3.79. 85. 2. 1.

(49) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 38. a. Data Data yang dijadikan input pada uji data kelompok dapat memiliki jumlah atribut yang lebih dari tiga, maka sistem memilih dan melakukan ranking terlebih dahulu terhadap data dengan memilih atribut SKS semester 4, lama tugas akhir, dan IPS 2. Gambar 4.4 berikut merupakan tampilan uji data kelompok yang datanya telah di-upload pada sistem:. Gambar 4. 4 Upload Uji Data Kelompok Setelah data di-upload dan tombol klasifikasi dijalankan, sistem akan menampilkan kembali data ke tabel beserta label hasil klasifikasi pada tiap data uji seperti pada gambar 4.5 berikut:. Gambar 4. 5 Hasil Uji Data Kelompok Pada gambar 4.5, label hasil klasifikasi akan ditampilkan di kolom 11, hasil tersebut telah sesuai dengan data testing yang digunakan pada tabel 4.6..

(50) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB V PENUTUP 5.1 Kesimpulan Berdasarkan hasil penelitian yang telah dilakukan penulis dengan judul prediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma menggunakan metode klasifikasi naïve bayes, didapatkan kesimpulan sebagai berikut: 1. Metode klasifikasi dengan menggunakan algoritma naïve bayes sudah cukup tepat dalam memprediksi kelulusan mahasiswa. 2. Tingkat akurasi tertinggi terdapat pada 3 atribut yaitu SKS semester 4, lama tugas akhir, dan Indeks Prestasi Semester 2 dengan hasil akurasi sebesar 80.5402%. Hal ini menunjukkan bahwa atribut-atribut tersebut dapat digunakan dalam menentukan pengklasifikasian. 5.2 Saran Saran yang diberikan untuk penelitian selanjutnya adalah: 1. Sistem untuk memprediksi kelulusan mahasiswa dapat dikembangkan menggunakan metode yang berbeda. 2. Penelitian selanjutnya dapat menambahkan atribut-atribut lain yang lebih mempengaruhi kelulusan mahasiswa.. 39.

(51) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 40. DAFTAR PUSTAKA Anggreani, D., Herman, & Astuti, W. (2018). Kinerja Metode Naive Bayes dalam Prediksi Lama Studi Mahasiswa Fakultas Ilmu Komputer. Seminar Ilmu Komputer dan Teknologi Informasi, Vol.3 No.2. Bustami. (2013). Penerapan Algoritma Untuk Mengklasifikasi Data Nasabah Asuransi. Jurnal Penelitian Teknik Informatika, Vol.3, No.2. Chormunge, S., & S., J. (2016). Efficient Feature Subset Selection Algorithm for High Dimensional Data. International Journal of Electrical and Computer Engineering (IJECE), Vol. 6, 1880-1888. Kamber, M., & Han, J. (2006). Data Mining Concept and Techniques. San Fransisco: Morgan Kauffman. Larose, Daniel T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons. Inc. Nugroho, Y. S. (2014). Data Mining Menggunakan Algoritma Untuk Klasifikasi Kelulusan Mahasiswa Universitas Dian Nuswantoro. Skripsi. Santoso, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis (1st ed.). Yogyakarta, Indonesia. Tim Dosen Teknik Informatika. (2015). Panduan Akademik 2016/2017 Program Studi Teknik Informatika. Yogyakarta: Universitas Sanata Dharma. Turban, E., Aronson, J., & Liang, T. (2005). Decision Support System and Intelligent Systems - 7th ed. Pearson Education, Inc. In Sistem Pendukung Keputusan dan Sistem Cerdas (D. Prabantini, Trans.). Yogyakarta: ANDI. Universitas Sanata Dharma. (2008). Manual Mutu Lulusan. Yogyakarta: Lembaga Penjaminan Mutu Universitas Sanata Dharma. Wahyu. (2010). Penyebab Lama Kuliah (Online). Dipetik July 1, 2020, dari (http://blog.umy.ac.id/anharwahyu/2010/12/07/penyebab-lama-kuliah).

(52) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 41. Widaningsih, S. (2019). Perbandingan Metode Data Mining untuk Prediksi Nilai dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika dengan Algoritma C4.5, Naive Bayes, KNN, dan SVM. Jurnal Tekno Insentif, Vol.13, No.1, 16-25..

(53) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 42. LAMPIRAN.

(54) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 43. A. Lampiran Percobaan Menggunakan Weka Tools 3.9 1. Information Gain. B. Lampiran Program 1. Preprocessing clear; clc; [num, text, data] = xlsread('DATA AWAL.xlsx'); revenue = data(:,11); [m,n] = size(revenue); % transformasi kelas lama studi data2 = cell2mat(data(:,11)); for i=1:m if (data2(i)<= 4) data{i, 11} = 1; else data{i,11} = 0; end end %normalisasi atribut SKS S4 sks4 = Min_Max(cell2mat(data(:,8))); norm = data; %memanggil data kembali for i=1:m norm{i,8} = sks4(i); end xlswrite('dataset.xls', norm, 1);.

(55) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 44. 2. Main clear; clc; [num,text,data] = xlsread('dataset.xls'); jumlahAtribut = 3; revenue = data(:,11); [m,~] = size(revenue); rangking = [8, 10, 5, 6, 7, 4, 1, 9, 3, 2]; kategorikal = [1,2,3]; nonKategorikal = [4,5,6,7,8,9,10]; j = 0; k = 0; atributKategorikal = 0; atributNonKategorikal = 0; for i = 1:jumlahAtribut if ismember(rangking(i),kategorikal) j=j+1; atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end tigafold;. 3. Tigafold ukurandata = size(data,2); X = data(:,1:ukurandata-1); Y = data(:,ukurandata); jmlhdata = size(X); range = jmlhdata(1)/3; data1 = X(1:range,:); data2 = X(range+1:range*2,:); data3 = X(range*2+1:jmlhdata(1),:); dataTr1 = [data2;data3]; dataTs1 = data1; dataTr2 = [data1;data3]; dataTs2 = data2; dataTr3 = [data1;data2]; dataTs3 = data3; atributKategorikal(j) = rangking(i); elseif ismember(rangking(i), nonKategorikal) k=k+1; atributNonKategorikal(k) = rangking(i); end end.

(56) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 45. like1 = Y(1:range); like2 = Y(range+1:range*2); like3 = Y(range*2+1:jmlhdata(1)); labelTr1 = [like2; like3]; labelTs1 = like1; labelTr2 = [like1; like3]; labelTs2 = like2; labelTr3 = [like1; like2]; labelTs3 = like3; a = atributKategorikal; b = atributNonKategorikal; for i=1:size(dataTs1, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr1(:,b), labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr1); elseif (b==0) naiveNum = [1;1]; naiveKat = naiveKategorikal(dataTr1(:,kategorikal), labelTr1, dataTs1(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr1); else naiveKat = naiveKategorikal(dataTr1(:,kategorikal), labelTr1, dataTs1(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr1(:,b), labelTr1, dataTs1(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr1); end end labelTs1 = cell2mat(labelTs1); confmat1 = confusionmat(hasil,labelTs1); output1 = (sum(diag(confmat1))/sum(sum(confmat1)))*100; for i = 1:size(dataTs2, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr2(:,b), labelTr2, dataTs2(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr2); elseif (b==0) naiveNum = [1;1]; naiveKat = naiveKategorikal(dataTr2(:,kategorikal), labelTr2, dataTs2(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr2);.

(57) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 46. elseif (b==0) naiveNum = [1;1]; naiveKat = naiveKategorikal(dataTr2(:,kategorikal), labelTr2, dataTs2(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr2); else naiveKat = naiveKategorikal(dataTr2(:,kategorikal), labelTr2, dataTs2(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr2(:,b), labelTr2, dataTs2(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr2); end end labelTs2 = cell2mat(labelTs2); confmat2 = confusionmat(hasil,labelTs2); output2 = (sum(diag(confmat2))/sum(sum(confmat2)))*100; for i = 1:size(dataTs3, 1) if (a == 0) naiveKat = [1;1]; naiveNum = naiveNumerikal(dataTr3(:,b), labelTr3, dataTs3(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr3); elseif (b==0) naiveNum = [1;1]; naiveKat = naiveKategorikal(dataTr3(:,kategorikal), labelTr3, dataTs3(i,kategorikal), a); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr3); else naiveKat = naiveKategorikal(dataTr3(:,kategorikal), labelTr3, dataTs3(i,kategorikal), a); naiveNum = naiveNumerikal(dataTr3(:,b), labelTr3, dataTs3(i,b)); hasil(i,1) = naiveBayes (naiveKat, naiveNum, labelTr3); end end labelTs3 = cell2mat(labelTs3); confmat3 = confusionmat(hasil,labelTs3); output3 = (sum(diag(confmat3))/sum(sum(confmat3)))*100; akurasi = (output1 + output2 + output3)/3.

(58) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 47. 4. NaïveKategorikal function output = naiveKategorikal (B, labelTr, testData, atributKategorikal) labelTr = cell2mat(labelTr(:,:)); Tepat = find(labelTr(:) == 1); TidakTepat = find(labelTr(:) == 0); [m,~] = size(B); %berdasar prodi if(ismember(1,atributKategorikal)) prodi = zeros(4,2); for i=1:m if(isequal(B{i,1}, 'TM')&&isequal(labelTr(i,1), 1)) prodi(1,1) = prodi(1,1) + 1; elseif(isequal(B{i,1}, 'TM')&&isequal(labelTr(i,1), 0)) prodi(1,2) = prodi(1,2) + 1; elseif(isequal(B{i,1}, 'INF')&&isequal(labelTr(i,1), 1)) prodi(2,1) = prodi(2,1) + 1; elseif(isequal(B{i,1}, 'INF')&&isequal(labelTr(i,1), 0)) prodi(2,2) = prodi(2,2) + 1; elseif(isequal(B{i,1}, 'MAT')&&isequal(labelTr(i,1), 1)) prodi(3,1) = prodi(3,1) + 1; elseif(isequal(B{i,1}, 'MAT')&&isequal(labelTr(i,1), 0)) prodi(3,2) = prodi(3,2) + 1; elseif(isequal(B{i,1}, 'TE')&&isequal(labelTr(i,1), 1)) prodi(4,1) = prodi(4,1) + 1; elseif(isequal(B{i,1}, 'TE')&&isequal(labelTr(i,1), 0)) prodi(4,2) = prodi(4,2) + 1; end end %model prodiM = [prodi(:,1)/length(Tepat) prodi(:,2)/length(TidakTepat)]; end.

(59) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 48. %berdasar jenis kelamin if(ismember(2,atributKategorikal)) jk = zeros(2,2); for i=1:m if(isequal(B{i,2}, 'L')&&isequal(labelTr(i,1), 1)) jk(1,1) = jk(1,1) + 1; elseif(isequal(B{i,2}, 'L')&&isequal(labelTr(i,1), 0)) jk(1,2) = jk(1,2) + 1; elseif(isequal(B{i,2}, 'P')&&isequal(labelTr(i,1), 1)) jk(2,1) = jk(2,1) + 1; elseif(isequal(B{i,2}, 'P')&&isequal(labelTr(i,1), 0)) jk(2,2) = jk(2,2) + 1; end end %model jkM = [jk(:,1)/length(Tepat) jk(:,2)/length(TidakTepat)]; end %berdasar daerah asal if(ismember(3,atributKategorikal)) daerah = zeros(30,2); for i=1:m if(isequal(B{i,3}, 'Sumatera Utara')&&isequal(labelTr(i,1), 1)) daerah(1,1) = daerah(1,1) + 1; elseif(isequal(B{i,3}, 'Sumatera Utara')&&isequal(labelTr(i,1), 0)) daerah(1,2) = daerah(1,2) + 1; elseif(isequal(B{i,3}, 'Sumatera Selatan')&&isequal(labelTr(i,1), 1)) daerah(2,1) = daerah(2,1) + 1; elseif(isequal(B{i,3}, 'Sumatera Selatan')&&isequal(labelTr(i,1), 0)) daerah(2,2) = daerah(2,2) + 1; elseif(isequal(B{i,3}, 'Sumatera Barat')&&isequal(labelTr(i,1), 1)) daerah(3,1) = daerah(3,1) + 1; elseif(isequal(B{i,3}, 'Sumatera Barat')&&isequal(labelTr(i,1), 0)) daerah(3,2) = daerah(3,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi Utara')&&isequal(labelTr(i,1), 1)) daerah(4,1) = daerah(4,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi Utara')&&isequal(labelTr(i,1), 0)) daerah(4,2) = daerah(4,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi Tenggara')&&isequal(labelTr(i,1), 1)) daerah(5,1) = daerah(5,1) + 1;.

(60) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 49. elseif(isequal(B{i,3}, 'Sulawesi Tenggara')&&isequal(labelTr(i,1), 0)) daerah(5,2) = daerah(5,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi Tengah')&&isequal(labelTr(i,1), 1)) daerah(6,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi Tengah')&&isequal(labelTr(i,1), 0)) daerah(6,2) = daerah(7,2) + 1; elseif(isequal(B{i,3}, 'Sulawesi Selatan')&&isequal(labelTr(i,1), 1)) daerah(7,1) = daerah(7,1) + 1; elseif(isequal(B{i,3}, 'Sulawesi Selatan')&&isequal(labelTr(i,1), 0)) daerah(7,2) = daerah(7,2) + 1; elseif(isequal(B{i,3}, 'Riau')&&isequal(labelTr(i,1), 1)) daerah(8,1) = daerah(8,1) + 1; elseif(isequal(B{i,3}, 'Riau')&&isequal(labelTr(i,1), 0)) daerah(8,2) = daerah(8,2) + 1; elseif(isequal(B{i,3}, 'Papua Barat')&&isequal(labelTr(i,1), 1)) daerah(9,1) = daerah(9,1) + 1; elseif(isequal(B{i,3}, 'Papua Barat')&&isequal(labelTr(i,1), 0)) daerah(9,2) = daerah(9,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara Timur')&&isequal(labelTr(i,1), 1)) daerah(10,1) = daerah(10,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara Timur')&&isequal(labelTr(i,1), 0)) daerah(10,2) = daerah(10,2) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara Barat')&&isequal(labelTr(i,1), 1)) daerah(11,1) = daerah(11,1) + 1; elseif(isequal(B{i,3}, 'Nusa Tenggara Barat')&&isequal(labelTr(i,1), 0)) daerah(11,2) = daerah(11,2) + 1; elseif(isequal(B{i,3}, 'Maluku')&&isequal(labelTr(i,1), 1)) daerah(12,1) = daerah(12,1) + 1; elseif(isequal(B{i,3}, 'Maluku')&&isequal(labelTr(i,1), 0)) daerah(12,2) = daerah(12,2) + 1; elseif(isequal(B{i,3}, 'Luar Negeri (Abroad)')&&isequal(labelTr(i,1), 1)) daerah(13,1) = daerah(13,1) + 1; elseif(isequal(B{i,3}, 'Luar Negeri (Abroad)')&&isequal(labelTr(i,1), 0)) daerah(13,2) = daerah(13,2) + 1; elseif(isequal(B{i,3}, 'Lampung')&&isequal(labelTr(i,1), 1)) daerah(14,1) = daerah(14,1) + 1; elseif(isequal(B{i,3}, 'Lampung')&&isequal(labelTr(i,1), 0)) daerah(14,2) = daerah(14,2) + 1;.

(61) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 50. elseif(isequal(B{i,3}, 'Kepulauan Riau')&&isequal(labelTr(i,1), 1)) daerah(15,1) = daerah(15,1) + 1; elseif(isequal(B{i,3}, 'Kepulauan Riau')&&isequal(labelTr(i,1), 0)) daerah(15,2) = daerah(15,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan Timur')&&isequal(labelTr(i,1), 1)) daerah(16,1) = daerah(16,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan Timur')&&isequal(labelTr(i,1), 0)) daerah(16,2) = daerah(16,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan Tengah')&&isequal(labelTr(i,1), 1)) daerah(17,1) = daerah(17,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan Tengah')&&isequal(labelTr(i,1), 0)) daerah(17,2) = daerah(17,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan Selatan')&&isequal(labelTr(i,1), 1)) daerah(18,1) = daerah(18,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan Selatan')&&isequal(labelTr(i,1), 0)) daerah(18,2) = daerah(18,2) + 1; elseif(isequal(B{i,3}, 'Kalimantan Barat')&&isequal(labelTr(i,1), 1)) daerah(19,1) = daerah(19,1) + 1; elseif(isequal(B{i,3}, 'Kalimantan Barat')&&isequal(labelTr(i,1), 0)) daerah(19,2) = daerah(19,2) + 1; elseif(isequal(B{i,3}, 'Jawa Timur')&&isequal(labelTr(i,1), 1)) daerah(20,1) = daerah(20,1) + 1; elseif(isequal(B{i,3}, 'Jawa Timur')&&isequal(labelTr(i,1), 0)) daerah(20,2) = daerah(20,2) + 1; elseif(isequal(B{i,3}, 'Jawa Tengah')&&isequal(labelTr(i,1), 1)) daerah(21,1) = daerah(21,1) + 1; elseif(isequal(B{i,3}, 'Jawa Tengah')&&isequal(labelTr(i,1), 0)) daerah(21,2) = daerah(21,2) + 1; elseif(isequal(B{i,3}, 'Jawa Barat')&&isequal(labelTr(i,1), 1)) daerah(22,1) = daerah(22,1) + 1; elseif(isequal(B{i,3}, 'Jawa Barat')&&isequal(labelTr(i,1), 0)) daerah(22,2) = daerah(22,2) + 1; elseif(isequal(B{i,3}, 'Jambi')&&isequal(labelTr(i,1), 1)) daerah(23,1) = daerah(23,1) + 1; elseif(isequal(B{i,3}, 'Jambi')&&isequal(labelTr(i,1), 0)) daerah(23,2) = daerah(23,2) + 1;.

(62) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 51. elseif(isequal(B{i,3}, 'Irian Jaya/ Papua')&&isequal(labelTr(i,1), 1)) daerah(24,1) = daerah(24,1) + 1; elseif(isequal(B{i,3}, 'Irian Jaya/ Papua')&&isequal(labelTr(i,1), 0)) daerah(24,2) = daerah(24,2) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus Ibukota Jakarta')&&isequal(labelTr(i,1), 1)) daerah(25,1) = daerah(25,1) + 1; elseif(isequal(B{i,3}, 'Daerah Khusus Ibukota Jakarta')&&isequal(labelTr(i,1), 0)) daerah(25,2) = daerah(25,2) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa Yogyakarta')&&isequal(labelTr(i,1), 1)) daerah(26,1) = daerah(26,1) + 1; elseif(isequal(B{i,3}, 'Daerah Istimewa Yogyakarta')&&isequal(labelTr(i,1), 0)) daerah(26,2) = daerah(26,2) + 1; elseif(isequal(B{i,3}, 'Bengkulu')&&isequal(labelTr(i,1), 1)) daerah(27,1) = daerah(27,1) + 1; elseif(isequal(B{i,3}, 'Bengkulu')&&isequal(labelTr(i,1), 0)) daerah(27,2) = daerah(27,2) + 1; elseif(isequal(B{i,3}, 'Banten')&&isequal(labelTr(i,1), 1)) daerah(28,1) = daerah(28,1) + 1; elseif(isequal(B{i,3}, 'Banten')&&isequal(labelTr(i,1), 0)) daerah(28,2) = daerah(28,2) + 1; elseif(isequal(B{i,3}, 'Bangka Belitung')&&isequal(labelTr(i,1), 1)) daerah(29,1) = daerah(29,1) + 1; elseif(isequal(B{i,3}, 'Bangka Belitung')&&isequal(labelTr(i,1), 0)) daerah(29,2) = daerah(29,2) + 1; elseif(isequal(B{i,3}, 'Bali')&&isequal(labelTr(i,1), 1)) daerah(30,1) = daerah(30,1) + 1; elseif(isequal(B{i,3}, 'Bali')&&isequal(labelTr(i,1), 0)) daerah(30,2) = daerah(30,2) + 1; end end %model daerahM =[daerah(:,1)/length(Tepat) daerah(:,2)/length(TidakTepat)]; end %Testing data = zeros(1,length(atributKategorikal)); output1 = 1; output2 = 1;.

(63) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 52. %prodi if(ismember(1,atributKategorikal)) switch testData{1,1} case 'TM' data(1,1) = 1; case 'INF' data(1,1) = 2; case 'MAT' data(1,1) = 3; case 'TE' data(1,1) = 4; end output1 = output1 * prodiM(data(1,1),1); output2 = output2 * prodiM(data(1,1),2); end %JenisKelamin if(ismember(2,atributKategorikal)) switch testData{1,2} case 'L' data(1,2) = 1; case 'P' data(1,2) = 2; end output1 = output1 * jkM(data(1,2),1); output2 = output2 * jkM(data(1,2),2); end %AsalDaerah if(ismember(3,atributKategorikal)) switch testData{1,3} case 'Sumatera Utara' data(1,3) = 1; case 'Sumatera Selatan' data(1,3) = 2; case 'Sumatera Barat' data(1,3) = 3; case 'Sulawesi Utara' data(1,3) = 4; case 'Sulawesi Tenggara' data(1,3) = 5; case 'Sulawesi Tengah' data(1,3) = 6; case 'Sulawesi Selatan' data(1,3) = 7; case 'Riau' data(1,3) = 8; case 'Papua Barat' data(1,3) = 9; case 'Nusa Tenggara Timur' data(1,3) = 10; case 'Nusa Tenggara Barat' data(1,3) = 11; case 'Maluku' data(1,3) = 12;.