Metode Algoritma Support Vector Machine (SVM) Linier Dalam Memprediksi Kelulusan Mahasiswa
Oktaviana Bangun1, Herman Mawengkang2,*, Syahril Efendi1
1 Prodi S2 Teknik Informatika, Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Sumatera Utara, Medan, Indonesia
2 Program Studi Matematika, FMIPA, Universitas Sumatera Utara, Medan, Indonesia Email: 1[email protected], 2,*[email protected],3[email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Penumpukan database mahasiswa dapat terjadi apabila mahasiswa tidak mampu untuk menyelesaikan studi yaitu lulus pada waktu yang sudah ditentukan. Teknik data mining sering digunakan untuk mengolah data mahasiswa sehingga dapat menghasilkan prediksi kelulusan mahasiswa agar lulus pada waktu yang sudah ditentukan. Salah satu teknik data mining yang sering digunakan adalah algoritma Support Vector Machine (SVM). Penelitian ini bertujuan untuk menganalisis kinerja algoritma SVM untuk menghasilkan model prediksi kelulusan mahasiswa agar lulus pada waktu yang sudah ditentukan di Program Studi Ilmu Kesehatan Masyarakat Fakultas Kesehatan Masyarakat Institut Kesehatan Deli Husada. Metode yang digunakan pada penelitian ini adalah algoritma SVM linier dimulai dari pengambilan data dengan memilih atribut yang akan digunakan untuk tahapan selanjutnya, pengolahan data terdiri dari pembersihan data yang isinya tidak ada dan transformasi data yang merupakan penentuan kategori dari setiap data, permodelan dilakukan dengan algoritma SVM dari data training dan data testing dan evaluasi untuk memvalidasi dan mengukur keakuratan model. Hasil pengujian dengan jumlah data training sebanyak 70% dan data testing sebanyak 30% menunjukkan bahwa algoritma SVM linier memberikan nilai akurasi yaitu 90
%
Kata Kunci: Support Vector Machine Linier; Kelulusan; Mahasiswa
Abstract−The accumulation of student databases can occur if students are unable to complete their studies, namely graduating at a predetermined time. Data mining techniques are often used to process student data so that they can produce predictions of student graduation in order to graduate at a predetermined time. One of the data mining techniques that is often used is the Support Vector Machine (SVM) algorithm. This study aims to analyze the performance of the SVM algorithm to produce a predictive model of student graduation in order to graduate at a predetermined time in the Public Health Study Program, Faculty of Public Health, Deli Husada Health Institute. The method used in this study is a linear SVM algorithm starting from data retrieval by selecting the attributes that will be used for the next stage, data processing consists of cleaning data whose contents do not exist and data transformation which is the determination of the category of each data, modeling is done with the SVM algorithm. from training data and testing and evaluation data to validate and measure the accuracy of the model. The test results with the amount of training data as much as 70% and testing data as much as 30% shows that the linear SVM algorithm provides an accuracy value of 90%
Keywords: Support Vector Machine Linear; Graduation; Student
1. PENDAHULUAN
Kelulusan mahasiswa adalah hal yang sangat penting dari suatu perguruan tinggi. Dalam undang-undang Republik Indonesia nomor 12 tahun 2012 (2) tentang pendidikan tinggi yang dimaksud adalah jenjang pendidikan setelah pendidikan menengah yang mencakup program diploma, program sarjana, program magister, program doktor, dan program profesi, serta program spesialis, yang diselenggarakan oleh perguruan tinggi berdasarkan kebudayaan bangsa Indonesia [1]. Salah satu penilaian standar utama yang dilakukan BAN-PT [2] dilihat dari kesuksesan dan kualitas perguruan tinggi menciptakan ketepatan kelulusan mahasiswa yang dikatakan lulus dengn tepat waktu jika mampu menyelesaikan studi kurun waktu 2 tahun atau 4 semester untuk jenjang studi S2. Namun pada praktiknya mahasiswa tidak selalu mampu menyelesaikan studinya tersebut dalam waktu normal. Hal ini ditunjukkan dengan dibagi masa studi menjadi dua kategori yaitu kurang dari sama dengan empat semester dan lebih besar dari 4 semester. Semakin banyak mahasiswa yang mendaftar dan masuk sebagai peserta didik pada perguruan tinggi maka jumlah mahasiswa yang lulus juga harus sama. Apabila banyak mahasiswa yang tidak lulus maka akan terjadi penumpukan jumlah data pribadi mahasiswa di database dan sistem neo feeder perguruan tinggi.
Data dalam jumlah besar apabila diolah menggunakan beberapa metode tertentu akan memberikan informasi baru yang dapat membantu pihak perguruan tinggi dalam mengambil suatu keputusan atau kebijakan. Salah satu kebijakan adalah memprediksi kelulusan mahasiswa lebih awal untuk meningkatkan jumlah kelulusan mahasiswa dan meminimalisir jumlah mahasiswa yang tidak lulus sesuai dengan masa studinya.
Salah satu teknik melakukan prediksi yang dapat digunakan adalah dengan teknik data mining. Data mining adalah disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar dimana proses yang digunakan yaitu teknik statistik, matematika, kecerdasan buatan. Adapun tujuan dari data mining yaitu untuk mengekstrak data yang besar dari suatu kumpulan data yang tersedia. Data mining merupakan proses yang menggunakan satu atau lebih teknik pada machine learning untuk melakukan analisis dan ekstrasi secara otomatis dari jumlah data yang besar. Data mining dapat digunakan secara luas dalam seluruh penyimpananin formasi [3]. Adapun faktor-faktor yang menentukan kriteria dari data mining yaitu proses pencarian nilai yang telah ditambahkan ke kumpulan data yang lampau, objek dari data mining merupakan data
dalam jumlah banyak dan komplek yang dapat mencari hubungan atau bentuk yang dapat memberikan indikasi yang berguna [4]. Data akademik pada perguruan tinggi bertambah setiap tahunnya sejalan dengan bertambahnya jumlah mahasiswa yang mendaftar di Perguruan Tinggi. Data yang banyak menyimpan informasi yang banyak juga. Memprediksi kelulusan mahasiswa adalah suatu kegiatan untuk menentukan suatu kondisi dimasa depan berdasarkan data yang telah ada. Penelitian dibidang data akademik telah banyak dilakukan dengan berbagai metode dan algoritma, namun penggunaan algoritma Support Vector Machine (SVM) adalah suatu teknik yang relatif baru pada tahun 1995 untuk melakukan prediksi, klasifikasi maupun regresi yang sangat populer di dekade belakangan ini. Setiap perguruan tinggi memiliki kumpulan data yang menyimpan informasi sebagai informasi biodata mahasiswa [5]. Dengan melimpahnya database yang dimiliki oleh perguruan tinggi tersebut, data yang tersimpan dapat diketahui dengan menangani informasi mahasiswa [6]. Kumpulan data dapat digunakan untuk berkonsentrasi pada contoh dan perilaku mahasiswa untuk membatasi penundaan kelulusan [7]. Salah satu strategi yang dapat digunakan untuk mengkaji basis informasi adalah teknik data mining.
Klasifikasi merupakan suatu teknik yang dapat digunakan untuk memetakan masukan menjadi keluaran diskrit yang dinamakan dengan label dan atribut. Atribut untuk suatu observasi diprediksi oleh pemetaan fungsi.
Sebagai contoh performa dari suatu kumpulan mahasiswa dapat diklasifikasikan sebagai “lulus” atau “tidak lulus”.
Teknik klasifikasi terdiri dari Support Vector Machine, Naïve Bayes, Discriminant Analysis, K-Nearest Neighbor, Neural Network [8]
Menurut penelitian oleh Farbatul Janan, Sourav Kumar Ghosh, 2021 tentang Prediction of Student’s Performance Using Support Machine Classifier untuk memprediksi kinerja mahasiswa tahun kedua dalam ujian akhir. Hasil dari penelitian ini adalah model yang digunakan yaitu Fuzzy ANFIS diintegrasikan dengan SVM lebih efektif dan praktis untuk prediksi kemajuan siswa yang akurat dengan persentase 81.25 %, Students Performance Prediction Using SVM untuk ber konsentrasi pada tingkat kinerja mahasiswa Pasca Sarjana. Untuk mengungkap keadaan nyata di studi yang lebih tinggi, data telah dikumpulkan hanya dari kumpulan siswa tersebut. Penelitian oleh Honakan, 2018 klasifikasi dengan proses dukungan vektor mesin memiliki akurasi tinggi dengan stopword, kombinasi tokenizing istilah frekuensi dan chi-square 47.43 %, sedangkan penelitian oleh Pratama, 2018 tentang Support Vector Machine (SVM) mengklasifikasikan data menjadi 2 kelas menggunakan RBF Kernel Gaussian dengan kombinasi nilai parameter λ=0,5, konstan γ=0,01, dan ε (epsilon)=0,001 itermax = 100, c = 1 menggunakan data pelatihan untuk 170 dataset yang menghasilkan akurasi rata-rata 80.55%. Jadi persentase keakuratan, memori dan keakuratan dipengaruhi oleh penentuan data pelatihan [9]
Penelitian mengenai penerapan algoritma SVM untuk mendapatkan model prediksi kelulusan mahasiswa tepat waktu juga dilakukan oleh [10] tentang membandingkan algoritma machine learning dengan algoritma yang lainnya yaitu Naïve Bayes. Data yang digunakan dalam penelitian ini seperti GPA, data profil, asal sekolah SMA dan tempat tinggal. Berdasarkan hasil pengujian dengan data tersebut algoritma SVM memberikan nilai akurasi yang lebih baik dibandingkan dengan algoritma Naïve Bayes yaitu 69,15%. Model prediksi kelulusan mahasiswa tepat waktu yang dihasilkan oleh algoritma SVM lebih baik untuk digunakan pada data tersebut. Penelitian [11]
tentang presentase kesalahan klasifikasi yang dihasilkan dari algoritma dalam menentukan model kelulusan mahasiswa tepat waktu di FMIPA UNTAD. Dua algoritma digunakan untuk membandingkan nilai kesalahan yang dihasilkan dari masing-masing algoritma yaitu SVM dan regresi logistik biner. Hasil pengujian didapatkan bahwa nilai kesalahan klasifikasi yang dihasilkan oleh SVM sebesar 16,84% sedangkan nilai kesalahan klasifikasi dari regresi logistik biner sebesar 19,3%. Algoritma SVM memiliki nilai kesalahan yang lebih kecil dibandingkan dengan regresi logistik biner sehingga SVM dapat digunakan pada proses klasifikasi kelulusan mahasiswa tepat waktu FMIPA UNTAD. Penelitian tentang penggunaan SVM juga dilakukan oleh [12] pada penelitian ini menggunakan algoritma SVM dibandingkan dengan dua algoritma lainnya yaitu KNN dan decision tree dalam mendapatkan model terbaik untuk memprediksi mahasiswa agar lulus tepat waktu. Berdasarkan hasil pengujian didapatkan bahwa SVM memberikan nilai akurasi yang paling tinggi yaitu sebesar 95% sedangkan KNN memberikan akurasi sebesar 92% dan decision tree memberikan akurasi sebesar 93% berdasarkan dari data yang digunakan. Model yang dihasilkan oleh SVM dapat digunakan untuk memprediksi kelulusan mahasiswa agar lulus tepat waktu. Penelitian yang dilakukan oleh [13] tentang perbandingan antara algoritma Support Vector Machine (SVM), Neural Network (NN) dan Decision Tree (DT) yang menghasilkan model yang dapat memprediksi waktu kelulusan mahasiswa pada salah satu universitas swasta di Indonesia. Akurasi yang didapatkan dari ketiga algoritma tersebut menunjukkan bahwa penggunaan algoritma SVM memberikan tingkat akurasi yang paling tinggi yaitu 85,18%, sementara algoritma NN memiliki tingkat akurasi sebesar 84,68% dan akurasi dari DT sebesar 84,96%. Berdasarkan hasil penggunaan algoritma SVM tersebut mampu memberikan model yang paling baik dalam memprediksi waktu kelulusan mahasiswa karena SVM memiliki tingkat akurasi yang paling tinggi.
Prediksi kelulusan merupakan hasil dari kegiatan memprediksi kelulusan apabila mahasiswa telah memenuhi semua persyaratan yang telah di tetapkan oleh perguruan tinggi yaitu telah memempuh masa studi selama 4 semester dan lulus dengan 46 sks, telah lulus mata kuliah wajib, tidak memiliki nilai C+, lulus ujian akhir semester, seminar proposal, seminar hasil, kompre dan toefl sebagai persyaratan wisuda, IPK > 3.00. Support Vector Machines (SVM) adalah suatu metode yang handal dalam menyelesaikan masalah klasifikasi data.
Penggunaan model SVM mengolah data menjadi data latih dan data uji [14]. Data latih digunakan untuk membentuk model SVM, sementara nilai parameter bebasnya dipilih dari data awal. Selanjutnya model SVM yang dihasilkan digunakan untuk mengklasifikasi data uji. Data yang digunakan dalam penelitian ini adalah data
Program Studi Ilmu Kesehatan Masyarakat Program Magister Fakultas Kesehatan Masyarakat Institut Kesehatan Deli Husada Deli Tua. Artikel ini terdiri dari lima bagian yaitu pendahuluan, metode penelitian, hasil dan pembahasan, kesimpulan dan saran
2. METODOLOGI PENELITIAN
2.1. Langkah-Langkah Penelitian
Metode penelitian menjelaskan tentang langkah-langkah dalam penelitian melakukan analisis klasifikasi dengan Support Vector Machine (SVM) Linier dengan tahapan sebagai berikut :
1. Mengambil data mahasiswa sesuai dengan format Excel yang telah dibuat
2. Membagi data training dan data testing dengan jumlah data training 70% (555 mahasiswa) dari jumlah mahasiswa 792 mahasiswa dan data testing 30 % (237 mahasiswa)
3. Data training dan data testing adalah data lulusan mahasiswa tahun 2016 s.d. 2021, sedangkan data untuk prediksi adalah data mahasiswa tahun akademik 2020
4. Memdapatkan nilai w dan b
5. Membentuk persamaan Support Vector Machine (SVM) Linier
6. Proses Prediksi Kelulusan mahasiswa dibagi menjadi dua yaitu data training 70 % dan data testing 30%. Untuk proses pembentukan persamaan ada nilai w atau bobot, persamaan akan dibentuk yang dapat menghasilkan prediksi kelulusan mahasiswa yang lulus atau tidak. Karena ada 4 fitur (IPS1, IPS2, IPS3, IPS4), maka w juga akan memiliki 4 fitur (w1, w2, w3, w4).
7. Formulasi yang digunakan untuk meminimalkan Nilai Margin:
1/2 ‖w‖2 = 1/2 (w12 + w22 + w32 + w42 dengan Syarat yi (w.xi + b) > 1, i = 1,2,3,4,5, n
yi (w1.x1 + w2.x2 + w3.x3 + w4.x4 ≥ +1 untuk kelas lulus yi (w1.x1 + w2.x2 + w3.x3 + w4.x4 ≥ -1 untuk kelas tidak lulus
8. Untuk tahapan membentuk persamaan memanfaatkan persamaan linear yaitu: substitusi dan eliminasi dimana:
Persamaan 1, nilai w = - karena dalam datasetnya data training data pertama masuk dalam kategori tidak lulus dan Persamaan 2, nilai w = + karena dalam dataset data training data kedua masuk dalam kategori lulus. dst.
9. Setelah didapat hasil dari w1, w2, w3, w4 dan b, maka prediksi dilakukan dengan menggunakan data mahasiswa yang belum lulus.
10. Selanjutnya melakukan prediksi atau klasifikasi di dataset pada testing, dimana data testing yang terdapat pada Institut Kesehatan Deli Husada Deli Tua Program Magister Kesmas mahasiswa yang belum lulus dari Angkatan 2020 (Semester 3) dan 2021 (Semester 2) dengan menggunakan algoritma Support Vector Machine (SVM).
11. Mengetahui nilai akurasi lulus atau tidak 2.2 Sumber Data dan Variabel
Data yang digunakan dataset mahasiswa yang diperoleh dari sumber yang sudah ada yaitu salah satu perguruan tinggi swasta Institut Kesehatan Deli Husada Deli Tua Jl. Besar No. 77 Deli Tua dengan data historis mahasiswa S2 Prodi IKM pada Neo Feeder yang diambil dari tahun 2016 – 2021 sejumlah 792 sample yang diperoleh dari administrasi bagian akademik dengan lima atribut sebagai prediktor dan satu atribut sebagai hasil yaitu lulus atau tidak. Dataset yang digunakan dalam penelitian ini dikumpulkan melalui administrasi Pendidikan dan wawancara dengan pengelola program studi sejumlah 792 data mahasiswa. Tabel 1 menjelaskan atribut data yang diperoleh:[15]
Tabel 1. Atribut yang digunakan No Atribut Definisi Operasional
1 Nama/NIM Dataset Tahun 2016 s.d. tahun 2021 2 IPS 1 Indeks Prestasi Semester Satu 3 IPS 2 Indeks Prestasi Semester dua 4 IPS 3 Indeks Prestasi Semester tiga 5 IPS 4 Indeks Prestasi Semester empat
6 Keterangan Ya/Tidak
Yang diuji mencoba menggunakan algoritma SVM Linear untuk mengatasi masalah nilai yang rendah terhadap mahasiswa dan meningkatkan kinerja akademik mahasiswa dalam dataset besar yang mana kinerja mahasiswa yang diperoleh pada saat ujian akhir semester dievaluasi oleh pihak program studi. Sebelum diperoleh IPS1, IPS2, IPS3 dan IPS4 dataset yang diperoleh dijabarkan nilainya per masing-masing mata kuliah dengan SKS mahasiswa dinamakan Daftar Peserta Nilai Akhir (DPNA) mahasiswa. Berikut salah satu contoh Tabel DPNA mahasiswa semester ganjil
Tabel 2. Daftar Nilai Mata Kuliah
NPM Tugas UTS UAS ABSEN NA
19.15.001 65 65 70 75 61
19.15.002 75 75 75 90 77
19.15.003 70 70 70 80 71
19.15.005 70 65 70 80 70
19.15.006 75 80 80 85 80
19.15.007 75 75 80 80 78
19.15.008 82 75 75 75 77
Keterangan:
TUGAS = 20% UAS = 40%
UTS = 30% ABSEN = 10% (Jika < 80 tidak dapat nilai tambahan atau 0)
Setelah nilai dikumpulkan per mata kuliah maka nilai tersebut akan dipindahkan ke format Rekapitulasi Lembar Kompilasi Kerja Mahasiswa untuk mendapatkan hasil IPS per masing masing mahasiswa.
3. HASIL DAN PEMBAHASAN
Hasil dan Pembahasan pada bab ini menjelaskan tentang penggunaan algoritma Support Vector Machine Linier dengan ditetapkannya atribut masukan, banyaknya dataset yang bisa mendapatkan hasil dalam penelitian dengan cara memprediksi data. Data set yang digunakan pada penelitian ini yaitu dengan menggunakan dataset Indeks Prestasi Semester 1 s.d.4 yang diperoleh dari mahasiswa Prodi Kesmas Program Magister yang belum lulus untuk di uji. Pelatihan dilakukan untuk mengetahui kinerja algoritma Support Vector Machine Linier untuk mengetahui kinerja algoritma tersebut sehingga mendapatkan hasil akurasi yang baik.
3.1 Perhitungan Nilai Rata-Rata
Sebelum masuk ke tahapan klasifikasi, dataset yang digunakan adalah nilai rata-rata per semester ganjil dan genap pada setiap semester satu kelas yang terdiri dari beberapa mata kuliah. Salah satu kumpulan nilai yang didapat dari Institut Kesehatan Deli Husada dapat dilihat pada bab 3 di tabel 3. Proses perhitungan rata-rata digunakan untuk mempermudah klasifikasi dengan sedikit atribut yang akan digunakan. Pada klasifikasi data tersebut hanya menggunakan IPS 1-IPS4. Berikut adalah daftar kumpulan nilai IPS 1 s.d. IPS 4 yang telah didapat:
Tabel 3. Sampel Indeks Prestasi Semester 1-4 Angkatan 2019 NPM IPS 1 IPS 2 IPS 3 1PS 4 LULUS
19.15.001 2.53 2.10 0.71 2.36 TIDAK
19.15.002 3.37 3.15 3.02 2.93 YA
19.15.004 2.37 2.17 2.17 2.19 TIDAK
19.15.005 2.37 2.72 2.12 1.98 TIDAK
19.15.007 3.53 3.72 3.90 3.80 YA
20.15.009 3.11 3,5 3.48 3.05 YA
20.15.010 2.47 2.60 2.10 2.00 TIDAK
21.15.143 3,06 3,06 3,06 3,06 YA
Perhitungan untuk mencari Nilai dari IPS adalah:
Mean = 𝑋𝐼+𝑋2+𝑋3,…𝐽𝑢𝑚𝑙𝑎ℎ 𝑆𝐾𝑆 (1)
Selanjutnya Variabel x dalam penelitian ini adalah mahasiswa sudah lulus sebagai data ataupun yang belum lulus, yang terdiri dari empat sub variable yaitu IPS1, IPS2, IPS3, IPS4.
3.2. Analisis Kinerja Algoritma Support Vector Machine (SVM) Linier
Algoritma Support Vector Machine (SVM) Linier merupakan salah satu algoritma yang paling popular [16].
Pelatihan yang dilakukan untuk mengetahui kinerja algoritma Support Vector Machine linear adalah:
Adapun data yang dikumpulkan sebagai contoh dapat disajikan pada tabel berikut:
Tabel 4. Sampel Data dan Data Uji
NPM IPS 1 IPS 2 IPS 3 1PS 4 LULUS
19.15.001 2.53 2.10 0.71 2.36 TIDAK
19.15.002 3.37 3.15 3.02 2.93 YA
19.15.004 2.37 2.17 2.17 2.19 TIDAK
19.15.005 2.37 2.72 2.12 1.98 TIDAK
Data Training
Data Testing (data uji)
NPM IPS 1 IPS 2 IPS 3 1PS 4 LULUS
19.15.007 3.53 3.72 3.90 3.80 YA
20.15.009 3.11 3,5 3.48 3.05 YA
20.15.010 2.47 2.60 2.10 2.00 TIDAK
21.15.143 3,06 3,06 3,06 3,06 YA
Proses Prediksi Kelulusan mahasiswa dibagi menjadi dua yaitu data training 70 % dan data testing 30%.
Untuk proses pembentukan persamaan ada nilai w atau bobot, persamaan akan dibentuk yang dapat menghasilkan prediksi kelulusan mahasiswa yang lulus atau tidak. Karena ada 4 fitur (IPS1, IPS2, IPS3, IPS4), maka w juga akan memiliki 4 fitur (w1, w2, w3, w4). Formulasi yang digunakan adalah sebagai berikut:
Untuk meminimalkan Nilai Margin [17]
1/2 ‖w‖2 = 1/2 (w12 + w22 + w32 + w42 dengan Syarat yi (w.xi + b) > 1, i = 1,2,3,4,5, n
yi (w1.x1 + w2.x2 + w3.x3 + w4.x4 ≥ +1 untuk kelas lulus yi (w1.x1 + w2.x2 + w3.x3 + w4.x4 ≥ -1 untuk kelas tidak lulus
Ada 4 fitur dari IPS1 s.d. IPS 4 sehingga formulasi yang kita gunakan didapatkan persamaan berikut:
(-w1.2.53) (-w2. 2.10) (-w3.0.71) (-w4.2.36) - b ≥ -1 (w1.3.37) (w2. 3.15) (w3.3.02) (w4.2.93) + b ≥ 1 (-w1.2.37) (-W2. 2.17) (-w3.2.17) (-w4.2.19) - b ≥ -1 (-w1.2.37) (-W2. 2.72) (-w3.2.12) (-w4.1.98) - b ≥ -1 (w1.3.53) (w2. 3.72) (w3.3.90) (w4.3.80) + b ≥ 1 (w1.3.11) (w2. 3.50) (w3.3.48) (w4.3.05) + b ≥ 1 (-w1.1.47) (-w2. 2.60) (-w3.1.78) (-w4.1.56) - b ≥ -1
Untuk tahapan membentuk persamaan memanfaatkan persamaan linear yaitu: substitusi dan eliminasi Keterangan:
Persamaan 1, nilai w = - karena dalam datasetnya data training data pertama masuk dalam kategori tidak lulus Persamaan 2, nilai w = + karena dalam dataset data training data kedua masuk dalam kategori lulus. dst.
Data keenam dan data ketujuh tidak dilakukan training disebabkan data tersebut adalah mahasiswa yang belum lulus jadi hanya dipakai 5 dataset.
Tahapan Pertama menggunakan metode eliminasi, yang akan me-eliminasi persamaan 1 dan persamaan 2 untuk mendapatkan nilai dari masing-masing atribut dengan perhitungan linear, yaitu:
Perhitungan eliminasi persamaan 1 dan persamaan 2;
-2.53w1 – 2.10 w2 – 0.71 w3 – 2.36 w 4 – b = -1 3.37w1 + 3.15w2 + 3.02w3 + 2.93w4 + b = +1 -5.90w1 – 5.25w2 – 3.73w3 – 5.29w4 – 2b = -2 Perhitungan eliminasi persamaan 2 dan persamaan 3;
3.37w1 + 3.15 w2 + 3.02w3 + 2.93 w4 + b = +1 -2.37w1 – 2.17w2 – 2.17w3 – 2.19w4 – b = -1 5.74w1 + 5.32 w2 + 5.19w3 + 5.12w4 + 2b = 2 Perhitungan eliminasi persamaan 3 dan persamaan 4;
-2.37w1 – 2.17w2 – 2.17w3 – 2.19w4 – b = -1 -2.37w1 – 2.72 w2 – 2.12 w3 – 1.98w4 – b = -1 0.55w2 – 0.05w3 – 0.21w4 = 0
Perhitungan eliminasi persamaan 4 dan persamaan 5 -2.37w1 – 2.72w2 – 2.12w3 – 1.98w4 – b = -1 3.53w1 + 3.72w2 + 3.90w3 + 3.80w4 + b = +1 -5.90w1 – 6.44w2 – 6.02w3 – 5.78w4 – 2b = -2
Melakukan eliminasi w4 dengan cara perkalian silang indeks w4:
-5.90w1 – 5.25w2 – 3.73w3 – 5.29w4 – 2b = -2 5.74w1 + 5.32 w2 + 5.19w3 + 5.12w4 + 2b = 2
-30,208w1 – 26,88w2 – 19.098w3 – 27,08w4 – 10,24b = -10,24 -30.365w1-28,143w2 – 27,455w3 – 27,085w4 – 10,58b = 10,58 - 0.157w1 + 1,263w2 + 8,357w3 + 0.34b = 0.34
Perhitungan eliminasi persamaan 7 dan persamaan 8, disini w4 masih ada karena belum me-substitusi nilai atau mencari nilai masing masing:
5.74w1 + 5.32 w2 + 5.19w3 + 5.12w4 + 2b = 2 0.55w2 – 0.05w3 – 0.21w4 = 0
-1,2054w1 – 1.1172w2 – 1,0899w3 – 1,0752w4 – 0,42b = - 0,42 2.816w2 – 0.256w3 – 1.0752w4 = 0
-12054w1 – 3.9332w2 – 0.8339w3 – 0.42b = 0.42 0.55w2 – 0.05w3 – 0.21w4 = 0
-5.90w1 – 6.44w2 – 6.02w3 – 5.78w4 – 2b = -2
-3179w2 + 0,289w3 + 1.2138w4 = 0
1,239w1 + 1,352w2 + 1,2642w3 + 1,2138w4 + 0,42b = 0,42 -1239w1 – 4,5314 w2 – 0,9752 w3 – 0,42b = -0,42
Eliminasi w3 dengan mengoperasikan persamaan 10 dan 11 0.157w1 + 1,263w2 + 8,357w3 + 0.34b = 0.34 x (-0.8339) -12054w1 – 3.9332w2 – 0.8339w3 – 0.42b = 0.42 x (8.357) -0.131w1 – 1.052w2 – 6.969w3 – 0.283b = -0283
-10.074w1 – 32.870w2 – 6.969w3 – 3.51b = -3.51 - 9.943w1 + 31.817w2 + 3.227b = 3.227
Eliminasi w3 pada persamaan 11 dan persamaan 12 -12054w1 – 3.9332w2 – 0.8339w3 – 0.42b = 0.42 -1239w1 – 4,5314 w2 – 0,9752 w3 – 0,42b = -0,42 1.176w1 + 3.836w2 + 0.813w3 + 0.41b = 0.41 1.033w1 + 3.779w2 + 0.813w3 + 0.35b = 0.35 - 0.143w1 + 0.057w2 + 0.06b = 0.06
Eliminasi w2 pada persamaan 13 dan 14 9.943w1 + 31.817w2 + 3.227b = 3.227 0.143w1 + 0.057w2 + 0.06b = 0.06 0.567w1 + 1.814w2 + 0.184b = 0.184 4.53w1 + 1.814w2 + 1.910b = 1.910 – -3.963w1 + -1.726b = -1.726
-3.963w1 = -1.726 Mencari nilai w1:
-3.963w1 = -1.726
W1 = -1.726/ - 3.963 W1 = 0.436
Mencari nilai w2 dengan menggunakan persamaan 14 subtitusi w1 : 0.143w1 + 0.057w2 + 0.06b = 0.06
Masukkan nilai w1 = 0.436
0.143(0.436) + 0.057w2 + 0.06b = 0.06 0.143(0.436) + 0.057w2 = 0.06
0.062348 + 0.057w2 =0.06 W2 = -0.035
Mencari nilai w3 dengan menggunakan persamaan 12 dengan mensubtitusi:
W1 = 0.436, W2 = -0.035
-1239w1 – 4,5314 w2 – 0,9752 w3 – 0,42b = -0,42 -1239 (0.436) – 4,5314 (-0.035) – 0,9752 w3 = -0.42 (-540.204) + (0.158599) – 0.9752w3 = -0.42 -540.045401– 0.9752w3 = -0.42 W3 = 0.039
Mencari nilai w4 dengan menggunakan persamaan 9 dengan mensubtitusi W1 = 0.436, W2 = -0.035, W3 = 0.039
-5.90w1 – 6.44w2 – 6.02w3 – 5.78w4 – 2b = -2
-5.90. (0.436) – 6.44 (-0.035) – 6.02 (0.039) – 5.78w4 – 2b = -2 -2.5724 + 0.2254 – 0.23478 – 5.78w4 = -2 W4 = -0.101
Nilai w1, w2, w3 dan w4 sudah dapat maka mencari Bias (b) dengan menggunakan persamaan 5 mensubtitusi nilai W1 = 0.436, W2 = -0.035, W3 = 0.039, W4 = -0.101
3.53w1 + 3.72w2 + 3.90w3 + 3.80w4 + b = +1
3.53 (0.436) + 3.72 (-0.035) + 3.90 (0.039) + 3.80 (-0.101) + b = 1 1.539 – 0.130 + 0.152 – 0.384 + b = 1
1.177 + b = 1 b = -0.177
Setelah didapat hasil dari w1, w2, w3, w4 dan b, maka prediksi dilakukan dengan menggunakan data mahasiswa yang belum lulus. Selanjutnya melakukan prediksi atau klasifikasi di dataset pada testing, dimana data testing yang terdapat pada Institut Kesehatan Deli Husada Deli Tua Program Magister Kesmas mahasiswa yang belum lulus dari Angkatan 2020 (Semester 3) dan 2021 (Semester 2) dengan menggunakan Algoritma Support Vector Machine (SVM).
Tabel 5. Data Mahasiswa diuji menggunakan data Testing NPM IPS 1 IPS 2 IPS 3 1PS 4 LULUS
20.15.009 3.75 3,79 3.70 3.75 YA
20.15.045 3.63 2.50 2.50 2.60 TIDAK
21.15.143 3,06 3,06 3,06 3,06 YA
Prediksi sebagai keterangan Lulus Tepat waktu apabila nilai lebih dari nol apabila kurang dari nol di keterangan Tidak Lulus Tepat Waktu
|𝑥| = {−1, 𝑗𝑖𝑘𝑎 𝑤. 𝑧 + 𝑏 𝑥 < 0
+1, 𝑗𝑖𝑘𝑎 𝑤. 𝑧 + 𝑏 𝑥 > 0 (2)
Dihitung benar di data testing yang pertama masuk kelas yang tepat, input data atau masukkan nilai masing-masing bobot yang telah diperoleh yaitu:
nilai W1 = 0.436, W2 = -0.035, W3 = 0.039, W4 = -0.101, b = -0.177 Tabel 6. Hasil Pengujian
NPM IPS 1 IPS 2 IPS 3 1PS 4 LULUS
20.15.009 3.75 3,79 3.70 3.75 YA
20.15.045 3.63 2.50 2.50 2.60 TIDAK
21.15.143 3,06 3,06 3,06 3,06 YA
NPM 20.15.009 = 3.75 (0.436) + 3,79 (-0.035) + 3.70 (0.039) + 3.75 (-0.101) - 0.177 = 1.635 – 0.13265 + 0.1443 – 0.37875 – 0.177 = 1.0909
Setelah kita lihat di kategori di kelas positif atau negative ternyata hasil > 0, prediksi secara lulus tepat benar NPM 20.15.010 = 3.63 (0.436) + 2.50 (-0.035) + 2.50 (0.039) + 2.60 (-0.101) - 0.177
= 1.58268 – 0.0875 + 0.0975 – 0.2626 – 0.177 = 1.15308 Untuk data kedua setelah dikategorikan ternyata hasil > 0, prediksi salah
NPM 21.15.143 = 3,06 (0.436) + 3,06 (-0.035) + 3,06 (0.039) + 3,06 (-0.101) - 0.177 = 1.33416-0,1071+0.11934-0.30906-0.177 = 0.86034
Setelah kita lihat di kategori di kelas positif atau negative ternyata hasil > 0, prediksi secara lulus tepat benar
4. KESIMPULAN
Masa studi mahasiswa dapat dilihat dengan nilai IPK yang akan diprediksi apakah mahasiswa tersebut akan lulus atau tidak. Dengan menggunakan algoritma Support Vector Machine (SVM) dan menggunakan 792 data training mahasiswa Program Studi Ilmu Kesehatan Masyarakat Program Magister Fakultas Kesehatan Masyarakat Institut Kesehatan Deli Husada Deli Tua didapatkan kesimpulan bahwa mahasiswa yang lulus adalah 90% dan yang tidak lulus adalah 10%
UCAPAN TERIMAKASIH
Puji dan Syukur kepada Tuhan Yang Maha Esa, Karena kehendak dan kebaikanNya Peneliti dapat menyelesaikan penelitian ini. Doa, dukungan, arahan, bimbingan dari berbagai Pihak yaitu Prof. Herman Mawengkang selaku Pembimbing I, Dr. Syahril Efendi, S.Si., M.IT selaku Pembimbing II, Suami, Anak dan orangtua tercinta, Institut Kesehatan Deli Husada Deli Tua
REFERENCES
[1] “20. UU No.12 Tahun 2012 tentang Pendidikan Tinggi.pdf.”
[2] “PERATURAN MENTERI PENDIDIKAN DAN KEBUDAYAAN no 49 tahun 2014.pdf.”
[3] N. Mayasari, “Comparison of Support Vector Machine and Decision Tree in Predicting On-Time Graduation,” vol. 02, no. 12, p. 13, 2016.
[4] L. Marlina, M. lim, and A. P. Utama Siahaan, “Data Mining Classification Comparison (Naïve Bayes and C4.5 Algorithms),” Int. J. Eng. Trends Technol., vol. 38, no. 7, pp. 380–383, Aug. 2016, doi: 10.14445/22315381/IJETT- V38P268.
[5] “Aplikasi Data Mining dengan Metode Support Vector.pdf.”
[6] “Predicting students’ academic performance using a modified KNN algorithm.pdf.”
[7] C.-W. Hsu, C.-C. Chang, and C.-J. Lin, “A Practical Guide to Support Vector Classification,” p. 16.
[8] Faculty of Computer and Mathematical Sciences, Universiti Teknologi MARA, 40450 Shah Alam, Selangor, N.
Mohammad Suhaimi, S. Abdul-Rahman, S. Mutalib, N. H. Abdul Hamid, and A. Hamid, “Review on Predicting Students’
Graduation Time Using Machine Learning Algorithms,” Int. J. Mod. Educ. Comput. Sci., vol. 11, no. 7, pp. 1–13, Jul.
2019, doi: 10.5815/ijmecs.2019.07.01.
[9] L. W. Santoso and Y. Yulia, “Predicting student performance in higher education using multi-regression models,”
TELKOMNIKA Telecommun. Comput. Electron. Control, vol. 18, no. 3, p. 1354, Jun. 2020, doi:
10.12928/telkomnika.v18i3.14802.
[10] A. Kesumawati and D. T. Utari, “Predicting patterns of student graduation rates using Naïve bayes classifier and support vector machine,” East Java, Indonesia, 2018, p. 060005. doi: 10.1063/1.5062769.
[11] I. T. Utami, “PERBANDINGAN KINERJA KLASIFIKASI SUPPORT VECTOR MACHINE (SVM) DAN REGRESI LOGISTIK BINER DALAM MENGKLASIFIKASIKAN KETEPATAN WAKTU KELULUSAN MAHASISWA FMIPA UNTAD,” J. Ilm. Mat. DAN Terap., vol. 15, no. 2, pp. 256–267, Dec. 2018, doi:
10.22487/2540766X.2018.v15.i2.11361.
[12] S. Wiyono, D. S. Wibowo, M. F. Hidayatullah, and D. Dairoh, “Comparative Study of KNN, SVM and Decision Tree Algorithm for Student’s Performance Prediction,” Int. J. Comput. Sci. Appl. Math., vol. 6, no. 2, p. 50, Aug. 2020, doi:
10.12962/j24775401.v6i2.4360.
[13] “Prediction of Student Graduation Time Using The Best Algorithm.pdf.”
[14] A. S. Nugroho, A. B. Witarto, and D. Handoko, “–Teori dan Aplikasinya dalam Bioinformatika1–,” p. 11, 2003.
[15] A. A. Saa, “Educational Data Mining & Students’ Performance Prediction,” Int. J. Adv. Comput. Sci. Appl., vol. 7, no. 5, p. 9, 2016.
[16] N. Naicker, T. Adeliyi, and J. Wing, “Linear Support Vector Machines for Prediction of Student Performance in School- Based Education,” Math. Probl. Eng., vol. 2020, pp. 1–7, Oct. 2020, doi: 10.1155/2020/4761468.
[17] S. A. Faraby, “Analisis Dan Implementasi Support Vector Machine Dengan String Kernel Dalam Melakukan Klasifikasi Berita Berbahasa Indonesia,” p. 10.