http://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/-
KLASIFIKASI MENGGUNAKAN METODE SUPPORT VECTOR MACHINE UNTUK MENENTUKAN CALON PENERIMA
BEASISWA
(Studi Kasus : SMK Bandung Timur)
Muhamad Mufti Khoerussalam1, Ade Mubarok, M.Kom2, Sari Susanti, M.Kom3
1Universitas BSI Bandung e-mail: [email protected]
2Universitas BSI Bandung e-mail:[email protected]
3Universitas BSI Bandung e-mail:[email protected]
Abstrak
SMK Bandung Timur merupakan salah satu sekolah swasta di Kabupaten Bandung yang menyediakan program beasiswa, salah satunya beasiswa untuk siswa yang berprestasi di bidang akademik. Untuk mendapatkan beasiswa tersebut terdapat kriteria-kriteria yang harus dipenuhi oleh calon penerima beasiswa yaitu salah satunya memiliki nilai yang baik yang dibuktikan dengan nilai rapot dan absensi. Akan tetapi, seleksi beasiswa di SMK Bandung Timur masih mengalami kendala pada proses pengambilan keputusan untuk menentukan siswa mana saja yang berhak mendapatkan beasiswa tersebut dikarenakan banyaknya jumlah peserta yang mengajukan beasiswa serta banyaknya indikator kriteria sehingga menyebabkan tidak tepatnya pemberian beasiswa tersebut. Dari permasalahan tersebut, metode Support Vector Machine (SVM) pada Teknik Data Mining dapat menyelesaikan permasalahan tersebut dengan proses menemukan suatu model yang membedakan data dengan tujuan untuk menyeleksi siswa yang layak menerima beasiswa dengan tingkat akurasi yang tinggi.
Berdasarkan pengujian menggunakan metode Support Vector Machine (SVM) menghasilkan akurasi sebesar 92,71% dengan menggunakan 151 dataset. Teknik Data Mining dengan metode Support Vector Machine (SVM) dapat memberikan alternatif pilihan untuk memudahkan dan membantu petugas dalam memilih dan menyeleksi siswa-siswi penerima beasiswa dengan lebih efektif dan efisien.
Keywords: Data Mining, Klasifikasi, Beasiswa, Support Vector Machine
1. Pendahuluan
Pendidikan merupakan salah satu kunci pembentukan sumber daya manusia yang berkualitas. Namun pada kenyataannya, masih terdapat banyak persoalan yang terjadi di dunia pendidikan negeri ini (Muzakir, 2014). Salah satu masalah di dunia pendidikan Indonesia yaitu selalu berhadapan dengan persoalan kemiskinan. Kemiskinan ini kemudian menjadi alasan seseorang mengajukan permohonan bantuan kepada lembaga pendidikan. Berbagai langkahpun ditempuh, antara lain melalui ketersediaan dana pembebasan biaya sekolah melalui program Surat Keterangan Tidak Mampu (SKTM) yang dikeluarkan dari kantor
kecamatan setempat (Pauziah, Michael Sonny, & Virgana, 2014).
Dari persoalan tersebut terdapat adanya solusi berupa beasiswa. Beasiswa merupakan pemberian bantuan keuangan maupun pendidikan yang diberikan kepada siswa yang digunakan demi keberlangsungan pendidikan yang ditempuh dengan syarat telah memenuhi syarat-syarat yang ditentukan dari pihak pemberi beasiswa (Lukman, 2016).
Program beasiswa ini diadakan untuk membantu meringankan beban siswa selama menjalani masa studinya. Beasiswa yang ditawarkan adalah bagi siswa yang berprestasi maupun yang kurang mampu agar membantu siswa tersebut dalam menempuh pendidikannya (Pujianto,
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 Kusrini, & Sunyoto, 2018). Beasiswa ini diharapkan dapat menumbuhkan dan meningkatkan semangat siswa untuk berprestasi dan menempuh pendidikan setinggi-tingginya (Rahman, 2015).
SMK Bandung Timur merupakan salah satu sekolah swasta di Kabupaten Bandung yang banyak diminati oleh para lulusan sekolah menengah pertama. Selain status sekolahnya yang memiliki Akreditasi A, SMK Bandung Timur juga menyediakan program beasiswa. Beasiswa tersebut diantaranya beasiswa untuk siswa yang berekonomi menengah kebawah dan beasiswa untuk siswa yang berprestasi.
Untuk mendapatkan beasiswa tersebut terdapat kriteria-kriteria yang harus dipenuhi oleh calon penerima beasiswa yaitu salah satunya memiliki nilai yang baik untuk beasiswa berprestasi dan memiliki Surat Keterangan Tidak Mampu (SKTM) untuk beasiswa tidak mampu. Akan tetapi, seleksi beasiswa di SMK Bandung Timur masih mengalami kendala pada proses pengambilan keputusan untuk menentukan siswa mana saja yang berhak mendapatkan beasiswa tersebut dikarenakan banyaknya jumlah peserta yang mengajukan beasiswa serta banyaknya indikator kriteria sehingga menyebabkan tidak tepatnya pemberian beasiswa tersebut seperti pada tahun-tahun terakhir. Maka dibutuhkan suatu sistem yang dapat membantu untuk menentukan siapa yang berhak untuk mendapatkan beasiswa dari sekolah dengan proses menemukan suatu model yang membedakan data dengan tujuan untuk menyeleksi siswa yang layak menerima beasiswa dengan tingkat akurasi yang tinggi. Sistem yang dapat membantu menyelesaikan masalah tersebut yaitu teknik klasifikasi data mining.
Salah satu metode dari teknik klasifikasi data mining yang digunakan untuk menentukan penerima beasiswa yaitu Support Vector Machine (SVM).
Metode Support Vector Machine (SVM) memiliki kelebihan utama yaitu mempunyai kemampuan generalisasi data yang tinggi untuk menyelesaikan klasifikasi dua kelas (Suyanto, 2017). Pada penelitian (Harahap, Muflikhah, & Rahayudi, 2018) mengenai seleksi atlet pencak silat dengan menggunakan 110 data yang dibagi menjadi data latih dan data uji dengan dua kelas hasil penerimaan seleksi yaitu lolos dan tidak lolos. Hasil akurasi dari penelitian
ini mendapatkan akurasi terbaik berdasarkan percobaan perbandingan rasio data 70%:30%, dengan menggunakan kernel Polynomial Degree d = 2 dan nilai parameter λ (lamda) = 0,1, γ (gamma) = 0,0001, ε (Epsilon) = 0,000001, C (Complexity) = 0,00001 dan Itermax = 250.
Hasil rata-rata akurasi menggunakan metode SVM pada klasifikasi penerimaan seleksi atlet pencak silat sebesar 69,09%.
Melihat dari penelitian tersebut yang hanya menghasilkan dua kelas dengan hasil rata-rata akurasi sebesar 69,09%, maka metode Support Vector Machine (SVM) sangat cocok untuk diterapkan pada penelitian seleksi penentuan beasiswa yang juga menhasilkan dua kelas yaitu layak dan tidak layak.
2. Landasan Teori
Pada bab ini dijelaskan beberapa konsep dan dasar teori yang berkaitan dengan permasalahan yang akan penulis bahas sebagai dasar pemahaman dalam mengimplementasikan konsep-konsep tersebut kedalam semua kegiatan pengembangan sistem.
2.1. Data Mining
Data Mining adalah proses yang mempekerjakan suatu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
Data mining berisi pencarian trend atau pola yang diinginkan dalam database besar untuk membantu pengembalian keputusan di waktu yang akan datang. Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan lainnya (Hermawati, 2013).
Secara umum, kegunaan data mining dapat dibagi menjadi dua : deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokan ke dalam enam kelompok berikut ini (Suyanto, 2017) :
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 a. Klasifikasi (Classification) : men-
generalisasi struktur yang diketahui untuk diaplikasikan pada data-data baru.
Misalkan, klasifikasi penyakit ke dalam sejumlah jenis, klasifikasi email ke dalam spam atau bukan.
b. Klasterisasi (Clustering) : mengelompokan data, yang tidak diketahui label kelasnya, ke dalam sejumlah kelompok tertentu sesuai dengan kelompok kemiripannya.
c. Regresi (Regression) : menemukan suatu fungsi yang memodelkan data dengan galat (kesalahan prediksi) seminimal mungkin.
d. Deteksi Anomali (Anomaly Detection) : mengidentifikasi data yang tidak umum, bisa berupa outlier (pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.
e. Pembelajaran Aturan Asosiasi (Association Rule Learning) atau Pemodelan Kebergantungan (Dependency Modeling) : mencari relasi antar variabel.
f. Perangkuman (Summarization) : menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.
2.2. Klasifikasi
Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikan suatu spesies tertentu, seperti yang dilakukan oleh Carolus von Line (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasikan spesies berdasarkan karakteristik fisik.
Selanjutnya dia dikenal sebagai bapak klasifikasi. Komponen-komponen utama dari proses klasifikasi antara lain (Widodo, Handayanto, & Herlawati, 2013) :
1. Kelas, merupakan variabel tidak bebas yang merupakan label dari hasil klasifikasi. Sebagai contoh adalah kelas loyalitas pelanggan, kelas badai atau gempa bumi dan lain-lain.
2. Perdiktor, merupakan variabel bebas suatu model berdasarkan dari karakteristik atribut data yang diklasifikasi, misalnya merokok, minum- minuman beralkohol, tekanan darah, status perkawinan dan sebagainya.
3. Set Data Pelatihan, merupakan sekumpulan data lengkap yang berisi kelas dan prediktor untuk dilatih agar model dapat mengelompokan ke dalam
kelas yang tepat. Contohnya adalah grup pasien yang telah di tes terhadap serangan jantung, grup pelanggan di suatu supermarket dan sebagainya.
4. Set Data Uji, berisi data-data baru yang akan dikelompokan oleh model guna mengetahui akurasi dari model yang telah dibuat.
2.3. Support Vector Machine (SVM) Metode klasifikasi yang kini banyak dikembangkan dan diterapkan adalah Support Vector Machine (SVM). Metode ini berakar dari teori pembelajaran statistic yang hasilnya sangat menjanjikan untuk memberikan hasil yang lebih baik dari metode lain. SVM juga bekerja dengan baik pada set data dengan dimensi yang tinggi, bahkan SVM yang menggunakan teknik kernel harus memetakan data asli dari dimensi asalnya menjadi dimensi lain yang relatif lebih tinggi (Prasetyo, 2014).
3. Metode Penelitian
3.1. Metode Pengumpulan Data
Untuk mendapatkan data-data yang diperlukan, maka penulis melakukan kegiatan pengumpulan data dengan menggunakan berbagai cara, yaitu :
A. Observasi (Observation)
Penulis melakukan observasi dan peninjauan secara langsung pada SMK Bandung Timur yang berlokasi di Jl.
Raya Cinunuk No.128.
B. Studi Pustaka (Library Research) Metode ini digunakan sebagai pendukung dan penunjang dari data yang telah ada serta sebagai bahan perbandingan penulis juga melakukan pendekatan dengan referensi buku- buku, jurnal dan skripsi yang mengacu pada bidang yang berkaitan dengan objek penelitian.
C. Wawancara (Interview)
Dalam metode wawancara ini, penulis dapat memperoleh data informasi langsung dari sumbernya yaitu WK.
Bidang Kesiswaan dan WK.Bidang Kurikulum dengan cara melakukan tanya jawab dan bertatap muka antar penulis dengan narasumber.
3.2. Metode Analisis Data
Metode analisis data bertujuan untuk mengumpulkan dan memecahkan masalah berdasarkan data yang diolah yang dilakukan dengan mengumpulkan data, mengklasifikasi dan mencatat hasil analisis.
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 A. Pengolahan Data Awal
Tahap ini dilakukan untuk mempersiapkan data yang benar-benar valid sebelum diproses pada tahap selanjutnya.
B. Metode Yang Diusulkan
Pada penelitian ini metode yang diusulkan menggunakan metode Support Machine Vector (SVM), dataset yang digunakan adalah dataset private yang diambil dari SMK Bandung Timur.
Tujuan dari penelitian ini adalah untuk melakukan penilaian akurasi pada model, dimana pengukuran akurasi menggunakan confusion matrix atau grafik yang menunjukkan nilai-nilai dari precision, recall dan accuracy, serta time excetion
.
4. Hasil dan Pembahasan 4.1. Hasil Wawancara
Berdasarkan wawancara yang telah dilakukan dengan bagian WK. Bidang Kesiswaan SMK Bandung Timur didapatkan hasil wawancara terkait data siswa-siswi yang menerima beasiswa yaitu :
1. Siswa-siswi yang menerima beasiswa adalah siswa-siswi yang mempunyai nilai akademik yang baik dan mempunyai kehadiran yang baik.
2. Siswa-siswi yang yang berhak menerima beasiswa yaitu siswa-siswi kelas XI (sebelas) yang dibuktikan dengan laporan hasil belajar pada saat kelas X (sepuluh).
3. Penerimaan beasiswa prestasi hanya sekali dalam kurun waktu 3 tahun sekolah di SMK Bandung Timur.
4.2. Data Yang Diperoleh
Berdasarkan penelitian yang telah dilakukan oleh penulis di SMK Bandung Timur terdapat 350 data siswa dengan 9 atribut. Adapun atribut dari data penerima beasiswa yang diperoleh dapat dilihat pada Tabel 1 :
Tabel 1. Atribut Penerima Beasiswa No Nama Atribut
1 NISN 2 Nama Siswa 3 Jenis Kelamin 4 Tempat Tanggal
Lahir 5 Alamat 6 Jurusan
7 Nilai Rata-rata 8 Nilai Absensi 9 Keputusan 4.3. Data Pre-Processing
Sebelum melakukan pengolahan data, untuk memperoleh data yang relevan maka dilakukan data pre-processing sehingga data menjadi input yang baik untuk mining tools. Dalam data pre-processing terdapat 2 tahap, yaitu :
1. Data Integration
Pada tahap ini penulis menggabungkan data kedalam data baru dimana data siswa yang tadinya per kelas digabungkan menjadi data keseluruhan.
2. Data Reduction
Pada tahap ini penulis menghilangkan data yang tidak dibutuhkan. Adapun atribut yang dihilangkan adalah atribut nisn, jenis kelamin, alamat dan tempat tanggal lahir.
4.4. Hasil Penelitian dan Pembahasan Dalam penelitian ini menggunakan tools data mining rapidminer. Dari data yang telah di proses diketahui type data dari masing-maisng atribut, dapat dilihat pada Tabel 2 :
Tabel 2. Type Data atribut dalam RapidMiner
Atribut Type Data
Jenis Atribut Rata-rata Real Atribut Biasa Absensi Real Atribut
Biasa Jumlah Real Atribut
Biasa Keputusan Binominal
Atribut Target (Label) Sampel data siswa-siswi penerima beasiswa prestasi SMK Bandung Timur dapat dilihat pada Gambar 1 :
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 Gambar 1. Sampel Data Siswa-Siswi
4.4.1. Cross Validation
Pada tahapan proses data mining setelah himpunan data atau dataset siap diolah maka selanjutnya adalah metode data mining dimana metode data mining yang digunakan adalah Support Vector Machine (SVM). Dalam penelitian ini digunakan Cross Validation dimana validasi ini digunakan untuk memvalidasi model yang digunakan valid atau tidak sehingga penelitian yang dilakukan lebih akurat hasilnya. Tampilan Cross Validation dapat dilihat pada Gambar 2.
Gambar 2. Proses 1 Cross Validation Pada Gambar 3 menjelaskan proses penerapan metode Support Vector Machine (SVM), apply model dan performance.
Gambar 3. Proses 2 Cross Validation
Pada Gambar 3 dijelaskan proses penggunaan operator sebagai berikut : 1. Read Excel (Retrieve Beasiswa) yang
berfungsi untuk import data dan membaca data yang telah disimpan dalam file excel yang berformat .xls atau .xlsx.
2. Cross Validation merupakan operator validasi sederhana untuk mengevaluasi model.
3. Support Vector Machine (SVM) merupakan metode yang dipakai pada penelitian ini.
4. Apply Model merupakan operator yang berfungsi untuk menerapkan model pada dataset.
5. Performance merupakan operator yang berfungsi untuk mengevaluasi penelitian dimana hasilnya berupa confusion matrix.
4.4.2. Confusion Matrix
Pada Gambar 4 menjelaskan Confusion matrix, ini berguna untuk mengevaluasi kinerja model klasifikasi yang dilakukan, yang mana berdasarkan pada kemampuan akurasi suatu model yakni model dalam penelitian ini yaitu Support Vector Machine (SVM) yang telah divalidasi menggunakan Cross Validation. Akurasi dinyatakan dalam persentase (%). Pada penelitian ini diperoleh nilai akurasi sebesar 92,71%.
Gambar 4. Confusion Matrix Nilai akurasi ini di dapat dari perhitungan jumlah data yang diprediksi benar dan diprediksi salah. Dimana dalam confusion matrix tersebut diperoleh hasil sebagai berikut :
1. Pred. Tidak Menerima – True Tidak Menerima (artinya jumlah data yang benar diprediksi tidak menerima) = 96 data.
2. Pred. Menerima – True Tidak Menerima (artinya jumlah data yang benar diprediksi menerima) = 8 data.
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 3. Pred. Tidak Menerima – True Menerima
(artinya jumlah data yang diprediksi tidak menerima tapi kenyataannya menerima) = 3 data.
4. Pred. Menerima – True Menerima (artinya jumlah data yang benar diprediksi menerima memang benar diterima) = 44 data.
Hasil accuracy, precission dan recall yang dikeluarkan oleh RapidMiner dapat dibuktikan dengan rumus :
Accuracy :
Precission :
Recall :
4.4.3. Kurva ROC (Receiver Operating Characteristic)
ROC menunjukan akurasi dan membandingkana klasifikasi secara visual.
Kurva ROC mengekpresikan confusion matrix yang menunjukan grafik dua dimensi dengan false positif sebagai garis horizontal
dan true positif sebagai garis veritkal. Dapat dilihat pada Gambar 5.
Gambar 5. Kurva ROC
Hasil yang diperoleh dari pengolahan kurva ROC menghasilkan nilai AUC sebesar 0,998 yang termasuk kategori Excellent Classification.
5. Penutup 5.1. Kesimpulan
Dari latar belakang masalah yang telah penulis paparkan di atas, maka dapat ditarik kesimpulan sebagai berikut :
1. Metode Support Vector Machine (SVM) dapat diterapkan untuk membantu melakukan pengklasifikasian dalam menentukan penerimaan beasiswa pada SMK Bandung Timur.
2. Hasil akurasi pada pengujian data menggunakan 151 dataset yang dibagi menjadi 2 kelas dengan Cross Validation sebesar 92,71% dan nilai AUC yang dilihat dari kurva ROC sebesar 0,998 yang termasuk kategori Excellent Classification.
5.2. Saran
Dari kesimpulan di atas, penulis menyadari bahwa penelitian ini masih banyak kekurangan. Maka dari itu, penulis menyarankan untuk peneliti selanjutnya : 1. Untuk dapat dikembangkan dengan
menggunakan aplikasi atau program supaya lebih efektif dan efisien.
2. Dalam menentukan penerima beasiswa menggunakan metode klasifikasi lain seperti Neural Network, K-Means, Decission Tree, dsb.
Referensi
Harahap, E. H., Muflikhah, L., & Rahayudi, B. (2018). Implementasi Algoritma Support Vector Machine (SVM) Untuk Penentuan Seleksi Atlet
𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
44 + 96 44 + 8 + 3 + 96
140
151
= 0,9271
= 92,71%
𝑇𝑃 𝑇𝑃 + 𝐹𝑃
44 44 + 8
44
52
= 0,8462
= 84,62%%
𝑇𝑃 𝑇𝑃 + 𝐹𝑁
44 44 + 3
44
47
= 0,9362
= 93,62%
JURNAL INFORMATIKA Vol. 6 No. 1, April 2019 Pencak Silat. Jurnal
Pengembangan Teknologi Informasi dan Ilmu Komputer, 3843-3848.
Hermawati, F. A. (2013). DATA MINING.
Yogyakarta: CV. ANDI OFFSET.
Lukman. (2016). PENERAPAN
ALGORITMA SUPPORT VECTOR MACHINE (SVM) DALAM
PEMILIHAN BEASISWA : STUDI KASUS SMK YAPIMDA. Faktor Exacta 9 (1) , 49-57.
Muzakir, A. (2014). ANALISA DAN PEMANFAATAN ALGORITMA K- MEANS CLUSTERING PADA DATA NILAI SISWA SEBAGAI PENENTUAN PENERIMA BEASISWA. Prosiding Seminar Nasional Aplikasi Sains &
Teknologi (SNAST) 2014, A-195.
Pauziah, U., Michael Sonny, & Virgana.
(2014). KAJIAN ALGORITMA NAIVE BAYES DALAM PEMILIHAN PENERIMA BEASISWA TINGKAT SMA.
Seminar Nasional Teknologi Informasi dan Multimedia 2014, 1.2.
Prasetyo, E. (2014). Data Mining Mengolah Data Menjadi Informasi
Menggunakan Matlab. Yogyakarta:
CV. ANDI OFFSET.
Pujianto, A., Kusrini, & Sunyoto, A. (2018).
PERANCANGAN SISTEM PENDUKUNG KEPUTUSAN UNTUK PREDIKSI PENERIMA BEASISWA MENGGUNAKAN METODE NEURAL NETWORK BACKPROPAGATION. Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 157-162.
Rahman, M. A. (2015). ALGORITMA C45 UNTUK MENETUKAN
MAHASISWA PENERIMA
BEASISWA (STUDI KASUS : PPS IAIN RADEN INTAN BANDAR LAMPUNG). Jurnal TIM Darmajaya Vol. 01 No. 02 Oktober 2015.
Suyanto. (2017). Data Mining Untuk Klasifikasi dan Klasterisasi Data.
Bandung: Informatika.
Widodo, P. P., Handayanto, R. T., &
Herlawati. (2013). Penerapan Data Mining Dengan Matlab. Bandung:
Rekayasa Sains.