PERBANDINGAN 3 METODE DALAM DATA MINING UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI Perbandingan 3 Metode Dalam Data Mining Untuk Prediksi Penerima Beasiswa Berdasarkan Prestasi Di SMA Negeri 6 Surakarta.

(1)

PERBANDINGAN 3 METODE DALAM DATA MINING

UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA

Naskah Publikasi Program Studi Informatika Fakultas Komunikasi dan Informatika

Oleh :

Veronica Andriyana

Yusuf Sulistyo Nugroho, S.T., M.Eng

PROGRAM STUDI INFORMATIKA

FEKULTAS KOMUNIKASI DAN INFORMATIKA UNIVERSITAS MUHAMMADIYAH SURAKARTA

(2)

(3)

(4)

(5)

PERBANDINGAN 3 METODE DALAM DATA MINING

UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI DI SMA NEGERI 6 SURAKARTA

Veronica Andriyana, Yusuf Sulistyo Nugroho

Program Studi Informatika, Fakultas Komunikasi dan Informatika Universitas Muhammadiyah Surakarta

Email : veronica.andriyana8@gmail.com

Abstraksi

Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan proses data mining.

Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear. Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan, Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.

Pengimplementasian data mining menggunakan perbandingan 3 metode dapat diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah Nilai rata-rata.

Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear

PENDAHULUAN

Dalam dunia pendidikan, data yang berlimpah dan berkesinam-bungan mengenai siswa yang dibina dan alumni terus dihasilkan. Menurut Jing (2004) dan Merceron (2005) dalam Nugroho (2014), data yang

(6)

Negeri 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi untuk siswa berprestasi. Namun masih ada permasalahan yang sering muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa, misalnya siswa yang sebenarnya tidak layak mendapatkan beasiswa tetapi mendapatkan beasiswa, sebaliknya siswa yang berhak mendapatkan beasiswa baik itu beasiswa beprestasi maupun beasiswa kurang mampu tetapi tidak mendapatkan beasiswa. Tujuan dari adanya beasiswa untuk siswa berprestasi tersebut yaitu memotivasi siswa untuk selalu meningkatkan prestasi akademik maupun non akademik, membantu siswa yang kurang mampu tetapi berprestasi, dan menumbuhkan rasa percaya diri siswa untuk berkompetitif dalam mengembangkan potensinya.

Berdasarkan permasalahan tersebut dapat diambil solusi dengan cara memanfaatkan teknik data mining dengan membandingkan 3 metode untuk prediksi siswa penerima beasiswa berdasarkan prestasi yaitu Naïve Bayes, Decision Tree Algoritma

ID3, Regresi Linear. Dengan analisis perbandingan tersebut, diharapkan dapat membantu menemukan informasi tentang siswa yang menerima beasiswa berdasarkan prestasi sehingga membantu pihak sekolah dalam mencari solusi dapat mengetahui tingkat prestasi siswa dan lebih meningkatkan lagi mutu pendidikan sekolah dengan adanya siswa-siswa yang berprestasi.

LANDASAN TEORI

1. Prediksi / Peramalan

Menurut susanto dalam Mauriza (2014) Prediksi adalah memperkirakan sesuatu yang akan terjadi pada masa yang mendatang. Prediksi juga dapat digunakan dalam pengklasifi-kasian, tidak hanya untuk memprediksi time series, karena sifatnya yang bisa menghasilkan class berdasarkan atribut yang ada.

2. Data Mining

(7)

pemakaian data, historis, untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. (Santoso, 2007) 3. Naive Bayes

Naive Bayes adalah teknik prediksi berbasis probabilitic sederhana yang berdasar pada penerapan Teorema Bayes (aturan Bayes) dengan asumsi independensi

(ketidakketergantungan) yang kuat. (Prasetyo, 2012)

4. Decision Tree Algoritma ID3 Decision Tree adalah metode untuk menemukan fungsi pendekatan yang bernilai diskrit dan tahan terhadap data-data yang memiliki kesalahan (noisy data) serta mampu mempelajari ekspresi-ekspresi disjunctive seperti OR. Iterative Dychotomizer version 3 (ID3) adalah salah satu jenis decision

tree yang umumnya digunakan untuk menemukan aturan yang diharapkan bisa berlaku untuk data-data tidak lengkap atau belum pernah kita ketahui. (Lesmana, 2012)

5. Regresi Linear

Analisis regresi adalah teknik statistik untuk permodelan dan investigasi hubungan dua atau lebih variabel. (Santosa, 2007)

METODE PENELITIAN a. Penentuan Atribut

Tahap yang pertama adalah menganalisis dan menyeleksi data keseluruhan untuk mendapatkan atribut dengan record yang relevan terhadap

keluaran yang diinginkan.

Atribut yang digunakan dalam prediksi penerima beasiswa terdapat dalam tabel 1

Tabel 1 Daftar Atribut

Atribut Variabel

Beasiswa Y

Nilai rata – rata X1

Gender X2

Ekstrakurikuler X3

Jurusan X4

Semester X5

Jumlah tanggungan orang tua X6

(8)

b. Implementasi Data Mining 1. Naive Bayes

Klaifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah class. Klasifikasi ini

dihitung berdasarkan Teoema Bayes. (Widiastuti, 2010) Persamaan dari teorema Bayes dirumuskan seperti Persamaan 1 berikut ini :

... (1)

2. Decision Tree Algoritma ID3 Hal yang harus dilakukan dalam metode decision tree

adalah menghitung entrophy dan information gain. (Ranny dkk, 2012)

Persamaan 2 Rumus entrophy :

...(2) Persamaan 3 Rumus Information Gain

...(3)

3. Regresi Linear

Analisis regresi adalah teknik statistik untuk permodelan dan

investigasi hubungan dua atau lebih variabel. (Santosa, 2007) Persamaan 4 Rumus Regresi Linear :

...(4)

HASIL DAN PEMBAHASAN 1. Penentuan Sampel

Untuk mendapatkan sampel yang dapat menggambarkan dan mewakili jumlah populasi, maka dalam penentuan sampel penelitian ini digunakan rumus Slovin (Umar, 2004)

Rumus Slovin dirumuskan seperti Persamaan 5 berikut ini :

... (5) n = 1290 / 1 + 1290 (0,05)2 n = 305,325 siswa

(9)

Gambar 1 Scatter Plot NaiveBayes menggunakan data testing 2. Hasil Implementasi Naive

Bayes menggunakan

RapidMiner 5

Berdasarkan scatter plot pada gambar 1 menunjukkan bahwa penerima beasiswa dengan nilai rata-rata nilai≥8 dan jurusan BAHASA sebagian ada yang menerima beasiswa. Sedangkan nilai≥8 dan jurusan IPA hasilnya tidak ada yang menerima beasiswa.

3. Hasil Implementasi Decision

Tree Algortima ID3

menggunakan RapidMiner 5 Berdasarkan scatter plot dalam gambar 2 menunjukkan bahwa 6<nilai≤8 dan Jurusan IPA hasilnya mayoritas TIDAK MENERIMA.

Sedangkan nilai≥8 dan Jurusan IPS hasilnya mayoritas TIDAK MENERIMA tetapi ada beberapa siswa yang MENERIMA beasiswa tersebut.

4. Hasil Implementasi Regresi

Linear menggunakan

RapidMiner 5

(10)

Gambar 2 Tampilan hasil decision tree pada Scatter Plot

Gambar 3 Scatter view Regresi Linear

5. Perhitungan Naive Bayes

Sebagai contoh penulis mengambil salah satu data uji yang memiliki ciri sebagai berikut :

nilai ≥ 8, PEREMPUAN, OLAHRAGA, IPA, semester 5, tanggungan ≤ 4, gaji ≤ 1500000. Apakah siswa tersebut Menerima atau Tidak Menerima beasiswa ?

Fakta menunjukkan :

P( Y =MENERIMA)= 31 / 305 = 0,10164

P( Y =TIDAK MENERIMA)= 274 / 305 = 0,89836

Fakta :

P (X1= nilai≥ 8 |Y=

(11)

P (X1= nilai≥ 8 |Y= TIDAK MENERIMA)= 125 / 274 = 0,45620

P (X2= PEREMPUAN |Y= MENERIMA)= 19 / 31 = 0,61290

P (X2= PEREMPUAN |Y= TIDAK MENERIMA)= 90 / 274 = 0,32847

P (X3= OLAHRAGA |Y= MENERIMA)= 3 / 31 = 0,09677 P (X3= OLAHRAGA |Y= TIDAK MENERIMA)= 22 / 274 = 0,08029

P (X4= IPA |Y= MENERIMA)= 2 / 31 = 0,06452

P (X4= IPA |Y= TIDAK MENERIMA)= 7 / 274 = 0,02555

P (X5= 5 |Y= MENERIMA)= 1 / 31 = 0,03226

P (X5= 5 |Y=TIDAK MENERIMA)= 4 / 274 = 0,01460

P (X6= tanggungan≤ 4 |Y= MENERIMA)= 1 / 31 = 0,03226 P (X6= tanggungan≤ 4 |Y= TIDAK MENERIMA)= 2 / 274 = 0,00730

P (X7= gaji ≤ 1500000 |Y= MENERIMA)= 1 / 31 = 0,03226

P (X7= gaji ≤ 1500000|Y= TIDAK MENERIMA)= 1 / 274 = 0,00365

HMAP dari keadaan ini dapat dihitung dengan :

P(X1= nilai ≥ 8, X2=

PEREMPUAN, X3=

OLAHRAGA, X4= IPA, X5= 5, X6= tanggungan≤ 4, X7 = gaji ≤ 1500000 | Y = MENERIMA)

= 0,00105287

P(X1= nilai ≥ 8, X2= PEREMPUAN, X3= OLAHRAGA, X4= IPA, X5= 5, X6= tanggungan≤ 4, X7= gaji ≤ 1500000 | Y = TIDAK

MENERIMA) = 0,0000107389 KEPUTUSAN PREDIKSI BEASISWA = MENERIMA.

(12)

a) Menentukan Root Node

Root Node adalah atribut yang memiliki nilai information gain paling tinggi.

Tabel 2 Information gain tertinggi

Atribut Nilai gain

Gender 0,001

Nilai rata - rata 0,035 Ekstrakurikuler 0,028

Jurusan 0,000

Semester 0,015

Tanggungan orang tua

0,002

Gaji orang tua 0,009

b) Menentukan Internal Node pertama

Menentukan internal node pada Nilai rata-rata 6 < nilai ≤ 8 didapatkan nilai information gain seperti pada tabel 3.

Tabel 3 Nilai Information gain Atribut Nilai Gain

rata-rata 6 < nilai ≤ 8

Gender 0,005

Ekstrakurikuler 0,017

Jurusan 0,039

Semester 0,033

0,001

c) Menentukan Internal Node kedua Menentukan internal node pada Nilai rata-rata 6 < nilai ≤ 8 dan jurusan BAHASA didapatkan

nilai information gain seperti pada tabel 4.

Tabel 4 Nilai Information gain Atribut Nilai Gain

6 < nilai ≤ 8 BAHASA

Gender 0,061

Ekstrakurikuler 0,075

Semester 0,026

0,075

d) Menentukan Leaf Node

Menentukan leaf node pada Nilai rata-rata 6 < nilai ≤ 8, jurusan BAHASA dengan ekstrakurikuler Olahraga didapatkan nilai information gain seperti pada tabel 5.

Tabel 5 Nilai Information gain Atribut Nilai Gain

6 < nilai ≤ 8, BAHASA,

Olahraga

Gender 0,000

Semester 0,000

0,000

Dari hasil tabel 5 dapat disimpulkan bahwa ekstrakurikuler Olahraga menghasilkan leaf node, karena hasil dari information gain bernilai 0.

(13)

Dari perhitungan implementasi Regresi Linear menggunakan RapidMiner menghasilkan sebuah persamaan sebagai berikut : Y = (0,136 × NILAI RATA – RATA) – ( 0,078 × SEMESTER)

+ (0,021 × JUMLAH

TANGGUNGAN ORANG TUA) + 0,858

Dari persamaan tersebut dibuktikan dengan perhitungan manual dengan mengambil beberapa sampel data seperti di bawah ini :

Pengujian penghitungan siswa yang MENERIMA BEASISWA : Y = (0,136 × 4) – (0,078 × 2) + (0,021 × 0) + (0,015 × 0) + 0,858 = 1,246

Karena hasilnya mendekati 1 maka hasilnya MENERIMA.

KESIMPULAN

Berdasarkan penjelasan dan analisis yang telah diuraikan, maka dapat ditarik kesimpulan bahwa :

1. Variabel yang paling mempengaruhi dari hasil perhitungan 3 metode (Naive Bayes, Decision Tree Algoritma

ID3, dan Regresi Linear) adalah nilai rata – rata.

2. Berdasarkan dari nilai precision, metode Decision Tree Algoritma ID3 lebih baik digunakan dalam penelitian ini karena memiliki nilai lebih baik dari pada algoritma yang lainnya.

3. Berdasarkan nilai recall dan accuracy, Regresi Linear lebih

baik digunakan dalam penelitian ini karena memiliki nilai lebih baik dari metode yang lain.

4. Hasil dari nilai precision, recall, dan accuracy nya adalah sebagai berikut:

a. Naive Bayes hasil precision 89,90% , recall 99,64%, dan accuracy 89,51%.

b. Decision Tree Algoritma ID3 hasil precision 90,04% , recall 82,48%, dan accuracy 76,07%. c. Regresi Linear hasil precision

(14)

DAFTAR PUSTAKA

Lesmana, Dody Putu. 2012. ‘Perbandingan Kinerja Decision Tree J48 dan ID3 Dalam Pengklasifikasian Diagnosis Penyakit Diabetes Mellitus’. Jurnal Teknologi dan Informatika, Vol. 2, no. 2.

Mauriza, Ahmad Fikri. 2014. ‘Implementasi Data Mining Untuk Memprediksi Kelulusan Mahasiswa Fakultas Komunikasi dan Informatika UMS Menggunakan Metode Naïve Bayes’, Skripsi.Fakultas Komunikasi Dan Informatika, Universitas Muhammadiyah Surakarta.

Nugroho, Yusuf Sulistyo. 2014. ‘Klasifikasidan Prediksi Masa Studi dan Prestasi Mahasiswa Fakultas Komunikasi dan Informatika Universitas Muhammadiyah Surakarta’, Jurnal KomuniTI, Vol VI, No 1, Maret 2014.

Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab. Yogyakarta: Andi.

Ranny dkk. 2012. ‘Pemilihan Diet Nutrien bagi Penderita Hipertensi Menggunakan Metode Klasifikasi Decision Tree’, Jurnal Teknik ITS, Vol. 1, No.1.

Santosa, Budi. 2007. Data Mining Terapan dengan Matlab. Yogyakarta: Graha Ilmu.

Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: GrahaIlmu.

Umar, Husein (2014). Metode Penelitian Untuk Skripsi Dan Tesis Bisnis. Cetakanke – 6.Jakarta : PT Raja GrafindoPersada.

(15)

BIODATA PENULIS

Nama : Veronica Andriyana

NIM : L200110086

Tempat Lahir : Surakarta

Tanggal Lahir : 8 Februari 1993

Jenis Kelamin : Perempuan

Agama : Islam

Pendidikan : S1

Fakultas : Jurusan Informatika/Fakultas Komunikasi dan Informatika

Universitas : Universitas Muhammadiyah Surakarta

Alamat : Jl. Tarumanegara Utara II, Tempel RT 5 RW 7, Banyuanyar, Banjarsari, Surakarta

Nomor Telepon : 085799480482