• Tidak ada hasil yang ditemukan

PENENTUAN TINGKAT KELULUSAN TEPAT WAKTU MAHASISWA STMIK SUBANG MENGGUNAKAN ALGORITMA C4.5

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENENTUAN TINGKAT KELULUSAN TEPAT WAKTU MAHASISWA STMIK SUBANG MENGGUNAKAN ALGORITMA C4.5"

Copied!
11
0
0

Teks penuh

(1)

46 http://research. pps. dinus. ac. id

PENENTUAN TINGKAT KELULUSAN TEPAT WAKTU

MAHASISWA STMIK SUBANG MENGGUNAKAN ALGORITMA C4.5

Hermansyah Nur Ahmad1, Vincent Suhartono2, Ika Novita Dewi3

123Pascasarjana Teknik Informatika Universitas Dian Nuswantoro

ABSTRACT

Timely graduatuion rates in college could not be consideres easy and trivial. Many cases found that the share of the number of students who did not get in and who have completed their studies so that the build up of high numbers of students in every period. I need to know the factors cause students not graduating on time. Classification data mining techniques can be used to predict student graduation rates. The algorithm used is algoritmic C 4.5 with data as much as 200 students study computer engineering programs STMIK Subang. The result of the classification process is evaluated by using the confusion matrix, ROC Curve, Recall. Based on experimental results and evluation is done then it can be inferred that the algorithm C 4.5 accurately applied to determine the level of students graduation. After testing the prediction accuracy resulting from trials reached 95,00% of the classification result generate information in the from of graph in the form of the curve results from the decision tree that is useful for institutions of higher education in taking policy.

Keywords : Classification, C 4.5 Algorithm, Graduation Rate

1. PENDAHULUAN

STMIK Subang merupakan salah satu perguruan tinggi swasta yang sukses menarik banyak mahasiswa di setiap periodenya. Namun ada beberapa hal yang tidak seimbang antara masuk dan keluarnya mahasiswa yang telah menyelesaikan studinya. Mahasiswa yang masuk dalam jumlah besar, tetapi mahasiswa yang lulus tepat waktu sesuai dengan ketentuan jauh sangat kecil dibandingkan masuknya. Berdasarkan matriks penilaian instrumen akreditasi program studi Badan Akreditasi Perguruan Tinggi [1] bahwa persentase mahasiswa yang lulus tepat waktu merupakan salah satu elemen penilaian akreditasi perguruan tinggi.

Data dari Pusat Statistik Pendidikan Badan Penelitian dan Pengembangan Departemen Pendidikan Nasional Republik Indonesia [1] pada tahun akademik 2001/2002 sampai dengan 2009/2010 menunjukkan bahwa perguruan tinggi menerima rata-rata sebanyak 868.050 mahasiswa baru dan meluluskan rata-rata 451.168 mahasiswa setiap tahunnya. Jumlah lulusan perguruan tinggi ternyata hanya mencapai 51,97% dari jumlah mahasiswa baru setiap tahun. Artinya terdapat 48,03% mahasiswa yang tidak diketahui statusnya. Ketidakjelasan status tersebut bisa jadi karena mahasiswa menempuh studi tidak tepat waktu, memiliki status non aktif (mangkir) atau bahkan drop out. Akibat yang akan ditimbulkan dari permasalahan di atas adalah terjadinya penumpukan jumlah mahasiswa dalam jumlah tinggi di setiap periode sehingga sangat berpengaruh terhadap salah satu elemen penilaian akreditasi yang ditetapkan oleh Badan Akreditasi Nasional.

(2)

http://research. pps. dinus. ac. id , 47 Gambar 1. Grafik Perbandingan Jumlah Mahasiswa Baru dan Lulusan Perguruan Tinggi di Indonesia

Sumber : Data dari pusat statistik Pendidikan Badan Penelitian dan Pengembangan Departemen Pendidikan Nasional Republik Indonesia tahun akademik 2001/2002 sampai dengan 2009/2010.

Peneliti seperti Khafiizh Hastuti [2] melakukan penelitian dengan mengkomparasi beberapa algoritma dan salah satu algoritma yang digunakan adalah Decisition Tree C4.5 dengan tingkat akurasi tertinggi 95,25%. Saat ini, masalah kegagalan studi siswa dan faktor-faktor penyebabnya menjadi topik yang menarik untuk diteliti [3]. Perguruan tinggi perlu mendeteksi perilaku mahasiswa yang memiliki status “tidak diinginkan” tersebut sehingga dapat diketahui faktor-faktor penyebab kegagalannya. Beberapa penyebab kegagalan mahasiswa diantaranya rendahnya kemampuan akademik, faktor pembiayaan, domisili saat menempuh studi dan faktor lainnya.

Yang menjadi permasalahan di STMIK Subang adalah tidak seimbangnya jumlah mahasiswa yang masuk jauh lebih besar dibandingkan dengan jumlah mahasiswa yang telah menyelesaikan masa studinya. Hal itu akan berpengaruh terhadap proses akreditasi di lembaga Perguruan Tinggi di STMIK Subang. Saat ini, masalah tingkat kelulusan tepat waktu dan faktor-faktor yang menjadi penyebabnya menjadi topik yang menarik untuk diteliti.

Untuk menangani permasalahan di atas, diusulkan sebuah metode algoritma C4.5 untuk memprediksi tingkat kelulusan tepat waktu mahasiswa STMIK Subang. Algoritma C4.5 memiliki akurasi yang baik serta memiliki kelebihan yaitu dapat menampilkan sebuah pohon keputusan dalam bentuk Rule (Aturan) yang berguna sebagai ukuran apakah model tersebut dapat memberikan informasi yang dibutuhkan oleh pihak manajemen STMIK Subang dalam pengambilan sebuah keputusan.

Pada penelitian ini, algoritma C4.5 akan diterapkan untuk menentukan tingkat kelulusan mahasiswa tepat waktu mahasiswa STMIK Subang dengan hasil akurasi prediksi yang lebih akurat.

Berdasarkan permasalahan tersebut di atas maka dapat disimpulkan bahwa algoritma C.4.5 dapat digunakan sebagai pendekatan untuk menentukan tingkat kelulusan tepat waktu. Berdasarkan latar belakang dan masalah di atas, maka penelitian ini bertujuan untuk melakukan prediksi tingkat kelulusan tepat waktu dengan menentukan faktor-faktor yang mempengaruhi tingkat kelulusan mahasiswa tepat waktu dengan hasil prediksi yang lebih akurat menggunakan algoritma C4.5.

2. TINJAUAN PUSTAKA 2.1. Penelitian Terkait

Banyak penelitian yang membahas mengenai penentuan tingkat kelulusan mahasiswa dengan berbagai algoritma data mining. Di bawah ini ada beberapa penelitian yang berkaitan dengan penentuan tingkat kelulusan mahasiswa yaitu seperti dijelaskan berikut ini.

Khafiizh Hastuti (2012) melakukan penelitian Analisis Komparasi Algoritma Klasifikasi Data

mining untuk Prediksi Mahasiswa Non Aktif dengan membuat model untuk memprediksi mahasiswa

non aktif dengan melakukan komparasi dari beberapa algoritma data mining [2]. Data yang digunakan diperoleh dari Universitas Dian Nuswantoro pada tahun 2011 menunjukkan bahwa dari 13.416 mahasiswa terdapat 30,84% atau 4.138 mahasiswa memiliki status non aktif. Keadaan ini sangat

(3)

48 http://research. pps. dinus. ac. id memprihatinkan mengingat pada tahun 2009, Universitas Dian Nuswantoro telah men-droup out-kan sebanyak 3.432 mahasiswa. Artinya bahwa dalam jangka waktu dua tahun rata-rata terdapat 2.069 mahasiswa yang memiliki status non aktif tiap tahunnya. Manajemen universitas selama ini menganggap bahwa faktor kemampuan financial mahasiswa sebagai faktor utama munculnya kasus mahasiswa memiliki status non aktif. Khafiizh Hastuti memilih 22 atribut data mahasiswa dan kemudian melakukan metode pengujian dengan cara komparasi dari masing-masing algoritma.

Berikut ini tabel yang menjelaskan tentang akurasi beberapa algoritma Data mining yang dibandingkan.

Akurasi Beberapa Algoritma Data mining

LR DT NB NN

Accuracy 81,64 95,29 93,47 94,56 AUC 0,933 0,963 0,976 0,976

Berdasarkan tabel di atas dapat diketahui bahwa algoritma decision tree memiliki nilai accuracy tertinggi yaitu 95,29%, neural network 94,56%, naive bayes 93,47%, dan logistic regression 81,64%. Sedangkan pada uji ROC curve menunjukkan bahwa neural network dan naive bayes mancapai nilai AUC yang terbaik yaitu 0,976, kemudian decision tree 0,963 dan logistic regression 0,933

. Maselina Silvia Suhartinah (2010) dalam penelitiannya tantang Graduation Prediction of

Gunadarma University Students Using Naive Bayes and C4.5 Algorithm menyatakan bahwa tingkat

kelulusan mahasiswa dipengaruhi oleh beberapa faktor yang terdapat pada data mahasiswa berdasarkan data NEM, IP DNS semester 1, IP DNS semester 2, IPK DNU semester 1-2, gaji orang tua dan pekerjaan orang tua [4]. Data yang digunakan berjumlah 22 data set mahasiswa jurusan teknik informatika, 15 data yang digunakan berasal dari data angkatan 2005 yang didapat saat proses pengumpulan data. Dimana 10 data yang digunakan merupakan data yang dipakai dalam proses training sementara itu 5 data lainnya tidak digunakan untuk proses training. Berdasarkan hasil pengujian didapat akurasi ketepatan hasil prediksi C4.5 adalah 85,7%. [4].

Pada penelitian Penerapan Data mining untuk Evaluasi Kinerja Akademik Mahasiswa menggunakan Algoritma Naive Bayes Classifier Mujib Ridwan, dkk. (2013) memberikan rekomendasi solusi untuk memandu mahasiswa lulus dalam waktu yang paling cepat dengan nilai optimal berdasarkan histori nilai yang telah ditempuh mahasiswa [5]. Hasil pengujian menunjukkan bahwa faktor yang paling berpengaruh dalam penentuan klasifikasi kinerja akademik mahasiswa yaitu Indeks Prestasi Komulatif (IPK), Indeks Prestasi (IP) semester 1-4, Jenis Kelamin, Asal Sekolah, Jalur Masuk, Nilai Unas, Gaji Orang Tua, Ket. Lulus. Menghasilkan tingkat akurasi tertinggi yaitu 70%.

Pada penelitian New Classification Algorithm for Developing Online Program Recommendation

System Thomas Meller, dkk. (2009) membangun program online untuk sistem rekomendasi dengan

menggunakan pendekatan baru sebagai alternatif terhadap algoritma Naive Bayes dan algoritma J48 [6]. Mereka menyediakan suatu perencanaan program pelayanan kepada penesehat akademik dan siswa dari institusi pendidikan pasca sekolah menengah. Untuk mengevaluasi ketepatan klasifikasi untuk rekomendasi program dihasilkan oleh algoritma tersebut. Sebuah studi statistik dilakukan melalui membandingkan algoritma tersebut melawan dua algoritma klasifikasi terkenal, yaitu algoritma naive

bayes dan algoritma J48. Membuat rekomendasi kepada siswa berdasarkan sejarah akademis mereka.

Studi mengusulkan algoritma nearest-neighbor dan teruji menggungguli Naive Bayes dan J48, dalam hal klasifikasi siswa[6].

Pada penelitian Mining Students’ Academic Performance Azwa Abdul Aziz, dkk. (2012) menyatakan bahwa beberapa faktor yang berpengaruh dalam mempredisksi kinerja akademik mahasiswa yaitu dengan memilih beberapa atribut : Jenis Kelamin, Kota Asal, Etnis, IPK Semester 1 , Program Studi yang dipilih, Penghasilan Keluarga. Hasil prediksi dengan menggunakan algoritma C4.5 dengan tingkat akurasi tertinggi 96,57%[7].

2.2. Landasan Teori

2.2.1 Prediksi Tingkat Kelulusan

Tingkat kelulusan merupakan istilah yang berhubungan dengan kinerja akademik yang berarti terkait bahwa prestasi akademik mahasiswa di evaluasi setiap akhir semester untuk mengetahui hasil belajar

(4)

http://research. pps. dinus. ac. id , 49 yang telah dicapai. Prediksi tingkat kelulusan merupakan alat alternatif yang menjanjikan untuk mendeteksi mahasiswa yang berpotensi tidak lulus tepat waktu dan lulus tepat waktu dengan menerapkan hasil klasifikasi nilai IPK maupun status mahasiswa itu sendiri.

Dari hasil pengujian menunjukkan bahwa faktor yang paling berpengaruh dalam penentuan tingkat kelulusan mahasiswa yaitu Indeks Prestasi Kumulatif (IPK), Indeks Prestasi Semester 1-8 (IPS_1 s/d IPS_8), Jenis Kelamin, Usia, Status Mahasiswa dan Status Pengambilan TA.

2.2.2 Data mining

Gather Group [8] menyebutkan bahwa data mining adalah : a. Proses menelusuri pengetahuan baru

b. Pola dan tren yang dipilah dari jumlah data yang besar yang disimpan dalam respositori atau tempat penyimpanan dengan menggunakan teknik pengenalan pola serta statistik dan teknik matematika.

Data mining adalah proses yang menggunakan statistik, matematika, kecerdasan buatan, dan machine learning untuk mengektrasi dan identifikasi informasi yang bermanfaat dan pengetahuan yang

terkait dari berbagai database besar [9].

Menurut Gather Group data mining adalah suatu proses menemukan hubungan yang berarti, pola dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika [8].

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual [10]. Data mining, sering juga disebut knowledge discovery in database (KKD), adalah kegiatan meliputi pengumpulan, pemakaian data histori untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan.

Fungsi-fungsi dalam data mining mengacu pada larose [8] terdapat enam fungsi yaitu [11]: a. Fungsi deskripsi (description)

Fungsi deksripsi adalah cara yang digunakan untuk menggambarkan sekumpulan data secara ringkas. Banyak cara yang digunakan dalam memberikan gambaran secara ringkas bagi sekumpulan data yang besar jumlahnya dan banyak macamnya yaitu Deksripsi Grafis, Deskripsi Lokasi, dan Deskripsi Keragaman.

b. Fungsi Estimasi (estimation)

Fungsi estimasi adalah fungsi yang memperkirakan suatu hal yang sudah ada datanya. Fungsi estimasi terdiri dari dua cara yaitu Estimasi Titik dan Estimasi Selang Kepercayaan.

c. Fungsi Prediksi (prediction)

Fungsi prediksi adalah memperkirakan hasil hari hal yang belum diketahui, untuk mendapatkan hal baru yang akan muncul selanjutnya. Cara memprediksi dalam fungsi ini adalah Regresi Linier. d. Fungsi Klasifikasi (classification)

Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan terdiri dari algoritma

Mean Vector, algoritma K-nearest Neighbor, algoritma C4.5, dan algoritma C5.0.

e. Fungsi Pengelompokan (Cluster)

Fungsi pengelompokan, data yang dikelompokan disebut objek atau catatan yang memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang berbeda. Algoritma yang digunakan adalah algoritma Hirarchical Clustering, algoritma Partitional Clustering, algoritma

Single Linkage, algoritma Complete Linkage, algoritma Average Linkage, algoritma K-Means dan

lain-lain.

f. Fungsi Asosiasi (Asosiation)

Fungsi asosiasi adalah untuk menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item yang menjadi objek. Algoritma yang digunakan adalah algoritma

Generalized Association Rules, Quantitative Association Rule, Asynchronous Paraller Mining.

Fungsi data mining yang digunakan dalam penelitian ini adalah fungsi klasifikasi dengan algoritma C4.5. dalam melakukan klasifikasi akan digunakan data latihan atau data pengalaman, mengapa disebut demikian? Data histori disebut data latihan (training data) karena sesuai dengan pengertiannya yaitu akan menghasilkan pengetahuan.

(5)

50 http://research. pps. dinus. ac. id Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 2. Tahap-tahap tersebut bersifat interaktif. Pemakai terlibat langsung atau dengan perantaraan knowledge base.

Gambar 2. Tahapan Proses dalam Data mining

a. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak relevan dengan hipotesa data mining yang kita miliki. Pembersihan data yang tidak relevan akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

b. Integrasi data (penggabungan data dari beberapa sumber)

Integrasi data dilakukan pada atribut-atribut yang mengidentifikasikan entitas-entitas yang unik. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya. Hasil integrasi data sering diwujudkan dalam sebuah data warehouse.

c. Tranformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data

mining tertentu yang tergantung pada tahapan ini.

d. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Beberapa teknik data mining sudah umum dipakai. Ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu.

e. Evaluasi pola yang ditentukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat. f. Presentasi pola yang ditentukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining.

(6)

http://research. pps. dinus. ac. id , 51 2.2.3 Algoritma C4.5

Algoritma C4.5 adalah hasil dari pengembangan algoritma ID3 (Iterative Dichotomiser) yang dikembangkan oleh Quinlan [12]. Algoritma ini digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti, fleksibel, dan menarik karena dapat divisualisasikan dalam bentuk gambar [13]. Sebelumnya diakhiri tahun 1970 sampai awal tahun 1980 J. Ross Quinlan, seorang peneliti dibidang

machine learning, mambuat sebuah algoritma decision tree yang dikenal dengan ID3 (Iterative Dichotomiser).

Algoritma C4.5 atau pohon keputusan mirip sebuah pohon; terdapat node internal (bukan daun) yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil dari atribut yang diuji, dan setiap daun menggambarkan kelas. Pohon keputusan dengan mudah dapat dikonversi ke aturan klasifikasi. Secara umum keputusan pengklasifikasi pohon memiliki akurasi yang baik, namun keberhasilan penggunaan tergantung pada data yang akan diolah.

Gambar 3. Contoh Konsep Pohon Keputusan Sederhana [13]

Pada Gambar 3 variabel target untuk pohon keputusan adalah membeli pada toko, dengan pengklasifikasiannya Ya atau Tidak. Variabel Predictor adalah taxable income (< 34.000 atau > 34.000),

marital status (married, divorced, atau single). Simpul akar merupakan simpul keputusan, pengujiannya

apakah taxable income < 34.000 atau > 34.000.

Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih pembagian yang optimal [8]. Tahapan dalam membuat sebuah pohon keputusan dengan algoritma C4.5 [13] yaitu :

a. Mempersiapkan data training, dapat diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan dalam kelas-kelas tertentu.

b. Menentukan akar dari pohon dengan menghitung nilai gain yang tertinggi dari masing-masing atribut atau berdasarkan nilai index entropy terendah. Sebelumnya dihitung terlebih dahulu nilai

index entropy dengan rumus:

c. Hitung nilai gain dengan rumus :

Keterangan:

S : Himpunan Kasus A : Attribut

n : Jumlah partisi atribut A Si: Jumlah kasus pada partisi ke i S : Jumlah kasus dalam S

d. Ulangi langkah ke-2 sehingga semua record terpartisi e. Proses pohon keputusan akan berhenti saat:

1) Semua tupel dalam node N mendapat klas yang sama 2) Tidak ada atribut di dalam tupel yang dipartisi lagi 3) Tidak ada tupel di dalam cabang yang kosong

) ( * | | | | ) ( ) , ( 1 i n i i S Entropy S S S Entropy A S Gain



  

(7)

52 http://research. pps. dinus. ac. id 3. METODE PENELITIAN

Dalam penelitian ini, penulis mengambil model eksperimen dengan tahapan sebagai berikut :

Gambar 4. Diagram Alir Metode Penelitian

Pada proses pengujian ini penulis menggunakan data mahasiswa th. Akademik 2013 STMIK Subang jurusan teknik informatika, data yang diperoleh memiliki 200 record dengan field yang ada pada data tersebut sebanyak 14 atribut data. Attribut Data yang digunakan adalah : Nama, Jenis_Kelamin, Usia, Status_Mahasiswa, Status_Pengambilan_TA, IPS_Smt1, IPS_Smt2, IPS_Smt3, IPS_Smt4, IPS_Smt5, IPS_Smt6, IPS_Smt7, IPS_Smt8, IPK, Status_Kelulusan.

Eksperimen dilakukan menggunakan C4.5 dengan menentukan akar dari pohon dengan menghitung nilai gain yang tertinggi dari masing-masing atribut atau berdasarkan nilai index entropy terendah. Evaluasi dilakukan terhadap setiap pohon yang terbentuk hingga diperoleh nilai akurasi tertinggi. Hal ini dilakukan dengan menganalisis hasil klasifikasi berdasarkan pohon yang terbentuk. Pengukuran dilakukan dengan confusion matrix [10] dan ROC Curve (AUC) [14].

4. HASIL DAN PEMBAHASAN

Data hasil modifikasi yang dipergunakan dalam eksperimen ini sebagaimana tampak di Tabel 2.

Contoh Dataset Akademik Mahasiswa

Data sampel terdiri dari atribut Nama, Status Mahasiswa, Usia, Pengambilan TA, IPS1, IPS2, IPS3, IPS4, IPS5, IPS6, IPS7, IPS8, IPK. Untuk mengujinya menggunakan software data mining yaitu

(8)

http://research. pps. dinus. ac. id , 53 RapidMiner, untuk uji pertama melalui data sample yaitu data angkatan 2013, pada bagian NAMA dan JENIS KELAMIN akan dihilangkan untuk mendapatkan akurasi yang lebih tinggi, pada bagian STATUS KELULUSAN untuk menentukan tingkat kelulusan ada 2 kategori yang sesuai dan tidak sesuai yaitu kategori TEPAT dan kategori TERLAMBAT dijadikan sebagai label dalam RapidMiner.

Gambar 5. Grafik Status Kelulusan Mahasiswa

Pengujian model menggunakan 10 folds cross validation tanpa seleksi fitur yang akan secara acak mengambil 10% dari data training untuk yang lainnya sebagai data testing. Proses ini diulang sebanyak 10 kali dan hasil pengujian model berupa accuracy, precision, dan recall di rata-ratakan.

Nilai Akurasi Cross pada Dataset Akademik Mahasiswa

Tabel 3 menunjukkan nilai akurasi number of validation Dataset mahasiswa di atas yaitu dilakukan pembagian nilai rata-rata berdasarkan sampling type, diantara sampling type yang tertinggi yaitu menggunakan Stratified Sampling dengan nilai number of validation 10 yang mempunyai nilai akurasi 95,00%.

Hasil pengujian Dataset Mahasiswa menggunakan Metode C.4.5

Nilai Akurasi Stratified Sampling

Dari tabel di atas diperoleh jumlah True Negative (TN) sebanyak 140 sebagai false dan sesuai dengan klasifikasi, False Positive (FP) sebanyak 4 diprediksi false ternyata hasil prediksi True positive (TP) sebanyak 50 diklasifikasi sebagai True dan sesuai dengan prediksi yang dilakukan menggunakan

cross validation dan False Negative (FN) sebanyak 6 dan klasifikasinya true ternyata hasil

klasifikasinya false. Tingkat akurasi yang diperoleh menggunakan algoritma C4.5 tanpa seleksi fitur dengan nilai number of validation 10 yang mempunyai nilai akurasi 95,00%, dan dapat dihitung untuk mencari nilai accuracy pada persamaan dibawah ini :

 =50 + 4 + 140 + 650 + 140 = 0.95

(9)

54 http://research. pps. dinus. ac. id Validasi Hasil Prediksi

dengan bentuk pohon sebagaimana tercantum pada gambar di bawah ini.

Gambar 6. Pohon Keputusan

Dari pohon keputusan yang terbentuk di atas maka diperoleh aturan sebagai berikut :

Gambar 7. Aturan yang Diperoleh

Berkaitan dengan pengujian terhadap pohon yang terbentuk, kurva ROC menunjukkan trade-off antara true positive rate (proporsi tuple positif yang teridentifikasi dengan benar) dan false positive rate (proporsi tuple negatif yang teridentifikasi salah sebagai positif) dalam suatu model. Untuk mengukur ketelitian dari suatu model, kita dapat mengukur area di bawah kurva ROC.

(10)

http://research. pps. dinus. ac. id , 55 Gambar 8. Kurva ROC

Gambar 7 menunjukkan grafik ROC dengan nilai AUC (Area Under Curve) dengan C 4.5 sebesar 0.710. Akurasi AUC dikatakan sempurna apabila nilai AUC mencapai 1.000 dan akurasinya buruk jika nilai AUC di bawah 0.500.

Dengan kurva ROC, kita dapat melihat trade off antara tingkat suatu model dapat mengenali tuple positif secara akurat dan tingkat model tersebut salah mengenali tuple negatif sebagai tuple positif. Kurva ROC terdiri atas sumbu vertikal yang menyatakan true positive rate, dan sumbu horizontal yang menyatakan false positive rate.

Jika memiliki true positive (sebuah tuple positif yang benar diklasifikasikan) maka pada kurva ROC akan bergerak ke atas dan plot titik. Sebaliknya, jika tuple milik kelas “tidak” ketika memiliki false

positive, maka kurva ROC bergerak ke kanan dan plot titik. Proses ini diulang untuk setiap tuple tes

(setiap kali bergerak ke atas kurva untuk true positif atau terhadap hak untuk false positif). 5. KESIMPULAN DAN SARAN

Kesimpulan

Berdasarkan hasil eksperimen dan evaluasi yang dilakukan maka dapat disimpulkan sebuah aturan diantaranya Pengambilan TA di semester 7 dengan status mahasiswa = bekerja : IPS3 > 2.690 (Pred. Tepat) dan IPS3 ≤ 2.69 (Pred. Terlambat), Pengambilan TA di semester 7 dengan status mahasiswa = mahasiswa : IPS5 > 2.95 (Pred. Tepat) dan IPS5 ≤ 2.95 (Pred. Terlambat), IPS2 > 2.57 (Pred. Tepat) dan IPS2 ≤ 2.57 (pred. Terlambat), Usia > 24 (Pred. Tepat) dan Usia ≤ 24 (Pred. Terlambat). Pengambilan TA di semester 8 dengan status mahasiswa = bekerja : IPS8 ≤ 3.1 (Pred. Terlambat), Usia > 25 (Pred. Terlambat) dan Usia ≤ 25 (Pred. Tepat), Pengambilan TA di semester 8 dengan status mahasiswa = mahasiswa : IPS4 > 2.9 (Pred. Terlambat) dan IPS4 ≤ 2.9 (pred. Tepat), IPS8 > 3.0 (Pred. Tepat) dan IPS8 ≤ 3.0 (Pred. Terlambat) dengan nilai akurasi sebesar 95,00%, algoritma C4.5 sangat akurat untuk diterapkan.

Saran

Berdasarkan hasil penelitian ini, sudah dapat menjadi kontribusi untuk pihak lembaga terkait, namun terdapat beberapa hal yang dapat penulis sarankan untuk penelitian selanjutnya :

a. Untuk mempermudah proses klasifikasi, sebaiknya dapat ditemukan cara untuk menentukan pembobotan pada algoritma C4.5 secara otomatis.

b. Dapat dilakukan perbandingan dengan metode algoritma lain yang mendukung pengujian data yang ada sehingga bisa didapat tingkat akurasi yang lebih baik lagi.

UCAPAN TERIMAKASIH

Penelitian ini dapat terselesaikan karena bantuan berbagai pihak, oleh karena itu peneliti berterimakasih kepada pihak-pihak yang mendukung terlaksananya penelitian yaitu para pembimbing penelitian, penguji, serta pihak-pihak lain yang mendukung terlaksananya penelitian ini.

PERNYATAAN ORIGINALITAS

“Saya menyatakan dan bertanggung jawab dengan sebenarnya bahwa Artikel ini adalah hasil karya sendiri kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya”. [HERMANSYAH NUR AHMAD- P31.2011.01000]

(11)

56 http://research. pps. dinus. ac. id DAFTAR PUSTAKA

[1] BAN-PT, Buku VI Matriks Penilaian Instrumen Akreditasi Program Studi Badan Akreditasi Nasional Perguruan Tinggi, Jakarta, 2008.

[2] K. Hastuti, “Analisis Komparasi Algoritma Klasifikasi Data mining Untuk Prediksi Mahasiswa Non Aktif,” Semantik, 2012.

[3] C. Marquez-Vera, C. Romero and S. Ventura, "Predicting School Failure Using Data mining," Journal of Educational Data mining, 2011.

[4] M. S. Suhartinah dan Ernastuti, “Graduation Prediction of Gunardama University Students Using Naive Bayes and C4.5 Algorithm,” 2010.

[5] M. Ridwan, H. Suyono dan M. Sarosa, “Penerapan Data mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,” Jurnal EECCIS, vol. 7 No.1, 2013.

[6] M. Thomas dan a. et, “New Classification Algorithms for Developing Online Program Recommendation Systems,” dalam 2009 International Conference on Mobile, Hybrid, and On-line Learning, 2009.

[7] A. A. Aziz, N. H. Ismail and F. Ahmad, "Mining Students' Academic Performance," Journal of Theoretical and Applied Information Technology, vol. 53 No.3, 2013.

[8] D. T. Larose, DISCOVERING KNOWLEDGE IN DATA An Introduction to Data mining, New Jersey: John Wiley & Sons, Inc., 2005.

[9] Bahar, Penentuan Jurusan Sekolah Menengah Atas Dengan Algoritma Fuzzy C-Means, Semarang, 2011.

[10] K. dan E. T. Lutfhfi, Algoritma Data mining, ANDI Yogyakarta, 2009.

[11] S. Susanto dan D. Suryadi, Pengantar Data mining Menggali Pengetahuan dari Bongkahan Data, Yogyakarta: CV. ANDI OFFSET, 2010.

[12] J. Han and M. Kamber, Data mining : Concepts and Techniques Second Edition, San Francisco: Morgan Kaufmann Publisher, 2007.

[13] M. North, Data mining for the Masses, Washington, USA: Agami Press, 2012. [14] Florin Gorunescu, Data mining Concept Model Technique, 2011.

Gambar

Gambar 2. Tahapan Proses dalam Data mining
Gambar 3. Contoh Konsep Pohon Keputusan Sederhana [13]
Gambar 4. Diagram Alir Metode Penelitian
Gambar 5. Grafik Status Kelulusan Mahasiswa
+3

Referensi

Dokumen terkait

penelitian dalam hal ini memprediksi kelulusan tepat waktu mahasiswa ( lulus tepat waktu dan tidak lulus tepat waktu telah banyak dilakukan. Dalam penelitian ini dilakukan

Hasil dari penelitian ini adalah algoritma Naïve bayes memiliki tingkat akurasi yang paling tinggi, sehingga baik digunakan untuk klasifikasi mahasiswa yang bermasalah dalam

Sistem Prediksi Tingkat Kelulusan Mahasiswa ini di mulai dengan Input Data Training yaitu data mahasiswa yang sudah lulus di STMIK Sinar Nusantara, kemudian

Oleh karena itu dengan adanya sebuah prediksi kelulusan mahasiswa dengan teknik klasifikasi menggunakan algoritma k-nearest neighbor diharapkan agar mahasiswa dapat

Berdasarkan tabel 6, prediksi kelulusan mahasiswa tepat waktu dengan menggunakan metode Artificial Neural Network memiliki tingkat accuracy yang lebih tinggi jika

Prediksi waktu kelulusan mahasiswa dapat dilakukan dengan menggunakan algoritma k-Nearest Neighbor (k-NN) yang merupakan sebuah algoritma untuk melakukan klasifikasi

Analisis algoritma K-Means untuk menentukan predikat kelulusan Mahasiswa pada STMIK Palangkaraya Pada tahap analisis pada penggunaan metode K-Means, data yang

Untuk mendapatkan nilai akurasi dari masa studi mahasiswa berdasarkan atribut tersebut menggunakan Algoritma Decision Tree C4.5 kemudian membandingkannya dengan algoritma lain ID3