87
KLASIFIKASI DATA KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5 DAN CART
(STUDI KASUS EDUCATIONAL DATA MINING)
Indri Rahmayuni1
ABSTRACT
In recent years, the use of data mining in education, known as an educational data mining (EDM) is growing. But most use of it is done on data derived from web-based, computer, and e-learning education. Meanwhile most educational institutions, especially in developing countries still use the traditional class system. Data obtained from the traditional classroom has not been exploited well to give support and guidance for students in order to improve the quality of education.
Computer Engineering study program is one of the favorite at the Padang State Polytechnic. The first year class, especially the first semester is a crucial period for Computer Engineering’s new students. The percentage of failure and conditional pass in the first semester was higher than the next semester. The process of education in Computer Engineering is supported by two types of data, namely the student characteristics data and student grades data. The use of data mining to the data characteristics are expected to provide early prediction of academic achievement of students in the first semester.
In this research, data mining is applied using CRISP-DM process model that provides a standard process of implementation of data mining in various fields. Decision tree method (C4.5 and CART algorithms) is used in the classification because it is easily understood and interpreted. Type of school, choice, and gender is a major predictor of student academic achievement.
Keywords : educational data mining, classification, CART, C4.5 INTISARI
Dalam beberapa tahun terakhir, penggunaan data mining di dunia pendidikan yang dikenal sebagai educational data mining (EDM) semakin berkembang. Namun sebagian besar penggunaan itu dilakukan pada data yang berasal dari pendidikan berbasis web, komputer, dan e-learning. Padahal sebagian besar
institusi pendidikan, terutama di negara-negara berkembang masih
menggunakan sistem kelas tradisional. Data yang didapat dari kelas tradisional ini belum dieksploitasi dengan baik untuk memberikan dukungan dan bimbingan bagi siswa demi meningkatkan kualitas pendidikan.
Program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang. Tahun pertama perkuliahan terutama semester pertama merupakan masa yang krusial bagi mahasiswa baru prodi Teknik Komputer. Persentase ketidaklulusan maupun lulus percobaan pada semester pertama lebih tinggi dari semester-semester berikutnya. Proses pendidikan di
program studi Teknik Komputer didukung oleh dua jenis data, yaitu data karakteristik mahasiswa dan data hasil studi (nilai) mahasiswa tiap semesternya. Penggunaan data mining terhadap data karakteristik diharapkan dapat memberikan prediksi awal prestasi akademik mahasiswa pada semester pertama.
Pada penelitian ini, data mining diterapkan menggunakan model proses CRISP-DM yang menyediakan proses standar penggunaan data mining pada berbagai bidang. Metode pohon keputusan (algoritma C4.5 dan CART) digunakan dalam klasifikasi karena hasil metode ini mudah dipahami dan diinterpretasikan. Jenis sekolah, pilihan, jenis kelamin, rata-rata nilai STTB, dan UAN merupakan prediktor utama prestasi akademik mahasiswa.
89
PENDAHULUANPada era teknologi saat ini, data dan informasi menjadi bagian penting di berbagai bidang. Semua pihak berlomba mengumpulkan data dan informasi yang digunakan untuk
mencapai kesuksesan. Awalnya,
dengan munculnya komputer dan sarana penyimpanan data masal, data dikumpulkan dan disimpan dengan cepat. Sayangnya, koleksi-koleksi data tersebut dengan cepat menjadi sangat besar dan berlimpah. Dari data
yang berlimpah ini, muncul
pertanyaan mengenai hal-hal apa saja yang dapat dipelajari dari keseluruhan data dan informasi tersebut. Untuk
menjawabnya dibutuhkan
penyimpulan data secara otomatis, ekstraksi dari esensi informasi yang disimpan, serta penemuan pola yang ada dalam data. Proses ini dikenal sebagai data mining[1].
Politeknik Negeri Padang
merupakan sebuah perguruan tinggi berbasis vokasional yang terdiri atas enam jurusan baik teknik maupun sosial. Sistem pendidikan di politeknik berbeda dari perguruan tinggi biasa
(universitas) karena pengambilan
mata kuliah mahasiswa setiap
semesternya tidak dilakukan per mata kuliah, namun per-paket. Hal ini menyebabkan tantangan mahasiswa dalam proses akademik semakin besar karena jika seorang mahasiswa tidak memenuhi syarat kelulusan pada suatu semester, mahasiswa tersebut tidak hanya mengulang mata kuliah yang tidak lulus saja, tapi satu paket secara keseluruhan.
Program studi Teknik
Komputer merupakan salah satu program studi baru yang berada dibawah Jurusan Teknologi Informasi Politeknik Negeri Padang. Program studi Teknik Komputer mulai dibuka pada tahun 2005. Walaupun baru berumur 8 tahun, program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang.
Sebagai salah satu program studi favorit, Teknik Komputer harus terus melakukan perbaikan-perbaikan dalam sistem pendidikannya untuk mencapai kualitas yang lebih baik. Program studi Teknik Komputer perlu mengerahkan seluruh sumber daya
yang dimiliki untuk membantu
mahasiswa menyelesaikan pendidikan mereka dengan prestasi akademik yang baik dan meminimalisir tingkat ketidaklulusan mahasiswa. Salah satu caranya adalah dengan melakukan
klasifikasi data karakteristik
mahasiswa baru untuk mengetahui karakteristik apa saja yang dapat dijadikan acuan dalam memprediksi prestasi akademik mahasiswa baru pada semester pertama.
PENDEKATAN PEMECAHAN
MASALAH
Educational Data Mining
Komunitas Educational Data
mining (EDM) [1] mendefinisikan EDM
sebagai sebuah disiplin ilmu yang sedang berkembang, dengan fokus pada pengembangan metode-metode untuk mengeksploitasi keunikan data yang berasal dari proses pendidikan dan menggunakan metode-metode tersebut untuk lebih memahami siswa serta sistem pembelajarannya.
Gambar 1. Alur Data mining Pada Pendidikan [2]
Romero dan Venture [2]
menggambarkan data mining pada
sistem pendidikan (Gambar 1)
sebagai suatu alur yang melibatkan
tiga aktor yaitu pendidik dan
penanggung jawab akademik sebagai pihak penyelanggara pendidikan serta siswa sebagai pengguna pendidikan. Melalui proses data mining terhadap
penanggung jawab pendidikan dapat
mengetahui temuan/pengetahuan
yang dihasilkan, sedangkan siswa
mendapatkan rekomendasi terkait
hasil tersebut.
Dari survei yang dilakukan Romero dan Ventura [2], sebagian
besar data mining pada dunia
pendidikan dilakukan pada kelas berbasis web, pendidikan jarak jauh atau e-learning. Beberapa penelitian yang menerapkan data mining pada data pendidikan dari kelas tradisional memperlihatkan bahwa metode pohon keputusan merupakan metode yang
paling banyak digunakan dan
menghasilkan kualitas hasil yang lebih baik daripada metode lainnya [3].
Hasil klasifikasi metode pohon
keputusan juga lebih mudah dipahami dan diinterpretasikan.
Algoritma C4.5
Algoritma C4.5 merupakan
algoritma yang digunakan untuk
membangun sebuah pohon keputusan (decision tree) dari data. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang juga merupakan algoritma untuk membangun sebuah pohon keputusan. Algoritma C4.5 secara rekursif mengunjungi tiap
simpul keputusan, memilih
percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan [4].
Algoritma C4.5 menggunakan konsep information gain atau entropy
reduction untuk memilih percabangan
yang optimal. Misalkan terdapat
sebuah variabel X dimana memiliki sejumlah k nilai yang mungkin dengan probabilitas p1, p2, …, pk. Entropy menggambarkan keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan menggunakan persamaan 1
2 1
Misalkan terdapat sebuah
kandidat simpul yang akan
dikembangkan (S), yang membagi
data T ke dalam sejumlah subset T1,
T2, …, Tk. Dengan menggunakan
persamaan entropy diatas, nilai
entropy tiap subset dihitung (HS(Ti)).
Kemudian total bobot subset simpul S
dihitung dengan menggunakan
persamaan 1.
(1) dimana Pi merupakan proporsi
record pada subset i. Semakin
seragam sebuah subset terhadap
kelas-kelas pembaginya, maka
semakin kecil nilai entropy. Nilai
entropy paling kecil adalah 0, yang
dicapai ketika record subset berada
pada satu kelas yang sama.
Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.
Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui persamaan 2.
gain(S) = H(T) – HS(T)
(2) Pada algoritma C4.5, nilai
information gain dihitung untuk
seluruh simpul yang mungkin
dikembangkan. Simpul yang
dikembangkan adalah simpul yang memiliki nilai information gain yang paling besar.
Algoritma CART
Metode CART ini pertama kali diajukan oleh Leo Breiman et al. pada tahun 1984. Pohon keputusan yang dihasilkan CART merupakan pohon biner dimana tiap simpul wajib memiliki dua cabang. CART secara rekursif membagi records pada data latihan ke dalam subset-subset yang memiliki nilai atribut target (kelas) yang sama.
Algoritma CART
mengembangkan pohon keputusan dengan memilih percabangan yang paling optimal bagi tiap simpul.
91
Pemilihan dilakukan dengan
menghitung segala kemungkinan
pada tiap variabel.
Misalkan Ф(s|t) merupakan
nilai “kebaikan” kandidat cabang s pada simpul t, maka nilai Ф(s|t) dapat
dihitung sebagai (persamaan 3)
[LAR05]:
(3 ) dimana
Nilai
maksimal ketika record yang berada pada cabang kiri atau kanan simpul memiliki kelas yang sama (seragam). Nilai maksimal yang dicapai sama dengan jumlah kelas pada data. Misalkan jika data terdiri atas dua
kelas, maka nilai maksimal
adalah 2. Semakin seragam record pada cabang kiri atau kanan, maka semakin
tinggi nilai .
Nilai maksimal sebesar 0.5
dicapai ketika cabang kiri dan kanan memiliki jumlah record yang sama. Kandidat percabangan yang dipilih adalah kandidat yang memiliki nilai
Ф(s|t) paling besar. Penelitian Terkait
Saat ini penelitian terhadap
data mining dan sistem pendidikan
semakin banyak dilakukan. Penelitian mengenai data mining di dunia pendidikan telah lama ada (sejak
tahun 1990an) dan baru
dikelompokkan menjadi sebuah
bidang penelitian Educational Data
mining pada tahun 2005
Mulai tahun 2008, organisasi ini mengadakan konferensi tahunan EDM yang membahas penelitian-penelitian data mining di dunia pendidikan di seluruh dunia.
Sebagaimana dijelaskan
sebelumnya, penelitian terkait prediksi pada EDM semakin banyak dilakukan, salah satunya mengenai prestasi
akademik siswa. Beberapa
diantaranya adalah:
(1)
Jing Luan [5] melakukanpenelitian di beberapa
univeristas di Amerika Serikat
untuk memprediksi siswa
community college yang memenuhi syarat untuk pindah ke universitas. Model yang dihasilkan ditujukan untuk menyediakan pola profil siswa berdasarkan data demografi,
finansial, pelajaran yang
diambil dan nilai siswa.
Penelitian ini menggunakan algoritma neural networks,
C4.5, dan CART.
(2)
Erdogan dan Timor [1]melakukan penelitian terhadap
mahasiswa di Univeristas
Maltepe Turki untuk
mengetahui hubungan antara hasil ujian masuk universitas dengan kesuksesan mereka
dalam proses perkuliahan.
Penelitian ini menggunakan algoritma pengklusteran K-means.
(3)
Gérard Lassibille dan Lucía Navarro Gómez [6] melakukanpenelitian terhadap 7000
mahasiswa
universitas-universitas di Spanyol untuk mengetahui faktor utama yang mempengaruhi ketidaklulusan (drop out) mereka. Penelitian ini menunjukkan bahwa jenis kelamin (hanya di universitas teknik), umur ketika masuk, nilai ujian masuk, jenis SMU,
sumber biaya kuliah, pendidikan orang tua, serta
status tempat tinggal
berpengaruh terhadap
ketidaklulusan mahasiswa di Spanyol.
(4)
Gerben W. Dekker [DEK09] melakukan penelitian untukmemprediksi ketidaklulusan
mahasiswa (drop out) tahun pertama di Departemen Teknik Elektro Universitas Teknologi
Eindhoven karena tingkat
ketidaklulusan yang mencapai 40%. Data nilai akademik mahasiswa digunakan dalam penelitian ini. Model proses CRISP-DM dipakai sebagai acuan pelaksanaan penelitian
dengan menggunakan
algoritma C4.5 dan CART untuk melakukan prediksi. Dari penelitian ini diketahui bahwa nilai Aljabar Linier, Kalkulus, Jaringan, serta nilai rata-rata mata pelajaran IPA di SMU menjadi faktor penentu utama ketidaklulusan mahasiswa.
Data Yang Digunakan
Penelitian ini menggunakan dua jenis data yaitu data pribadi dan
data nilai semester pertama
mahasiwa Program Studi Teknik Komputer Politeknik Negeri Padang dari angkatan 2006 sampai 2010. Tiap angkatan terdiri atas ±90 orang
mahasiswa yang terdiri atas
mahasiswa undangan (PMDK) dan mahasiswa jalur ujian masuk dengan latar belakang pendidikan SMU IPA dan SMK Teknik.
Data karakteristik mahasiswa adalah data pribadi dari lulusan
SMU/SMK yang mengikuti ujian
seleksi masuk Politeknik Negeri
Padang (PNP) bidang Rekayasa pada tiap tahun angkatan yang didapat dari bagian UPT Sistem Informasi dengan format Ms.Access. Untuk tiap tahun angkatan, terdapat 670-1150 record data. Data ini merupakan data mentah
hasil pemindaian formulir pendaftaran peserta seleksi masuk PNP.
Tabel 1. Atribut Data Pribadi Mahasiswa
N o
Atribut Format
1 No. Peserta 10 digit angka
2 Nama
Peserta
20 karakter abjad 3 Tempat Lahir 20 karakter abjad
4 Tanggal Lahir 6 digit angka (ddmmyy) 5 Tahun Masuk SMU 3 digit angka (kelas + tahun) 6 Jurusan SMU/SMK 3 digit angka 7 Nilai Ijazah/STTB 8 digit angka (tahun + #mata pelajaran + nilai 8 Nilai NEM/UAN 6 digit angka (#mata pelajaran + nilai) 9 Pilihan Jurusan
5 digit angka untuk tiap pilihan 10 Alamat Rumah 25 karakter abjad 11 Nama Orang Tua 20 karakter abjad 12 Pekerjaan Orang Tua 2 karakter abjad A-L (pekerjaan ayah + pekerjaan ibu)
13 Asal Daerah 5 digit huruf (kode propinsi + kode kabupaten/kota) 14 Penghasilan Orang Tua 1 karakter abjad A/B/C/D 15 Keadaan Orang Tua 2 karater abjad A/B (keadaan ayah + keadaan ibu) 16 Jumlah Saudara
dibagi menjadi dua atribut : 2 digit angka jumlah kakak dan 2 digit angka jumlah adit 17 Jenis
Kelamin
1 karakter abjad P/W
18 Agama 1 karakter abjad
A-F
93
N o Atribut Format araan A/B/C 20 Pendidikan Orang Tua 2 karakter abjad A-H (pendidikan ayah + pendidikan ibu)Data nilai semester pertama
mahasiswa angkatan 2006-2010
didapat dari program studi Teknik
Komputer PNP dengan format
Ms.Excel. Data nilai yang diambil adalah data nilai indeks prestasi (IP) mahasiswa pada semester pertama.
Persiapan Data
Pada penelitian ini, proses persiapan data dilakukan terpisah pada data karakteristik, data nilai serta data gabungan. Karena tiap data memiliki atribut dan format yang
berbeda, langkah-langkah yang
dilakukan dalam proses persiapan data akan berbeda pula. Langkah-langkah persiapan untuk
masing-masing data ditampilkan pada
Gambar 2. Data Karakteristik Transformasi Data Pembersihan Data Pengurangan Data Data Nilai Transformasi Data Data Gabungan Pembersihan Data Transformasi Data Pengurangan Data Integrasi Data Data Peserta Ujian Masuk PNP Data Nilai Mahasiswa Teknik Komputer PNP Data Gabungan Data Nilai Data Karakteristik
Gambar 2. Proses Persiapan Data Pendefinisian Atribut Kelas
Atribut kelas yang digunakan adalah atribut kelas yang didefinisikan secara manual. Atribut kelas dibuat dengan mengelompokkan nilai indeks prestasi semester satu mahasiswa
yang diambil dari data nilai
mahasiswa. Pada penelitian ini
digunakan dua jenis atribut kelas manual:
(1) K2: IP dikelompokkan atas dua
kelompok yaitu Atas dan
Bawah yang mewakili posisi IP mahasiswa terhadap nilai IP 2.84. Nilai 2.84 ini didapat
dengan menggunakan metode distribusi normal.
(2) K3: IP dikelompokkan atas 3 kelompok Baik (IP≥3), Berisiko (2.5≤IP<3), dan Buruk (IP>2.5) yang mewakili tingkat risiko ketidaklulusan mahasiswa.
HASIL DAN PEMBAHASAN
Klasifikasi dilakukan
menggunakan aplikasi WEKA
Explorer. Proses klasifikasi dilakukan terhadap data karakteristik mahasiswa (DataDasar) dengan pengelompokkan IP (K2 dan K3) sebagai atribut
kelasnya. Klasifikasi dilakukan
menggunakan algoritma CART dan C4.5. Hasil klasifikasi ditampilkan pada Tabel 2.
Tabel 2. Hasil Klasifikasi Data
Data
Algoritma C4.5 CART C4.5 CART
Akurasi 64.88% 67.56% 49.16% 49.50%
Recall 0.702 0.735 0.627 0.669
Precision 0.639 0.661 0.592 0.556
F-measure 0.669 0.696 0.609 0.608
Atribut Sekolah Sekolah Sekolah Sekolah
Pilihan Pilihan Pilihan Pilihan
Jekel RTSTTB RTUAN PKJ.Ayah PKJ.Ayah Pos.Anak PKJ.Ibu Pend.Ibu Pend.Ayah Umur DataDasar (K2) DataDasar (K3)
Pada table 2 tersebut dapat diketahui bahwa algoritma CART
memberikan akurasi paling baik
(67.56%), sedangkan algoritma C4.5 memberikan hasil sedikit dibawahnya (64.88%). Hal ini terjadi karena
algoritma CART dengan konsep
pohon biner lebih cocok digunakan untuk data yang bersifat numerik, dimana pada DataDasar, sebagian besar nilai atribut data karakteristiknya masih menggunakan bentuk numerik. Algoritma C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut.
Gambar 2 memperlihatkan
pohon keputusan yang dihasilkan oleh algoritma CART (a) dan C4.5(b). Dari gambar ini dapat dilihat atribut-atribut
yang digunakan dalam klasifikasi dan posisinya.
Untuk atribut-atribut yang digunakan sebagai simpul pohon keputusan, pada sebagian besar pohon, atribut Sekolah merupakan akar pohon keputusan. Atribut Pilihan, Jekel, RTSTTB, RTUAN, PKJ.Ayah, PKJ.Ibu, serta Pend. Ayah merupakan atribut-atribut yang berada pada level atas pohon keputusan.
Dari atribut-atribut utama tersebut, atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang terkait langsung dengan pribadi dan latar belakang akademis mahasiwa dapat digunakan sebagai atribut data karakteristik baru untuk pemodelan prediksi prestasi akademik mahasiswa baru pada semester pertama.
Gambar 3. Pohon Keputusan Klasifikasi Data Karakteristik Mahasiswa Menggunakan Algoritma CART (a) dan C4.5 (b) KESIMPULAN
Dari penelitian ytang
dilakukan, dapat disimpulkan
beberapa hal :
(1) Algoritma CART memberikan akurasi yang lebih baik dari pada algoritma C4.5 dalam klasifikasi data karakteristik mahasiswa.
(2) Atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang
terkait langsung dengan
pribadi dan latar belakang
akademis mahasiwa dapat
digunakan sebagai atribut data
karakteristik baru untuk
pemodelan prediksi prestasi
akademik mahasiswa baru
pada semester pertama.
DAFTAR PUSTAKA
[1] Erdogan, S.Z, Timor, M. 2005. A
Data mining Applications in Student Database. Journal of
Aeronautics and Space
Technologies. Vol 2(2). 53-57. [2] Romero, C., Ventura, S. 2007.
Educational data mining: A survey from 1995 to 2005. Expert System
with Application. Vol 33. 135-146. [3] Dekker, W. Gerben., et.al. 2009.
Predicting Students Drop Out: A Case Study. Proceedings of the
2nd International Conference on Educational Data mining. 41-50. [4] Larose, D.T. 2005. Discovering
Knowledge in Data: An Introduction to Data mining. Wiley
Interscience. Ney Jersey.
[5] Luan, J. 2002. Data mining and Its
Applications in Higher Education.
New Directions for Institutional Research. Vol 133. 17-36.
[6] Lassibille, G., Gomez, L. N. 2007.
Why Do Higher Education Students Drop Out? Evidence from Spain. Education Economics.