• Tidak ada hasil yang ditemukan

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 7 NO. 1 Maret 2014

N/A
N/A
Protected

Academic year: 2021

Membagikan "JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 7 NO. 1 Maret 2014"

Copied!
8
0
0

Teks penuh

(1)

87

KLASIFIKASI DATA KARAKTERISTIK MAHASISWA MENGGUNAKAN ALGORITMA C4.5 DAN CART

(STUDI KASUS EDUCATIONAL DATA MINING)

Indri Rahmayuni1

ABSTRACT

In recent years, the use of data mining in education, known as an educational data mining (EDM) is growing. But most use of it is done on data derived from web-based, computer, and e-learning education. Meanwhile most educational institutions, especially in developing countries still use the traditional class system. Data obtained from the traditional classroom has not been exploited well to give support and guidance for students in order to improve the quality of education.

Computer Engineering study program is one of the favorite at the Padang State Polytechnic. The first year class, especially the first semester is a crucial period for Computer Engineering’s new students. The percentage of failure and conditional pass in the first semester was higher than the next semester. The process of education in Computer Engineering is supported by two types of data, namely the student characteristics data and student grades data. The use of data mining to the data characteristics are expected to provide early prediction of academic achievement of students in the first semester.

In this research, data mining is applied using CRISP-DM process model that provides a standard process of implementation of data mining in various fields. Decision tree method (C4.5 and CART algorithms) is used in the classification because it is easily understood and interpreted. Type of school, choice, and gender is a major predictor of student academic achievement.

Keywords : educational data mining, classification, CART, C4.5 INTISARI

Dalam beberapa tahun terakhir, penggunaan data mining di dunia pendidikan yang dikenal sebagai educational data mining (EDM) semakin berkembang. Namun sebagian besar penggunaan itu dilakukan pada data yang berasal dari pendidikan berbasis web, komputer, dan e-learning. Padahal sebagian besar

institusi pendidikan, terutama di negara-negara berkembang masih

menggunakan sistem kelas tradisional. Data yang didapat dari kelas tradisional ini belum dieksploitasi dengan baik untuk memberikan dukungan dan bimbingan bagi siswa demi meningkatkan kualitas pendidikan.

Program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang. Tahun pertama perkuliahan terutama semester pertama merupakan masa yang krusial bagi mahasiswa baru prodi Teknik Komputer. Persentase ketidaklulusan maupun lulus percobaan pada semester pertama lebih tinggi dari semester-semester berikutnya. Proses pendidikan di

(2)

program studi Teknik Komputer didukung oleh dua jenis data, yaitu data karakteristik mahasiswa dan data hasil studi (nilai) mahasiswa tiap semesternya. Penggunaan data mining terhadap data karakteristik diharapkan dapat memberikan prediksi awal prestasi akademik mahasiswa pada semester pertama.

Pada penelitian ini, data mining diterapkan menggunakan model proses CRISP-DM yang menyediakan proses standar penggunaan data mining pada berbagai bidang. Metode pohon keputusan (algoritma C4.5 dan CART) digunakan dalam klasifikasi karena hasil metode ini mudah dipahami dan diinterpretasikan. Jenis sekolah, pilihan, jenis kelamin, rata-rata nilai STTB, dan UAN merupakan prediktor utama prestasi akademik mahasiswa.

(3)

89

PENDAHULUAN

Pada era teknologi saat ini, data dan informasi menjadi bagian penting di berbagai bidang. Semua pihak berlomba mengumpulkan data dan informasi yang digunakan untuk

mencapai kesuksesan. Awalnya,

dengan munculnya komputer dan sarana penyimpanan data masal, data dikumpulkan dan disimpan dengan cepat. Sayangnya, koleksi-koleksi data tersebut dengan cepat menjadi sangat besar dan berlimpah. Dari data

yang berlimpah ini, muncul

pertanyaan mengenai hal-hal apa saja yang dapat dipelajari dari keseluruhan data dan informasi tersebut. Untuk

menjawabnya dibutuhkan

penyimpulan data secara otomatis, ekstraksi dari esensi informasi yang disimpan, serta penemuan pola yang ada dalam data. Proses ini dikenal sebagai data mining[1].

Politeknik Negeri Padang

merupakan sebuah perguruan tinggi berbasis vokasional yang terdiri atas enam jurusan baik teknik maupun sosial. Sistem pendidikan di politeknik berbeda dari perguruan tinggi biasa

(universitas) karena pengambilan

mata kuliah mahasiswa setiap

semesternya tidak dilakukan per mata kuliah, namun per-paket. Hal ini menyebabkan tantangan mahasiswa dalam proses akademik semakin besar karena jika seorang mahasiswa tidak memenuhi syarat kelulusan pada suatu semester, mahasiswa tersebut tidak hanya mengulang mata kuliah yang tidak lulus saja, tapi satu paket secara keseluruhan.

Program studi Teknik

Komputer merupakan salah satu program studi baru yang berada dibawah Jurusan Teknologi Informasi Politeknik Negeri Padang. Program studi Teknik Komputer mulai dibuka pada tahun 2005. Walaupun baru berumur 8 tahun, program studi Teknik Komputer merupakan salah satu program studi favorit di Politeknik Negeri Padang.

Sebagai salah satu program studi favorit, Teknik Komputer harus terus melakukan perbaikan-perbaikan dalam sistem pendidikannya untuk mencapai kualitas yang lebih baik. Program studi Teknik Komputer perlu mengerahkan seluruh sumber daya

yang dimiliki untuk membantu

mahasiswa menyelesaikan pendidikan mereka dengan prestasi akademik yang baik dan meminimalisir tingkat ketidaklulusan mahasiswa. Salah satu caranya adalah dengan melakukan

klasifikasi data karakteristik

mahasiswa baru untuk mengetahui karakteristik apa saja yang dapat dijadikan acuan dalam memprediksi prestasi akademik mahasiswa baru pada semester pertama.

PENDEKATAN PEMECAHAN

MASALAH

Educational Data Mining

Komunitas Educational Data

mining (EDM) [1] mendefinisikan EDM

sebagai sebuah disiplin ilmu yang sedang berkembang, dengan fokus pada pengembangan metode-metode untuk mengeksploitasi keunikan data yang berasal dari proses pendidikan dan menggunakan metode-metode tersebut untuk lebih memahami siswa serta sistem pembelajarannya.

Gambar 1. Alur Data mining Pada Pendidikan [2]

Romero dan Venture [2]

menggambarkan data mining pada

sistem pendidikan (Gambar 1)

sebagai suatu alur yang melibatkan

tiga aktor yaitu pendidik dan

penanggung jawab akademik sebagai pihak penyelanggara pendidikan serta siswa sebagai pengguna pendidikan. Melalui proses data mining terhadap

(4)

penanggung jawab pendidikan dapat

mengetahui temuan/pengetahuan

yang dihasilkan, sedangkan siswa

mendapatkan rekomendasi terkait

hasil tersebut.

Dari survei yang dilakukan Romero dan Ventura [2], sebagian

besar data mining pada dunia

pendidikan dilakukan pada kelas berbasis web, pendidikan jarak jauh atau e-learning. Beberapa penelitian yang menerapkan data mining pada data pendidikan dari kelas tradisional memperlihatkan bahwa metode pohon keputusan merupakan metode yang

paling banyak digunakan dan

menghasilkan kualitas hasil yang lebih baik daripada metode lainnya [3].

Hasil klasifikasi metode pohon

keputusan juga lebih mudah dipahami dan diinterpretasikan.

Algoritma C4.5

Algoritma C4.5 merupakan

algoritma yang digunakan untuk

membangun sebuah pohon keputusan (decision tree) dari data. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang juga merupakan algoritma untuk membangun sebuah pohon keputusan. Algoritma C4.5 secara rekursif mengunjungi tiap

simpul keputusan, memilih

percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan [4].

Algoritma C4.5 menggunakan konsep information gain atau entropy

reduction untuk memilih percabangan

yang optimal. Misalkan terdapat

sebuah variabel X dimana memiliki sejumlah k nilai yang mungkin dengan probabilitas p1, p2, …, pk. Entropy menggambarkan keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan menggunakan persamaan 1

2 1

Misalkan terdapat sebuah

kandidat simpul yang akan

dikembangkan (S), yang membagi

data T ke dalam sejumlah subset T1,

T2, …, Tk. Dengan menggunakan

persamaan entropy diatas, nilai

entropy tiap subset dihitung (HS(Ti)).

Kemudian total bobot subset simpul S

dihitung dengan menggunakan

persamaan 1.

(1) dimana Pi merupakan proporsi

record pada subset i. Semakin

seragam sebuah subset terhadap

kelas-kelas pembaginya, maka

semakin kecil nilai entropy. Nilai

entropy paling kecil adalah 0, yang

dicapai ketika record subset berada

pada satu kelas yang sama.

Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.

Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui persamaan 2.

gain(S) = H(T) – HS(T)

(2) Pada algoritma C4.5, nilai

information gain dihitung untuk

seluruh simpul yang mungkin

dikembangkan. Simpul yang

dikembangkan adalah simpul yang memiliki nilai information gain yang paling besar.

Algoritma CART

Metode CART ini pertama kali diajukan oleh Leo Breiman et al. pada tahun 1984. Pohon keputusan yang dihasilkan CART merupakan pohon biner dimana tiap simpul wajib memiliki dua cabang. CART secara rekursif membagi records pada data latihan ke dalam subset-subset yang memiliki nilai atribut target (kelas) yang sama.

Algoritma CART

mengembangkan pohon keputusan dengan memilih percabangan yang paling optimal bagi tiap simpul.

(5)

91

Pemilihan dilakukan dengan

menghitung segala kemungkinan

pada tiap variabel.

Misalkan Ф(s|t) merupakan

nilai “kebaikan” kandidat cabang s pada simpul t, maka nilai Ф(s|t) dapat

dihitung sebagai (persamaan 3)

[LAR05]:

(3 ) dimana

Nilai

maksimal ketika record yang berada pada cabang kiri atau kanan simpul memiliki kelas yang sama (seragam). Nilai maksimal yang dicapai sama dengan jumlah kelas pada data. Misalkan jika data terdiri atas dua

kelas, maka nilai maksimal

adalah 2. Semakin seragam record pada cabang kiri atau kanan, maka semakin

tinggi nilai .

Nilai maksimal sebesar 0.5

dicapai ketika cabang kiri dan kanan memiliki jumlah record yang sama. Kandidat percabangan yang dipilih adalah kandidat yang memiliki nilai

Ф(s|t) paling besar. Penelitian Terkait

Saat ini penelitian terhadap

data mining dan sistem pendidikan

semakin banyak dilakukan. Penelitian mengenai data mining di dunia pendidikan telah lama ada (sejak

tahun 1990an) dan baru

dikelompokkan menjadi sebuah

bidang penelitian Educational Data

mining pada tahun 2005

Mulai tahun 2008, organisasi ini mengadakan konferensi tahunan EDM yang membahas penelitian-penelitian data mining di dunia pendidikan di seluruh dunia.

Sebagaimana dijelaskan

sebelumnya, penelitian terkait prediksi pada EDM semakin banyak dilakukan, salah satunya mengenai prestasi

akademik siswa. Beberapa

diantaranya adalah:

(1)

Jing Luan [5] melakukan

penelitian di beberapa

univeristas di Amerika Serikat

untuk memprediksi siswa

community college yang memenuhi syarat untuk pindah ke universitas. Model yang dihasilkan ditujukan untuk menyediakan pola profil siswa berdasarkan data demografi,

finansial, pelajaran yang

diambil dan nilai siswa.

Penelitian ini menggunakan algoritma neural networks,

C4.5, dan CART.

(2)

Erdogan dan Timor [1]

melakukan penelitian terhadap

mahasiswa di Univeristas

Maltepe Turki untuk

mengetahui hubungan antara hasil ujian masuk universitas dengan kesuksesan mereka

dalam proses perkuliahan.

Penelitian ini menggunakan algoritma pengklusteran K-means.

(3)

Gérard Lassibille dan Lucía Navarro Gómez [6] melakukan

penelitian terhadap 7000

mahasiswa

universitas-universitas di Spanyol untuk mengetahui faktor utama yang mempengaruhi ketidaklulusan (drop out) mereka. Penelitian ini menunjukkan bahwa jenis kelamin (hanya di universitas teknik), umur ketika masuk, nilai ujian masuk, jenis SMU,

(6)

sumber biaya kuliah, pendidikan orang tua, serta

status tempat tinggal

berpengaruh terhadap

ketidaklulusan mahasiswa di Spanyol.

(4)

Gerben W. Dekker [DEK09] melakukan penelitian untuk

memprediksi ketidaklulusan

mahasiswa (drop out) tahun pertama di Departemen Teknik Elektro Universitas Teknologi

Eindhoven karena tingkat

ketidaklulusan yang mencapai 40%. Data nilai akademik mahasiswa digunakan dalam penelitian ini. Model proses CRISP-DM dipakai sebagai acuan pelaksanaan penelitian

dengan menggunakan

algoritma C4.5 dan CART untuk melakukan prediksi. Dari penelitian ini diketahui bahwa nilai Aljabar Linier, Kalkulus, Jaringan, serta nilai rata-rata mata pelajaran IPA di SMU menjadi faktor penentu utama ketidaklulusan mahasiswa.

Data Yang Digunakan

Penelitian ini menggunakan dua jenis data yaitu data pribadi dan

data nilai semester pertama

mahasiwa Program Studi Teknik Komputer Politeknik Negeri Padang dari angkatan 2006 sampai 2010. Tiap angkatan terdiri atas ±90 orang

mahasiswa yang terdiri atas

mahasiswa undangan (PMDK) dan mahasiswa jalur ujian masuk dengan latar belakang pendidikan SMU IPA dan SMK Teknik.

Data karakteristik mahasiswa adalah data pribadi dari lulusan

SMU/SMK yang mengikuti ujian

seleksi masuk Politeknik Negeri

Padang (PNP) bidang Rekayasa pada tiap tahun angkatan yang didapat dari bagian UPT Sistem Informasi dengan format Ms.Access. Untuk tiap tahun angkatan, terdapat 670-1150 record data. Data ini merupakan data mentah

hasil pemindaian formulir pendaftaran peserta seleksi masuk PNP.

Tabel 1. Atribut Data Pribadi Mahasiswa

N o

Atribut Format

1 No. Peserta 10 digit angka

2 Nama

Peserta

20 karakter abjad 3 Tempat Lahir 20 karakter abjad

4 Tanggal Lahir 6 digit angka (ddmmyy) 5 Tahun Masuk SMU 3 digit angka (kelas + tahun) 6 Jurusan SMU/SMK 3 digit angka 7 Nilai Ijazah/STTB 8 digit angka (tahun + #mata pelajaran + nilai 8 Nilai NEM/UAN 6 digit angka (#mata pelajaran + nilai) 9 Pilihan Jurusan

5 digit angka untuk tiap pilihan 10 Alamat Rumah 25 karakter abjad 11 Nama Orang Tua 20 karakter abjad 12 Pekerjaan Orang Tua 2 karakter abjad A-L (pekerjaan ayah + pekerjaan ibu)

13 Asal Daerah 5 digit huruf (kode propinsi + kode kabupaten/kota) 14 Penghasilan Orang Tua 1 karakter abjad A/B/C/D 15 Keadaan Orang Tua 2 karater abjad A/B (keadaan ayah + keadaan ibu) 16 Jumlah Saudara

dibagi menjadi dua atribut : 2 digit angka jumlah kakak dan 2 digit angka jumlah adit 17 Jenis

Kelamin

1 karakter abjad P/W

18 Agama 1 karakter abjad

A-F

(7)

93

N o Atribut Format araan A/B/C 20 Pendidikan Orang Tua 2 karakter abjad A-H (pendidikan ayah + pendidikan ibu)

Data nilai semester pertama

mahasiswa angkatan 2006-2010

didapat dari program studi Teknik

Komputer PNP dengan format

Ms.Excel. Data nilai yang diambil adalah data nilai indeks prestasi (IP) mahasiswa pada semester pertama.

Persiapan Data

Pada penelitian ini, proses persiapan data dilakukan terpisah pada data karakteristik, data nilai serta data gabungan. Karena tiap data memiliki atribut dan format yang

berbeda, langkah-langkah yang

dilakukan dalam proses persiapan data akan berbeda pula. Langkah-langkah persiapan untuk

masing-masing data ditampilkan pada

Gambar 2. Data Karakteristik Transformasi Data Pembersihan Data Pengurangan Data Data Nilai Transformasi Data Data Gabungan Pembersihan Data Transformasi Data Pengurangan Data Integrasi Data Data Peserta Ujian Masuk PNP Data Nilai Mahasiswa Teknik Komputer PNP Data Gabungan Data Nilai Data Karakteristik

Gambar 2. Proses Persiapan Data Pendefinisian Atribut Kelas

Atribut kelas yang digunakan adalah atribut kelas yang didefinisikan secara manual. Atribut kelas dibuat dengan mengelompokkan nilai indeks prestasi semester satu mahasiswa

yang diambil dari data nilai

mahasiswa. Pada penelitian ini

digunakan dua jenis atribut kelas manual:

(1) K2: IP dikelompokkan atas dua

kelompok yaitu Atas dan

Bawah yang mewakili posisi IP mahasiswa terhadap nilai IP 2.84. Nilai 2.84 ini didapat

dengan menggunakan metode distribusi normal.

(2) K3: IP dikelompokkan atas 3 kelompok Baik (IP≥3), Berisiko (2.5≤IP<3), dan Buruk (IP>2.5) yang mewakili tingkat risiko ketidaklulusan mahasiswa.

HASIL DAN PEMBAHASAN

Klasifikasi dilakukan

menggunakan aplikasi WEKA

Explorer. Proses klasifikasi dilakukan terhadap data karakteristik mahasiswa (DataDasar) dengan pengelompokkan IP (K2 dan K3) sebagai atribut

kelasnya. Klasifikasi dilakukan

menggunakan algoritma CART dan C4.5. Hasil klasifikasi ditampilkan pada Tabel 2.

Tabel 2. Hasil Klasifikasi Data

Data

Algoritma C4.5 CART C4.5 CART

Akurasi 64.88% 67.56% 49.16% 49.50%

Recall 0.702 0.735 0.627 0.669

Precision 0.639 0.661 0.592 0.556

F-measure 0.669 0.696 0.609 0.608

Atribut Sekolah Sekolah Sekolah Sekolah

Pilihan Pilihan Pilihan Pilihan

Jekel RTSTTB RTUAN PKJ.Ayah PKJ.Ayah Pos.Anak PKJ.Ibu Pend.Ibu Pend.Ayah Umur DataDasar (K2) DataDasar (K3)

Pada table 2 tersebut dapat diketahui bahwa algoritma CART

memberikan akurasi paling baik

(67.56%), sedangkan algoritma C4.5 memberikan hasil sedikit dibawahnya (64.88%). Hal ini terjadi karena

algoritma CART dengan konsep

pohon biner lebih cocok digunakan untuk data yang bersifat numerik, dimana pada DataDasar, sebagian besar nilai atribut data karakteristiknya masih menggunakan bentuk numerik. Algoritma C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut.

Gambar 2 memperlihatkan

pohon keputusan yang dihasilkan oleh algoritma CART (a) dan C4.5(b). Dari gambar ini dapat dilihat atribut-atribut

(8)

yang digunakan dalam klasifikasi dan posisinya.

Untuk atribut-atribut yang digunakan sebagai simpul pohon keputusan, pada sebagian besar pohon, atribut Sekolah merupakan akar pohon keputusan. Atribut Pilihan, Jekel, RTSTTB, RTUAN, PKJ.Ayah, PKJ.Ibu, serta Pend. Ayah merupakan atribut-atribut yang berada pada level atas pohon keputusan.

Dari atribut-atribut utama tersebut, atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang terkait langsung dengan pribadi dan latar belakang akademis mahasiwa dapat digunakan sebagai atribut data karakteristik baru untuk pemodelan prediksi prestasi akademik mahasiswa baru pada semester pertama.

Gambar 3. Pohon Keputusan Klasifikasi Data Karakteristik Mahasiswa Menggunakan Algoritma CART (a) dan C4.5 (b) KESIMPULAN

Dari penelitian ytang

dilakukan, dapat disimpulkan

beberapa hal :

(1) Algoritma CART memberikan akurasi yang lebih baik dari pada algoritma C4.5 dalam klasifikasi data karakteristik mahasiswa.

(2) Atribut Sekolah, Pilihan, Jekel, RTSTTB, dan RTUAN yang

terkait langsung dengan

pribadi dan latar belakang

akademis mahasiwa dapat

digunakan sebagai atribut data

karakteristik baru untuk

pemodelan prediksi prestasi

akademik mahasiswa baru

pada semester pertama.

DAFTAR PUSTAKA

[1] Erdogan, S.Z, Timor, M. 2005. A

Data mining Applications in Student Database. Journal of

Aeronautics and Space

Technologies. Vol 2(2). 53-57. [2] Romero, C., Ventura, S. 2007.

Educational data mining: A survey from 1995 to 2005. Expert System

with Application. Vol 33. 135-146. [3] Dekker, W. Gerben., et.al. 2009.

Predicting Students Drop Out: A Case Study. Proceedings of the

2nd International Conference on Educational Data mining. 41-50. [4] Larose, D.T. 2005. Discovering

Knowledge in Data: An Introduction to Data mining. Wiley

Interscience. Ney Jersey.

[5] Luan, J. 2002. Data mining and Its

Applications in Higher Education.

New Directions for Institutional Research. Vol 133. 17-36.

[6] Lassibille, G., Gomez, L. N. 2007.

Why Do Higher Education Students Drop Out? Evidence from Spain. Education Economics.

Gambar

Gambar 1. Alur Data mining Pada  Pendidikan [2]
Tabel 1. Atribut Data Pribadi  Mahasiswa
Gambar 2. Proses Persiapan Data
Gambar 3. Pohon Keputusan  Klasifikasi Data Karakteristik  Mahasiswa Menggunakan  Algoritma CART (a) dan C4.5 (b)

Referensi

Dokumen terkait

Penurunan kadar glukosa darah paling banyak jika dibandingkan dengan kontrol obat amaryl yaitu pada perlakuan pemberian ekstrak rimpang rumput teki 135 mg/40 grBB dalam 0,4 ml/100

Menurut Marlinda (2004:1), sistem basis data adalah suatu sistem menyusun dan mengelola record-record menggunakan komputer untuk menyimpan atau

Hasil uji hipotesis yang diterima adalah Ha yang menyatakan bahwa ada hubungan antara hobi cosplay dengan konsep diri anggota Komunitas Cosplay Medan.. Hasil r s

Tujuan: Tujuan penelitian ini yaitu untuk mengetahui efektifitas diet ikan gabus terhadap peningkatan albumin anak pada perawatan pasca pulang penderita nefrotik sindrom di RSUD

Setelah dilakukan test Whole Body Reaction sebelum dilaksanakan metode latihan Ball Drops Drill Terhadap Kecepatan Reaksi Pada Siswa Ekstrakurikuler Bola Voli Putra SMK

Tarif atas jenis penerimaan negara bukan pajak dari penyelenggaraan jasa pendidikan Perguruan Tinggi Agama Negeri di lingkungan Departemen Agama yang meliputi:

Gambar 4.29 Tabel Rugi Laba diatas digunakan untuk menampung data laporan perhitungan hasil usaha, yaitu terdapat kode rekening sebagai premerekey, nama rekening,

Lingkungan non fisik yang terdiri dari: indikator status sosial, faktor sistem informasi, dan faktor hubungan kerja dalam organisasi menunjukkan hubungan yang