commit to user
C4.5 DALAM PENENTUAN JURUSAN SISWA
SMA NEGERI 2 SURAKARTA
Nadya Al Fitriani, Isnandar Slamet, dan Tri Atmojo Kusmayadi
Program Studi Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret Surakarta
Abstrak. Data mining merupakan proses eksplorasi terhadap data yang
berukur-an besar untuk menemukberukur-an pola dalam pengambilberukur-an keputusberukur-an. Klasifikasi adalah teknik dalamdata mining dengan menerapkan metode pohon keputusan untuk mem-bentuk data dalam grup atau kelas. Algoritme yang digunakan dalam pohon ke-putusan adalah algoritme C4.5. Pada dunia pendidikan, proses penentuan jurusan siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam pe-nelitian ini untuk menentukan penjurusan siswa SMA menggunakan algoritme C4.5. Berdasarkan pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunak-an dalam klasifikasi penjurusdigunak-an karena memiliki akurasi tinggi. Dalam penelitidigunak-an ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap atribut,entropy, gain, split info dangain ratio. Hasil pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada datatesting yang dilakukan sebanyak lima kali seca-ra seca-random, diperoleh seca-rata-seca-rata persentase keakuseca-ratan sebesar 86,82% dengan recall
92,19% dan presisi 88,17%. Sedangkan hasil pengujian secara keseluruhan presentase keakuratan sebesar 89,78%.
Kata kunci: data mining, klasifikasi, algoritme C4.5
1.
Pendahuluan
Di zaman modern perkembangan teknologi penyimpanan data dan
pe-ngolahan data semakin banyak. Kemampuan seseorang dalam mengumpulkan
dan mengolah data berlimpah dapat dimanfaatkan untuk analisis yang hasilnya
dapat memberikan suatu pengetahuan atau informasi. Berry dan Linoff [2]
men-definisikan
data mining
sebagai proses eksplorasi data dan analisis data untuk
menemukan pola yang bermakna. Pada dunia pendidikan, proses penentuan
ju-rusan siswa menjadi hal yang penting untuk diputuskan dengan benar. Salah
satu teknik yang digunakan dalam penentuan jurusan adalah klasifikasi.
Menu-rut Adhatrao
et al.
[1] klasifikasi adalah teknik dalam
data mining
menggunakan
pohon keputusan untuk membentuk data dalam grup atau kelas. Salah satu
algoritme yang digunakan dalam pohon keputusan adalah algoritme C4.5.
Algoritme C4.5 banyak digunakan dalam klasifikasi karena mudah
di-interpretasikan, cepat dan memiliki akurasi serta presisi tinggi. Kamagi dan
Hansun [4] tahun 2014 memprediksi tingkat kelulusan mahasiswa menggunakan
algoritme C4.5. Hasil penelitian ini menunjukkan tingkat keakurasian 87,5
commit to user
yaitu kelas XI. Penjurusan dilakukan untuk menentukan jurusan seorang siswa
yaitu apakah siswa tersebut masuk dalam jurusan Ilmu Pengetahuan Alam (IPA)
atau Ilmu Pengetahuan Sosial (IPS). Masalah yang sering terjadi pada proses
penjurusan adalah keterlambatan nilai siswa dari para wali kelas, sehingga
pe-nentuan penjurusan kurang tepat karena terbatasnya waktu.
Pada penelitian ini diterapkan
data mining
menggunakan algoritme C4.5
dalam penentuan jurusan siswa SMA Negeri 2 Surakarta. Atribut yang
digu-nakan adalah data nilai rapor kenaikan kelas X Tahun Ajaran 2009/2010 sampai
2012/2013.
2.
DATA MINING
Menurut Larose [7]
data mining
merupakan gabungan dari beberapa
bi-dang keilmuan yang menyatukan teknik dari mesin pembelajaran, pengenalan
pola, statistik,
database
, dan visualisasi untuk penanganan permasalahan
peng-ambilan informasi dari
database
yang besar.
Berdasarkan tugas yang dilakukan
data mining
dibagi menjadi enam
ke-lompok (Larose [7]).
1. Deskripsi. Deskripsi adalah teknik yang digunakan untuk menggambarkan
pola dan kecenderungan yang terdapat dalam data.
2. Klasifikasi. Klasifikasi merupakan proses membedakan kelas data dalam
beberapa kategori. Beberapa metode yang terdapat pada klasifikasi yaitu
pohon keputusan,
neural network, k-nearest neighbor classifiers,
case-based reasoning
dan algoritme genetika. Menurut Han dan Kamber [3]
pohon keputusan adalah salah satu metode klasifikasi yang paling
popu-ler dan mudah untuk diinterpretasikan. Pohon keputusan juga berguna
untuk mengeksplorasi data, menemukan hubungan tersembunyi antara
se-jumlah variabel input dengan sebuah variabel target (Kusrini dan Luthfi
[6]). Salah satu metode yang dapat digunakan untuk membangun pohon
keputusan adalah Algoritme C4.5 (Adhatrao
et al.
[1]).
3. Estimasi. Estimasi hampir sama dengan klasifikasi, tetapi variabel target
commit to user
4. Prediksi. Prediksi hampir sama dengan klasifikasi dan estimasi, tetapi
nilai dari hasil prediksi akan ada di masa mendatang.
5. Klaster. Klaster merupakan pengelompokan sejumlah data yang
mem-punyai kemiripan ke dalam kelompok-kelompok data.
6. Asosiasi. Asosiasi adalah teknik yang digunakan untuk mencari hubungan
antara karakteristik tertentu dalam satu waktu.
3.
Algoritme C4.5
Algoritme C4.5 merupakan pengembangan dari
iterative dichotomiser
3
(
ID3
).
ID3
diperkenalkan pertama kali oleh Quinlan tahun 1986. Adapun
langkah-langkah menggunakan algoritme C4.5 menurut Kareem dan Duaimi [5]
untuk memperoleh
gain ratio
sebagai berikut.
(1)
Entropy
.
Entropy
adalah ukuran ketidakpastian dimana semakin
ting-gi
entropy
semakin tinggi ketidakpastian. Di dalam
information theory,
entropy
sering digunakan sebagai parameter untuk mengukur
heterogenity
(keberagaman) dari suatu sampel data.
Entropy(S)
dinyatakan sebagai
Entropy
(
S
) =
n
∑
i=1
−
p
i×
log
2(
p
i)
(3.1)
dimana
S
adalah himpunan kasus,
n
adalah banyaknya kelas dan
p
iadalah
proporsi
S
iterhadap
S
.
(2)
Gain
.
Gain
yang dikenal juga sebagai nilai gain atau informasi gain
adalah salah satu langkah pemilihan atribut yang digunakan untuk
me-milih tes atribut tiap simpul (
node
) pada pohon.
Gain(S,A)
dinyatakan
sebagai
Gain
(
S, A
) =
Entropy
(
S
)
−
∑
vϵnilai(A)
S
vS
Entropy
(
S
v)
(3.2)
dimana
A
adalah atribut,
nilai
(
A
) adalah semua kemungkinan nilai dari
atribut
A
,
Entropy S
vadalah
entropy
untuk sampel-sampel yang memiliki
nilai
v
,
S
vadalah proporsi
S
pada atribut
A
dengan nilai
v
, dan
v
adalah
commit to user
(3)
Gain Ratio
.
Gain Ratio
adala normalisasi dari informasi
gain
yang
mem-perhitungkan
entropy
dari distribusi probabilitas subset setelah dilakukan
proses partisi. Atribut dengan nilai
gain ratio
tertinggi dipilih sebagai
atribut tes untuk suatu
node
. Untuk menghitung
gain ratio
perlu terlebih
dahulu menghitung
SplitInfo
.
SplitInfo(S,A)
dapat dihitung dengan cara
SplitInf o
(
S, A
) =
v
∑
j=1
−
p
j×
log
2(
p
j)
dimana
p
jadalah proporsi
S
jterhadap
S
. Selanjutnya
gain ratio
dihitung
dengan cara
GainRatio
(
S, A
) =
Gain
(
S, A
)
SplitInf o
(
S, A
)
(3.3)
4.
Metode Penelitian
Pada penelitian ini digunakan algoritme C4.5 untuk menentukan jurusan
siswa SMA Negeri 2 Surakarta. Perhitungan dalam penelitian ini menggunakan
Microsoft Excel
dan
Software Tanagra
. Data yang digunakan adalah data nilai
rapor kenaikan siswa SMA Negeri 2 Surakarta kelas X Tahun Ajaran 2009/2010
sampai 2012/2013 sejumlah 1595. Langkah awal untuk menentukan jurusan
dilakukan dengan menghitung jumlah kasus untuk keputusan IPA dan jumlah
kasus untuk keputusan IPS pada setiap atribut. Selanjutnya dihitung
entropy
dari semua kasus dan kasus yang dibagi berdasarkan atribut nilai rapor untuk
mengukur keberagaman data menggunakan persamaan (3.1). Setelah itu nilai
gain
dari tiap-tiap atribut dihitung menggunakan persamaan (3.2). Langkah
selanjutnya adalah menghitung nilai
gain ratio
dari tiap-tiap atribut
mengguna-kan persamaan (3.3). Berikutnya adalah menetapmengguna-kan salah satu atribut nilai
rapor dengan nilai rasio
gain
tertinggi sebagai akar. Kemudian, dibuat cabang
untuk tiap-tiap atribut nilai rapor dengan menghitung rasio gain dari atribut
lain sampai semua kasus pada cabang memiliki kelas yang sama. Setelah semua
atribut memiliki kelas, langkah terakhir melakukan pengujian untuk menganalisis
commit to user
5.
Hasil dan Pembahasan
5.1.
Deskripsi Atribut Data.
Atribut yang digunakan dalam penentuan
ju-rusan terdiri dari data nilai mata pelajaran Matematika, Fisika, Kimia, Biologi,
Sejarah, Geografi, Ekonomi, dan Sosiologi. Nilai mata pelajaran tersebut
di-gunakan sebagai variabel input. Selanjutnya, variabel input didi-gunakan untuk
penentuan variabel target yaitu jurusan IPA dan jurusan IPS. Daftar kriteria
[image:5.595.97.515.245.491.2]dan rentang skor seluruh atribut dapat dilihat pada Tabel 1.
Tabel 1. Atribut Nilai Siswa
Rentang Skor Nilai
80-100
A
70-79
B
60-69
C
40-59
D
0-39
E
5.2.
Analisis Algoritme C4.5.
Berikut adalah penjelasan dalam pembentukan
pohon keputusan menggunakan algoritme C4.5.
(1) Menentukan node akar. Langkah yang digunakan untuk menentukan node
akar adalah dengan menghitung
entropy
,
gain
,
split info
dan
gain ratio
dari delapan atribut data sebagai nilai awal dari pohon (
tree
). Hasil
per-hitungan rasio gain ditunjukkan pada Tabel 2.
Tabel 2. Penentuan Node Akar
Atribut
Gain Ratio
Matematika
0,1406
Fisika
0,0909
Kimia
0,0882
Biologi
0,1469
Atribut
Gain Ratio
Sejarah
0,0276
Geografi
0,0659
Ekonomi
0,0612
Sosiologi
0,0377
Dari Tabel 2 dapat diketahui bahwa atribut Biologi menjadi node
akar karena memiliki nilai
gain ratio
terbesar yaitu 0,1469. Setelah
diper-oleh node akar dilihat nilai
entropy
untuk masing-masing rentang skor.
Ada tiga nilai rentang skor pada atribut Biologi yaitu A, B, dan C. Perlu
dilakukan perhitungan lebih lanjut pada ketiga nilai rentang skor tersebut
[image:5.595.167.437.533.619.2]commit to user
(2) Menentukan node cabang. Proses penentuan node cabang dipilih
berda-sarkan
gain ratio
terbesar setelah menghapus atribut yang telah terpilih
sebagai node akar. Berdasarkan
output
diperoleh
(a) Iterasi pertama. Pada node Biologi C diperoleh nilai
gain ratio
ter-tinggi pada atribut Kimia yaitu sebesar 0,1408.
(b) Iterasi kedua. Pada node Biologi C Kimia B diperoleh nilai
gain ratio
tertinggi pada atribut Ekonomi yaitu sebesar 0,1942.
(c) Iterasi ketiga. Pada node Biologi C Kimia B Ekonomi B diperoleh
ni-lai
gain ratio
tertinggi pada atribut Matematika yaitu sebesar 0,6973.
Ada tiga nilai rentang skor pada atribut Matematika yaitu B, C,
dan D. Ketiga nilai tersebut sudah mengklasifikasikan jurusan
sis-wa. Sedangkan untuk node Biologi C Kimia B Ekonomi C diperoleh
nilai
gain ratio
tertinggi juga pada atribut Matematika yaitu
sebe-sar 1. Ada dua nilai rentang skor pada atribut Matematika yaitu
C dan D. Kedua nilai tersebut sudah mengklasifikasikan jurusan
sis-wa. Dengan demikian, diperoleh pohon keputusan akhir sebagaimana
dalam Gambar 1.
kim
bio eko mat
ips
ipa ips ips mat
ipa ips
b
c b
a c
a c
b b c
Gambar 1. Pohon Keputusan Akhir Biologi C Kimia B
commit to user
1595 data terdapat 219 aturan. Berikut adalah contoh pembentukan aturan
kla-sifikasi untuk Biologi C Kimia B.
(1) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika B, maka
Jurusan IPA.
(2) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika C, maka
Jurusan IPS.
(3) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika D, maka
Jurusan IPS.
(4) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika C, maka
Jurusan IPA.
(5) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika D, maka
Jurusan IPS.
5.4.
Pengujian dan Evaluasi.
Setelah model pohon keputusan dari data
training
didapatkan, tahap selanjutnya yaitu melakukan pengujian dan evaluasi
terha-dap hasil model pohon keputusan data
training
tersebut. Hasil pengujian data
training
secara keseluruhan dapat dilihat pada Tabel 3.
Tabel 3. Hasil Pengujian Data Training secara Keseluruhan
Kelas Prediksi
IPS
IPA
Jumlah
Kelas Aktual
IPS
1002
41
1043
IPA
122
430
552
Jumlah 1124
471
1595
Berdasarkan Tabel 3 dari 1595 data
training
secara keseluruhan terdapat
1432 data dengan klasifikasi benar, sehingga diperoleh presentase akurasi
sebe-sar 89,78% dengan
recall
96,07% dan presisi sebesar 89,15%. Sedangkan hasil
pengujian data
testing
yang dilakukan secara random sebanyak lima kali dengan
jumlah data yang berbeda dapat dilihat pada Tabel 4.
Berdasarkan Tabel 4 diperoleh rata-rata akurasi sebesar 86,82% dengan
commit to user
Tabel 4. Hasil Pengujian dan Evaluasi
Presentase Data Data Training Data Testing Akurasi Recall Presisi
20% : 80% 319 1276 90,20% 96,78% 89,23% 40% : 60% 638 957 77,22% 82,09% 83,15% 50% : 50% 798 797 92,22% 95,76% 92,55% 60% : 40% 957 638 91,38% 93,69% 93,01% 80% : 20% 1276 319 83,07% 92,65% 82,89%
rata-rata 86,82% 92,19% 88,17%
6.
Kesimpulan
Berdasarkan hasil pembahasan diperoleh kesimpulan bahwa pohon
ke-putusan dengan algoritme C4.5 dapat digunakan dalam penentuan penjurusan
siswa SMA Negeri 2 Surakarta. Hal ini didukung oleh hasil pengujian yang
meng-gunakan seluruh data
training
dengan 219 aturan klasifikasi diperoleh presentase
akurasi sebesar 89,78%. Sedangkan penggunaan data
testing
yang dilakukan
sebanyak lima kali secara random diperoleh rata-rata akurasi sebesar 86,82%
dengan
recall
92,19% dan presisi 88,17%.
DAFTAR PUSTAKA
1. Adhatrao, K., A. Gaykar, A. Dhawan, R. Jha and V. Honrao, Predicting Students
Performance using id3 and c4.5 Classification Algorithms, International Journal of Data
Mining & Knowledge Management Process 3(2013), 39–52.
2. Berry, M. J. A and G. S. Linoff,Data Mining Technique : for Marketing, Sales, and Customer
Support, John Wiley & Sons, New York, 1997.
3. Han, J., G. Cohen and Kamber,Data Mining : Concepts and Techniques, second ed., Simon
Fraser University, USA: Morgan Kaufman, 2006.
4. Kamagi, D.H dan S. Hansun, Implementasi Data Mining dengan Algoritma c4.5 untuk
Memprediksi Tingkat Kelulusan Mahasiswa, ULTIMATICS1(2014), 15–20.
5. Kareem, I. A and M. G. Duaimi, Improved Accuracy for Decision Tree Algorithm Based
on Unsupervised Discretization, International Journal of Computer Science and Mobile
Computing 3(2014), 176–183.
6. Kusrini dan E. T. Luthfi,Algoritma Data Mining, Andi Offset, Yogyakarta, 2009.
7. Larose, D. T.,Discovering Knowledge in Data: An Introduction to Data Mining, John Willey