Penerapan Data Mining Menggunakan Algoritme C4.5 dalam Penentuan Jurusan Siswa SMA Negeri 2 Surakarta Artikel

(1)

commit to user

C4.5 DALAM PENENTUAN JURUSAN SISWA

SMA NEGERI 2 SURAKARTA

Nadya Al Fitriani, Isnandar Slamet, dan Tri Atmojo Kusmayadi

Program Studi Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret Surakarta

Abstrak. _{Data mining} _{merupakan proses eksplorasi terhadap data yang}

berukur-an besar untuk menemukberukur-an pola dalam pengambilberukur-an keputusberukur-an. Klasifikasi adalah teknik dalamdata mining dengan menerapkan metode pohon keputusan untuk mem-bentuk data dalam grup atau kelas. Algoritme yang digunakan dalam pohon ke-putusan adalah algoritme C4.5. Pada dunia pendidikan, proses penentuan jurusan siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam pe-nelitian ini untuk menentukan penjurusan siswa SMA menggunakan algoritme C4.5. Berdasarkan pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunak-an dalam klasifikasi penjurusdigunak-an karena memiliki akurasi tinggi. Dalam penelitidigunak-an ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap atribut,entropy, gain, split info dangain ratio. Hasil pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada datatesting yang dilakukan sebanyak lima kali seca-ra seca-random, diperoleh seca-rata-seca-rata persentase keakuseca-ratan sebesar 86,82% dengan recall

92,19% dan presisi 88,17%. Sedangkan hasil pengujian secara keseluruhan presentase keakuratan sebesar 89,78%.

Kata kunci_{: data mining, klasifikasi, algoritme C4.5}

1.

Pendahuluan

Di zaman modern perkembangan teknologi penyimpanan data dan

pe-ngolahan data semakin banyak. Kemampuan seseorang dalam mengumpulkan

dan mengolah data berlimpah dapat dimanfaatkan untuk analisis yang hasilnya

dapat memberikan suatu pengetahuan atau informasi. Berry dan Linoff [2]

men-definisikan

data mining

sebagai proses eksplorasi data dan analisis data untuk

menemukan pola yang bermakna. Pada dunia pendidikan, proses penentuan

ju-rusan siswa menjadi hal yang penting untuk diputuskan dengan benar. Salah

satu teknik yang digunakan dalam penentuan jurusan adalah klasifikasi.

Menu-rut Adhatrao

et al.

[1] klasifikasi adalah teknik dalam

data mining

menggunakan

pohon keputusan untuk membentuk data dalam grup atau kelas. Salah satu

algoritme yang digunakan dalam pohon keputusan adalah algoritme C4.5.

Algoritme C4.5 banyak digunakan dalam klasifikasi karena mudah

di-interpretasikan, cepat dan memiliki akurasi serta presisi tinggi. Kamagi dan

Hansun [4] tahun 2014 memprediksi tingkat kelulusan mahasiswa menggunakan

algoritme C4.5. Hasil penelitian ini menunjukkan tingkat keakurasian 87,5

(2)

commit to user

yaitu kelas XI. Penjurusan dilakukan untuk menentukan jurusan seorang siswa

yaitu apakah siswa tersebut masuk dalam jurusan Ilmu Pengetahuan Alam (IPA)

atau Ilmu Pengetahuan Sosial (IPS). Masalah yang sering terjadi pada proses

penjurusan adalah keterlambatan nilai siswa dari para wali kelas, sehingga

pe-nentuan penjurusan kurang tepat karena terbatasnya waktu.

Pada penelitian ini diterapkan

data mining

menggunakan algoritme C4.5

dalam penentuan jurusan siswa SMA Negeri 2 Surakarta. Atribut yang

digu-nakan adalah data nilai rapor kenaikan kelas X Tahun Ajaran 2009/2010 sampai

2012/2013.

2.

DATA MINING

Menurut Larose [7]

data mining

merupakan gabungan dari beberapa

bi-dang keilmuan yang menyatukan teknik dari mesin pembelajaran, pengenalan

pola, statistik,

database

, dan visualisasi untuk penanganan permasalahan

peng-ambilan informasi dari

database

yang besar.

Berdasarkan tugas yang dilakukan

data mining

dibagi menjadi enam

ke-lompok (Larose [7]).

1. Deskripsi. Deskripsi adalah teknik yang digunakan untuk menggambarkan

pola dan kecenderungan yang terdapat dalam data.

2. Klasifikasi. Klasifikasi merupakan proses membedakan kelas data dalam

beberapa kategori. Beberapa metode yang terdapat pada klasifikasi yaitu

pohon keputusan,

neural network, k-nearest neighbor classifiers,

case-based reasoning

dan algoritme genetika. Menurut Han dan Kamber [3]

pohon keputusan adalah salah satu metode klasifikasi yang paling

popu-ler dan mudah untuk diinterpretasikan. Pohon keputusan juga berguna

untuk mengeksplorasi data, menemukan hubungan tersembunyi antara

se-jumlah variabel input dengan sebuah variabel target (Kusrini dan Luthfi

[6]). Salah satu metode yang dapat digunakan untuk membangun pohon

keputusan adalah Algoritme C4.5 (Adhatrao

et al.

[1]).

3. Estimasi. Estimasi hampir sama dengan klasifikasi, tetapi variabel target

(3)

commit to user

4. Prediksi. Prediksi hampir sama dengan klasifikasi dan estimasi, tetapi

nilai dari hasil prediksi akan ada di masa mendatang.

5. Klaster. Klaster merupakan pengelompokan sejumlah data yang

mem-punyai kemiripan ke dalam kelompok-kelompok data.

6. Asosiasi. Asosiasi adalah teknik yang digunakan untuk mencari hubungan

antara karakteristik tertentu dalam satu waktu.

3.

Algoritme C4.5

Algoritme C4.5 merupakan pengembangan dari

iterative dichotomiser

3

(

ID3

).

ID3

diperkenalkan pertama kali oleh Quinlan tahun 1986. Adapun

langkah-langkah menggunakan algoritme C4.5 menurut Kareem dan Duaimi [5]

untuk memperoleh

gain ratio

sebagai berikut.

(1)

Entropy

.

Entropy

adalah ukuran ketidakpastian dimana semakin

ting-gi

entropy

semakin tinggi ketidakpastian. Di dalam

information theory,

entropy

sering digunakan sebagai parameter untuk mengukur

heterogenity

(keberagaman) dari suatu sampel data.

Entropy(S)

dinyatakan sebagai

Entropy

(

S

) =

n

∑

i=1

−

p

i

×

log

2

(

p

i

)

(3.1)

dimana

S

adalah himpunan kasus,

n

adalah banyaknya kelas dan

p

i

adalah

proporsi

S

i

terhadap

S

.

(2)

Gain

.

Gain

yang dikenal juga sebagai nilai gain atau informasi gain

adalah salah satu langkah pemilihan atribut yang digunakan untuk

me-milih tes atribut tiap simpul (

node

) pada pohon.

Gain(S,A)

dinyatakan

sebagai

Gain

(

S, A

) =

Entropy

(

S

)

−

∑

vϵnilai(A)

S

v

S

Entropy

(

S

v

)

(3.2)

dimana

A

adalah atribut,

nilai

(

A

) adalah semua kemungkinan nilai dari

atribut

A

,

Entropy S

v

adalah

entropy

untuk sampel-sampel yang memiliki

nilai

v

,

S

v

adalah proporsi

S

pada atribut

A

dengan nilai

v

, dan

v

adalah

(4)

commit to user

(3)

Gain Ratio

.

Gain Ratio

adala normalisasi dari informasi

gain

yang

mem-perhitungkan

entropy

dari distribusi probabilitas subset setelah dilakukan

proses partisi. Atribut dengan nilai

gain ratio

tertinggi dipilih sebagai

atribut tes untuk suatu

node

. Untuk menghitung

gain ratio

perlu terlebih

dahulu menghitung

SplitInfo

.

SplitInfo(S,A)

dapat dihitung dengan cara

SplitInf o

(

S, A

) =

v

∑

j=1

−

p

j

×

log

2

(

p

j

)

dimana

p

j

adalah proporsi

S

j

terhadap

S

. Selanjutnya

gain ratio

dihitung

dengan cara

GainRatio

(

S, A

) =

Gain

(

S, A

)

SplitInf o

(

S, A

)

(3.3)

4.

Metode Penelitian

Pada penelitian ini digunakan algoritme C4.5 untuk menentukan jurusan

siswa SMA Negeri 2 Surakarta. Perhitungan dalam penelitian ini menggunakan

Microsoft Excel

dan

Software Tanagra

. Data yang digunakan adalah data nilai

rapor kenaikan siswa SMA Negeri 2 Surakarta kelas X Tahun Ajaran 2009/2010

sampai 2012/2013 sejumlah 1595. Langkah awal untuk menentukan jurusan

dilakukan dengan menghitung jumlah kasus untuk keputusan IPA dan jumlah

kasus untuk keputusan IPS pada setiap atribut. Selanjutnya dihitung

entropy

dari semua kasus dan kasus yang dibagi berdasarkan atribut nilai rapor untuk

mengukur keberagaman data menggunakan persamaan (3.1). Setelah itu nilai

gain

dari tiap-tiap atribut dihitung menggunakan persamaan (3.2). Langkah

selanjutnya adalah menghitung nilai

gain ratio

dari tiap-tiap atribut

mengguna-kan persamaan (3.3). Berikutnya adalah menetapmengguna-kan salah satu atribut nilai

rapor dengan nilai rasio

gain

tertinggi sebagai akar. Kemudian, dibuat cabang

untuk tiap-tiap atribut nilai rapor dengan menghitung rasio gain dari atribut

lain sampai semua kasus pada cabang memiliki kelas yang sama. Setelah semua

atribut memiliki kelas, langkah terakhir melakukan pengujian untuk menganalisis

(5)

commit to user

5.

Hasil dan Pembahasan

5.1.

Deskripsi Atribut Data.

Atribut yang digunakan dalam penentuan

ju-rusan terdiri dari data nilai mata pelajaran Matematika, Fisika, Kimia, Biologi,

Sejarah, Geografi, Ekonomi, dan Sosiologi. Nilai mata pelajaran tersebut

di-gunakan sebagai variabel input. Selanjutnya, variabel input didi-gunakan untuk

penentuan variabel target yaitu jurusan IPA dan jurusan IPS. Daftar kriteria

[image:5.595.97.515.245.491.2]

dan rentang skor seluruh atribut dapat dilihat pada Tabel 1.

Tabel 1. Atribut Nilai Siswa

Rentang Skor Nilai

80-100

A

70-79

B

60-69

C

40-59

D

0-39

E

5.2.

Analisis Algoritme C4.5.

Berikut adalah penjelasan dalam pembentukan

pohon keputusan menggunakan algoritme C4.5.

(1) Menentukan node akar. Langkah yang digunakan untuk menentukan node

akar adalah dengan menghitung

entropy

,

gain

,

split info

dan

gain ratio

dari delapan atribut data sebagai nilai awal dari pohon (

tree

). Hasil

per-hitungan rasio gain ditunjukkan pada Tabel 2.

Tabel 2. Penentuan Node Akar

Atribut

Gain Ratio

Matematika

0,1406

Fisika

0,0909

Kimia

0,0882

Biologi

0,1469

Atribut

Gain Ratio

Sejarah

0,0276

Geografi

0,0659

Ekonomi

0,0612

Sosiologi

0,0377

Dari Tabel 2 dapat diketahui bahwa atribut Biologi menjadi node

akar karena memiliki nilai

gain ratio

terbesar yaitu 0,1469. Setelah

diper-oleh node akar dilihat nilai

entropy

untuk masing-masing rentang skor.

Ada tiga nilai rentang skor pada atribut Biologi yaitu A, B, dan C. Perlu

dilakukan perhitungan lebih lanjut pada ketiga nilai rentang skor tersebut

[image:5.595.167.437.533.619.2]

(6)

commit to user

(2) Menentukan node cabang. Proses penentuan node cabang dipilih

berda-sarkan

gain ratio

terbesar setelah menghapus atribut yang telah terpilih

sebagai node akar. Berdasarkan

output

diperoleh

(a) Iterasi pertama. Pada node Biologi C diperoleh nilai

gain ratio

ter-tinggi pada atribut Kimia yaitu sebesar 0,1408.

(b) Iterasi kedua. Pada node Biologi C Kimia B diperoleh nilai

gain ratio

tertinggi pada atribut Ekonomi yaitu sebesar 0,1942.

(c) Iterasi ketiga. Pada node Biologi C Kimia B Ekonomi B diperoleh

ni-lai

gain ratio

tertinggi pada atribut Matematika yaitu sebesar 0,6973.

Ada tiga nilai rentang skor pada atribut Matematika yaitu B, C,

dan D. Ketiga nilai tersebut sudah mengklasifikasikan jurusan

sis-wa. Sedangkan untuk node Biologi C Kimia B Ekonomi C diperoleh

nilai

gain ratio

tertinggi juga pada atribut Matematika yaitu

sebe-sar 1. Ada dua nilai rentang skor pada atribut Matematika yaitu

C dan D. Kedua nilai tersebut sudah mengklasifikasikan jurusan

sis-wa. Dengan demikian, diperoleh pohon keputusan akhir sebagaimana

dalam Gambar 1.

kim

bio eko mat

ips

ipa ips ips mat

ipa ips

b

c b

a c

b b c

Gambar 1. Pohon Keputusan Akhir Biologi C Kimia B

(7)

commit to user

1595 data terdapat 219 aturan. Berikut adalah contoh pembentukan aturan

kla-sifikasi untuk Biologi C Kimia B.

(1) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika B, maka

Jurusan IPA.

(2) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika C, maka

Jurusan IPS.

(3) Jika Biologi C dan Kimia B dan Ekonomi B dan Matematika D, maka

Jurusan IPS.

(4) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika C, maka

Jurusan IPA.

(5) Jika Biologi C dan Kimia B dan Ekonomi C dan Matematika D, maka

Jurusan IPS.

5.4.

Pengujian dan Evaluasi.

Setelah model pohon keputusan dari data

training

didapatkan, tahap selanjutnya yaitu melakukan pengujian dan evaluasi

terha-dap hasil model pohon keputusan data

training

tersebut. Hasil pengujian data

training

secara keseluruhan dapat dilihat pada Tabel 3.

Tabel 3. Hasil Pengujian Data Training secara Keseluruhan

Kelas Prediksi

IPS

IPA

Jumlah

Kelas Aktual

IPS

1002

41

1043

IPA

122

430

552

Jumlah 1124

471

1595

Berdasarkan Tabel 3 dari 1595 data

training

secara keseluruhan terdapat

1432 data dengan klasifikasi benar, sehingga diperoleh presentase akurasi

sebe-sar 89,78% dengan

recall

96,07% dan presisi sebesar 89,15%. Sedangkan hasil

pengujian data

testing

yang dilakukan secara random sebanyak lima kali dengan

jumlah data yang berbeda dapat dilihat pada Tabel 4.

Berdasarkan Tabel 4 diperoleh rata-rata akurasi sebesar 86,82% dengan

(8)

commit to user

Tabel 4. Hasil Pengujian dan Evaluasi

Presentase Data Data Training Data Testing Akurasi Recall Presisi

20% : 80% 319 1276 90,20% 96,78% 89,23% 40% : 60% 638 957 77,22% 82,09% 83,15% 50% : 50% 798 797 92,22% 95,76% 92,55% 60% : 40% 957 638 91,38% 93,69% 93,01% 80% : 20% 1276 319 83,07% 92,65% 82,89%

rata-rata 86,82% 92,19% 88,17%

6.

Kesimpulan

Berdasarkan hasil pembahasan diperoleh kesimpulan bahwa pohon

ke-putusan dengan algoritme C4.5 dapat digunakan dalam penentuan penjurusan

siswa SMA Negeri 2 Surakarta. Hal ini didukung oleh hasil pengujian yang

meng-gunakan seluruh data

training

dengan 219 aturan klasifikasi diperoleh presentase

akurasi sebesar 89,78%. Sedangkan penggunaan data

testing

yang dilakukan

sebanyak lima kali secara random diperoleh rata-rata akurasi sebesar 86,82%

dengan

recall

92,19% dan presisi 88,17%.

DAFTAR PUSTAKA

1. Adhatrao, K., A. Gaykar, A. Dhawan, R. Jha and V. Honrao, Predicting Students

Performance using id3 and c4.5 Classification Algorithms, International Journal of Data

Mining & Knowledge Management Process 3_{(2013), 39–52.}

2. Berry, M. J. A and G. S. Linoff,Data Mining Technique : for Marketing, Sales, and Customer

Support, John Wiley & Sons, New York, 1997.

3. Han, J., G. Cohen and Kamber,Data Mining : Concepts and Techniques, second ed., Simon

Fraser University, USA: Morgan Kaufman, 2006.

4. Kamagi, D.H dan S. Hansun, Implementasi Data Mining dengan Algoritma c4.5 untuk

Memprediksi Tingkat Kelulusan Mahasiswa, ULTIMATICS1_{(2014), 15–20.}

5. Kareem, I. A and M. G. Duaimi, Improved Accuracy for Decision Tree Algorithm Based

on Unsupervised Discretization, International Journal of Computer Science and Mobile

Computing 3_{(2014), 176–183.}

6. Kusrini dan E. T. Luthfi,Algoritma Data Mining, Andi Offset, Yogyakarta, 2009.

7. Larose, D. T.,Discovering Knowledge in Data: An Introduction to Data Mining, John Willey