• Tidak ada hasil yang ditemukan

SNIPTEK 2014 ISBN:

N/A
N/A
Protected

Academic year: 2021

Membagikan "SNIPTEK 2014 ISBN:"

Copied!
7
0
0

Teks penuh

(1)

INF-391

KOMPARASI MENGGUNAKAN ALGORITMA C4.5, NEURAL NETWORK DAN NAÏVE BAYES DALAM PREDIKSI UJIAN KOMPENTENSI

SMK MAHADHIKA 4 JAKARTA

Aswan Supriyadi Sunge STMIK Nusa Mandiri mardian82@gmail.com

Kaman Nainggolan STMIK Nusa Mandiri Golan1251@yahoo.co.id

ABSTRAK ---Sekolah adalah merupakan tempat menimba ilmu dan juga tempat melanjutkan ke dunia pendidikan yang lebih tinggi dan juga masuk ke dalam dunia persaingan kerja. Jumlah siswa yang lulus menjadi indicator keberhasilan dari sebuah sekolah baik negeri dan swasta. Penelitian dalam hal memprediksi kelulusan ujian kompetensi di SMK. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu Algoritma C4.5, Neural Network, dan Naïve Bayes dan dapat yang diaplikasikan pada data kelulusan siswa baik yang lulus ujian kompetensi dan tidak lulus ujian kompetensi.

Dari hasil pengujian dengan mengukur kinerja metode tersebut menggunakan metode pengujian cross validation, confusion matrix dan kurva ROC diketahui mana yang memiliki akurasi tertinggi dari setiap metode yang diujikan.

Kata Kunci: Data Mining, Algoritma C4.5, Neural Network dan Naïve Bayes

ABSTRACT ---- School is a place to gain knowledge and also a place to continue to higher education and also get into the competitive world of work. Number of students who graduate become an indicator of success of both public and private schools. Research in terms of competence in predicting graduation. In this study comparison of data mining methods, C4.5 algorithm, Neural Network, and Naïve Bayes and can be applied to the data of students passing both the pass and do not pass the competency exam competency exam. From the test results to measure the performance of such methods using cross validation test method, confusion matrix and ROC curves which are known to have the highest accuracy of each method tested.

Keyword:

Data Mining, the algorithm C4.5, Naive Bayes and neural network

PENDAHULUAN

Dalam UU Sistem Pendidikan Nasional No. 20 tahun 2003 yang dimaksud dengan pendidikan adalah: “Usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara”. Berdasarkan penjelasan di atas, bias disimpulkan bahwa orientasi pendidikan mengembangkan potensi diri yang memiliki akhlak dan keterampilan yang diperlukan demi masyarakat dan negara. Dengan demikian system pendidikan yang dibangun berorientasi pada akhlak dan dunia usaha.

Perubahan kurikulum pun dilakukan tetapi perbaikan dan pembaharuan yang telah dilakukan ternyata tidak serta merta mampu menjawab permasalahan di seputar penyelenggaraan pendidikan menengah kejuruan yang berorientasi pada lapangan kerja.

Pemerintah daerah pun bersemangat mencanangkan program pendidikan kejuruan dan selain itu juga sebagai bentuk apresiasi sekolah atas karya siswa dan memupuk kepercayaan diri, juga untuk menjalin komunikasi dan interaksi lebih jauh dengan dunia industri. Dunia industri pun menyambut dan semakin mengakui kemampuan para siswa. Ini juga menunjukkan program pengembangan kurikulum telah sesuai dengan dunia kerja.Tentu saja hal inidiikuiti dengan kerjasama penyusunan kurikulum maupun dalam praktik sehari-hari antara pihak sekolah dan dunia industri

Kompetensi ketrampilan disini diartikan bahwa lulusan SMK diharapkan siap pakai dalam memenuhi kebutuhan tenaga kerja di dunia usaha dan industri. Untuk mampu menghasilkan tenaga terampil tingkat menengah seperti yang diharapkan maka

(2)

INF-392

dibutuhkan layanan pembelajaran yang tidak berjarak dengan dunia kerja yang sedang berkembang di masyarakat dan lulusannya harus siap berkompetisi secara global.

BAHAN DAN METODE Metode Penelitian

Pada penelitian ini, data yang digunakan adalah data SMK Mahadhika 4 di Jakarta.

Data nilai tersebut akan diolah menggunakan beberapa metode data mining sehingga diperoleh satu metode yang paling akurat dan dapat digunakan sebagai rules dalam memprediksi ujian kompetensi. Dalam penelitian ini akan dilakukan beberapa langkah-langkah atau tahapan penelitian.

Gambar 1

Diagram Tahap penelitian 1. Pengumpulan Data

Pada bagian ini dijelaskan tentang bagaimana dan dari mana data dalam penelitian ini didapatkan, meliputi data sekunder dan data primer. Data sekunder berisi tentang sumber perolehan data untuk keperluan penelitian, sedangkan data primer berisi tentang data yang dihasilkan dari penelitian

2. Pengolahan Awal Data

Pada bagian ini dijelaskan tentang tahap awal data mining. Pengolahan awal data meliputi proses input data ke format yang dibutuhkan, pengelompokan dan penentuan atribut data.

3. Metode yang Diusulkan

Pada bagian ini dijelaskan tentang metode yang diusulkan untuk digunakan pada prediksi ujian kompetensi. Penjelasan meliputi pengaturan dan pemilihan nilai dari parameter-parameter dan arsitektur melalui ujicoba.

4. Eksperimen dan PengujianMetode

Pada bagian ini dijelaskan tentang langkah-langkah eksperimen meliputi cara pemilihan arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil yang dapat membuktikan bahwa metode yang digunakan adalah tepat.

5. Evaluasi dan Validasi Hasil

6. Pada bagian ini dijelaskan tentang evaluasi dan validasi hasil penerapan metode pada penelitian yang dilakukan.

Penjelasan mengenai hal ini akan dipaparkan pada bab

HASIL DAN PEMBAHASAN Algoritma C4.5

Data training adalah untuk menentukan apakah seorang siswa lulus ujian kompetensi atau tidak. Berikut akan dibahas langkah- langkah perhitungan prediksi siswa lulus ujian atau tidak lulus ujian kompetensi dengan menggunakan algoritma C4.5. Berikut langkah dalam pembuatan pohon keputusan, yaitu : 1. Menyiapkan data training, data yang

digunakan ada

2. Hitung nilai entropy keseluruhan total kasus “LULUS” dan “TIDAK LULUS” ujian kompetensi. Dari data training yang ada diketahui jumlah kasus yang “LULUS”

ujian kompetensi sebanyak 102 record, dan jumlah kasus “TIDAK LU LUS” adalah sebanyak 25 record

= -102/127 *log 102/127 + (-25/127*log 25/127)

= 0,7155

3. Hitung nilai entropi dan nilai gain masing- masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat. Misalkan menghitung entropi bagi atribu t nilai semester 4.

= 0,7155 - (100/127*0.4912) + (9/127*0.9709)

= 0.1676

(3)

INF-393

Tabel 2

Nilai entropy dan gain untuk menentukan akar

Dapat dilihat nilai gain tertinggi ada pada atribut nilai semester 4 yakni 0,1676 sehingga dapat dilihat adalah akar dari pohon keputusan. Kemudian dilakukan kembali perhitungan nilai entropi dan gain untuk menentukan simpul 1.1, nilai yang dihitung berdasarkan atribut nilai semester 4 > 74 dan

≤ 74.

Tabel 3

Tabel nilai entropy dan gain untuk menentukan simpul 1.1

Berdasarkan hasil perhitungan gain terlihat atribut nilai semester 1 mempunyai nilai tertinggi yaitu 0,0941 sehingga dijadikan sebagai node 1.1 dari nilai semester 4 > 74.

Tentukan simpul selanjutnya yaitu node 1.2 dengan menghitung nilai entropy dan gain

semua atribut berdasarkan atribut nilai semester 4 ≤ 74.

Tabel 4

Tabel nilai entropy dan gain untuk menentukan simpul 1.2

Pembentukan simpul-simpul dengan perhitungan gain diperoleh decision tree untuk klasifikasi prediksi ujian kompetensi

Gambar 2 Pohon Keputusan

(4)

INF-394

4.1.2 Neural Network

Dengan menggunakan metode neural network menghasilkan tiga layer, yaitu input layer yang terdiri dari dua puluh empat simpul yang terdiri dari dua puluh tiga simpul dan satu buah simpul bias. Hidden layer terdiri dari empat belas simpul yang terdiri dari tiga belas simpul ditambah satu simpul bias. Output layer yang merupakan hasil klasifikasi terdiri dari dua simpul yaitu lulus dan tidak lulus.

Gambar 3

Algoritma Neural Network

4.1.3 Naïve Bayes

Penggunaan algoritma Naïve Bayes dimulai dengan melakukan perhitungan probabilitas prior untuk mengetahui nilai yang diterima dan tidak diterima untuk semua jumlah data. Pada data training jumlah data sebanyak 127 data dimana kelas lulus sebanyak 102 dan yang tidak lulus sebanyak 25. Berikut hasil perhitungan prior probability

Tabel 5

Perhitungan Probabilitas Prior

Untuk menetukan kelas dari kasus baru maka dilakukan perhitungan probabilitas posterior berdasarkan probabilitas prior yang telah dihitung sebelumnya

Tabel 6

Atribut X yang akan diprediksi

Berdasarkan nilai probabilitas prior masing-masing atribut yang telah dihitung pada table 4.7. maka dapat dilihat rule yang diperoleh untuk atribut di atas seperti berikut ini :

1. Probabilitas “Lulus” untuk setiap atribut 0,9375 * 0,9204545454 * 0,649122807 * 0,892857143 * 0,707692308

= 0.353937797

2. Probabilitas “Tidak Lulus” untuk setiap atribut

0,0625 * 0,0795545455 * 0,350877193 * 0,12 * 0,413043478

= 8.64625E-05

3. Bandingkan hasil dari probabilitas “Lulus”

dan “Tidak Lulus”

Probabilitas “Lulus” = 0.353937797 Probabilitas “Tidak Lulus” = 8.64625E-05 Dikarenakan 0.353937797 > 8.64625E-05, maka dapat disimpulkan bahwa data testing tersebut termasuk klasifikasi

“Lulus”.

(5)

INF-395

Evaluasi dan Validasi Metode

Metode klasifikasi bisa dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan, skabilitas dan interpretabilitas (Vecellis, 2009). Setelah data diolah maka dapat diuji tingkat akurasinya untuk melihat kinerja dari masing-masing metode. Hasil dari pengujian model yang telah dilakukan yaitu dengan algoritma C4.5, Neural Network, dan Naïve Bayes, dilakukan pengujian tingkat akurasi dengan menggunakan confussion matrix dan kurva ROC/AUC (Area Under Cover).

Tabel 7

Model Confusion Matrix data training untuk Metode C4.5

Tabel 8

Model Confusion Matrix data testing untuk Metode C4.5

Tabel 9

Model Confusion Matrix data training untuk Metode Neural Network

Tabel 10

Model Confusion Matrix data testing untuk Metode Neural Network

Tabel 11

Model Confusion Matrix data training untuk Metode Naïve Bayes

Tabel 12

Model Confusion Matrix data testing untuk Metode Naïve Bayes

Gambar 4

Kurva ROC data training untuk metode C4.5

Gambar 5

Kurva ROC data testing untuk metode C4.5

(6)

INF-396

Gambar 4.5

Kurva ROC data training untuk metode Neural Network

Gambar 6

Kurva ROC data testing untuk metode Neural Network

Gambar 7

Kurva ROC data training untuk metode Naïve Bayes

Gambar 8

Kurva ROC data testing untuk metode Naïve Bayes

Analisis Hasil Komparasi

Berikut pengujian performance dengan menggunakan Confusion Matrix diatas, akseptasi data prediksi ujian kompetensi dengan menggunakan data training dilakukan pengujian komparasi dengan menggunakan ROC Curve. Berikut ini adalah model evaluasi komparasi dengan menggunakan ROC Curve secara visual pada framework RapidMiner.

Gambar 9

Grafik Komparasi Training ROC Curve

Gambar 10

Grafik Kompirasi Testing ROC Curve

(7)

INF-397

KESIMPULAN

Berdasarkan penelitian pada prediksi ujian kompetensi yang berpotensi lulus atau tidak dapat diambil beberapa kesimpulan sebagai berikut:

1. Dengan menggunakan metode Algoritma C4.5, Neural Network dan Naïve Bayes dapat memprediksi lulus atau tidak lulus ujian kompetensi.

2. Hasil evaluasi dan validasi dengan confussion matrix dengan menggunakan data training menunjukkan tingkat akurasi pada Algoritma C4.5 sebesar 81.22 %, Neural Network sebesar 59.62 % dan Naïve Bayes sebesar 70.19 %.

3. Hasil evaluasi dan validasi dengan ROC/AUC menunjukkan nilai lebih dari 0,8 dari Algoritma C4.5 sebagai kualifikasi yaitu good classification.

4. Dengan menggunakan metode tersebut makanya bisa mengurangi ketidaklulusan ujian kompetensi dan mempertahankan kelulusan ujian kompetensi.

DAFTAR PUSTAKA [1] Bramer, Max. (2007).

Principles of Data Mining. London: Springer.

ISBN-10: 1-84628-765-0, ISBN-13: 978-1- 84628-765-7.

[2] Chang Hong, A survey of model-based clustering algorithms for sequential data.

Department of Computer Science Hong Kong University of Science and Technology, Clear Water Bay, Kowlood, Hong Kong, 2002

[3] D. Hand, H. Manila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. Margareth H. Dunhan, Data Mining Introductory and Adcance Topics. Prentice Hall, 2003

[4] Dekker, et all, (2009). Predicting Students Drop Out: A Case Study

[5]Fayyad, Usama. 1996. Advances in Knowledge and Data Mining. MIT Press. Vol.

17 No. 3

[6] Gorunescu, F. (2011). Data Mining Concept Model and Techniques. Berlin:

Springer. ISBN 978-3-642-19720-8

[

7]Giudici & Figini (2009). Applied Data Mining for Business and Industry, 2nd Edition [8]Han, Jiawei. Kamber, Micheline. Data

Mining: Consepts and Techniques. 2001 San Fransisco, USA. Morgan Kaufmann Publisehers

[9]Karamouiz & Vrentoz, (2009). Neural Network untuk memprediksi kelulusan siswa

Referensi

Dokumen terkait

Penelitian ini merupakan penelitian deskritif korelatif yang bertujuan menganalisis hubungan antara kadar gula darah dengan tingkat depresi dan aktifitas fisik

Praktikum Proses Manufaktur Mesin Frais Page 11 Mesin frais universal (Gambar 12) adalah salah satu jenis mesin frais yang dapat digunakan pada posisi tegak (vertikal) dan

Rendemen yang dihasilkan pada proses pembuatan bioetanol dari ubi kayu sangat tergantung pada kemampuan proses hidrolisis komponen-komponen ubi kayu terutama pati menjadi

(4) Dalam hal permohonan sebagaimana dimaksud dalam Pasal 3 ayat (1) disetujui sebagian atau seluruhnya, Direktur Jenderal Bea dan Cukai atas nama Menteri Keuangan menerbitkan

Design Program pembelajaran prajabatan ini dimaksudkan untuk menstandarisasi Kompetensi siswa sesuai dengan kebutuhan Kompetensi Jabatan pada Proyeksi Jabatan Pertama

(2) Untuj mendapatkan kembali padjak jang telah dibajar jang berkepentingan harus menjerahkan kembali kepada Kepala Urusan Padjak, surat-potong jang dibelinja

Tindak lanjut dari evaluasi yang telah dilakukan oleh Komite Keselamatan Konstruksi diantaranya adalah sebagai berikut:. Memberikan surat rekomendasi dan berita acara kepada