MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
TESIS
Oleh
DEDY HARTAMA
097038009/TIF
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA MEDAN
MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer dalam Program Studi Magister
Teknik Informatika pada Program Pascasarjana
Fakultas MIPA Universitas Sumatera Utara
Oleh
DEDY HARTAMA 097038009/TIF
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SUMATERA UTARA MEDAN
PENGESAHAN TESIS
Judul Tesis : MODEL ATURAN KETERHUBUNGAN
DATA MAHASISWA MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
Nama Mahasiswa : DEDY HARTAMA
Nomor Induk Mahasiswa : 097038009
Program Studi : Magister Teknik Informatika
Fakultas : Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara
Menyetujui Komisi Pembimbing
Dr. Zakarias Situmorang Prof. Dr. Herman Mawengkang
Anggota Ketua
Ketua Program Studi,
PERNYATAAN ORISINALITAS
MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
TESIS
Dengan ini saya nyatakan bahwa saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah di jelaskan sumbernya dengan benar.
Medan, 19 April 2011
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan
di bawah ini:
Nama : DEDY HARTAMA
Nim : 097038009
Program Studi : Magister ( S2) Teknik Informatika
Jenis Karya Ilmiah : TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalty free Right) atas Tesis saya yang berjudul:
MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti
Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan
Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya
sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 19 April 2011
Telah diuji pada
Tanggal : 19 April 2011
PANITIA PENGUJI TESIS
Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Muhammad Zarlis
2. Dr. Zakarias Situmorang
3. M. Andre Budiman, ST, M. Comp. Sc, M.EM
RIWAYAT HIDUP
DATA PRIBADI
Nama lengkap berikut gelar : Dedy Hartama, ST
Tempat dan Tanggal Lahir : Marihat, 11 Oktober 1973
Alamat Rumah : Jl. Jawa Gg Sate Atas No. 1
Pematangsiantar
Telepon / HP : (0622)25671 / +628126438793
Instansi Tempat Bekerja : AMIK Tunas Bangsa
Alamat Kantor : Jl. Jendral Sudirman Blok A No. 1,2,3
Pematangsiantar
Telepon : (0622) 22431
DATA PENDIDIKAN
SD : SD NEGERI No. 095210 Tamat : 1986
SMP : SMP NEGERI 8 Tamat : 1989
SMU : SMU NEGERI 3 Tamat : 1992
D3 : FMIPA Ilmu Komuter USU Tamat : 1996
Strata-1 : STT Harapan Medan Tamat : 2003
KATA PENGANTAR
Pertama-tama kami panjatkan puji syukur kehadirat Allah SWT Tuhan
Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini
dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan
berbagai pihak khususnya pembimbing, pembanding, para dosen, teman teman
mahasiswa, khususnya mahasiswa Program Studi Magister (S2) Teknik
Informatika di FMIPA Universitas Sumatera Utara.
Tesis dengan judul: ” Model Aturan Keterhubungan Data Mahasiswa
Menggunakan Algoritma C 4.5 untuk Meningkatkan Indeks Prestasi” adalah
merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam
Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana
FMIPA Universitas Sumatera Utara
Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima
kasih yang sebesar-besarnya kepada:
Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar
H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan
materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada
Program Pascasarjana FMIPA USU.
Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu,
DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis
untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2).
Dekan Fakultas MIPA Universitas Sumatera Utara, Dr. Sutarman, M.Sc
atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program
Magister (S2) pada Program Pascasarjana FMIPA Universitas Sumatera Utara.
Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr.
Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika
M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff
Pengajar pada Program Studi Magister (S2) Teknik Informatika Program
Pascasarjana Fakultas MIPA Universitas Sumatera Utara, yang telah bersedia
membimbing penulis, sehingga dapat menyelesaikan pendidikan tepat pada
waktunya.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami
ucapkan kepada Prof. Dr. Herman Mawengkang selaku Pembimbing Utama dan
Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh
kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan
saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini
sehingga penulis dapat menyelesaikan tesis ini dengan baik.
Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami
ucapkan kepada Prof. Dr. Muhammad Zarlis, M. Andre Budiman, ST, M. Comp.
Sc, M.EM, dan Amer Sharif, S.Si, M.Kom sebagai pembanding, yang telah
memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini.
Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2)
Teknik Informatika Program Pascasarjana Fakultas MIPA Universitas Sumatera
Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis
selama mengikuti perkuliahan.
Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua
keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis.
Istri tercinta, Nina Fadilah, S.S yang selalu mendoakan, memberikan
semangat, dengan kasih, sabar dan bantuan selama penulis mengikuti pendidikan,
budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan
Rekan Mahasiswa Angkatan Pertama Program Studi Magister (S2) Teknik
Informatika Komputer FMIPA Universitas Sumatera Utara dan Rekan Sejawat di
AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis
selama mengikuti perkuliahan.
Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam
tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang
Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan
pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan
hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala
bantuan, kebaikan yang telah diberikan.
Medan, April 2011 Penulis,
MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
ABSTRAK
Tesis ini mengusulkan sebuah model aturan keterhubungan data mahasiswa dengan indeks prestasi di perguruan tinggi swasta. Faktor-faktor mana yang lebih dominan yang mempengaruhi indeks prestasi belum dapat diketahui dengan pasti. Data diperoleh dari database Akademik AMIK Tunas Bangsa dan hasil survei terhadap mahasiswa semester III tahun ajaran 2008 dan 2009. Dalam tesis ini algoritma C 4.5 decision tree diaplikasikan agar mendapatkan suatu model aturan yang dapat memperlihatkan keterhubungan antara nilai rata rata matakuliah kurikulum berbasis kompetensi dengan data ekonomi, dukungan orang tua dan fasilitas belajar terhadap indeks prestasi mahasiswa. Model aturan yang diperoleh menunjukkan bahwa variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 79,8% terhadap indeks prestasi mahasiswa.
THE CONNECTEDNESS RULE MODEL OF STUDENT
DATA USING C 4.5 ALGORITHM TO IMPROVE
STUDENT ACHIEVEMENT
ABSTRACT
This thesis proposes the connectedness rule model of Students’ data with the student achievement in a private college. The more dominant factors that influence the student achievement is not exactly known yet. The data are taken from the database of the Academy of Management and Information Tunas Bangsa in Pematangsiantar and from the result of the survey on the university students of the third semester for the year of 2008 and 2009. In this thesis The C 4.5 algorithm decision tree is applied so that we can get a rule model that shows the connectedness between the average marks of the curriculum based on the competency with the economic data, parental support and the learning facilities with the university students’ achievement. The rule model that is taken shows that the best variable from the prediction which is used is the economic factor that gives contribution nearly 79,81 % to the university students’ achievement.
3.5 Validitas dan Reabilitas (Keakuratan Data) 36
3.6 Preprocessing Data 36
3.6.1 Preprocessing Database Akademik 36
3.6.2 Preprocessing Data Kuesioner 38
3.7 Alat Analisis Data 39
3.7.1 Paket Statitik Untuk Ilmu Sosial 39
3.7.2 Komunitas Rapid Miner 39
4.2.2 Hasil Percobaan Descriptive Data 47
4.2.3 Hasil Percobaan Frekuensi Data 48
4.2.3.1 Statistik Frekuensi Faktor Ekonomi 48
4.2.3.2 Statistik Frekuensi Faktor Dukungan
Orang Tua 48
4.2.3.3 Statistik Frekuensi Faktor Fasilitas
Belajar Mahasiswa 49
4.2.4 Signifikan dan Multicollinearity 50
4.2.4.1 Signifikan 50
4.2.4.2 Multicollinearity 52
4.2.5 Hasil Percobaan Decision Tree 53
DAFTAR TABEL
Nomor J u d u l Halaman
2.1 Keputusan Bermain Tenis 20
2.2 Perhitungan Node 1 22
2.3 Perhitungan Node 1.1 24
2.4 Perhitungan Node 1.1.2 25
3.1 Meta Data View Data Set Pertama 34
3.2 Meta Data View Data Set Kedua 35
3.3 Meta Data View Data Set Pertama dan Kedua 35
3.4 Statistik Reliabilitas Data 36
3.5 Preprocessing Data Gabungan 4 Tabel 37
3.6 Tabel Data Penelitian 38
3.7 Data Kuesioner 38
4.1 Signifikan dan Reliabilitas Statistik Faktor Ekonomi 45
4.2 Signifikan dan Reliabilitas Statistik Dukungan
Orang Tua 45
4.3 Signifikan dan Reliabilitas Statistik Faktor Fasilitas
Belajar 46
4.4 Signifikan dan Reliabilitas Statistik Data 46
4.5 Descriptive Statistics Testing Data 47
4.6 Statistics Frequency Faktor Ekonomi 48
4.7 Statistics Frequency Faktor Dukungan Orang Tua 48
4.8 Statistics Frequency Faktor Fasilitas Belajar Mahasiswa 49
4.9 Statistics Frequency Tiga Faktor Pendukung 50
4.10 Korelasi Signifikan dari Empat Prediktor Variabel Predikat 51
4.12 Multicollinearity Diagnostik 52
4.13 Keterangan Rule Grafik 54
4.14 Keterangan Rule Text dengan Gain Rasio 56
DAFTAR GAMBAR
Nomor J u d u l Halaman
2.1 Bidang Ilmu Data Mining 09
2.2 Proses dari Data Mining 11
2.3 Proses Data Mining Menurut CRISP-DM 12
2.4 Pohon Keputusan Hasil Perhitungan Node 1 23
2.5 Pohon Keputusan Hasil Perhitungan Node 1.1 24
2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2 26
3.1 Record dari Database Pendidikan 32
3.2 Rancangan Penelitian Aturan Indeks Prestasi 33
3.3 Pra Pengolahan Data 37
3.4 Proses Percobaan 40
3.5 Diagram Aktivitas Kerja Penelitian 41
3.6 Model Decision Tree Grafik 42
4.1 Grafik Decision Tree 53
4.2 Model Aturan Text Decision Tree 55
4.3 Model Aturan Induction Rule 57
4.4 Profil Predikat Kelulusan 58
4.5 Hubungan Predikat dengan Rata MKK 58
4.6 Hubungan Predikat dengan Rata MBB 59
4.7 Hubungan Predikat dengan Rata MPK 59
4.8 Hubungan Predikat dengan Rata MKB 60
4.9 Desain Model Validasi Rapidminer 61
DAFTAR LAMPIRAN
Nomor J u d u l Halaman
A Bentuk Kuesioner Mahasiswa L-1
B Sampel Data Mahasiswa dari Database L-3
C Sampel Training 60 Data L-4
D Korelasi Penelitian 734 Data L-5
E Daftar Mata Kuliah Semester 3 L-6
F Data Percobaan Pembuatan Aturan Decision Tree L-7
G Output Descriptive dan Frequency L-8
MODEL ATURAN KETERHUBUNGAN DATA MAHASISWA
MENGGUNAKAN ALGORITMA C 4.5 UNTUK
MENINGKATKAN INDEKS PRESTASI
ABSTRAK
Tesis ini mengusulkan sebuah model aturan keterhubungan data mahasiswa dengan indeks prestasi di perguruan tinggi swasta. Faktor-faktor mana yang lebih dominan yang mempengaruhi indeks prestasi belum dapat diketahui dengan pasti. Data diperoleh dari database Akademik AMIK Tunas Bangsa dan hasil survei terhadap mahasiswa semester III tahun ajaran 2008 dan 2009. Dalam tesis ini algoritma C 4.5 decision tree diaplikasikan agar mendapatkan suatu model aturan yang dapat memperlihatkan keterhubungan antara nilai rata rata matakuliah kurikulum berbasis kompetensi dengan data ekonomi, dukungan orang tua dan fasilitas belajar terhadap indeks prestasi mahasiswa. Model aturan yang diperoleh menunjukkan bahwa variabel terbaik dari prediktor yang digunakan adalah faktor ekonomi yang memberikan kontribusi sebesar 79,8% terhadap indeks prestasi mahasiswa.
THE CONNECTEDNESS RULE MODEL OF STUDENT
DATA USING C 4.5 ALGORITHM TO IMPROVE
STUDENT ACHIEVEMENT
ABSTRACT
This thesis proposes the connectedness rule model of Students’ data with the student achievement in a private college. The more dominant factors that influence the student achievement is not exactly known yet. The data are taken from the database of the Academy of Management and Information Tunas Bangsa in Pematangsiantar and from the result of the survey on the university students of the third semester for the year of 2008 and 2009. In this thesis The C 4.5 algorithm decision tree is applied so that we can get a rule model that shows the connectedness between the average marks of the curriculum based on the competency with the economic data, parental support and the learning facilities with the university students’ achievement. The rule model that is taken shows that the best variable from the prediction which is used is the economic factor that gives contribution nearly 79,81 % to the university students’ achievement.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan
yang tersembunyi di dalam database. Data mining merupakan proses semi
otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang tersimpan di dalam database besar.
(Turban et al, 2005 ).
Data mining adalah bagian dari proses KDD ( Knowledge Discovery in
Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra
pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last,
2000)
Teknik data mining secara garis besar dapat dibagi dalam dua kelompok:
verifikasi dan discovery. Metode verifikasi umumnya meliputi teknik-teknik
statistik seperti goodness of fit, dan analisis variansi. Metode discovery lebih
lanjut dapat dibagi atas model prediktif dan model deskriptif. Teknik prediktif
melakukan prediksi terhadap data dengan menggunakan hasil-hasil yang telah
diketahui dari data yang berbeda. Model ini dapat dibuat berdasarkan penggunaan
data historis lain. Sementara itu, model deskriptif bertujuan mengidentifikasi
pola-pola atau hubungan antar data dan memberikan cara untuk mengeksplorasi
karakteristik data yang diselidiki (Dunham, 2003).
Kegiatan dan kemajuan belajar mahasiswa dilakukan penilaian secara
berkala, yang dapat berbentuk ujian, pelaksanaan tugas, dan pengamatan oleh
dosen. Ujian dapat diselenggarakan melalui ujian tengah semester, ujian akhir
Penilaian hasil belajar dinyatakan dengan huruf A, B, C, D, dan E yang
masing masing bernilai 4, 3, 2, 1, dan 0. (Kepmendiknas No. 232/U/2000 BAB V
Pasal 12).
Kurikulum pendidikan tinggi adalah seperangkat rencana dan pengaturan
mengenai isi maupun bahan kajian dan pelajaran serta cara penyampaian dan
penilaiannya yang digunakan sebagai pedoman penyelenggaraan kegiatan
belajar mengajar di perguruan tinggi. Kelompok Matakuliah Pengembangan
Kepribadian (MPK) adalah kelompok bahan kajian dan pelajaran untuk
mengembangkan manusia Indonesia yang beriman dan bertaqwa terhadap
Tuhan Yang Maha Esa dan berbudi pekerti luhur, berkepribadian mantap, dan
mandiri serta mempunyai rasa tanggung jawab kemasyarakatan dan
kebangsaan. Kelompok Matakuliah Keilmuan dan Keterampilan (MKK)
adalah kelompok bahan kajian dan pelajaran yang ditujukan terutama untuk
memberikan landasan penguasaan ilmu dan ketrampilan tertentu. Kelompok
Matakuliah Keahlian Berkarya (MKB) adalah kelompok bahan kajian dan
pelajaran yang bertujuan menghasilkan tenaga ahli dengan kekaryaan
berdasarkan dasar ilmu dan ketrampilan yang dikuasai. Kelompok Matakuliah
Perilaku Berkarya (MPB) adalah kelompok bahan kajian dan pelajaran yang
bertujuan untuk membentuk sikap dan perilaku yang diperlukan seseorang
dalam berkarya menurut tingkat keahlian berdasarkan dasar ilmu dan
keterampilan yang dikuasai. Kelompok Matakuliah Berkehidupan
Bermasyarakat (MBB) adalah kelompok bahan kajian dan pelajaran yang
diperlukan seseorang untuk dapat memahami kaidah berkehidupan
bermasyarakat sesuai dengan pilihan keahlian dalam berkarya. (Kepmendiknas
No. 232/U/2000 Pasal 6,7,8,9,10 dan 11).
Dalam beberapa penelitian yang telah dilakukan oleh peneliti yang
dituliskan dalam jurnal atau karya ilmiah tentang penggunaan data mining pada
perguruan tinggi adalah : Romero dan Ventura, (2007), telah melakukan survey
data mining dalam bidang pendidikan antara tahun 1995 sampai 2005, mereka
menyimpulkan bahwa data mining yang berhubungan dengan pendidikan sangat
dan web database. Merceron dan Yacep, (2005) melakukan penelitian
menggunakan data mining untuk mengidentifikasi perilaku mahasiswa yang
cenderung gagal pada prestasi akademik sebelum ujian akhir. Waiyamai, (2003)
menggunakan data mining untuk membantu dalam pengembangan kurikulum
baru. El-Halees, (2008) menganalisis perilaku belajar mahasiswa dengan teknik
data mining. Ogor, (2007) menggunakan teknik data mining yang digunakan
untuk membangun prototipe Penilaian Kinerja Monitoring System (PAMS) untuk
mengevaluasi kinerja mahasiswa. Sembiring, et al., (2009) menggunakan teknik
data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa
berdasarkan minat, prilaku belajar, pemanfatan waktu dan dukungan orang tua di
perguruan tinggi.
Walaupun telah banyak penelitian yang dilakukan berkaitan dengan indeks
prestasi mahasiswa namun faktor-faktor yang mempengaruhi indeks prestasi
mahasiswa masih belum dapat diketahui dengan pasti sehingga perlu dilakukan
penelitian untuk melihat keterhubungan data mahasiswa dengan indeks prestasi.
Tesis ini mengaplikasikan teknik data mining dengan algoritma C 4.5
dalam membuat model aturan keterhubungan data mahasiswa berdasarkan
matakuliah Kurikulum Berbasis Kompetensi (KBK) dan data demografi yang
mendukung peningkatan indeks prestasi mahasiswa. Model aturan yang diperoleh
untuk mengklasifikasikan predikat mahasiswa yang terdiri dari dengan pujian,
sangat memuaskan, memuaskan, dan buruk.
Dengan menggunakan Algoritma C 4.5, penelitian tesis ini akan
memberikan aturan dalam bentuk decision tree agar mahasiswa dapat
meningkatkan nilai matakuliah untuk meningkatkan indeks prestasi pada semester
yang akan diambil berikutnya. Penelitian ini diharapkan dapat memberikan
kontribusi bagi perguruan tinggi swasta khususnya Akademi Manajemen
Informatika dan Komputer ( AMIK ) Tunas Bangsa Pematangsiantar.
Model aturan keterhubungan data mahasiswa dengan indeks prestasi yang
diperoleh dari tesis ini menunjukkan bahwa faktor ekonomi orang tua merupakan
variabel yang dominan dalam meningkatkan indeks prestasi mahasiswa di AMIK
1.2 Perumusan Masalah
Berdasar pada latar belakang di atas, maka dapat dirumuskan masalah dalam tesis
ini sebagai berikut:
1.Bagaimana membuat model aturan keterhubungan data mahasiswa dengan
indeks prestasi menggunakan algoritma C 4.5.
2.Bagaimana menggunakan model aturan untuk mengklasifikasikan predikat
akhir seorang mahasiswa berdasarkan indeks prestasi.
1.3 Batasan Masalah
Rumusan masalah di atas, dibatasi dengan beberapa hal sebagai berikut :
1. Algoritma teknik data mining yang digunakan adalah algoritma C 4.5
untuk mendapatkan decision tree.
2. Data diperoleh dari database pendidikan AMIK Tunas Bangsa dan data
hasil survey mahasiswa menggunakan kuesioner mahasiswa.
3. Dalam membuat rule atau aturan, penulis menggunakan perangkat lunak
rapidminer 5.0 untuk melakukan analisis data.
1.4 Tujuan Penelitian
Tujuan yang ingin dicapai pada penelitian tesis ini yaitu :
1. Untuk mendapatkan sebuah model aturan keterhubungan data mahasiswa
dengan indeks prestasi mahasiswa.
2. Untuk membantu bagian manajemen pendidikan dalam mengambil
tindakan preventif bagi mahasiswa yang memiliki kecendrungan predikat
buruk pada akhir masa studi.
1.5 Manfaat Penelitian
Manfaat dari penelitian tesis ini adalah:
1. Membantu manajemen pada bagian akademik dalam mengambil
keputusan untuk menentukan predikat indeks prestasi mahasiswa
2. Sebagai model untuk prediksi predikat akhir ujian semester mahasiswa
3. Sebagai referensi bagi peneliti selanjutnya yang berkaitan dengan
penggunaan teknik data mining pada perguruan tinggi.
4. Memberikan masukan pada manajemen AMIK Tunas Bangsa sebagai
dasar untuk meningkatkan kualitas layanan pada prestasi akademik
mahasiswa dengan nilai yang telah diprediksi dari nilai semester yang
BAB II
TINJAUAN PUSTAKA
2.1 Pengertian Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan
yang tersembunyi di dalam database. Data mining merupakan proses semi
otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam
database besar. (Turban et al, 2005 ).
Menurut Gartner Group data mining adalah suatu proses menemukan
hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam
sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan
teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).
Selain definisi di atas beberapa definisi juga diberikan seperti, “data
mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data
yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaannya.”
(Pramudiono, 2006).
“Data mining merupakan analisis dari peninjauan kumpulan data untuk
menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik
“Data mining merupakan bidang dari beberapa keilmuan yang
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database,
dan visualisasi untuk penanganan permasalahan pengambilan informasi dari
database yang besar.” (Larose, 2006).
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain (Larose, 2006).
1. Pertumbuhan yang cepat dalam kumpulan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
memiliki akses ke dalam database yang baik.
3. Adanya peningkatan akses data melalui navigasi web dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.
5. Perkembangan teknologi perangkat lunak untuk data mining
(ketersediaan teknologi).
6. Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.
Dari definisi-definisi yang telah disampaikan, hal penting yang terkait
dengan data mining adalah :
1. Data mining merupakan suatu proses otomatis terhadap data yang
sudah ada.
2. Data yang akan diproses berupa data yang sangat besar.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang
mungkin memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara
dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, kita dapat
melihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu,
hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.
(Ponniah, 2001).
Sementara itu, penemuan pola merupakan keluaran lain dari data mining.
Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari
ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak
potensial.
Beberapa definisi awal dari data mining meyertakan fokus pada proses
otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for
Marketing, Sales, and Customer Support mendefinisikan data mining sebagai
suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis
terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan
yang berarti (Larose, 2006).
Tiga tahun kemudian, dalam buku Mastering Data Mining mereka
memberikan definisi ulang terhadap pengertian data mining dan memberikan
pernyataan bahwa “jika ada yang kami sesalkan adalah frasa secara otomatis
maupun semi otomatis, karena kami merasa hal tersebut memberikan fokus
berlebih pada teknik otomatis dan kurang pada eksplorasi dan analisis”. Hal
tersebut memberikan pemahaman yang salah bahwa data mining merupakan
produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai
(Larose, 2006).
Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi
tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam
setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data
mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini
memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna
mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan
menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman
tentang statistik dan struktur model matematika yang mendasari kerja perangkat
Gambar 2.1 Bidang Ilmu Data Mining
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu
kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining
mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan
terlebih dahulu. Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik, database, dan juga information retrieval
(Pramudiono, 2006).
Istilah data mining dan Knowledge Discovery in Database (KDD) sering
kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu
tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara
garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari basis data operasional. Pencarian
Informasi
Database
Artificial Intelligent
Statistik Data Mining
Ekstraksi data (bahasa alami, web)
Penstrukturan)
Dasar (Seleksi, presentase
Hasil) Data yang besar (Normalisasi data Transformasi, OLAP)
Pembelajaran (Neural Network, pohon
2. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain
yang relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses coding
dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis
atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan
metode dan algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation/Evalution
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis
yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada
Gambar 2.2 Proses dari Data Mining
Sumber: SPSS, 2004
Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di
kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler
Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data mining
sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang
terbagi dalam enam fase Gambar 2.3. Keseluruhan fase berurutan yang ada
tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada
keluaran dari fase sebelumnya. Hubungan penting antar fase digambarkan dengan
panah. Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada
perilaku dan karakteristik model, proses mungkin kembali kepada fase data
preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju
Gambar 2.3 Proses Data Mining Menurut CRISP-DM
Sumber: CRISP, 2005
Enam fase CRISP-DM ( Cross Industry Standard Process for Data
Mining) (Larose, 2006).
1. Fase Pemahaman Bisnis ( Business Understanding Phase )
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data mining.
2. Fase Pemahaman Data ( Data Understanding Phase )
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih
lanjut data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin
mengandung pola dari permasalahan
3. Fase Pengolahan Data ( Data Preparation Phase )
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat
yang perlu dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai
analisis yang akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan ( Modeling Phase )
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data
untuk menjadikan data ke dalam bentuk yang sesuai dengan
spesifikasi kebutuhan teknik data mining tertentu.
5. Fase Evaluasi ( Evaluation Phase )
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada
fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks Penyebaran: Penerapan proses data mining
secara paralel pada departemen lain. Informasi lebih lanjut
me
2.2 Pengelompokan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di
lakukan, yaitu (Larose, 2006).
1.Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari
cara untuk menggambarkan pola dan kecendrungan yang terdapat dalam
data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat
menemukan keterangan atau fakta bahwa siapa yang tidak cukup
profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi
dari pola dan kecendrungan sering memberikan kemungkinan penjelasan
untuk suatu pola atau kecendrungan.
2.Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi
nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada
pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan,
dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai
estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus
baru lainnya.
3.Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang.
Contoh prediksi dalam bisnis dan penelitian adalah:
a. Prediksi harga beras dalam tiga bulan yang akan datang.
b. Prediksi presentase kenaikan kecelakaan lalu lintas tahun depan jika
batas bawah kecepatan dinaikan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4.Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Contoh lain klasifikasi dalam bisnis dan penelitian adalah:
a. Menentukan apakah suatu transaksi kartu kredit merupakan
transaksi yang curang atau bukan.
b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah
merupakan suatu kredit yang baik atau buruk.
c. Mendiagnosa penyakit seorang pasien untuk mendapatkan
5.Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
Kluster adalah kumpulan record yang memiliki kemiripan suatu dengan
yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster
lain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel
target dalam pengklusteran. Pengklusteran tidak mencoba untuk
melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari
variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk
melakukan pembagian terhadap keseluruhan data menjadi
kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan
dengan record dalam kelompok lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah:
a. Mendapatkan kelompok-kelompok konsumen untuk target
pemasaran dari suatu produk bagi perusahaan yang tidak memiliki
dana pemasaran yang besar.
b. Untuk tujuan audit akutansi, yaitu melakukan pemisahan terhadap
prilaku finansial dalam baik dan mencurigakan.
c. Melakukan pengklusteran terhadap ekspresi dari gen, dalam jumlah
besar.
6.Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang
muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut
analisis keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah:
a. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler
yang diharapkan untuk memberikan respon positif terhadap
b. Menemukan barang dalam supermarket yang dibeli secara
bersamaan dan barang yang tidak pernah dibeli bersamaan.
Untuk mendukung penelitian ini penulis menggunakan Algoritma C4.5
decision tree.
2.3 Decision Tree
Decision tree merupakan salah satu metode klasifikasi yang menggunakan
representasi struktur pohon (tree) di mana setiap node merepresentasikan atribut,
cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan
kelas. Node yang paling atas dari decision tree disebut sebagai root.
Decision tree merupakan metode klasifikasi yang paling populer
digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang
dibangun mudah untuk dipahami.
Pada decision tree terdapat 3 jenis node, yaitu:
a. Root Node, merupakan node paling atas, pada node ini tidak ada input
dan bisa tidak mempunyai output atau mempunyai output lebih dari
satu.
b. Internal Node , merupakan node percabangan, pada node ini hanya
terdapat satu input dan mempunyai output minimal dua.
c. Leaf node atau terminal node , merupakan node akhir, pada node ini
hanya terdapat satu input dan tidak mempunyai output.
2.4 Algoritma C 4.5
Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree
berdasarkan training data yang telah disediakan. Algoritma C 4.5 merupakan
pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5
adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue
data, dan pruning.
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan
dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari
record pada kategori tertentu. Pohon keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon
variabel input dengan sebuah variabel target.
Karena pohon keputusan memadukan antara eksplorasi data dan
pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses
pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk
membagi kumpulan data yang besar menjadi himpunan-himpunan record yang
lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan
masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan
yang lain (Berry dan Linoff, 2004).
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk
membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen
dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan
mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara
otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan
untuk memodelkan himpunan data yang belum terklasifikasi.
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon
keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record
terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan
mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan
untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik
yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon
keputusan,antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel
dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat
sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main
Salah satu atribut merupakan atribut yang menyatakan data solusi per item data
yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan
instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan
hujan (Basuki dan Syarif, 2003)
Proses pada pohon keputusan adalah mengubah bentuk data (tabel)
menjadi model pohon, mengubah model pohon menjadi rule, dan
menyederhanakan rule (Basuki dan Syarif, 2003).
Berikut ini algoritma dasar dari C4.5:
Input : sampel training, label training, atribut
1. Membuat simpul akar untuk pohon yang dibuat
2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training 5. Untuk yang lain, Mulai
a. A --- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
b. Atribut keputusan untuk simpul akar --- A c. Untuk setiap nilai, vi, yang mungkin untuk A
1) Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
2) Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
3) Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun
dengan label = nilai yang terbanyak yang ada pada label training
ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A])
d. Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama
Tree Pruning dilakukan untuk menyederhanakan tree sehingga akurasi
dapat bertambah. Pruning ada dua pendekatan, yaitu :
a. Pre-pruning, yaitu menghentikan pembangunan suatu subtree lebih
awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data
training). Saat seketika berhenti, maka node berubah menjadi leaf (node
akhir). Node akhir ini menjadi kelas yang paling sering muncul di antara
subset sampel.
b. Post-pruning, yaitu menyederhanakan tree dengan cara membuang
beberapa cabang subtree setelah tree selesai dibangun. Node yang
jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang
paling sering muncul.
Untuk memudahkan penjelasan mengenai algoritma C 4.5 berikut ini
disertakan contoh kasus yang dituangkan dalam Tabel 2.1
Tabel 2.1 Keputusan Bermain Tenis
No CUACA TEMPERATUR KELEMBABAN ANGI N BERMAI N
1 Cer ah Panas Tinggi Tidak Tidak
Dalam kasus yang tertera pada Tabel 2.1 akan dibuat pohon keputusan
untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca,
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi
dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti
tertera dalam Rumus 1 (Craw, 2005).
Gain(S,A) = Entrropy(S) – * Entropy(Si)
Dengan
S : Himpunan Kasus
A : Atribut
N : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S
Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut
(Craw, 2005):
Entropy(A) =
Dengan
S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah
dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk
menyelesaikan permasalahan pada Tabel 2.1
1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah
kasus untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus
yang dibagi berdasarkan atribut cuaca, temperatur, kelembaban dan
angin. Setelah itu lakukan penghitungan Gain untuk masing-masing
atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.2
Tabel 2.2 Perhitungan Node 1
Node
CUACA 0.258521037
MENDUNG 4 0 4
HUJAN 5 1 4 0.721928095
CERAH 5 3 2 0.970950594
TEMPERATUR 0.183850925
DINGIN 4 0 4 0
PANAS 4 2 2 1
SEDANG 6 2 4 0.918295834
KELEMBABAN 0.370506501
TINGGI 7 4 3 0.985228136
NORMAL 7 0 7 0
ANGIN 0.005977711
TIDAK 8 2 6 0.811278124
YA 6 4 2 0.918295834
Baris total kolom Entropy pada Tabel 2.2 dihitung dengan rumus 2,
sebagai berikut:
Entropy(Total) = (- *Log2( ))+(- *Log2( ))
Entropy(Total) =0.863120569
Sementara itu nilai Gain pada baris cuaca dihitung dengan menggunakan
rumus 1, sebagai berikut :
Gain(Total,Cuaca) = Entropy(Total) - * Entropy(Cuaca)
Gain(Total,Cuaca) = 0.863120569 – (( *0)+ (( *0.723)+ (( *0.97))
Dari hasil pada Tabel 2.2 dapat diketahui bahwa atribut dengan Gain
tertinggi adalah kelembaban yaitu sebesar 0.37. Dengan demikian kelembaban
dapat menjadi node akar. Ada 2 nilai atribut dari kelembaban yaitu tinggi dan
normal. Dari kedua nilai atribut tersebut, nilai atribut normal sudah
mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya, sehingga tidak perlu
dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut tinggi masih perlu
dilakukan perhitungan lagi.
Dari hasil tersebut dapat digambarkan pohon keputusan sementara,
tampak seperti Gambar 2.4
Gambar 2.4 Pohon Keputusan Hasil Perhitungan Node 1
2. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut cuaca, temperatur dan angin yang dapat menjadi node akar
dari nilai atribut tinggi. Setelah itu lakukan penghitungan Gain untuk
masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.3 1.
Kelembaban
Ya ?
Tabel 2.3 Perhitungan Node 1.1
Dari hasil pada Tabel 2.3 dapat diketahui bahwa atribut dengan Gain
tertinggi adalah cuaca yaitu sebesar 0.699. Dengan demikian cuaca dapat menjadi
node cabang dari nilai atribut tinggi. Ada 3 nilai atribut dari cuaca yaitu mendung,
hujan dan cerah. dari ketiga nilai atribut tersebut, nilai atribut mendung sudah
mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut cerah
sudah mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga
tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut hujan
masih perlu dilakukan perhitungan lagi.
Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada
Gambar 2.5 berikut:
Gambar 2.5 Pohon Keputusan Hasil Perhitungan Node 1.1
3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut temperatur dan angin yang dapat menjadi node cabang
dari nilai atribut hujan. Setelah itu lakukan penghitungan Gain untuk
masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.4
Tabel 2.4 Perhitungan Node 1.1.2
Node
Dari hasil pada Tabel 2.4 dapat diketahui bahwa atribut dengan Gain
tertinggi adalah angin yaitu sebesar 1. Dengan demikian angin dapat menjadi node
cabang dari nilai atribut hujan. Ada 2 nilai atribut dari angin yaitu Tidak dan Ya.
Dari kedua nilai atribut tersebut, nilai atribut Tidak sudah mengklasifikasikan
kasus menjadi 1 yaitu keputusannya Ya dan nilai atribut Ya sudah
mengklasifikasikan kasus menjadi satu dengan keputusan Tidak, sehingga tidak
perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Pohon keputusan
Gambar 2.6 Pohon Keputusan Hasil Perhitungan Node 1.1.2
Dengan memperhatikan pohon keputusan pada Gambar 2.6 diketahui
bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon
keputusan pada Gambar 2.6 merupakan pohon keputusan terakhir yang terbentuk.
2.5 Ekstraksi Rule dari Decision Tree
Pengetahuan yang diperoleh dari decision tree dapat direpresentasikan dalam
bentuk klasifikasi IF-THEN rules. Nilai suatu atribut akan menjadi bagian
anticendent (bagian IF), sedang daun (leaf) dari sebuah decision tree akan
menjadi bagian consequent (THEN). Aturan seperti ini akan menjadi sangat
membantu manusia dalam memahami model klasifikasi terutama jika ukuran
decision tree terlalu besar .
Ya Tidak
Tida Ya
1. Kelembaban
Ya 1.1
Cuaca
Norma Tinggi
Tidak 1.1.2
Angin Ya
Cerah Huja
2.6 Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan
dengan domain pendidikan, seperti yang akan dijelaskan di bawah ini :
Yu et al. (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan
data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi
tingkat daya ingat mahasiswa.
Sunjana (2010a) juga menyampaikan hasil risetnya mengenai aplikasi data
mining mahasiswa dengan metode klasifikasi decision tree. Dengan kesimpulan
sebagai berikut :
1. Penentuan data training sangat menentukan tingkat akurasi tree yang
dibuat.
2. Besar prosentase kebenaran tree sangat dipengaruhi oleh data training
yang digunakan untuk membangun model tree tersebut.
3. Nilai IPK seorang mahasiswa terlihat sangat terpengaruh dengan 9
(Sembilan) mata kuliah yang dianggap pokok.
Quadri dan Kalyankar (2010) juga menjelaskan tentang penggunaan teknik
decision tree untuk mengidentifikasi berbagai faktor yang meyebabkan
mahasiswa melakukan drop out untuk meningkatkan kinerja akademik.
She et al. (2010) dalam risetnya menjelaskan mengenai prediksi penurunan
sifat sifat manusia secara cepat dan akurat dengan klasifikasi decision tree .
Rocha dan Junior (2010) juga dalam risetnya menjelaskan tentang
bagaimana mengidentifikasi kecurangan-kecurangan yang terjadi di bidang
perbankan menggunakan CRISP-DM dan decision tree.
Nogroho, (2008) menjelaskan dalam risetnya mengenai Implementasi
decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham,
menyimpulkan sistem pendukung keputusan decision tree yang dibangun
berdasarkan analisis teknikal mampu memberikan gambaran saat saham
diperdagangkan hanya berdasarkan pergerakan trend. Perdagangan berdasarkan
pergerakan trend ini bersifat spekulasi namun cukup mampu memberikan
Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data
nasabah sebuah asuransi menggunakan algoritma C 4.5, berikut adalah
kesimpulan yang dapat diambil dari data nasabah asuransi setelah dilakukan
análisis menggunakan metode algoritma C 4.5:
1. Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status
L dikarenakan pembayaran premi yang melebihi 10% dari penghasilan.
2. Dengan persentase atribut premi_dasar dan penghasilan, maka dapat
diketahui rata-rata status nasabah memiliki nilai P atau L.
Bhargavi at al. (2008) menjelaskan dalam risetnya tentang menguraikan
pengetahuan menggunakan aturan aturan dengan pendekatan decision tree.
Al-Radaideh et al. (2006) menjelaskan dalam risetnya tentang pemanfaatan
data mining terhadap data mahasiswa menggunakan decision tree
Adeyemo dan Kuye (2006) menjelaskan dalam risetnya untuk
memprediksi kinerja mahasiswa di bidang akademik menggunakan algoritma
decision tree.
2.7 Persamaan dengan Riset-Riset lain
Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah
model untuk memprediksi kinerja akademis di tingkat perguruan tinggi dalam
mata kuliah pengantar sistem informasi.
Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang
digunakan untuk membangun prototipe Penilaian Kinerja Monitoring System
(PAMS) untuk mengevaluasi kinerja mahasiswa.
Sembiring et al. (2009) menggunakan teknik data mining dalam
pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat,
2.8 Perbedaan dengan Riset-Riset lain
Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik
perbedaan dengan riset yang akan dilakukan ini :
1. Analisa peningkatan indeks prestasi akademik dilakukan pada Perguruan
Tinggi Swasta (PTS) yang risetnya dilakukan di Akademi Manajemen
Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar. Riset yang
dilakukan penulis berbeda dengan riset sebelumnya, jika riset sebelumnya
peningkatan indeks prestasi akademik berdasarkan variabel IPK, data
demografi, test logika, dan motivasi, sedangkan aturan atau rule peningkatan
indeks prestasi akademik yang akan dilakukan penulis adalah berdasarkan
matakuliah Kurikulum Berbasis Kompetensi (KBK), di mana mata kuliah ini
hanya dimiliki oleh PTS di Indonesia sesuai dengan UU MENDIKNAS No.
232/U/2000. Selain berdasarkan mata kuliah peningkatan indeks prestasi
akademik mahasiswa, variabel datanya diolah dari data kuesioner mahasiswa
AMIK Tunas Bangsa Pematangsiantar sesuai dengan keadaan dukungan orang
tua, ekonomi orang tua, dan fasilitas belajar mahasiswa.
2. Predikat keberhasilan
Pada riset ini, hasil akhir yang diharapkan dengan analisa peningkatan indeks
prestasi akademik berdasarkan Kurikulum Berbasis Kompetensi (KBK)
adalah dosen dan mahasiswa dapat meningkatkan kualitas pembelajaran untuk
menguasai mata kuliah yang berhubungan dengan KBK untuk mendapatkan
predikat dengan pujian dan sangat memuaskan sehingga dapat bersaing di
pasar tenaga kerja.
2.9 Kontribusi Riset
Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan
data matakuliah Kurikulum Berbasis Kompetensi (KBK) dengan data demografi
yaitu data pendukung untuk meningkatkan proses belajar mengajar yang
ditunjukkan dengan nilai IP semester, berdasarkan predikat yang telah ditentukan
oleh lembaga pendidikan di perguruan tinggi swasta dapat meningkatkan indeks
Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali
dapat menggunakan informasi yang diberikan dalam mengambil beberapa
tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat
kelulusan. Pembuat keputusan bisa menggunakan model prediksi peningkatan
indeks prestasi akademik untuk meningkatkan kualitas proses pengambilan
keputusan. Penelitian ini memperkenalkan aplikasi metode klasifikasi rule
BAB III
METODOLOGI PENELITIAN
3.1 Pendahuluan
Tujuan dari tesis ini adalah untuk membuat model aturan keterhubungan data
mahasiswa menggunakan algoritma C 4.5 untuk meningkatkan indeks
prestasi mahasiswa yang lebih baik dengan menyediakan data prestasi akademik
mahasiswa berupa indeks prestasi yang dapat digunakan sebagai pedoman analisis
dalam pembuatan keputusan.
Pada bagian ini kita mulai dengan menggambarkan studi kasus data
mining pada sistem penilaian akademik di perguruan tinggi dan prosedur
bagaimana mengumpulkan data yang dapat digunakan pada penelitian ini.
Data dikumpulkan dari database pendidikan akademik dan mensurvei
mahasiswa diploma yang telah menempuh semester 3 sampai dengan tahun 2011
di Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa
Pematangsiantar. Instrumen penelitian yang digunakan harus mempunyai ukuran
yang akurat. Secara terperinci, bagaimana mendapatkan input yang lebih baik
dalam proses data mining yang digambarkan pada bagian sebelum pemprosesan
data. Penulis memberikan tinjauan singkat dari beberapa analysis data yang
digunakan pada penelitian ini.
3.2
Lokasi dan Waktu PenelitianPenelitian dilakukan di Akademi Manajemen Informatika Komputer (AMIK)
Tunas Bangsa, Jl. Jendral Sudirman Blok A No. 1,2,3 Pematangsiantar. Lamanya
waktu yang dibutuhkan untuk menyelesaikan penelitian ini selama 4 bulan yang
3.3 Rancangan Penelitian
Rancangan penelitian ini pertama kali dilakukan dengan melakukan pengamatan
(observasi) untuk mempelajari klasifikasi data matakuliah. Hasil pengamatan
kemudian dibuat percobaan yang mendukung, selanjutnya dilakukan eksperimen
data dengan menggunakan rapidminer yang merupakan software open source
untuk membuat model aturan data yang diambil dari database pendidikan
Akademi Manajemen Informatika Komputer (AMIK) Tunas Bangsa dan data
demografi mahasiswa. Hasil dari eksperimen data ini merupakan pengembangan
dari ilmu pengetahuan yang nantinya dapat merupakan masukan bagi pemecahan
masalah yang ada di lembaga pendidikan, dalam hal ini di Akademi Manajemen
Informatika Komputer (AMIK) Tunas Bangsa Pematangsiantar.
Dalam melakukan klasifikasi data dari database SQL server pendidikan
AMIK Tunas Bangsa Pematangsiantar penulis melakukan beberapa tahapan,
antara lain :
1. Mengambil data dari database SQL server, seperti pada Gambar 3.1
Gambar 3.1 Record dari Database Pendidikan
2. Membuat perintah SQL server data yang berbentuk baris menjadi kolom
4. Untuk mendapatkan aturan dari data indeks prestasi mahasiswa yang diambil dari database SQL server penulis menggunakan program rapidminer dengan rancangan penelitiannya dapat dilihat pada Gambar 3.2
Gambar 3.2 Rancangan Penelitian Aturan Indeks Prestasi
Pada Gambar 3.2 dapat dijelaskan urutan pertama mahasiswa melakukan sistem
pendaftaran ke perguruan tinggi swasta, kemudian mahasiswa mengikuti ujian
berdasarkan matakuliah yang diambil setiap semester. Hasil ujian disimpan
kedalam database, data nilai hasil ujian diklasifikasikan dengan melakukan
penyaringan data kemudian data yang sudah konsisten dilakukan training data,
apabila sampel data sudah valid maka dilakukan pembuatan model aturan dengan
algoritma C 4.5. Hasil dari model aturan ini menjadi sebuah rekomendasi bagi
3.4 Prosedur Pengumpulan Data
Dalam studi kasus ini, untuk data set pertama, penulis mengumpulkan data dari
SQL Server database nilai rata-rata matakuliah kurikulum berbasis kompetensi
AMIK Tunas Bangsa Pematangsiantar yang telah mendapatkan kartu hasil studi
pada semester 3 yaitu tahun ajaran 2008 sampai dengan 2009 yang terdiri dari
predikat, IP, ratamkb, ratamkk, ratampk, ratambb, ratampb, semester.
Dataset kedua penulis mensurvei mahasiswa tentang prediksi prestasi
akademik dengan menggunakan kuesioner tertulis. Penulis menciptakan
instrument survey dan termasuk pertanyaan demografis secara umum. Jumlah
mahasiswa sebanyak 755 orang, dan penulis mendapatkan data sampel sebanyak
734 orang dari 735 untuk data set pertama dan 734 orang untuk data kuisioner
mahasiswa yang meruapakan data set kedua. Sumber data yang dikumpulkan dari
catatan kartu hasil studi akademik mahasiswa.
Untuk dataset kedua, penulis mengembangkan kuesioner (Lampiran A)
untuk mengukur keterhubungan data demografi yang sesungguhnya dari
mahasiswa. 5 (lima) pertanyaan menghasilkan informasi demografi untuk
responden. Pertanyaan pertanyaan yang dibuat adalah tipe skala point linker 5
yang disusun dari “ sangat setuju” sampai “ sangat tidak setuju”. yang berkenaan
untuk membuat aturan indeks prestasi akhir mereka. Data set pertama dapat
dilihat pada Tabel 3.1
Tabel 3.1 Tampilan Data Set Pertama
No Role Name Type
1 label predikat nominal
2 regular IP nominal
3 regular Ratamkb nominal 4 regular Ratamkk nominal 5 regular Ratampk nominal 6 regular Ratambb nominal 7 regular Semester nominal
Pada Tabel 3.1 atribut predikat sebagai label yang merupakan tujuan dari atribut
Data set kedua dapat dilihat pada Tabel 3.2
Tabel 3.2 Tampilan Data Set Kedua
No Role Name Type
1 label predikat nominal
2 regular IP nominal
3 regular ekonomi nominal
4 regular dukungan orang tua nominal
5 regular fasilitas belajar nominal
6 regular semester nominal
Pada Tabel 3.2 atribut predikat sebagai label yang merupakan tujuan dari atribut
IP, dukungan orang tua, ekonomi, fasilitas dan semester.
Keterhubungan data antara data set pertama dan data set kedua dapat dilihat pada
Tabel 3.3
Tabel 3.3 Tampilan Data Set Pertama dan Kedua
No Role Name Type
1 label predikat nominal
2 regular IP nominal
3 Regular ratamkb nominal 4 regular ratamkk nominal 5 regular ratampk nominal 6 regular ratambb nominal 7 regular ekonomi nominal 8 regular dukungan orang tua nominal
9 regular fasilitas belajar nominal 10 regular semester nominal
Pada Tabel 3.3 atribut predikat sebagai label yang merupakan tujuan dari atribut
IP, ratamkb,ratamkk,ratampk,ratambb, dukungan orang tua, ekonomi, fasilitas dan
semester.