i
PREDIKSI PRESTASI AKADEMIK MAHASISWA
BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU
JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN
MENGGUNAKAN ALGORITMA J48
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
Oleh:
Florensia Dwinta Parmeska Kustanto
075314022
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT
BASED ON THE RESULTS OF LANE ACHIEVEMENT
STUDENT SELECTION ADMISSIONS
WITH DECISION TREE METHOD
USING J48 ALGORITHM
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain
Sarjana Komputer
in Department of Informatics Engineering
By:
Florensia Dwinta Parmeska Kustanto
075314022
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
v
HALAMAN PERSEMBAHAN
Apa yang kau alami kini mungkin tak dapat engkau mengerti
Sa
tu hal tanamkan di Hati, “
Indah Semua yang Tuhan Beri
“..
Tuhanmu tak akan memberi ular beracun pada yang minta roti
Cobaan yang engkau alami takkan melebihi kekuatan mu ..
Tangan Tuhan sedang merenda suatu karya yang agung mulia
Saatnya kan tiba nanti, kau lihat pelangi kasih-Nya..
Tangan Tuhan, by: Nikita
Ku Persembahkan untuk:
Tuhan Yesus dan Bunda Maria,
Keluarga Tercinta, Dosen Pembimbing, Kekasih dan Teman-teman
vii
PREDIKSI PRESTASI AKADEMIK MAHASISWA
BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU
JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN
MENGGUNAKAN ALGORITMA J48
ABSTRAK
Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,
Universitas Sanata Dharma memberikan syarat khusus untuk mendaftar. Hal
tersebut dilakukan oleh Universitas Sanata Dharma agar mampu menyaring calon
mahasiswa yang unggul. Diharapkan mereka saat kuliah akan mendapat prestasi
akademik yang baik pula. Muncul sebuah pertanyaan yaitu bagaimana prestasi
akademik mahasiswa tersebut pada saat kuliah, yang tercermin dalam IPK
mahasiswa yang bersangkutan? Jawaban dari pertanyaan itu bisa didapatkan
dengan menggali informasi dari data mahasiswa jalur prestasi tersebut. Informasi
yang ingin didapat dari data tersebut adalah latar belakang mahasiswa dari jalur
prestasi yang seperti apakah yang pada saat kuliah akan mendapatkan prestasi
akademik Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan
kategori “B”, Memuaskan dengan kategori “C” dan kurang memuaskan denga
n
kategori “D”. Penelitian Tugas Akhir ini menerapkan teknik klasifikasi dengan
viii
PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT
BASED ON THE RESULTS OF LANE ACHIEVEMENT
STUDENT SELECTION ADMISSIONS
WITH DECISION TREE METHOD
USING J48 ALGORITHM
ABSTRACT
x
KATA PENGANTAR
Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha Esa, yang
telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan
tugas akhir yang berjudul
“ Prediksi Prestasi Akademik Mahasiswa Berdasarkan
Hasil Seleksi Penerimaan Mahasiswa Baru Jalur Prestasi Dengan Metode Pohon
Keputusan Menggunakan Algoritma J48 “
dan penulis selalu diberi kekuatan
untuk berkembang dan menjadi lebih. Tugas akhir ini ditulis sebagai salah satu
syarat memperoleh gelar sarjana komputer program studi Teknik Informatika,
Fakultas Sains dan Teknologi Universitas Sanata Dharma.
Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan
dukungan, semangat dan bantuan sehingga selesainya skripsi ini:
1.
Tuhan Yesus Kristus dan Bunda Maria yang telah memberikan semuanya
sehingga penulis bisa menyelesaikan tugas akhir ini.
2.
Ibu P. H . Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas
kesabaran, bimbingan, waktu, saran dan terlebih atas dukungan yang
diberikan.
3.
Laboran komputer atas bantuan kepada penulis ketika melakukan ujian
akhir.
4.
Kedua orang tua, papa Drs. Yohanes Kustanto, S.Pd dan mama Dra.
Damiana Dwi Tanti, S.Pd yang telah memberikan cinta dalam bentuk
semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas
akhir ini.
5.
Semua saudara, Adik Theodorin Hanna Vebrita Kustanto dan Angelina
Widiyanti Purwoko, Tante Agustina Sri Kadaryanti, Mbah Kakung Ign.
Darso Roesyanto dan Mbah Putri M. M. Sukeni Wotowiharjo yang telah
memberikan semangat, perhatian dan doa sehingga penulis dapat
menyelesaikan tugas akhir ini.
6.
Kekasih tercinta, Antonius Hari Widiatmoko yang selalu menyemangati
xi
7.
Sahabat dan teman-teman, Fabian Fransiskus Paranso, S.T. , Gregorius
Arief Sudarmo Wicaksono, S.T. , Sari Indah Anatta, Arum Citra Dewi, Ni
Made Kristianingsih Kuatra, Ana Suryaningsih, Leonardus Ardyandita, M.
Bangkit
Widyatmoko
dan
teman-teman
seperjuangan
dalam
menyelesaikan tugas akhir ini.
8.
Semua pihak yang berperan baik secara langsung maupun tidak langsung
sehingga penulis dapat menyelesaikan tugas akhir ini.
Penulis menyadari bahwa masih banyak kekurangan yang terdapat pada laporan
tugas akhir ini. Saran dan kritik penulis harapkan untuk perbaikan-perbaikan pada
masa yang akan dating dan penulis berharap semoga skripsi ini dapat bermanfaat
bagi pembaca.
Yogyakarta, 24 Juli 2011
Penulis
xii
DAFTAR ISI
Halaman Judul ... i
Halaman Judul (Bahasa Inggris) ... ii
Halaman Persetujuan ... iii
Halaman Pengesahan ... iv
Halaman Persembahan ...v
Abstrak ... vii
Abstract ... vii
Persetujuan Publikasi Karya Ilmiah ... viii
Kata Pengantar ...x
Daftar Isi... xii
Daftar Gambar ...xv
Daftar Tabel ... xvii
BAB I
PENDAHULUAN ...1
1.1.
Latar Belakang Masalah ...1
1.2.
Perumusan Masalah ...3
1.3.
Batasan Masalah...3
1.4.
Tujuan ...4
1.5.
Luaran ...4
1.6.
Kegunaan...5
1.7.
Metodologi Penelitian ...5
1.8.
Sistematika Penulisan...7
BAB II LANDASAN TEORI ...8
2.1.
Pengertian Penambangan Data (
Data Mining
) ...8
2.2.
Proses Penambangan Data ...9
2.3.
Teknik Klasifikasi ...11
2.4.
Pengertian Pohon Keputusan ...13
2.5.
Manfaat Pohon Keputusan ...14
2.6.
Kelebihan Pohon Keputusan ...15
2.7.
Kekurangan Pohon Keputusan ...16
2.8.
Algoritma J48 ...16
BAB III
ANALISIS DAN PERANCANGAN SISTEM ...32
3.1.
Identifikasi Sistem ...32
3.2.
Pemrosesan Data Awal, Input, Proses dan Output Sistem ...33
3.2.1. Pemrosesan Data Awal ...37
3.2.2. Input Sistem ...48
3.2.3. Proses Sistem ...55
3.2.4. Output Sistem ...56
3.3.
Perancangan Struktur Data ...57
3.4.
Perancangan Umum Sistem ...58
3.4.1. Diagram Use Case ...58
3.4.2. Narasi Use Case ...59
3.4.3. Diagram Aktivitas ...69
xiii
3.4.3.2. Diagram Aktivitas Tambah Data ...70
3.4.3.3. Diagram Aktivitas Transformasi Data ...71
3.4.3.4. Diagram Aktivitas Buat Aturan ...71
3.4.3.5. Diagram Aktivitas Lihat Detail Aturan ...72
3.4.3.6. Diagram Aktivitas Simpan Aturan ...72
3.4.3.7. Diagram Aktivitas Prediksi Prestasi Kelompok ...73
3.4.3.8. Diagram Aktivitas Prediksi Prestasi Personal ...74
3.4.3.9. Diagram Aktivitas Logout...75
3.5.
Diagram Kelas ...76
3.6.
Atribut dan Method ...77
3.6.1. LoginSPPA ...77
3.6.2. SelectedProdiSemesterSPPA ...78
3.6.3. HomeSPPA ...78
3.6.4. PrediksiPersonalSPPA ...80
3.6.5. PrediksiKelompokSPPA ...81
3.6.6. PreprocessingSPPA ...83
3.6.7. Aturan ...85
3.6.8. Mahasiswa ...88
3.6.9. TransformasiData ...90
3.6.10. HasilPreprocessingSPPA ...91
3.6.11. DatabaseConnection ...92
3.6.12. enumAtribut ...93
3.6.13. enumNilaiKeputusanIPK ...94
3.6.14. enumNilaiJenisKelamin ...94
3.6.15. enumNilaiJurusan ...94
3.6.16. enumNilaiKeteranganSekolah...94
3.6.17. enumNilaiKabupaten...94
3.6.18. enumNilaiRapor ...95
3.6.19. CrossValidation ...95
3.6.20. Pengguna ...97
3.7.
Model Analisis ...97
3.7.1. Model Analisis Tiap Usecase ...97
3.7.2. Model Analisis Usecase Login...98
3.7.3. Model Analisis Usecase Tambah Data ...99
3.7.4. Model Analisis Usecase Transformasi Data ...100
3.7.5. Model Analisis Usecase Buat Aturan ...101
3.7.6. Model Analisis Usecase Lihat Detail Aturan ...102
3.7.7. Model Analisis Usecase Simpan Aturan ...103
3.7.8. Model Analisis Usecase Prediksi Kelompok ...104
3.7.9. Model Analisis Usecase Prediksi Personal ...105
3.7.10. Model Analisis Usecase Logout...106
3.8.
Diagram Relasional Entitas ...108
3.9.
Perancangan Antar Muka ...109
3.9.1. Halaman Login ...109
3.9.2. Halaman SelectProdiSemester ...110
xiv
3.9.4. Halaman PreprocessingSPPA ...111
3.9.5. Halaman HasilPreprocessing ...112
3.9.6. Halaman PrediksiPersonalSPPA ...112
3.9.7. Halaman PrediksiKelompokSPPA ...113
BAB IV
IMPLEMENTASI SISTEM ...114
4.1.
Implementasi Data ...114
4.2.
Implementasi File ...117
4.3.
Implementasi Antar Muka...119
4.3.1. Tampilan Login ...119
4.3.2. Tampilan Set Program Studi dan Semester ...120
4.3.3. Tampilan Halaman Utama Sistem ...121
4.3.4. Tampilan Preproses ...122
4.3.5. Tampilan Hasil Preprosess ...123
4.3.6. Tampilan Prediksi Personal...124
4.3.7. Tampilan Prediksi Kelompok ...125
BAB V126
ANALISIS HASIL ...126
5.1.
Pengujian Validitas Program...126
5.1.1. Perbandingan pertama ...126
5.1.2. Perbandingan kedua ...129
5.2.
Akurasi
Cross Validation 3 folds
...131
5.2.1. Analisis Hasil Pola Program Studi Teknik Informatika ...132
5.2.2. Analisis Hasil Pola Program Studi Farmasi ...133
BAB VI
PENUTUP ...134
6.1.
Kesimpulan ...134
6.2.
Saran ...134
6.2.1.
Untuk Pengembangan Program...134
6.2.2 Untuk Universitas Sanata Dharma ...135
6.2.3 Untuk Mahasiswa PMB Jalur Prestasi ...135
DAFTAR PUSTAKA ...136
LAMPIRAN ...139
Lampiran 1 Daftar Nama Program Studi ...139
Lampiran 2 Daftar Nama Kabupaten di Indonesia ...140
Lampiran 3 Listing Program Form Login ...141
Lampiran 4 Listing Program Form Prodi Semester ...149
Lampiran 5 Listing Program Form Home ...154
Lampiran 6 Listing Program Form Preprocessing ...160
Lampiran 7 Listing Program Form Hasil Preprocessing...212
Lampiran 8 Listing Program Form Prediksi Personal ...220
xv
DAFTAR GAMBAR
Gambar 2.1
Data Mining
dan teknologi basis data lainnya ...8
Gambar 2.2 Proses
Data Mining
...11
Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi ...13
Gambar 2.4 Gambaran Pohon Keputusan ...14
Gambar 2.5 Pohon Keputusan Untuk Node 1 ...22
Gambar 2.6 Pohon Keputusan Untuk Node 1.1 ...23
Gambar 2.7 Pohon Keputusan Untuk Node 1.1.1 ...25
Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1 ...26
Gambar 2. 9 Pohon Keputusan Untuk Node 1.2 ...28
Gambar 2. 10 Pohon Keputusan Untuk Node 1.1.2 ...29
Gambar 2. 11 Pohon Keputusan Untuk Node 1.1.2.2 ...31
Gambar 3. 1 Deskripsi Tabel Data Mentah PMB 2005 ...37
Gambar 3. 2 Deskripsi Tabel Data Mentah PMB 2006 ...38
Gambar 3. 3 Deskripsi Tabel Data Mentah Nilai Matakuliah 2005 ...38
Gambar 3. 4 Deskripsi Tabel Data Mentah Nilai Matakuliah 2006 ...39
Gambar 3. 5 Deskripsi Tabel SKS per Program Studi ...39
Gambar 3. 6 Deskripsi Tabel Hasil Penggabungan Data Mentah ...41
Gambar 3. 7 Proses Pembagian data ke dalam 3 Folds...47
Gambar 3.8 Diagram
Use Case
...58
Gambar 3. 9 Diagran Aktivitas Login ...69
Gambar 3. 10 Gambar Diagram Aktivitas Tambah Data ...70
Gambar 3. 11 Diagram Aktivitas Transformasi Data ...71
Gambar 3. 12 Diagram Aktivitas Buat Aturan...71
Gambar 3. 13 Diagram Aktivitas Lihat Detail Aturan ...72
Gambar 3. 14 Diagram Aktivitas Simpan Aturan ...72
Gambar 3. 15 Diagram Aktivitas Prediksi Prestasi Kelompok ...73
Gambar 3. 16 Diagram Aktivitas Prediksi Prestasi Personal ...74
Gambar 3. 17 Diagram Aktivitas Logout ...75
Gambar 3. 18 Gambar model analisis login ...98
Gambar 3. 19 Diagram Sekuensial Login ...98
Gambar 3. 20 Model analisis Tambah data ...99
Gambar 3. 21 Diagram Sekuensial Tambah Data ...99
Gambar 3. 22 Model Analisis Transformasi Data ...100
Gambar 3. 23 Diagram Sekuensial Transformasi data...100
Gambar 3. 24 Model Analisis Buat Aturan ...101
Gambar 3. 25 Diagram Sekuensial Buat Aturan ...102
Gambar 3. 26 Model Analisis Lihat Detail Aturan ...102
Gambar 3. 27 Diagram Sekuensial Lihat Detail Aturan ...102
Gambar 3. 28 Model Analisis Simpan Aturan ...103
Gambar 3. 29 Diagram Sekuensial Simpan Aturan ...103
Gambar 3. 30 Model Analisis Prediksi Kelompok ...104
xvi
Gambar 3. 32 Model Analisi Prediksi Personal ...105
Gambar 3. 33 Diagram Sekuensial Prediksi Personal ...106
Gambar 3. 34 Model Analisis Logout ...106
Gambar 3. 35 Diagram Sekuensial Logout ...107
Gambar 3. 36 ER tabel pola semester dengan tabel senester dan prodi ...108
Gambar 3. 37 Halaman Login ...109
Gambar 3. 38 Halaman Select Prodi Semester ...110
Gambar 3. 39 Halaman HomeSPPA ...110
Gambar 3. 40 Halaman PreprocessingSPPA ...111
Gambar 3. 41 Halaman HasilPreprocessingSPPA ...112
Gambar 3. 42 Halaman PrediksiPersonalSPPA ...112
Gambar 3. 43 Halaman PrediksiKelompokSPPA ...113
Gambar 4. 1 Tree Perhitungan Manual dengan Excel ...114
Gambar 4. 2 Hasil Tree dengan menggunakan WEKA ...115
Gambar 4. 3 Hasil Tree menggunakan Sistem SPPA ...116
Gambar 4. 4 Tampilan Login Sistem ...119
Gambar 4. 5 Tampilan Setting Prodi dan Semester ...120
Gambar 4. 6 Tampilan Home SPPA ...121
Gambar 4. 7 Tampilan Preproses ...122
Gambar 4. 8 Halaman Hasil Proses...123
Gambar 4. 9 Tampilan Prediksi Personal ...124
Gambar 4. 10 Tampilah Prediksi Kelompok...125
Gambar 5. 1 Pola Semester 1 Prodi Teknik Informatika ( Hasil Weka ) ...127
Gambar 5. 2 Pola Semester 1 Prodi Teknik Informatika ( Hasil Sistem ) ...128
Gambar 5. 3 Hasil Prediksi Manual, Sistem dan Weka Semester 1 ...128
Gambar 5. 4 Pola Semester 2 Prodi Teknik Informatika ( Hasil Weka ) ...129
Gambar 5. 5 Pola Semester 2 Prodi Teknik Informatika ( Hasil Sistem ) ...130
xvii
DAFTAR TABEL
Tabel 2. 1 Tabel Data IPK semester 1...19
Tabel 2. 2 Tabel Perhitungan Node 1...21
Tabel 2. 3 Tabel Perhitungan Node 1.1...23
Tabel 2. 4 Tabel Perhitungan Node 1.1.1...24
Tabel 2. 5 Tabel Perhitungan Node 1.1.1.1...25
Tabel 2. 6 Tabel Perhitungan Node 1.2...27
Tabel 2. 7 Tabel Perhitungan Node 1.1.2...28
Tabel 2. 8 Tabel Perhitungan Node 1.1.2.2...30
Tabel 3.1 Tabel Data PMB jalur prestasi ...34
Tabel 3.2 Tabel Data Nilai Mahasiswa jalur prestasi per Matakuliah ...35
Tabel 3.3 Tabel Data SKS Matakuliah per Program Studi ...36
Tabel 3.4 Tabel data PMB ...42
Tabel 3. 5 Tabel Aturan Pengkategorisasian Nilai Rapor dan IPK...43
Tabel 3.6 Hasil Transformasi untuk nilai rapor angkatan 2005 ...44
Tabel 3.7 Tabel Data Pelatihan PMB Jalur Prestasi ...49
Tabel 3.8 Tabel Data Uji PMB Jalur Prestasi ...52
Tabel 3.9 Tabel Visualisasi Penyimpanan Pohon ...57
Tabel 3.10 Deskripsi
Use Case
...59
Tabel 3. 11 Kelas Interface LoginSPPA ...77
Tabel 3. 12 Kelas Interface SelectedProdiSemesterSPPA ...78
Tabel 3. 13 Kelas Interface HomeSPPA ...78
Tabel 3. 14 Kelas Interface PrediksiPersonalSPPA ...80
Tabel 3. 15 Kelas Interface PrediksiKelompokSPPA ...81
Tabel 3. 16 Kelas Interface PreprocessingSPPA ...83
Tabel 3. 17 Kelas Entity Aturan ...85
Tabel 3. 18 Kelas Entity Mahasiswa ...88
Tabel 3. 19 Kelas Entity TransformasiData ...90
Tabel 3. 20 Kelas Interface HasilPreprocessingSPPA ...91
Tabel 3. 21 Kelas Controller DatabaseConnection ...92
Tabel 3. 22 Kelas enumeration enumAtribut ...93
Tabel 3. 23 Kelas Enumeration enumNilaiKeputusan ...94
Tabel 3. 24 Kelas Enumeration enumNilaiJenisKelamin ...94
Tabel 3. 25 Kelas Enumeration enumNilaiJurusan ...94
Tabel 3. 26 Kelas Enumeration enumNilaiKeteranganSekolah ...94
Tabel 3. 27 Kelas enumNilaiKabupaten ...94
Tabel 3. 28 Kelas Enumeration enumNilaiRapor ...95
Tabel 3. 29 Kelas Entity CrossValidation ...95
Tabel 3. 30 Kelas Entity Pengguna ...97
Tabel 3. 31 Tabel Kelas Analisis login ...98
Tabel 3. 32 Tabel Kelas Analisis Tambah Data ...99
Tabel 3. 33 Kelas Analisis Transformasi Data...100
Tabel 3. 34 Kelas Analisis Buat Aturan ...101
xviii
Tabel 3. 36 Kelas Analisis Simpan Aturan ...103
Tabel 3. 37 Kelas Analisis Prediksi Kelompok ...104
Tabel 3. 38 Kelas Analisis Prediksi Personal...105
Tabel 3. 39 Kelas Analisis Logout ...106
Tabel 4. 1 Tabel Impelementasi file ...117
Tabel 5. 1 Perbandingan Akurasi Pola (Prodi: Teknik Informatika) ...131
Tabel 5. 2 Distribusi IPK Program Studi Teknik Informatika ...131
Tabel 5. 3 Perbandingan Akurasi Pola (Prodi: Farmasi)...132
BAB I
PENDAHULUAN
1.1.
Latar Belakang Masalah
Seiring dengan perkembangan teknologi, semakin berkembang pula
kemampuan kita dalam mengumpulkan dan mengolah data. Data dikumpulkan
dan disimpan bisa dalam bentuk
softcopy
maupun
hardcopy
. Data-data yang
terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai
informasi apabila diolah terlebih dahulu agar dapat diutarakan secara jelas dan
tepat sehingga dapat dimengerti oleh orang lain yang tidak langsung
mengalaminya sendiri.
Universitas Sanata Dharma (USD) merupakan salah satu instansi akademik
yang memiliki banyak data. Tidak hanya data akademik saja tetapi masih banyak
lagi data yang tersimpan, salah satunya adalah data Penerimaan Mahasiswa Baru
(PMB). Setiap tahunnya Universitas Sanata Dharma membuka pendaftaran untuk
penerimaan mahasiswa baru. Seleksi penerimaan mahasiswa baru dilakukan
dalam berbagai cara, antara lain penerimaan mahasiswa baru melalui jalur
prestasi, melalui jalur reguler dan melalui jalur kerja sama. Setiap dibuka
pendaftaran maka akan ada banyak data yang terkumpul dari pendaftar sebagai
syarat untuk pendaftaran. Data tersebut seiring berjalannya waktu akan semakin
bertambah dan potensial menjadi kuburan data karena tidak dimanfaatkan.
Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,
Universitas Sanata Dharma memberikan syarat utama untuk mendaftar yaitu
dengan melampirkan hasil belajar siswa SMA / sederajat saat kelas XI semester 1
dan semester 2 dan kelas XII semester 1. Syarat kedua adalah nilai rata-rata
kognitif sejumlah mata pelajaran minimal 67. Untuk siswa jurusan IPA, nilai
tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika,
Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS meliputi Bahasa
Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi. Selain itu terdapat
SMA jurusan IPA/SMF sedangkan khusus pendaftar program studi Pendidikan
Bahasa Inggris dan Sastra Inggris harus memiliki nilai mata pelajaran Bahasa
Inggris pada rapor kelas XI semester 1 dan 2 minimal 8. Tujuan dari beberapa
syarat tersebut agar Universitas Sanata Dharma mampu menyaring calon
mahasiswa yang unggul. Diharapkan mereka nantinya saat kuliah akan
mendapatkan Indeks Prestasi (IP) yang baik di setiap semesternya dan lulus
dengan Indeks Prestasi Kumulatif (IPK) yang baik pula.
Calon mahasiswa yang berhasil lolos seleksi PMB Jalur Prestasi di
Universitas Sanata Dharma merupakan orang-orang yang memenuhi kategori
sebagai mahasiswa yang diterima secara khusus, karena prestasi akademik pada
saat SMA. Setelah calon mahasiswa dinyatakan lolos seleksi dan diterima sebagai
mahasiswa di Universitas Sanata Dharma karena prestasi akademik saat SMA,
muncul sebuah pertanyaan yaitu bagaimana prestasi akademik mahasiswa tersebut
pada saat kuliah, yang tercermin dalam IPK mahasiswa yang bersangkutan?
Jawaban dari pertanyaan itu bisa didapatkan dengan menggali informasi dari data
mahasiswa jalur prestasi tersebut. Informasi yang ingin didapat dari data tersebut
adalah latar belakang mahasiswa dari jalur prestasi yang seperti apakah yang pada
saat kuliah akan mendapatkan prestasi akademik Dengan Pujian dengan kategori
“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan kategori “C”
dan kurang memuaskan dengan kategori “D”. Selanjutnya klasifikasi tersebut
akan dimanfaatkan untuk melakukan prediksi prestasi akademik mahasiswa yang
mendaftar melalui jalur prestasi.
Penelitian Tugas Akhir ini menerapkan teknik klasifikasi melalui pendekatan
pohon keputusan pada penambangan data. Data mahasiswa yang akan diteliti dan
diolah merupakan data PMB Jalur Prestasi dan data akademik seluruh Program
Studi di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi
Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data
tersebut akan diolah dengan algoritma J48 untuk menemukan pola dari klasifikasi
latar belakang mahasiswa berdasarkan prestasi akademik mahasiswa sesuai
kategori IPK. Data latar belakang mahasiswa meliputi nilai rapor kelas XI
nilai tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris,
Matematika, Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS
meliputi Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi,
asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin.
Berdasarkan pola klasifikasi tersebut, diharapkan akan dapat dilakukan prediksi
prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa
baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48.
1.2.
Perumusan Masalah
Berdasarkan latar belakang masalah diatas, rumusan masalah yang diidentifikasi
adalah:
1.
Bagaimana cara mengklasifikasikan latar belakang mahasiswa dari
jalur prestasi yang meliputi nilai rapor, asal sekolah, daerah asal
sekolah, jurusan saat sekolah, dan jenis kelamin berdasarkan prestasi
akademiknya menurut kategori IPK Dengan Pujian dengan kategori
“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan
kategori “C” dan kurang memuaskan dengan kategori “D”?
2.
Bagaimana memprediksi prestasi akademik mahasiswa berdasarkan
hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode
pohon keputusan menggunakan algoritma J48?
1.3.
Batasan Masalah
Dalam tugas akhir ini batasan masalah yang akan diambil dalam pembahasan
adalah sebagai berikut:
1.
Penelitian ini hanya menerapkan metode pohon keputusan dengan
menggunakan algoritma J48.
2.
Data mahasiswa diambil dari data PMB Jalur Prestasi dan data akademik
mahasiswa seluruh Program Studi di Universitas Sanata Dharma tahun
sudah menempuh perkuliahan lebih dari 8 semester sehingga diharapkan
ketika proses pengolahan data akan didapatkan pola yang menarik. Dan
untuk data angkatan 2007 akan dijadikan data testing yang akan digunakan
untuk menguji pola yang terbentuk. Data PMB dan data akademik yang
didapat meliputi nomor alias, jenis kelamin, daerah asal, alamat asal, nama
sekolah, jurusan saat SMA / sederajat, nilai rapor kelas XI semester 1 dan
2, kelas XII semester 1, mata pelajaran (untuk IPA: Bahasa Indonesia,
Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi. Untuk IPS:
Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi.),
program studi, sks yang telah ditempuh, nilai per semester, Indeks Prestasi
Kumulatif(IPK), ketua program studi, dan dosen pembimbing akademik
yang diperoleh dari Biro Administrasi Perencanaan dan Sistem Informasi
(BAPSI) Universitas Sanata Dharma.
3.
Data akademik yang akan diolah adalah IPK mahasiswa dari semester 1
–
semester 8 karena diasumsikan bahwa lama studi yang ideal adalah 4
tahun atau 8 semester.
1.4.
Tujuan
Tujuan dari penelitian ini adalah :
1. Mencari pola klasifikasi dari latar belakang mahasiswa PMB jalur prestasi
berdasarkan prestasi akademiknya.
2. Memprediksi prestasi akademik mahasiswa.
1.5.
Luaran
Sebuah sistem berbasis teknologi informasi yang mampu mengenali pola dan
memprediksi prestasi akademik mahasiswa berdasarkan masukan latar belakang
mahasiswa (nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah,
1.6.
Kegunaan
Hasil prediksi tersebut dapat digunakan oleh:
1. Dosen Pembimbing Akademik
Sebagai bahan konseling mahasiswa bimbingannya.
2. Ketua Program Studi
Sebagai alat bantu dalam seleksi PMB jalur prestasi.
1.7.
Metodologi Penelitian
Metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir
ini menurut Jiawei Han dan Kamber [1]:
1.
Pembersihan Data
( Data Cleaning )
Pada tahap ini dilakukan proses membuang data yang tidak
konsisten dan noise. Contohnya: data yang kadaluarsa, salah
pengetikan maupun data yang kosong.
2.
Penggabungan Data
( Data Integration )
Penggabungan data dari beberapa sumber agar seluruh data
terangkum dalam satu table yang utuh. (
denormalisasi)
3.
Seleksi Data
( Data Selection )
Menyeleksi data dimana data yang relevan diambil dari
database.
4.
Transformasi Data
( Data Transformation )
Mentranformasikan atau merubah data kedalam bentuk yang
sesuai untuk ditambang.
5.
Penambangan Data
( Data Mining )
Dalam penilitian Tugas Akhir ini, teknik yang digunakan
adalah teknik klasifikasi dengan membuat pohon keputusan.
Algoritma yang digunakan untuk membuat pohon keputusan
adalah algoritma J48.
6.
Evaluasi Pola
( Pattern Evaluation )
Untuk mengidentifikasikan pola yang menarik untuk
merepresentasikan sebuah pengetahuan.
7.
Presentasi Pengetahuan
( Knowledge Presentation )
Pada tahap ini pola yang didapat direpresentasikan kepada
1.8.
Sistematika Penulisan
Adapun sistematika penulisan tugas akhir ini adalah sebagai berikut:
Halaman Judul
Abstrak
, berisi tentang rangkuman Tugas Akhir.
Daftar Isi
Bab I Pendahuluan
Pendahuluan berisi tentang latar belakang masalah, perumusan masalah,
batasan masalah, tujuan, luaran, kegunaan, metodologi penelitian dan
sistematika penulisan.
Bab II Landasan Teori
Landasan Teori di dalam bab II ini berisi tentang teori yang digunakan
dalam
penulisan Tugas Akhir
, meliputi: pengertian penambangan data,
proses penambangan data, teknik klasifikasi, pengertian pohon keputusan,
manfaat pohon keputusan, kelebihan pohon keputusan, kekurangan pohon
keputusan, dan algoritma J48.
Bab III Analisis dan Perancangan Sistem
Analisis dan Perancangan Sistem berisi tentang identifikasi sistem, pemrosesan
data awal, Input, Proses dan Output , dan perancangan sistem.
Bab IV Implementasi Program
Implementasi Program berisi implementasi dari program yang dibuat.
Bab V Analisis Hasi
Analisis Hasil berisi tentang pembahasan hasil yang terbentuk dari program,
baik akurasi ataupun pola klasifikasinya.
Bab VI Kesimpulan dan Saran
Kesimpulan dan saran berisi tentang kesimpulan penelitian dan saran untuk
pengembangan penelitian selanjutnya.
BAB II
LANDASAN TEORI
2.1.
Pengertian Penambangan Data (
Data Mining
)
Definisi umum dari penambangan data itu sendiri
adalah “
serangkaian proses
untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui
secara manual dari suatu kumpulan data
”
[2]. Penambangan data juga dikenal
dengan nama
Knowledge Discovery in Databases
(KDD).
Kehadiran penambangan data dilatar belakangi problema
explosion data
yang
dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian
tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb)
dan yang terjadi adalah banyak data tapi miskin informasi. Hampir semua data
tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan
untuk menangani transaksi sehari-hari. Pada Gambar 2.1 di bawah ini
menunjukkan posisi masing-masing teknologi:
Gambar 2.1
Data Mining
dan teknologi basis data lainnya[3]
Perbedaan penambangan data dengan gudang data adalah pada bagian
pengolahannya. Pada penambangan data terjadi
On-line Transaction Processing
(OLTP), sedangkan pada gudang data terjadi
On-line Analytical Processing
(OLAP). Gambar 2.1 di atas terlihat bahwa teknologi data
warehouse
digunakan
untuk melakukan OLAP, sedangkan penambangan data digunakan untuk
melakukan
information discovery
yang informasinya lebih ditujukan untuk
seorang
Data Analyst
dan
Business Analyst
dengan ditambah visualisasi tentunya.
Dalam prakteknya, penambangan data juga mengambil data dari
data warehouse
,
hanya saja aplikasi dari penambangan data lebih spesifik dibandingkan OLAP
mengingat
database
bukan satu-satunya bidang ilmu yang mempengaruhi
penambangan data. Banyak lagi bidang ilmu yang turut memperkaya
penambangan data seperti:
information science
(ilmu informasi),
high
performance computing
,
visualisasi
,
machine learning
, statistik,
neural networks
(jaringan syaraf tiruan), pemodelan matematika,
information retrieval
(pemerolehan informasi) dan
information extraction
serta pengenalan pola.
Pengolahan citra (
image processing
) juga digunakan dalam rangka melakukan
penambangan data terhadap data
image
atau
spatial
.
2.2.
Proses Penambangan Data
Proses penambangan data menurut Jiawei Han dan Kamber [1]
terdiri dari beberapa tahap, yaitu:
1.
Pembersihan Data
( Data Cleaning )
Pada tahap ini dilakukan proses membuang data yang tidak
konsisten dan
noise
. Contohnya: data yang kadaluarsa, salah
pengetikan maupun data yang kosong.
2.
Penggabungan Data
( Data Integration )
Penggabungan data dari beberapa sumber agar seluruh data
3.
Seleksi Data
( Data Selection )
Menyeleksi data dimana data yang relevan diambil dari
database.
4.
Transformasi Data
( Data Transformation )
Mentranformasikan atau merubah data kedalam bentuk yang
sesuai untuk ditambang.
5.
Penambangan Data
( Data Mining )
Penerapan teknik penambangan data untuk mengekstrak pola.
6.
Evaluasi Pola
( Pattern Evaluation )
Pola yang didapat dari proses penambangan data akan
dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.
Akhir dari tahap ini adalah diperolehnya persentase akurasi
data.
7.
Presentasi Pengetahuan
( Knowledge Presentation )
Pada tahap ini pola yang didapat direpresentasikan kepada
pengguna akhir kedalam bentuk yang dapat dipahami, misalnya
Dapat diilustrasikan tahapan penambangan data
melalui gambar 2.2 berikut ini:
Gambar 2.2 Proses
Data Mining
[1]
2.3.
Teknik Klasifikasi
Didalam penambangan data terdapat beberapa teknik untuk mendapatkan
informasi dari data. Teknik Asosiasi, Teknik Klastering dan Teknik Klasifikasi
dapat digunakan untuk melakukan penambangan data. Teknik Klasifikasi
merupakan salah satu teknik dalam penambangan data dengan melihat pada
kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat
memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang
telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah
Proses teknik klasifikasi terdiri dari dua tahap utama, yaitu [4]:
1.
Membangun model
Tujuan dari tahap ini adalah menggambarkan satu set dari kelas-kelas
yang ditentukan sebelumnya. Sampel diasumsikan merupakan
kepunyaan suatu kelas yang sudah diketahui berdasarkan pada
nilai-nilai atributnya. Kelas ditentukan oleh atribut label kelas. Sampel
yang
digunakan untuk membangun model disebut himpunan data pelatihan
.
Model direpresentasikan sebagai pola klasifikasi, atau
formula
matematis
.
2.
Penggunaan Model
Tahap ini bertujuan untuk mengklasifikasikan objek yang baru akan
didapatkan atau belum dikenal. Penilaian keakuratan dari model dapat
dilakukan dengan menggunakan suatu himpunana tes. Label yang
sudah diketahui dari contoh himpunan tes akan dibandingkan dengan
hasil klasifikasi dari model. Tingkat keakuratan sendiri berupa
persentase dari contoh himpunan tes yang diklasifikasikan secara benar
Kaitan klasifikasi dengan prediksi akan dijelaskan dengan ilustrasi dari gambar
berikut:
Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi [5]
2.4.
Pengertian Pohon Keputusan
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode pohon keputusan mengubah fakta menjadi pohon keputusan
yang merepresentasikan aturan.
Sebuah pohon keputusan adalah
“sebuah struktur yang dapat digunakan
untuk membagi kumpulan data yang besar menjadi himpunan record yang lebih
kecil dengan menerapkan serangkaian aturan keputusan, dengan masing-masing
rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang
lain”
[6].
Banyak algoritma yang dapat dipakai dalam pembentukan pohon
Data Pelatihan Algoritma Klasifikasi
Membangun model
Data Uji Klasifikasi
(Aturan)
Penggunaan model
menghasilkan
Data Baru
Aturan
Prediksi
Hasil klasifikasi (hasil prediksi)
keputusan, antara lain: ID3, CART, J48 (C4.5).
Pada pohon keputusan, setiap titik (
node
) di bagian dalam merupakan
sebuah atribut, setiap cabang (
branch
) menggambarkan keluaran dari
logical
tes
dan
leaf node
atau titik daun memnggambarkan kelas-kelas atau suatu kelas
distribusi. Titik yang terletak di paling atas merupakan akar (
root node
). Gambar
2.4 di bawah ini akan menjelaskan bentuk dari pohon keputusan.
2.5.
Manfaat Pohon Keputusan
Manfaat utama dari penggunaan pohon keputusan adalah “
kemampuannya
untuk memecah proses pengambilan keputusan yang kompleks menjadi lebih
simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari
permasalahan
”
[7]. Pohon Keputusan juga berguna untuk mengeksplorasi data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan
pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan
bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.
Daun
(
leaf node
)
Akar
(
root node
)
Daun
(
leaf node
)
cabang
(
branches
)
Kemungkinan kejadian
Kemungkinan kejadian
2.6.
Kelebihan Pohon Keputusan
Kelebihan dari metode pohon keputusan adalah [7]:
1.
Daerah pengambilan keputusan yang sebelumnya
kompleks dan sangat global, dapat diubah menjadi lebih
simpel dan spesifik.
2.
Eliminasi
perhitungan-perhitungan
yang
tidak
diperlukan, karena ketika menggunakan metode pohon
keputusan maka contoh diuji hanya berdasarkan kriteria
atau kelas tertentu.
3.
Fleksibel untuk memilih fitur dari internal
node
yang
berbeda, fitur yang terpilih akan membedakan suatu
kriteria dibandingkan kriteria yang lain dalam
node
yang sama. Kefleksibelan metode pohon keputusan ini
meningkatkan kualitas keputusan yang dihasilkan jika
dibandingkan
ketika
menggunakan
metode
penghitungan satu tahap yang lebih konvensional
4.
Dalam analisis multivariat, dengan kriteria dan kelas
yang jumlahnya sangat banyak, seorang penguji
biasanya perlu untuk mengestimasikan baik itu
distribusi dimensi tinggi ataupun parameter tertentu dari
distribusi kelas tersebut. Metode pohon keputusan dapat
menghindari munculnya permasalahan ini dengan
menggunakan kriteria yang jumlahnya lebih sedikit
pada setiap
node
internal
tanpa banyak mengurangi
2.7.
Kekurangan Pohon Keputusan
Kekurangan dari metode pohon keputusan adalah [7]:
1.
Terjadi
overlap,
terutama ketika kelas-kelas dan kriteria
yang digunakan jumlahnya sangat banyak. Hal tersebut
juga
dapat
menyebabkan
meningkatnya
waktu
pengambilan keputusan dan jumlah memori yang
diperlukan.
2.
Pengakumulasian jumlah kesalahan dari setiap tingkat
dalam sebuah pohon keputusan yang besar.
3.
Kesulitan dalam mendesain pohon keputusan yang
optimal.
4.
Hasil kualitas keputusan yang didapatkan dari metode
pohon keputusan sangat tergantung pada bagaimana
pohon tersebut didesain.
2.8.
Algoritma J48
P
ada penelitian Tugas Akhir ini akan menggunakan algoritma J48. “
J48 (also
known as C4.5) is an algorithm introduced by Ross Quinlan (1993) for inducing
Classification Models, also called Decision Trees
” dikemukakan oleh
Witten[8],
maka prinsip kerja algoritma J48 sama dengan C4.5 dalam proses belajar yaitu
membaca seluruh sampel atau kasus dari tempat penyimpanan dan memuatnya ke
memori, kemudian melakukan komputasi dengan membaca sampel-sampel di
memori untuk membangun pohon yang juga disimpan di memori.
Dalam algoritma J48 atau yang biasa dikenal dengan algoritma C4.5, pohon
dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari
data yang berasal dari kelas yang sama.
Bentuk pembagian(
split)
yang digunakan untuk membagi data itu tergantung dari
jenis atribut yang digunakan. Algoritma J48 dapat menangani data numerik
berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan
(threshold
) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi
yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut
dengan kelas mayoritas yang sama.
Split
untuk atribut diskret
A
mempunyai
bentuk
value (A)
ε
X
dimana
X
⊂
domain(A)
.
Jika suatu himpunan data mempunyai beberapa pengamatan dengan
record
dengan beberapa nilai variabel tidak ada (
missing value
) dan jika jumlah
pengamatan terbatas maka atribut dengan
missing value
dapat diganti dengan nilai
rata-rata dari variabel yang bersangkutan.
Untuk melakukan pemisahan obyek (
split)
dilakukan uji terhadap atribut
dengan mengukur tingkat ketidakmurnian pada sebuah simpul (
node)
. Pada
algoritma J48 menggunakan rasio perolehan (
gain ratio
). Sebelum menghitung
rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan
bits
dari
suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan
konsep entropi. Entropi adalah pengukuran ketidakpastian rata-rata pengumpulan
data. Untuk menghitung Entropi menggunakan rumus (2.1).
)
log2
(
)
log2
(
)
(
S
p
p
p
p
Entropi
……. (2.1)
Keterangan:
S
= ruang (data) sampel yang digunakan untuk pelatihan.
p+
= jumlah kejadian yang bersolusi positif atau mendukung pada data
sampel untuk kriteria tertentu.
p-
=
adalah jumlah kejadian yang bersolusi negatif atau tidak mendukung
Catatan:
1. Entropi(
S
) = 0, jika semua contoh pada S berada dalam kelas yang sama.
2. Entropi(S) = 1, jika jumlah contoh positif dan negatif dalam S adalah
sama.
3. 0 > Entropi(S) < 1, jika jumlah contoh positif dan negatif dalam S tidak
sama
Kemudian menghitung perolehan informasi dari output data atau variabel
dependent
S
yang dikelompokkan berdasarkan atribut A, dinotasikan dengan
gain
(
S
,A). Perolehan informasi
, gain
(
S
,A), dari atribut A relative terhadap output data
S
adalah:
perkara atau lebih dikenal dengan kejadian).
A
: semua nilai yang mungkin dari atribut A
n
: Jumlah pemisah atau partisi pada “ A “ atau atribut
|Si|
: Jumlah kasus pada atribut ke-i
|S|
: Jumlah kasus dalam “ S ” atau himpunan kasus.
Term pertama dalam persamaan (2.2) adalah entropi
total
S
dan term kedua adalah
entropi sesudah dilakukan pemisahan data berdasarkan atribut A.
Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut
pemisahan informasi
(SplitInfo
). Pemisahan informasi dihitung dengan persamaan
bahwa
Si
sampai
Sc
adalah
c
subset yang dihasilkan dari pemecahan
S
dengan
menggunakan atribut A yang mempunyai sebanyak
c
nilai.
Selanjutnya rasio perolehan (
gain ratio
) dapat dihitung dengan persamaan (2.4) di
bawah ini :
1. Pilih atribut sebagai akar menggunakan persamaan (2.2)
2. Buat Cabang untuk masing-masing nilai menggunakan persamaan (2.3)
3. Bagi kasus dalam cabang menggunakan persamaan (2.4)
4. Ulangi proses untuk masing-masing cabang sampai semua kejadian
pada cabang memiliki kelas yang sama.
Contoh kasus pembuatan pohon keputusan dengan menerapkan
gain
dan entropi:
Perempuan Swasta C B B
Laki-Laki Swasta D D C
Perempuan Negeri B B B
Perempuan Swasta B B B
Perempuan Swasta C D B
Perempuan Swasta C B B
Perempuan Swasta B D C
Laki-Laki Swasta B B C
Laki-Laki Swasta C D C
Laki-Laki Swasta C B B
Laki-Laki Swasta C D C
Perempuan Swasta C B D
Laki-Laki Swasta C B B
Laki-Laki Swasta C B B
Pada Tabel 2.1 akan dibuat pohon keputusan untuk menentukan besar IPK
semester 1 dalam kategori A, B, C dan D dengan melihat dari atribut
Jenis
Kelamin, Keterangan Sekolah, Nilai Matematika Kelas 3 semester 1
dan
Fisika
Kelas 3 semester 1
.
Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah
dalam pembentukan pohon keputusan dengan menggunakan algoritma J48(C4.5)
untuk menyelesaikan permasalahan pada Tabel 2.1. Menghitung jumlah kasus,
jumlah kasus untuk keputusan A, B, C, D dan Entropi dari semua kasus dan kasus
yang dibagi berdasarkan atribut
Jenis Kelamin, Keterangan Sekolah, Nilai
Matematika Kelas 3 semester 1
dan
Fisika Kelas 3 semester 1
.
Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil
perhitungan ditunjukkan oleh Tabel 2.2.
Tabel 2. 2 Tabel Perhitungan Node 1
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT GAIN RATIO 1 TOTAL 26 0 16 9 1 1.14161952
Jenis Kelamin 0.06247 0.99572 0.06273925 Laki-Laki 14 0 8 6 0 0.98522813
Perempuan 12 0 8 3 1 1.18872187
Keterangan Sekolah 0.03861 0.89049 0.04336403 Negeri 8 0 6 2 0 0.81127812
Swasta 18 0 10 7 1 1.23266025 Matematika XII
Semester 1 0.09955 1.1688 0.08518020
A 0 0 0 0 0 0
B 10 0 6 4 0 0.97095059 C 15 0 10 4 1 1.15893853
D 1 0 0 1 0 0
Fisika XII Semester 1 0.22872 0.77935 0.29347786
A 0 0 0 0 0 0
Entropi (Total) = 1.141619525
Entropi (Jenis kelamin, laki-laki) = 0.985228136
Nilai
Gain
pada baris
Jenis Kelamin
dihitung dengan menggunakan persamaan
Perhitungan tersebut dilakukan untuk semua atribut. Dari hasil tabel 2.2 dapat
diketahui bahwa atribut dengan
Gain
tertinggi adalah
Fisika XII semester 1
yaitu
sebesar 0.293477869.
Fisika XII semester 1
dapat menjadi
node
akar. Ada 2 nilai
atribut
Fisika XII semester 1
, yaitu
B dan D
. Dari hasil tersebut dapat
digambarkan pohon keputusan sementaranya, tampak pada gambar 2.5 dibawah
ini:
Selanjutnya menghitung jumlah kasus untuk keputusan
B
, dan Entropi dari
semua kasus yang dibagi berdasarkan atribut
Jenis Kelamin, Keterangan Sekolah
dan
Nilai Matematika Kelas 3 semester 1
. Setelah itu, lakukan perhitungan
Gain
untuk tiap atribut. Hasil perhitungan seperti pada tabel 2.3.
Tabel 2. 3 Tabel Perhitungan Node 1.1
Tabel 2.3 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah Nilai
Matematika Kelas 3 semester 1
, yaitu sebesar 0.103050479. Dengan demikian
Matematika Kelas 3 semester 1
dapat menjadi
node
cabang dari nilai atribut
Fisika XII semester 1-B
. Pohon keputusan selanjutnya sampai pada tahap ini
seperti pada gambar 2.6 berikut ini:
1 Fis3smt1
1.2 ? 1.1
Mtk3smt1
1.1.2 ? 1.1.1
?
B D
B C
Gambar 2.6 Pohon Keputusan Untuk Node 1.1
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT GAIN RATIO 1.1
Fisika XII
Semester 1-B 20 0 15 4 1 0.991760148
Jenis Kelamin 0.052406 1 0.052406276 Laki-Laki 10 0 8 2 0 0.721928095
Perempuan 10 0 7 2 1 1.156779649
Keterangan
Sekolah 0.042738 0.970951 0.044016296 Negeri 8 0 6 2 0 0.811278124
Swasta 12 0 9 2 1 1.040852083
Matematika
XII Semester 1 0.102306 0.992774 0.103050479
A 0 0 0 0 0 0
B 9 0 6 3 0 0.918295834 C 11 0 9 1 1 0.865856617
Selanjutnya menghitung jumlah kasus
Matematika Kelas 3 semester 1
untuk
keputusan
B
, dan Entropi dari semua kasus yang dibagi berdasarkan atribut
Jenis
Kelamin
dan
Keterangan Sekolah.
Setelah itu, lakukan perhitungan
Gain
untuk
tiap atribut. Hasil perhitungan seperti pada tabel 2.4.
Tabel 2. 4 Tabel Perhitungan Node 1.1.1
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT
GAIN RATIO 1.1.1
Fis3smt1-B,
Mtk3smt1-B 9 0 6 3 0 0.918296
Jenis Kelamin 0 0.91829 0 Laki-Laki 6 0 4 2 0 0.918296
Perempuan 3 0 2 1 0 0.918296
Keterangan
Sekolah 0.0727 0.99107 0.0734355 Negeri 5 0 4 1 0 0.721928
Swasta 4 0 2 2 0 1
Tabel 2.4 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah
Keterangan sekolah
, yaitu sebesar 0.07343556. Dengan demikian
Keterangan
sekolah
dapat menjadi
node
cabang dari nilai atribut
Fis3smt1-B, Mtk3smt1-B
.
Ada dua buah nilai atribut yang dimiliki oleh
Keterangan sekolah
, yaitu
Negeri,
dan
Swasta.
Dari kedua nilai atribut tersebut, nilai atribut
Swasta
sudah
mengklasifikasikan kasus 1, yaitu keputusan
B
dan nilai atribut
Negeri
masih
perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Dengan demikian
1 Fis3smt1
1.2 ? 1.1
Mtk3smt1
1.1.2 ? 1.1.1
KetSekolah
B D
B C
Negeri Swasta
B 1.1.1.1
?
Gambar 2.7
Pohon Keputusan Untuk Node 1.1.1
Selanjutnya menghitung jumlah kasus
Fis3smt1-B, Mtk3smt1-B
,
keterangan
sekolah-Negeri
, dan Entropi dari semua kasus yang dibagi berdasarkan atribut
Jenis Kelamin.
Setelah itu, lakukan perhitungan
Gain
untuk tiap atribut. Hasil
perhitungan seperti pada tabel 2.5.
Tabel 2. 5 Tabel Perhitungan Node 1.1.1.1
Tabel 2.5 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah
Jenis
Kelamin
, yaitu sebesar 0.331559707. Dengan demikian
Jenis Kelamin
dapat
menjadi
node
cabang dari nilai atribut
Fis3smt1-B, Mtk3smt1-B, ket-Negri
.
Atribut
Jenis Kelamin
memiliki nilai perempuan yang
sudah mengklasifikasikan
kasus 1, yaitu keputusan
C
dan nilai laki-laki sudah mengklasifikasikan kasus 0,
yaitu keputusan
B
. Dengan demikian Pohon keputusan pada gambar 2.8.
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT
GAIN RATIO 1.1.1.1
Fis3smt1-B, Mtk3smt1-B,
ket-Negri 5 0 4 1 0 0.721928
Jenis Kelamin 0.32192 0.97095 0.3315597 Laki-Laki 3 0 3 0 0 0
1 Fis3smt1
1.2 ? 1.1
Mtk3smt1
1.1.2 ? 1.1.1
KetSekolah
B D
B C
Negeri Swasta
B 1.1.1.1
Jenis Kelamin
C perempuan Laki-laki
B
Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1
Selanjutnya menghitung jumlah kasus untuk keputusan
Fisika XII semester
1-D
, dan Entropi dari semua kasus yang dibagi berdasarkan atribut
Jenis Kelamin,
Keterangan Sekolah
dan
Matematika XII semester 1.
Setelah itu, lakukan
Tabel 2. 6
Tabel Perhitungan Node 1.2
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT
GAIN RATIO 1.2
Fisika XII
Semester 1-D 6 0 1 5 0 0.6500224 Jenis Kelamin 0.3166 0.91829 0.344866 Laki-Laki 4 0 0 4 0 0 Perempuan 2 0 1 1 0 1
Keterangan
Sekolah 0 0 0
Negeri 0 0 0 0 0 0 Swasta 6 0 1 5 0 0.6500224
Matematik a XII
Semester 1 0.1091 0.8208 0.133004
A 0 0 0 0 0 0
B 1 0 0 1 0 0
C 4 0 1 3 0 0.8112781
D 1 0 0 1 0 0
Tabel 2.6 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah
Jenis
Kelamin
, yaitu sebesar 0.344866084.
Dengan demikian
Jenis Kelamin
dapat menjadi
node
cabang dari nilai
atribut
Fis3smt1-D.
Atribut
Jenis Kelamin
memiliki nilai perempuan yang
sudah
mengklasifikasikan kasus 1, yaitu keputusan
B
. Dengan demikian Pohon
1 Fis3smt1
1.2 Jenis Kelamin 1.1
Mtk3smt1
1.1.2 ? 1.1.1
KetSekolah
B D
B C
Negeri Swasta
B 1.1.1.1
Jenis Kelamin
C perempuan
B
Perempuan
B Laki-laki
Gambar 2. 9 Pohon Keputusan Untuk Node 1.2
Selanjutnya menghitung jumlah kasus untuk keputusan
Fis3smt1-B,
Mtk3smt1-C
, dan Entropi dari semua kasus yang dibagi berdasarkan atribut
Jenis
Kelamin,
dan
Keterangan Sekolah.
Setelah itu, lakukan perhitungan
Gain
untuk
tiap atribut. Hasil perhitungan seperti pada tabel 2.7.
Tabel 2. 7 Tabel Perhitungan Node 1.1.2
Node
JUMLAH
KASUS A B C D ENTROPY GAIN SPLIT
GAIN RATIO 1.1.2
Fis3smt1-B,
Mtk3smt1-C 11 0 9 1 1 0.865856 Jenis Kelamin 0.38999 0.94566 0.412403 Laki-Laki 4 0 4 0 0 0 Perempuan 7 0 5 1 1 0.747784
Keterangan
Tabel 2.7 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah
Jenis
Kelamin
, yaitu sebesar 0.41240388.
Dengan demikian
Jenis Kelamin
dapat menjadi
node
cabang dari nilai
atribut
Fis3smt1-B, Mtk3smt1-C.
Atribut
Jenis Kelamin
memiliki nilai laki-laki
yang
sudah mengklasifikasikan kasus 0, yaitu keputusan
B
. Namun untuk nilai
perempuan harus dilakukan perhitungan kembali. Dengan demikian Pohon
keputusan pada gambar 2.10.
1 Fis3smt1
1.2 Jenis Kelamin 1.1
Mtk3smt1
1.1.2 Jenis Kelamin 1.1.1
KetSekolah
B D
B C
Negeri Swasta
B 1.1.1.1
Jenis Kelamin
B
Perempuan
B
1.1.2.2 ? Laki-laki Perempuan
C perempuan
B Laki-laki
Gambar 2. 10 Pohon Keputusan Untuk Node 1.1.2
Selanjutnya menghitung jumlah kasus untuk keputusan
Fis3smt1-B,
Mtk3smt1-C, jenis kelamin-perempuan
, dan Entropi dari semua kasus yang dibagi
berdasarkan atribut
Keterangan Sekolah.
Setelah itu, lakukan perhitungan
Gain
Tabel 2. 8 Tabel Perhitungan Node 1.1.2.2
NodeJUMLAH
KASUS A B C D ENTROPY GAIN SPLIT
GAIN RATIO
1.1.2.2
Fis3smt1-B, Mtk3smt1-C,
perempuan 7 0 5 1 1 1.14883485
Keterangan
Sekolah 0.57740 0.98522 0.5860635 Negeri 4 0 2 2 0 1
Swasta 3 0 3 0 0 0
Tabel 2.8 dapat diketahui bahwa atribut dengan
Gain
tertinggi adalah
Keterangan Sekolah
, yaitu sebesar 0.58606353.
Dengan demikian
Keterangan Sekolah
dapat menjadi
node
cabang dari
nilai atribut
Fis3smt1-B, Mtk3smt1-C, jenis kelamin-perempuan.
Atribut
Keterangan Sekolah
memiliki nilai negeri yang
sudah mengklasifikasikan kasus 1,
yaitu keputusan
C
dan nilai swasta sudah mengklasifikasikan kasus 0 yaitu
keputusan B. Dengan demikian Pohon keputusan pada gambar 2.11 merupakan
1 Fis3smt1
1.2 Jenis Kelamin 1.1
Mtk3smt1
1.1.2 Jenis Kelamin 1.1.1
KetSekolah
B D
B C
Negeri Swasta
B 1.1.1.1
Jenis Kelamin
B
Perempuan
B 1.1.2.2
Keterangan Sekolah Laki-laki Perempuan
Negeri Swasta
B C
C perempuan
B Laki-laki