• Tidak ada hasil yang ditemukan

Prediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan slgoritma J48 - USD Repository

N/A
N/A
Protected

Academic year: 2019

Membagikan "Prediksi prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode pohon keputusan menggunakan slgoritma J48 - USD Repository"

Copied!
305
0
0

Teks penuh

(1)

i

PREDIKSI PRESTASI AKADEMIK MAHASISWA

BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU

JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN

MENGGUNAKAN ALGORITMA J48

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika

Oleh:

Florensia Dwinta Parmeska Kustanto

075314022

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

(2)

ii

PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT

BASED ON THE RESULTS OF LANE ACHIEVEMENT

STUDENT SELECTION ADMISSIONS

WITH DECISION TREE METHOD

USING J48 ALGORITHM

A Thesis

Presented as Partial Fullfillment of the Requirements

To Obtain

Sarjana Komputer

in Department of Informatics Engineering

By:

Florensia Dwinta Parmeska Kustanto

075314022

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

(3)
(4)
(5)

v

HALAMAN PERSEMBAHAN

Apa yang kau alami kini mungkin tak dapat engkau mengerti

Sa

tu hal tanamkan di Hati, “

Indah Semua yang Tuhan Beri

“..

Tuhanmu tak akan memberi ular beracun pada yang minta roti

Cobaan yang engkau alami takkan melebihi kekuatan mu ..

Tangan Tuhan sedang merenda suatu karya yang agung mulia

Saatnya kan tiba nanti, kau lihat pelangi kasih-Nya..

Tangan Tuhan, by: Nikita

Ku Persembahkan untuk:

Tuhan Yesus dan Bunda Maria,

Keluarga Tercinta, Dosen Pembimbing, Kekasih dan Teman-teman

(6)
(7)

vii

PREDIKSI PRESTASI AKADEMIK MAHASISWA

BERDASARKAN HASIL SELEKSI PENERIMAAN MAHASISWA BARU

JALUR PRESTASI DENGAN METODE POHON KEPUTUSAN

MENGGUNAKAN ALGORITMA J48

ABSTRAK

Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,

Universitas Sanata Dharma memberikan syarat khusus untuk mendaftar. Hal

tersebut dilakukan oleh Universitas Sanata Dharma agar mampu menyaring calon

mahasiswa yang unggul. Diharapkan mereka saat kuliah akan mendapat prestasi

akademik yang baik pula. Muncul sebuah pertanyaan yaitu bagaimana prestasi

akademik mahasiswa tersebut pada saat kuliah, yang tercermin dalam IPK

mahasiswa yang bersangkutan? Jawaban dari pertanyaan itu bisa didapatkan

dengan menggali informasi dari data mahasiswa jalur prestasi tersebut. Informasi

yang ingin didapat dari data tersebut adalah latar belakang mahasiswa dari jalur

prestasi yang seperti apakah yang pada saat kuliah akan mendapatkan prestasi

akademik Dengan Pujian dengan kategori “A”, Sangat Memuaskan dengan

kategori “B”, Memuaskan dengan kategori “C” dan kurang memuaskan denga

n

kategori “D”. Penelitian Tugas Akhir ini menerapkan teknik klasifikasi dengan

(8)

viii

PREDICTION OF STUDENT ACADEMIC ACHIEVEMENT

BASED ON THE RESULTS OF LANE ACHIEVEMENT

STUDENT SELECTION ADMISSIONS

WITH DECISION TREE METHOD

USING J48 ALGORITHM

ABSTRACT

(9)
(10)

x

KATA PENGANTAR

Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha Esa, yang

telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan

tugas akhir yang berjudul

“ Prediksi Prestasi Akademik Mahasiswa Berdasarkan

Hasil Seleksi Penerimaan Mahasiswa Baru Jalur Prestasi Dengan Metode Pohon

Keputusan Menggunakan Algoritma J48 “

dan penulis selalu diberi kekuatan

untuk berkembang dan menjadi lebih. Tugas akhir ini ditulis sebagai salah satu

syarat memperoleh gelar sarjana komputer program studi Teknik Informatika,

Fakultas Sains dan Teknologi Universitas Sanata Dharma.

Terima kasih sebesar-besarnya kepada semua pihak yang turut memberikan

dukungan, semangat dan bantuan sehingga selesainya skripsi ini:

1.

Tuhan Yesus Kristus dan Bunda Maria yang telah memberikan semuanya

sehingga penulis bisa menyelesaikan tugas akhir ini.

2.

Ibu P. H . Prima Rosa, S.Si., M.Sc. selaku dosen pembimbing atas

kesabaran, bimbingan, waktu, saran dan terlebih atas dukungan yang

diberikan.

3.

Laboran komputer atas bantuan kepada penulis ketika melakukan ujian

akhir.

4.

Kedua orang tua, papa Drs. Yohanes Kustanto, S.Pd dan mama Dra.

Damiana Dwi Tanti, S.Pd yang telah memberikan cinta dalam bentuk

semangat, perhatian dan doa sehingga penulis dapat menyelesaikan tugas

akhir ini.

5.

Semua saudara, Adik Theodorin Hanna Vebrita Kustanto dan Angelina

Widiyanti Purwoko, Tante Agustina Sri Kadaryanti, Mbah Kakung Ign.

Darso Roesyanto dan Mbah Putri M. M. Sukeni Wotowiharjo yang telah

memberikan semangat, perhatian dan doa sehingga penulis dapat

menyelesaikan tugas akhir ini.

6.

Kekasih tercinta, Antonius Hari Widiatmoko yang selalu menyemangati

(11)

xi

7.

Sahabat dan teman-teman, Fabian Fransiskus Paranso, S.T. , Gregorius

Arief Sudarmo Wicaksono, S.T. , Sari Indah Anatta, Arum Citra Dewi, Ni

Made Kristianingsih Kuatra, Ana Suryaningsih, Leonardus Ardyandita, M.

Bangkit

Widyatmoko

dan

teman-teman

seperjuangan

dalam

menyelesaikan tugas akhir ini.

8.

Semua pihak yang berperan baik secara langsung maupun tidak langsung

sehingga penulis dapat menyelesaikan tugas akhir ini.

Penulis menyadari bahwa masih banyak kekurangan yang terdapat pada laporan

tugas akhir ini. Saran dan kritik penulis harapkan untuk perbaikan-perbaikan pada

masa yang akan dating dan penulis berharap semoga skripsi ini dapat bermanfaat

bagi pembaca.

Yogyakarta, 24 Juli 2011

Penulis

(12)

xii

DAFTAR ISI

Halaman Judul ... i

Halaman Judul (Bahasa Inggris) ... ii

Halaman Persetujuan ... iii

Halaman Pengesahan ... iv

Halaman Persembahan ...v

Abstrak ... vii

Abstract ... vii

Persetujuan Publikasi Karya Ilmiah ... viii

Kata Pengantar ...x

Daftar Isi... xii

Daftar Gambar ...xv

Daftar Tabel ... xvii

BAB I

PENDAHULUAN ...1

1.1.

Latar Belakang Masalah ...1

1.2.

Perumusan Masalah ...3

1.3.

Batasan Masalah...3

1.4.

Tujuan ...4

1.5.

Luaran ...4

1.6.

Kegunaan...5

1.7.

Metodologi Penelitian ...5

1.8.

Sistematika Penulisan...7

BAB II LANDASAN TEORI ...8

2.1.

Pengertian Penambangan Data (

Data Mining

) ...8

2.2.

Proses Penambangan Data ...9

2.3.

Teknik Klasifikasi ...11

2.4.

Pengertian Pohon Keputusan ...13

2.5.

Manfaat Pohon Keputusan ...14

2.6.

Kelebihan Pohon Keputusan ...15

2.7.

Kekurangan Pohon Keputusan ...16

2.8.

Algoritma J48 ...16

BAB III

ANALISIS DAN PERANCANGAN SISTEM ...32

3.1.

Identifikasi Sistem ...32

3.2.

Pemrosesan Data Awal, Input, Proses dan Output Sistem ...33

3.2.1. Pemrosesan Data Awal ...37

3.2.2. Input Sistem ...48

3.2.3. Proses Sistem ...55

3.2.4. Output Sistem ...56

3.3.

Perancangan Struktur Data ...57

3.4.

Perancangan Umum Sistem ...58

3.4.1. Diagram Use Case ...58

3.4.2. Narasi Use Case ...59

3.4.3. Diagram Aktivitas ...69

(13)

xiii

3.4.3.2. Diagram Aktivitas Tambah Data ...70

3.4.3.3. Diagram Aktivitas Transformasi Data ...71

3.4.3.4. Diagram Aktivitas Buat Aturan ...71

3.4.3.5. Diagram Aktivitas Lihat Detail Aturan ...72

3.4.3.6. Diagram Aktivitas Simpan Aturan ...72

3.4.3.7. Diagram Aktivitas Prediksi Prestasi Kelompok ...73

3.4.3.8. Diagram Aktivitas Prediksi Prestasi Personal ...74

3.4.3.9. Diagram Aktivitas Logout...75

3.5.

Diagram Kelas ...76

3.6.

Atribut dan Method ...77

3.6.1. LoginSPPA ...77

3.6.2. SelectedProdiSemesterSPPA ...78

3.6.3. HomeSPPA ...78

3.6.4. PrediksiPersonalSPPA ...80

3.6.5. PrediksiKelompokSPPA ...81

3.6.6. PreprocessingSPPA ...83

3.6.7. Aturan ...85

3.6.8. Mahasiswa ...88

3.6.9. TransformasiData ...90

3.6.10. HasilPreprocessingSPPA ...91

3.6.11. DatabaseConnection ...92

3.6.12. enumAtribut ...93

3.6.13. enumNilaiKeputusanIPK ...94

3.6.14. enumNilaiJenisKelamin ...94

3.6.15. enumNilaiJurusan ...94

3.6.16. enumNilaiKeteranganSekolah...94

3.6.17. enumNilaiKabupaten...94

3.6.18. enumNilaiRapor ...95

3.6.19. CrossValidation ...95

3.6.20. Pengguna ...97

3.7.

Model Analisis ...97

3.7.1. Model Analisis Tiap Usecase ...97

3.7.2. Model Analisis Usecase Login...98

3.7.3. Model Analisis Usecase Tambah Data ...99

3.7.4. Model Analisis Usecase Transformasi Data ...100

3.7.5. Model Analisis Usecase Buat Aturan ...101

3.7.6. Model Analisis Usecase Lihat Detail Aturan ...102

3.7.7. Model Analisis Usecase Simpan Aturan ...103

3.7.8. Model Analisis Usecase Prediksi Kelompok ...104

3.7.9. Model Analisis Usecase Prediksi Personal ...105

3.7.10. Model Analisis Usecase Logout...106

3.8.

Diagram Relasional Entitas ...108

3.9.

Perancangan Antar Muka ...109

3.9.1. Halaman Login ...109

3.9.2. Halaman SelectProdiSemester ...110

(14)

xiv

3.9.4. Halaman PreprocessingSPPA ...111

3.9.5. Halaman HasilPreprocessing ...112

3.9.6. Halaman PrediksiPersonalSPPA ...112

3.9.7. Halaman PrediksiKelompokSPPA ...113

BAB IV

IMPLEMENTASI SISTEM ...114

4.1.

Implementasi Data ...114

4.2.

Implementasi File ...117

4.3.

Implementasi Antar Muka...119

4.3.1. Tampilan Login ...119

4.3.2. Tampilan Set Program Studi dan Semester ...120

4.3.3. Tampilan Halaman Utama Sistem ...121

4.3.4. Tampilan Preproses ...122

4.3.5. Tampilan Hasil Preprosess ...123

4.3.6. Tampilan Prediksi Personal...124

4.3.7. Tampilan Prediksi Kelompok ...125

BAB V126

ANALISIS HASIL ...126

5.1.

Pengujian Validitas Program...126

5.1.1. Perbandingan pertama ...126

5.1.2. Perbandingan kedua ...129

5.2.

Akurasi

Cross Validation 3 folds

...131

5.2.1. Analisis Hasil Pola Program Studi Teknik Informatika ...132

5.2.2. Analisis Hasil Pola Program Studi Farmasi ...133

BAB VI

PENUTUP ...134

6.1.

Kesimpulan ...134

6.2.

Saran ...134

6.2.1.

Untuk Pengembangan Program...134

6.2.2 Untuk Universitas Sanata Dharma ...135

6.2.3 Untuk Mahasiswa PMB Jalur Prestasi ...135

DAFTAR PUSTAKA ...136

LAMPIRAN ...139

Lampiran 1 Daftar Nama Program Studi ...139

Lampiran 2 Daftar Nama Kabupaten di Indonesia ...140

Lampiran 3 Listing Program Form Login ...141

Lampiran 4 Listing Program Form Prodi Semester ...149

Lampiran 5 Listing Program Form Home ...154

Lampiran 6 Listing Program Form Preprocessing ...160

Lampiran 7 Listing Program Form Hasil Preprocessing...212

Lampiran 8 Listing Program Form Prediksi Personal ...220

(15)

xv

DAFTAR GAMBAR

Gambar 2.1

Data Mining

dan teknologi basis data lainnya ...8

Gambar 2.2 Proses

Data Mining

...11

Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi ...13

Gambar 2.4 Gambaran Pohon Keputusan ...14

Gambar 2.5 Pohon Keputusan Untuk Node 1 ...22

Gambar 2.6 Pohon Keputusan Untuk Node 1.1 ...23

Gambar 2.7 Pohon Keputusan Untuk Node 1.1.1 ...25

Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1 ...26

Gambar 2. 9 Pohon Keputusan Untuk Node 1.2 ...28

Gambar 2. 10 Pohon Keputusan Untuk Node 1.1.2 ...29

Gambar 2. 11 Pohon Keputusan Untuk Node 1.1.2.2 ...31

Gambar 3. 1 Deskripsi Tabel Data Mentah PMB 2005 ...37

Gambar 3. 2 Deskripsi Tabel Data Mentah PMB 2006 ...38

Gambar 3. 3 Deskripsi Tabel Data Mentah Nilai Matakuliah 2005 ...38

Gambar 3. 4 Deskripsi Tabel Data Mentah Nilai Matakuliah 2006 ...39

Gambar 3. 5 Deskripsi Tabel SKS per Program Studi ...39

Gambar 3. 6 Deskripsi Tabel Hasil Penggabungan Data Mentah ...41

Gambar 3. 7 Proses Pembagian data ke dalam 3 Folds...47

Gambar 3.8 Diagram

Use Case

...58

Gambar 3. 9 Diagran Aktivitas Login ...69

Gambar 3. 10 Gambar Diagram Aktivitas Tambah Data ...70

Gambar 3. 11 Diagram Aktivitas Transformasi Data ...71

Gambar 3. 12 Diagram Aktivitas Buat Aturan...71

Gambar 3. 13 Diagram Aktivitas Lihat Detail Aturan ...72

Gambar 3. 14 Diagram Aktivitas Simpan Aturan ...72

Gambar 3. 15 Diagram Aktivitas Prediksi Prestasi Kelompok ...73

Gambar 3. 16 Diagram Aktivitas Prediksi Prestasi Personal ...74

Gambar 3. 17 Diagram Aktivitas Logout ...75

Gambar 3. 18 Gambar model analisis login ...98

Gambar 3. 19 Diagram Sekuensial Login ...98

Gambar 3. 20 Model analisis Tambah data ...99

Gambar 3. 21 Diagram Sekuensial Tambah Data ...99

Gambar 3. 22 Model Analisis Transformasi Data ...100

Gambar 3. 23 Diagram Sekuensial Transformasi data...100

Gambar 3. 24 Model Analisis Buat Aturan ...101

Gambar 3. 25 Diagram Sekuensial Buat Aturan ...102

Gambar 3. 26 Model Analisis Lihat Detail Aturan ...102

Gambar 3. 27 Diagram Sekuensial Lihat Detail Aturan ...102

Gambar 3. 28 Model Analisis Simpan Aturan ...103

Gambar 3. 29 Diagram Sekuensial Simpan Aturan ...103

Gambar 3. 30 Model Analisis Prediksi Kelompok ...104

(16)

xvi

Gambar 3. 32 Model Analisi Prediksi Personal ...105

Gambar 3. 33 Diagram Sekuensial Prediksi Personal ...106

Gambar 3. 34 Model Analisis Logout ...106

Gambar 3. 35 Diagram Sekuensial Logout ...107

Gambar 3. 36 ER tabel pola semester dengan tabel senester dan prodi ...108

Gambar 3. 37 Halaman Login ...109

Gambar 3. 38 Halaman Select Prodi Semester ...110

Gambar 3. 39 Halaman HomeSPPA ...110

Gambar 3. 40 Halaman PreprocessingSPPA ...111

Gambar 3. 41 Halaman HasilPreprocessingSPPA ...112

Gambar 3. 42 Halaman PrediksiPersonalSPPA ...112

Gambar 3. 43 Halaman PrediksiKelompokSPPA ...113

Gambar 4. 1 Tree Perhitungan Manual dengan Excel ...114

Gambar 4. 2 Hasil Tree dengan menggunakan WEKA ...115

Gambar 4. 3 Hasil Tree menggunakan Sistem SPPA ...116

Gambar 4. 4 Tampilan Login Sistem ...119

Gambar 4. 5 Tampilan Setting Prodi dan Semester ...120

Gambar 4. 6 Tampilan Home SPPA ...121

Gambar 4. 7 Tampilan Preproses ...122

Gambar 4. 8 Halaman Hasil Proses...123

Gambar 4. 9 Tampilan Prediksi Personal ...124

Gambar 4. 10 Tampilah Prediksi Kelompok...125

Gambar 5. 1 Pola Semester 1 Prodi Teknik Informatika ( Hasil Weka ) ...127

Gambar 5. 2 Pola Semester 1 Prodi Teknik Informatika ( Hasil Sistem ) ...128

Gambar 5. 3 Hasil Prediksi Manual, Sistem dan Weka Semester 1 ...128

Gambar 5. 4 Pola Semester 2 Prodi Teknik Informatika ( Hasil Weka ) ...129

Gambar 5. 5 Pola Semester 2 Prodi Teknik Informatika ( Hasil Sistem ) ...130

(17)

xvii

DAFTAR TABEL

Tabel 2. 1 Tabel Data IPK semester 1...19

Tabel 2. 2 Tabel Perhitungan Node 1...21

Tabel 2. 3 Tabel Perhitungan Node 1.1...23

Tabel 2. 4 Tabel Perhitungan Node 1.1.1...24

Tabel 2. 5 Tabel Perhitungan Node 1.1.1.1...25

Tabel 2. 6 Tabel Perhitungan Node 1.2...27

Tabel 2. 7 Tabel Perhitungan Node 1.1.2...28

Tabel 2. 8 Tabel Perhitungan Node 1.1.2.2...30

Tabel 3.1 Tabel Data PMB jalur prestasi ...34

Tabel 3.2 Tabel Data Nilai Mahasiswa jalur prestasi per Matakuliah ...35

Tabel 3.3 Tabel Data SKS Matakuliah per Program Studi ...36

Tabel 3.4 Tabel data PMB ...42

Tabel 3. 5 Tabel Aturan Pengkategorisasian Nilai Rapor dan IPK...43

Tabel 3.6 Hasil Transformasi untuk nilai rapor angkatan 2005 ...44

Tabel 3.7 Tabel Data Pelatihan PMB Jalur Prestasi ...49

Tabel 3.8 Tabel Data Uji PMB Jalur Prestasi ...52

Tabel 3.9 Tabel Visualisasi Penyimpanan Pohon ...57

Tabel 3.10 Deskripsi

Use Case

...59

Tabel 3. 11 Kelas Interface LoginSPPA ...77

Tabel 3. 12 Kelas Interface SelectedProdiSemesterSPPA ...78

Tabel 3. 13 Kelas Interface HomeSPPA ...78

Tabel 3. 14 Kelas Interface PrediksiPersonalSPPA ...80

Tabel 3. 15 Kelas Interface PrediksiKelompokSPPA ...81

Tabel 3. 16 Kelas Interface PreprocessingSPPA ...83

Tabel 3. 17 Kelas Entity Aturan ...85

Tabel 3. 18 Kelas Entity Mahasiswa ...88

Tabel 3. 19 Kelas Entity TransformasiData ...90

Tabel 3. 20 Kelas Interface HasilPreprocessingSPPA ...91

Tabel 3. 21 Kelas Controller DatabaseConnection ...92

Tabel 3. 22 Kelas enumeration enumAtribut ...93

Tabel 3. 23 Kelas Enumeration enumNilaiKeputusan ...94

Tabel 3. 24 Kelas Enumeration enumNilaiJenisKelamin ...94

Tabel 3. 25 Kelas Enumeration enumNilaiJurusan ...94

Tabel 3. 26 Kelas Enumeration enumNilaiKeteranganSekolah ...94

Tabel 3. 27 Kelas enumNilaiKabupaten ...94

Tabel 3. 28 Kelas Enumeration enumNilaiRapor ...95

Tabel 3. 29 Kelas Entity CrossValidation ...95

Tabel 3. 30 Kelas Entity Pengguna ...97

Tabel 3. 31 Tabel Kelas Analisis login ...98

Tabel 3. 32 Tabel Kelas Analisis Tambah Data ...99

Tabel 3. 33 Kelas Analisis Transformasi Data...100

Tabel 3. 34 Kelas Analisis Buat Aturan ...101

(18)

xviii

Tabel 3. 36 Kelas Analisis Simpan Aturan ...103

Tabel 3. 37 Kelas Analisis Prediksi Kelompok ...104

Tabel 3. 38 Kelas Analisis Prediksi Personal...105

Tabel 3. 39 Kelas Analisis Logout ...106

Tabel 4. 1 Tabel Impelementasi file ...117

Tabel 5. 1 Perbandingan Akurasi Pola (Prodi: Teknik Informatika) ...131

Tabel 5. 2 Distribusi IPK Program Studi Teknik Informatika ...131

Tabel 5. 3 Perbandingan Akurasi Pola (Prodi: Farmasi)...132

(19)

BAB I

PENDAHULUAN

1.1.

Latar Belakang Masalah

Seiring dengan perkembangan teknologi, semakin berkembang pula

kemampuan kita dalam mengumpulkan dan mengolah data. Data dikumpulkan

dan disimpan bisa dalam bentuk

softcopy

maupun

hardcopy

. Data-data yang

terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagai

informasi apabila diolah terlebih dahulu agar dapat diutarakan secara jelas dan

tepat sehingga dapat dimengerti oleh orang lain yang tidak langsung

mengalaminya sendiri.

Universitas Sanata Dharma (USD) merupakan salah satu instansi akademik

yang memiliki banyak data. Tidak hanya data akademik saja tetapi masih banyak

lagi data yang tersimpan, salah satunya adalah data Penerimaan Mahasiswa Baru

(PMB). Setiap tahunnya Universitas Sanata Dharma membuka pendaftaran untuk

penerimaan mahasiswa baru. Seleksi penerimaan mahasiswa baru dilakukan

dalam berbagai cara, antara lain penerimaan mahasiswa baru melalui jalur

prestasi, melalui jalur reguler dan melalui jalur kerja sama. Setiap dibuka

pendaftaran maka akan ada banyak data yang terkumpul dari pendaftar sebagai

syarat untuk pendaftaran. Data tersebut seiring berjalannya waktu akan semakin

bertambah dan potensial menjadi kuburan data karena tidak dimanfaatkan.

Dalam hal seleksi penerimaan mahasiswa baru melalui jalur prestasi,

Universitas Sanata Dharma memberikan syarat utama untuk mendaftar yaitu

dengan melampirkan hasil belajar siswa SMA / sederajat saat kelas XI semester 1

dan semester 2 dan kelas XII semester 1. Syarat kedua adalah nilai rata-rata

kognitif sejumlah mata pelajaran minimal 67. Untuk siswa jurusan IPA, nilai

tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika,

Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS meliputi Bahasa

Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi. Selain itu terdapat

(20)

SMA jurusan IPA/SMF sedangkan khusus pendaftar program studi Pendidikan

Bahasa Inggris dan Sastra Inggris harus memiliki nilai mata pelajaran Bahasa

Inggris pada rapor kelas XI semester 1 dan 2 minimal 8. Tujuan dari beberapa

syarat tersebut agar Universitas Sanata Dharma mampu menyaring calon

mahasiswa yang unggul. Diharapkan mereka nantinya saat kuliah akan

mendapatkan Indeks Prestasi (IP) yang baik di setiap semesternya dan lulus

dengan Indeks Prestasi Kumulatif (IPK) yang baik pula.

Calon mahasiswa yang berhasil lolos seleksi PMB Jalur Prestasi di

Universitas Sanata Dharma merupakan orang-orang yang memenuhi kategori

sebagai mahasiswa yang diterima secara khusus, karena prestasi akademik pada

saat SMA. Setelah calon mahasiswa dinyatakan lolos seleksi dan diterima sebagai

mahasiswa di Universitas Sanata Dharma karena prestasi akademik saat SMA,

muncul sebuah pertanyaan yaitu bagaimana prestasi akademik mahasiswa tersebut

pada saat kuliah, yang tercermin dalam IPK mahasiswa yang bersangkutan?

Jawaban dari pertanyaan itu bisa didapatkan dengan menggali informasi dari data

mahasiswa jalur prestasi tersebut. Informasi yang ingin didapat dari data tersebut

adalah latar belakang mahasiswa dari jalur prestasi yang seperti apakah yang pada

saat kuliah akan mendapatkan prestasi akademik Dengan Pujian dengan kategori

“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan kategori “C”

dan kurang memuaskan dengan kategori “D”. Selanjutnya klasifikasi tersebut

akan dimanfaatkan untuk melakukan prediksi prestasi akademik mahasiswa yang

mendaftar melalui jalur prestasi.

Penelitian Tugas Akhir ini menerapkan teknik klasifikasi melalui pendekatan

pohon keputusan pada penambangan data. Data mahasiswa yang akan diteliti dan

diolah merupakan data PMB Jalur Prestasi dan data akademik seluruh Program

Studi di Universitas Sanata Dharma. Data diperoleh dari Biro Administrasi

Perencanaan dan Sistem Informasi (BAPSI) Universitas Sanata Dharma. Data

tersebut akan diolah dengan algoritma J48 untuk menemukan pola dari klasifikasi

latar belakang mahasiswa berdasarkan prestasi akademik mahasiswa sesuai

kategori IPK. Data latar belakang mahasiswa meliputi nilai rapor kelas XI

(21)

nilai tersebut meliputi mata pelajaran Bahasa Indonesia, Bahasa Inggris,

Matematika, Fisika, Kimia dan Biologi, sedangkan untuk siswa jurusan IPS

meliputi Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi,

asal sekolah, daerah asal sekolah, jurusan saat sekolah, dan jenis kelamin.

Berdasarkan pola klasifikasi tersebut, diharapkan akan dapat dilakukan prediksi

prestasi akademik mahasiswa berdasarkan hasil seleksi penerimaan mahasiswa

baru jalur prestasi dengan metode pohon keputusan menggunakan algoritma J48.

1.2.

Perumusan Masalah

Berdasarkan latar belakang masalah diatas, rumusan masalah yang diidentifikasi

adalah:

1.

Bagaimana cara mengklasifikasikan latar belakang mahasiswa dari

jalur prestasi yang meliputi nilai rapor, asal sekolah, daerah asal

sekolah, jurusan saat sekolah, dan jenis kelamin berdasarkan prestasi

akademiknya menurut kategori IPK Dengan Pujian dengan kategori

“A”, Sangat Memuaskan dengan kategori “B”, Memuaskan dengan

kategori “C” dan kurang memuaskan dengan kategori “D”?

2.

Bagaimana memprediksi prestasi akademik mahasiswa berdasarkan

hasil seleksi penerimaan mahasiswa baru jalur prestasi dengan metode

pohon keputusan menggunakan algoritma J48?

1.3.

Batasan Masalah

Dalam tugas akhir ini batasan masalah yang akan diambil dalam pembahasan

adalah sebagai berikut:

1.

Penelitian ini hanya menerapkan metode pohon keputusan dengan

menggunakan algoritma J48.

2.

Data mahasiswa diambil dari data PMB Jalur Prestasi dan data akademik

mahasiswa seluruh Program Studi di Universitas Sanata Dharma tahun

(22)

sudah menempuh perkuliahan lebih dari 8 semester sehingga diharapkan

ketika proses pengolahan data akan didapatkan pola yang menarik. Dan

untuk data angkatan 2007 akan dijadikan data testing yang akan digunakan

untuk menguji pola yang terbentuk. Data PMB dan data akademik yang

didapat meliputi nomor alias, jenis kelamin, daerah asal, alamat asal, nama

sekolah, jurusan saat SMA / sederajat, nilai rapor kelas XI semester 1 dan

2, kelas XII semester 1, mata pelajaran (untuk IPA: Bahasa Indonesia,

Bahasa Inggris, Matematika, Fisika, Kimia dan Biologi. Untuk IPS:

Bahasa Indonesia, Sejarah, Bahasa Inggris, Matematika, dan Ekonomi.),

program studi, sks yang telah ditempuh, nilai per semester, Indeks Prestasi

Kumulatif(IPK), ketua program studi, dan dosen pembimbing akademik

yang diperoleh dari Biro Administrasi Perencanaan dan Sistem Informasi

(BAPSI) Universitas Sanata Dharma.

3.

Data akademik yang akan diolah adalah IPK mahasiswa dari semester 1

semester 8 karena diasumsikan bahwa lama studi yang ideal adalah 4

tahun atau 8 semester.

1.4.

Tujuan

Tujuan dari penelitian ini adalah :

1. Mencari pola klasifikasi dari latar belakang mahasiswa PMB jalur prestasi

berdasarkan prestasi akademiknya.

2. Memprediksi prestasi akademik mahasiswa.

1.5.

Luaran

Sebuah sistem berbasis teknologi informasi yang mampu mengenali pola dan

memprediksi prestasi akademik mahasiswa berdasarkan masukan latar belakang

mahasiswa (nilai rapor, asal sekolah, daerah asal sekolah, jurusan saat sekolah,

(23)

1.6.

Kegunaan

Hasil prediksi tersebut dapat digunakan oleh:

1. Dosen Pembimbing Akademik

Sebagai bahan konseling mahasiswa bimbingannya.

2. Ketua Program Studi

Sebagai alat bantu dalam seleksi PMB jalur prestasi.

1.7.

Metodologi Penelitian

Metodologi yang digunakan untuk menyelesaikan masalah pada tugas akhir

ini menurut Jiawei Han dan Kamber [1]:

1.

Pembersihan Data

( Data Cleaning )

Pada tahap ini dilakukan proses membuang data yang tidak

konsisten dan noise. Contohnya: data yang kadaluarsa, salah

pengetikan maupun data yang kosong.

2.

Penggabungan Data

( Data Integration )

Penggabungan data dari beberapa sumber agar seluruh data

terangkum dalam satu table yang utuh. (

denormalisasi)

3.

Seleksi Data

( Data Selection )

Menyeleksi data dimana data yang relevan diambil dari

database.

4.

Transformasi Data

( Data Transformation )

Mentranformasikan atau merubah data kedalam bentuk yang

sesuai untuk ditambang.

5.

Penambangan Data

( Data Mining )

(24)

Dalam penilitian Tugas Akhir ini, teknik yang digunakan

adalah teknik klasifikasi dengan membuat pohon keputusan.

Algoritma yang digunakan untuk membuat pohon keputusan

adalah algoritma J48.

6.

Evaluasi Pola

( Pattern Evaluation )

Untuk mengidentifikasikan pola yang menarik untuk

merepresentasikan sebuah pengetahuan.

7.

Presentasi Pengetahuan

( Knowledge Presentation )

Pada tahap ini pola yang didapat direpresentasikan kepada

(25)

1.8.

Sistematika Penulisan

Adapun sistematika penulisan tugas akhir ini adalah sebagai berikut:

Halaman Judul

Abstrak

, berisi tentang rangkuman Tugas Akhir.

Daftar Isi

Bab I Pendahuluan

Pendahuluan berisi tentang latar belakang masalah, perumusan masalah,

batasan masalah, tujuan, luaran, kegunaan, metodologi penelitian dan

sistematika penulisan.

Bab II Landasan Teori

Landasan Teori di dalam bab II ini berisi tentang teori yang digunakan

dalam

penulisan Tugas Akhir

, meliputi: pengertian penambangan data,

proses penambangan data, teknik klasifikasi, pengertian pohon keputusan,

manfaat pohon keputusan, kelebihan pohon keputusan, kekurangan pohon

keputusan, dan algoritma J48.

Bab III Analisis dan Perancangan Sistem

Analisis dan Perancangan Sistem berisi tentang identifikasi sistem, pemrosesan

data awal, Input, Proses dan Output , dan perancangan sistem.

Bab IV Implementasi Program

Implementasi Program berisi implementasi dari program yang dibuat.

Bab V Analisis Hasi

Analisis Hasil berisi tentang pembahasan hasil yang terbentuk dari program,

baik akurasi ataupun pola klasifikasinya.

Bab VI Kesimpulan dan Saran

Kesimpulan dan saran berisi tentang kesimpulan penelitian dan saran untuk

pengembangan penelitian selanjutnya.

(26)

BAB II

LANDASAN TEORI

2.1.

Pengertian Penambangan Data (

Data Mining

)

Definisi umum dari penambangan data itu sendiri

adalah “

serangkaian proses

untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui

secara manual dari suatu kumpulan data

[2]. Penambangan data juga dikenal

dengan nama

Knowledge Discovery in Databases

(KDD).

Kehadiran penambangan data dilatar belakangi problema

explosion data

yang

dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian

tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb)

dan yang terjadi adalah banyak data tapi miskin informasi. Hampir semua data

tersebut dimasukkan dengan menggunakan aplikasi komputer yang digunakan

untuk menangani transaksi sehari-hari. Pada Gambar 2.1 di bawah ini

menunjukkan posisi masing-masing teknologi:

Gambar 2.1

Data Mining

dan teknologi basis data lainnya[3]

(27)

Perbedaan penambangan data dengan gudang data adalah pada bagian

pengolahannya. Pada penambangan data terjadi

On-line Transaction Processing

(OLTP), sedangkan pada gudang data terjadi

On-line Analytical Processing

(OLAP). Gambar 2.1 di atas terlihat bahwa teknologi data

warehouse

digunakan

untuk melakukan OLAP, sedangkan penambangan data digunakan untuk

melakukan

information discovery

yang informasinya lebih ditujukan untuk

seorang

Data Analyst

dan

Business Analyst

dengan ditambah visualisasi tentunya.

Dalam prakteknya, penambangan data juga mengambil data dari

data warehouse

,

hanya saja aplikasi dari penambangan data lebih spesifik dibandingkan OLAP

mengingat

database

bukan satu-satunya bidang ilmu yang mempengaruhi

penambangan data. Banyak lagi bidang ilmu yang turut memperkaya

penambangan data seperti:

information science

(ilmu informasi),

high

performance computing

,

visualisasi

,

machine learning

, statistik,

neural networks

(jaringan syaraf tiruan), pemodelan matematika,

information retrieval

(pemerolehan informasi) dan

information extraction

serta pengenalan pola.

Pengolahan citra (

image processing

) juga digunakan dalam rangka melakukan

penambangan data terhadap data

image

atau

spatial

.

2.2.

Proses Penambangan Data

Proses penambangan data menurut Jiawei Han dan Kamber [1]

terdiri dari beberapa tahap, yaitu:

1.

Pembersihan Data

( Data Cleaning )

Pada tahap ini dilakukan proses membuang data yang tidak

konsisten dan

noise

. Contohnya: data yang kadaluarsa, salah

pengetikan maupun data yang kosong.

2.

Penggabungan Data

( Data Integration )

Penggabungan data dari beberapa sumber agar seluruh data

(28)

3.

Seleksi Data

( Data Selection )

Menyeleksi data dimana data yang relevan diambil dari

database.

4.

Transformasi Data

( Data Transformation )

Mentranformasikan atau merubah data kedalam bentuk yang

sesuai untuk ditambang.

5.

Penambangan Data

( Data Mining )

Penerapan teknik penambangan data untuk mengekstrak pola.

6.

Evaluasi Pola

( Pattern Evaluation )

Pola yang didapat dari proses penambangan data akan

dievaluasi dengan hipotesa yang telah dibentuk sebelumnya.

Akhir dari tahap ini adalah diperolehnya persentase akurasi

data.

7.

Presentasi Pengetahuan

( Knowledge Presentation )

Pada tahap ini pola yang didapat direpresentasikan kepada

pengguna akhir kedalam bentuk yang dapat dipahami, misalnya

(29)

Dapat diilustrasikan tahapan penambangan data

melalui gambar 2.2 berikut ini:

Gambar 2.2 Proses

Data Mining

[1]

2.3.

Teknik Klasifikasi

Didalam penambangan data terdapat beberapa teknik untuk mendapatkan

informasi dari data. Teknik Asosiasi, Teknik Klastering dan Teknik Klasifikasi

dapat digunakan untuk melakukan penambangan data. Teknik Klasifikasi

merupakan salah satu teknik dalam penambangan data dengan melihat pada

kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat

memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang

telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah

(30)

Proses teknik klasifikasi terdiri dari dua tahap utama, yaitu [4]:

1.

Membangun model

Tujuan dari tahap ini adalah menggambarkan satu set dari kelas-kelas

yang ditentukan sebelumnya. Sampel diasumsikan merupakan

kepunyaan suatu kelas yang sudah diketahui berdasarkan pada

nilai-nilai atributnya. Kelas ditentukan oleh atribut label kelas. Sampel

yang

digunakan untuk membangun model disebut himpunan data pelatihan

.

Model direpresentasikan sebagai pola klasifikasi, atau

formula

matematis

.

2.

Penggunaan Model

Tahap ini bertujuan untuk mengklasifikasikan objek yang baru akan

didapatkan atau belum dikenal. Penilaian keakuratan dari model dapat

dilakukan dengan menggunakan suatu himpunana tes. Label yang

sudah diketahui dari contoh himpunan tes akan dibandingkan dengan

hasil klasifikasi dari model. Tingkat keakuratan sendiri berupa

persentase dari contoh himpunan tes yang diklasifikasikan secara benar

(31)

Kaitan klasifikasi dengan prediksi akan dijelaskan dengan ilustrasi dari gambar

berikut:

Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi [5]

2.4.

Pengertian Pohon Keputusan

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat

dan terkenal. Metode pohon keputusan mengubah fakta menjadi pohon keputusan

yang merepresentasikan aturan.

Sebuah pohon keputusan adalah

“sebuah struktur yang dapat digunakan

untuk membagi kumpulan data yang besar menjadi himpunan record yang lebih

kecil dengan menerapkan serangkaian aturan keputusan, dengan masing-masing

rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang

lain”

[6].

Banyak algoritma yang dapat dipakai dalam pembentukan pohon

Data Pelatihan Algoritma Klasifikasi

Membangun model

Data Uji Klasifikasi

(Aturan)

Penggunaan model

menghasilkan

Data Baru

Aturan

Prediksi

Hasil klasifikasi (hasil prediksi)

(32)

keputusan, antara lain: ID3, CART, J48 (C4.5).

Pada pohon keputusan, setiap titik (

node

) di bagian dalam merupakan

sebuah atribut, setiap cabang (

branch

) menggambarkan keluaran dari

logical

tes

dan

leaf node

atau titik daun memnggambarkan kelas-kelas atau suatu kelas

distribusi. Titik yang terletak di paling atas merupakan akar (

root node

). Gambar

2.4 di bawah ini akan menjelaskan bentuk dari pohon keputusan.

2.5.

Manfaat Pohon Keputusan

Manfaat utama dari penggunaan pohon keputusan adalah “

kemampuannya

untuk memecah proses pengambilan keputusan yang kompleks menjadi lebih

simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari

permasalahan

[7]. Pohon Keputusan juga berguna untuk mengeksplorasi data,

menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan

sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan

pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan

bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.

Daun

(

leaf node

)

Akar

(

root node

)

Daun

(

leaf node

)

cabang

(

branches

)

Kemungkinan kejadian

Kemungkinan kejadian

(33)

2.6.

Kelebihan Pohon Keputusan

Kelebihan dari metode pohon keputusan adalah [7]:

1.

Daerah pengambilan keputusan yang sebelumnya

kompleks dan sangat global, dapat diubah menjadi lebih

simpel dan spesifik.

2.

Eliminasi

perhitungan-perhitungan

yang

tidak

diperlukan, karena ketika menggunakan metode pohon

keputusan maka contoh diuji hanya berdasarkan kriteria

atau kelas tertentu.

3.

Fleksibel untuk memilih fitur dari internal

node

yang

berbeda, fitur yang terpilih akan membedakan suatu

kriteria dibandingkan kriteria yang lain dalam

node

yang sama. Kefleksibelan metode pohon keputusan ini

meningkatkan kualitas keputusan yang dihasilkan jika

dibandingkan

ketika

menggunakan

metode

penghitungan satu tahap yang lebih konvensional

4.

Dalam analisis multivariat, dengan kriteria dan kelas

yang jumlahnya sangat banyak, seorang penguji

biasanya perlu untuk mengestimasikan baik itu

distribusi dimensi tinggi ataupun parameter tertentu dari

distribusi kelas tersebut. Metode pohon keputusan dapat

menghindari munculnya permasalahan ini dengan

menggunakan kriteria yang jumlahnya lebih sedikit

pada setiap

node

internal

tanpa banyak mengurangi

(34)

2.7.

Kekurangan Pohon Keputusan

Kekurangan dari metode pohon keputusan adalah [7]:

1.

Terjadi

overlap,

terutama ketika kelas-kelas dan kriteria

yang digunakan jumlahnya sangat banyak. Hal tersebut

juga

dapat

menyebabkan

meningkatnya

waktu

pengambilan keputusan dan jumlah memori yang

diperlukan.

2.

Pengakumulasian jumlah kesalahan dari setiap tingkat

dalam sebuah pohon keputusan yang besar.

3.

Kesulitan dalam mendesain pohon keputusan yang

optimal.

4.

Hasil kualitas keputusan yang didapatkan dari metode

pohon keputusan sangat tergantung pada bagaimana

pohon tersebut didesain.

2.8.

Algoritma J48

P

ada penelitian Tugas Akhir ini akan menggunakan algoritma J48. “

J48 (also

known as C4.5) is an algorithm introduced by Ross Quinlan (1993) for inducing

Classification Models, also called Decision Trees

” dikemukakan oleh

Witten[8],

maka prinsip kerja algoritma J48 sama dengan C4.5 dalam proses belajar yaitu

membaca seluruh sampel atau kasus dari tempat penyimpanan dan memuatnya ke

memori, kemudian melakukan komputasi dengan membaca sampel-sampel di

memori untuk membangun pohon yang juga disimpan di memori.

Dalam algoritma J48 atau yang biasa dikenal dengan algoritma C4.5, pohon

dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari

data yang berasal dari kelas yang sama.

Bentuk pembagian(

split)

yang digunakan untuk membagi data itu tergantung dari

jenis atribut yang digunakan. Algoritma J48 dapat menangani data numerik

(35)

berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan

(threshold

) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi

yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut

dengan kelas mayoritas yang sama.

Split

untuk atribut diskret

A

mempunyai

bentuk

value (A)

ε

X

dimana

X

domain(A)

.

Jika suatu himpunan data mempunyai beberapa pengamatan dengan

record

dengan beberapa nilai variabel tidak ada (

missing value

) dan jika jumlah

pengamatan terbatas maka atribut dengan

missing value

dapat diganti dengan nilai

rata-rata dari variabel yang bersangkutan.

Untuk melakukan pemisahan obyek (

split)

dilakukan uji terhadap atribut

dengan mengukur tingkat ketidakmurnian pada sebuah simpul (

node)

. Pada

algoritma J48 menggunakan rasio perolehan (

gain ratio

). Sebelum menghitung

rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan

bits

dari

suatu kumpulan objek. Cara menghitungnya dilakukan dengan menggunakan

konsep entropi. Entropi adalah pengukuran ketidakpastian rata-rata pengumpulan

data. Untuk menghitung Entropi menggunakan rumus (2.1).

)

log2

(

)

log2

(

)

(

S

p

p

p

p

Entropi

 

……. (2.1)

Keterangan:

S

= ruang (data) sampel yang digunakan untuk pelatihan.

p+

= jumlah kejadian yang bersolusi positif atau mendukung pada data

sampel untuk kriteria tertentu.

p-

=

adalah jumlah kejadian yang bersolusi negatif atau tidak mendukung

(36)

Catatan:

1. Entropi(

S

) = 0, jika semua contoh pada S berada dalam kelas yang sama.

2. Entropi(S) = 1, jika jumlah contoh positif dan negatif dalam S adalah

sama.

3. 0 > Entropi(S) < 1, jika jumlah contoh positif dan negatif dalam S tidak

sama

Kemudian menghitung perolehan informasi dari output data atau variabel

dependent

S

yang dikelompokkan berdasarkan atribut A, dinotasikan dengan

gain

(

S

,A). Perolehan informasi

, gain

(

S

,A), dari atribut A relative terhadap output data

S

adalah:

perkara atau lebih dikenal dengan kejadian).

A

: semua nilai yang mungkin dari atribut A

n

: Jumlah pemisah atau partisi pada “ A “ atau atribut

|Si|

: Jumlah kasus pada atribut ke-i

|S|

: Jumlah kasus dalam “ S ” atau himpunan kasus.

Term pertama dalam persamaan (2.2) adalah entropi

total

S

dan term kedua adalah

entropi sesudah dilakukan pemisahan data berdasarkan atribut A.

Untuk menghitung rasio perolehan perlu diketahui suatu term baru yang disebut

pemisahan informasi

(SplitInfo

). Pemisahan informasi dihitung dengan persamaan

(37)

bahwa

Si

sampai

Sc

adalah

c

subset yang dihasilkan dari pemecahan

S

dengan

menggunakan atribut A yang mempunyai sebanyak

c

nilai.

Selanjutnya rasio perolehan (

gain ratio

) dapat dihitung dengan persamaan (2.4) di

bawah ini :

1. Pilih atribut sebagai akar menggunakan persamaan (2.2)

2. Buat Cabang untuk masing-masing nilai menggunakan persamaan (2.3)

3. Bagi kasus dalam cabang menggunakan persamaan (2.4)

4. Ulangi proses untuk masing-masing cabang sampai semua kejadian

pada cabang memiliki kelas yang sama.

Contoh kasus pembuatan pohon keputusan dengan menerapkan

gain

dan entropi:

(38)

Perempuan Swasta C B B

Laki-Laki Swasta D D C

Perempuan Negeri B B B

Perempuan Swasta B B B

Perempuan Swasta C D B

Perempuan Swasta C B B

Perempuan Swasta B D C

Laki-Laki Swasta B B C

Laki-Laki Swasta C D C

Laki-Laki Swasta C B B

Laki-Laki Swasta C D C

Perempuan Swasta C B D

Laki-Laki Swasta C B B

Laki-Laki Swasta C B B

Pada Tabel 2.1 akan dibuat pohon keputusan untuk menentukan besar IPK

semester 1 dalam kategori A, B, C dan D dengan melihat dari atribut

Jenis

Kelamin, Keterangan Sekolah, Nilai Matematika Kelas 3 semester 1

dan

Fisika

Kelas 3 semester 1

.

Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah

dalam pembentukan pohon keputusan dengan menggunakan algoritma J48(C4.5)

untuk menyelesaikan permasalahan pada Tabel 2.1. Menghitung jumlah kasus,

jumlah kasus untuk keputusan A, B, C, D dan Entropi dari semua kasus dan kasus

yang dibagi berdasarkan atribut

Jenis Kelamin, Keterangan Sekolah, Nilai

Matematika Kelas 3 semester 1

dan

Fisika Kelas 3 semester 1

.

Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil

perhitungan ditunjukkan oleh Tabel 2.2.

(39)

Tabel 2. 2 Tabel Perhitungan Node 1

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT GAIN RATIO 1 TOTAL 26 0 16 9 1 1.14161952

Jenis Kelamin 0.06247 0.99572 0.06273925 Laki-Laki 14 0 8 6 0 0.98522813

Perempuan 12 0 8 3 1 1.18872187

Keterangan Sekolah 0.03861 0.89049 0.04336403 Negeri 8 0 6 2 0 0.81127812

Swasta 18 0 10 7 1 1.23266025 Matematika XII

Semester 1 0.09955 1.1688 0.08518020

A 0 0 0 0 0 0

B 10 0 6 4 0 0.97095059 C 15 0 10 4 1 1.15893853

D 1 0 0 1 0 0

Fisika XII Semester 1 0.22872 0.77935 0.29347786

A 0 0 0 0 0 0

Entropi (Total) = 1.141619525

 

 

Entropi (Jenis kelamin, laki-laki) = 0.985228136

 

 

 

(40)

Nilai

Gain

pada baris

Jenis Kelamin

dihitung dengan menggunakan persamaan

Perhitungan tersebut dilakukan untuk semua atribut. Dari hasil tabel 2.2 dapat

diketahui bahwa atribut dengan

Gain

tertinggi adalah

Fisika XII semester 1

yaitu

sebesar 0.293477869.

Fisika XII semester 1

dapat menjadi

node

akar. Ada 2 nilai

atribut

Fisika XII semester 1

, yaitu

B dan D

. Dari hasil tersebut dapat

digambarkan pohon keputusan sementaranya, tampak pada gambar 2.5 dibawah

ini:

(41)

Selanjutnya menghitung jumlah kasus untuk keputusan

B

, dan Entropi dari

semua kasus yang dibagi berdasarkan atribut

Jenis Kelamin, Keterangan Sekolah

dan

Nilai Matematika Kelas 3 semester 1

. Setelah itu, lakukan perhitungan

Gain

untuk tiap atribut. Hasil perhitungan seperti pada tabel 2.3.

Tabel 2. 3 Tabel Perhitungan Node 1.1

Tabel 2.3 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah Nilai

Matematika Kelas 3 semester 1

, yaitu sebesar 0.103050479. Dengan demikian

Matematika Kelas 3 semester 1

dapat menjadi

node

cabang dari nilai atribut

Fisika XII semester 1-B

. Pohon keputusan selanjutnya sampai pada tahap ini

seperti pada gambar 2.6 berikut ini:

1 Fis3smt1

1.2 ? 1.1

Mtk3smt1

1.1.2 ? 1.1.1

?

B D

B C

Gambar 2.6 Pohon Keputusan Untuk Node 1.1

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT GAIN RATIO 1.1

Fisika XII

Semester 1-B 20 0 15 4 1 0.991760148

Jenis Kelamin 0.052406 1 0.052406276 Laki-Laki 10 0 8 2 0 0.721928095

Perempuan 10 0 7 2 1 1.156779649

Keterangan

Sekolah 0.042738 0.970951 0.044016296 Negeri 8 0 6 2 0 0.811278124

Swasta 12 0 9 2 1 1.040852083

Matematika

XII Semester 1 0.102306 0.992774 0.103050479

A 0 0 0 0 0 0

B 9 0 6 3 0 0.918295834 C 11 0 9 1 1 0.865856617

(42)

Selanjutnya menghitung jumlah kasus

Matematika Kelas 3 semester 1

untuk

keputusan

B

, dan Entropi dari semua kasus yang dibagi berdasarkan atribut

Jenis

Kelamin

dan

Keterangan Sekolah.

Setelah itu, lakukan perhitungan

Gain

untuk

tiap atribut. Hasil perhitungan seperti pada tabel 2.4.

Tabel 2. 4 Tabel Perhitungan Node 1.1.1

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT

GAIN RATIO 1.1.1

Fis3smt1-B,

Mtk3smt1-B 9 0 6 3 0 0.918296

Jenis Kelamin 0 0.91829 0 Laki-Laki 6 0 4 2 0 0.918296

Perempuan 3 0 2 1 0 0.918296

Keterangan

Sekolah 0.0727 0.99107 0.0734355 Negeri 5 0 4 1 0 0.721928

Swasta 4 0 2 2 0 1

Tabel 2.4 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah

Keterangan sekolah

, yaitu sebesar 0.07343556. Dengan demikian

Keterangan

sekolah

dapat menjadi

node

cabang dari nilai atribut

Fis3smt1-B, Mtk3smt1-B

.

Ada dua buah nilai atribut yang dimiliki oleh

Keterangan sekolah

, yaitu

Negeri,

dan

Swasta.

Dari kedua nilai atribut tersebut, nilai atribut

Swasta

sudah

mengklasifikasikan kasus 1, yaitu keputusan

B

dan nilai atribut

Negeri

masih

perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini. Dengan demikian

(43)

1 Fis3smt1

1.2 ? 1.1

Mtk3smt1

1.1.2 ? 1.1.1

KetSekolah

B D

B C

Negeri Swasta

B 1.1.1.1

?

Gambar 2.7

Pohon Keputusan Untuk Node 1.1.1

Selanjutnya menghitung jumlah kasus

Fis3smt1-B, Mtk3smt1-B

,

keterangan

sekolah-Negeri

, dan Entropi dari semua kasus yang dibagi berdasarkan atribut

Jenis Kelamin.

Setelah itu, lakukan perhitungan

Gain

untuk tiap atribut. Hasil

perhitungan seperti pada tabel 2.5.

Tabel 2. 5 Tabel Perhitungan Node 1.1.1.1

Tabel 2.5 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah

Jenis

Kelamin

, yaitu sebesar 0.331559707. Dengan demikian

Jenis Kelamin

dapat

menjadi

node

cabang dari nilai atribut

Fis3smt1-B, Mtk3smt1-B, ket-Negri

.

Atribut

Jenis Kelamin

memiliki nilai perempuan yang

sudah mengklasifikasikan

kasus 1, yaitu keputusan

C

dan nilai laki-laki sudah mengklasifikasikan kasus 0,

yaitu keputusan

B

. Dengan demikian Pohon keputusan pada gambar 2.8.

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT

GAIN RATIO 1.1.1.1

Fis3smt1-B, Mtk3smt1-B,

ket-Negri 5 0 4 1 0 0.721928

Jenis Kelamin 0.32192 0.97095 0.3315597 Laki-Laki 3 0 3 0 0 0

(44)

1 Fis3smt1

1.2 ? 1.1

Mtk3smt1

1.1.2 ? 1.1.1

KetSekolah

B D

B C

Negeri Swasta

B 1.1.1.1

Jenis Kelamin

C perempuan Laki-laki

B

Gambar 2. 8 Pohon Keputusan Untuk Node 1.1.1.1

Selanjutnya menghitung jumlah kasus untuk keputusan

Fisika XII semester

1-D

, dan Entropi dari semua kasus yang dibagi berdasarkan atribut

Jenis Kelamin,

Keterangan Sekolah

dan

Matematika XII semester 1.

Setelah itu, lakukan

(45)

Tabel 2. 6

Tabel Perhitungan Node 1.2

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT

GAIN RATIO 1.2

Fisika XII

Semester 1-D 6 0 1 5 0 0.6500224 Jenis Kelamin 0.3166 0.91829 0.344866 Laki-Laki 4 0 0 4 0 0 Perempuan 2 0 1 1 0 1

Keterangan

Sekolah 0 0 0

Negeri 0 0 0 0 0 0 Swasta 6 0 1 5 0 0.6500224

Matematik a XII

Semester 1 0.1091 0.8208 0.133004

A 0 0 0 0 0 0

B 1 0 0 1 0 0

C 4 0 1 3 0 0.8112781

D 1 0 0 1 0 0

Tabel 2.6 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah

Jenis

Kelamin

, yaitu sebesar 0.344866084.

Dengan demikian

Jenis Kelamin

dapat menjadi

node

cabang dari nilai

atribut

Fis3smt1-D.

Atribut

Jenis Kelamin

memiliki nilai perempuan yang

sudah

mengklasifikasikan kasus 1, yaitu keputusan

B

. Dengan demikian Pohon

(46)

1 Fis3smt1

1.2 Jenis Kelamin 1.1

Mtk3smt1

1.1.2 ? 1.1.1

KetSekolah

B D

B C

Negeri Swasta

B 1.1.1.1

Jenis Kelamin

C perempuan

B

Perempuan

B Laki-laki

Gambar 2. 9 Pohon Keputusan Untuk Node 1.2

Selanjutnya menghitung jumlah kasus untuk keputusan

Fis3smt1-B,

Mtk3smt1-C

, dan Entropi dari semua kasus yang dibagi berdasarkan atribut

Jenis

Kelamin,

dan

Keterangan Sekolah.

Setelah itu, lakukan perhitungan

Gain

untuk

tiap atribut. Hasil perhitungan seperti pada tabel 2.7.

Tabel 2. 7 Tabel Perhitungan Node 1.1.2

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT

GAIN RATIO 1.1.2

Fis3smt1-B,

Mtk3smt1-C 11 0 9 1 1 0.865856 Jenis Kelamin 0.38999 0.94566 0.412403 Laki-Laki 4 0 4 0 0 0 Perempuan 7 0 5 1 1 0.747784

Keterangan

(47)

Tabel 2.7 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah

Jenis

Kelamin

, yaitu sebesar 0.41240388.

Dengan demikian

Jenis Kelamin

dapat menjadi

node

cabang dari nilai

atribut

Fis3smt1-B, Mtk3smt1-C.

Atribut

Jenis Kelamin

memiliki nilai laki-laki

yang

sudah mengklasifikasikan kasus 0, yaitu keputusan

B

. Namun untuk nilai

perempuan harus dilakukan perhitungan kembali. Dengan demikian Pohon

keputusan pada gambar 2.10.

1 Fis3smt1

1.2 Jenis Kelamin 1.1

Mtk3smt1

1.1.2 Jenis Kelamin 1.1.1

KetSekolah

B D

B C

Negeri Swasta

B 1.1.1.1

Jenis Kelamin

B

Perempuan

B

1.1.2.2 ? Laki-laki Perempuan

C perempuan

B Laki-laki

Gambar 2. 10 Pohon Keputusan Untuk Node 1.1.2

Selanjutnya menghitung jumlah kasus untuk keputusan

Fis3smt1-B,

Mtk3smt1-C, jenis kelamin-perempuan

, dan Entropi dari semua kasus yang dibagi

berdasarkan atribut

Keterangan Sekolah.

Setelah itu, lakukan perhitungan

Gain

(48)

Tabel 2. 8 Tabel Perhitungan Node 1.1.2.2

Node

JUMLAH

KASUS A B C D ENTROPY GAIN SPLIT

GAIN RATIO

1.1.2.2

Fis3smt1-B, Mtk3smt1-C,

perempuan 7 0 5 1 1 1.14883485

Keterangan

Sekolah 0.57740 0.98522 0.5860635 Negeri 4 0 2 2 0 1

Swasta 3 0 3 0 0 0

Tabel 2.8 dapat diketahui bahwa atribut dengan

Gain

tertinggi adalah

Keterangan Sekolah

, yaitu sebesar 0.58606353.

Dengan demikian

Keterangan Sekolah

dapat menjadi

node

cabang dari

nilai atribut

Fis3smt1-B, Mtk3smt1-C, jenis kelamin-perempuan.

Atribut

Keterangan Sekolah

memiliki nilai negeri yang

sudah mengklasifikasikan kasus 1,

yaitu keputusan

C

dan nilai swasta sudah mengklasifikasikan kasus 0 yaitu

keputusan B. Dengan demikian Pohon keputusan pada gambar 2.11 merupakan

(49)

1 Fis3smt1

1.2 Jenis Kelamin 1.1

Mtk3smt1

1.1.2 Jenis Kelamin 1.1.1

KetSekolah

B D

B C

Negeri Swasta

B 1.1.1.1

Jenis Kelamin

B

Perempuan

B 1.1.2.2

Keterangan Sekolah Laki-laki Perempuan

Negeri Swasta

B C

C perempuan

B Laki-laki

Gambar

Gambar 2.1 Data Mining dan teknologi basis data lainnya[3]
Gambar 2.2 Proses Data Mining[1]
Gambar 2. 3 Proses Klasifikasi dan kaitannya dengan prediksi [5]
Tabel 2.  2 Tabel Perhitungan Node 1
+7

Referensi

Dokumen terkait

Poltekkes Kemenkes Yogyakarta pada tahun akademik 2016/2017 menyelenggarakan Seleksi Penerimaan Mahasiswa Baru (Sipenmaru) salah satunya melalui Jalur Mandiri yang

Politeknik Kesehatan Kementrian Kesehatan Surakarta membuka pendaftaran Seleksi Penerimaan Mahasiswa Baru Jalur Alih Jenjang (Program Studi Terapi Wicara Program Sarjana

Memasuki tahun akademik 2018/2019 Politeknik Kesehatan Kemenkes Semarang membuka pendaftaran Seleksi Penerimaan Mahasiswa Baru (Sipenmaru) untuk Program D III, Program

Berdasarkan hasil keputusan tim seleksi mahasiswa baru Politeknik STTT Bandung, bersama ini kami umumkan calon mahasiswa baru Program Sarjana Terapan (Diploma

Memasuki tahun akademik 2015/2016 Politeknik Kesehatan Kemenkes Semarang membuka pendaftaran Seleksi Penerimaan Mahasiswa Baru (Sipenmaru) secara on-line melalui

Memasuki tahun akademik 2021/2022 Politeknik Kesehatan Kemenkes Semarang membuka pendaftaran Seleksi Penerimaan Mahasiswa Baru (Sipenmaru) untuk Program.. Alih Jenjang secara

HASIL SELEKSI PENERIMAAN MAHASISWA BARU KELAS REGULER SEMESTER GANJIL TAHUN AKADEMIK 2016/2017 NO Stambook NAMA MAHASISWA BARU DITERIMA pada Program Studi.. 1

Seleksi penerimaan mahasiswa baru bersama (SIMAMA) merupakan jalur seleksi melalui ujian tulis yang dilaksanakan serentak secara nasional. Sedangkan sipenmaru jalur mandiri