PENGUMPULAN DAN PENGOLAHAN DATA
2. Data KelulusanMahasiswa
5.1.3. Transformasi Data
Transformasi data merupakan proses pengubahan atau penggabungan data ke dalam format yang sesuai untuk diproses dalam data mining. Seringkali data yang akan digunakan dalam proses data mining mempunyai format yang belum langsung bisa digunakan, oleh karena itu perlu dirubah formatnya. Dalam hal ini data yang ada diubah menjadi bentuk tabel yang sudah dikelompokkan berdasarkan target yang akan diprediksi yaitu ketepatan waktu kelulusan seorang
V-3
mahasiswa jurusan Teknik Industri Universitas Sumatera Utara. Hasil akhir transformasi data yang selanjutnya disebut data training .
5.2. Pengolahan Data
5.2.1. Penerapan Algoritma Naive Bayes
Naïve Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning dan data mining. Performa naïve bayes yang kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keidependenan atribut (tidak ada kaitan antar atribut). Asumsi keidependenan atribut ini pada data sebenarnya jarang terjadi, namun walaupun asumsi keidependenan atribut tersebut dilanggar performa pengklasifikasian naïve bayes cukup tinggi, hal ini dibuktikan pada berbagai penelitian empiris.
Setiap baris mempunyai label kelas ci Є {c1,c2,…,ck} sebagai nilai variabel kelas C, sehingga untuk melakukan klasifikasi dapat dihitung nilai probabilitas p(C=ci|X=xj) , dikarenakan pada Naïve Bayes diasumsikan setiap atribut saling bebas, maka persamaan yang didapat adalah sebagai berikut :
- Peluang p(C=ci|X=xj) menunjukkan peluang bersyarat atribut Xi dengan nilai xi diberikan kelas c, dimana dalam Naïve Bayes, kelas C bertipe kualitatif sedangkan atribut Xi dapat bertipe kualitatif ataupun kuantitatif.
- Ketika atribut Xi bertipe kuantitatif maka peluang p(X=xi|C=cj) akan sangat kecil sehingga membuat persamaan peluang tersebut tidak dapat diandalkan untuk permasalahan atribut bertipe kuantitatif. Maka untuk menangani atribut
V-3
kuantitatif, ada beberapa pendekatan yang dapat digunakan seperti distribusi normal (Gaussian) :
Ataupun kernel density estimation (KDE) :
Pengolahan data menggunakan algoritma naive bayes membutuhkan data training untuk selanjutnya dilakukan perhitungan peluang masing-masing atribut. Data training untuk diterapkan pengolahan data dapat dilihat pada tabel 5.1 berikut ini.
V-5
Tabel 5.1. Data Training
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI
1 130403001 Esa Delviana Pasaribu P LUAR MEDAN SMAN SNMPTN 3.30137 TERLAMBAT
2 130403002 Ulfa Audina P MEDAN SMAN SNMPTN 3.47000 TERLAMBAT
3 130403004 Ummu Habibah P LUAR MEDAN MAN SNMPTN 3.32877 TERLAMBAT
4 130403005 Wildani Kurniasari P LUAR MEDAN MAN SNMPTN 3.40753 TERLAMBAT
5 130403006 Siti Khairunnisa Br.
Bangun P LUAR MEDAN SMAN SNMPTN 3.60274 TERLAMBAT
6 130403007 Agni Fitaloka Saragih P LUAR MEDAN SMAN SNMPTN 3.46000 TEPAT
7 130403008 Wawan Andrian L MEDAN SMAN SNMPTN 3.23630 TEPAT
8 130403010 Aji Prasetio Suanza L MEDAN SMAN SNMPTN 3.35274 TEPAT
9 130403011 Akbar Al Ayubi Arif. S L LUAR MEDAN SMAN SNMPTN 3.24000 TEPAT
10 130403013 Intan Hartanti Rahman P MEDAN SMAN SNMPTN 3.53425 TERLAMBAT
11 130403014 Muhammad
Burhanuddin Rabbani L LUAR MEDAN MAN SNMPTN 3.29110 TERLAMBAT
12 130403015 Abdi Santoso L LUAR MEDAN MAN SNMPTN 3.17466 TERLAMBAT
13 130403016 Chyntia Putri
Panggabean P LUAR MEDAN SMTA Lain-lain SNMPTN 3.51370 TEPAT
14 130403017 Putri Handayani Pane P LUAR MEDAN SMAN SNMPTN 3.45890 TERLAMBAT
15 130403022 Wiwik Rahmad Padli L LUAR MEDAN SMAN SNMPTN 3.10000 TERLAMBAT
16 130403024 Akbar Rizky Rifangi L MEDAN SMAN SNMPTN 3.23288 TERLAMBAT
Sumber : Pengolahan Data
V-6
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 17 130403025 Nadia Hartati Br Sianipar P LUAR MEDAN SMAN SNMPTN 3.38699 TERLAMBAT 18 130403026 Muhammad Ananda
Rizki Putra L MEDAN SMAN SNMPTN 3.30822 TERLAMBAT
19 130403028 Rachma Putri Reno Tanti P LUAR MEDAN MAN SNMPTN 3.15753 TERLAMBAT
20 130403029 M. Dwiky Cahyo
Wicaksono L MEDAN SMAN SNMPTN 3.11986 TERLAMBAT
21 130403032 Sarah Aulia P LUAR MEDAN SMAN SNMPTN 3.34589 TERLAMBAT
22 130403033 Fahmi Fahreza L MEDAN SMAN SNMPTN 3.21000 TERLAMBAT
23 130403034 Gita Ade Elvira P LUAR MEDAN SMAN SNMPTN 3.44521 TERLAMBAT
24 130403035 Ayu Diah Lestari P LUAR MEDAN SMAN SNMPTN 3.50000 TERLAMBAT
25 130403037 Robby Apriandi Sugara L LUAR MEDAN SMAN SNMPTN 3.43836 TEPAT
26 130403038 Trinawati P LUAR MEDAN SMAN SNMPTN 3.46918 TERLAMBAT
27 130403039 Ridho Afif L LUAR MEDAN SMAN SNMPTN 3.21233 TERLAMBAT
28 130403040 Muhammad Bayu
Noviza L MEDAN SMAN SNMPTN 3.14384 TERLAMBAT
29 130403041 Munandar Basuki
Rahmat L LUAR MEDAN SMAN SNMPTN 3.20890 TERLAMBAT
30 130403043 Fachri Rizky Sitompul L MEDAN SMAN SNMPTN 3.21575 TERLAMBAT
31 130403044 Novi Gita Eka Saputri P LUAR MEDAN SMTA Lain-lain SNMPTN 3.32192 TERLAMBAT
32 130403048 Indra Tugeri Siregar L LUAR MEDAN SMAN SNMPTN 3.26000 TERLAMBAT
Sumber : Pengolahan Data
V-7
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI
33 130403049 Lius Suhandi L LUAR MEDAN SMAN SNMPTN 3.39041 TERLAMBAT
34 130403050 Ahmad Husaini Nst L MEDAN MAN SNMPTN 3.35274 TERLAMBAT
35 130403051 Ahmad Hasibuan L LUAR MEDAN MAN SNMPTN 3.06164 TERLAMBAT
36 130403052 Nelsy Anvika Lubis P MEDAN SMAS SNMPTN 3.21284 TERLAMBAT
37 130403053 Retno Handini P LUAR MEDAN SMAN SNMPTN 3.58562 TERLAMBAT
38 130403054 Muhammad Raja Doly
Hutabarat L MEDAN SMAN SNMPTN 3.30479 TERLAMBAT
39 130403055 Fauzi Dwi Cahyo L MEDAN SMAN SNMPTN 3.18151 TERLAMBAT
40 130403056 Haritz Ghozi Ziadie L LUAR MEDAN SMAN SNMPTN 3.25342 TERLAMBAT
41 130403058 Iyel Syahputra Ginting L MEDAN SMTA Lain-lain SNMPTN 3.46575 TEPAT
42 130403061 Leni Khairani P LUAR MEDAN SMAN SNMPTN 3.43493 TERLAMBAT
43 130403062 Suryadi Putra Siregar L LUAR MEDAN SMAN SNMPTN 3.39041 TERLAMBAT
44 130403063 Hilman Ismail L LUAR MEDAN SMAN SNMPTN 3.11000 TERLAMBAT
45 130403064 Ayu Handayani Sadzah P LUAR MEDAN SMAN SNMPTN 3.43493 TERLAMBAT
46 130403065 Rahmadsyah L MEDAN SMAS SNMPTN 3.06000 TERLAMBAT
47 130403066 Fitri Lumbantoruan P LUAR MEDAN SMAN SNMPTN 3.40753 TEPAT
48 130403069 Fricilya A.R.
Simatupang P LUAR MEDAN SMAN SPMB 3.36644 TERLAMBAT
Sumber : Pengolahan Data
V-8
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 49 130403070 Jonias Andrean Sibarani L LUAR MEDAN SMTA Lain-lain SPMB 3.30137 TERLAMBAT
50 130403071 Caroline P MEDAN SMAS SPMB 3.39384 TERLAMBAT
51 130403072 Muhammad Gabriel L MEDAN SMTA Lain-lain SPMB 3.39726 TEPAT
52 130403073 Mhd. Alwi Hudaya
Purba L LUAR MEDAN SMAN SPMB 3.16096 TERLAMBAT
53 130403074 Liwanto L MEDAN SMAS SPMB 3.63356 TEPAT
54 130403075 Ega Abraham
Pangaribuan L LUAR MEDAN SMAN SPMB 3.28000 TERLAMBAT
55 130403082 Prayogo Suryawan L LUAR MEDAN SMTA Lain-lain SPMB 3.71233 TEPAT
56 130403086 Asty Ayuningtias P MEDAN SMAS SPMB 3.42123 TERLAMBAT
57 130403087 Nancy V Angela Bangun P MEDAN SMAN SPMB 3.42123 TEPAT
58 130403089 Sania Angelita P LUAR MEDAN SMAN SPMB 3.43493 TEPAT
59 130403090 Srilitna Br
Perangin-Angin P MEDAN SMAN SPMB 3.58904 TERLAMBAT
60 130403091 Nurwany P LUAR MEDAN SMAS SPMB 3.76027 TEPAT
61 130403092 Inggrid Shafira Lukman
Siregar P MEDAN SMTA Lain-lain SPMB 3.18493 TERLAMBAT
62 130403094 Arman Sitorus L LUAR MEDAN SMTA Lain-lain SPMB 3.36644 TERLAMBAT
63 130403095 Tri Ardi Kurniawan L LUAR MEDAN SMAN SPMB 3.37671 TERLAMBAT
64 130403097 Dwi Khairani P LUAR MEDAN SMAN SPMPRM 3.13000 TERLAMBAT
Sumber : Pengolahan Data
V-9
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI
65 130403098 Jean Ayuningthias P LUAR MEDAN SMAS SPMPRM 3.40068 TEPAT
66 130403099 Jessica Tanuwijaya P MEDAN SMAS SPMPRM 3.32192 TEPAT
67 130403100 Haura Amany Abdi P LUAR MEDAN SMAN SPMPRM 3.55479 TEPAT
68 130403101 Hermansah L LUAR MEDAN SMAS SPMPRM 3.20205 TEPAT
69 130403103 Cyintia Yolanda
Pardede P LUAR MEDAN SMAS SPMPRM 3.32192 TERLAMBAT
70 130403106 Venna Alzira Jubenza P LUAR MEDAN SMAN SPMPRM 3.40753 TEPAT
71 130403107 Arnita Rahmi P LUAR MEDAN SMAN SPMPRM 3.43151 TERLAMBAT
72 130403108 M. Ivan L LUAR MEDAN SMAN SPMPRM 3.25685 TERLAMBAT
73 130403110 Vanessa Aulia Putri P LUAR MEDAN SMAN SPMPRM 3.27055 TERLAMBAT
74 130403111 Hendry L MEDAN SMTA Lain-lain SPMPRM 2.99658 TERLAMBAT
75 130403112 Siti Soraya Faiza
Nasution P MEDAN SMAN SPMPRM 3.28425 TERLAMBAT
76 130403115 Suci Gloria Monatasha
Silalahi P LUAR MEDAN SMAN SPMPRM 3.46575 TERLAMBAT
77 130403117 Meutia Fadilla P LUAR MEDAN SMTA Lain-lain SPMPRM 3.34247 TEPAT
78 130403121 Nico Rinaldo Surbakti L LUAR MEDAN SMAS SPMPRM 3.23973 TERLAMBAT
79 130403126 Agastya Rachman Arief L MEDAN SMAN SPMPRM 3.23973 TERLAMBAT
80 130403131 Hendriko Julianto
Marpaung L MEDAN SMAS SPMPRM 3.23973 TERLAMBAT
Sumber : Pengolahan Data
V-10
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI
81 140403066 Kevin Fan L LUAR MEDAN SMTA Lain-lain SPMB 3.60616 TEPAT
82 140403113 Kevin Adhinata L LUAR MEDAN SMTA Lain-lain SPMPRM 3.84932 TEPAT
83 140403089 Wandika A. Syahputra
Nasution L LUAR MEDAN SMAN SPMB 3.26712 TEPAT
84 140403088 Ivony P MEDAN SMAS SPMB 3.48973 TEPAT
85 140403081 Christine Dessy Natalia
S P LUAR MEDAN SMAN SPMB 3.41781 TEPAT
86 140403114 Muhammad Achya
Habibi Dalimunthe L MEDAN SMAS SPMPRM 3.28000 TERLAMBAT
87 140403036 Yola Lista Valentina P LUAR MEDAN SMAN SNMPTN 3.20000 TERLAMBAT
88 140403128 Mhd. Giffari Alza Fenur L LUAR MEDAN SMAN SPMPRM 3.33000 TERLAMBAT
89 140403053 Prayogo Chandra L LUAR MEDAN SMAS SNMPTN 3.10000 TERLAMBAT
90 140403015 Rizky Khairiansyah
Nasution L LUAR MEDAN SMAN SNMPTN 3.07000 TERLAMBAT
91 140403118 Miftahul Jannah P MEDAN SMTA Lain-lain SPMPRM 3.42000 TERLAMBAT
92 140403126 Allessia Titusa P LUAR MEDAN SMAN SPMPRM 3.21233 TERLAMBAT
93 140403049 Heru Andi Sinaga L LUAR MEDAN SMAN SNMPTN 3.04795 TERLAMBAT
94 140403052 Christ Samuel Bachtiar L LUAR MEDAN SMAS SNMPTN 3.26000 TERLAMBAT
95 140403124 Dimas Ramadhan L MEDAN SMAS SPMPRM 3.30000 TERLAMBAT
96 140403112 Kevi Alfianda Riza L MEDAN SMAN SPMPRM 3.24000 TERLAMBAT
Sumber : Pengolahan Data
V-11
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 97 140403078 Trybawa Ramadhana
Hutagalung L MEDAN SMAS SPMB 3.43000 TERLAMBAT
98 140403106 Steven Christian L MEDAN SMAS SPMB 3.52000 TERLAMBAT
99 140403127 Jericho Medion
Haryono L LUAR MEDAN SMAS SPMPRM 3.12000 TERLAMBAT
100 140403063 Grace Asri Rotua
Tampubolon P MEDAN SMAN SNMPTN 3.23630 TERLAMBAT
101 140403006 Enny Makkiyah P MEDAN SMAN SNMPTN 3.27055 TERLAMBAT
102 140403080 Kartini Putri P LUAR MEDAN SMTA Lain-lain SPMB 3.59589 TERLAMBAT
103 140403117 Aulia Badrul Fat`h L MEDAN SMAN SPMPRM 3.19000 TERLAMBAT
104 140403123 Gemilang Safira Erdia P LUAR MEDAN SMAN SPMPRM 3.18000 TERLAMBAT
105 140403047 Danang Nurhadi L LUAR MEDAN SMAN SPMPRM 3.08000 TERLAMBAT
106 150403073 Jeffrey Panama L LUAR MEDAN SMAS SPMB 3.86644 TEPAT
112 150403075 Siti Nadira Regina Br
Ginting P LUAR MEDAN SMAN SNMPTN 3.48973 TEPAT
Sumber : Pengolahan Data
V-12
Tabel 5.1. Data Training (Lanjutan)
NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI
113 150403020 Nurul Hidayati P LUAR MEDAN SMAN SNMPTN 3.62000 TEPAT
114 150403087 Wan Habibi Rahman
Barus L MEDAN SMAN SPMB 3.19863 TEPAT
115 150403019 Putri Mukhlidani Lubis P LUAR MEDAN SMAN SNMPTN 3.41096 TERLAMBAT
116 150403030 Shifa Ramadhani P MEDAN SMAN SNMPTN 3.51370 TERLAMBAT
117 150403058 Said Ismail L MEDAN SMAS SPMB 3.41438 TEPAT
118 150403042 Tommy Wijaya L LUAR MEDAN SMAN SNMPTN 3.58000 TEPAT
119 150403046 Elvira P MEDAN SMAS SNMPTN 3.59932 TERLAMBAT
120 150403072 Winston L MEDAN SMTA Lain-lain SPMB 3.57000 TEPAT
121 150403066 William Sentosa L LUAR MEDAN SMAS SPMB 3.62000 TEPAT
122 150403044 Yuli Santa Elisa
Bagariang P LUAR MEDAN SMAS SNMPTN 3.37000
TERLAMBAT
123 150403017 Yasintha Wahida Tiana L LUAR MEDAN SMAN SNMPTN 3.48000 TERLAMBAT
124 150403076 Marco Ilario L MEDAN SMAS SPMB 3.44000 TEPAT
125 150403002 Amrun Hamidi Nst L LUAR MEDAN MAN SNMPTN 3.49000 TERLAMBAT
Sumber : Pengolahan Data
V-13
Kemudian dari tabel diatas dapat dihitung dengan menggunakan formula Naïve Bayes Clasification, adapun cara kerjanya sebagai berikut :
- Untuk masalah klasifikasi, yang dihitung adalah P(H|X), yaitu peluang bahwa hipotesa benar (valid) untuk data sample X yang diamati
P(X|H) = P(X|H)|P(H)) P(X)
Dimana :
X adalah data sampel dengan kelas (label) yang tidak diketahui H merupakan hipotesa bahwa X adalah data dengan klas (label) C.
P(H) adalah peluang dari hipotesa H
P(X) adalah peluang data sampel yang diamati
P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid).
Contoh perhitungannya adalah sebagai berikut:
P(X|H) = P(X|H|P(H)) P(X)
P(LS) = P(LS|P( TEPAT)) P(LS)
P(LS) = 38 125
= 0.304
Rekapan hasil perhitungan peluang tiap atribut dapat dilihat pada tabel berikut.
V-14
Tabel 5.3. Rekapan Hasil Perhitungan Peluang Tiap Atribut Kategorial
P(LS) TEPAT TERLAMBAT
Sumber : Pengolahan Data
Perhitungan atribut numerikal seperti IPK mahasiswa menggunakan rumus Densitas Gauss yakni:
Keterangan : f : Peluang Xi : Atribut ke i xi : Nilai atribut ke i
u : Mean, menyatakan rata rata dari seluruh atribut
o : Deviasi standar, menyatakan varian dari seluruh atribut
V-15
Dalam mencari nilai mean μ dan standar deviasi δ digunakan rumus di bawah ini:
μ = ∑
δ = [
∑
]
Contoh perhitungan mean dan standar deviasi IPK untuk data kelulusan tepat adalah sebagai berikut :
μ = ∑
μ = ∑
μ =
3.48178δ = [
∑
]
δ = [
∑
]
δ =
0.17391Rekapan hasil perhitungan mean μ dan standar deviasi δ dapat dilihat pada tabel berikut ini.
V-16
Tabel 5.4. Rekapan Normalisasi Data Kelulusan Tepat
Sumber : Pengolahan Data
Begitu hal nya dengan perhitungan mean dan standar deviasi IPK untuk data kelulusan terlambat juga menggunakan rumus yang sama. Tabel rekapan normalisasi data kelulusan terlambat dapat dilihat pada tabel 4.5 di bawah ini.
NO IPK IPK-IPK RATA-RATA (IPK-IPK RATA-RATA)^2
1 3.20205 -0.27973 0.07825
Total 118.38053 Total 0.99803
Μ 3.481780294 δ 0.17391
V-17
Tabel 5.5. Rekapan Normalisasi Data Kelulusan Terlambat
Sumber : Pengolahan Data