• Tidak ada hasil yang ditemukan

PENGUMPULAN DAN PENGOLAHAN DATA

2. Data KelulusanMahasiswa

5.1.3. Transformasi Data

Transformasi data merupakan proses pengubahan atau penggabungan data ke dalam format yang sesuai untuk diproses dalam data mining. Seringkali data yang akan digunakan dalam proses data mining mempunyai format yang belum langsung bisa digunakan, oleh karena itu perlu dirubah formatnya. Dalam hal ini data yang ada diubah menjadi bentuk tabel yang sudah dikelompokkan berdasarkan target yang akan diprediksi yaitu ketepatan waktu kelulusan seorang

V-3

mahasiswa jurusan Teknik Industri Universitas Sumatera Utara. Hasil akhir transformasi data yang selanjutnya disebut data training .

5.2. Pengolahan Data

5.2.1. Penerapan Algoritma Naive Bayes

Naïve Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning dan data mining. Performa naïve bayes yang kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keidependenan atribut (tidak ada kaitan antar atribut). Asumsi keidependenan atribut ini pada data sebenarnya jarang terjadi, namun walaupun asumsi keidependenan atribut tersebut dilanggar performa pengklasifikasian naïve bayes cukup tinggi, hal ini dibuktikan pada berbagai penelitian empiris.

Setiap baris mempunyai label kelas ci Є {c1,c2,…,ck} sebagai nilai variabel kelas C, sehingga untuk melakukan klasifikasi dapat dihitung nilai probabilitas p(C=ci|X=xj) , dikarenakan pada Naïve Bayes diasumsikan setiap atribut saling bebas, maka persamaan yang didapat adalah sebagai berikut :

- Peluang p(C=ci|X=xj) menunjukkan peluang bersyarat atribut Xi dengan nilai xi diberikan kelas c, dimana dalam Naïve Bayes, kelas C bertipe kualitatif sedangkan atribut Xi dapat bertipe kualitatif ataupun kuantitatif.

- Ketika atribut Xi bertipe kuantitatif maka peluang p(X=xi|C=cj) akan sangat kecil sehingga membuat persamaan peluang tersebut tidak dapat diandalkan untuk permasalahan atribut bertipe kuantitatif. Maka untuk menangani atribut

V-3

kuantitatif, ada beberapa pendekatan yang dapat digunakan seperti distribusi normal (Gaussian) :

Ataupun kernel density estimation (KDE) :

Pengolahan data menggunakan algoritma naive bayes membutuhkan data training untuk selanjutnya dilakukan perhitungan peluang masing-masing atribut. Data training untuk diterapkan pengolahan data dapat dilihat pada tabel 5.1 berikut ini.

V-5

Tabel 5.1. Data Training

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI

1 130403001 Esa Delviana Pasaribu P LUAR MEDAN SMAN SNMPTN 3.30137 TERLAMBAT

2 130403002 Ulfa Audina P MEDAN SMAN SNMPTN 3.47000 TERLAMBAT

3 130403004 Ummu Habibah P LUAR MEDAN MAN SNMPTN 3.32877 TERLAMBAT

4 130403005 Wildani Kurniasari P LUAR MEDAN MAN SNMPTN 3.40753 TERLAMBAT

5 130403006 Siti Khairunnisa Br.

Bangun P LUAR MEDAN SMAN SNMPTN 3.60274 TERLAMBAT

6 130403007 Agni Fitaloka Saragih P LUAR MEDAN SMAN SNMPTN 3.46000 TEPAT

7 130403008 Wawan Andrian L MEDAN SMAN SNMPTN 3.23630 TEPAT

8 130403010 Aji Prasetio Suanza L MEDAN SMAN SNMPTN 3.35274 TEPAT

9 130403011 Akbar Al Ayubi Arif. S L LUAR MEDAN SMAN SNMPTN 3.24000 TEPAT

10 130403013 Intan Hartanti Rahman P MEDAN SMAN SNMPTN 3.53425 TERLAMBAT

11 130403014 Muhammad

Burhanuddin Rabbani L LUAR MEDAN MAN SNMPTN 3.29110 TERLAMBAT

12 130403015 Abdi Santoso L LUAR MEDAN MAN SNMPTN 3.17466 TERLAMBAT

13 130403016 Chyntia Putri

Panggabean P LUAR MEDAN SMTA Lain-lain SNMPTN 3.51370 TEPAT

14 130403017 Putri Handayani Pane P LUAR MEDAN SMAN SNMPTN 3.45890 TERLAMBAT

15 130403022 Wiwik Rahmad Padli L LUAR MEDAN SMAN SNMPTN 3.10000 TERLAMBAT

16 130403024 Akbar Rizky Rifangi L MEDAN SMAN SNMPTN 3.23288 TERLAMBAT

Sumber : Pengolahan Data

V-6

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 17 130403025 Nadia Hartati Br Sianipar P LUAR MEDAN SMAN SNMPTN 3.38699 TERLAMBAT 18 130403026 Muhammad Ananda

Rizki Putra L MEDAN SMAN SNMPTN 3.30822 TERLAMBAT

19 130403028 Rachma Putri Reno Tanti P LUAR MEDAN MAN SNMPTN 3.15753 TERLAMBAT

20 130403029 M. Dwiky Cahyo

Wicaksono L MEDAN SMAN SNMPTN 3.11986 TERLAMBAT

21 130403032 Sarah Aulia P LUAR MEDAN SMAN SNMPTN 3.34589 TERLAMBAT

22 130403033 Fahmi Fahreza L MEDAN SMAN SNMPTN 3.21000 TERLAMBAT

23 130403034 Gita Ade Elvira P LUAR MEDAN SMAN SNMPTN 3.44521 TERLAMBAT

24 130403035 Ayu Diah Lestari P LUAR MEDAN SMAN SNMPTN 3.50000 TERLAMBAT

25 130403037 Robby Apriandi Sugara L LUAR MEDAN SMAN SNMPTN 3.43836 TEPAT

26 130403038 Trinawati P LUAR MEDAN SMAN SNMPTN 3.46918 TERLAMBAT

27 130403039 Ridho Afif L LUAR MEDAN SMAN SNMPTN 3.21233 TERLAMBAT

28 130403040 Muhammad Bayu

Noviza L MEDAN SMAN SNMPTN 3.14384 TERLAMBAT

29 130403041 Munandar Basuki

Rahmat L LUAR MEDAN SMAN SNMPTN 3.20890 TERLAMBAT

30 130403043 Fachri Rizky Sitompul L MEDAN SMAN SNMPTN 3.21575 TERLAMBAT

31 130403044 Novi Gita Eka Saputri P LUAR MEDAN SMTA Lain-lain SNMPTN 3.32192 TERLAMBAT

32 130403048 Indra Tugeri Siregar L LUAR MEDAN SMAN SNMPTN 3.26000 TERLAMBAT

Sumber : Pengolahan Data

V-7

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI

33 130403049 Lius Suhandi L LUAR MEDAN SMAN SNMPTN 3.39041 TERLAMBAT

34 130403050 Ahmad Husaini Nst L MEDAN MAN SNMPTN 3.35274 TERLAMBAT

35 130403051 Ahmad Hasibuan L LUAR MEDAN MAN SNMPTN 3.06164 TERLAMBAT

36 130403052 Nelsy Anvika Lubis P MEDAN SMAS SNMPTN 3.21284 TERLAMBAT

37 130403053 Retno Handini P LUAR MEDAN SMAN SNMPTN 3.58562 TERLAMBAT

38 130403054 Muhammad Raja Doly

Hutabarat L MEDAN SMAN SNMPTN 3.30479 TERLAMBAT

39 130403055 Fauzi Dwi Cahyo L MEDAN SMAN SNMPTN 3.18151 TERLAMBAT

40 130403056 Haritz Ghozi Ziadie L LUAR MEDAN SMAN SNMPTN 3.25342 TERLAMBAT

41 130403058 Iyel Syahputra Ginting L MEDAN SMTA Lain-lain SNMPTN 3.46575 TEPAT

42 130403061 Leni Khairani P LUAR MEDAN SMAN SNMPTN 3.43493 TERLAMBAT

43 130403062 Suryadi Putra Siregar L LUAR MEDAN SMAN SNMPTN 3.39041 TERLAMBAT

44 130403063 Hilman Ismail L LUAR MEDAN SMAN SNMPTN 3.11000 TERLAMBAT

45 130403064 Ayu Handayani Sadzah P LUAR MEDAN SMAN SNMPTN 3.43493 TERLAMBAT

46 130403065 Rahmadsyah L MEDAN SMAS SNMPTN 3.06000 TERLAMBAT

47 130403066 Fitri Lumbantoruan P LUAR MEDAN SMAN SNMPTN 3.40753 TEPAT

48 130403069 Fricilya A.R.

Simatupang P LUAR MEDAN SMAN SPMB 3.36644 TERLAMBAT

Sumber : Pengolahan Data

V-8

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 49 130403070 Jonias Andrean Sibarani L LUAR MEDAN SMTA Lain-lain SPMB 3.30137 TERLAMBAT

50 130403071 Caroline P MEDAN SMAS SPMB 3.39384 TERLAMBAT

51 130403072 Muhammad Gabriel L MEDAN SMTA Lain-lain SPMB 3.39726 TEPAT

52 130403073 Mhd. Alwi Hudaya

Purba L LUAR MEDAN SMAN SPMB 3.16096 TERLAMBAT

53 130403074 Liwanto L MEDAN SMAS SPMB 3.63356 TEPAT

54 130403075 Ega Abraham

Pangaribuan L LUAR MEDAN SMAN SPMB 3.28000 TERLAMBAT

55 130403082 Prayogo Suryawan L LUAR MEDAN SMTA Lain-lain SPMB 3.71233 TEPAT

56 130403086 Asty Ayuningtias P MEDAN SMAS SPMB 3.42123 TERLAMBAT

57 130403087 Nancy V Angela Bangun P MEDAN SMAN SPMB 3.42123 TEPAT

58 130403089 Sania Angelita P LUAR MEDAN SMAN SPMB 3.43493 TEPAT

59 130403090 Srilitna Br

Perangin-Angin P MEDAN SMAN SPMB 3.58904 TERLAMBAT

60 130403091 Nurwany P LUAR MEDAN SMAS SPMB 3.76027 TEPAT

61 130403092 Inggrid Shafira Lukman

Siregar P MEDAN SMTA Lain-lain SPMB 3.18493 TERLAMBAT

62 130403094 Arman Sitorus L LUAR MEDAN SMTA Lain-lain SPMB 3.36644 TERLAMBAT

63 130403095 Tri Ardi Kurniawan L LUAR MEDAN SMAN SPMB 3.37671 TERLAMBAT

64 130403097 Dwi Khairani P LUAR MEDAN SMAN SPMPRM 3.13000 TERLAMBAT

Sumber : Pengolahan Data

V-9

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI

65 130403098 Jean Ayuningthias P LUAR MEDAN SMAS SPMPRM 3.40068 TEPAT

66 130403099 Jessica Tanuwijaya P MEDAN SMAS SPMPRM 3.32192 TEPAT

67 130403100 Haura Amany Abdi P LUAR MEDAN SMAN SPMPRM 3.55479 TEPAT

68 130403101 Hermansah L LUAR MEDAN SMAS SPMPRM 3.20205 TEPAT

69 130403103 Cyintia Yolanda

Pardede P LUAR MEDAN SMAS SPMPRM 3.32192 TERLAMBAT

70 130403106 Venna Alzira Jubenza P LUAR MEDAN SMAN SPMPRM 3.40753 TEPAT

71 130403107 Arnita Rahmi P LUAR MEDAN SMAN SPMPRM 3.43151 TERLAMBAT

72 130403108 M. Ivan L LUAR MEDAN SMAN SPMPRM 3.25685 TERLAMBAT

73 130403110 Vanessa Aulia Putri P LUAR MEDAN SMAN SPMPRM 3.27055 TERLAMBAT

74 130403111 Hendry L MEDAN SMTA Lain-lain SPMPRM 2.99658 TERLAMBAT

75 130403112 Siti Soraya Faiza

Nasution P MEDAN SMAN SPMPRM 3.28425 TERLAMBAT

76 130403115 Suci Gloria Monatasha

Silalahi P LUAR MEDAN SMAN SPMPRM 3.46575 TERLAMBAT

77 130403117 Meutia Fadilla P LUAR MEDAN SMTA Lain-lain SPMPRM 3.34247 TEPAT

78 130403121 Nico Rinaldo Surbakti L LUAR MEDAN SMAS SPMPRM 3.23973 TERLAMBAT

79 130403126 Agastya Rachman Arief L MEDAN SMAN SPMPRM 3.23973 TERLAMBAT

80 130403131 Hendriko Julianto

Marpaung L MEDAN SMAS SPMPRM 3.23973 TERLAMBAT

Sumber : Pengolahan Data

V-10

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI

81 140403066 Kevin Fan L LUAR MEDAN SMTA Lain-lain SPMB 3.60616 TEPAT

82 140403113 Kevin Adhinata L LUAR MEDAN SMTA Lain-lain SPMPRM 3.84932 TEPAT

83 140403089 Wandika A. Syahputra

Nasution L LUAR MEDAN SMAN SPMB 3.26712 TEPAT

84 140403088 Ivony P MEDAN SMAS SPMB 3.48973 TEPAT

85 140403081 Christine Dessy Natalia

S P LUAR MEDAN SMAN SPMB 3.41781 TEPAT

86 140403114 Muhammad Achya

Habibi Dalimunthe L MEDAN SMAS SPMPRM 3.28000 TERLAMBAT

87 140403036 Yola Lista Valentina P LUAR MEDAN SMAN SNMPTN 3.20000 TERLAMBAT

88 140403128 Mhd. Giffari Alza Fenur L LUAR MEDAN SMAN SPMPRM 3.33000 TERLAMBAT

89 140403053 Prayogo Chandra L LUAR MEDAN SMAS SNMPTN 3.10000 TERLAMBAT

90 140403015 Rizky Khairiansyah

Nasution L LUAR MEDAN SMAN SNMPTN 3.07000 TERLAMBAT

91 140403118 Miftahul Jannah P MEDAN SMTA Lain-lain SPMPRM 3.42000 TERLAMBAT

92 140403126 Allessia Titusa P LUAR MEDAN SMAN SPMPRM 3.21233 TERLAMBAT

93 140403049 Heru Andi Sinaga L LUAR MEDAN SMAN SNMPTN 3.04795 TERLAMBAT

94 140403052 Christ Samuel Bachtiar L LUAR MEDAN SMAS SNMPTN 3.26000 TERLAMBAT

95 140403124 Dimas Ramadhan L MEDAN SMAS SPMPRM 3.30000 TERLAMBAT

96 140403112 Kevi Alfianda Riza L MEDAN SMAN SPMPRM 3.24000 TERLAMBAT

Sumber : Pengolahan Data

V-11

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI 97 140403078 Trybawa Ramadhana

Hutagalung L MEDAN SMAS SPMB 3.43000 TERLAMBAT

98 140403106 Steven Christian L MEDAN SMAS SPMB 3.52000 TERLAMBAT

99 140403127 Jericho Medion

Haryono L LUAR MEDAN SMAS SPMPRM 3.12000 TERLAMBAT

100 140403063 Grace Asri Rotua

Tampubolon P MEDAN SMAN SNMPTN 3.23630 TERLAMBAT

101 140403006 Enny Makkiyah P MEDAN SMAN SNMPTN 3.27055 TERLAMBAT

102 140403080 Kartini Putri P LUAR MEDAN SMTA Lain-lain SPMB 3.59589 TERLAMBAT

103 140403117 Aulia Badrul Fat`h L MEDAN SMAN SPMPRM 3.19000 TERLAMBAT

104 140403123 Gemilang Safira Erdia P LUAR MEDAN SMAN SPMPRM 3.18000 TERLAMBAT

105 140403047 Danang Nurhadi L LUAR MEDAN SMAN SPMPRM 3.08000 TERLAMBAT

106 150403073 Jeffrey Panama L LUAR MEDAN SMAS SPMB 3.86644 TEPAT

112 150403075 Siti Nadira Regina Br

Ginting P LUAR MEDAN SMAN SNMPTN 3.48973 TEPAT

Sumber : Pengolahan Data

V-12

Tabel 5.1. Data Training (Lanjutan)

NO NIM NAMA JENIS_KELAMIN ASAL_DAERAH ASAL_SEKOLAH JALUR_MASUK IPK LAMA_STUDI

113 150403020 Nurul Hidayati P LUAR MEDAN SMAN SNMPTN 3.62000 TEPAT

114 150403087 Wan Habibi Rahman

Barus L MEDAN SMAN SPMB 3.19863 TEPAT

115 150403019 Putri Mukhlidani Lubis P LUAR MEDAN SMAN SNMPTN 3.41096 TERLAMBAT

116 150403030 Shifa Ramadhani P MEDAN SMAN SNMPTN 3.51370 TERLAMBAT

117 150403058 Said Ismail L MEDAN SMAS SPMB 3.41438 TEPAT

118 150403042 Tommy Wijaya L LUAR MEDAN SMAN SNMPTN 3.58000 TEPAT

119 150403046 Elvira P MEDAN SMAS SNMPTN 3.59932 TERLAMBAT

120 150403072 Winston L MEDAN SMTA Lain-lain SPMB 3.57000 TEPAT

121 150403066 William Sentosa L LUAR MEDAN SMAS SPMB 3.62000 TEPAT

122 150403044 Yuli Santa Elisa

Bagariang P LUAR MEDAN SMAS SNMPTN 3.37000

TERLAMBAT

123 150403017 Yasintha Wahida Tiana L LUAR MEDAN SMAN SNMPTN 3.48000 TERLAMBAT

124 150403076 Marco Ilario L MEDAN SMAS SPMB 3.44000 TEPAT

125 150403002 Amrun Hamidi Nst L LUAR MEDAN MAN SNMPTN 3.49000 TERLAMBAT

Sumber : Pengolahan Data

V-13

Kemudian dari tabel diatas dapat dihitung dengan menggunakan formula Naïve Bayes Clasification, adapun cara kerjanya sebagai berikut :

- Untuk masalah klasifikasi, yang dihitung adalah P(H|X), yaitu peluang bahwa hipotesa benar (valid) untuk data sample X yang diamati

P(X|H) = P(X|H)|P(H)) P(X)

Dimana :

X adalah data sampel dengan kelas (label) yang tidak diketahui H merupakan hipotesa bahwa X adalah data dengan klas (label) C.

P(H) adalah peluang dari hipotesa H

P(X) adalah peluang data sampel yang diamati

P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid).

Contoh perhitungannya adalah sebagai berikut:

P(X|H) = P(X|H|P(H)) P(X)

P(LS) = P(LS|P( TEPAT)) P(LS)

P(LS) = 38 125

= 0.304

Rekapan hasil perhitungan peluang tiap atribut dapat dilihat pada tabel berikut.

V-14

Tabel 5.3. Rekapan Hasil Perhitungan Peluang Tiap Atribut Kategorial

P(LS) TEPAT TERLAMBAT

Sumber : Pengolahan Data

Perhitungan atribut numerikal seperti IPK mahasiswa menggunakan rumus Densitas Gauss yakni:

Keterangan : f : Peluang Xi : Atribut ke i xi : Nilai atribut ke i

u : Mean, menyatakan rata rata dari seluruh atribut

o : Deviasi standar, menyatakan varian dari seluruh atribut

V-15

Dalam mencari nilai mean μ dan standar deviasi δ digunakan rumus di bawah ini:

μ = ∑

δ = [

]

Contoh perhitungan mean dan standar deviasi IPK untuk data kelulusan tepat adalah sebagai berikut :

μ = ∑

μ = ∑

μ =

3.48178

δ = [

]

δ = [

]

δ =

0.17391

Rekapan hasil perhitungan mean μ dan standar deviasi δ dapat dilihat pada tabel berikut ini.

V-16

Tabel 5.4. Rekapan Normalisasi Data Kelulusan Tepat

Sumber : Pengolahan Data

Begitu hal nya dengan perhitungan mean dan standar deviasi IPK untuk data kelulusan terlambat juga menggunakan rumus yang sama. Tabel rekapan normalisasi data kelulusan terlambat dapat dilihat pada tabel 4.5 di bawah ini.

NO IPK IPK-IPK RATA-RATA (IPK-IPK RATA-RATA)^2

1 3.20205 -0.27973 0.07825

Total 118.38053 Total 0.99803

Μ 3.481780294 δ 0.17391

V-17

Tabel 5.5. Rekapan Normalisasi Data Kelulusan Terlambat

Sumber : Pengolahan Data

Dokumen terkait