KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA SKRIPSI

(1)

i

KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK MEMPREDIKSI KETEPATAN

WAKTU LULUS MAHASISWA

(Studi Kasus: Mahasiswa Fakultas Sains Dan Teknologi Universitas Sanata Dharma)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

HALAMAN JUDU L

Disusun Oleh:

Erwinsyah Rico Agusta 175314101

PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

2021

(2)

ii

COMPARISON OF NAIVE BAYES AND RANDOM FOREST METHODS TO PREDICT THE ACCURACY OF

STUDENT GRADUATION TIME

(Case: Faculty of Science and Technology Sanata Dharma University Students)

THESIS

Present as Partial Fulfillment of the Requirement To Obtain the Sarjana Komputer Degree

In Informatics Study Program

HALAMAN JUDU L

By:

Erwinsyah Rico Agusta 175314101

INFORMATICS STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY YOGYAKARTA

2021

(3)

iii

HALAMAN PERSETUJUAN

SKRIPSI

KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA

Oleh:

ERWINSYAH RICO AGUSTA

NIM: 175314101

Telah Disetujui Oleh:

Dosen Pembimbing,

Dr. Ridowati Gunawan, S.Kom., M.T. Tanggal: ... ...2021

(4)

iv

HALAMAN PENGESAHAN

SKRIPSI

Dipersiapkan dan disusun oleh:

ERWINSYAH RICO AGUSTA

NIM: 175314101

Telah dipertahankan di depan Panitia Penguji Pada tanggal 26 Juli 2021

Dan dinyatakan telah memenuhi syarat

Susunan Panitia Penguji

Nama Lengkap Tanda Tangan

Ketua : Drs.Haris Sriwindono M.Kom, Ph.D. ...

Sekretaris : Paulina Heruningsih Prima Rosa, S.Si., M.Sc. ...

Anggota : Dr. Ridowati Gunawan, S.Kom., M.T. ...

Yogyakarta, ...

Fakultas Sains dan Teknologi Universitas Sanata Dharma

Dekan,

Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D.

(5)

v

HALAMAN PERSEMBAHAN

“You can’t build an adaptable organization without adaptable people and individuals change only when they have to, or when they want to.”

Gary Hamel

Tugas Akhir ini saya persembahkan kepada:

Orang tua

Alm. Kakek dan Alm. Nenek Kakak-kakak saya Teman-teman saya

(6)

vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak mengandung atau memuat hasil karya orang lain, kecuali yang sudah saya sebutkan dalam daftar pustaka dan kutipan selayaknya karya ilmiah.

Yogyakarta, 20 Agustus 2021

Penulis,

Erwinsyah Rico Agusta

(7)

vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma:

Nama : Erwinsyah Rico Agusta

NIM : 175314101

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:

Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelola di internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin kepada saya maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta

Pada tanggal 20 Agustus 2021 Yang menyatakan,

Erwinsyah Rico Agusta.

(8)

viii

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala rahmat dan karunia nya sehingga peneliti dapat menyelesaikan skripsi ini dengan judul “Komparasi Metode Naïve Bayes Dan Random Forest Untuk Memprediksi Ketepatan Waktu Lulus Mahasiswa”, sebagai salah satu syarat guna untuk menyelesaikan Program Sarjana (S1) prodi Informatika di Universitas Sanata Dharma.

Penulis menyadari bahwa skripsi ini tidak mungkin terselesaikan tanpa adanya dukungan, bantuan, bimbingan dan nasehat dari berbagai pihak selama penyusunan skripsi ini. Pada kesempatan ini penulis menyampaikan terima kasih setulus-tulusnya kepada:

1. Ibu Dr. Ridowati Gunawan, S.Kom., M.T. selaku dosen pembimbing skripsi atas segala bimbingan, arahan serta saran yang diberikan kepada penulis sehingga skripsi ini dapat diselesaikan dengan baik.

2. Bapak Robertus Adi Nugroho S.T., M. Eng selaku Ketua Program Studi S1 Informatika Universitas Sanata Dharma.

3. Bapak Drs.Haris Sriwindono M.Kom, Ph.D. selaku dosen pembimbing akademik.

4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.

5. Pihak sekretariat dan laboran yang turut membantu penulis menyelesaikan tugas akhir ini.

6. Nia Ayulita, terima kasih untuk selalu ada saat suka maupun duka, selalu memberikan semangat, doa dan motivasi kepada penulis.

7. Damar, Thomas dan Mahendra selaku teman satu dosen bimbingan yang menemani dan saling membantu dalam mengerjakan skripsi ini.

8. Kedua orang tua tercinta, bapak Sis Widyanto dan ibu Sri Mulyani yang telah memberikan motivasi dalam menyelesaikan skripsi ini.

(9)

ix

9. Kakak-kakak tersayang, Erlita Octaviani dan Ernanda Rully Novrisanti yang telah memberikan kasih sayang dan motivasi kepada penulis dalam menyelesaikan skripsi ini.

10. Teman-teman informatika Angkatan 2017 yang saling menyemangati dalam menyelesaikan skripsi.

11. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis dalam menyelesaikan skripsi ini.

Peneliti berharap, semoga skripsi ini dapat memberikan tambahan pengetahuan yang berguna kepada pembaca pada umumnya. Penulis menyadari skripsi ini masih memiliki kekurangan dan jauh dari kata sempurna, oleh karena itu penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan skripsi ini.

Yogyakarta, 26 Juli 2021 Penulis,

Erwinsyah Rico Agusta

(10)

x ABSTRAK

Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.

Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru, rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari ketepatan waktu lulus mahasiswa, sehingga dilakukan penelitian yang mampu memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat yang menyediakan informasi untuk membantu pihak universitas untuk upaya-upaya yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.

Pada penelitian ini, metode Naïve Bayes dan Random Forest digunakan untuk mengetahui tingkat akurasi yang lebih baik antara dua metode tersebut dalam memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi, Universitas Sanata Dharma. Klasifikasi yang dilakukan pada 1169 data tersebut menghasilkan akurasi tertinggi oleh Random Forest dengan akurasi sebesar 88,53%

menggunakan 10-fold Cross Validation dan 100 pohon, sedangkan Naïve Bayes mendapatkan akurasi sebesar 78,53% menggunakan 10-fold Cross Validation.

Kata Kunci: Naïve Bayes, Random Forest, Kelulusan Mahasiswa, Klasifikasi.

(11)

xi ABSTRACT

One aspect from college grade measurement is the student from the college itself. The measurement category from this aspect is new student recruitment system, the average length of study taken and the cumulative achievement index (Badan Akreditasi Nasional Perguruan Tinggi, 2011). From that statement, can be concluded that the quality of higher education on university is determined by the accuracy student graduation time, so a research is carried out to predict the accuracy student graduation time and can become one of the tools that provides information to assist the university in the efforts to improve the quality of the college.

In this research, Naïve Bayes and Random Forest methods were used to determine the better accuracy between the methods in order to predict the accuracy student graduation time from the Faculty of Science and Technology, Sanata Dharma University. The classification using 1169 data resulted in the highest accuracy by Random Forest with an accuracy of 88.53% using 10-fold Cross Validation and 100 trees, while Naïve Bayes obtained an accuracy of 78.53% using 10-fold Cross Validation.

Kata Kunci: Naïve Bayes, Random Forest, Student Graduation, Classification.

(12)

xii DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN JUDUL(ENGLISH) ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN PERSEMBAHAN ... v

PERNYATAAN KEASLIAN KARYA ... vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS... vii

KATA PENGANTAR ... viii

ABSTRAK ... x

ABSTRACT ... xi

DAFTAR ISI ... xii

DAFTAR TABEL ... xiv

DAFTAR GAMBAR ... xvi

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Perumusan Masalah ... 2

1.3 Tujuan Penelitian ... 2

1.4 Manfaat Penelitian ... 3

1.5 Batasan Masalah ... 3

1.6 Sistematika Penulisan ... 4

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI ... 6

2.1 Tinjauan Pustaka ... 6

2.2 Landasan Teori ... 7

2.2.1 Ketepatan Waktu Lulus Mahasiswa ... 8

2.2.2 Klasifikasi ... 8

2.2.3 Naïve Bayes ... 9

2.2.4 Random Forest ... 10

2.2.5 K-Fold Cross Validation ... 12

(13)

xiii

2.2.6 Confusion Matrix ... 12

BAB III METODOLOGI PENELITIAN ... 14

3.1 Gambaran Umum Penelitian ... 14

3.2 Pengambilan Data ... 15

3.3 Data Pre-processing ... 16

3.3.1 Data Cleaning... 17

3.3.2 Data Transformation ... 17

3.4 Metode dan Pemodelan ... 17

3.4.1 Pemodelan Naïve Bayes. ... 18

3.4.2 Pemodelan Random Forest ... 22

3.5 Rancangan Pengujian ... 30

3.6 Peralatan Penelitian ... 30

3.7 Rancangan Interface ... 31

BAB IV HASIL DAN ANALISA ... 32

4.1 Tahap Pre-processing ... 32

4.1.1 Data Cleaning... 32

4.1.2 Data Transformation ... 33

4.2 Pemeringkatan Atribut dengan Information Gain ... 34

4.3 Klasifikasi ... 35

4.4 Pengujian ... 37

4.4.1 Uji Variasi Atribut ... 37

4.5 Analisis Hasil ... 44

4.6 Interface Perangkat Lunak ... 46

BAB V PENUTUP ... 50

5.1 Kesimpulan ... 50

5.2 Saran ... 50

DAFTAR PUSTAKA ... 52

LAMPIRAN ... 55

(14)

xiv

DAFTAR TABEL

Tabel 2.1 Perbandingan Penelitian Relevan ... 7

Tabel 2.2 Confusion Matrix (Sasongko, 2016) ... 13

Tabel 3.1 Contoh Data Training... 18

Tabel 3.2 Contoh Data Testing ... 18

Tabel 3.3 Probabilitas Label (Kelas) ... 19

Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut ... 20

Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing ... 21

Tabel 3.6 Probabilitas Data Testing ... 21

Tabel 3.7 Hasil Klasifikasi Naive Bayes ... 22

Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes ... 22

Tabel 3.9 Bootstrap Dataset ... 23

Tabel 3.10 Entropy dari Data Bootstrap ... 24

Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain dari masing- masing Atribut ... 25

Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain terakhir. ... 26

Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest ... 28

Tabel 3.14 Hasil Klasifikasi Random Forest ... 29

Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest ... 29

Tabel 4.1 Contoh Data Sebelum Transformasi ... 33

Tabel 4.2 Contoh Data Sesudah Transformasi ... 34

Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain ... 34

Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8) ... 37

Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama TA) ... 37

Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA dan SKS 8) ... 38

Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA, SKS 8 dan IPS 7) ... 39

Tabel 4.8 Hasil Pengujian menggunakan 5 Atribut (IPS 8, Lama TA, SKS 8, IPS 7 dan IPS 2) ... 39

(15)

xv

Tabel 4.9 Hasil Pengujian menggunakan 6 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2 dan SKS 3) ... 40 Tabel 4.10 Hasil Pengujian menggunakan 7 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1) ... 41 Tabel 4.11 Hasil Pengujian menggunakan 8 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan SKS 6) ... 42 Tabel 4.12 Hasil Pengujian menggunakan 9 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5) ... 42 Tabel 4.13 Hasil Pengujian menggunakan 10 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6) ... 43 Tabel 4.14 Hasil Optimal dari Semua Variasi ... 44

(16)

xvi

DAFTAR GAMBAR

Gambar 2.1 3-Fold Cross Validation ... 12

Gambar 3.1 Diagram Alur Penelitian... 14

Gambar 3.2 Contoh Data Awal ... 15

Gambar 3.3 Data Sebelum dan Sesudah Transformasi ... 17

Gambar 3.4 Perhitungan Partisi Atribut IPS 6 ... 25

Gambar 3.5 Root Node Hasil Perhitungan ... 26

Gambar 3.6 Pohon ke-1... 27

Gambar 3.9 Rancangan Interface ... 31

Gambar 4.1 Source Code Data Cleaning ... 32

Gambar 4.2 Source Code Data Transformation ... 33

Gambar 4.3 Source Code Pemeringkatan Information Gain ... 35

Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation . 36 Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation ... 36

Gambar 4.6 Grafik Tingkat Akurasi ... 45

Gambar 4.7 Interface Program ... 46

Gambar 4.8 Interface Masukkan Data ... 47

Gambar 4.9 Interface Pemodelan ... 48

Gambar 4.10 Atribut yang dipilih ... 49

Gambar 4.11 Interface Uji Data Tunggal ... 49

(17)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Perguruan tinggi merupakan jenjang pendidikan yang dianggap paling tinggi sebelum akhirnya memasuki dunia kerja dan diselenggarakan untuk mempersiapkan peserta didik menjadi masyarakat yang memiliki kemampuan akademis dan profesional yang dapat menerapkan, mengembangkan, dan menciptakan ilmu pengetahuan, teknologi, dan kesenian (Menteri Riset Teknologi dan Pendidikan Tinggi, 2015). Artinya, perguruan tinggi memiliki pengaruh yang besar dalam meningkatkan kualitas pendidikan di Indonesia. Sehingga sangat dibutuhkan pengembangan kualitas perguruan tinggi.

Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.

Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru, rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari ketepatan waktu lulus mahasiswa. Sehingga dilakukan penelitian yang mampu memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat yang menyediakan informasi untuk membantu pihak universitas dalam upaya- upaya yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.

Data Mining dan Machine Learning ialah teknik untuk menemukan dan mengekstrak pengetahuan/informasi dari suatu dataset. Algoritma data mining dapat menganalisis data untuk menemukan pola yang tidak diketahui dalam database besar dari beberapa industri seperti pendidikan, asuransi, kesehatan, dan pemasaran umumnya menerapkannya untuk mengurangi biaya, meningkatkan kualitas penelitian, dan meningkatkan jumlah penjualan (Khozeimeh et al., 2017).

Dalam penelitian ini, dilakukan teknik data mining klasifikasi untuk memprediksi memprediksi ketepatan waktu lulus mahasiswa berdasarkan data dari mahasiswa tersebut.

(18)

2

Metode data mining yang populer dalam kasus klasifikasi/prediksi ialah metode Naïve Bayes dan Random Forest. Naïve Bayes adalah metode pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas. Naive Bayes didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree (Yuda Septian Nugroho, 2014). Metode Naïve Bayes juga memiliki kelebihan karena mudah dan dapat menangani data missing (Kang et al., 2012). Namun metode Naïve Bayes memiliki asumsi independensi atribut (Zhang et al., 2017). Sedangkan Random Forest adalah metode pengembangan turunan dari decision tree tunggal (Gata dkk., 2019). Penggunaan Random Forest dapat menghindari overfitting pada sebuah set data saat mencapai akurasi yang maksimum.

Pada penelitian ini, metode Naïve Bayes dan Random Forest akan diterapkan untuk memecahkan masalah tersebut. Metode Naïve Bayes dan Random Forest telah banyak digunakan untuk melakukan proses klasifikasi dari sejumlah data, tetapi belum diketahui metode mana yang lebih tinggi akurasinya dalam memprediksi ketepatan waktu lulus mahasiswa.

Dari latar belakang yang telah dijabarkan, juga berdasarkan pada kelebihan dan kekurangan masing-masing metode yang akan digunakan, dilakukan penelitian dengan mengkomparasikan metode Naïve Bayes dan Random Forest untuk memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi, Universitas Sanata Dharma.

1.2 Perumusan Masalah

Berdasarkan latar belakang permasalahan diatas, maka rumusan masalah yang didapatkan ialah bagaimana membandingkan tingkat akurasi antara metode Naïve Bayes dan Random Forest dalam memprediksi ketepatan waktu lulus mahasiswa.

1.3 Tujuan Penelitian

Tujuan penelitian berdasarkan rumusan masalah diatas yakni untuk mengetahui tingkat akurasi yang lebih baik antara metode Naïve Bayes dan Random

(19)

3

Forest dalam memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi, Universitas Sanata Dharma.

1.4 Manfaat Penelitian

Manfaat yang diperoleh dari Tugas Akhir ini adalah :

Bagi Penulis:

1. Penerapan dari ilmu perkuliahan data mining yang pernah ditempuh 2. Menambah pemahaman dalam penerapan metode naïve bayes dan random

forest untuk klasifikasi data

Bagi Akademik

Dengan adanya penelitian ini, dapat menjadi salah satu alat yang menyediakan informasi untuk membantu pihak universitas dalam upaya-upaya yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.

Bagi Pembaca

Manfaat yang akan diperoleh dari pembaca yaitu bisa digunakan sebagai salah satu bahan pengetahuan dalam melakukan penelitian dengan penggunaan metode klasifikasi naïve bayes dan random forest.

1.5 Batasan Masalah

Guna menghindari adanya penyimpangan dari judul dalam melakukan penelitian, maka penulis memberi batasan untuk mencapai tujuan penelitian:

1. Data yang digunakan adalah data akademik mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan 2011 hingga 2016

2. Yang dimaksud dari Lulus tepat waktu ialah lulus sesuai dengan kurikulum S1 Universitas Sanata Dharma yaitu 8 semester atau 4 tahun dengan jumlah sks 144 sks.

3. Data yang diambil hanya dari mahasiswa yang sudah lulus.

(20)

4

4. Pada penelitian ini, tidak dilakukan uji independensi atribut.

1.6 Sistematika Penulisan

Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu:

1. BAB I PENDAHULUAN

Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan, manfaat, batasan masalah, dan sistematika penulisan.

2. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar dalam penelitian klasifikasi dengan menggunakan algoritma naïve bayes dan random forest.

3. BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang digunakan dan tahap-tahap memprediksi ketepatan waktu lulus mahasiswa dengan menggunakan metode naïve bayes dan random forest.

4. BAB IV HASIL DAN ANALISA

Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh dari pengolahan data dan pengujian, yaitu melalui tahap pre-processing data, pemeringkatan atribut dengan metode information gain, klasifikasi naïve bayes dan random forest, pengujian variasi dan analisis hasil.

5. BAB IV KESIMPULAN DAN SARAN

(21)

5

Bab ini membahas tentang kesimpulan yang diperoleh dari hasil penelitian tugas akhir yang dilakukan dan saran yang berguna untuk penelitian yang akan datang.

(22)

6 BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Tinjauan Pustaka

Berbagai penelitian untuk memprediksi kelulusan maupun ketepatan waktu lulus mahasiswa telah dilakukan. Seperti pada penelitian yang dilakukan oleh Sinaga (Sinaga, 2020) yang memprediksi kelulusan mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma dengan menggunakan metode naïve bayes dan mendapatkan akurasi sebesar 80.54% dengan menggunakan 3 atribut yaitu SKS semester 4, lama tugas akhir dan indeks prestasi semester 2 yang dipilih menggunakan metode seleksi fitur information gain. Juga terdapat penelitian oleh Yahya (Yahya, 2018) yang membandingkan metode random forest dan support- vector machine untuk mengklasifikasikan ketepatan lama studi mahasiswa Universitas Islam Indonesia dan menghasilkan akurasi yang terbaik adalah metode random forest yaitu 80% akurasi dengan nilai optimum m=2 dan k=500, sedangkan SVM kernel RBF dengan optimum c=1 dan gamma=1 mendapatkan akurasi sebesar 77% dan SVM kernel signoid dengan optimum c=10 dan gamma=1 mendapatkan akurasi sebesar 68%.

Juga terdapat penelitian lain yang menggunakan metode yang sama, tetapi untuk kasus yang lain. Bawono & Wasono (Bawono & Wasono, 2019) melakukan penelitian perbandingan metode naïve bayes dan random forest untuk klasifikasi debitur berdasarkan kualitas kredit dan mendapatkan tingkat akurasi paling tinggi yaitu random forest dengan akurasi 98,16%, sedangkan naïve bayes hanya 95,93%.

Untuk tabel perbandingan penelitian diatas ditunjukkan pada Tabel 2.1 Perbandingan Penelitian Relevan, dari penelitian tersebut diusulkan penelitian yang membandingkan antara metode naïve bayes dengan random forest yang telah diketahui sama-sama memiliki akurasi yang bagus untuk memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma.

(23)

7

Tabel 2.1 Perbandingan Penelitian Relevan

No. Peneliti Algoritma Keterangan

1. Sinaga (2020)

Naïve Bayes Penelitian untuk memprediksi kelulusan mahasiswa dengan menggunakan Naïve Bayes menghasilkan akurasi sebesar 80.5402%

2. Yahya (2018)

Random Forest dan Support Vector Machine

Penelitian untuk

mengklasifikasikan ketepatan lama studi mahasiswa pada Universitas Islam Indonesia menghasilkan akurasi terbaik yaitu metode Random Forest dengan nilai optimum m=2 dan k

=500 mendapatkan akurasi sebesar 80%.

3. Bawono dan Wasono (2019)

Random Forest dan Naïve Bayes

Penelitian klasifikasi debitur pada kualitas kredit menghasilkan Random Forest menjadi metode terbaik dengan akurasi mencapai 98,16%, sedangkan Naïve Bayes hanya 95,93%.

2.2 Landasan Teori

Dalam tahap ini bdijelaskan secara singkat teori-teori yang digunakan pada penelitian yaitu mengenai ketepatan waktu lulus mahasiswa, klasifikasi, naïve bayes, random forest, k-fold cross validation dan confusion matrix berdasarkan kajian Pustaka dan sumber-sumber lain.

(24)

8

2.2.1 Ketepatan Waktu Lulus Mahasiswa

Lulus tepat waktu merupakan salah satu tujuan yang ingin dicapai mahasiswa dalam menyelesaikan studinya di perguruan tinggi. Mahasiswa dinyatakan lulus tepat waktu apabila menyelesaikan studinya di perguruan tinggi selama kurang dari atau sama dengan 8 semester atau bisa dibilang 4 tahun, dengan jumlah sks 144 sks (Universitas Sanata Dharma, 2017).

Ketepatan waktu lulus mahasiswa merupakan salah satu aspek yang sangat mempengaruhi kualitas suatu perguruan tinggi. Menurut Buku II “Standar dan Prosedur Akreditasi Institusi Perguruan Tinggi” dari Badan Akreditasi Nasional Perguruan Tinggi, menyebutkan bahwa mahasiswa dan lulusan merupakan salah satu aspek penilaian dari akreditasi (Badan Akreditasi Nasional Perguruan Tinggi, 2011).

Namun dalam prakteknya mahasiswa tidak selalu dapat menyelesaikan pendidikan sarjana/strata satu dalam kurun waktu empat tahun. Contohnya pada data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan 2011 hingga angkatan 2016 yang diambil dari BAPSI Universitas Sanata Dharma, diketahui mahasiswa yang lulus tepat waktu tidak lebih banyak dari mahasiswa yang tidak tepat waktu.

Terdapat juga beberapa faktor penyebab ketidaktepatan waktu lulus mahasiswa yaitu jumlah mata kuliah yang diulang, mempunyai kerja sambilan saat kuliah, tidak memahami Metode Penelitian Ilmiah, tidak mempunyai gambaran judul skripsi dari awal (Meilani dkk., 2019).

2.2.2 Klasifikasi

Merupakan suatu teknik dalam menemukan suatu pola atau fungsi dari suatu data yang dapat membedakan konsep atau kelas data. Teknik tersebut bertujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui (Syukri Mustafa et al., 2017).

Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu direpresentasikan dalam bentuk rule klasifikasi. Proses kedua

(25)

9

adalah klasifikasi, dimana data tes digunakan untuk memperkirakan akurasi dari rule klasifikasi (Han & Kamber, 2006).

2.2.3 Naïve Bayes

Naïve Bayes merupakan metode pengklasifikasian menggunakan metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian (Hidayat, 2016). Naïve Bayes ini terbukti memiliki tingkat akurasi dan kecepatan yang tepat saat dalam menggunakan aplikasi ke dalam database dengan data yang besar (Muslehatin et al., 2017). Naive Bayes juga memiliki asumsi independensi atribut yang berarti Naïve Bayes akan memandang semua atribut sebagai atribut independen (Zhang et al., 2017). Namun, Naïve Bayes dapat tetap berjalan walaupun syarat independensi atribut dilanggar (Brownlee, 2014).

Rumus naïve bayes dapat dimaksimalkan dengan menggunakan teorema bayes menjadi seperti pada persamaan (2.1) dan juga untuk data kontinu dapat digunakan rumus gaussian naïve bayes seperti pada persamaan (2.2) (Han et al., 2012).

𝑃(𝑐|𝑥) = 𝑃(𝑥|𝑐). 𝑃(𝑐) 𝑃(𝑥)

(2.1)

Keterangan : c : Kelas x : Prediktor

P(c|x) : Probabilitas kelas (label) dari kondisi prediktor (atribut) P(x|c) : Probabilitas c dari kondisi c

P(c) : Probabilitas kelas

P(x) : Probabilitas dari prediktor

(26)

10 𝑃(𝑋𝑖 = 𝑋|𝑌 = 𝑌𝑗) = 1

√2𝜋𝜎𝑒

−(𝑥𝑖−µ)2

2(𝜎2 (2.2)

Keterangan:

P : Probabilitas Xi : Atribut ke-i zi : Nilai atribut ke-i Y : Kelas yang akan dicari µ : Rata-rata dari seluruh atribut σ : Standar Deviasi

Secara sederhana, tahapan Naïve Bayes dapat dilakukan sebagai berikut (Bawono & Wasono, 2019):

1. Menghitung probabilitas dari kelas/label P(c).

2. Menentukan probablitas kategori dari atribut P(x).

3. Menghitung probabilitas dari semua atribut berdasarkan label/kelas (Menghitung P(x|c) untuk tiap kelas)

4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas kelas.

5. Membandingkan hasil per kelas.

2.2.4 Random Forest

Random Forest telah ditemukan oleh Breiman pada Tahun 2001. Dalam penelitiannya, Random Forest memiliki kelebihan antara lain dapat memberikan akurasi yang bagus untuk klasifikasi, dapat mendapatkan error yang lebih rendah, dapat mengatasi data training dalam jumlah besar dengan efisien, dan efektif untuk mengestimasi missing value (Breiman, 2001).

Metode random forest dibuat menggunakan teknik dasar data mining yaitu pohon keputusan. Pohon keputusan tersebut terdiri dari root node, internal node dan leaf node. Metode ini digunakan dengan mengambil atribut dan data secara acak sesuai ketentuan yang diberlakukan. Root node yang biasa

(27)

11

disebut sebagai akar dari pohon keputusan merupakan simpul(node) yang terletak paling atas. Internal node atau simpul dalam merupakan simpul percabangan yang berasal dari root node dan mempunyai output minimal dua.

Sedangkan leaf node yaitu merupakan simpul terakhir dari pohon keputusan yang hanya memiliki satu input dan tidak mempunyai output (Yusuf Sulistyo Nugroho & Emiliyawati, 2017)

Tahapan untuk melakukan random forest adalah sebagai berikut (Bawono

& Wasono, 2019):

1. Tahapan bootstrap, menarik contoh acak berukuran n (n = banyak data training) dengan pemulihan pada gugus data training.

2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.

a) Membuat node pertama pohon keputusan.

b) Membuat node selanjutnya hingga pohon berakhir.

3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh sebuah hutan yang terdiri atas k pohon acak,

4. Tahapan aggregating, yaitu melakukan voting berdasarkan mayoritas atau hasil klasifikasi yang paling banyak dari pohon-pohon acak tersebut dan hasil paling banyak tersebut merupakan hasil klasifikasi dari metode Random Forest.

Cara untuk memulai pohon keputusan adalah dengan menghitung nilai entropy sebagai penentu tingkat impurity atribut dan nilai information gain.

Pada persamaan (2.3) terdapat rumus untuk menghitung nilai entropy, sedangkan pada persamaan (2.4) terdapat rumus untuk menghitung nilai information gain (Yusuf Sulistyo Nugroho & Emiliyawati, 2017).

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑝(𝑐|𝑌)𝑙𝑜𝑔² 𝑝(𝑐|𝑌) (2.3)

Keterangan:

Y : Himpunan kasus

P(c|Y) : Proporsi nilai Y terhadap kelas c

(28)

12

𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑔𝑎𝑖𝑛(𝑌, 𝑎) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) − ∑ 𝑣 ∈ 𝑉𝑎𝑙𝑢𝑒𝑠(𝑎)|𝑌𝑣|

|𝑌𝑎|Entropy(Yv) (2.4)

Keterangan:

Values(a) : Semua nilai yang mungkin dalam himpunan kasus a.

Yv : Subkelas dari Y dengan kelas v yang berhubungan dengan kelas

Ya : Semua nilai yang sesuai dengan kelas a.

2.2.5 K-Fold Cross Validation

K-Fold cross validation merupakan teknik yang menggunakan semua sampel yang tersedia sebagai data pelatihan dan pengujian. Pada k-fold cross validation, kumpulan data akan dibagi menjadi partisi K, dan setiap blok memiliki jumlah data yang sama (Bengio & Grandvalet, 2004). Teknik k-fold cross validation digunakan untuk menghilangkan bias pada data. Pelatihan dan pengujian dilakukan sebanyak k kali. Terdapat contoh dengan nilai k=3 maka dapat di ilustrasikan seperti pada Gambar 2.1.

Gambar 2.1 3-Fold Cross Validation

2.2.6 Confusion Matrix

Confusion matrix merupakan suatu alat yang memiliki fungsi menghitung keakuratan dari klasifikasi. Nilai dari True-Positive dan True- Negative memberikan informasi bahwa klasifikasi data bernilai benar, sedangkan False-Positive dan False-Negative memberikan informasi bahwa klasifikasi data bernilai salah. Evaluasi menggunakan confusion matrix dapat

(29)

13

menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi merupakan persentase dari keakuratan data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil klasifikasi (Han & Kamber, 2006).

Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode pengujian confusion matrix yang dapat dilihat pada Tabel 2.2.Tabel 2.1

Tabel 2.2 Confusion Matrix (Sasongko, 2016) Prediksi Nilai Sebenarnya

True False

True TP FN

False FP TN

Keterangan:

TP = Jumlah prediksi yang tepat bersifat positif (True Positive).

TN = jumlah prediksi yang tepat bersifat negatif (True Negative).

FP = jumlah prediksi yang salah bersifat positif (False Positive).

FN = jumlah prediksi yang salah bersifat negatif (False Negative).

Untuk menghitung tingkat akurasi, presisi dan recall dalam confusion matrix digunakan rumus seperti pada persamaan (2.5), (2.6) dan (2.7).

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100% (2.5)

𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = ( 𝑇𝑃

(𝑇𝑃 + 𝐹𝑃)) 𝑥 100% (2.6)

𝑅𝑒𝑐𝑎𝑙𝑙 = ( 𝑇𝑃

(𝑇𝑃 + 𝐹𝑁)) 𝑥 100% (2.7)

(30)

14 BAB III

METODOLOGI PENELITIAN

Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang digunakan dan tahap-tahap memprediksi ketepatan waktu lulus mahasiswa dengan menggunakan metode naïve bayes dan random forest.

3.1 Gambaran Umum Penelitian

Pada penelitian ini, metode naïve bayes dan random forest akan diterapkan untuk memprediksi ketepatan waktu lulus mahasiswa dengan menggunakan data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan 2011 hingga angkatan 2016. Lalu hasil akurasi dari prediksi tersebut akan dibandingkan sehingga bisa diketahui metode mana yang lebih baik antara naïve bayes dan random forest berdasarkan akurasinya.

Gambar 3.1 Diagram Alur Penelitian

Pada diagram alur penelitian yang ditunjukkan pada Gambar 3.1, terdapat tahap-tahap dilakukannya penelitian. Berikut penjelasan alur penelitian pada Gambar 3.1 tersebut:

1. Membaca file (Data Kelulusan Mahasiswa FST USD).

2. Dilakukan data pre-processing yaitu data cleaning dan data transformation pada file yang telah dibaca sebelumnya.

3. Setelah melakukan data pre-processing, dilakukan pemeringkatan atribut menggunakan information gain berdasarkan data tersebut.

(31)

15

4. Dilakukan k-Fold Cross Validation dengan menghasilkan data training dan data testing yang berbeda-beda di tiap fold-nya.

5. Dilakukan pemodelan naïve bayes dan random forest menggunakan data training, hasil pemodelan tersebut akan digunakan untuk memprediksi dari data testing sehingga label kelas dari data testing tidak digunakan 6. Dilakukan prediksi dari metode naïve bayes dan random forest dengan

menggunakan data testing. Hasil prediksi berupa label kelas dari prediksi kedua metode akan dibandingkan dengan label kelas sebenarnya untuk dihitung akurasi dari kedua metode tersebut.

7. Dilakukan evaluasi confusion matrix untuk mendapatkan akurasi dari hasil prediksi metode naïve bayes dan random forest.

8. Dilakukan analisis hasil dari metode naïve bayes dan random forest untuk mengetahui metode yang mempunyai akurasi yang lebih baik dalam memprediksi ketepatan waktu lulus mahasiswa.

3.2 Pengambilan Data

Data yang digunakan merupakan data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan 2011 hingga angkatan 2016 sebanyak 1.169 data record yang diambil dari BAPSI Universitas Sanata Dharma.

Contoh data awal yang belum melalui tahap pre-processing ditunjukkan pada Gambar 3.2.

Gambar 3.2 Contoh Data Awal

Pada data tersebut terdiri dari 24 atribut, yaitu:

(32)

16

1. Prodi : Program studi atau disingkat prodi merupakan kesatuan rencana belajar yang digunakan sebagai pedoman jalannya pendidikan akademik yang penyelenggaraannya berdasarkan suatu kurikulum. Data prodi terdiri dari TM (Teknik Mesin), TE (Teknik Elektro), INF (Informatika), dan MAT (Matematika).

2. Angkatan : Tahun mahasiswa memulai kuliah.

3. Asal Sekolah : Asal sekolah mahasiswa sebelum memulai perkuliahan 4. Jalur masuk : Jalur masuk mahasiswa (jalur tes/prestasi)

5. Nilai Masuk : Nilai tes masuk mahasiswa atau nilai raport mahasiswa.

6. IPS 1 : Indeks Prestasi mahasiswa pada saat semester 1.

8. IPS 3 : Indeks Prestasi mahasiswa pada saat semester 3 9. IPS 4 : Indeks Prestasi mahasiswa pada saat semester 4.

14. SKS S1 : Jumlah SKS yang telah ditempuh pada saat semester 1.

22. Poin : Jumlah poin kegiatan kemahasiswaan.

23. Lama TA : Lama pengerjaan tugas akhir mahasiswa dalam satuan semester.

24. Lama Studi : Jangka waktu penyelesaian studi mahasiswa dalam satuan semester.

3.3 Data Pre-processing

Pada tahap ini data akan melalui tahap pre-processing untuk menghilangkan noise sehingga sistem menghasilkan dataset yang siap dipakai untuk proses klasifikasi selanjutnya. Tahapan pre-processing yang ada pada penelitian ini adalah data cleaning dan data transformation.

(33)

17 3.3.1 Data Cleaning

Proses pembersihan data dilakukan untuk menghilangkan noise dan data yang tidak konsisten. Jika terdapat nilai kosong pada salah satu atribut maka baris data tersebut akan dihapus atau dihilangkan dari data frame.

3.3.2 Data Transformation

Proses transformasi data adalah proses perubahan data ke dalam kategori atau nilai tertentu untuk proses data mining. Pada tahap ini, dilakukan transformasi atribut lama studi(semester) yang terdiri dari 8, 9, 10, 11, 12 dan lain-lain. Nilai tersebut akan dikelompokkan menjadi kategori 1 (lulus tepat waktu) atau 0 (lulus tidak tepat waktu) berdasarkan syarat, jika atribut lama studi <= 8 maka masuk ke dalam kategori 1 (lulus tepat waktu, dan jika atribut lama studi > 8 maka masuk ke dalam kategori 0 (lulus tidak tepat waktu).

Contoh data sebelum dan sesudah ditransformasi ditunjukkan pada Gambar 3.3.

Gambar 3.3 Data Sebelum dan Sesudah Transformasi

3.4 Metode dan Pemodelan

Dalam penelitian ini, metode klasifikasi naïve bayes dan random forest akan diterapkan dan dibandingkan akurasinya, maka dilakukan modelling metode naïve

(34)

18

bayes dan random forest guna untuk mengetahui akurasi dari hasil klasifikasi metode tersebut

3.4.1 Pemodelan Naïve Bayes.

Dalam tahap pembentukan model naïve bayes, akan digunakan data awal yang sudah di pre-processing pada tahap sebelumnya. Langkah pembangunan model naïve adalah sebagai berikut:

1. Membaca data training.

2. Menghitung probabilitas dari label (kelas).

3. Menghitung probabilitas dari semua atribut berdasarkan label (kelas).

4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas kelas.

Namun, sebelum masuk ke pemodelan naïve bayes, 2/3 dari data awal yang sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3 akan digunakan sebagai data testing. Contoh data training dan testing ditunjukkan pada Tabel 3.1 dan Tabel 3.2.

Tabel 3.1 Contoh Data Training

No. IPS 5 IPS 6 Lama

TA

Lama Studi

1. 3,43 3,87 1 1

2. 2,8 3,26 3 0

3. 3,05 3,6 3 0

4. 3,53 4 1 1

5. 3,65 3,87 1 1

6. 3,26 3,59 1 1

7. 2,33 2,65 7 0

8. 3,17 3,21 3 0

Tabel 3.2 Contoh Data Testing

No. IPS 5 IPS 6 Lama

TA

Lama Studi

(35)

19

1. 3,1 2,78 3 0

2. 3,68 3,61 2 0

3. 2,32 3,3 3 0

4. 3,61 4 1 1

Langkah 1: Membaca Data Training.

Untuk membangun model naïve bayes, yang dilakukan pertama kali adalah membaca data training. Pada kasus ini data training akan menggunakan data yang ditunjukkan pada Tabel 3.1.

Langkah 2: Menghitung Probabilitas dari Label (Kelas) dan Semua Atribut.

Setelah membaca data training, selanjutnya adalah mencari probabilitas label(kelas) dan tiap atribut. Terdapat dua label dari data training tersebut, yaitu:

• K1 (Kelas 1) → Lama Studi = Yes → 4 record.

• K2 (Kelas 2) → Lama Studi = No → 4 record.

• Total = 8 record.

Maka Hasil probabilitas label (kelas) ditunjukkan pada Tabel 3.3.

Tabel 3.3 Probabilitas Label (Kelas) Lama Studi P (Lama Studi)

1 4/8

0 4/8

Langkah 3: Menghitung Probabilitas Semua Atribut Berdasarkan Label (Kelas).

Langkah selanjutnya adalah menghitung probabilitas dari semua atribut berdasarkan label. Atribut pada data training yang akan digunakan adalah IPS 5, IPS 6 dan Lama TA dimana nilai tiap atribut tersebut bersifat kontinu, sehingga akan menggunakan persamaan (2.2). Di setiap atribut pada hitungan mean dan standar deviasi nya. Hasil perhitungan mean dan standar deviasi tiap atribut ditunjukkan pada Tabel 3.4. Untuk menghitung mean, digunakan rumus

(36)

20

pada persamaan (3.1) dan untuk menghitung standar deviasi, digunakan rumus pada persamaan (3.2).

𝑀𝑒𝑎𝑛 = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.1)

𝑆 = √∑^𝑛_𝑖=1(𝑥𝑖 − 𝑥)² 𝑛 − 1

(3.2)

Keterangan:

S = Standar deviasi N = banyak data Xi = data iterasi ke-i X= rata-rata

Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut

Atribut Hitungan 1

(Tepat Waktu)

0

(Tidak Tepat Waktu)

IPS 5 Mean 3,4675 2,8375

Standar Deviasi 0,165 0,371786

IPS 6 Mean 3,8325 3,18

Standar Deviasi 0,172892 0,393531

Lama TA Mean 1 4

Standar Deviasi 0,001 2

Selanjutnya jika mean dan standar deviasi telah ditemukan hasilnya, maka menggunakan data testing pada Tabel 3.2 untuk mencari nilai probabilitas tiap atribut. Hasilnya akan dihitung berdasarkan rumus densitas gauss dengan memasukkan mean, standar deviasi dan nilai data testing. Hasil probabilitas data testing ditunjukkan pada Tabel 3.5.

(37)

21

Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing Data

Testing ke- Atribut 1

(Tepat Waktu)

0

(Tidak Tepat Waktu)

9

IPS 5 0,202401763 0,836310005 IPS 6 1,71564E-08 0,604736049

Lama TA 0 0,176032663

10

IPS 5 1,055015423 0,082325009 IPS 6 1,004626441 0,557901792

Lama TA 0 0,120985362

11

IPS 5 3,24831E-11 0,377358039

IPS 6 0,019234115 0,968884183

Lama TA 0 0,176032663

12

IPS 5 1,66518693 0,123916772

IPS 6 1,443604071 0,11512196

Lama TA 398,9422804 0,064758798

Langkah 4: Mengalikan Nilai Probabilitas tiap Atribut dengan Hasil Probabilitas Kelas

Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan, nilai probabilitas masing-masing atribut akan dikalikan semuanya dengan dengan hasil probabilitas kelas pada Tabel 3.3. Jika salah satu probabilitas kelas memiliki nilai lebih tinggi, maka kelas pada probabilitas tersebut merupakan prediksi dari data testing yang diuji. Hasil perhitungan probabilitas naïve bayes pada data testing ditunjukkan pada Tabel 3.6 dan hasil klasifikasi naïve bayes ditunjukkan pada Tabel 3.7.

Tabel 3.6 Probabilitas Data Testing Data

Testing ke-

1 (Tepat Waktu)

0

(Tidak Tepat Waktu)

9. 0 0,089027958

10. 0 0,005556769

11. 0 0,0643604

(38)

22

12. 958,7252287 0,000923819

Tabel 3.7 Hasil Klasifikasi Naive Bayes

No. IPS 5 IPS 6 Lama TA Lama Studi Prediksi

9. 3,1 2,78 3 0 0

10. 3,68 3,61 2 0 0

11. 2,32 3,3 3 0 0

12. 3,61 4 1 1 1

Selanjutnya untuk mencari hasil akurasi dari hasil perhitungan naïve bayes, digunakan perhitungan confusion matrix yakni dengan menjumlahkan data yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian hasil klasifikasi naïve bayes ditunjukkan pada Tabel 3.8.

Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes

Lama Studi

True 0 (Lulus Tidak Tepat

Waktu)

True 1 (Lulus Tepat

Waktu) Pred. 0

(Lulus Tidak Tepat Waktu)

3 0

Pred. 1

(Lulus Tepat Waktu) 0 1

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 3

1 + 3 + 0 + 0 𝑥 100% = 100%

3.4.2 Pemodelan Random Forest

Dalam tahap pembentukan model random forest, juga akan digunakan data awal yang sudah di pre-processing pada tahap sebelumnya. Langkah pembangunan model random forest adalah sebagai berikut:

(39)

23

1. Bootstrap Process, menarik data acak berukuran n data training dengan pemulihan pada gugus data training.

2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.

a) Membuat node pertama pohon keputusan.

b) Membuat node selanjutnya hingga pohon berakhir.

3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh sebuah hutan yang terdiri atas k pohon acak. Dan melakukan voting berdasarkan mayoritas atau hasil klasifikasi yang paling banyak dari pohon-pohon acak tersebut dan hasil paling banyak tersebut merupakan hasil klasifikasi dari metode Random Forest.

Namun, sebelum masuk ke pemodelan random forest, 2/3 dari data awal yang sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3 akan digunakan sebagai data testing. Contoh data training dan testing ditunjukkan pada Tabel 3.1 dan Tabel 3.2.

Langkah 1: Bootstrap Process

Setelah data training dan data testing didapatkan, selanjutnya dilakukan bootstrap process yaitu membuat bootstrap proses dengan mengambil data dengan ukuran yang sama pada data training secara acak dan diperbolehkan untuk mengambil data yang sama lebih dari satu kali. Hasil dari bootstrap process yaitu bootstrap dataset ditunjukkan pada Tabel 3.9.

Tabel 3.9 Bootstrap Dataset

No. IPS 5 IPS 6 Lama TA Lama Studi

1. 3,53 4 1 1

2. 2,8 3,26 3 0

3. 3,26 3,59 1 1

4. 2,8 3,26 3 0

5. 3,05 3,6 3 0

6. 3,26 3,59 1 1

7. 3,05 3,6 3 0

8. 3,17 3,21 3 0

Langkah 2: Menyusun Pohon Keputusan berdasarkan Bootstrap Datasets

(40)

24

Setelah mendapatkan bootstrap datasets dari proses bootstrap pada Langkah sebelumnya, selanjutnya adalah membuat pohon keputusan berdasarkan datasets tersebut, yaitu dengan membuat root atau node pertama hingga entropy = 0. Tahapan detail dari pembuatan pohon keputusan adalah sebagai berikut:

a) Membuat root

Setelah dilakukan proses bootstrap, kemudian dilakukan perhitungan entropy dari label dari keseluruhan data menggunakan persamaan (2.3) yang akan digunakan untuk menghitung information gain pada langkah selanjutnya. Entropy dari data yang telah di bootstrap ditunjukkan pada Tabel 3.10.

Tabel 3.10 Entropy dari Data Bootstrap Atribut Total Kasus 1 0 Entropy

Lama Studi 8 3 5 0,954434

Setelah itu menghitung partisi dari masing-masing atribut dari data yang telah di bootstrap menggunakan persamaan 3.3) di setiap perubahan label pada data. Lalu dari partisi tersebut dihitung entropy dan information gain menggunakan s (2.3) dan (2.4) untuk menentukan partisi yang paling baik. Hasil perhitungan partisi, entropy dan juga information gain dari masing-masing atribut ditunjukkan pada Tabel 3.11.

𝑃𝑎𝑟𝑡𝑖𝑠𝑖 = 𝐷

_𝑖

+ 𝐷

_𝑖+1

2

3.3)

Keterangan:

Di = Data ke-i

(41)

25

Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain dari masing-masing Atribut

Atribut Partisi Total Kasus 1 0 Entropy Information Gain

IPS 5 <=3,215 5 0 5 0

0,95443

>3,215 3 3 0 0

IPS 6

<=3,425 3 0 3 0

0,34758

>3,425 5 3 2 0,97095

<=3,595 5 3 5 0,97095

0,00322

>3,595 3 2 3 0,91829

<=3,8 7 2 5 0,86312

0,19920

>3,8 1 1 0 0

Lama TA

<=2 3 3 0 0

0,95443

>2 5 0 5 0

Gambar 3.4 Perhitungan Partisi Atribut IPS 6

Berdasarkan hasil pada Tabel 3.11, diketahui terdapat 3 partisi pada atribut IPS 6. Hal itu dikarenakan pada data di atribut IPS 6 terdapat 3 perubahan label setelah data yang telah diurutkan yang ditunjukkan pada Gambar 3.4, sehingga terdapat juga 3 kandidat partisi lalu kandidat partisi tersebut akan dipilih berdasarkan nilai information

(42)

26

gain paling tinggi. Hasil partisi pilihan, entropy dan juga information gain ditunjukkan pada Tabel 3.12.

Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain terakhir.

Atribut Partisi Total

Kasus 1 0 Entropy Information Gain

IPS 5 <=3,215 5 0 5 0

0,95443

>3,215 3 3 0 0

IPS 6 <=3,425 3 0 3 0

0,34758

>3,425 5 3 2 0,97095 Lama

TA

<=2 3 3 0 0

0,95443

>2 5 0 5 0

Berdasarkan hasil pada Tabel 3.12, nilai information gain tertinggi yaitu pada atribut IPS 5 dan Lama TA yaitu sebesar 0.95443. Dengan demikian dilakukan pemilihan salah satu dari 2 atribut yang memiliki nilai information gain terbesar yaitu IPS 5 terbentuk menjadi root node dari pohon keputusan.

Gambar 3.5 Root Node Hasil Perhitungan

(43)

27

b) Membuat node selanjutnya hingga entropy bernilai 0.

Berdasarkan hasil dari Gambar 3.5, diketahui bahwa pada IPS 5<=

3.215 maupun pada IPS > 3.215, entropy nya bernilai 0 atau hanya tersisa masing-masing 1 label saja yaitu 0 (Tidak Lulus Tepat Waktu) dan 1 (Lulus Tepat Waktu) sehingga node tersebut menjadi leaf atau node tersebut tidak dilanjutkan dan terbentuklah hasil perhitungan decision tree pertama. Namun, jika terdapat kasus tertentu yang mempunyai 2 label di dalam 1 node atau entropy > 0, maka akan dilakukan pembuatan node selanjutnya dengan data yang ada di dalam node tersebut saja.

Langkah 3: Mengulangi Langkah 1 Dan 2 Sebanyak k kali sehingga diperoleh sebuah Hutan yang terdiri atas K Pohon Acak.

Setelah mendapatkan hasil decision tree pada langkah 2, dilakukan pengulangan langkah 1-2 idealnya hingga mencapai 100 pohon keputusan atau decision tree. Namun, pada contoh pemodelan kali ini hanya akan dilakukan hingga 3 pohon saja.

Setelah melakukan perhitungan yang sama pada langkah 1 dan 2 hingga membentuk 3 pohon, hasil pohon tersebut ditunjukkan pada Gambar 3.6, Gambar 3.7 dan Gambar 3.8

Gambar 3.6 Pohon ke-1

(44)

28

Setelah itu, dilakukan klasifikasi dengan 3 pohon yang dihasilkan sebelumnya dengan data testing dengan cara memasukkan satu per satu data testing ke dalam pohon. Lalu masing-masing hasil akan dipilih menggunakan majority vote.

Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest

No. IPS 5 IPS 6 Lama TA Lama Studi

1. 3,68 3,61 2

Berikut pada Tabel 3.13, terdapat contoh satu data testing. Selanjutnya data testing tersebut akan dimasukkan ke semua pohon yang sudah dibuat.

Dalam pohon 1 menghasilkan klasifikasi 1, pohon 2 menghasilkan klasifikasi

(45)

29

1 dan pohon 3 menghasilkan klasifikasi 1. Dari ketiga hasil klasifikasi tersebut, dilakukan tahapan aggregating atau bisa disebut majority vote, yaitu memilih berdasarkan hasil yang paling banyak, sehingga hasil klasifikasi dari data testing pada Tabel 3.13 adalah 1. Untuk hasil klasifikasi seluruh data testing ditunjukkan pada Tabel 3.14.

Tabel 3.14 Hasil Klasifikasi Random Forest

No. IPS 5 IPS 6 Lama TA Lama

Studi Prediksi

1. 3,1 2,78 3 0 0

2. 3,68 3,61 2 0 1

3. 2,32 3,3 3 0 0

4. 3,61 4 1 1 1

Untuk mencari hasil akurasi dari hasil klasifikasi random forest, digunakan perhitungan confusion matrix yakni dengan menjumlahkan data yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian hasil klasifikasi random forest ditunjukkan pada Tabel 3.15.

Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest

Lama Studi

True 0 (Lulus Tidak Tepat

Waktu)

True 1 (Lulus Tepat

Waktu) Pred. 0

(Lulus Tidak Tepat Waktu) 2 0

Pred. 1

(Lulus Tepat Waktu) 1 1

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 2

1 + 2 + 1 + 0 𝑥 100% = 75%

(46)

30 3.5 Rancangan Pengujian

Proses pengujian pada penelitian ini dilakukan beberapa variasi, yaitu:

1. Variasi menggunakan 1 hingga 10 atribut dari yang terbaik berdasarkan pemeringkatan dengan information gain.

2. Variasi nilai k dalam k-Fold Cross Validation yaitu 3-Fold Cross Validation, 5-Fold Cross Validation dan 10-Fold Cross Validation untuk mengurangi bias dalam klasifikasi.

3. Dalam pemodelan random forest, digunakan variasi banyak pohon 10, 30 dan 100.

Lalu untuk menghitung akurasi dari hasil dari klasifikasi, digunakan confusion matrix yang sudah dicontohkan sebelumnya pada Tabel 3.8 dan Tabel 3.15.

3.6 Peralatan Penelitian

Penelitian ini menggunakan beberapa peralatan untuk membangun sistem, yaitu sebagai berikut:

1. Perangkat keras

a. Merk : Asus b. Type : A456UF

c. Processor : Intel® Core™ i5-6200U CPU @ 2.30 GHz d. RAM : 8,00 GB

2. Perangkat Lunak

a. Windows 10 Pro b. Phyton (Spyder) c. Microsoft Excel

(47)

31 3.7 Rancangan Interface

Gambar 3.9 Rancangan Interface

Pada Gambar 3.9 terdapat rancangan awal interface dari perangkat lunak yang akan dibuat. Dalam rancangan awal interface tersebut terdapat fitur sebagai berikut:

1. Input Data, membaca data yang diinginkan dari direktori komputer dengan format excel.

2. Tombol Klasifikasi, tombol yang berguna mengklasifikasikan data yang di baca sebelumnya dan menghasilkan akurasi pemodelan dari naïve bayes dan random forest, juga memperlihatkan atribut yang digunakan dari pemodelan tersebut.

3. Uji Data Tunggal, user akan mengisi form sesuai dengan atribut yang digunakan dalam pemodelan sebelumnya dan menghasilkan prediksi Lulus Tepat Waktu atau Lulus Tidak Tepat Waktu berdasarkan metode naïve bayes dan random forest dari pemodelan sebelumnya.

(48)

32 BAB IV

HASIL DAN ANALISA

Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh dari pengolahan data dan pengujian yang dilakukan yaitu tahap pre-processing data,, pemeringkatan atribut dengan metode information gain, klasifikasi naïve bayes dan random forest, pengujian dan analisis hasil.

4.1 Tahap Pre-processing

Tahap pre-processing dilakukan untuk mempersiapkan data sehingga data siap untuk diolah. Terdapat dua tahapan dalam tahap pre-processing yaitu data cleaning dan data transformation

4.1.1 Data Cleaning

Pada tahap ini, data yang memiliki missing value akan dihapus dari tabel sehingga tidak terdapat data kosong. Dari data yang berjumlah 1169, terdapat 8 data yang mempunyai nilai kosong pada salah satu kolomnya. Karena jumlah data yang bernilai kosong hanya sebesar 0.7698% maka baris data tersebut dihapus dari tabel dan pada penelitian ini hanya akan menggunakan data yang memiliki nilai di setiap kolomnya agar tidak terdapat noise pada saat proses klasifikasi. Implementasi pada source code ditunjukkan pada Gambar 4.1.

Gambar 4.1 Source Code Data Cleaning

Pada Gambar 4.1, terdapat source code dari data cleaning, menggunakan method dropna() yaitu salah satu method dari library pandas dalam pemrograman phyton, yang digunakan untuk menghilangkan nilai yang hilang dari sebuah data (jika salah satu atribut tidak ada nilainya dari sebuah data/baris, maka data/baris tersebut akan dihilangkan dari keseluruhan data).

(49)

33 4.1.2 Data Transformation

Pada tahap ini, pada kolom/atribut yang memiliki rentang nilai jauh dan juga tidak seimbang terhadap atribut lain, akan ditransformasikan menggunakan normalisasi min-max dengan menggunakan library dari sklearn.preprocessing. Atribut Nilai Masuk merupakan atribut yang memiliki rentang nilai yang jauh yaitu dengan nilai terendah 21 dan tertinggi 84. Lalu juga terdapat atribut Lama Studi sebagai label akan diubah nilainya dan dikelompokkan menjadi kategori 1 (lulus tepat waktu) atau 0 (lulus tidak tepat waktu) berdasarkan syarat, jika Lama studi <= 8 maka masuk ke dalam kategori 1 (lulus tepat waktu, dan jika Lama studi > 8 maka masuk ke dalam kategori 0 (lulus tidak tepat waktu). Implementasi transformasi data dalam source code ditunjukkan pada Gambar 4.2.

Gambar 4.2 Source Code Data Transformation

Pada Gambar 4.2, terdapat source code dari data transformation, menggunakan menggunakan library dari sklearn.preprocessing yang digunakan untuk menormalisasi dari atribut Nilai Masuk dan terdapat method where() yang merupakan salah satu method dari library numpy yang dalam kasus tersebut digunakan untuk memanggil kondisi dari atribut Lama Studi yang mempunyai nilai <=8 maka nilainya akan menjadi 1 dan kondisi dari atribut Lama Studi yang mempunyai nilai >=0 maka nilainya akan menjadi 0.

Contoh data sebelum ditransformasi dan sesudah ditransformasi ditunjukkan pada Tabel 4.1 dan Tabel 4.2.

Tabel 4.1 Contoh Data Sebelum Transformasi Nilai Masuk Lama Studi

52,00 5

41,00 6

(50)

34

61,50 9

36,00 5

47,50 6

Tabel 4.2 Contoh Data Sesudah Transformasi Nilai Masuk Lama Studi

0.253911 1

0.163814 1

0.331722 0

0.122860 1

0.217053 1

4.2 Pemeringkatan Atribut dengan Information Gain

Pada tahap ini, dilakukan pemeringkatan atribut dengan menggunakan mutual info regression atau information gain dari library sklearn.feature_selection dan mendapatkan hasil seperti yang ditunjukkan pada Tabel 4.3. Untuk implementasi information gain pada source code ditunjukkan pada Gambar 4.3.

Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain Atribut Information Gain Ranking

IPS 8 0.173927 1

Lama TA 0.168048 2

SKS 8 0.122580 3

IPS 7 0.103205 4

IPS 2 0.099550 5

SKS 3 0.088386 6

IPS 1 0.086668 7

SKS 6 0.077768 8

SKS 5 0.070780 9

IPS 6 0.070113 10

IPS 3 0.065985 11

Prodi 0.064541 12