• Tidak ada hasil yang ditemukan

Prediksi kategori kelulusan mahasiswa menggunakan metode regresi logistik multinomial

N/A
N/A
Protected

Academic year: 2023

Membagikan "Prediksi kategori kelulusan mahasiswa menggunakan metode regresi logistik multinomial"

Copied!
91
0
0

Teks penuh

(1)

SKRIPSI

Oleh:

RAFIKA SYAHRANITA NIM. 17650003

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG

2022

(2)

ii

PREDIKSI KATEGORI KELULUSAN MAHASISWA MENGGUNAKAN METODE REGRESI LOGISTIK MULTINOMIAL

SKRIPSI

Oleh:

RAFIKA SYAHRANITA NIM. 17650003

Diajukan kepada:

Universitas Islam Negeri (UIN) Maulana Malik Ibrahim Malang Untuk Memenuhi Salah Satu Persyaratan Dalam

Memperoleh Gelar Sarjana Komputer (S.Kom)

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI MAULANA MALIK IBRAHIM MALANG

2022

(3)
(4)

ii

HALAMAN PENGESAHAN

(5)

vi

(6)

vi MOTTO

“don't seek for everything to happen as you wish it would, but rather wish that everything happens as it actually will then your life will flow well.”

Epictetus

(7)

vii

Penulis persembahkan skripsi ini kepada keluarga penulis, terutama untuk bapak S. Nanang Harianto dan ibu Sumiati yang telah banyak memberikan pelajaran kehidupan kepada penulis lewat kerja keras, kesabaran, dan kesederhanaan mereka. Kepada keluarga besar penulis dari pihak Ayah maupun pihak Ibu yang senantiasa ikut mendoakan agar cepat menyelesaikan masa studi.

Teruntuk kakak-kakak saya yang turut membantu dan mendukung penulis secara finansial. Terakhri untuk Avieza, Atus, Nisa, Eva, Arsita, Deres, Dedong, Echa dan Badin yang sama sama berjuang di kota rantau masing-masing, yang sering menjadi tempat keluh kesah, bertukar pikiran tentang cerita segala hal random, kehidupan, dan skripsi. Semoga kasih sayang Allah subhanahu wa ta’ala selalu menyertai mereka.

(8)

viii

KATA PENGANTAR

Assalamu'alaikum warahmatullahi wabarakatuh

Segala puji bagi Allah subhanahu wa ta’ala yang telah melimpahkan rahmat dan karunia-Nya serta shalawat beriring salam tak lupa dihanturkan kepada baginda Rasulullah shalallahu ‘alaihi wa sallam sehingga penulis mampu merampungkan penulisan skripsi yang berjudul “Prediksi Kategori Kelulusan Mahasiswa Menggunakan Metode Regresi Logistik Multinomial” sebagai salah satu syarat kelulusan untuk mendapatkan gelar sarjana pada Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang.

Skripsi ini tidak dapat terwujud tanpa adanya doa, bantuan, bimbingan dan motivasi dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih sedalam-dalamnya kepada:

1. Orang tua penulis yang senantiasa memberikan dukungan baik berupa moril maupun materiil kepada penulis.

2. Saudara kandung penulis yang menerima menjadi tempat curhat serta teman bertukar pikiran bagi penulis.

3. Prof. Dr. H. M. Zainuddin, MA, selaku Rektor Universitas Islam Negeri Maulana Malik Ibrahim Malang.

4. Dr. Sri Harini, M. Si, selaku Dekan Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang.

5. Dr. Fachrul Kurniawan, ST., M.MT., IPM selaku Ketua Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang.

6. Prof. Dr. Suhartono, M,Kom selaku Dosen Wali dan Dosen Pembimbing I yang telah banyak bersedia meluangkan waktunya dalam membimbing, memberi saran dan arahan kepada penulis sehingga skripsi ini dapat terselesaikan.

(9)

ix

7. Syahiduz Zaman, M,Kom selaku Dosen Pembimbing II yang juga bersedia meluangkan waktunya dalam membimbing dan memberi arahan kepada penulis sehingga skripsi ini dapat terselesaikan.

8. Dr. Ririen Kusumawati, S.Si., M.Kom dan Fatchurrohman, M.Kom selaku Dosen Penguji yang telah memberikan kritik dan masukan membangun kepada penulis selama proses penyelesaian skripsi ini.

9. Seluruh Dosen dan Jajaran Staf Program Studi Teknik Informatika yang telah mengajarkan ilmu yang bermanfaat kepada penulis.

10. Teman-teman Teknik Informatika Angkatan 2017 UNOCORE, khususnya Salma fatia, Jayanti Galuh, Ayu Dian, Annisa Hepar, Yayang Galuh, Hamdan, Darto, Ian, Disca yang telah menemani dan saling bertukar pikiran saat mengerjakan skripsi, serta memberikan banyak pengalaman dan dukungan berharga.

Penulis menyadari bahwa dalam pengerjaan skripsi ini masih terdapat banyak kekurangan sehingga penulis terbuka terhadap kritik dan saran yang membangun dari para pembaca. Penulis berharap semoga skripsi ini dapat memberikan manfaat tidak hanya bagi penulis namun juga bagi para pembaca.

Wassalamu’alaikum Warahmatullahi Wabarakatuh

Malang, 12 Desember 2022

Penulis

(10)

x DAFTAR ISI

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... vi

PERNYATAAN KEASLIAN TULISAN ... Error! Bookmark not defined. MOTTO ... viii

HALAMAN PERSEMBAHAN ... vii

KATA PENGANTAR ... viii

DAFTAR ISI ... x

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xiii

ABSTRAK ... xiv

ABSTRACT ... xv

ثحبلا صلختسم ... xvi

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Pernyataan Masalah ... 7

1.3 Tujuan Penelitian ... 7

1.4 Manfaat Penelitian ... 7

1.5 Batasan Masalah ... 7

1.6 Sistematika Penulisan ... 8

BAB II STUDI LITERATUR ... 10

2.1 Penelitian Terkait ... 10

2.2 Data Mining ... 15

2.3 Prediksi Pada Data Mining ... 18

2.4 Regresi Logistik Multinomial ... 19

BAB III DESAIN DAN IMPLEMENTASI ... 23

(11)

xi

3.1 Desain Penelitian ... 23

3.2 Perancangan Proses ... 24

3.3 Perancangan Sistem ... 25

3.4 Pengumpulan Data ... 26

3.5 Persiapan Data ... 26

3.5.1 Seleksi Data ... 26

3.5.2 Pembersihan Data... 27

3.5.3 Transformasi Data ... 27

3.6 Modeling ... 29

3.6.1 Uji asumsi logistik ... 29

3.6.2 Uji Independensi Parameter ... 31

3.6.3 Uji Signifikan Parameter ... 33

3.6.4 Model Logistik Multinomial ... 34

BAB IV HASIL DAN PEMBAHASAN ... 37

4.1 Skenario Pengujian ... 37

4.1.1 Input Data ... 37

4.1.2 Preprocessing ... 37

4.1.3 Membangun Model Prediksi Logistik Multinomial ... 39

4.1.4 Evaluasi Sistem ... 45

4.2 Hasil Uji Coba ... 48

4.3 Pembahasan ... 59

BAB V KESIMPULAN DAN SARAN ... 62

5.1 Kesimpulan ... 62

5.2 Saran ... 63 DAFTAR PUSTAKA

LAMPIRAN

(12)

xii

DAFTAR TABEL

Tabel 3.1 Variabel yang Digunakan ... 26

Tabel 3.2 Contoh Data Mahasiswa ... 27

Tabel 3.3 Data Mahasiswa Setelah Transformasi ... 28

Tabel 3.4 Hasil Uji Normalitas ... 30

Tabel 3.5 Hasil Uji Homogenitas ... 30

Tabel 3.6 Hasil Uji ANOVA ... 32

Tabel 4.1 Contoh Hasil dari Preprosessing ... 38

Tabel 4.2 Hasil Skor Prediksi ... 41

Tabel 4.3 Data Training ... 48

Tabel 4.4 Data Testing ... 51

Tabel 4.5 Hasil Klasifikasi Mahasiswa ... 53

Tabel 4.6 Multiclass Confusion Matrix untuk Kategori Cepat ... 56

Tabel 4.7 Multiclass Confusion Matrix untuk Kategori Tepat... 57

Tabel 4.8 Multiclass Confusion Matrix untuk Kategori Lambat ... 57

Tabel 4.9 Kalkulasi Multiclass Confusion Matrix ... 58

(13)

xiii

DAFTAR GAMBAR

Gambar 3.1 Tahapan Penelitian... 23

Gambar 3.2 Alur Proses Penelitian ... 25

Gambar 3.3 Perancangan Sistem ... 25

Gambar 3.4 flowchart Algoritma Regresi Logistik Multinomial ... 29

Gambar 3.5 Hasil Pengujian Uji Serentak ... 34

Gambar 3.6 Estimasi Parameter ... 34

Gambar 4.1 Source Code Estimasi Parameter ... 39

Gambar 4.2 Source Code P-value ... 40

Gambar 4.3 Hasil Estimasi Parameter ... 40

Gambar 4.4 Hasil P-value ... 40

Gambar 4.5 Source Code Skor Prediksi ... 41

Gambar 4.6 Source Code Klasifikasi Prediksi ... 44

Gambar 4.7 Source Code ggplot2 ... 45

Gambar 4.8 Hasil Source Code ggplot ... 45

Gambar 4.9 Hasil Prediksi ... 56

(14)

xiv ABSTRAK

Syahranita, Rafika. 2022. Prediksi Kategori Kelulusan Mahasiswa Menggunakan Metode Regresi Logistik Multinomial. Skripsi. Program Studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang. Pembimbing: (I) Prof, Dr, Suhartono, M.kom (II) Syahidduz Zaman, M.Kom

Kata kunci: Kategori, Kelulusan, Prediksi, Regresi Logistik, Machine Learning

Mahasiswa harus memenuhi tujuan tertentu untuk mendapatkan gelar, tetapi dapat memperpanjang waktu di perguruan tinggi atau dropout (DO). Masalah DO mahasiswa telah menjadi isu penting bagi pengelola perguruan tinggi untuk menjamin keberhasilan atau kelulusan mahasiswa dan mengurangi DO. DO dapat mempengaruhi akreditasi perguruan tinggi tersebut. Kualitas perguruan tinggi di Indonesia diukur berdasarkan akreditasi yang dilaksanakan oleh Badan Akreditasi Nasional Perguruan Tinggi atau BAN- PT. Salah satu standar utama yang diukur adalah Kualitas Mahasiswa dan Lulusan. Kualitas akreditasi pendidikan diukur dari persentase kelulusan mahasiswa, dan strategi perguruan tinggi untuk mempertahankan mahasiswa. Sebagai sarana dalam mewujudkan peningkatan kualitas lulusan maka diperlukan sistem yang dapat memprediksi kelulusan mahasiswa berdasarkan kategori waktu kelulusan. Metode regresi logistik multinomial dianggap sebagai salah satu metode yang tepat karena kategori kelulusan terdiri dari tiga kategori.

Peneliti mengumpulkan total 300 data akademik mahasiswa tahun 2012-2018 pada Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang. Variabel dependen yang digunakan adalah jenis kelamin, jenis jalur masuk, indeks prestasi semester satu sampai enam. Hasil perolehan model diterapkan lalu di evaluasi sehingga didapatkan nilai accuracy sebesar 85,5%, precision sebesar 78,5%, recall sebesar 93,9%, dan micro f1-score sebesar 89,8%. Nilai accuracy sebesar 85,5% menyatakan sistem dapat melakukan klasifikasi dengan baik sehingga model regresi logistik multinomial dapat diterima dan dapat digunakan untuk memprediksi kategori kelulusan mahasiswa.

(15)

xv ABSTRACT

Syahranita, Rafika. 2022. Prediction of Student Graduation Categories Using the Multinomial Logistic Regression Method. Undergraduate Thesis. Department of Informatics Engineering, Faculty of Science and Technology, State Islamic University of Maulana Malik Ibrahim Malang. Supervisor: (I) Prof, Dr, Suhartono, M.Kom (II) Syahidduz Zaman, M.Kom

Keywords : Categories, Graduation, Prediction, Logistic Regression, Machine Learning

Students must meet certain goals to earn a degree, but can extend their time in college or drop out (DO). The problem of dropping out of students has become an important issue for tertiary institutions to ensure the success or graduation of students and reduce dropouts. DO can affect the accreditation of the tertiary institution. The quality of higher education institutions in Indonesia is measured based on accreditation carried out by the National Accreditation Board for Higher Education or BAN-PT. One of the main standards measured is the Quality of Students and Graduates. The quality of educational accreditation is measured by the percentage of student graduation, and the university's strategy to retain students. As a means of realizing an increase in the quality of graduates, a system is needed that can predict student graduation based on the time category of graduation. The multinomial logistic regression method is considered one of the appropriate methods because the passing category consists of three categories. Researchers collected a total of 300 student academic data for 2012-2018 at the Informatics Engineering Study Program, State Islamic University of Maulana Malik Ibrahim Malang. The dependent variables used were gender, type of entry pathway, and grade point average from one to six. The results of the acquisition of the model are applied and then evaluated so that an accuracy value of 85.5%, a precision of 78.5%, a recall of 93.9%, and a micro f1-score of 89.8% are obtained.

An accuracy value of 85.5% indicates that the system can classify properly so that the multinomial logistic regression model is acceptable and can be used to predict student graduation categories.

(16)

xvi

ثحبلا صلختسم

.ةقيفر ، اتينارفس 2222

ةيضرف .دودحلا ددعتم يتسجوللا رادحنلاا ةقيرط مادختساب بلاطلا جرخت تائفب ؤبنتلا . .

ةسارد جمانرب

( :نوفرشملا .جنلاام ميهاربإ كلام انلاوم ةيملاسلإا ةيلاولا ةعماج ، ايجولونكتلاو مولعلا ةيلك ، ةيتامولعملا ةسدنه 1

)

( ونوتراهوس روتكدلا ذاتسلأا 2

موك دمحمو نامز زوديحايس )

لعتلا ، يتسجوللا رادحنلاا ، ؤبنتلا ، جرختلا ، فينصتلا :ةيحاتفملا تاملكلا يللآا م

ةعماجلا ي مهتقو نوددمي دق تلااحلا نم ريثك يفو ، ةداهش ىلع لوصحلل ةنيعم اًفادهأ بلاطلا ققحي نأ بجي ميلعتلا تاسسؤمل ةمهم ةيضق تحبصأو عساو مامتهاب نيبرستملا بلاطلا ةلكشم تيظح .ةساردلا نوكرتي وأ طلا برست تلادعم ليلقتو مهجرخت وأ بلاطلا حاجن نامضل يلاعلا بلاطلل ديازتملا ددعلا رثؤي نأ نكمي .بلا

يذلا دامتعلاا ىلع ًءانب ايسينودنإ يف يلاعلا ميلعتلا تاسسؤم ةدوج سايق متي .ةيلكلا دامتعا ىلع نيبرستملا وأ يلاعلا ميلعتلل ينطولا دامتعلاا سلجم هارجأ BAN-PT. ةيسيئر ريياعم9 ىلع ًءانب ةدوجلا هذه سايق متي بلاطلا اهدحأ ، ظافتحلال ةعماجلا ةيجيتارتساو بلاطلا جرخت ةبسنب يوبرتلا دامتعلاا ةدوج ساقت .نيجيرخلاو

ًءانب بلاطلا جرختب ؤبنتلا هنكمي ماظن ىلإ ةجاح كانه ، نيجيرخلا ةدوج يف ةدايز قيقحتل ةليسوك .بلاطلاب رطلا ىدحإ دودحلا ددعتم يتسجوللا رادحنلاا ةقيرط ربتعت .جرختلا تقو ةئف ىلع حاجنلا ةئف نلأ ةبسانملا ق

هعومجم ام نوثحابلا عمج .تائف ثلاث نم نوكتت 033

ةرتفلا نع بلاطلل ةيميداكأ تانايب 2302

- 2302 يف

ةمدختسملا تاريغتملا .جنلاام ميهاربإ كلام انلاوم ةيملاسلإا ةيلاولا ةعماج ، ةيتامولعملا ةسدنه ةسارد جمانرب خدلا راسم عونو سنجلا يه تائبنتمك طسوتمو لو

جئاتن قيبطت متي .ةتس ىلإ دحاو نم تاجردلا ةجرد

غلبت ةقد ةميق ىلع لوصحلا متي ثيحب اهمييقت مث جذومنلا ىلع ذاوحتسلاا 28.8

٪ ةقدو 52.8

٪ عاجرتساو

90.9

٪

ةجردو f1 لكشب فينصتلا هنكمي ماظنلا نأ ىلإ ٪28.8 ةغلابلا ةقدلا ةميق ريشت .٪29.2 ةيئزجلا كي ثيحب حيحص جرخت تائفب ؤبنتلل همادختسا نكميو ًلاوبقم دودحلا ددعتم يتسجوللا رادحنلاا جذومن نو

بلاطلا.

(17)

1 BAB I PENDAHULUAN 1.1 Latar Belakang

Mahasiswa dianggap akademisi karena diposisikan sebagai orang dewasa yang memiliki identitas diri dan kemampuan untuk mewujudkan potensinya di perguruan tinggi sebagai intelektual, ilmuwan, praktisi dan profesional. Secara aktif mengembangkan potensinya untuk menjadi ilmuwan, intelektual, praktisi, dan profesional yang literat dengan terlibat dalam pembelajaran, pencarian kebenaran ilmiah atau penguasaan, pengembangan dan pengamalan suatu cabang ilmu pengetahuan dan teknologi. Mahasiswa harus memenuhi tujuan tertentu untuk mendapatkan gelar, dan dalam banyak kasus dapat memperpanjang waktu mereka di perguruan tinggi atau mereka dropout.

Dropout adalah tindakan yang dilakukan oleh perguruan tinggi untuk mengeluarkan mahasiswa karena perilaku yang tidak baik dan masa studi kuliah yang sudah melewati batas. Umumnya mahasiswa S1 menyelesaikan studinya dalam waktu yang ditentukan, yaitu delapan semester atau 4 tahun. Masalah yang timbul pada mahasiswa dropout adalah batas masa studi mahasiswa yang ditempuh mahasiswa maksimal sampai 14 Semester atau 7 Tahun (Agwil et al., 2020).

Dropout merupakan masalah yang memengaruhi semua perguruan tinggi di seluruh dunia, seperti, penurunan pendaftaran, pendapatan berkurang untuk perguruan tinggi, kemalangan moneter untuk negara yang mendukung penyelidikan, dan menetapkan masalah sosial untuk studi sarjana, keluarga mereka, dan masyarakat

(18)

2

pada umumnya (Asha et al., 2020). Mahasiswa dropout terdiri jenis mahasiswa yang dikeluarkan, putus kuliah, dan mengundurkan diri.

Masalah mahasiswa dropout telah mendapat perhatian yang luas dan telah menjadi isu penting bagi pengelola perguruan tinggi untuk menjamin keberhasilan atau kelulusan mahasiswa dan mengurangi angka mahasiswa dropout (Wan Yaacob et al., 2020). Pada tahun 2019 angka mahasiswa dropout mencapai sebesar 602,208 mahasiswa dari jumlah mahasiswa yang terdaftar, data mahasiswa yang dropout di dapatkan dari statisik pendidikan tinggi tahun 2020 (Kemendikbud, 2020).

Mencegah meningkatnya angka mahasiswa dropout sangat penting di berbagai lembaga pendidikan. Karakteristik dropout menjadi perhatian utama.

konsekuensinya termasuk kerugian finansial, tingkat kelulusan yang lebih rendah dan reputasi perguruan tinggi yang buruk.

Sehubungan dengan kualitas pendidikan, didalam Al-Qur’an banyak di jelaskan tentang masalah kualitas terutama kualitas hidup manusia. Seperti yang tersebut dalam surah al-Isra ayat 70 dalam Al-Qur’an yang menjelaskan bahwasanya Allah melebihkan setiap manusia dari makhluk ciptaannya yang lain.

اَنْقَلَخ ْنَّمِم ٍريِثَك ٰىَلَع ْمُهاَنْلَّضَفَو ِتاَبِ يَّطلا َنِم ْمُهاَنْ قَزَرَو ِرْحَبْلاَو ِ رَ بْلا يِف ْمُهاَنْلَمَحَو َمَدآ يِنَب اَنْمَّرَك ْدَقَلَو ًلايِضْفَ ت

Artinya: “Dan sesungguhnya telah Kami muliakan anak-anak Adam, Kami angkut mereka di daratan dan di lautan, Kami beri mereka rezeki dari yang baik- baik dan Kami lebihkan mereka dengan kelebihan yang sempurna atas kebanyakan makhluk yang telah Kami ciptakan.”

Kualitas perguruan tinggi di Indonesia diukur berdasarkan akreditasi yang dilaksanakan oleh Badan Akreditasi Nasional Perguruan Tinggi atau BAN PT.

(19)

Kualitas tersebut diukur berdasarkan 9 standar utama, salah satunya adalah Mahasiswa dan Lulusan. Akreditasi adalah penilaian yang digunakan untuk menentukan kelayakan perguruan tinggi dan program studi. Fakultas dan jurusan akan dinilai berdasarkan klasifikasinya pada beberapa kriteria akreditasi, yaitu A, B, C, unggul, Sangat Baik, Baik dan belum Terakreditasi. Kriteria akreditasi tersebut diatur berdasarkan Permendikbud No.5 tahun 2020.

Permenristekdikti No 32 Tahun 2016 tentang Akreditasi pasal 10 menyatakan bahwa BAN-PT bertugas dan berwenang dalam menyusun dan menetapkan instrumen akreditasi Perguruan Tinggi berdasarkan Standar Pendidikan Tinggi.

Instrumen akreditasi jurusan disusun dengan mempertimbangkan jenis dan jenjang pendidikan, modus pembelajaran, dan kekhususan program studi. Instrumen akreditasi jurusan terdiri dari instrumen yang menilai hal-hal yang bersifat umum lintas jurusan (generik) dan instrumen penilaian tentang kekhususan jurusan (spesifik). Akreditasi pada perguruan tinggi sering dilihat dari keberhasilan mahasiswa menyelesaikan masa studinya. Meningkatnya jumlah mahasiswa dropout dapat mempengaruhi akreditasi perguruan tinggi tersebut.

Kualitas pendidikan diukur dari persentase kelulusan mahasiswa, dan strategi perguruan tinggi untuk mempertahankan mahasiswa. Jika sebuah institusi kehilangan siswa karena alasan apapun, tingkat retensinya menurun. Identifikasi awal mahasiswa yang berisiko gagal sangat penting untuk keberhasilan strategi retensi apapun. Penting untuk mengidentifikasi mahasiswa ini sejak dini, dengan memberikan perhatian untuk mencapai retensi siswa. Kunci untuk mengurangi

(20)

4

angka dropout adalah identifikasi dini mahasiswa berisiko, selain mempertahankan intervensi yang intensif dan berkelanjutan(Perez et al., 2018).

Universitas Islam Negeri Maulana Malik Ibrahim Malang merupakan salah satu perguruan tinggi negeri yang terakreditasi institusi A, memiliki delapan fakultas, dan 45 program studi. Pada setiap fakultas memiliki beberapa jurusan, yang telah terakreditasi A atau B di setiap jurusan. Pada fakultas Sains dan Teknologi terdapat jurusan Biologi dengan akreditasi A, Fisika B, Kimia B, Matematika B, Teknik Arsitektur B, dan Teknik Informatika B. Jumlah mahasiswa Jurusan Teknik Informatika meningkat tiap memasuki tahun ajaran baru. Pada semester ganjil tahun 2021 jumah mahasiswa Jurusan Teknik Informatika sebesar 850 mahasiswa.

Data jumlah mahasiswa di perguruan tinggi harus meningkat dari tahun ke tahun. Salah satu akibat dari pertumbuhan data ini adalah tumpukan data yang jika tidak dikelola dengan baik akan membuat informasi yang tersedia sulit untuk dipahami, walaupun tentunya akan sangat bermanfaat jika disajikan secara lebih sederhana, lebih memadai dan akurat dari waktu ke waktu. untuk waktu. Tentu saja, menggunakan data dalam pengambilan keputusan, hanya menggunakan data operasional tidak lengkap karena data operasional tidak cukup untuk mengungkapkan informasi yang diinginkan. Oleh karena itu, diperlukan suatu algoritma untuk menganalisis data agar dapat memanfaatkan potensi informasi yang ada dan mengelola tumpukan data tersebut menjadi informasi yang bermanfaat yaitu data mining (Ginting, 2019).

(21)

Jumlah lulusan dari suatu perguruan tinggi terkadang rendah secara proporsional dibandingkan dengan jumlah mahasiswa yang diterima pada tahun akademik yang sama. Rendahnya angka kelulusan mahasiswa ini dapat disebabkan oleh beberapa faktor, seperti banyaknya aktivitas mahasiswa, faktor ekonomi, dan beberapa faktor lain yang tidak terduga(Gunawan et al., 2021). Hal ini menjadikan keharusan bagi sebuah perguruan tinggi untuk memiliki sistem prediksi menggunakan metode data mining.

Berdasarkan penjelasan di atas, data mining dapat digunakan untuk melakukan pencarian informasi dalam skala besar. Data mining bertujuan untuk membantu mendapatkan informasi dari sekumpulan dokumen dan membantu pihak-pihak tertentu yang membutuhkan informasi. Pada penelitian ini menggunakan teknik data mining untuk memprediksi kategori kelulusan mahasiswa jurusan Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim malang. Penelitian ini menggunakan metode regresi logistik multinomial (multinomial logistic regression).

Regresi logistik bukanlah hal baru yang digunakan dalam prediksi potensi pada data akademik. Metode ini dapat mendefinisikan secara akurat hubungan antara variabel penjelas dan variabel respon, mengidentifikasi pengaruh masing- masing variabel, dan dapat memprediksi kalsifikasi kasus. Metode ini memiliki dua kegunaan utama, pertama adalah untuk melakukan prediksi keanggotan kelompok yang dimana variabel dependen (respon) merupakan variabel yang memiliki sifat politomi (lebih dari dua kategori). Regresi logistik menunjukkan tingkat akurasi yang lebih tinggi dalam prediksi mahasiwa yang akan menyelesaikan masa studinya

(22)

6

(Hoffait & Schyns, 2017). Metode regresi logistik juga memberikan hasil yang akurat untuk prediksi dimasa yang akan datang dan membantu dalam perbaikan sistem pendidikan (Ashraf et al., 2018).

Pentingnya untuk memperbaiki kehidupan yang akan datang, dalam hal ini adalah prediksi kelulusan mahasiswa perlu diketahui secara dini oleh mahasiswa itu sendiri. Hal ini sesuai dengan firman Allah dalam QS. Al-Hasyr’: 18 menjelaskan bahwa:

َنوُلَمْعَ ت اَمِب ٌريِب َخ َهَّللا َّنِإ ۚ َهَّللا اوُقَّ تاَو ۖ ٍدَغِل ْتَمَّدَق اَم ٌسْفَ ن ْرُظْنَ تْلَو َهَّللا اوُقَّ تا اوُنَمآ َنيِذَّلا اَهُّ يَأ ا

َ ي

Artinya: “Hai orang-orang yang beriman, bertakwalah kepada Allah dan hendaklah setiap diri memperhatikan apa yang telah diperbuatnya untuk hari esok (akhirat); dan bertakwalah kepada Allah, sesungguhnya Allah Maha Mengetahui apa yang kamu kerjakan.”

Menurut tafsir Jalalayn menjelaskan bahwa “(Hai orang-orang yang beriman!

Bertakwalah kepada Allah dan hendaklah setiap diri memperhatikan apa yang telah diperbuatnya untuk hari esok) yakni untuk menghadapi hari kiamat (dan bertakwalah kepada Allah, sesungguhnya Allah Maha Mengetahui apa yang kalian kerjakan).” Setiap mahasiswa akan memperoleh hasil yang berbeda-beda tergantung dari kesungguhan mereka selama menempuh jenjang pendidikan di perguruan tinggi.

Dari latar belakang permasalahan yang telah dipaparkan serta dengan memanfaatkan segala kemajuan teknologi dan informasi. Penulis mengajukan judul

“Prediksi Kategori Kelulusan Mahasiswa Menggunakan Metode Regresi Logistik Multinomial”. Sistem pemodelan prediksi yang dibangun ini diharapkan dapat menjadi tools bagi pengelola program studi dalam mengevaluasi lama masa studi

(23)

mahasiswa di Universitas Islam Negeri Maulana Malik Ibrahim Malang, khususnya pada jurusan teknik informatika.

1.2 Pernyataan Masalah

Berdasarkan pada latar belakang di atas, maka dalam penelitian rumusan masalah yaitu:

1. Bagaimana mengimplemtasikan metode regresi logistik multinomial untuk prediksi kategori kelulusan mahasiswa?

2. Berapa tingkat akurasi metode regresi logistik multinomial untuk memprediksi kategori kelulusan mahasiswa?

1.3 Tujuan Penelitian

Berdasarkan pada rumusan masalah di atas, maka tujuan penelitian adalah:

1. Membangun sistem prediksi kategori kelulusan mahasiswa menggunakan metode regresi logistik multinomial.

2. Mengetahui tingkat akurasi metode regresi logistik multinomial untuk memprediksi kategori kelulusan mahasiswa.

1.4 Manfaat Penelitian

Manfaat penelitian ini diharapkan dapat membantu untuk mengevaluasi lama masa studi mahasiswa pada Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang.

1.5 Batasan Masalah

Agar penelitian dapat fokus dalam permasalahan yang diangkat, maka penelitian menerapkan beberapa batasan masalah sebagai berikut:

(24)

8

1. Studi kasus berlangsung di Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang.

2. Data akademik mahasiswa Program Studi Teknik Informatika Universitas Islam Negeri Maulana Malik Ibrahim Malang yang digunakan dalam penelitian ini adalah angkatan 2012 - 2018.

3. Variabel yang digunakan dalam penelitian yaitu, jenis kelamin, jenis jalur masuk perguruan tinggi, indeks prestasi mahasiswa.

4. Sistem aplikasi yang dibangun menggunakan Rstudio.

1.6 Sistematika Penulisan

Sistematika penulisan penelitian ini adalah sebagai berikut : Bab I Pendahuluan

Bab ini berisi beberapa bagian yang menjelaskan tentang latar belakang masalah, pemecahan masalah, penelitian, manfaat penelitian, keterbatasan masalah, dan pengetahuan tentang sistematika penulisan.

Bab II Kajian Pustaka

Bab ini menjelaskan tentang penelitian sebelumnya yang bertentangan dengan penelitian yang didefinisikan oleh penulis. Memuat teori dan konsep yang relevan dari berbagai sumber literatur yang berkaitan dengan pokok bahasan penelitian.

Bab III Perancangan dan Implementasi Sistem

Bab ini menjelaskan tentang rancangan penelitian, dimulai dari rancangan proses pengambilan data, rancangan pengolahan data, rancangan dalam pembuatan sistem, serta desain sistem yang akan digunakan.

(25)

Bab IV Uji Coba dan Pembahasan

Bab ini menjelaskan tentang hasil implementasi metode pada objek, dan hasil uji coba menggunakan data sebenarnya pada sistem yang dibuat.

Bab V Penutup

Bab ini menjelaskan kesimpulan dari hasil penelitian dan saran untuk proses pembuatan sistem dengan harapan supaya sistem menjadi lebih baik.

(26)

10 BAB II

STUDI LITERATUR 2.1 Penelitian Terkait

Pada sub bab ini akan dijelaskan beberapa studi yang berkaitan dengan penggunaan data mining dalam data pendidikan untuk membantu pendidik mengumpulkan wawasan berbasis data. Olalekan, Egwuche, and Olatunji (2020) penulis berpendapat bahwa prediksi yang hampir akurat mengenai kinerja masa depan mahasiswa berdasarkan catatan akademis penting untuk intervensi pedagogis yang efektif. Sangat penting untuk menyediakan sistem prediksi yang disempurnakan yang dapat membantu lembaga pendidikan untuk mengidentifikasi dan memantau mahasiswa pada ambang batas yang berbeda dan untuk fokus pada peningkatan mahasiswa bahwa ambang batas mereka kurang dari kelulusan pada tahap awal. Kajian tentang prediksi kelulusan mahasiswa dengan menggunakan teknik data mining sudah banyak dilakukan di masa sekarang literatur. Prediksi dilakukan pada empat variabel – Unified Tersier Matriculation Examination, Jumlah duduk, Poin Kelas dan Mode Masuk. Implementasi dilakukan di R studio.

Mohammad Suhaimi et al. (2019) penulis menyatakan bahwa aplikasi data mining banyak digunakan dalam sistem pendidikan. Kemampuan data mining untuk mendapatkan informasi yang berarti dari data yang tidak berarti membuatnya sangat berguna untuk memprediksi prestasi mahasiswa, kinerja perguruan tinggi, dan banyak lagi. Menurut Departemen Statistik Malaysia, jumlah mahasiswa yang tidak berhasil lulus tepat waktu meningkat secara dramatis setiap tahun. Skenario yang menantang ini membuat khawatir banyak pihak, terutama tim manajemen

(27)

perguruan tinggi. Mereka harus merancang strategi tepat waktu untuk meningkatkan prestasi akademik mahasiswa dan menemukan faktor utama yang berkontribusi terhadap kelulusan tepat waktu mahasiswa sarjana. Penelitian ini membahas faktor-faktor yang digunakan oleh peneliti lain dari penelitian sebelumnya untuk memprediksi waktu kelulusan mahasiswa dan untuk mempelajari dampak dari berbagai jenis faktor dengan metode prediksi yang berbeda. Secara keseluruhan, penelitian ini juga menunjukkan bahwa penilaian akademik merupakan faktor yang menonjol ketika memprediksi waktu kelulusan mahasiswa.

Pérez, Castellanos, and Correal (2018) mengangkat masalah tentang pencegahan Dropout di perguruan tinggi dianggap sangat penting di banyak lembaga pendidikan. Perguruan tinggi dapat memberikan peran sebagai membangun sumber daya manusia yang berkualitas dan inovatif. Mahasiswa juga dapat membantu mendukung pertumbuhan ekonomi suatu negara. Tingkat pendidikan yang tinggi bersamaan dengan lebih banyak mahasiswa yang lulus atau menyelesaikan studinya, banyaknya mahasiswa yang lulus diperlukan untuk meningkatkan sumber daya manusia pada masyarakat. Mahasiswa yang lulus berhubungan dengan peningkatan harapan hidup, peningkatan status sosial, pengurangan resiko pengangguran. Dalam penelitian ini menjelaskan tentang hasil studi kasus analitik data pendidikan yang berfokus pada deteksi putus sekolah mahasiswa sarjana Teknik Sistem (SE) setelah 6 tahun mendaftar di perguruan tinggi Columbia. Data asli diperluas dan diperkaya menggunakan proses rekayasa fitur. Hasil eksperimen menunjukkan bahwa algoritma sederhana mencapai tingkat

(28)

12

akurasi yang dapat diandalkan untuk mengidentifikasi prediktor putus sekolah.

Decision Trees, Logistic Regression, Naive Bayes and Random Forest dibandingkan untuk mengusulkan opsi terbaik. Selain itu, Watson Analytics dievaluasi untuk menetapkan kegunaan layanan bagi pengguna yang bukan ahli.

Hasil utama disajikan untuk mengurangi angka putus sekolah dengan mengidentifikasi penyebab potensial. Selain itu, peneliti menyajikan beberapa temuan terkait kualitas data untuk meningkatkan proses pengumpulan data mahasiswa.

Aiken et al. (2020) penulis mengangkat masalah tentang waktu yang dibutuhkan seorang mahasiswa untuk lulus. Gelar sarjana pada pergruruan tinggi dipengaruhi oleh berbagai faktor seperti latar belakang mereka, kinerja akademik di universitas, dan integrasi mereka ke dalam komunitas sosial pergruan tinggi yang mereka hadiri. Universitas yang berbeda memiliki populasi, layanan mahasiswa, gaya pengajaran, dan program gelar yang berbeda, namun, mereka semua mengumpulkan data institusional. Penelitian ini menyajikan data untuk 160.933 mahasiswa yang kuliah di perguruan tinggi riset besar Amerika. Data tersebut mencakup kinerja, pendaftaran, grafik demo, dan fitur persiapan. Model bahaya waktu diskrit untuk waktu hingga kelulusan disajikan dalam konteks Teori Drop Out Tinto. Penelitian ini menunjukkan bahwa faktor pendaftaran (seperti mengubah jurusan) menyebabkan peningkatan yang lebih besar dalam model kinerja prediktif ketika seorang mahasiswa lulus daripada faktor kinerja atau persiapan (seperti IPK).

(29)

Al-Balushi and Islam (2020) penelitian ini menjelaskan bahwa data prestasi akademik mahasiswa seringkali bersifat hierarkis atau sifatnya multilevel, karena sistem pendidikan memiliki struktur (mahasiswa belajar di dalam perguruan tinggi, perguruan tinggi berada di dalam departemen dan sebagainya). Sifat hierarkis data akademik kinerja sering memperkenalkan ketergantungan bertingkat yang dapat memiliki implikasi untuk inferensi statistik berbasis model. Pendekatan pemodelan bertingkat telah disarankan untuk menganalisis data dengan: sifat hierarkis.

penelitian ini mengkaji prediktor akademik kinerja (diukur dengan nilai A, B, C dan D) mahasiswa pascasarjana Universitas Sultan Qaboos (SQU), Oman, dengan menggunakan pendekatan multilevel modeling. Analisis menunjukkan bahwa ada variasi multilevel yang nyata antara nilai mahasiswa. Hasil penelitian menunjukkan bahwa model regresi logistik bertingkat lebih cocok dengan model regresi logistik biasa. Analisis mengungkapkan bahwa usia mahasiswa, jenis kelamin, perguruan tinggi dan wilayah tempat tinggal merupakan prediktor penting dari nilai mahasiswa di SQU. Pengaruh variasi perguruan tinggi untuk usia mahasiswa, jenis kelamin mahasiswa dan wilayah tempat tinggal lebih lanjut menyiratkan bahwa ada perbedaan yang cukup besar dalam nilai mahasiswa di antara perguruan tinggi.

Urrutia-Aguilar et al. (2016) penelitian yang dilakukan mengungkapkan bahwa prediksi variabel dapat mempengaruhi prestasi akademik mahasiswa, menjadi sangat penting karena program pendukung dapat dilaksanakan untuk menghindari putus sekolah. Mahasiswa yang proses penerimaannya melalui ujian memiliki motivasi diri lebih tinggi dibandingkan dengan mahasiswa yang diterima melalui metode tanpa ujian atau transfer otomatis. Selanjutnya mengungkapkan

(30)

14

bahwa terdapat keterkaitan antara motivasi diri dengan latar belakang akademis, dimana latar belakang akademis memiliki bobot signifikan yang tinggi terhadap prediksi kelulusan.

El-habil (2012) penelitian ini mengidentifikasi penerapan model regresi logistik multinomial yang merupakan salah satu metode untuk menganalisis data kategorikal. Model ini berkaitan dengan satu variabel respon yang memiliki leih dari dua kategori. Regresi logistik multinomial telah diterapkan dalam analisis data kesehatan, sosaial, perilaku dan pendidikan. Model telah diuji melalui serangkaian uji statistik untuk memastikan kesesuaiannya dengan data. Juga model telah diuji dengan memilih secara acak dua pengamatan dari data yang digunakan untuk memprediksi posisi setiap pengamatan dalam kelompok diklasifikasikan, dengan mengetahui nilai-nilai variabel penjelas yang digunakan. Penelitian ini menyimpulkan dengan menggunakan model regresi logistik multinomial, dapat mendefinisikan secara akurat hubungan antara kelompok variabel penjelas dan variabel respons, mengidentifikasi pengaruh masing-masing variabel, dan kami dapat memprediksi klasifikasi kasus individual apa pun.

Hashim, Awadh, and Hamoud (2020) penelitian ini berpendapat bahwa prediksi kinerja mahasiswa sangat dibutuhkan karena analisis status mahasiswa dapat meningkatkan performa dari lembaga pendidikan. Penelitian ini menggunakan data mahasiswa selama enam semester dengan menggunakan beberapa algoritma supervised machine learning, seperti Decision Tree, Naive Bayes, Regresi Logistik, Support Vector Machine (SVM), K-Nearest Neighbor, Sequential Minimal Optimisation dan Neural Network. Kriteria kinerja dari semua

(31)

algoritma diperiksa untuk memprediksi dua kelompok hasil (nilai aktual dan status akhir mahasiswa). Hasil penelitian menunjukkan bahwa pengklasifikasi Regresi Logistik adalah yang paling akurat dalam memprediksi nilai akhir aktual mahasiswa dengan akurasi 68,7% untuk status lulus dan 88,8% untuk status gagal.

Banyak faktor yang mempengaruhi keakuratan hasil yang diperoleh setelah menerapkan algoritma. Faktor-faktor ini termasuk data yang dibersihkan, domain fitur, jumlah fitur, ukuran dataset, dan domain kelas akhir.

2.2 Data Mining

Data mining adalah proses menemukan pola dan pengetahuan menarik dari data dalam jumlah besar. Sumber data dapat mencakup database, data warehouses, website, repositori informasi lain, atau data yang dialirkan ke dalam sistem secara dinamis (Agarwal, 2014). Menurut Gartner Group, data mining adalah proses menemukan korelasi, pola, dan tren baru yang bermakna dengan memilah sejumlah besar data yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik statistik dan matematika. Data mining dapat memenuhi kebutuhan berbagai industri dengan rangkaian algoritma dan metode yang kaya (Larose &

Larose, 2014). Data mencerminkan fakta dan angka yang apabila tidak diproses, tidak akan ditemukan informasi penting untuk dapat membuat keputusan. Oleh karena itu, data memainkan peran penting dalam pertumbuhan organisasi manapun.

Banyak istilah lain yang memiliki arti serupa dengan data mining misalnya, knowledge mining from data, knowledge extraction, data/pattern analysis, data archaeology, dan data dredging. Istilah lain yang populer digunakan banyak orang

(32)

16

dalam memperlakukan data mining adalah knowledge discovery from data atau KDD. Kedua istilah tersebut memiliki konsep yang berbeda tetapi terdapat keterkaitan di antara keduanya. Proses KDD secara iteratif akan dijelaskan sebagai berikut:

1. Cleaning Data

Cleaning data atau pembersihan data adalah langkah dimana noise dan data yang tidak relevan dihapus dari kumpulan data yang besar. Ini merupakan langkah pemrosesan awal yang sangat penting karena hasil prosedur mining akan bergantung pada kualitas data yang dipilih. Data cleaning mencakup penghapusan duplikasi data, pemberian nilai yang benar secara logis pada data yang hilang, menghapus bidang data yang tidak perlu, membakukan format data, juga memperbarui data dengan data lain yang relevan.

2. Integration Data

Integration data atau integrasi data didefinisikan sebagai data heterogen dari berbagai sumber yang digabungkan ke dalam satu sumber yang sama.

Kesamaan integrasi data dengan migrasi data dan Extract-Transform-Load (ETL) ialah merupakan proses yang biasanya diterapkan ketika organisasi ingin mendapatkan lebih banyak wawasan dari data mereka. Organisasi dapat memperoleh wawasan yang lebih luas ketika informasi dari berbagai sumber digabungkan.

3. Data Transformation

Data transformation atau transformasi data merupakan proses mengubah data menjadi bentuk yang diperlukan dalam prosedur mining. Transformasi

(33)

merupakan tahapan dua langkah, yaitu pemetaan data (data mapping) dan pembuatan kode (code generation). Pemetaan data, yaitu ketika data diubah dari lingkungan operasional ke lingkungan gudang data yang mencakup database sumber dan isinya, deskripsi gateway, partisi data, ekstraksi data, aturan transformasi dan default, aturan penyegaran dan pembersihan data, dan keamanan (otorisasi pengguna dan kontrol akses). Pembuatan kode, yaitu penciptaan aktual program transformasi tersebut. Langkah 1 hingga 3 merupakan berbagai bentuk pemrosesan awal data, dimana data disiapkan untuk prosedur mining.

4. Data Mining

Data mining didefinisikan sebagai proses penting di mana metode cerdas diterapkan untuk mengekstrak pola data yang berpotensi informatif menggunakan metode tertentu. Penentuan metode bergantung pada tujuan dari proyek penelitian.

5. Pattern Evaluation

Pattern evaluation merupakan langkah pasca pemrosesan yang menafsirkan pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan ukuran keterikatan. Dikatakan pola yang menarik apabila mudah dipahami oleh manusia, valid pada data baru atau data uji dengan tingkat kepastian tertentu, berpotensi bermanfaat, dan baru. Suatu pola juga menarik jika memvalidasi hipotesis yang ingin dikonfirmasi oleh pengguna.

(34)

18

6. Knowledge Presentation

Tahapan terakhir dimana pengetahuan yang ditemukan disajikan kepada pengguna dalam format yang sederhana dan mudah dipahami. Teknik visualisasi dan representasi pengetahuan (summarization) digunakan untuk membuat pengguna dapat memahami dan menafsirkan informasi.

2.3 Prediksi Pada Data Mining

Prediksi merupakan salah satu tugas utama dari data mining. Bentuk analisis data yang dapat digunakan untuk mengekstraksi model dalam memprediksi tren data di masa mendatang berdasarkan informasi di masa lalu dan sekarang yang dimiliki sehingga selisih yang terjadi dengan perkiraan dapat diminimalisir disebut dengan prediksi. Prediksi memiliki kemiripan dengan klasifikasi, hanya saja pada prediksi, variabel targetnya bersifat numerik daripada kategorikal (Larose &

Larose, 2014). Prediksi melibatkan pengembangan model berdasarkan data yang tersedia dan model tersebut digunakan untuk memprediksi nilai mendatang dari kumpulan data yang baru. Tujuannya adalah untuk memprediksi nilai output (Y) sebagai pengamatan baru yang didasari variabel prediktor atau input (X).

Pemodelan prediktif dan pengujian prediktif melayani beberapa fungsi ilmiah yang diperlukan (Shmueli, 2010), diantaranya:

1. Pemodelan prediktif dapat membantu mengungkap mekanisme sebab-akibat pada data yang baru tersedia dan berpotensi sehingga dapat diarahkan kepada penarikan hipotesis baru.

2. Pemodelan prediktif dapat digunakan untuk menemukan pengukuran baru yang seringkali sejalan dengan perkembangan teori baru.

(35)

3. Pemodelan prediktif dapat menyarankan perbaikan pada model penjelas berdasarkan pola dan hubungan kompleks yang mendasarinya.

4. Perkembangan ilmiah membutuhkan penelitian yang teliti dan relevan secara empiris. Pemodelan prediktif memungkinkan pengukuran jarak antara teori dan praktik sehingga berfungsi sebagai “pemeriksaan realitas” terhadap teori.

5. Penilaian prediktif menawarkan cara dalam membandingkan instrumen pengukuran lain yang bersaing dengan memeriksa keakuratan prediksi model penjelas masing masing.

6. Pemodelan prediktif memainkan peran penting dalam mengukur tingkat prediktabilitas fenomena terukur dengan membuat tolok ukur akurasi prediksi.

Tingkat prediktabilitas yang sangat rendah dapat diarahkan kepada pengembangan pengukuran baru, data baru yang dikumpulkan, atau pendekatan empiris baru.

Setiap metode dan teknik yang digunakan untuk klasifikasi juga dapat digunakan pada prediksi (berdasarkan keadaan yang tepat). Metode yang termasuk diantaranya, seperti regresi dan korelasi linear sederhana, regresi berganda, Neural Network, Decision Tree, maupun K Nearest Neighbor.

2.4 Regresi Logistik Multinomial

Regresi logistik adalah salah satu metode untuk menentukan hubungan ketergantungan atau sebab-akibat antar variabel. Variabel “penyebab” diistilahkan sebagai variabel penjelas, variabel independen, prediktor, atau variabel X sedangkan variabel “akibat” diistilahkan sebagai variabel dependen, variabel

(36)

20

terikat, atau variabel Y. Pada analisis regresi, salah satu atau lebih variabelnya merupakan variabel stokastik.

Metode statistik yang diterapkan untuk memodelkan variabel respon yang bersifat kategori (skala nominal atau ordinal) berdasarkan satu atau lebih prediktor yang dapat berupa variabel kategori maupun kontinu (skala interval atau rasio) disebut dengan metode regresi logistik. Regresi logistik biner digunakan apabila variabel dependen bersifat dikotomi sedangkan regresi logistik multinomial digunakan apabila variabel dependen bersifat politomi (memiliki lebih dari dua kategori).

Dalam penelitian, data yang diperoleh tidak hanya bersifat kuantitatif namun pula bersifat kualitatif. Agar data kualitatif dapat diukur, maka harus diubah atau dilambangkan terlebih dahulu ke dalam bentuk numerik. Peneliti menetapkan bahwa variabel idependen dikategorikan ke dalam tiga kategori yang terdiri dari

“cepat” mahasiswa menyelesaikan masa studi kurang dari 8 semester, “tepat”

apabila mahasiswa menyelesaikan masa studi selama 8 semester, “lambat” apabila mahasiswa menyelesaikan masa studi lebih dari semsester 8 (Tetap et al., 2016).

Bentuk umum dari regresi logistik ditunjuk kan pada persamaan 2.1 𝜋(𝑥) = 𝑒𝑔(𝑥)

1 + 𝑒𝑔(𝑥) (2.1)

Regresi logistik tidak memodelkan secara langsung variabel dependen dengan variabel indepen, melainkan melalui tahapan transformasi logit pada persamaan 2.1 diatas maka diperoleh persamaan model logit sebagai berikut.

𝑔(𝑥) = 𝑙𝑛 [ 𝜋(𝑥)

1 − 𝜋(𝑥)] = 𝛽0+ 𝛽1𝑥1+ ⋯ + 𝛽𝑝𝑥𝑝 (2.2)

(37)

Jika variabel dependen terdiri dari tiga kategori, maka akan membentuk dua persamaan model logit, dimana persamaan tersebut membentuk suatu model yang membandingkan satu kategori dengan kategori pembanding. Berdasarkan Persamaan 2.2, dapat ditentukan peluang bersyarat dari setiap jenis variabel dependen, yaitu:

𝑃(𝑌 = 1|𝑥) = 𝜋1(𝑥) = 1

1 + exp 𝑔2(𝑥) + exp 𝑔3(𝑥) (2.3) 𝑃(𝑌 = 2|𝑥) = 𝜋2(𝑥) = exp 𝑔2(𝑥)

1 + exp 𝑔2(𝑥) + exp 𝑔3(𝑥) (2.4) 𝑃(𝑌 = 2|𝑥) = 𝜋2(𝑥) = exp 𝑔3(𝑥)

1 + exp 𝑔2(𝑥) + exp 𝑔3(𝑥) (2.5) Estimasi parameter digunakan untuk mengidentifikasi pendekatan dalam hal uji kecocokan (goodness of fit) dengan memberikan perkiraan terhadap variabel independen yang signifikan terhadap penelitian. Terdapat dua pengujian parameter, yaitu pengujian secara keseluruhan (serentak atau simultan) dan pengujian secara parsial. Uji serentak dilaksanakan untuk mengetahui pengaruh dari tiap variabel prediktor terhadap variabel dependen secara keseluruhan dan dilakukan menggunakan uji G. Hipotesis yang melandasi uji G yaitu:

 𝐻0: 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑝= 0 tidak ada satupun variabel independen yang secara statistik signifikan mempengaruhi variabel dependen.

 𝐻1: ∃𝛽𝑝≠ 0 minimal terdapat satu variabel independen yang secara statistik signifikan mempengaruhi variabel dependen.

Formula statistik uji G dinyatakan pada persamaan dibawah ini.

𝐺 = −2 𝑙𝑛𝐿0 𝐿1

(38)

22

Statistik uji G mengikuti distribusi chi-square dengan derajat bebas k (variabel prediktor dalam model). Dimana, 𝐻0 akan ditolak apabila nilai 𝐺2 >

𝑥(𝛼,𝑑𝑏)2 . Uji parsial dilaksanakan untuk mengetahui pengaruh dari tiap variabel prediktor terhadap variabel dependen yang dilakukan menggunakan uji Wald.

Pengujian signifikansi parameter uji wald dengan hipotesis sebagai berikut:

 𝐻0 : 𝛽𝑗 = 0 artinya tidak ada pengaruh antara variabel independen ke-p dengan variabel dependen.

 𝐻0 : 𝛽𝑗 ≠ 0 artinya variabel independen ke-p memiliki pengaruh terhadap variabel dependen.

Rumus uji wald terdapat pada persamaan dibawah

𝑊 = 𝛽̂𝑗 𝑠𝑒( 𝛽̂)𝑗

Tolak H0 pada taraf nyata α dengan derajat bebas db apabila nilai 𝑊2 >

𝑥(𝛼,𝑑𝑏)2 atau nilai p-value < α (Daga & Suryowati, 2017).

(39)

23 BAB III

DESAIN DAN IMPLEMENTASI 3.1 Desain Penelitian

Penelitian yang dilakukan menggunakan pendekatan kuantitatif. Pendekatan kuantitatif merupakan penjelasan suatu masalah atau fenomena melalui pengumpulan data dalam bentuk numerik yang diolah dengan metode statistik untuk mendukung atau menyangkal klaim pengetahuan alternatif. Dengan metode kuantitatif, akan diperoleh signifikansi perbedaan kelas atau signifikansi hubungan antar variabel yang diteliti. Agar tujuan penelitian dapat tercapai diperlukan perencanaan tahapan kegiatan yang akan dilaksanakan. Tahapan ini nantinya dijadikan pedoman dalam melaksanakan penelitian hingga terselesaikannya penelitian. Berikut adalah prosedur secara general tahapan penelitian Prediksi Kelulusan Mahasiswa dengan Metode Regresi Logistik Multinomial (Studi kasus:

Program Studi Teknik Informatika Universitas Islam Negeri Malang) pada gambar di bawah.

Gambar 3.1 Tahapan Penelitian

(40)

24

Penelitian dimulai dari tahap analisis permasalahan, yaitu proses menemukan masalah berdasarkan latar belakang penelitian serta dilanjutkan dengan mempelajari teori-teori pendukung yang digunakan dalam menyelesaikan masalah yang diangkat. Tahap kedua, yaitu pengumpulan data akademik mahasiswa di Badan Administrasi Akademik (BAK) UIN Malang. Tahap ketiga, dilanjutkan dengan melakukan persiapan data yang telah didapatkan dari BAK. Tahap keempat, yaitu pemodelan data dengan algoritma regresi logistik multinomial lalu dilanjutkan dengan implementasi dan uji coba penelitian. Tahap keenam, menganalisis hasil penelitian untuk mengetahui manfaat dari sistem yang telah dibangun. Terakhir, tahapan penarikan kesimpulan dan saran terhadap penelitian yang dilakukan untuk perbaikan di masa mendatang.

3.2 Perancangan Proses

Alur proses untuk prediksi kelulusan mahasiswa berdasarkan waktu kelulusan digambarkan secara umum pada gambar dibawah. Penelitian ini menggunakan pembagian data training (70%) dan data testing (30%) untuk proses mining data akademik mahasiswa angkatan 2012 - 2018.

(41)

Gambar 3.2 Alur Proses Penelitian

3.3 Perancangan Sistem

Desain sistem untuk prediksi kelulusan mahasiswa berdasarkan kategori waktu kelulusan digambarkan secara umum pada gambar dibawah. Sistem akan dibangun menggunakan Rstudio.

Gambar 3.3 Perancangan Sistem

(42)

26

3.4 Pengumpulan Data

Sumber data yang digunakan dalam penelitian ini adalah data mahasiswa angkatan 2012 - 2018. Pada Program Sudi Teknik Informatika UIN Malang yang didapatkan melalui Bagian Administrasi Akademik (BAK) UIN Malang. Data induk mahasiswa merupakan data mahasiswa yang didata ketika mahasiswa pertama kali masuk perguruan tinggi setelah melakukan registrasi ulang.

Sedangkan, data kelulusan merupakan data mahasiswa yang sudah menyelesaikan studinya di Program Studi Teknik Informatika.

3.5 Persiapan Data

Persiapan data diawali dengan tahapan preprocessing data, yaitu langkah yang dilakukan untuk membuat data mentah menjadi data berkualitas dengan input yang dibutuhkan untuk data mining.

3.5.1 Seleksi Data

Tidak semua variabel data induk mahasiswa dimasukkan ke dalam dataset.

Berdasarkan kebutuhan penelitian, variabel yang digunakan, yaitu IP, jenis kelamin jalur masuk perguruan tinggi. Dapat di lihat pada tabel di bawah.

Tabel 3.1 Variabel yang Digunakan Variabel

Definisi Indikator

Variabel Dependen

IP

Penilaian yang diterapkan dikampus dengan hasil penjumlahan dari semua nilai mata kuliah dalam satu semester

Data IP selama semester 1 sampai semester 6

Jenis Kelamin Pembeda antara laki-laki dan perempuan

dilihat dari sudut pandang L dan P

(43)

Lanjutan Tabel 3.1 Variabel

Definisi Indikator

Variabel Dependen

Jalur Masuk

Bagian penerimaan yang dilalui mahasiswa saat masuk ke perguruan tinggi (S1)

Prestasi dan Non Prestasi

Variabel Independen

Kategori waktu kelulusan

Lama mahasiswa menyelesaikan masa studinya

Cepat Tepat Lambat

3.5.2 Pembersihan Data

Selanjutnya dilakukan proses pembersihan data untuk meningkatkan performa metode regresi logistik multinomial. Pada tahap ini cara yang dilakukan peneliti yaitu dengan menghapus bidang data yang tidak diperlukan dan membakukan format data atau pemberian nilai yang benar secara logis.

3.5.3 Transformasi Data

Dalam penulisan skripsi ini, transformasi data digunakan untuk mengubah data nomial seperti pada jenis kelamin, jalur masuk perguruan tinggi, dan keterangan lulus perlu diubah agar dapat di proses menggunakan metode regresi logistik multinomial. Tabel 3.2 sebagai contoh dalam pengujian.

Tabel 3.2 Contoh Data Mahasiswa Jenis

Kelamin Jalur Masuk IP1 IP2 IP3 IP4 IP5 IP6 Kategori

L Pres 3.55 3.15 3.38 3 3.46 3.7 Cepat

L Pres 3.77 3.6 3.66 3.7 3.31 3.5 Cepat

P Pres 3.21 3.19 3.46 3.31 3.22 3.35 Tepat

P Pres 3.6 3.59 3.72 3.71 3.61 3.6 Tepat

(44)

28

Lanjutan Tabel 3.2 Jenis

Kelamin Jalur Masuk IP1 IP2 IP3 IP4 IP5 IP6 Kategori P Non Pres 3.71 3.6 3.43 3.55 3.1 3.38 Lambat L Non Pres 3.33 3.42 3 3.27 3.08 3.3 Lambat

P Pres 3.76 3.61 3.74 3.79 3.52 3.86 Tepat

P Pres 3.6 3.48 3.44 3.52 3.61 3.42 Tepat

P Non Pres 3.38 3 3.29 3.5 3.04 3.54 Lambat P Pres 3.55 3.31 3.42 3.59 3.05 3.34 Lambat

Setelah melakukan proses persiapan data selanjutnya memberikan value data nomial seperti pada jenis kelamin, jalur masuk perguruan tinggi, dan keterangan kelulusan. Pada variabel jenis kelamin value 1 untuk kategori jenis kelamin L, value 2 kategori jenis kelamin P. Jenis jalur masuk value 1 untuk Prestasi, value 2 untuk Non Prestasi (Rodríguez Ayán & Coello García, 2008).

Kategori kelulusan value 1 untuk cepat, value 2 untuk tepat, value 3 untuk lambat. Jika dimisalkan nilai pada contoh data mahasiswa (lihat Tabel 3.2) maka didapatkanlah data mahasiswa bertipe numerik yang ditunjukkan pada tabel di bawah ini.

Tabel 3.3 Data Mahasiswa Setelah Transformasi Jenis

Kelamin Jalur Masuk IP1 IP2 IP3 IP4 IP5 IP6 Kategori

1 1 3.55 3.15 3.38 3 3.46 3.7 1

1 1 3.77 3.6 3.66 3.7 3.31 3.5 1

2 1 3.21 3.19 3.46 3.31 3.22 3.35 2

2 1 3.6 3.59 3.72 3.71 3.61 3.6 2

2 2 3.71 3.6 3.43 3.55 3.1 3.38 3

1 2 3.33 3.42 3 3.27 3.08 3.3 3

2 1 3.76 3.61 3.74 3.79 3.52 3.86 2

2 1 3.6 3.48 3.44 3.52 3.61 3.42 2

2 2 3.38 3 3.29 3.5 3.04 3.54 3

2 1 3.55 3.31 3.42 3.59 3.05 3.34 3

(45)

3.6 Modeling

Setelah data ditransformasi, maka tahap selanjutnya adalah melakukan pemodelan data dengan mengimplementasikan algoritma regresi logistik multinomial untuk proses klasifikasi. Proses detail diagram alir algoritma tersebut ditampilkan pada gambar dibawah.

Gambar 3.4 flowchart Algoritma Regresi Logistik Multinomial

Penjelasan masing-masing proses terbagi menjadi beberapa bagian yang akan dijelaskan selanjutnya.

3.6.1 Uji asumsi logistik

Uji normalitas adalah metode untuk menilai normalitas data residual dalam model regresi. Model regresif dapat mewakili populasi karena memiliki ukuran sampel yang representatif, sehingga diperlukan asumsi normalitas untuk

(46)

30

memastikan bahwa tidak ada kesalahan normalitas yang bias dalam model (Qurnia Sari et al., 2017).

Model regresi yang baik adalah yang memiliki nilai residual terdistribusi secara normal. Uji normalitas menggunakan Shapiro-wilk dengan nilai alpha yang ditetapkan adalah 0,05(Qurnia Sari et al., 2017). Hasil pengujian normalitas ditunjukkan dalam Tabel 3.4 berikut.

Tabel 3.4 Hasil Uji Normalitas

Variabel Terikat Statistic Sig

0,996 0,626

Berdasarkan hasil uji normalitas pada tabel 3.4, diketahui bahwa nilai p- value sebesar 0,626 dimana nilai p-value lebih besar dari 0,05 artinya kesumpulan yang dapat diambil adalah distribusi data dalam penelitian memenuhi asumsi normalitas dan model dari hasil penelitian dapat mewakili populasi.

Pengujian asumsi selanjutnya adalah menguji keseragaman data. Uji homogenitas varian menguji apakah setiap variabel independen memiliki sifat yang konsisten atau tidak. Agar kesimpulan dan prakiraan berdasarkan parameter dalam kelompok sampel konsisten dan akurat, asumsi homogenitas harus dibuat (Qurnia Sari et al., 2017).

Tabel 3.5 Hasil Uji Homogenitas

Sig

Jenis Kelamin Based on Mean 0,408

Jalur Masuk Based on Mean 0,711

IP 1 Based on Mean 0,961

IP 2 Based on Mean 0,302

IP 3 Based on Mean 0,353

IP 4 Based on Mean 0,959

IP 5 Based on Mean 0,649

IP 6 Based on Mean 0,347

(47)

Berdasarkan tabel pengujian homogenitas pada tabel 3.5, diketahui bahwa nilai p-value dari masing-masing variabel independen memiliki nilai lebih besar dari 0,05 sehingga dalam penelitian ini asumsi homogenitas terpenuhi dan setiap parameter yang dijadikan estimator tidak bias dan konsisten(Qurnia Sari et al., 2017).

3.6.2 Uji Independensi Parameter

ANOVA adalah teknik yang mengungkapkan variasi rata-rata varians di dalam dan di dalam kelompok sampel (Kim, 2017). Dengan memahami bagaimana rata-rata setiap variabel independen berbeda dari yang lain, seseorang dapat mulai mempelajari hubungan dengan variabel dependen dan memahami faktor-faktor yang mendorong perilaku tersebut. Uji ANOVA berusaha untuk memastikan apakah perbedaan antar kelompok data signifikan secara statistik atau tidak.

One-way uji Anova adalah metode yang paling populer untuk menghitung perbedaan rata-rata dari tiga atau lebih kelompok independen. Karena terdapat empat kelompok yang saling bebas atau bebas dan memenuhi syarat normalitas dan homogenitas maka penelitian ini menggunakan uji one way Anova. Tingkat signifikansi atau nilai alpha memiliki rentang yang ditetapkan sebesar 0,05(Kim, 2017). Hasil analisis uji one-way Anova untuk mengidentifikasi independensi pada variabel ditunjukkan dalam Tabel 3.6 berikut.

(48)

32

Tabel 3.6 Hasil Uji ANOVA

Sum Of Square df Mean

Square F Sig

Jenis Kelamin

Between Groups 1,085 2 0,542 2,196 0,013

Within Groups 73,352 297 0,247

Jalur Masuk

Between Groups 1,218 2 0,609 4,793 0,009

Within Groups 37,729 297 0,127

IP 1 Between Groups 0,367 2 0,183 4,202 0,016

Within Groups 12,965 297 0,044

IP 2 Between Groups 1,045 2 0,523 7,235 0,001

Within Groups 21,456 297 0,72

IP 3 Between Groups 5,595 2 2,798 39.694 0,000

Within Groups 20,933 297 0,7

IP 4 Between Groups 6,197 2 3,098 36,877 0,000

Within Groups 24,953 297 0,084

IP 5 Between Groups 11,197 2 5,598 46,443 0,000

Within Groups 35,801 297 0,121

IP 6 Between Groups 5,223 2 2,611 25,73 0,000

Within Groups 30,143 297 0,101

Dapat dilihat pada Tabel 3.6 di atas bahwa variabel Jenis kelamin menunjukkan nilai signifikansi sebesar 0,013 dalam variansi antar kelompok yang mana nilai tersebut lebih kecil dari 0,05 berarti hasil dari uji Anova signifikan. Selanjutnya, analisis kedua dilakukan terhadap variabel Jenis Kelamin yang memiliki nilai signifikansi sebesar 0,009 dalam variansi antar kelompok. Nilai 0,009 lebih kecil dari 0,05 sehingga hasil uji signifikan dan dapat dikatakan bahwa terdapat perbedaan antara Jalur Masuk dengan kelompok lainnya, yaitu Jenis Kelamin, IP 1, IP 2, IP 3, IP 4, IP 5 dan IP 6.

Analisis ketiga dilakukan terhadap variabel IP 1 yang menunjukkan nilai signifikansi lebih kecil dari 0,05 berarti uji Anova signifikan. Analisis keempat dilakukan terhadap variabel IP 2 yang menunjukkan nilai signifikansi lebih kecil dari 0,05 berarti uji Anova signifikan.

Referensi

Dokumen terkait

Guru berperan sangat penting dalam pendidikan remidi ini sebagai upaya penanggulangan kesulitan belajar yang dialami siswa, jika hal itu tidak terlaksanakan dengan baik

GRESIK PANCENG TK DHARMA WANITA PERSATUAN SIWALAN ATA ATA 802:GTK-A 42 13050102010114ERLIS DWI HANDAYANI Guru Kelas PAUD/TK JAWA TIMUR KAB.. GRESIK DRIYOREJO TK CREATIVE

Penambahan bahan kimia, dalam bentuk akselerator atau retarder, yang biasanya ditambahkan oleh pabrik untuk mengatur setting time, juga mempunyai efek untuk

Hasil analisis data respons siswa terhadap perangkat dan pelaksanaan pembelajaran matematika, pembelajaran kooperatif tipe student teams achievement divisions (STAD)

Sedangkan persentase pengaruh yang paling rendah adalah di Pasar Siborongborong sebesar 45,50 persen yang mengindikasikan bahwa sumber penghasilan utama selain dari kopi seperti

Tujuan umum dari penelitian ini adalah mengetahui perbedaan pengetahuan dan sikap tentang prakonsepsi sebelum dan sesudah dilakukan preconception counseling pada

untuk membelanjakannya atau berupa block grant. Dari sisi ini memberikan peluang bagi daerah untuk bisa meng- optlmalkan penggunaan dana tersebut dalam rangka mendorong pembangunan

Sehingga penyusun dapat menyelesaikan skripsi yang berjudul “Pengaruh Kepercayaan dan Persepsi Risiko terhadap Niat Pembelian online pada Situs E-Commerce Shopee (Studi Pada