BAB IV HASIL DAN ANALISA
4.2 Pemeringkatan Atribut dengan Information Gain
Pada tahap ini, dilakukan pemeringkatan atribut dengan menggunakan mutual info regression atau information gain dari library sklearn.feature_selection dan mendapatkan hasil seperti yang ditunjukkan pada Tabel 4.3. Untuk implementasi information gain pada source code ditunjukkan pada Gambar 4.3.
Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain Atribut Information Gain Ranking
IPS 8 0.173927 1
35
SKS 7 0.059978 13
IPS 5 0.058876 14
SKS 1 0.056959 15
SKS 2 0.055955 16
IPS 4 0.051305 17
Nilai Masuk 0.049823 18
SKS 4 0.049534 19
Angkatan 0.049028 20
Poin 0.000000 21
Gambar 4.3 Source Code Pemeringkatan Information Gain
Pada Gambar 4.3, dalam penelitian ini menggunakan kasus penyeleksian atribut dari yang terbaik dengan mengambil secara manual dari list yang telah dibuat dari hasil pemeringkatan atribut, seperti contohnya atribut = ranked[:5], yang berarti telah diambil 5 atribut terbaik dari pemeringkatan information gain sebagai feature dalam proses klasifikasi yang akan dilakukan setelah tahap ini.
4.3 Klasifikasi
Terdapat dua pemodelan yang dibangun, yaitu naïve bayes dan random forest.
Untuk pemodelan naïve bayes menggunakan fungsi GaussianNB dari library sklearn.naive_bayes tanpa adanya masukan apapun. Sedangkan untuk pemodelan random forest menggunakan fungsi RandomForestClassifier dari library sklearn.ensemble dengan menggunakan masukan n_estimators(pohon) =
36
10,30,100; criterion = entropy dan random_state = 0 agar tidak terjadi keserampangan(randomness) pada proses bootstrapping dari sampel yang digunakan saat membangun pohon setiap program dijalankan. Implementasi klasifikasi Random Forest dan Naïve Bayes dengan menggunakan Cross Validation ditunjukkan pada Gambar 4.4 dan Gambar 4.5.
Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation
Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation
37 4.4 Pengujian
Pengujian dari data dan hasil klasifikasi dari klasifikasi Random Forest dan Naïve Bayes.
4.4.1 Uji Variasi Atribut
Hasil pengujian penggunaan 1 atribut hingga 10 atribut terbaik adalah sebagai berikut:
1. Menggunakan 1 Atribut
Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8)
No. Percobaan Fold Akurasi (%) metode random forest dengan menggunakan 30 dan 100 pohon dan nilai k = 10 sedangkan untuk naïve bayes mendapatkan akurasi yang paling tinggi hanyalah 52,59% dengan menggunakan nilai k=10.
2. Menggunakan 2 Atribut
Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama TA)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 72,68
2 RF (10 Pohon) 3 77,50
3 RF (30 Pohon) 3 77,93
38 78,79% oleh metode random forest dengan menggunakan 10 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 72,76% dengan menggunakan nilai k = 5.
3. Menggunakan 3 Atribut
Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA dan SKS 8) terbaik yaitu IPS 8, Lama TA dan SKS 8 menghasilkan akurasi terbaik
39
yaitu 86,72% oleh metode random forest dengan menggunakan 10 dan 30 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 77,24% dengan menggunakan nilai k = 5.
4. Menggunakan 4 Atribut
Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA, SKS 8 dan IPS 7) terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS 7 menghasilkan akurasi terbaik yaitu 84,39% oleh metode random forest dengan menggunakan 100 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 78,53% dengan menggunakan nilai k = 10.
5. Menggunakan 5 Atribut
Tabel 4.8 Hasil Pengujian menggunakan 5 Atribut (IPS 8, Lama TA, SKS 8, IPS 7 dan IPS 2)
40 menggunakan 100 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 77,24 % dengan menggunakan nilai k = 10.
6. Menggunakan 6 Atribut
Tabel 4.9 Hasil Pengujian menggunakan 6 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2 dan SKS 3)
41
menghasilkan akurasi terbaik yaitu 87,24% oleh metode random forest dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 78,28 % dengan menggunakan nilai k = 10.
7. Menggunakan 7 Atribut
Tabel 4.10 Hasil Pengujian menggunakan 7 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1) menghasilkan akurasi terbaik yaitu 87,76% oleh metode random forest dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 77,07% dengan menggunakan nilai k = 10.
8. Menggunakan 8 Atribut
42
Tabel 4.11 Hasil Pengujian menggunakan 8 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan SKS 6) SKS 6 menghasilkan akurasi terbaik yaitu 87,50% oleh metode random forest dengan menggunakan 30 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 76,63% dengan menggunakan nilai k = 10.
9. Menggunakan 9 Atribut
Tabel 4.12 Hasil Pengujian menggunakan 9 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5)
43 sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 74,74% dengan menggunakan nilai k = 10.
10. Menggunakan 10 Atribut
Tabel 4.13 Hasil Pengujian menggunakan 10 Atribut (IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6) metode random forest dengan menggunakan 30 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi hanyalah 74,48% dengan menggunakan nilai k = 10.
44 4.5 Analisis Hasil
Dari semua percobaan yang telah dilakukan pada tahap sebelumnya, diketahui bahwa jumlah k dalam fold sangat berpengaruh dimana lebih banyak k juga akan mendapatkan akurasi yang lebih baik. Perbandingan akurasi terbaik Naïve Bayes dan Random Forest dari berbagai variasi pada tahap sebelumnya ditunjukkan pada Tabel 4.14 Hasil Optimal dari Semua Variasi.
Tabel 4.14 Hasil Optimal dari Semua Variasi Jumlah
Atribut Nama Atribut Akurasi Terbaik Random Forest
dan 10-Fold) 72,76% (5-Fold) 3 IPS 8, Lama TA, SKS 8 86,72% (30 Pohon
dan 10-Fold) 77,24% (5-Fold) 4 IPS 8, Lama TA, SKS 8, mendapatkan hasil akurasi yang berbeda-beda pada tiap variasi atribut. Tingkat akurasi tertinggi sebesar 88,53% menggunakan 9 atribut terbaik dan akurasi
45
terendah sebesar 52,59% menggunakan 1 atribut terbaik. Tingkat akurasi tertinggi tersebut didapatkan oleh Random Forest dengan akurasi sebesar 88,53% dari menggunakan 100 pohon, 5-fold dan menggunakan 9 atribut terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5. Sedangkan Naïve Bayes, hanya mendapatkan akurasi paling tinggi sebesar 78.53% dari menggunakan 10-fold dan menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS 7.
Berdasarkan penelitian dari pengujian variasi atribut tersebut, diketahui untuk random forest, menggunakan lebih banyak atribut akan lebih baik juga akurasinya dan mencapai akurasi optimal saat menggunakan 9 atribut terbaik, sedangkan untuk naïve bayes mencapai akurasi optimal pada saat menggunakan 4 atribut terbaik. Hal ini dapat dilihat di grafik tingkat akurasi pada Gambar 4.6.
Gambar 4.6 Grafik Tingkat Akurasi
50,00%
Akurasi Random Forest Akurasi Naive Bayes
46 4.6 Interface Perangkat Lunak
Untuk interface perangkat lunak pada penelitian ini, pengguna akan diberikan kebebasan untuk memilih atribut yang diinginkan, nilai k yang diinginkan dan juga banyak pohon yang diinginkan untuk klasifikasi Random Forest. Interface tersebut ditunjukkan pada Gambar 4.7.
Gambar 4.7 Interface Program
Langkah-langkah dari penggunaan interface tersebut adalah sebagai berikut.
1. Masukkan Data.
Membaca data yang diinginkan dari direktori komputer dengan format .csv dan menampilkannya seperti yang ditunjukkan pada Gambar 4.8.
47
Gambar 4.8 Interface Masukkan Data
2. Pemodelan
Pengguna dipersilahkan untuk memilih atribut, nilai k dari fold dan pohon yang diinginkan lalu dengan menekan tombol modelling maka akan mengeluarkan akurasi dari naïve bayes dan random forest berdasarkan masukan tersebut seperti yang ditunjukkan pada Gambar 4.9.
48
Gambar 4.9 Interface Pemodelan
3. Uji Data Tunggal
Program akan menentukan hasil klasifikasi berdasarkan masukan dan data yang dimasukkan oleh pengguna sesuai dengan atribut yang dipilih pengguna yang ditunjukkan pada, field nya akan terbuka sesuai dengan atribut yang dipilih pengguna. Contoh atribut yang dipilih dan field yang terbuka sesuai atribut yang dipilih ditunjukkan pada Gambar 4.10 dan Gambar 4.11.
49
Gambar 4.10 Atribut yang dipilih
Gambar 4.11 Interface Uji Data Tunggal
50 BAB V PENUTUP
5.1 Kesimpulan
Berdasarkan hasil analisis yang telah dilakukan, diperoleh beberapa kesimpulan sebagai berikut:
1. Penelitian ini menghasilkan metode terbaik untuk melakukan klasifikasi data ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma adalah metode Random Forest dengan tingkat akurasi tertinggi sebesar 88,53% dari menggunakan nilai k = 10, menggunakan 100 pohon dan menggunakan 9 atribut terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5. Sedangkan Naïve Bayes, hanya mendapatkan akurasi tertinggi sebesar 78.53% dari menggunakan nilai k = 10 dan menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS 7.
2. Untuk kedua pemodelan, jumlah k dalam fold sangat berpengaruh terhadap akurasi yang dihasilkan, dimana jika lebih banyak jumlah k akan mendapatkan akurasi yang lebih baik. Lalu untuk pemodelan Random Forest, akan mendapatkan akurasi yang lebih baik jika menggunakan lebih banyak pohon walaupun akurasi optimalnya terdapat pada saat menggunakan 30 pohon.
5.2 Saran
Saran yang dapat diberikan dari hasil penelitian ini adalah:
1. Untuk penelitian berikutnya, dapat dilakukan komparasi Naïve Bayes dengan Random Forest terhadap data yang dikenai uji independensi atribut.
2. Mengembangkan hasil klasifikasi dengan menambahkan metode Support Vector Machine (SVM) sebagai perbandingan akurasinya.
51
3. Menambahkan atribut-atribut lain yang lebih mempengaruhi ketepatan waktu lulus mahasiswa dan juga memperbanyak variasinya.
52
DAFTAR PUSTAKA
Badan Akreditasi Nasional Perguruan Tinggi. (2011). Buku II Standar dan Prosedur Akreditasi Institusi Perguruan Tinggi.
Bawono, B., & Wasono, R. (2019). PERBANDINGAN METODE RANDOM FOREST DAN NAÏVE BAYES UNTUK KLASIFIKASI DEBITUR BERDASARKAN KUALITAS KREDIT.
Bengio, Y., & Grandvalet, Y. (2004). No Unbiased Estimator of the Variance ofK-Fold Cross-Validation. Journal OfMachine Learning Research 5 (2004), 302(4), 860–864. https://doi.org/10.1016/S0006-291X(03)00224-9
Breiman, L. (2001). Random forests. Random Forests, 1–122.
https://doi.org/10.1201/9780367816377-11
Brownlee, J. (2014). Better Naive Bayes: 12 Tips To Get The Most From The Naive Bayes Algorithm. In Machine Learning Mastery.
https://machinelearningmastery.com/better-naive-bayes/
Gata, W., Basri, H., Hidayat, R., Patras, Y. E., Baharuddin, B., Fatmasari, R., Tohari, S., & Wardhani, N. K. (2019). Algorithm Implementations Naïve Bayes, Random Forest. C4.5 on Online Gaming for Learning Achievement Predictions. 258(Icream 2018). https://doi.org/10.2991/icream-18.2019.1 Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (Vol. 05).
https://scholar.google.ru/scholar?hl=ru&as_sdt=0%2C5&q=Data+Mining%3 A+The+Textbook&btnG=
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In Data Mining: Concepts and Techniques. https://doi.org/10.1016/C2009-0-61819-5
Hidayat, A. (2016). Algoritma Naive Bayes. Https://Arfianhidayat.Com/Algoritma-Naive-Bayes.
Kang, H., Yoo, S. J., & Han, D. (2012). Senti-lexicon and improved Naïve Bayes algorithms for sentiment analysis of restaurant reviews. Expert Systems with Applications, 39.5, 6000–6010.
Khozeimeh, F., Alizadehsani, R., Roshanzamir, M., Khosravi, A., Layegh, P., &
53
Nahavandi, S. (2017). An expert system for selecting wart treatment method.
Computers in Biology and Medicine, 81, 167–175.
Meilani, B. D., Wahyudiana, S., Putri, A. Y. P., & Pakarbudi, A. (2019). Klasifikasi Identifikasi Faktor Penyebab Ketidaktepatan Masa Lulus Mahasiswa dengan Metode Naïve Bayes Classifier. Seminar Nasional Sains Dan Teknologi Terapan, 297–302.
Menteri Riset Teknologi dan Pendidikan Tinggi. (2015). Peraturan Menteri Riset, Teknologi, dan Pendidikan Nomor 44 Tahun 2015 tentang Standar Nasional Pendidikan Tinggi.
Muslehatin, W., Ibnu, M., & Mustakim. (2017). Penerapan Naïve Bayes Classification untuk Klasifikasi Tingkat Kemungkinan Obesitas Mahasiswa Sistem Informasi UIN Suska Riau. Seminar Nasional Teknologi Informasi, Komunikasi Dan Industri (SNTIKI), 7.
Nugroho, Yuda Septian. (2014). DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN MAHASISWA UNIVERSITAS DIAN NUSWANTORO. The American Journal of Medicine, 75(3 PART A), 1–3. https://doi.org/10.1016/0002-9343(83)90110-9
Nugroho, Yusuf Sulistyo, & Emiliyawati, N. (2017). Sistem Klasifikasi Variabel Tingkat Penerimaan Konsumen Terhadap Mobil Menggunakan Metode Random Forest. Jurnal Teknik Elektro, 9(1), 24–29.
https://doi.org/10.15294/jte.v9i1.10452
Sasongko, T. B. (2016). Komparasi dan Analisis Kinerja Model Algoritma SVM dan PSO-SVM. Jurnal Teknik Informatika Dan Sistem Informasi, 2, 244–253.
Sinaga, A. D. (2020). PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA MENGGUNAKAN METODE KLASIFIKASI NAIVE BAYES.
Syukri Mustafa, M., Rizky Ramadhan, M., & Thenata, A. P. (2017). Implementasi Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Citec Journal, 4(2), 151–162.
Universitas Sanata Dharma. (2017). PROGRAM PENDIDIKAN MAHASISWA FST
54 USD TAHUN ANGKATAN 2017.
Yahya, S. A. (2018). KLASIFIKASI KETEPATAN LAMA STUDI MAHASISWA MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DAN RANDOM FOREST.
Zhang, C., Liu, C., Zhang, X., & Almpanidis, G. (2017). An up-to-date comparison of state-of-the-art classification algorithms. Expert Systems with Applications.
55
LAMPIRAN
56 Lampiran 1. Data Penelitian
57
Lampiran 2. Source Code Program (hanya yang berkaitan dengan penelitian saja) 1. Library dari ModelSkripsi.py
2. Library dari MainSkripsi.py
58 3. Data Pre-processing
4. Modelling
59 5. Modelling Random Forest
6. Modelling Naïve Bayes
60 7. ujiTunggal
8. Uji Data Tunggal
61
9. Source code memanggil method dari menge-klik tombol