BAB III METODE PENELITIAN
3.4. Desain Alat Uji
3.4.1. Proses Klasifikasi
3.4.1.2. Pembagian Data
Pembagian data akan dilakukan pada proses K-fold validation. Pada penelitian ini dilakukan 3 percobaan, yaitu 3, 5, dan 10 fold. Apabila k bernilai 10 maka terdapat 10 subset data dimana 9 subset digunakan untuk data training dan 1 subset digunakan untuk data testing.
Pemisahan data menggunakan fungsi K-fold dengan parameter n_splits, yaitu banyaknya fold. Berikut langkah-langkah dalam pembagian data.
Langkah 1: Inisiasi nilai K-fold
Langkah 2: Bagi data menjadi k subset yang berukuran
22
sama
Langkah 3: Gunakan setiap subset atau k-(k-1) sebagai data testing dan sisanya atau k-1 sebagai data training 3.4.1.3. Modeling
3.4.1.3.1. Random Forest
Pada tahap modeling menggunakan algoritma Random Forest setelah data diproses ditahap prepocessing, pembagian data, pemisahan data, selanjutnya data diolah menggunakan algoritma Random Forest. Cara kerja Random Forest yaitu membentuk beberapa pohon dari hasil bootstraping data training kemudian dari banyak pohon yang dibentuk akan menghasilkan klasifikasi. Klasifikasi akhir untuk testing dipilih berdasarkan majority voting dari hasil klasifikasi berbagai pohon. Cara mengklasifikasi hasil akhir klasifikasi dengan Random Forest dapat dilihat di BAB II.
Membangun model Random Forest menggunakan method RandomForestClassifier dengan parameter X_test, X_train, bootstrap, random_state, criterion, max_features dan n_estimator. Dimana bootstrap bernilai “true”
digunakan untuk membangun pohon menggunakan bootstrap dan replcement data set akan digunakan untuk membangun pohon. Nilai dari random_state yaitu “42” digunakan sebagai seed yang tidak peduli berapa kali program dieksekusi maka nilai acak yang dihasilkan akan tetap sama. Nilai dari criterion yaitu “entropy”
digunakan untuk mengukur kualitas split berdasarkan nilai dari entropy. Nilai dari max_features yaitu “sqrt” digunakan untuk menentukan jumlah feature yang perlu dipertimbangkan untuk membangun pohon dari sqrt(n_features). Nilai n_estimator digunakan untuk menentukan jumlah pohon yang akan dibangun.
Pada penelitian ini akan dilakukan 5 percobaan menggunakan banyak pohon sejumlah 10, 20, 60, 100, dan 200. Berikut langkah untuk membuat sebuah pohon :
1. Ambil data secara random dari dataset
2. Pilih kolom atribut secara acak sebanyak max_features
3. Buat node
a. Tentukan median dari setiap atribut untuk mendapatkan partisi setiap atribut
b. Hitung entropy setiap partisi dari semua atribut
c. Hitung information gain dari setiap atribut d. Pilih atribut yang memiliki nilai
information gain tertinggi
e. Hitung entropy untuk setiap partisi untuk dijadikan node
4. Bagi data berdasarkan node pada perhitungan nomor 2
5. Ulangi langkah 2 dengan data nomor 3, sampai data tersisa satu atau lebih, namun kategori data tidak bisa dibagi lagi.
24
3.4.1.3.2. Adaboost
Pada tahap modeling menggunakan algoritma Adaboost setelah data diproses ditahap prepocessing, pembagian data, pemisahan data, selanjutnya data diolah menggunakan algoritma Adaboost. Cara kerja Adaboost yaitu membentuk kumpulan pohon kecil (stump) yang dibuat secara sekuensial. Dimana tingkat kesalahan pada stump pertama akan mempengaruhi pembuatan pohon kedua dan seterusnya. Amatan yang “salah klasifikasi” pada satu tahap, akan ditingkatkan bobotnya pada tahap berikutnya. Klasifikasi akhir dipertimbangkan berdasarkan bobot suara setiap pohon. Cara mengklasifikasi hasil akhir klasifikasi dengan Adaboost dapat dilihat di BAB II.
Membangun model Adaboost menggunakan method AdaboostClassifier dengan parameter base_estimator, random_state dan n_estimator.
Dimana base_estimator bernilai
“DecisionTreeClassifier” digunakan untuk membangun dasar estimator dari ensemble yang akan dibangun. Nilai dari random_state yaitu
“42” digunakan sebagai seed yang tidak peduli berapa kali program dieksekusi maka nilai acak yang dihasilkan akan tetap sama. Nilai n_estimator digunakan untuk menentukan jumlah pohon yang akan dibangun.
Pada penelitian ini akan dilakukan 5 percobaan menggunakan banyak pohon sejumlah 10, 20, 60, 100, dan 200. Berikut langkah untuk
membuat sebuah pohon :
1. Berikan bobot untuk setiap atribut amatan 2. Hitung nilai entropy total
3. Hitung information gain dari setiap atribut a. Tentukan median dari setiap atribut untuk
mendapatkan partisi setiap atribut
b. Hitung entropy setiap partisi dari semua atribut
c. Hitung information gain
4. Pohon yang terbentuk merupakan pohon yang memiliki nilai information gain terbesar 5. Hitung error rate berdasarkan perbandingan hasil klasifikasi lama dengan hasil klasifikasi baru berdasarkan pohon yang telah terbentuk 6. Hitung bobot suara
7. Tingkatkan bobot amatan yang salah klasifikasi
8. Lakukan normalisasi pada bobot baru
9. Gunakan bobot baru untuk membangun pohon berikutnya
Ulangi langkah 1 sampai dengan langkahh terakhir sampai terbentuk pohon sebanyak n_estimators. Kemudian totalkan bobot suara berdasarkan setiap pohon yang terbentuk
3.4.1.4. Akurasi
Perhitungan akurasi menggunakan confusion matrix.
Confusion matrix dibuat menggunakan fungsi confusion_matrix dengan tiga parameter, yaitu label testing, label klasifikasi dan kategori label. Setelah matrix berhasil terbentuk maka akurasi diperoleh dengan menjumlahkan data yang diklasifikasi benar dibagi jumlah
26
keseluruhan data yang benar dan tidak benar (jumlah data testing) kemudian dikali 100%. Berikut langkah-langkah menghitung akurasi menggunakan confusion matrix:
Langkah 1 : Buat matrix
Langkah 2 : Buat variabel N = 0, klasifikasi_benar Langkah 3 : Untuk setiap elemen (i,j) pada matrix, lakukan langkah 4 sampai 5
Langkah 4 : Jika i == j, tambahkan matrix[i][j] ke klasifikasi_benar, klasifikasi_benar += matrix[i][j]
Langkah 5 : Tambahkan matrix[i][j] ke variabel N, N += matrix[i][j]
Langkah 6 : Hitung akurasi = (klasifikasi_benar / N) * 100
3.4.2. Proses Uji Data Tunggal
Pada proses ini dilakukan klasifikasi terhadap uji data tunggal
Gambar 3.3. Desain Proses Uji Data Tunggal
3.5. Skenario Pengujian 3.5.1. Random Forest
Pada penelitian ini, penulis akan melakukan 3 kali percobaan dengan K-fold 3, 5, dan 10. Setiap fold akan diuji dengan 5 kali percobaan n_estimators yaitu 10, 20, 60, 100 dan 200. Pada Tabel 3.1. dijelaskan mengenai percobaan yang akan dilakukan
Tabel 3.1. Skenario Penelitian Random Forest
Percobaan K-fold n_estimators
1 3 3.2. dijelaskan mengenai percobaan yang akan dilakukan
Tabel 3.2. Skenario Penelitian Adaboost
Percobaan K-fold n_estimators
1 3
28
Tabel 3.2. Skenario Penelitian Adaboost
2 5
10 20 60 100 200
3 10
10 20 60 100 200
3.6. Perancangan Sistem 3.6.1. Input
Sistem perangkat lunak pada penelitian ini memerlukan inputan berupa file dataset yang berekstensi file Excel, jumlah tree dan jumlah K-fold.
3.6.2. Proses
Berikut tahapan mengubah proses input menjadi output pada penelitian ini dengan menggunakan Random Forest dan Adaboost
Gambar 3.4. Diagram Proses
3.6.3. Output
Output yang dihasilkan oleh sistem pada penelitian ini berupa gambar tree hasil dari pemodelan Random Forest maupun Adaboost, akurasi dan hasil klasifikasi yang didapatkan.
3.7. Diagram Use Case
Diagram use case alat uji dapat dilihat pada Gambar 3.5.
Gambar 3.5. Diagram Use Case Alat Uji
3.8. Narasi Use Case
Narasi use case berisi langkah-langkah aksi dari user dan reaksi sistem dari setiap use case
a. Input dataset
Berikut narasi use case Input dataset dapat dilihat pada Tabel 3.3.
Tabel 3.3. Narasi Use Case Input Dataset
Nama Use Case Input dataset
Aktor User
Deskripsi Aktor menginputkan dataset
Kondisi Awal Aktor berada pada halaman data mining Kondisi Akhir Dataset berhasil Diinputkan
Skenarion Usecase
Aktor Sistem
1. Step 1: Aktor mengklik tombol Input Data
2. Step 2: Sistem menampilkan file explorer tempat pengambilan data
30
Tabel 3.3. Narasi Use Case Input Dataset
3. Step 3: Aktor memilih file dataset yang akan dimasukan
4. Step 4: Sistem menampilkan dataset
b. Klasifikasi Random Forest & Adaboost
Berikut narasi use case Klasifikasi Random Forest & Adaboost dapat dilihat pada Tabel 3.4.
Tabel 3.4. Narasi Use Case Klasifikasi RF & Adaboost
Nama Use Case Klasifikasi Random Forest & Adaboost
Aktor User
Deskripsi Aktor melakukan klasifikasi Random Forest &
Adaboost terhadap dataset
Kondisi Awal Aktor berada pada halaman data mining
Kondisi Akhir Sistem menampilkan akurasi dan confussion matrix pohon dan nilai K-fold
6.
c. Uji data tunggal
Berikut narasi use case Uji Data Tunggal dapat dilihat pada Tabel 3.5.
Tabel 3.5. Narasi Use Case Uji Data Tunggal
Nama Use Case Uji Data Tunggal RF
Aktor User
Deskripsi Aktor menguji data tunggal dan menampilkan hasil klasifikasi yang telah dibuat oleh sistem Kondisi Awal Aktor berada pada halaman Uji Data Tunggal Kondisi Akhir Sistem menampilkan hasil klasifikasi
Skenarion Usecase
Aktor Sistem
Step 1: Aktor mengklik tombol “Uji Data
Step 4: Aktor mengklik tombol “PROSES”
Pada penelitian ini, penulis membangun GUI untuk keperluan perhitungan.
3.9.1. Halaman Data Mining
Jika pada halaman utama memilih Data Mining maka akan ditampilkan halaman berikut. Kemudian, user diminta untuk memasukan file dan mengisikan nilai K-fold serta jumlah pohon.
Maka. sistem akan menampilkan hasil akurasi dan confusion matrix.
32
Gambar 3.6. Halaman Data Mining
3.9.2. Halaman Uji Data Tunggal
Jika pada halaman utama user memilih Uji Data Tunggal maka akan ditampilkan halaman berikut. Kemudian, user diminta untuk mengisi semua inputan. Maka. sistem akan menampilkan hasil klasifikasi.
Gambar 3.7. Halaman Uji Data Tunggal
33 BAB IV
IMPLEMENTASI DAN ANALISIS HASIL 4.1. Implementasi Perangkat Lunak
Pada penelitian ini, penulis menggunakan tools Visual Studio untuk membuat program code program dengan bahasa python.
4.1.1. Prepocessing
Tahap ini dilakukan untuk mempersiapkan data agar siap diolah.
4.1.1.1. Data Cleaning
Terdapat missing value pada data jawaban survei kuesioner pada beberapa atribut. Sehingga, untuk menangani missing value tersebut penulis menghapus baris data yang mengandung missing value. Proses data cleaning ini terdapat pada method prepo di file MainWindow.py. Code program untuk data cleaning dapat dilihat pada Gambar 4.1.
Gambar 4.1. Code Program Data Cleaning
4.1.1.2. Data Selection
Pada proses data selection akan dilakukan penghapusan atribut yang tidak berpengaruh dalam penelitian. Pada penelitian ini, penulis melakukan proses perangkingan information gain atribut menggunakan aplikasi WEKA.
Pada tahap awal, penulis menghapus atribut-atribut yang bernilai unik. Atribut yang dihapus dapat dilihat pada Tabel 4.1.
34
Tabel 4.1. Daftar Atribut Unik
No Atribut Keterangan
1 No Atribut unik
2 NIM Atribut unik, id
data
3 Nama Mahasiswa Atribut unik
4 No HP Atribut unik
5 Angkatan Atribut unik
6 Tgl_input Atribut unik
4.1.1.2.1. Perangkingan Atribut
Perangkingan atribut dilakukan berdasarkan information gain menggunakan aplikasi WEKA. Hasil perangkingan atribut berdasarkan information gain dapat dilihat pada Gambar 4.2. Penjelasan mengenai keterangan dari setiap atribut dapat dilihat pada Lampiran 1.
Gambar 4.2. Perangkingan Atribut WEKA
Gambar 4.2. Perangkingan Atribut WEKA
4.1.1.2.2. Klasifikasi IPS untuk Seleksi Atribut
Penulis melakukan dua percobaan terhadap hasil seleksi fitur berdasarkan information gain tersebut yaitu dengan menggunakan pemilihan atribut dengan batas treshold (treshold > 0) dan reduksi jumlah fitur tertentu (n = 10, 13, 15, 17, 20, 23, 25, 27, 30, 33, 35, 37, 40, 43, 45. 47, 50). Atribut yang digunakan untuk setiap percobaan dapat dilihat pada Tabel 4.2.
Tabel 4.2. Hasil Seleksi Atribut
Seleksi Atribut
Atribut yang terpilih
Treshold Treshold >
0
Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9,
36
Tabel 4.2. Hasil Seleksi Atribut
j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b, j30a, j28e, j33b, j33a, j32c, j29c, j31c, j30b, j30c
Jumlah
Tabel 4.2. Hasil Seleksi Atribut j30a, j28e, j33b, j33a, j32c, j29c
30
Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9,
38
Tabel 4.2. Hasil Seleksi Atribut
j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b, j30a, j28e, j33b
27
Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9, j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b
25 Kelamin, j28a, Lokasi, j25, j11, j23, j21
Komparasi tingkat akurasi dari 2 algoritma yaitu Random Forest dan Adaboost dengan K-fold bernilai 10 dan jumlah pohon sebanyak 100 pohon untuk klasifikasi IPS setelah seleksi atribut dapat dilihat pada Tabel 4.3.
Tabel 4.3. Hasil Akurasi Seleksi Atribut
Seleksi Atribut
Akurasi
Random Forest Adaboost
Treshold > 0 67.86% 58.36%
Gambar 4.3. menunjukkan grafik komparasi tingkat akurasi dari 2 algoritma yaitu Random Forest dan Adaboost pada implementasi teknik seleksi atribut information gain.
40
Gambar 4.3. Akurasi Seleksi Atribut
Dari hasil Tabel 4.3. dan Gambar 4.3., penullis mereduksi 40 atribut dan menjadikan 10 atribut yang tersisa untuk diolah pada penelitian karena memiliki tingkat akurasi tertinggi, yaitu 74.63% untuk algoritma Random Forest dan 59.18% untuk algoritma Adaboost, 10 atribut yang digunakan dan telah diseleksi, yaitu Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21. Proses data penghapusan atribut yang tidak relevan terdapat pada method prepo di file MainWindow.py
Gambar 4.4. Code Program Data Selection
4.1.1.3. Transformasi Data
Pada proses transformasi data akan dilakukan perubahan bentuk data ke bentuk yang lebih sesuai seperti ketentuan yang sudah dijelaskan di bab 3. Serta dilakukan normalisasi menggunakan metode MinMaxScaler dengan Min = 0 dan Max = 1. Contoh transformasi dan normalisasi data dapat dilihat pada Tabel 4.4.
Tabel 4.4. Transformasi dan Normalisasi Data
Atribut Data Awal Transformasi Normalisasi Jenis
Penulis melakukan dua percobaan untuk proses transformasi nilai IPS. Percobaan pertama rentang IPS kelas A IPS >
3.50, kelas B 2.75 < IPS ≤ 3.50, kelas C 2.25 < IPS ≤ 3.75, kelas D IPS ≤ 2.25. Percobaan kedua rentang IPS dimulai dari kelas A IPS > 3, kelas B 2 < IPS ≤ 3, kelas C 1 < IPS ≤ 2, kelas D IPS ≤ 1. Jumlah setiap kelasnya dapat dilihat pada Tabel 4.5.
Tabel 4.5. Jumlah Data Setiap Kelas
Kelas Percobaan Pertama Percobaan Kedua
A 179 1022
B 2471 6476
C 3518 620
D 1971 21
42
Berdasarkan hasil percobaan diatas, penulis menggunakan rentang pada percobaan pertama untuk transformasi nilai IPS karena jumlah data setiap kelasnya lebih seimbang dibandingkan dengan percobaan kedua.
Proses transformasi dan normalisasi data terdapat pada method prepo di file MainWindow.py
Gambar 4.5. Code Program Transformasi Data
4.1.1.4. Pembagian Data
Pembagian data dilakukan dengan membuat objek menggunakan kelas K-fold dari library sckit learn dengan mengisi parameter n_splits. Proses pembagian data terdapat pada method proses_rf dan proses_Adaboost di file MainWindow.py. Code program untuk melakukan pembagian data dapat dilihat pada Gambar 4.6.
Gambar 4.6. Code Program Pembagian Data
4.1.2. Modeling
4.1.2.1. Random Forest
Pemodelan Random Forest dibangun menggunakan kelas RandomForestClassification dari library sckit learn.
Pemodelan ini dilakukan di method proses_rf yang ada pada file DataMiningWindow.py. Nilai parameter yang digunakan untuk membangun model Random Forest sudah dijelaskan di bab 3. Code program untuk melakukan
pembuatan model Random Forest data dapat dilihat pada Gambar 4.7.
Gambar 4.7. Code Program Model Random Forest
4.1.2.2. Adaboost
Pemodelan Adaboost dibangun menggunakan kelas AdaboostClassification dari library sckit learn. Pemodelan ini dilakukan di method proses_adaboost yang ada pada file DataMiningWindow.py. Nilai parameter yang digunakan untuk membangun model Adaboost sudah dijelaskan di bab 3. Code program untuk melakukan pembuatan model Adaboost data dapat dilihat pada Gambar 4.8.
44
Gambar 4.8. Code Program Model Adaboost
4.1.3. Akurasi
Proses perhitungan akurasi hasil klasifikasi menggunakan hasil perhitungan confusion matrix dari library scikit learn. Kemudian menjadikan hasil dari perhitungan confusion matrix sebagai parameter ke fungsi akurasi. Code program untuk melakukan perhitungan akurasi dapat dilihat pada Gambar 4.9.
Gambar 4.9. Code Program Hitung Akurasi
4.2. Analisa Hasil
4.2.1. Pengujian Perangkat Lunak
4.2.1.1. Prosedur Pengujian
Penulis melakukan pengujian menggunakan metode
Blackbox yang dapat dilihat pada lampiran 3.
4.2.1.2. Evaluasi Pengujian
Berdasarkan hasil pengujian, perangkat lunak sudah berjalan dengan baik dan sesuai dengan harapan. Dapat dilihat selama proses pengujian, sistem dapat menjalankan setiap use case yang sudah dibuat.
4.2.2. Pengujian Perangkat Lunak Menggunakan Dataset
Penulis melakukan pengujian klasifikasi IPS dengan menggunakan K-fold 3, 5, dan 10. Setiap K-fold diuji dengan jumlah pohon yang berbeda, yaitu 10, 20, 60, 100, dan 200.
4.2.2.1. Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Universitas Sanata Dharma
Pengujian klasifikasi IPS menggunakan K-fold 3, 5, dan 10.
Hasil akurasi dari setiap K-fold dapat dilihat pada Tabel 4.6.
sampai Tabel 4.8.
Tabel 4.6. Pengujian Klasifikasi 3 K-fold
No Jumlah Pohon
Akurasi Random Forest
Akurasi Adaboost
1 10 72.34% 47.22%
2 20 73.18% 51.94%
3 60 73.73% 52.73%
4 100 73.42% 54.02%
5 200 73.57% 59.25%
46
Tabel 4.7. Pengujian Klasifikasi 5 K-fold
No Jumlah Pohon
Akurasi Random Forest
Akurasi Adaboost
1 10 72.74% 46.27%
2 20 73.83% 50.93%
3 60 74.22% 52.40%
4 100 74.05% 55.28%
5 200 74.10% 58.59%
Tabel 4.8. Pengujian Klasifikasi 10 K-fold
No Jumlah Pohon
Akurasi Random Forest
Akurasi Adaboost
1 10 73.41% 46.92%
2 20 74.67% 50.83%
3 60 75.05% 52.05%
4 100 74.62% 55.47%
5 200 74.63% 59.18%
Gambar 4.10. Pengujian Klasifikasi
4.2.2.2. Evaluasi Hasil Pengujian Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Universitas Sanata Dharma Gambar 4.10. menunjukkan bahwa pengujian model klasifikasi dengan kombinasi nilai K-fold dan jumlah pohon pada algoritma Random Forest dan Adaboost didapatkan hasil akurasi tertinggi dihasilkan oleh algortima Random Forest dengan K-fold 10 dan jumlah pohon 60 yaitu 75.05%. Dengan adanya seleksi atribut juga menyebabkan tingkat akurasi Random Forest semakin meningkat. Hal tersebut dapat dikarenakan Random Forest merupakan metode ensemble yang lebih stabil dibandingkan Decision Tree yang cenderung kurang stabil.
Hasil confusion matrix dari algoritma Random Forest dengan pohon yang paling optimal untuk 10-fold cross validation dapat dilihat pada tabel 4.9. – 4.18.
Tabel 4.9. Hasil Fold Pertama
A B C D
A 5 8 2 1
B 4 180 51 3
C 0 57 276 24
D 0 3 34 164
Akurasi = x 100% = 76.78%
48
Tabel 4.10. Hasil Fold Kedua
A B C D
A 5 9 3 2
B 2 194 58 4
C 1 44 283 18
D 0 8 28 155
Akurasi = = 78.26%
Tabel 4.11. Hasil Fold Ketiga
A B C D
A 3 5 1 1
B 5 172 77 6
C 3 46 260 26
D 1 8 39 161
Akurasi = = 73.22%
Tabel 4.12. Hasil Fold Keempat
A B C D
A 3 13 4 4
B 7 155 78 3
C 2 41 270 31
D 2 13 33 155
Akurasi = = 71.62%
Tabel 4.13. Hasil Fold Kelima
A B C D
A 2 10 2 3
B 1 167 64 7
C 0 38 301 27
D 1 13 30 148
Akurasi = = 75.92%
Tabel 4.14. Hasil Fold Keenam
A B C D
A 1 7 2 5
B 3 181 55 2
C 2 46 282 27
D 0 12 26 163
Akurasi = = 77.03%
Tabel 4.15. Hasil Fold Ketujuh
A B C D
A 3 13 2 2
B 3 163 60 5
C 0 48 288 26
D 2 11 27 161
Akurasi = = 75.55%
50
Tabel 4.16. Hasil Fold Kedelapan
A B C D
A 2 11 7 0
B 1 168 68 10
C 1 51 260 30
D 0 12 19 174
Akurasi = = 74.20%
Tabel 4.17. Hasil Fold Kesembilan
A B C D
A 4 7 4 3
B 3 201 57 4
C 2 58 257 33
D 0 10 34 137
Akurasi = = 73.59%
Tabel 4.18. Hasil Fold Kesepuluh
A B C D
A 3 12 1 4
B 5 162 73 8
C 0 44 291 24
D 0 7 31 147
Akurasi = = 74.29%
Total = = 75.05%
4.2.2.3. Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Fakultas di Universitas Sanata Dharma
Berdasarkan hasil pengujian menggunakan data universitas, didapatkan tingkat akurasi tertinggi sebesar 75.05% dengan kelas C yang paling dominan jika lihat dari confusion matrix. Oleh karena itu, penulis mencoba mempersempit ruang lingkup data dengan menggunakan data setiap fakultas. Tujuannya untuk melihat apakah jika dengan menggunakan data fakultas akan menghasilkan tingkat akurasi yang lebih baik.
Pengujian klasifikasi IPS terhadap data fakultas menggunakan algoritma, K-fold dan jumlah pohon yang memberikan hasil terbaik dari pengujian terhadap data universitas yaitu algoritma Random Forest, K-fold bernilai 10 dan jumlah pohon sebanyak 60 pohon. Hasil pengujian tersebut dapat dililhat pada Tabel 4.19.
Tabel 4.19. Akurasi Pengujian Data Fakultas
Nama Fakultas Akurasi
Ekonomi 70.29%
Farmasi 77.95%
Keguruan dan Ilmu Pendidikan 76.50%
Pascasarjana 77.67%
Psikologi 95.61%
Sains dan Teknologi 86.10%
Sastra 75.45%
Teologi 94.74%
52
4.2.2.4. Evaluasi Hasil Pengujian
Berdasarkan Tabel 4.19. hasil pengujian klasifikasi IPS terhadap data fakultas menunjukkan bahwa pengujian menggunakan data fakultas menghasilkan tingkat akurasi lebih tinggi dibandingkan dengan menggunakan data universitas kecuali untuk Fakultas Ekonomi. Hal tersebut dikarenakan jumlah dan isi data universitas lebih bervariasi dibandingkan dengan data fakultas. Dengan kata lain, ada perbedaan karakteristik mahasiswa disetiap fakultas. Hasil akurasi akan meningkat jika berasal dari data fakultas karena data mahasiswa fakultas lebih homogen.
4.2.3. Pengujian Uji Data Tunggal
Penulis melakukan proses pengujian data tunggal terhadap 2 data.
Data tersebut diambil dari data testing yang labelnya sudah diketahui. Hasil uji data tunggal menggunakan data acak dapat dilihat pada Gambar 4.11. sampai Gambar 4.12.
Gambar 4.11. Uji Data Tunggal Pertama
Gambar 4.12. Uji Data Tunggal Kedua
4.2.3.1. Evaluasi Hasil Pengujian
Berdasarkan hasil uji data tunggal Gambar 4.11. sampai Gambar 4.12. menghasilkan hasil klasifikasi nilai B dan C untuk label kelas IPS. Hasil klasifikasi tersebut didapat dengan menggunakan model klasifikasi terbaik, yaitu model dengan metode Random Forest dengan K-fold 10 dan jumlah pohon 60. Pada Gambar 4.13. dapat dilihat contoh pohon yang dibangun pada klasifikasi nilai IPS
Gambar 4.13. Sebagian dari Pohon Kedua
54 BAB V PENUTUP 5.1. Kesimpulan
Hasil pengujian menggunakan metode Random Forest dan Adaboost untuk mengklasifikasi nilai IPS selama masa pandemi berdasarkan hasil jawaban kuesioner Universitas Sanata Dharma, diperoleh kesimpulan bahwa Metode Random Forest dan Adaboost berhasil mengklasifikasikan indeks prestasi semester berdasar pada data kuesioner tentang keberhasilan pembelajaran online. Ada 10 atribut yang paling berpengaruh dalam proses klasifikasi nilai IPS dengan Random Forest dan Adaboost berdasarkan hasil perangkingan atribut menggunakan information gain yaitu Program Studi, Semester, j28c yang berkaitan dengan Youtube sebagai media pembelajaran online, Jenis Kelamin, j28a yang berkaitan dengan Learning Management System kampus sebagai media pembelajaran online, Lokasi, j25 yang berkaitan kemudahan mengakses buku referensi selama pembelajaran online, j11 berkaitan dengan variasi penyajian materi pembelajaran, j23 berkaitan dengan adanya kendala ketika harus berdiskusi dengan teman, j21 berkaitan dengan semangat dalam mengikuti pembelaran online.
Dari hasil seleksi atribut, didapatkan akurasi tertinggi dari hasil pengujian, yaitu menggunakan metode Random Forest dengan K-fold 10 dan jumlah pohon 60 dengan tingkat akurasi sebesar 75.05% untuk data Universitas. Dengan kata lain penggunaan algoritma Random Forest dapat meningkatkan akurasi sebesar 23% lebih baik dibandingkan dengan algoritma Adaboost. Namun, hasil uji coba menggunakan data fakultas menunjukan tingkat akurasi lebih tinggi dibandingkan dengan menggunakan data universitas karena data fakultas bersifat lebih homogen, yaitu mencapai akurasi 70.29% sampai 95.61% untuk berbagai fakultas.
5.2. Saran
Untuk meningkatkan hasil akurasi, pada penelitian selanjutnya dapat digunakan metode balancing data serta penggunaan parameter base estimator lain dalam algoritma Adaboost.
56 Daftar Pustaka
[1] Y. Fitriani, S. Defit, and G. W. Nurcahyo, “Prediksi Hasil Belajar Siswa Secara Online pada Masa Pandemi COVID-19 Menggunakan Metode C4.5,” Jurnal Sistim Informasi dan Teknologi, Sep. 2021, doi:
10.37034/jsisfotek.v3i3.149.
[2] P. Prestasi, S. Linawati, and S. Nurdiani, “PREDIKSI PRESTASI AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA RANDOM FOREST DAN C4.5,” JURNAL KHATULISTIWA
INFORMATIKA, vol. VIII, no. 1, 2020, [Online]. Available: www.bsi.ac.id
[3] M. N. Rabbani, A. Yusuf, and D. Rolliawati, “Komparasi Model Prediksi Daftar Ulang Calon Mahasiswa Baru Menggunakan Metode Decision Tree Dan Adaboost,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 10, no. 1, pp. 18–24, Jan. 2021, doi: 10.32736/sisfokom.v10i1.939.
[4] T. Volery and D. Lord, “Critical Success Factors in Online Education,”
Int. J. Educ. Manag., 2000.
[5] C. L. Dillon and C. N. Gunawerdana, “A Framework For The Evolution of Telecommunications-Based Distance Education, “in Selected Papers From The 17th World Congress of The International Council for Distance
Education, 1995.
[6] Christian, Y.(2019).JTIE (Journal of Informatics and Telecommunication Engineering), 3(1), 58-66.
[7] Nurachim, R. I. (2019). Pemilihan Model Prediksi Indeks Harga Saham Yang Dikembangkan Berdasarkan Algoritma Support Vector Machine (Svm) Atau Multilayer Percepton (Mlp) Studi Kasus : Saham Pt
Telekomunikasi Indonesia Tbk Jurnal Teknologi Informatika & Komputer Vol. 5, No. 1, Maret 2019, 5(1), 29-35.
[8] Han, Jiawe.2012.Data Mining Concepts and Techniques Third Edition.USA : Elsevier.
[9] Albunskuba, J., and Saravankumar, M. V. 2016. “Application of Data Mining Techniques in Higher Education System,” i-Manager’s Journal on Computer Science (4:1),p.8.
[10] Gorunescu, Florin. (2011), Data Mining: Concepts, Models, and Techniques. Romania : Springer
57
[11] Polimaru, Saimadhu.2017.How Random Forest Algorithm Works In Machine Learning Models using Keras di https://medium.com/the-owl/K-fold-cross-validation-in-keras-3ec4a3a00538 (diakses Maret 2021).
[12] Tan, Pang-Ning, Michael Steinbach, dan Vipin Kumar.2006.Introduction to Data Mining.Boston: Person Addision Wesley.
[13] Q. Iman and A. W. Wijayanto, “Klasifikasi keluarga penerima raskin,”
[13] Q. Iman and A. W. Wijayanto, “Klasifikasi keluarga penerima raskin,”