Pembagian Data - Proses Klasifikasi

BAB III METODE PENELITIAN

3.4. Desain Alat Uji

3.4.1. Proses Klasifikasi

3.4.1.2. Pembagian Data

Pembagian data akan dilakukan pada proses K-fold validation. Pada penelitian ini dilakukan 3 percobaan, yaitu 3, 5, dan 10 fold. Apabila k bernilai 10 maka terdapat 10 subset data dimana 9 subset digunakan untuk data training dan 1 subset digunakan untuk data testing.

Pemisahan data menggunakan fungsi K-fold dengan parameter n_splits, yaitu banyaknya fold. Berikut langkah-langkah dalam pembagian data.

Langkah 1: Inisiasi nilai K-fold

Langkah 2: Bagi data menjadi k subset yang berukuran

sama

Langkah 3: Gunakan setiap subset atau k-(k-1) sebagai data testing dan sisanya atau k-1 sebagai data training 3.4.1.3. Modeling

3.4.1.3.1. Random Forest

Pada tahap modeling menggunakan algoritma Random Forest setelah data diproses ditahap prepocessing, pembagian data, pemisahan data, selanjutnya data diolah menggunakan algoritma Random Forest. Cara kerja Random Forest yaitu membentuk beberapa pohon dari hasil bootstraping data training kemudian dari banyak pohon yang dibentuk akan menghasilkan klasifikasi. Klasifikasi akhir untuk testing dipilih berdasarkan majority voting dari hasil klasifikasi berbagai pohon. Cara mengklasifikasi hasil akhir klasifikasi dengan Random Forest dapat dilihat di BAB II.

Membangun model Random Forest menggunakan method RandomForestClassifier dengan parameter X_test, X_train, bootstrap, random_state, criterion, max_features dan n_estimator. Dimana bootstrap bernilai “true”

digunakan untuk membangun pohon menggunakan bootstrap dan replcement data set akan digunakan untuk membangun pohon. Nilai dari random_state yaitu “42” digunakan sebagai seed yang tidak peduli berapa kali program dieksekusi maka nilai acak yang dihasilkan akan tetap sama. Nilai dari criterion yaitu “entropy”

digunakan untuk mengukur kualitas split berdasarkan nilai dari entropy. Nilai dari max_features yaitu “sqrt” digunakan untuk menentukan jumlah feature yang perlu dipertimbangkan untuk membangun pohon dari sqrt(n_features). Nilai n_estimator digunakan untuk menentukan jumlah pohon yang akan dibangun.

Pada penelitian ini akan dilakukan 5 percobaan menggunakan banyak pohon sejumlah 10, 20, 60, 100, dan 200. Berikut langkah untuk membuat sebuah pohon :

1. Ambil data secara random dari dataset

2. Pilih kolom atribut secara acak sebanyak max_features

3. Buat node

a. Tentukan median dari setiap atribut untuk mendapatkan partisi setiap atribut

b. Hitung entropy setiap partisi dari semua atribut

c. Hitung information gain dari setiap atribut d. Pilih atribut yang memiliki nilai

information gain tertinggi

e. Hitung entropy untuk setiap partisi untuk dijadikan node

4. Bagi data berdasarkan node pada perhitungan nomor 2

5. Ulangi langkah 2 dengan data nomor 3, sampai data tersisa satu atau lebih, namun kategori data tidak bisa dibagi lagi.

3.4.1.3.2. Adaboost

Pada tahap modeling menggunakan algoritma Adaboost setelah data diproses ditahap prepocessing, pembagian data, pemisahan data, selanjutnya data diolah menggunakan algoritma Adaboost. Cara kerja Adaboost yaitu membentuk kumpulan pohon kecil (stump) yang dibuat secara sekuensial. Dimana tingkat kesalahan pada stump pertama akan mempengaruhi pembuatan pohon kedua dan seterusnya. Amatan yang “salah klasifikasi” pada satu tahap, akan ditingkatkan bobotnya pada tahap berikutnya. Klasifikasi akhir dipertimbangkan berdasarkan bobot suara setiap pohon. Cara mengklasifikasi hasil akhir klasifikasi dengan Adaboost dapat dilihat di BAB II.

Membangun model Adaboost menggunakan method AdaboostClassifier dengan parameter base_estimator, random_state dan n_estimator.

Dimana base_estimator bernilai

“DecisionTreeClassifier” digunakan untuk membangun dasar estimator dari ensemble yang akan dibangun. Nilai dari random_state yaitu

“42” digunakan sebagai seed yang tidak peduli berapa kali program dieksekusi maka nilai acak yang dihasilkan akan tetap sama. Nilai n_estimator digunakan untuk menentukan jumlah pohon yang akan dibangun.

Pada penelitian ini akan dilakukan 5 percobaan menggunakan banyak pohon sejumlah 10, 20, 60, 100, dan 200. Berikut langkah untuk

membuat sebuah pohon :

1. Berikan bobot untuk setiap atribut amatan 2. Hitung nilai entropy total

3. Hitung information gain dari setiap atribut a. Tentukan median dari setiap atribut untuk

mendapatkan partisi setiap atribut

b. Hitung entropy setiap partisi dari semua atribut

c. Hitung information gain

4. Pohon yang terbentuk merupakan pohon yang memiliki nilai information gain terbesar 5. Hitung error rate berdasarkan perbandingan hasil klasifikasi lama dengan hasil klasifikasi baru berdasarkan pohon yang telah terbentuk 6. Hitung bobot suara

7. Tingkatkan bobot amatan yang salah klasifikasi

8. Lakukan normalisasi pada bobot baru

9. Gunakan bobot baru untuk membangun pohon berikutnya

Ulangi langkah 1 sampai dengan langkahh terakhir sampai terbentuk pohon sebanyak n_estimators. Kemudian totalkan bobot suara berdasarkan setiap pohon yang terbentuk

3.4.1.4. Akurasi

Perhitungan akurasi menggunakan confusion matrix.

Confusion matrix dibuat menggunakan fungsi confusion_matrix dengan tiga parameter, yaitu label testing, label klasifikasi dan kategori label. Setelah matrix berhasil terbentuk maka akurasi diperoleh dengan menjumlahkan data yang diklasifikasi benar dibagi jumlah

keseluruhan data yang benar dan tidak benar (jumlah data testing) kemudian dikali 100%. Berikut langkah-langkah menghitung akurasi menggunakan confusion matrix:

Langkah 1 : Buat matrix

Langkah 2 : Buat variabel N = 0, klasifikasi_benar Langkah 3 : Untuk setiap elemen (i,j) pada matrix, lakukan langkah 4 sampai 5

Langkah 4 : Jika i == j, tambahkan matrix[i][j] ke klasifikasi_benar, klasifikasi_benar += matrix[i][j]

Langkah 5 : Tambahkan matrix[i][j] ke variabel N, N += matrix[i][j]

Langkah 6 : Hitung akurasi = (klasifikasi_benar / N) * 100

3.4.2. Proses Uji Data Tunggal

Pada proses ini dilakukan klasifikasi terhadap uji data tunggal

Gambar 3.3. Desain Proses Uji Data Tunggal

3.5. Skenario Pengujian 3.5.1. Random Forest

Pada penelitian ini, penulis akan melakukan 3 kali percobaan dengan K-fold 3, 5, dan 10. Setiap fold akan diuji dengan 5 kali percobaan n_estimators yaitu 10, 20, 60, 100 dan 200. Pada Tabel 3.1. dijelaskan mengenai percobaan yang akan dilakukan

Tabel 3.1. Skenario Penelitian Random Forest

Percobaan K-fold n_estimators

1 3 3.2. dijelaskan mengenai percobaan yang akan dilakukan

Tabel 3.2. Skenario Penelitian Adaboost

Percobaan K-fold n_estimators

1 3

Tabel 3.2. Skenario Penelitian Adaboost

2 5

10 20 60 100 200

3 10

10 20 60 100 200

3.6. Perancangan Sistem 3.6.1. Input

Sistem perangkat lunak pada penelitian ini memerlukan inputan berupa file dataset yang berekstensi file Excel, jumlah tree dan jumlah K-fold.

3.6.2. Proses

Berikut tahapan mengubah proses input menjadi output pada penelitian ini dengan menggunakan Random Forest dan Adaboost

Gambar 3.4. Diagram Proses

3.6.3. Output

Output yang dihasilkan oleh sistem pada penelitian ini berupa gambar tree hasil dari pemodelan Random Forest maupun Adaboost, akurasi dan hasil klasifikasi yang didapatkan.

3.7. Diagram Use Case

Diagram use case alat uji dapat dilihat pada Gambar 3.5.

Gambar 3.5. Diagram Use Case Alat Uji

3.8. Narasi Use Case

Narasi use case berisi langkah-langkah aksi dari user dan reaksi sistem dari setiap use case

a. Input dataset

Berikut narasi use case Input dataset dapat dilihat pada Tabel 3.3.

Tabel 3.3. Narasi Use Case Input Dataset

Nama Use Case Input dataset

Aktor User

Deskripsi Aktor menginputkan dataset

Kondisi Awal Aktor berada pada halaman data mining Kondisi Akhir Dataset berhasil Diinputkan

Skenarion Usecase

Aktor Sistem

1. Step 1: Aktor mengklik tombol Input Data

2. Step 2: Sistem menampilkan file explorer tempat pengambilan data

Tabel 3.3. Narasi Use Case Input Dataset

3. Step 3: Aktor memilih file dataset yang akan dimasukan

4. Step 4: Sistem menampilkan dataset

b. Klasifikasi Random Forest & Adaboost

Berikut narasi use case Klasifikasi Random Forest & Adaboost dapat dilihat pada Tabel 3.4.

Tabel 3.4. Narasi Use Case Klasifikasi RF & Adaboost

Nama Use Case Klasifikasi Random Forest & Adaboost

Aktor User

Deskripsi Aktor melakukan klasifikasi Random Forest &

Adaboost terhadap dataset

Kondisi Awal Aktor berada pada halaman data mining

Kondisi Akhir Sistem menampilkan akurasi dan confussion matrix pohon dan nilai K-fold

c. Uji data tunggal

Berikut narasi use case Uji Data Tunggal dapat dilihat pada Tabel 3.5.

Tabel 3.5. Narasi Use Case Uji Data Tunggal

Nama Use Case Uji Data Tunggal RF

Aktor User

Deskripsi Aktor menguji data tunggal dan menampilkan hasil klasifikasi yang telah dibuat oleh sistem Kondisi Awal Aktor berada pada halaman Uji Data Tunggal Kondisi Akhir Sistem menampilkan hasil klasifikasi

Skenarion Usecase

Aktor Sistem

Step 1: Aktor mengklik tombol “Uji Data

Step 4: Aktor mengklik tombol “PROSES”

Pada penelitian ini, penulis membangun GUI untuk keperluan perhitungan.

3.9.1. Halaman Data Mining

Jika pada halaman utama memilih Data Mining maka akan ditampilkan halaman berikut. Kemudian, user diminta untuk memasukan file dan mengisikan nilai K-fold serta jumlah pohon.

Maka. sistem akan menampilkan hasil akurasi dan confusion matrix.

Gambar 3.6. Halaman Data Mining

3.9.2. Halaman Uji Data Tunggal

Jika pada halaman utama user memilih Uji Data Tunggal maka akan ditampilkan halaman berikut. Kemudian, user diminta untuk mengisi semua inputan. Maka. sistem akan menampilkan hasil klasifikasi.

Gambar 3.7. Halaman Uji Data Tunggal

33 BAB IV

IMPLEMENTASI DAN ANALISIS HASIL 4.1. Implementasi Perangkat Lunak

Pada penelitian ini, penulis menggunakan tools Visual Studio untuk membuat program code program dengan bahasa python.

4.1.1. Prepocessing

Tahap ini dilakukan untuk mempersiapkan data agar siap diolah.

4.1.1.1. Data Cleaning

Terdapat missing value pada data jawaban survei kuesioner pada beberapa atribut. Sehingga, untuk menangani missing value tersebut penulis menghapus baris data yang mengandung missing value. Proses data cleaning ini terdapat pada method prepo di file MainWindow.py. Code program untuk data cleaning dapat dilihat pada Gambar 4.1.

Gambar 4.1. Code Program Data Cleaning

4.1.1.2. Data Selection

Pada proses data selection akan dilakukan penghapusan atribut yang tidak berpengaruh dalam penelitian. Pada penelitian ini, penulis melakukan proses perangkingan information gain atribut menggunakan aplikasi WEKA.

Pada tahap awal, penulis menghapus atribut-atribut yang bernilai unik. Atribut yang dihapus dapat dilihat pada Tabel 4.1.

Tabel 4.1. Daftar Atribut Unik

No Atribut Keterangan

1 No Atribut unik

2 NIM Atribut unik, id

data

3 Nama Mahasiswa Atribut unik

4 No HP Atribut unik

5 Angkatan Atribut unik

6 Tgl_input Atribut unik

4.1.1.2.1. Perangkingan Atribut

Perangkingan atribut dilakukan berdasarkan information gain menggunakan aplikasi WEKA. Hasil perangkingan atribut berdasarkan information gain dapat dilihat pada Gambar 4.2. Penjelasan mengenai keterangan dari setiap atribut dapat dilihat pada Lampiran 1.

Gambar 4.2. Perangkingan Atribut WEKA

4.1.1.2.2. Klasifikasi IPS untuk Seleksi Atribut

Penulis melakukan dua percobaan terhadap hasil seleksi fitur berdasarkan information gain tersebut yaitu dengan menggunakan pemilihan atribut dengan batas treshold (treshold > 0) dan reduksi jumlah fitur tertentu (n = 10, 13, 15, 17, 20, 23, 25, 27, 30, 33, 35, 37, 40, 43, 45. 47, 50). Atribut yang digunakan untuk setiap percobaan dapat dilihat pada Tabel 4.2.

Tabel 4.2. Hasil Seleksi Atribut

Seleksi Atribut

Atribut yang terpilih

Treshold Treshold >

Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9,

Tabel 4.2. Hasil Seleksi Atribut

j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b, j30a, j28e, j33b, j33a, j32c, j29c, j31c, j30b, j30c

Jumlah

Tabel 4.2. Hasil Seleksi Atribut j30a, j28e, j33b, j33a, j32c, j29c

Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9,

Tabel 4.2. Hasil Seleksi Atribut

j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b, j30a, j28e, j33b

Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21, j31a, j28b, j27, j8, j6, j24, j9, j32a, j32b, j17, j3, j12, j18, j31b, j29a, j28d, j29b

25 Kelamin, j28a, Lokasi, j25, j11, j23, j21

Komparasi tingkat akurasi dari 2 algoritma yaitu Random Forest dan Adaboost dengan K-fold bernilai 10 dan jumlah pohon sebanyak 100 pohon untuk klasifikasi IPS setelah seleksi atribut dapat dilihat pada Tabel 4.3.

Tabel 4.3. Hasil Akurasi Seleksi Atribut

Seleksi Atribut

Akurasi

Random Forest Adaboost

Treshold > 0 67.86% 58.36%

Gambar 4.3. menunjukkan grafik komparasi tingkat akurasi dari 2 algoritma yaitu Random Forest dan Adaboost pada implementasi teknik seleksi atribut information gain.

Gambar 4.3. Akurasi Seleksi Atribut

Dari hasil Tabel 4.3. dan Gambar 4.3., penullis mereduksi 40 atribut dan menjadikan 10 atribut yang tersisa untuk diolah pada penelitian karena memiliki tingkat akurasi tertinggi, yaitu 74.63% untuk algoritma Random Forest dan 59.18% untuk algoritma Adaboost, 10 atribut yang digunakan dan telah diseleksi, yaitu Program Studi, Semester, j28c, Jenis Kelamin, j28a, Lokasi, j25, j11, j23, j21. Proses data penghapusan atribut yang tidak relevan terdapat pada method prepo di file MainWindow.py

Gambar 4.4. Code Program Data Selection

4.1.1.3. Transformasi Data

Pada proses transformasi data akan dilakukan perubahan bentuk data ke bentuk yang lebih sesuai seperti ketentuan yang sudah dijelaskan di bab 3. Serta dilakukan normalisasi menggunakan metode MinMaxScaler dengan Min = 0 dan Max = 1. Contoh transformasi dan normalisasi data dapat dilihat pada Tabel 4.4.

Tabel 4.4. Transformasi dan Normalisasi Data

Atribut Data Awal Transformasi Normalisasi Jenis

Penulis melakukan dua percobaan untuk proses transformasi nilai IPS. Percobaan pertama rentang IPS kelas A IPS >

3.50, kelas B 2.75 < IPS ≤ 3.50, kelas C 2.25 < IPS ≤ 3.75, kelas D IPS ≤ 2.25. Percobaan kedua rentang IPS dimulai dari kelas A IPS > 3, kelas B 2 < IPS ≤ 3, kelas C 1 < IPS ≤ 2, kelas D IPS ≤ 1. Jumlah setiap kelasnya dapat dilihat pada Tabel 4.5.

Tabel 4.5. Jumlah Data Setiap Kelas

Kelas Percobaan Pertama Percobaan Kedua

A 179 1022

B 2471 6476

C 3518 620

D 1971 21

Berdasarkan hasil percobaan diatas, penulis menggunakan rentang pada percobaan pertama untuk transformasi nilai IPS karena jumlah data setiap kelasnya lebih seimbang dibandingkan dengan percobaan kedua.

Proses transformasi dan normalisasi data terdapat pada method prepo di file MainWindow.py

Gambar 4.5. Code Program Transformasi Data

4.1.1.4. Pembagian Data

Pembagian data dilakukan dengan membuat objek menggunakan kelas K-fold dari library sckit learn dengan mengisi parameter n_splits. Proses pembagian data terdapat pada method proses_rf dan proses_Adaboost di file MainWindow.py. Code program untuk melakukan pembagian data dapat dilihat pada Gambar 4.6.

Gambar 4.6. Code Program Pembagian Data

4.1.2. Modeling

4.1.2.1. Random Forest

Pemodelan Random Forest dibangun menggunakan kelas RandomForestClassification dari library sckit learn.

Pemodelan ini dilakukan di method proses_rf yang ada pada file DataMiningWindow.py. Nilai parameter yang digunakan untuk membangun model Random Forest sudah dijelaskan di bab 3. Code program untuk melakukan

pembuatan model Random Forest data dapat dilihat pada Gambar 4.7.

Gambar 4.7. Code Program Model Random Forest

4.1.2.2. Adaboost

Pemodelan Adaboost dibangun menggunakan kelas AdaboostClassification dari library sckit learn. Pemodelan ini dilakukan di method proses_adaboost yang ada pada file DataMiningWindow.py. Nilai parameter yang digunakan untuk membangun model Adaboost sudah dijelaskan di bab 3. Code program untuk melakukan pembuatan model Adaboost data dapat dilihat pada Gambar 4.8.

Gambar 4.8. Code Program Model Adaboost

4.1.3. Akurasi

Proses perhitungan akurasi hasil klasifikasi menggunakan hasil perhitungan confusion matrix dari library scikit learn. Kemudian menjadikan hasil dari perhitungan confusion matrix sebagai parameter ke fungsi akurasi. Code program untuk melakukan perhitungan akurasi dapat dilihat pada Gambar 4.9.

Gambar 4.9. Code Program Hitung Akurasi

4.2. Analisa Hasil

4.2.1. Pengujian Perangkat Lunak

4.2.1.1. Prosedur Pengujian

Penulis melakukan pengujian menggunakan metode

Blackbox yang dapat dilihat pada lampiran 3.

4.2.1.2. Evaluasi Pengujian

Berdasarkan hasil pengujian, perangkat lunak sudah berjalan dengan baik dan sesuai dengan harapan. Dapat dilihat selama proses pengujian, sistem dapat menjalankan setiap use case yang sudah dibuat.

4.2.2. Pengujian Perangkat Lunak Menggunakan Dataset

Penulis melakukan pengujian klasifikasi IPS dengan menggunakan K-fold 3, 5, dan 10. Setiap K-fold diuji dengan jumlah pohon yang berbeda, yaitu 10, 20, 60, 100, dan 200.

4.2.2.1. Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Universitas Sanata Dharma

Pengujian klasifikasi IPS menggunakan K-fold 3, 5, dan 10.

Hasil akurasi dari setiap K-fold dapat dilihat pada Tabel 4.6.

sampai Tabel 4.8.

Tabel 4.6. Pengujian Klasifikasi 3 K-fold

No Jumlah Pohon

Akurasi Random Forest

Akurasi Adaboost

1 10 72.34% 47.22%

2 20 73.18% 51.94%

3 60 73.73% 52.73%

4 100 73.42% 54.02%

5 200 73.57% 59.25%

Tabel 4.7. Pengujian Klasifikasi 5 K-fold

No Jumlah Pohon

Akurasi Random Forest

Akurasi Adaboost

1 10 72.74% 46.27%

2 20 73.83% 50.93%

3 60 74.22% 52.40%

4 100 74.05% 55.28%

5 200 74.10% 58.59%

Tabel 4.8. Pengujian Klasifikasi 10 K-fold

No Jumlah Pohon

Akurasi Random Forest

Akurasi Adaboost

1 10 73.41% 46.92%

2 20 74.67% 50.83%

3 60 75.05% 52.05%

4 100 74.62% 55.47%

5 200 74.63% 59.18%

Gambar 4.10. Pengujian Klasifikasi

4.2.2.2. Evaluasi Hasil Pengujian Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Universitas Sanata Dharma Gambar 4.10. menunjukkan bahwa pengujian model klasifikasi dengan kombinasi nilai K-fold dan jumlah pohon pada algoritma Random Forest dan Adaboost didapatkan hasil akurasi tertinggi dihasilkan oleh algortima Random Forest dengan K-fold 10 dan jumlah pohon 60 yaitu 75.05%. Dengan adanya seleksi atribut juga menyebabkan tingkat akurasi Random Forest semakin meningkat. Hal tersebut dapat dikarenakan Random Forest merupakan metode ensemble yang lebih stabil dibandingkan Decision Tree yang cenderung kurang stabil.

Hasil confusion matrix dari algoritma Random Forest dengan pohon yang paling optimal untuk 10-fold cross validation dapat dilihat pada tabel 4.9. – 4.18.

Tabel 4.9. Hasil Fold Pertama

A B C D

A 5 8 2 1

B 4 180 51 3

C 0 57 276 24

D 0 3 34 164

Akurasi = x 100% = 76.78%

Tabel 4.10. Hasil Fold Kedua

A B C D

A 5 9 3 2

B 2 194 58 4

C 1 44 283 18

D 0 8 28 155

Akurasi = = 78.26%

Tabel 4.11. Hasil Fold Ketiga

A B C D

A 3 5 1 1

B 5 172 77 6

C 3 46 260 26

D 1 8 39 161

Akurasi = = 73.22%

Tabel 4.12. Hasil Fold Keempat

A B C D

A 3 13 4 4

B 7 155 78 3

C 2 41 270 31

D 2 13 33 155

Akurasi = = 71.62%

Tabel 4.13. Hasil Fold Kelima

A B C D

A 2 10 2 3

B 1 167 64 7

C 0 38 301 27

D 1 13 30 148

Akurasi = = 75.92%

Tabel 4.14. Hasil Fold Keenam

A B C D

A 1 7 2 5

B 3 181 55 2

C 2 46 282 27

D 0 12 26 163

Akurasi = = 77.03%

Tabel 4.15. Hasil Fold Ketujuh

A B C D

A 3 13 2 2

B 3 163 60 5

C 0 48 288 26

D 2 11 27 161

Akurasi = = 75.55%

Tabel 4.16. Hasil Fold Kedelapan

A B C D

A 2 11 7 0

B 1 168 68 10

C 1 51 260 30

D 0 12 19 174

Akurasi = = 74.20%

Tabel 4.17. Hasil Fold Kesembilan

A B C D

A 4 7 4 3

B 3 201 57 4

C 2 58 257 33

D 0 10 34 137

Akurasi = = 73.59%

Tabel 4.18. Hasil Fold Kesepuluh

A B C D

A 3 12 1 4

B 5 162 73 8

C 0 44 291 24

D 0 7 31 147

Akurasi = = 74.29%

Total = = 75.05%

4.2.2.3. Pengujian Klasifikasi dari Dataset Jawaban Kuesioner Fakultas di Universitas Sanata Dharma

Berdasarkan hasil pengujian menggunakan data universitas, didapatkan tingkat akurasi tertinggi sebesar 75.05% dengan kelas C yang paling dominan jika lihat dari confusion matrix. Oleh karena itu, penulis mencoba mempersempit ruang lingkup data dengan menggunakan data setiap fakultas. Tujuannya untuk melihat apakah jika dengan menggunakan data fakultas akan menghasilkan tingkat akurasi yang lebih baik.

Pengujian klasifikasi IPS terhadap data fakultas menggunakan algoritma, K-fold dan jumlah pohon yang memberikan hasil terbaik dari pengujian terhadap data universitas yaitu algoritma Random Forest, K-fold bernilai 10 dan jumlah pohon sebanyak 60 pohon. Hasil pengujian tersebut dapat dililhat pada Tabel 4.19.

Tabel 4.19. Akurasi Pengujian Data Fakultas

Nama Fakultas Akurasi

Ekonomi 70.29%

Farmasi 77.95%

Keguruan dan Ilmu Pendidikan 76.50%

Pascasarjana 77.67%

Psikologi 95.61%

Sains dan Teknologi 86.10%

Sastra 75.45%

Teologi 94.74%

4.2.2.4. Evaluasi Hasil Pengujian

Berdasarkan Tabel 4.19. hasil pengujian klasifikasi IPS terhadap data fakultas menunjukkan bahwa pengujian menggunakan data fakultas menghasilkan tingkat akurasi lebih tinggi dibandingkan dengan menggunakan data universitas kecuali untuk Fakultas Ekonomi. Hal tersebut dikarenakan jumlah dan isi data universitas lebih bervariasi dibandingkan dengan data fakultas. Dengan kata lain, ada perbedaan karakteristik mahasiswa disetiap fakultas. Hasil akurasi akan meningkat jika berasal dari data fakultas karena data mahasiswa fakultas lebih homogen.

4.2.3. Pengujian Uji Data Tunggal

Penulis melakukan proses pengujian data tunggal terhadap 2 data.

Data tersebut diambil dari data testing yang labelnya sudah diketahui. Hasil uji data tunggal menggunakan data acak dapat dilihat pada Gambar 4.11. sampai Gambar 4.12.

Gambar 4.11. Uji Data Tunggal Pertama

Gambar 4.12. Uji Data Tunggal Kedua

4.2.3.1. Evaluasi Hasil Pengujian

Berdasarkan hasil uji data tunggal Gambar 4.11. sampai Gambar 4.12. menghasilkan hasil klasifikasi nilai B dan C untuk label kelas IPS. Hasil klasifikasi tersebut didapat dengan menggunakan model klasifikasi terbaik, yaitu model dengan metode Random Forest dengan K-fold 10 dan jumlah pohon 60. Pada Gambar 4.13. dapat dilihat contoh pohon yang dibangun pada klasifikasi nilai IPS

Gambar 4.13. Sebagian dari Pohon Kedua

54 BAB V PENUTUP 5.1. Kesimpulan

Hasil pengujian menggunakan metode Random Forest dan Adaboost untuk mengklasifikasi nilai IPS selama masa pandemi berdasarkan hasil jawaban kuesioner Universitas Sanata Dharma, diperoleh kesimpulan bahwa Metode Random Forest dan Adaboost berhasil mengklasifikasikan indeks prestasi semester berdasar pada data kuesioner tentang keberhasilan pembelajaran online. Ada 10 atribut yang paling berpengaruh dalam proses klasifikasi nilai IPS dengan Random Forest dan Adaboost berdasarkan hasil perangkingan atribut menggunakan information gain yaitu Program Studi, Semester, j28c yang berkaitan dengan Youtube sebagai media pembelajaran online, Jenis Kelamin, j28a yang berkaitan dengan Learning Management System kampus sebagai media pembelajaran online, Lokasi, j25 yang berkaitan kemudahan mengakses buku referensi selama pembelajaran online, j11 berkaitan dengan variasi penyajian materi pembelajaran, j23 berkaitan dengan adanya kendala ketika harus berdiskusi dengan teman, j21 berkaitan dengan semangat dalam mengikuti pembelaran online.

Dari hasil seleksi atribut, didapatkan akurasi tertinggi dari hasil pengujian, yaitu menggunakan metode Random Forest dengan K-fold 10 dan jumlah pohon 60 dengan tingkat akurasi sebesar 75.05% untuk data Universitas. Dengan kata lain penggunaan algoritma Random Forest dapat meningkatkan akurasi sebesar 23% lebih baik dibandingkan dengan algoritma Adaboost. Namun, hasil uji coba menggunakan data fakultas menunjukan tingkat akurasi lebih tinggi dibandingkan dengan menggunakan data universitas karena data fakultas bersifat lebih homogen, yaitu mencapai akurasi 70.29% sampai 95.61% untuk berbagai fakultas.

5.2. Saran

Untuk meningkatkan hasil akurasi, pada penelitian selanjutnya dapat digunakan metode balancing data serta penggunaan parameter base estimator lain dalam algoritma Adaboost.

56 Daftar Pustaka

[1] Y. Fitriani, S. Defit, and G. W. Nurcahyo, “Prediksi Hasil Belajar Siswa Secara Online pada Masa Pandemi COVID-19 Menggunakan Metode C4.5,” Jurnal Sistim Informasi dan Teknologi, Sep. 2021, doi:

10.37034/jsisfotek.v3i3.149.

[2] P. Prestasi, S. Linawati, and S. Nurdiani, “PREDIKSI PRESTASI AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA RANDOM FOREST DAN C4.5,” JURNAL KHATULISTIWA

INFORMATIKA, vol. VIII, no. 1, 2020, [Online]. Available: www.bsi.ac.id

[3] M. N. Rabbani, A. Yusuf, and D. Rolliawati, “Komparasi Model Prediksi Daftar Ulang Calon Mahasiswa Baru Menggunakan Metode Decision Tree Dan Adaboost,” Jurnal Sisfokom (Sistem Informasi dan Komputer), vol. 10, no. 1, pp. 18–24, Jan. 2021, doi: 10.32736/sisfokom.v10i1.939.

[4] T. Volery and D. Lord, “Critical Success Factors in Online Education,”

Int. J. Educ. Manag., 2000.

[5] C. L. Dillon and C. N. Gunawerdana, “A Framework For The Evolution of Telecommunications-Based Distance Education, “in Selected Papers From The 17^th World Congress of The International Council for Distance

Education, 1995.

[6] Christian, Y.(2019).JTIE (Journal of Informatics and Telecommunication Engineering), 3(1), 58-66.

[7] Nurachim, R. I. (2019). Pemilihan Model Prediksi Indeks Harga Saham Yang Dikembangkan Berdasarkan Algoritma Support Vector Machine (Svm) Atau Multilayer Percepton (Mlp) Studi Kasus : Saham Pt

Telekomunikasi Indonesia Tbk Jurnal Teknologi Informatika & Komputer Vol. 5, No. 1, Maret 2019, 5(1), 29-35.

[8] Han, Jiawe.2012.Data Mining Concepts and Techniques Third Edition.USA : Elsevier.

[9] Albunskuba, J., and Saravankumar, M. V. 2016. “Application of Data Mining Techniques in Higher Education System,” i-Manager’s Journal on Computer Science (4:1),p.8.

[10] Gorunescu, Florin. (2011), Data Mining: Concepts, Models, and Techniques. Romania : Springer

[11] Polimaru, Saimadhu.2017.How Random Forest Algorithm Works In Machine Learning Models using Keras di https://medium.com/the-owl/K-fold-cross-validation-in-keras-3ec4a3a00538 (diakses Maret 2021).

[12] Tan, Pang-Ning, Michael Steinbach, dan Vipin Kumar.2006.Introduction to Data Mining.Boston: Person Addision Wesley.

[13] Q. Iman and A. W. Wijayanto, “Klasifikasi keluarga penerima raskin,”

Dalam dokumen KLASIFIKASI KEBERHASILAN PEMBELAJARAN ONLINE DENGAN ALGORITMA RANDOM FOREST DAN ADABOOST SKRIPSI (Halaman 36-0)