Selection - Data Preprocessing - METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

3.3. Data Preprocessing

3.3.2. Selection

Tahap ini dilakukan untuk memilah atribut dan kelas yang akan digunakan. Pemilihan atribut didasarkan kepada keterikatan penilaian predikat kelulusan sesuai dengan pedoman Universitas Sanata Dharma.

Dengan mengikuti pedoman predikat kelulusan Universitas Sanata Dharma, didapatkan 16 atribut (PenalaranVerbal, KemapuanNumerik, PenalaranMekanik, HubunganRuang, BahasaInggris, SKS1, SKS2, SKS3, SKS4, IPS1, IPS2, IPS3, IPS4, IPK_SAMPAI_SMT_4, J_DEF_SMT_4_SKS dan STATUS) yang dapat digunakan dalam penelitian ini. Namun, dari 16 atribut tersebut hanya 12 atribut yang akan digunakan untuk memprediksi mahasiswa berprestasi rendah, atribut tersebut antaralain PenalaranVerbal, KemapuanNumerik, PenalaranMekanik, HubunganRuang, BahasaInggris, SKS1, SKS2, SKS3, IPS1, IPS2, IPS3, dan STATUS. Hal ini dilakukan karena atribut SKS4, IPS 4, IPK_SAMPAI_SMT_4 dan J_DEF_SMT_4_SKS digunakan untuk membuat label kelas, sehingga tidak dapat digunakan sebagai acuan dalam klasifkasi.

22 3.3.3. Data Transformation

Tranformasi data pada penelitian ini dilakukan dengan dua cara.

Pertama, dilakukan tranformasi data pada label kelas dengan mengubah kolom STATUS menjadi numerik agar dapat dilakukan proses klasifikasi.

Transformasi yang dilakukan adalah sebagai berikut :

 TIDAK RENDAH = 1

 RENDAH = 0

Kedua, transformasi yang dilakukan adalah dengan menormalisasi data agar setiap atribut memiliki bobot yang sama sehingga tidak ada salah satu nilai atribut yang mendominasi dan mencegah data menjadi bias.

Proses normalisasi dilakukan dengan metode min-max normalization, dimana metode ini akan mentransformasi data bedasarkan nilai maksimum dan nilai minimum dari tiap atribut dataset. Berikut adalah contoh kerja min-max normalization pada sampel data yang terdapat dalam Tabel 3.2.

Tabel 3. 2 Sampel Data Sebelum Transformasi

No. IPS2 SKS2 STATUS

Berdasarkan Tabel 3.2 dapat diketahui nilai maksimum dan minimum dari sempel data yang selanjutnya dapat diaplikasikan pada persamaan (2.22) untuk mendapatkan hasil normalisasi nilai data.

Tabel 3. 3 Nilai Maksimum dan Minimum Sampel Data

IPS2 SKS2

Nilai max 3.06 24

Nilai min 0.67 20

Normalisasi atribut J_DEF_SMT_4_SKS

 Pada baris pertama dengan x = 9 𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke dua dengan x = 2

𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke tiga dengan x = 3 𝑉𝑖 = 24 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 1

 Pada baris ke empat dengan x = 15

24 𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke lima dengan x = 61 𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke enam dengan x = 42 𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke tujuh dengan x = 13 𝑉𝑖 = 24 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 1

 Pada baris ke delapan dengan x = 14 𝑉𝑖 = 20 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 0

 Pada baris ke sembilan dengan x = 2

𝑉𝑖 = 20 − 20

24 − 2 (1 − 0) + 0

25 𝑉𝑖 = 0

 Pada baris ke sepuluh dengan x = 23 𝑉𝑖 = 24 − 20

24 − 20 (1 − 0) + 0

𝑉𝑖 = 1

Hasil normalisasi sampel data dalam Tabel 3.2 tersaji dalam Tabel 3.4 berikut ini.

Tabel 3. 4 Sampel Data Hasil Normalisasi

No. IPS2 SKS2 STATUS

1 0.669456 0 1

2 1 0 1

3 0.573222 1 0

4 0.677824 0 0

5 0 0 0

6 0.372385 0 0

7 0.635983 1 0

8 0.656904 0 1

9 0.966527 0 1

10 0.523013 1 0

3.4. Metode dan Pemodelan

Dalam penelitian ini model klasifikasi Support Vector Machine dan Adaboost akan diterapkan untuk membandingkan hasil akurasinya. Oleh karena

itu, dilakukan pemodelan model klasifikasi Support Vector Machine dan Adaboost untuk mengetahui hasil akurasi kedua model tersebut.

3.4.1. Pemodelan Support Vector Machine

Pada model klasifikasi SVM akan ditentukan nilai weight (w) dan bias (b) dari data menggunakan fungsi persamaan g(x) = sgn(f(x)), fungsi sgn digunakan untuk mengelompokan semua nilai diatas 0 menjadi +1 dan semua nilai dibawah 0 menjadi -1, sehingga didapatkan fungsi hyperplane yang memisahkan dua macam objek. Tabel 3.5 menunjukkan sampel data training, sedangkan Tabel 3.6 menunjukkan sampel data testing.

Tabel 3. 5 Sampel Data Training

No. IPS2 SKS2 STATUS

1 0.669456 0 1

2 1 0 1

3 0.573222 1 0

4 0.677824 0 0

5 0 0 0

6 0.372385 0 0

Tabel 3. 6 Sampel Data Testing

No. IPS2 SKS2 STATUS

1 0.635983 1 0

2 0.656904 0 1

3 0.966527 0 1

4 0.523013 1 0

Pada Tabel 3.5. dan 3.6. terlihat bahwa sampel data memiliku 2 fitur (IPS2 dan SKS2), maka nilai weight juga memiliki 2 fitur (w1 dan w2) sehingga pada pemodelan Support Vector Machine didapatkan persamaan sebagai berikut. melalui eliminasi sebagai berikut.

(0.67𝑤₁+ 𝑏) ≥ 1 (−0.37𝑤₁− 𝑏) ≥ 1

0.3𝑤₁ = 2 𝑤₁ = 6.66

Selanjutnya akan dicari nilai w dan b sebagai berikut.

(𝑤₁+ 𝑏) ≥ 1 (6.66 + 𝑏) ≥ 1 𝑏 = 1 − 6.66 𝑏 = −5.66

Selanjutnya akan dicari nilai w dan b sebagai berikut.

(−𝑤₂− 𝑏) ≥ 1

28 𝑤₂ = 1 − 5.66

𝑤₂ = −4.66

Melalui eliminasi persamaan tersebut maka didapatkan persamaan hyperplane Support Vector Machine sebagai berikut :

𝑤₁𝑥₁+ 𝑤₂𝑥₂+ 𝑏 = 0 6.66𝑥₁ − 4.66𝑥₂− 5.66 = 0

Dengan menggunakan fungsi persamaan hyperplane f(x) = 6.66x₁− 4.66x₂ − 5.66 = 0 dengan g(x) = sgn(f(x)).

Didapatkan hyperplane yang dapat digunakan dalam pengklasifikasian data uji testing. Pengunaan hyperplane pada data dapat dilihat pada Tabel 3.7.

Tabel 3. 7 Pengujian Data Testing

no data uji Klasifikasi

X1 X2 y f(x) = sign(x1-x2-x3)

1 0.635983 0.186441 0 Sign(-2.3) = 0 2 0.656904 0.20339 1 Sign(-2.26) = 0

3 0.966527 0 1 Sign(0.73)= 1

4 0.523013 0.355932 0 Sign(-3.82) = 0

Melalui Tabel 3.7 dapat diketahui hasil klasifikasi data sampel dengan atribut IPS2 dan SKS2 terdapat 1 data yang salah diklasifikasikan, yaitu data pada baris 2. Menggunakan confusion matrix maka didapatkan akurasi sebesar :

Tabel 3. 8 Tabel Confusion Matrix

Tidak Rendah Rendah Jumlah

Kelas aktual Tidak Rendah 1 0 P

3.4.2. Pemodelan Adaboost

Pada model klasifikasi Adaboost, klasifikasi dilakukan dengan cara menggabungkan pengklasifikasian lemah berdasarkan pohon keputusan tingkat 1 untuk mendapatkan model klasifikasi yang kuat. Dalam penelitian ini, SVM akan digunakan sebagai base estimator atau model klasifikasi lemah yang nantinya akan digunakan dalam melatih model klasifikasi Adaboost. Berikut merupakan langkah-langkah klasifikasi Adaboost secara matematis.

Tabel 3. 9 Sampel Data Adaboost

No. IPS2 SKS2 STATUS

8 0.656904 0 1

9 0.966527 0 1

10 0.523013 1 0

Langkah pertama adalah dengan memberikan bobot amatan pada sampel data dengan persamaan w_i¹ = 1/N, untuk semua i = 1, 2, ...., N.

Sehingga didapatkan Tabel data sampel sebagai berikut.

Tabel 3. 10 Penambahan Bobot Amatan Pada Sampel Data No

Dari Tabel 3.10. didapatkan nilai T berdasarkan transisi klasifikasi pada sampel data yaitu diantaranya pada data ke-3 dan ke-4, data ke-6 dan ke-7,dan data ke-9 dan ke-10. Sehingga didapatkan nilai T 3,5; 6,5; dan 9,5. Nilai T yang didapatkan selanjutnya akan digunakan untuk mencari error rate.

Pada nilai T = 3,5 semua data yang lebih kecil dari 3,5 akan dilkasifikasikan sebagai 0 dan semua data yang lebih besar dari 3,5 akan diklasifikasikan sebagai 1. Dari Tabel 3.11 diketahui bahwa data 3, 4, 5, 6, 8 dan 9 salah diklasifikasikan sehingga pada nilai T = 3,5 didapatkan error rate sebesar 0,6.

31 diklasifikasikan sebagai 1. Melalui hasil perhitungan diketahui bahwa data 3, 8 dan 9 salah diklasifikasikan sehingga pada nilai T = 6,5 didapatkan error rate sebesar 0,3.

Pada nilai T = 9,5 semua data yang lebih kecil dari 9,5 akan dilkasifikasikan sebagai 0 dan semua data yang lebih besar dari 9,5 akan diklasifikasikan sebagai 1. Melalui hasil perhitungan diketahui bahwa data 3 dan 7 salah diklasifikasikan sehingga pada nilai T = 9,5 didapatkan error rate sebesar 0,2.

Melalui hasil perhitungan error rate, maka akan dipilih nilai error rate terendah yaitu 0,2. Nilai error rate selanjutnya akan digunakan untuk menghitung nilai bobot amatan baru. Perhitungan nilai bobot amatan baru dapat dilihat sebagai berikut.

32 pembaharuan pada data sampel seperti pada Tabel 3.12.

Tabel 3. 12 Menambahkan Bobot Amatan Baru No

Langkah kedua, proses akan terus berulang hingga tidak ditemukan error pada f(x), proses perulangan bergantung pada berapa n estimator yang dgunakan pada Adaboost. Nilai ∝ yang didapatkan akan digunakan

sebagai keputusan akhir dalam pengklasifikasian Adaboost. Dikarenakan dalam perhitungan manual hanya dilakukan satu kali klasifikasi Adaboost, maka dapatkan akurasi yang dapat dilihat pada Tabel 3.13 berikut.

Tabel 3. 13 Tabel Confusion Matrix

Tidak Rendah Rendah Jumlah

Kelas aktual Tidak Redah 4 2 P

3.5. Rancangan Pengujian

Proses pengujian pada penelitan ini dilakukan melalui beberapa variasi, diantaranya :

1. Variasi atribut berdasarkan perangkingan menggunakan information gain dengan cara menghapus satu persatu atribut terburuk hingga terbaik.

2. Variasi penggunaan data sebelum dan sesudah balancing menggunakan metode SMOTE.

3. Variasi penggunaan nilai k pada k-fold cross validation untuk mengurangi bias pada pengklasifikasian. Nilai k yang digunakan adalah 3, 5 dan 10.

4. Variasi penggunaan nilai C pada Support Vector Machine untuk mencari margin terbaik yang dapat meminimalkan error pada pengklasifikasian data. Variasi yang digunakan adalah sebesar 0,01; 0,1; 10.

5. Variasi penggunaan kernel pada Support Vector Machine untuk mencari kernel yang tepat dalam pengklasifikasian. Kernel yang digunakan dalam penelitian adalah kernel polynomial, linear dan RBF.

3.6. Kebutuhan Sistem

3.6.1. Perangkat Keras

Perangkat Laptop/ PC dibutuhkan dalam menunjang pembuatan sistem ini, adapun spesifikasi yang diperlukan dalam penelitian ini antara lain :

Tabel 3. 14 Spesifikasi Perangkat Keras

Model Asus A456U

Platform Notebook-PC

Hard Disk Drive 1 TB

Graphic Processor Unit Intel HD Graphics 620 dan NVIDIA GeForce GT930MX 2GB

Operating System Microsoft Windows 10 Home

Memory 4 GB

3.6.2. Perangkat Lunak

Perangkat lunak yang digunakan dalam penelitian ini adalah Microsoft Excel, PyQt5 untuk membuat desain interface dan Spyder (anaconda3) untuk membuat dan menjalankan sistem.

3.7. Desain Antarmuka Pengguna

Gamabar 3.6 merupakan desain antarmuka yang akan digunakan dalam pengklasifikasian data mahasiswa berprestasi rendah. terdapat 2 panel yang digunakan, yaitu panel proses data dan panel uji data tunggal dan prediksi. Dalam panel proses data terdapat tombol upload yang berfungsi untuk memasukan data

yang akan digunakan ke dalam Tabel data, tombol split digunakan untuk membagi data, yang juga digunakan untuk membuat model klasifikasi dengan menggunakan Support Vector Machine dan Adaboost. Hasil dari aksi menekan tombol split adalah confusion matrix Support Vector Machine, confusion matrix Adaboost dan akurasi. Model klasifikasi yang sudah didapatkan juga akan digunakan dalam proses dalam panel data uji tunggal dan prediksi. Dalam panel tersebut terdapat kolom-kolom yang dapat diisi berdasarkan atribut yang dibutuhkan. Setelah pengguna selesai mengisi kolom atribut, maka pengguna dapat menekan tombol klasifikasi untuk mendapatkan hasil pengklasifikasian data, dan untuk membersihan kolom atribut, pengguna dapat menekan tombol clear.

Gambar 3. 6 Desain antarmuka yang akan digunakan

36 BAB IV

IMPLEMENTASI DAN ANALISIS HASIL

Bab ini akan menjelaskan hasil dari pengimplementasian sistem dan analisis dari output yang didapatkan dari pengolahan dan pengujian data.

4.1. Tahap Preprocessing

Tahap preprocessing ini dilakukan untuk mengolah data agar siap untuk digunakan pada proses lebih lanjut. Terdapat 3 jenis preprocessing yang digunakan, diantaranya adalah data cleaning, data selection dan data transformation.

4.1.1. Data Cleaning

Pada tahap ini, data yang memiliki missing value atau null akan dihapus dari Tabel sehingga tidak mengganggu proses klasifikasi. Pada data IPS1 yang memililiki missing value akan dihapus dari Tabel. Hal ini dilakukan karena mahasisiswa yang tidak memiliki nilai IPS1 merupakan mahasiswa yang membatalkan pilihannya untuk masuk dalam prodi tersebut, sehingga tidak diperlukan dalam proses klasifikasi. Selanjutnya, data selain nilai masuk (PenalaranVerbal, KemapuanNumerik, PenalaranMekanik, HubunganRuang, BahasaInggris) dan IPS1 yang memiliki missing value akan diganti nilainya menjadi 0 untuk menjaga keutuhan data. Melalui proses data cleaning data yang semula berjumlah 1109 data berkurang menjadi 1063 data.

Pegimplementasian data cleaning pada program dapat dilihat pada gambar 4.1.

Gambar 4. 1 Implementasi data cleaninig pada program

Proses data cleaning pada program dilakukan menggunakan method dropna() dan fillna() yang merupakan method dari libarary Pandas. Method dropna() berfungsi untuk menghapus missing value (data pada baris/kolom) yang ada pada Tabel. Parameter subset yang ada pada method dropna() digunakan untuk menentukan kolom yang akan dicari missing value-nya.

Sementara method fillna() digunakan untuk mengisi atau mengganti missing value dengan nilai 0.

4.1.2. Selection

Pada tahap ini, Atribut yang relevan dengan penelitian akan dipilah untuk membantu proses lebih lanjut. Melalui tahap ini data yang sebelumnya memiliki 18 atribut akan berukurang menjadi 12 atribut. Atribut-atribut tersebut diantaranya adalah PenalaranVerbal, KemapuanNumerik, PenalaranMekanik, HubunganRuang, BahasaInggris, SKS1, IPS1, SKS2, IPS2, SKS3, IPS3 dan STATUS. Pada penelitian ini atribut Prodi dan Angkatan tidak digunakan karena tidak memiliki relasi dengan prediksi mahasiswa berprestasi rendah, sementara atribut SKS4, IPS4, IPK_SAMPAI_SMT_4 dan J_DEF_SMT_4_SKS tidak digunakan karena sudah digunakan untuk pembuatan atribut STATUS. Implementasi selection pada program dapat dilihat pada gambar 4.2.

Gambar 4. 2 Implementasi selection pada program

Proses selection pada program dilakukan menggunakan method drop() yang ada pada library Pandas. Method ini berfungsi untuk menghapus indeks atau kolom yang tidak diinginkan user. Parameter axis = 1 pada method

drop() mengindikasikan bahwa progran akan menghapus kolom sesuai dengan list yang dimasukan user.

Pada proses ini juga dilakukan pemilihan data training dan data testing yang akan digunakan. Pemilihan dilakukan menggunakan method train_test_split() dari library sklearn.model_selection. Pembagian data dilakukan berdasarkan pembagian 70% : 30% untuk data traning dan data testing. Implementasi pembagian data training dan testing dapat dilihat pada gamabar 4.3.

Gambar 4. 3 Implementasi pembagian data training dan testing

4.1.3. Data Transformation

Melalui tahap ini, kolom/atribut yang memiliki rentang nilai yang jauh akan ditransformasi menggunakan metode normalisasi min-max. selain itu, pada atribut STATUS akan ditransformasi ke dalam bentuk kategori dimana label TIDAK RENDAH akan bernilai 1 dan label RENDAH bernilai 0.

Implementasi transformasi data pada program dapat dapat dilihat pada gambar 4.4 berikut.

Gambar 4. 4 Implementasi transformasi data pada program

Proses transformasi pada program dilakukan melalui library sklearn.prepocssing yang ada pada python. Untuk mengubah atribut STATUS menjadi kategori, digunakan kelas LabelEncoder() yang berfungsi untuk mengubah label kelas ke dalam bentuk kategori. Sementara untuk menormalisasi data, digunakan kelas MinMaxScaler() yang merupakan fungsi normalisasi metode min-max yang ada pada python. Contoh data hasil normalisasi dapat dilihat pada Tabel 4.1 dan 4.2 berikut.

Tabel 4. 1 Contoh Data Sebelum Normalisasi

SKS1 IPS1

20 2.25

20 2.45

20 2.35

Tabel 4. 2 Contoh Data Sesudah Normalisasi

SKS1 IPS1

0.5 0.550129

0.5 0.601542

0.5 0.575835

4.2. Perangkingan Atribut

Tahap perankingkan atribut dilakukan menggunakan information gain dari library sklearn.feature_selection. Dimana didapatkan hasil perankingan seperti pada Tabel 4.3 berikut.

Tabel 4. 3 Hasil Perankingan Atribut

Atribut Information Gain Ranking

IPS3 0.395404 1

IPS2 0.362864 2

IPS1 0.259358 3

SKS3 0.223093 4

SKS2 0.118955 5

KemampuanNumerik 0.074019 6

BahasaInggris 0.013742 7

PenalaranVerbal 0.000878 8

PenalaranMekanik 0 9

HubunganRuang 0 9

SKS1 0 9

Gambar 4. 5 Implementasi information gain pada program

4.3. Balancing

Proses balancing data pada tahap ini menggunakan algoritma SMOTE (Synthetic Minority Over-sampling Technique) dari library imblearn.over_sampling yang ada pada python. Sebagaimana terlihat dalam gambar 4.6 data pada penelitian ini memiliki jumlah kelas yang tidak seimbang di kedua kelas, sehingga digunakan agoritma SMOTE untuk menyeimbangkannya.

Gambar 4. 6 Grafik kelas sebelum dilakukan balancing

Terlihat pada gambar 4.6 jumlah kelas 0 (RENDAH) lebih kecil dari kelas 1 (TIDAK RENDAH). Melalui proses SMOTE data kelas minorotas akan mengalami penambahan data sehingga jumlahnya setara dengan kelas mayoritas.

Penerapan algoritma SMOTE pada program dapat dilihat pada gambar 4.7, dimana parameter random_state digunakan untuk menjaga jumlah data kelas tidak berubah saat program dijalankan. Sementara hasil luaran SMOTE dapat dilihat pada gambar 4.8.

Gambar 4. 7 Implementasi algoritma SMOTE pada program

Gambar 4. 8 Grafik kelas setelah diterapkan SMOTE

4.4. Klasifikasi

Terdapat dua model klasifikasi yang dibangun pada penelitian ini, yaitu Support Vector Machine dan Adaboost. Model klasifikasi Support Vector Machine dibangun dengan menggunakan kernel (polynomial, linear dan RBF) dan C (0.01, 0.1 dan 10) untuk meminimalkan nilai error saat dilakukan klasifikasi.

Sementara pada Adaboost diterapkan n_estimator = 10 untuk menghindari overfitting pada data yang akan diklasifikasikan. Penerapan model klasifikasi Support Vector Machine dan Adaboost dalam program dapat dilihat pada gambar 4.9 dan 4.10.

Gambar 4. 9 Implementasi model klasifikasi Support Vector Machine

Gambar 4. 10 Implementasi model klasifikasi Adaboost

44 4.5. Pengujian

Pada sub bab ini akan dilakukan pengujian terhadap data mahasiswa berprestasi rendah Universitas Sanata Dharma Fakultas Sains dan Teknologi.

Pengujian ini dilakukan untuk mengetahui penggunaan variasi terbaik yang dapat mengklasifikasikan data mahasiswa berprestasi rendah secara maksimal. Untuk mengetahui hal tersebut maka akan digunakan variasi pengujian berupa penggunaan kernel dan nilai C untuk optimasi akurasi model SVM, nilai k-fold untuk mencari nilai terbaik dalam mengurangi bias, dan atribut untuk mencari banyak atribut yang mengasilkan akurasi paling maksimal. Berikut merupakan hasil pengujian menggunakan variasi kernel, nilai C, k-fold dan atribut pada model klasifikasi Support Vector Machine dan Adaboost.

1. Penujian menggunakan 11 atribut

Tabel 4. 4 Hasil Pengujian Dengan 11 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

45 bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 91% dengan variasi optimasi SVM pada kernel polynomial, C = 0.1, serta nilai K

= 10 dan menggunakan data asli (data sebelum dilakukan balancing menggunakan SMOTE). Sementara pada model klasifikasi SVM akurasi terbaik yang

didapatkan yaitu sebesar 90,59% dengan menggunakan variasi kernel polynomial, C = 0.01, nilai K = 3 & 10 dan dengan menggunakan data asli.

2. Pengujian menggunakan 10 atribut

Tabel 4. 5 Hasil Pengujian Dengan 10 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

47 ('PenalaranVerbal', 'KemampuanNumerik','HubunganRuang', 'BahasaInggris', 'SKS1', 'IPS1', 'SKS2', 'IPS2', 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 91,38% dengan variasi optimasi SVM pada kernel polynomial, C = 0.01, serta nilai K = 3 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 90,68% dengan menggunakan variasi kernel polynomial, C = 0.1, nilai K = 10 dan dengan menggunakan data asli.

3. Pengujian menggunakan 9 atribut

Tabel 4. 6 Hasil Pengujian Dengan 9 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

1 C = 0.01, Kernel = 3 90.38 86.84 90.7 91.15

24 C = 10, Kernel = RBF 5 90.84 88.07 90.72 87.8

25 C = 0.01, Kernel = RBF 10 67.93 40.45 90.75 87.84 26 C = 0.1, Kernel = RBF 10 89.27 83.35 90.84 88.97

27 C = 10, Kernel = RBF 10 91.12 89.81 90.84 89.97

Pada hasil pengujian Tabel 4.6 dengan 9 atribut ('PenalaranVerbal', 'KemampuanNumerik', 'BahasaInggris', 'SKS1', 'IPS1', 'SKS2', 'IPS2', 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 93,24% dengan variasi optimasi SVM pada kernel polynomial, C = 0.01, serta nilai K = 5 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 91,12% dengan menggunakan variasi kernel RBF, C = 10, nilai K = 10 dan dengan menggunakan data asli.

4. Pengujian menggunakan 8 atribut

Tabel 4. 7 Hasil Pengujian Dengan 8 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

Pada hasil pengujian Tabel 4.7 dengan 8 atribut ('PenalaranVerbal', 'KemampuanNumerik', 'BahasaInggris', 'IPS1', 'SKS2', 'IPS2', 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 92,36% dengan variasi optimasi SVM pada kernel polynomial, C = 0.01, serta nilai K = 3 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 91,01% dengan menggunakan variasi kernel RBF, C = 10, nilai K = 3 dan dengan menggunakan data asli.

51 5. Pengujian menggunakan 7 atribut

Tabel 4. 8 Hasil Pengujian Dengan 7 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

Pada hasil pengujian Tabel 4.8 dengan 7 atribut ('KemampuanNumerik', 'BahasaInggris', 'IPS1', 'SKS2', 'IPS2', 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi SVM yaitu sebesar 91,28% dengan menggunakan kernel polynomial, C = 0.1, serta nilai K = 5 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi Adaboost akurasi terbaik yang didapatkan yaitu sebesar 91,15% dengan menggunakan variasi optimasi SVM pada kernel polynomial, C = 10, nilai K = 5 dan dengan menggunakan data asli.

6. Pengujian menggunakan 6 atribut

Tabel 4. 9 Hasil Pengujian Dengan 6 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

Pada hasil pengujian Tabel 4.9 dengan 6 atribut ('KemampuanNumerik', 'IPS1', 'SKS2', 'IPS2', 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 90,92% dengan variasi optimasi SVM pada kernel linear, C = 0.01, serta nilai K = 3 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 90,9% dengan menggunakan variasi kernel RBF, C = 10, nilai K = 10 dan dengan menggunakan data asli.

7. Pengujian menggunakan 5 atribut

Tabel 4. 10 Hasil Pengujian Dengan 5 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

55 'SKS3', 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 92,22% dengan variasi optimasi SVM pada kernel linear, C = 0.01, serta nilai K = 10 dan menggunakan data setelah dilakukan balancing.

Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 91,03% dengan menggunakan variasi kernel RBF, C = 10, nilai K = 10 dan dengan menggunakan data asli.

56 8. Pengujian menggunakan 4 atribut

Tabel 4. 11 Hasil Pengujian Dengan 4 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

57 'IPS3') diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 92,53% dengan variasi optimasi SVM pada kernel linear, C = 0.01, serta nilai K = 5 dan menggunakan data setelah dilakukan balancing.

Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 90,31% dengan menggunakan variasi kernel polynomial, C = 10, nilai K = 10 dan dengan menggunakan data asli.

9. Pengujian menggunakan 3 atribut

Tabel 4. 12 Hasil Pengujian Dengan 3 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

58 diketahui bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 91,97% dengan variasi optimasi SVM pada kernel polynomial, C = 0.01,

serta nilai K = 10 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 90,28% dengan menggunakan variasi kernel linear, C = 10, nilai K = 3 dan dengan menggunakan data asli.

10. Pengujian menggunakan 2 atribut

Tabel 4. 13 Hasil Pengujian Dengan 2 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

60 bahwa akurasi terbaik didapatkan pada model klasifikasi Adaboost yaitu sebesar 92,1% dengan variasi optimasi SVM pada kernel polynomial, C = 0.01, serta nilai K = 10 dan menggunakan data setelah dilakukan balancing. Sementara pada model klasifikasi SVM akurasi terbaik yang didapatkan yaitu sebesar 90,65%

dengan menggunakan variasi kernel RBF, C = 0.1, nilai K = 10 dan dengan menggunakan data asli.

11. Pengujian menggunakan 1 atribut

Tabel 4. 14 Hasil Pengujian Dengan 1 Atribut Terbaik

NO OPTIMASI SVM

K-FOLD

AKURASI %

SVM

SVM-SMOTE ADABOOST ADABOOST-SMOTE

1 C = 0.01, Kernel = 3 87.46 83.67 85.89 85.63

62 akurasi terbaik didapatkan pada model klasifikasi SVM yaitu sebesar 87,98%

dengan menggunakan kernel plinear, C = 10, serta nilai K = 3 dan menggunakan data asli (data sebelum dilakukan balancing). Sementara pada model klasifikasi Adaboost akurasi terbaik yang didapatkan yaitu sebesar 87,87% dengan menggunakan variasi optimasi SVM pada kernel RBF, C = 0.1, nilai K = 3 dan dengan menggunakan data asli (data sebelum dilakukan balancing).

4.6. Analisis Hasil

Melalui hasil pengujian yang telah dilakukan, dapat diketahui bahwa penggunaan nilai C pada optimasi klasifikasi Support Vector Machine sangatlah berpengaruh. Pada hasil pengujian dapat dilihat bahwa rata-rata akurasi yang dihasilkan adalah baik dan dapat digunakan sebagai dasar klasifikasi, hal ini membuktikan bahwa nilai C pada optimasi SVM mampu meminimalisir error pada klasifikasi data mahasiswa berperstasi rendah. Namun perlu dilakukan penelitian lebih lanjut mengenai penggunan nilai C terbaik pada klasifikasi data

Dalam dokumen PREDIKSI MAHASISWA BERPRESTASI RENDAH MENGGUNAKAN SUPPORT VECTOR MACHINE DAN ADABOOST SKRIPSI (Halaman 35-0)