Eksplorasi Metode KSMOTE, AdaBoost dan SSO pada Support Vector Machine untuk Mengatasi Imbalanced Data.

(1)

ABSTRAK

Klasifikasi dalam data mining adalah proses untuk menemukan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data atau konsep. Salah satu permasalahan klasifikasi adalah distribusi data yang tidak seimbang antara kelas mayoritas dan kelas minoritas (imbalanced data). Kelas minoritas memiliki kemunculan yang sangat kecil dalam sebuah dataset. Metode-metode algoritma yang akan diteliti untuk menyelesaikan permasalahan imbalanced data adalah, kernel-based synthetic minority over-sampling technique (KSMOTE), Boosting, dan sample subset optimization (SSO). Metode-metode ini berfungsi untuk menyeimbangkan kelas mayoritas dan kelas minoritas dalam sebuah dataset, kemudian dataset diklasifikasikan dengan menggunakan support vector machine (SVM). Imbalanced dataset memiliki tiga karakteristik yaitu, low, medium, dan high. Dataset training diambil dari data nyata yang dimiliki oleh repositori KEEL dan UCI dan dataset testing yaitu data mahasiswa Fakultas Teknologi Informasi Universitas Kristen Maranatha. Proses training dataset dilakukan dengan menggunakan setiap metode pada setiap kategori dataset, setelah mendapatkan hasil klasifikasi pada dataset training, dilakukan uji coba terhadap dataset mahasiswa sebagai data testing. Hasil penelitian ini menunjukkan jumlah class dan imbalance ratio mempengaruhi metode yang digunakan. Terdapat metode-metode yang hanya bekerja pada dua class seperti metode-metode KSMOTE dan SSO, sehingga tidak efektif jika digunakan pada multiclass dataset. Jika dataset memiliki imbalance ratio dan class yang missclassified keseluruhan, sebaiknya menggunakan metode oversampling (KSMOTE) atau undersampling (SSO), karena menggunakan metode boosting (AdaBoost) tidak dapat menyelesaikan permasalahan missclassified keseluruhan pada class.

(2)

ABSTRACT

Classification in data mining is the process of finding a model or functions that describe and distinguish classes of data or concepts. One of the problems of data classification is the unequal distribution between the majority and the minority class and called imbalanced data. The minority class has a very small appearance in a dataset. Methods will be studied to solve the problem of imbalanced data they are, kernel-based synthetic minority over-sampling technique (KSMOTE), Boosting, and sample subset optimization (SSO). These methods serve to balance majority class and minority class in a dataset, then the dataset will be classified with support vector machine (SVM). Imbalanced dataset consists of three categories, namely, low imbalanced dataset, medium imbalanced dataset, and high imbalanced dataset. Training dataset is taken from real data repository owned by KEEL and UCI and testing dataset is student data form Faculty of Information Technology Maranatha Christian University. Process of training dataset done using every method in every category dataset, after getting the results of classification on the training dataset, carried out tests on student dataset as a testing data. Results of the training dataset indicates the category of low and medium imbalanced datasets are proposed to use KSMOTE-SVM method and SSO-SVM method, high imbalanced datasets category is proposed to use AdaBoostSVM method and KSMOTE-SVM method. The results showed the number of classes and imbalance ratio affects the method used. There are methods that only work on two classes such as KSMOTE and SSO method, so it is not effective if used in multiclass datasets. If the dataset has a imbalance ratio and a whole class missclassified, you should use oversampling method (KSMOTE) or undersampling method (SSO), because using boosting method (AdaBoost) can not solve a whole class missclassified problem.

(3)

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALITAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

BAB II LANDASAN TEORI ... 5

2.1. Data Mining ... 5

2.2. Cross-validation ... 6

2.3. Classification ... 6

2.4. Support Vector Machine (SVM) ... 7

2.5. Radial Basis Function Kernel (RBF Kernel) ... 10

2.6. Kernel-based SMOTE (KSMOTE) ... 11

2.7. Boosting ... 12

2.7.1. AdaBoost ... 13

2.7.2. WSVM ... 13

2.7.3. BSVM ... 14

2.8. Sample Subset Optimization (SSO) ... 14

2.8.1. Particle Swarm Optimization (PSO) ... 16

(4)

2.10. LIBSVM ... 18

2.11. Imbalance Ratio ... 18

2.12. Repositori Dataset ... 19

2.12.1. KEEL-DATASET ... 19

2.12.2. UCI-DATASET ... 20

BAB III DESAIN & ANALISIS SISTEM ... 22

3.1. Analisis Sistem ... 22

3.1.1. Metode Analisis ... 22

3.1.2. Data Analisis ... 22

3.1.3. Data Training ... 22

3.1.3.1. Low Imbalanced Dataset ... 23

3.1.3.1.1. Teaching Assistant Evaluation Dataset ... 23

3.1.3.1.2. German Credit Dataset ... 24

3.1.3.2. Medium Imbalanced Dataset ... 24

3.1.3.2.1. Hepatitis Dataset ... 24

3.1.3.2.2. Fertility Dataset ... 24

3.1.3.3. High Imbalanced Dataset ... 24

3.1.3.3.1. Nursery Dataset ... 25

3.1.3.3.2. Car Evaluation Dataset ... 25

3.1.4. Dataset Fakultas Teknologi Informasi Universitas Kristen Maranatha . 25 3.1.4.1. Dataset Mahasiswa Aktif jalur USM tingkat Universitas ... 26

3.1.4.2. Dataset Mahasiswa Aktif Fakultas Teknologi Informasi ... 26

3.1.4.3. Dataset Mahasiswa Lulusan Fakultas Teknologi Informasi ... 26

3.1.4.4. Dataset Mahasiswa Aktif Jurusan Teknik Informatika ... 27

3.1.4.5. Dataset Mahasiswa Lulusan Jurusan Teknik Informatika ... 27

3.1.5. Perencanaan Analisis ... 27

3.2. Unified Modeling Language (UML) ... 28

3.2.1. Use Case Diagram ... 28

3.2.2. Activity Diagram ... 28

3.2.2.1. Aktivitas Memuat Data ... 28

3.2.2.2. Aktivitas Analisa Data ... 29

(5)

3.2.2.4. Aktivitas Kalsifikasi ... 30

3.2.2.5. Aktivitas Menyimpan Hasil ... 31

3.2.3. Class Diagram ... 32

3.2.3.1. Class Diagram Menu ... 33

3.2.3.2. Class Diagram Klasifikasi ... 33

3.2.3.3. Class Diagram Hasil ... 33

3.2.3.4. Class Diagram SMOTE ... 34

3.2.3.5. Class Diagram AdaBoostM1 ... 34

3.2.3.6. Class Diagram BPSO ... 35

3.3. Rancangan Tampilan ... 35

3.3.1. Tampilan Menu ... 36

3.3.2. Tampilan Analisis ... 36

3.3.3. Tampilan Hasil ... 36

BAB IV PENGEMBANGAN PERANGKAT LUNAK ... 38

4.1. Pelaksanaan Analisis ... 38

4.1.1. Training Low Imbalanced Dataset ... 38

4.1.1.1. Training Metode SVM pada Low Imbalanced Dataset ... 41

4.1.1.2. Training Metode KSMOTE-SVM pada Low Imbalanced Dataset ... 41

4.1.1.3. Training Metode AdaBoostSVM pada Low Imbalanced Dataset ... 42

4.1.1.4. Training Metode SSO-SVM pada Low Imbalanced Dataset ... 42

4.1.2. Training Medium Imbalanced Dataset ... 43

4.1.2.1. Training Metode SVM pada Medium Imbalanced Dataset ... 44

4.1.2.2. Training Metode KSMOTE-SVM pada Medium Imbalanced Dataset . 45 4.1.2.3. Training Metode AdaBoostSVM pada Medium Imbalanced Dataset ... 45

4.1.2.4. Training Metode SSO-SVM pada Medium Imbalanced Dataset ... 46

4.1.3. Training High Imbalanced Dataset ... 46

4.1.3.1. Training Metode SVM pada High Imbalanced Dataset ... 48

4.1.3.2. Training Metode KSMOTE-SVM pada High Imbalanced Dataset ... 49

4.1.3.3. Training Metode AdaBoostSVM pada High Imbalanced Dataset ... 49

4.1.3.4. Training Metode SSO-SVM pada High Imbalanced Dataset ... 50

(6)

4.1.4.1. Analisis Metode SVM pada Dataset Mahasiswa ... 54

4.1.4.2. Analisis Metode KSMOTE-SVM pada Dataset Mahasiswa ... 55

4.1.4.3. Analisis Metode AdaBoostSVM pada Dataset Mahasiswa ... 56

4.1.4.4. Testing Metode SSO-SVM pada Dataset Mahasiswa ... 57

4.2. Implementasi Class ... 59

4.3.1. Implementasi Tampilan Menu ... 71

4.3.2. Implementasi Tampilan Analisis ... 73

4.3.3. Implementasi Tampilan Hasil ... 73

BAB V EVALUASI DAN PENGUJIAN SISTEM ... 74

5.1. Evaluasi Analisis ... 74

5.1.1. Evaluasi Hasil Data Training ... 74

5.1.1.1. Evaluasi Hasil Training Low Imbalanced Dataset ... 74

5.1.1.2. Evaluasi Hasil Training Medium Imbalanced Dataset ... 76

5.1.1.3. Evaluasi Hasil Training High Imbalanced Dataset ... 78

5.1.1.4. Hasil Keseluruhan Evaluasi Data Training ... 80

5.1.2. Evaluasi Analisis Data Mahasiswa ... 81

5.1.2.1. Evaluasi Hasil Analisis Dataset Mahasiswa Aktif jalur USM tingkat Universitas ... 81

5.1.2.2. Evaluasi Hasil Analisis Dataset Mahasiswa Aktif jalur USM tingkat Fakultas Teknologi Informasi ... 82

5.1.2.3. Evaluasi Hasil Analisis Dataset Mahasiswa Lulusan jalur USM tingkat Fakultas Teknologi Informasi ... 83

(7)

5.1.2.5. Evaluasi Hasil Analisis Dataset Mahasiswa Lulusan jalur USM tingkat

Jurusan Teknik Informatika ... 86

5.1.2.6. Hasil Keseluruhan Evaluasi Analisa Data Mahasiswa ... 87

5.2. Pengujian Sistem ... 88

5.2.1. Black Box Testing Form Menu ... 88

5.2.2. Black Box Testing Form Hasil ... 88

BAB VI KESIMPULAN DAN SARAN ... 90

6.1. Kesimpulan ... 90

6.2. Saran ... 93

(8)

DAFTAR GAMBAR

Gambar 2.1. Contoh data training (Han dan Kamber, 2006: 338) ... 7

Gambar 2.2. Dua kemungkinan hyperplane (Han dan Kamber, 2006: 339) ... 8

Gambar 2.3. Support vectors (Han dan Kamber, 2006: 339)... 9

Gambar 2.4. Contoh data linear dan nonlinear (Kurniawa dan Supriyanto, 2013: 42) ... 10

Gambar 2.5. Gambar skema sistem SSO ... 15

Gambar 2.6. Gambar pembagian kategori data (Fernandez et al, 2008; 2386) .... 19

Gambar 2.7. Website KEEL-DATASET ... 20

Gambar 2.8. Website UCI Machine Learning Repository ... 21

Gambar 3.1. Use Case aplikasi ... 28

Gambar 3.2. Diagram Aktivitas Memuat Data ... 29

Gambar 3.3. Diagram Aktivitas Analisa Data ... 29

Gambar 3.4. Diagram Aktivitas Hapus Atribut ... 30

Gambar 3.5. Diagram Aktivitas Klasifikasi ... 31

Gambar 3.6. Diagram Aktivitas Simpan Hasil... 32

Gambar 3.7. Class Diagram Aplikasi ... 32

Gambar 3.8. Class Diagram Menu ... 33

Gambar 3.9. Class Diagram Klasifikasi ... 33

Gambar 3.10. Class Diagram Hasil ... 33

Gambar 3.11. Class Diagram SMOTE ... 34

Gambar 3.12. Class Diagram AdaBoostM1 ... 34

Gambar 3.13. Class Diagram BPSO... 35

Gambar 3.14. Tampilan Menu ... 36

Gambar 3.15. Tampilan Analisis ... 36

Gambar 3.16. Tampilan Hasil ... 37

Gambar 4.1. Gambar implementasi menu ... 72

Gambar 4.2. Gambar implementasi menu setelah load dataset ... 72

Gambar 4.4. Gambar implementasi hasil ... 73

(9)

DAFTAR TABEL

Tabel 3.1. Tabel data training ... 23

Tabel 3.2. Tabel data mahasiswa ... 25

Tabel 3.3. Tabulasi percobaan praktik analisis ... 27

Tabel 4.1. Tabel Teaching Assistant Evaluation Dataset ... 38

Tabel 4.2. Tabel German Credit Dataset ... 39

Tabel 4.3. Tabel confusion matrix SVM pada dataset Teaching Assistant Evaluation Dataset ... 41

Tabel 4.4. Tabel confusion matrix SVM pada dataset German Credit Dataset .. 41

Tabel 4.5. Tabel confusion matrix KSMOTE-SVM pada Teaching Assistant Evaluation Dataset ... 41

Tabel 4.6. Tabel confusion matrix KSMOTE-SVM pada German Credit Dataset ... 41

Tabel 4.7. Tabel confusion matrix AdaBoostSVM pada dataset Teaching Assistant Evaluation Dataset ... 42

Tabel 4.8. Tabel confusion matrix AdaBoostSVM pada dataset German Credit Dataset ... 42

Tabel 4.9. Tabel confusion matrix SSO-SVM pada Teaching Assistant Evaluation Dataset ... 42

Tabel 4.10. Tabel confusion matrix SSO-SVM pada German Credit ... 42

Tabel 4.11. Tabel Hepatitis Dataset ... 43

Tabel 4.12. Tabel Fertility Dataset ... 44

Tabel 4.13. Tabel confusion matrix SVM pada Hepatitis Dataset ... 44

Tabel 4.14. Tabel confusion matrix SVM terhadap Fertility Dataset... 45

Tabel 4.15. Tabel confusion matrix KSMOTE-SVM pada Hepatitis Dataset ... 45

Tabel 4.16. Tabel confusion matrix KSMOTE-SVM pada Fertility Dataset ... 45

Tabel 4.17. Tabel confusion matrix AdaBoostSVM pada Hepatitis Dataset ... 45

Tabel 4.18. Tabel confusion matrix AdaBoostSVM pada Fertility Dataset ... 46

Tabel 4.19. Tabel confusion matrix SSO-SVM pada Hepatitis Dataset ... 46

Tabel 4.20. Tabel confusion matrix SSO-SVM pada Fertility Dataset ... 46

Tabel 4.21. Tabel Nursery Dataset ... 46

(10)

Tabel 4.23. Tabel confusion matrix SVM pada Nursery dataset ... 48 Tabel 4.24. Tabel confusion matrix SVM pada Car Evaluation Dataset dataset. 48 Tabel 4.25. Tabel confusion matrix KSMOTE-SVM pada Nursery dataset ... 49 Tabel 4.26. Tabel confusion matrix KSMOTE-SVM pada Car Evaluation Dataset ... 49 Tabel 4.27. Tabel confusion matrix AdaBoostSVM pada Nursery dataset ... 49 Tabel 4.28. Tabel confusion matrix AdaBoostSVM pada Car Evaluation Dataset ... 50 Tabel 4.29. Tabel confusion matrix SSO-SVM pada Nursery dataset ... 50 Tabel 4.30. Tabel confusion matrix SSO-SVM pada dataset Car Evaluation Dataset ... 50

Tabel 4.31. Tabel Dataset Mahasiswa Aktif jalur USM tingkat Universitas ... 51 Tabel 4.32. Tabel Dataset Mahasiswa Aktif Fakultas Teknologi Informasi ... 51 Tabel 4.33. Tabel Dataset Mahasiswa Lulusan Fakultas Teknologi Informasi .... 52 Tabel 4.34. Tabel Dataset Mahasiswa Aktif Jurusan Teknik Informatika ... 53 Tabel 4.35 . Tabel Dataset Mahasiswa Aktif Jurusan Teknik Informatika ... 53

(11)

Tabel 4.44. Tabel confusion matrix KSMOTE-SVM pada dataset Mahasiswa

Aktif Jurusan Teknik Informatika ... 56

Tabel 4.45. Tabel confusion matrix KSMOTE-SVM pada dataset Mahasiswa Lulus Jurusan Teknik Informatika ... 56

Tabel 4.46. Tabel confusion matrix AdaBoostSVM pada dataset Mahasiswa Aktif Universitas ... 56

Tabel 4.47. Tabel confusion matrix AdaBoostSVM pada dataset Mahasiswa Aktif Fakultas Teknologi Informasi ... 57

Tabel 4.48. Tabel confusion matrix AdaBoostSVM pada dataset Mahasiswa Lulus Fakultas Teknologi Informasi ... 57

Tabel 4.49. Tabel confusion matrix AdaBoostSVM pada dataset Mahasiswa Aktif Jurusan Teknik Informatika ... 57

Tabel 4.50. Tabel confusion matrix AdaBoostSVM pada dataset Mahasiswa Lulus Jurusan Teknik Informatika ... 57

Tabel 4.51. Tabel confusion matrix SSO-SVM pada dataset Mahasiswa Aktif Lulus Jurusan Teknik Informatika ... 58

Tabel 4.56. Tabel property class menu ... 59

Tabel 4.57. Tabel method class menu ... 59

Tabel 4.58. Tabel method class klasifikasi ... 59

Tabel 4.59. Tabel method class hasil ... 60

Tabel 4.60. Tabel property class SMOTE ... 60

Tabel 4.61. Tabel method class SMOTE ... 60

Tabel 4.62. Tabel property class AdaBoostM1 ... 63

(12)

Tabel 4.64. Tabel property class BPSO ... 65

Tabel 4.65. Tabel method class BPSO ... 66

Tabel 5.1. Correctly Classified Instances dari Teaching Assisteant Evaluation Dataset ... 74

Tabel 5.2. Confusion Matrix dari Teaching Assisteant Evaluation Dataset ... 75

Tabel 5.3. Detail Teaching Assisteant Evaluation Dataset ... 75

Tabel 5.4. Correctly Classified Instances dari German Credit Dataset ... 75

Tabel 5.5. Confusion Matrix dari German Credit Dataset ... 75

Tabel 5.6. Detail dari German Credit Dataset ... 75

Tabel 5.7. Correctly Classified Instances dari Hepatitis Dataset ... 76

Tabel 5.8. Confusion Matrix dari Hepatitis Dataset ... 76

Tabel 5.9. Detail dari Hepatitis Dataset ... 77

Tabel 5.10. Correctly Classified Instances dari Fertility Dataset ... 77

Tabel 5.11. Confusion Matrix dari Fertility Dataset... 77

Tabel 5.12. Detail dari Fertility Dataset ... 77

Tabel 5.13. Correctly Classified Instances dari Nursery Dataset ... 78

Tabel 5.14. Confusion Matrix dari Nursery Dataset ... 78

Tabel 5.15. Detail dari Nursery Dataset ... 79

Tabel 5.16. Correctly Classified Instances dari Car Evaluation Dataset ... 79

Tabel 5.17. Confusion Matrix dari Car Evaluation Dataset ... 79

Tabel 5.18. Detail dari Car Evaluation Dataset ... 79

Tabel 5.19. Correctly Classified Instances dari Dataset Mahasiswa Aktif Universitas ... 81

Tabel 5.20. Confusion Matrix dari Dataset Mahasiswa Aktif Universitas ... 81

Tabel 5.21. Detail dari Dataset Mahasiswa Aktif Universitas ... 82

Tabel 5.22. Correctly Classified Instances dari Dataset Mahasiswa Aktif Fakultas Teknologi Informasi ... 82

Tabel 5.23. Confusion Matrix dari Dataset Mahasiswa Aktif Fakultas Teknologi Informasi ... 83

(13)

(14)

DAFTAR KODE PROGRAM

Kode Program 2.1. Algoritma KSMOTE (Zhi dan Gao, 2009: 392-393) ... 12

Kode Program 2.2. Algoritma AdaBoost (Gracia dan Lozano, 2007: 3) ... 13

Kode Program 2.3. Algoritma WSVM (Gracia dan Lozano, 2007: 8) ... 13

Kode Program 2.4. Algoritma BSVM (Gracia dan Lozano, 2007: 9) ... 14

Kode Program 2.5. Algoritma Sample Subset Optimization (Yang et al, 2011: 4)16 Kode Program 2.6. Algoritma Particle Swarm Optimization (Yang et al, 2011: 5) ... 17

Kode Program 4.1. Technical information dari class SMOTE ... 61

Kode Program 4.2. Penggunaan class SMOTE ... 62

Kode Program 4.3. Kode program class SMOTE ... 62

Kode Program 4.4. Technical information dari class AdaBoostM1 ... 64

Kode Program 4.5. Penggunaan class AdaBoostM1 ... 64

Kode Program 4.6. Kode program class AdaBoostM1 ... 65

Kode Program 4.7. Technical information BPSO ... 67

Kode Program 4.8. Penggunaan kode class BPSO ... 68

Kode Program 4.9. Kode struktur method class BPSO ... 69

Kode Program 4.10. Kode method optimisasi dari class BPSO ... 69

Kode Program 4.11. Kode method evaluasi untuk optimisasi ... 70

Kode Prorgam 4.12. Kode pembuatan dataset baru ... 70

(15)

DAFTAR LAMPIRAN

(16)

BAB I

PENDAHULUAN

1.1. Latar Belakang

Data terus dihasilkan oleh organisasi, perusahaan, ataupun individu. Data merupakan sesuatu yang bersifat mentah dan dapat berupa angka, tulisan, gambar, suara, huruf, dan dalam bentuk lainnya. Data-data tersebut terus bertambah dan terus menumpuk sehingga membuat jumlah data menjadi sangat besar, jumlah data yang besar membuat data menjadi sulit untuk diolah dan menjadi tidak berguna. Data memiliki nilai yang dapat diolah untuk membentuk suatu informasi yang bermanfaat dan menambah pengetahuan yang tidak diketahui sebelumnya.

Data Mining memiliki kemampuan untuk melakukan analisis data dan

dapat menampilkan pola data penting yang tidak terlihat dalam data yang memiliki jumlah sangat besar, berkontribusi terhadap strategi bisnis, dasar

pengetahuan, serta penelitian sains dan kedokteran (Han dan Kamber, 2006: 4). Data yang terdapat dalam sebuah kumpulan data diklasifikasikan untuk dapat mendiskripsikan suatu data sehingga menjadi berguna sebagai pengetahuan dasar untuk diterapkan pada data yang baru. Pengelompokan data (klasifikasi) dilakukan untuk membedakan data berdasarkan kelompok (class) tertentu (Han dan Kamber, 2006: 287), misalnya terdapat data lulusan mahasisiwa suatu universitas yang terbagi dalam dua kelompok yaitu, mahasiswa yang aktif dan mahasiswa yang DO (drop out), data kemudian diklasifikasi untuk mendapatkan pola yang dapat diterapkan pada data mahasiswa angkatan baru.

Data yang beragam dan jumlah data yang besar dapat mempengaruhi sulitnya pengelompokan data kerena data memiliki kecenderungan menjadi tidak seimbang atau disebut imbalanced data (Longadge, 2013: 1). Data yang tidak seimbang akan memberikan hasil yang tidak akurat dikarenakan jumlah data minoritas sulit untuk dikenali atau dideskripsikan mengingat jumlah data mayoritas menguasai penyebaran data sehingga menyebabkan data minoritas berada diantara data mayoritas. Contohnya seperti data lulusan mahasiswa Fakultas Teknologi Informasi Universitas Kristen Maranatha, jika kita perhatikan data kelulusan mahasiswa yang diklasifikasi berdasarkan predikatnya terbagi

(17)

2

152 data, predikat ‘Sangat Memuaskan’ (IPK 2.76-3.50) berjumlah 272 data, dan

predikat ‘Memuaskan’ (IPK 2.01-2.75) berjumlah 13 data. Predikat ‘Sangat Memuaskan’ memiliki jumlah yang sangat besar jika dibandingkan dengan predikat "Memuaskan", besar perbandingan tersebut sebesar 20,92 (hasil dari 272 dibagi dengan 13). Hal ini menyebabkan seluruh data dengan predikat "Memuaskan" menjadi misclassified dilihat dari hasil confussion matrix pada penelitian yang dilakukan oleh Tjioe Marvin (Tjioe, 2014).

Kasus diatas menunjukkan kesimpulan yang dihasilkan dari penelitian oleh Tjioe Marvin dalam menggunakan metode NBTree sebagai classifier memberikan pola atau pettern dengan kecenderungan missclassfied pada dataset yang bersifat imbalanced. Untuk itu dalam tugas akhir ini akan digunakan metode klasifikasi Support Vector Machine yang bekerja tidak menggunakan struktur pohon tetapi bekerja dengan memisahkan class data secara nonlinear melalui kernel.

Seluruh kategori menjadi penting untuk dikenali dan membentuk pola sehingga dapat digunakan pada data mahasiswa yang baru, permasalahan muncul

ketika data yang tidak seimbang membuat kelompok tertentu menjadi misclassified. Penelitian ini bertujuan untuk mengenali karakteristik data

seimbang berdasarkan besar perbandingan data tidak seimbang dan menyelesaikan permasalahan klasifikasi data yang tidak seimbang atau disebut imbalanced data dengan menggunakan beberapa metode yang diterapkan dalam

beberapa contoh kasus data yang dimiliki.

1.2. Rumusan Masalah

Rumusan masalah yang muncul dari latar belakang tersebut adalah:

1. Bagaimana menganalisis karakteristik data dalam sebuah imbalanced

dataset?

2. Sejauh mana Support Vector Machine dan kombinasi algoritma dapat

(18)

3

1.3. Tujuan

Tujuan dilakukannya penelitian dan pembuatan aplikasi adalah:

1. Melakukan analisis karakteristik data dalam sebuah imbalanced dataset.

2. Menunjukkan hasil penerapan Support Vector Machine dan kombinasi

algoritma untuk imbalanced dataset.

1.4. Batasan Masalah

Beberapa batasan masalah yang diberikan adalah:

1. Data testing yang digunakan adalah dataset mahasiswa Fakultas

Teknologi Informasi Universitas Kristen Maranatha.

2. Dataset Mahasiswa yang digunakan dipisahkan menjadi dua, yaitu data Mahasiswa Aktif tahun pertama (semester 1 & 2) dan data Mahasiswa Lulusan.

3. Dataset Mahasiswa yang digunakan dalam tugas akhir ini berasal dari penelitian yang dilakukan oleh Tjioe Marvin (Tjioe, 2014).

4. Dataset Mahasiswa yang digunakan dalam tugas akhir ini memiliki

atribut data yang telah diubah menjadi tipe data nominal

5. Algoritma classification yang digunakan adalah SVM (Support Vector

Machines)

6. SVM yang terdapat pada aplikasi menggunakan library dari LIBSVM.

7. Kernel SVM yang digunakan adalah RBF kernel (Radial Basis Function Kernel)

8. Metode algoritma yang dikombinasikan dengan SVM adalah algoritma

KSMOTE (Kernel-based Synthetic Minority Oversampling Technique), algoritma AdaBoost dan algoritma SSO (Sample Subset Optimization).

9. Metode klasifikasi dalam aplikasi menggunakan library yang disediakan

oleh WEKA dan SSO.

10. Karakteristik dataset dibagi menjadi low imbalanced, medium

imbalanced, dan high imbalanced

11. Data training dibuat berdasarkan dataset yang diambil dari repositori

(19)

4

12. Dataset training telah disesuaikan dengan dataset mahasiswa Fakultas Teknologi Informasi Universitas Kristen Maranatha, penyesuaian meliputi tipe data dan kategori imbalanced dataset.

13. Dataset training memiliki atribut dengan tipe data yang telah diubah dengan tipe data nominal.

1.5. Sistematika Pembahasan

Sistematika penulisan untuk tugas akhir ini adalah : BAB I PENDAHULUAN

Bab ini menjelaskan latar belakang, rumusan masalah, tujuan, batasan masalah dan sistematika pembahasan.

BAB II LANDASAN TEORI

Bab ini menjelaskan teori-teori yang berkaitan dengan pembuatan sistem

dan mendukung pembuatan sistem atau aplikasi yang ada. BAB III ANALISIS DAN DISAIN

Bab ini menjelaskan bagaimana analisis keadaan, kebutuhan dari aplikasi,

perancangan aplikasi, UML, dan gambaran arsitektur dari aplikasi yang dibuat. BAB IV PENGEMBANGAN PERANGKAT LUNAK

Bab ini digunakan untuk menjelaskan mengenai implementasi dari teknik serta perancangan aplikasi.

BAB V TESTING DAN EVALUASI SISTEM

Bab ini menjelaskan tentang pengujian dari teknik atau aplikasi yang telah dibuat.

BAB VI KESIMPULAN DAN SARAN

(20)

BAB VI

KESIMPULAN DAN SARAN

Dalam bab ini akan dijabarkan kesimpulan yang dapat diambil dari hasil evaluasi pada bab V dan saran yang diberikan untuk pengembangan penelitian berikutnya.

6.1. Kesimpulan

Berdasarkan evaluasi yang dilakukan dalam penelitian tugas akhir ini, maka dapat ditarik kesimpulan sebagai berikut:

1. Dataset training untuk low imbalanced dataset mengusulkan metode KSMOTE-SVM sebagai usulan utama, dan metode SSO-SVM sebagai

usulan kedua, berdasarkan hasil evaluasi low imbalanced dataset pada subbab 5.1.1.1. Usulan didapatkan dari hasil persentase correctly

classified instances tertinggi, dan hasil persentase confusion matrix yang

berhasil mengklasifikasi semua class (class mayoritas dan class minoritas) dan persentase misclassified terkecil.

2. Dataset training untuk medium imbalanced dataset berdasarkan hasil evaluasi medium imbalanced dataset pada subbab 5.1.1.2 dengan hasil persentase correctly classified instances tertinggi, dan hasil persentase confusion matrix yang berhasil mengklasifikasi semua class (class

mayoritas dan class minoritas) dan persentase misclassified terkecil mengusulkan metode KSMOTE-SVM sebagai usulan utama, dan metode SSO-SVM sebagai usulan kedua.

3. Dataset training untuk high imbalanced dataset berdasarkan hasil evaluasi high imbalanced dataset pada subbab 5.1.1.3 mengusulkan metode AdaBoostSVM sebagai usulan utama, dan metode KSMOTE-SVM sebagai usulan kedua, dengan melihat hasil persentase correctly classified instances tertinggi, dan hasil persentase confusion matrix yang

(21)

91

4. Dataset Mahasiswa dengan kategori medium imbalanced dataset dapat diklasifikasi dengan metode usulan utama yaitu, metode KSMOTE-SVM dan usulan kedua yaitu, metode SSO-KSMOTE-SVM. Hasil evaluasi pada subbab 5.1.2.1, 5.1.2.2, dan 5.1.2.4 menunjukkan KSMOTE-SVM sebagai metode yang disarankan berdasarkan hasil persentase correctly classified instances tertinggi dan persentase misclassified terkecil dengan

label class minoritas dapat terklasifikasi, dan

5. Dataset Mahasiswa dengan kategori high imbalanced dataset berdasarkan hasil evaluasi pada subbab 5.1.2.3 dan 5.1.2.5 menunjukkan dataset hanya dapat diklasifikasikan dengan metode usulan kedua yaitu,

metode KSMOTE-SVM, karena metode selain KSMOTE-SVM mengalami salah klasifikasi (misclassified) pada label class minoritas menyebabkan metode KSMOTE-SVM memiliki persentase misclassified terkecil. KSMOTE-SVM juga memiliki hasil persentase correctly classified instances tertinggi.

6. Metode KSMOTE-SVM atau oversampling, hanya bekerja dengan baik

pada dataset yang memiliki dua class karena metode KSMOTE-SVM hanya melakukan oversampling pada satu class minoritas. Jika dataset memiliki multiclass maka tidak semua class dapat di-oversampling, tetapi oversampling pada class yang paling minoritas. Metode KSMOTE-SVM cocok digunakan pada semua karakteristik data imbalanced (low, medium, dan high imbalanced dataset) sesuai dengan

hasil keseluruhan evaluasi data training (subbab 5.1.1.4) dan data testing (subbab 5.1.2.6).

7. Metode AdaBoostSVM merupakan metode untuk memperbaiki akurasi

SVM sehingga dapat bekerja pada dataset dengan dua class maupun multiclass. Metode AdaboostSVM tidak dapat memberikan hasil yang

baik jika metode SVM mengalami missclassified pada salah satu class, karena metode AdaBoostSVM tidak dapat memperbaiki akurasi pada class yang sama sekali missclassified, hal ini dapat terlihat pada hasil

(22)

92

8. Metode SSO-SVM atau undersampling, hanya melakukan

undersampling pada satu class paling mayoritas, sehingga membuat metode ini bekerja dengan efektif pada dataset yang memiliki dua class. Jika metode digunakan pada dataset multiclass metode tidak dapat menyeimbangkan semua class yang terdapat pada dataset. SSO-SVM dapat bekerja pada karakteristik data low imbalanced dataset dan medium imbalanced dataset sesuai dengan hasil keseluruhan evaluasi

data training dengan karakteristik low dan medium imbalanced dataset (subbab 5.1.1.4) dan data testing dengan karakteristik medium imbalanced dataset (subbab 5.1.2.6) . Pada hasil evaluasi data training

dalam subbab 5.1.1.3 menunjukkan metode SSO-SVM tidak bekerja dengan baik pada high imbalanced dataset.

9. Jika melakukan analisis pada dataset baru, maka sebaiknya diperhatikan

jumlah class yang dimiliki oleh dataset dan imbalance ratio pada class dalam dataset. Jumlah class mempengaruhi metode yang digunakan

dikarenakan terdapat metode yang hanya dapat bekerja pada dataset

dengan dua class, sehingga tidak efektif jika diterapkan pada multiclass dataset. Imbalance ratio yang dimiliki oleh dataset dapat mempengaruhi

hasil evaluasi, jika menggunakan classifier menemukan class yang seluruhnya missclassified disarankan untuk menggunakan metode yang menerapkan oversampling atau undersampling, karena optimasi classifier seperti boosting tidak efektif dalam menangani permasalahan

(23)

93

6.2. Saran

Adapun saran-saran yang diperoleh untuk pengembangan penelitian tugas akhir ini, yaitu:

1. Menggunakan metode klasifikasi lain yang dapat di kombinasikan

dengan support vector machine untuk menyelesaikan permasalahan imbalanced data selain yang digunakan pada tugas akhir,

2. Melakukan eksperimen dan analisis terhadap dataset dengan tipe data

numeric (integer dan real), dan

3. Memperlihatkan bentuk visual dari hyperplane yang tercipta oleh

(24)

94

DAFTAR PUSTAKA

Alcala-fdez, J., Fernandez, A., Luengo, J., Derrac, J., Garcia, S., Sanchez, L., & Herrera, F. (2011). KEEL Data-Mining Software Tool: Data. Multi-Valued Logic & Soft Computing, 255-287.

Batuwita, R., & Palade, V. (2012). Class Imbalance Learning Methods for Support Vector Machines. Imbalanced Learning: Foundations, Algorithms, and Applications.

Chih, C. C., & Chih, J. L. (2013). LIBSVM: A Library for Support Vector Machines. ACM Transactions on Intelligent Systems and Technology.

Chih-Wei, H., Chih-Chung, C., & Chih-Jen, L. (2010). A Practical Guide to Support Vector Classification. Department of Computer Science, National Taiwan University, Taipei 106, Taiwan.

Cortes, C., & Vapnik, V. (1995). Support-Vector Network. Machine Learning 20, 273-297.

Fernandez, A., Garcia, S., del Jesus, M. J., & Herrera, F. (2008). A study of the behaviour of linguistic fuzzy rule based classiﬁcation systems in framework of imbalanced data-set. Fuzzy Sets and Systems, 2378-2398.

Garcia, E., & Lozano, F. (2007). Boosting Support Vector Machines. International Conference on Machine Learning and Data Mining.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The WEKA Data Mining Software: An Update. SIGKDD Explorations.

Han, J., & Micheline, K. (2006). Data Mining Concepts and Techniques (2nd ed.). San Francisco: Morgan Kaufmann.

Kurniawan, D., & Supriyanto, C. (2013). OPTIMASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) MENGGUNAKAN ADABOOST UNTUK PENILAIAN RISIKO KREDIT. Program Pascasarjana Magister Teknik Informatika Universitas Dian Nuswantoro.

Li, X., Wang, L., & Sung, E. (2008). AdaBoost with SVM-based component classifiers. Engineering Applications of Artificial, 785-795.

(25)

Longadge, R., Dongre, S. S., & Malik, L. (2013). Class Imbalance Problem in Data Mining: Review. International Journal of Computer Science and Network, 2(1).

Sulianta, F., & Juju, D. (2010). Data Mining: Meramalkan Bisnis Perusahaan. Jakarta: PT Elex Media Komputindo.

Tjioe, M. C. (2014). Analisis Data Mahasiswa dan Data Dosen Universitas Kristen Maranatha Dengan Metode NBTree, K-Means, X-Means, dan

DBScan. Bandung: Fakultas Teknologi Informasi, Universitas Kristen Maranatha.

Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Practical Machine Learning Tools and Techniques. USA: Morgan Kaufmann.

Yang, P., Zhang, Z., Zhou, B. B., & Zomaya, A. Y. (2011). Sample Subsets Optimization for Classifying Imbalanced Biological Data. Proceedings of the 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining

(PAKDD).

Zhi, Q. Z., & Gao, J. (2009). Improving SVM Classification With Imbalance Data Set. International Conference on Neural Information Processing,