ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS

(1)

ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS

DENGAN MENGGUNAKAN DENSITY BASED FEATURE

SELECTION (DBFS) DAN ADAPTIVE BOOSTING

(ADABOOST)

TESIS

SUDARTO

147038004

MAGISTER TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2016

(2)

(ADABOOST)

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

SUDARTO

147038004

PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2016

(3)

PERSETUJUAN

Judul : Analisis Penanganan Ketidakseimbangan Kelas

dengan menggunakan Density Based Feature Selection (DBFS) dan Adaptive Boosting (Adaboost)

Kategori : Tesis

Nama : Sudarto

Nomor Induk Mahasiswa : 147038004

Program Studi : Teknik Informatika

Fakultas : Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Pahala Sirait, M.Kom Prof. Dr. Muhammad Zarlis

Diketahui/disetujui oleh Ketua Program Studi

Magister (S2) Teknik Informatika,

Prof. Dr. Muhammad Zarlis

(4)

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing – masing telah disebutkan sumbernya.

Medan, 26 Juli 2016

Sudarto

(5)

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:

Nama : Sudarto

NIM : 147038004

Program Studi : Teknik Informatika Jenis Karya Ilmiah : Tugas Akhir / Tesis

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul:

ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS)

DAN ADAPTIVE BOOSTING (ADABOOST)

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.

Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 26-Juli-2016

Sudarto

(6)

PANITIA PENGUJI TESIS

Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Dr. Pahala Sirait, M.Kom

2. Prof. Dr. Tulus, Vor. Dipl. Math, M.si 3. Dr. Poltak Sihombing, M.Kom

(7)

RIWAYAT HIDUP

DATA PRIBADI

Nama : Sudarto, S.Kom

Tempat dan Tanggal Lahir : Medan, 25 Januari 1978

Alamat Rumah : Jl. Perkutut gg. Mesjid No. 296 Medan-Helvetia

HP : 08126440228

E-Mail :[email protected] Instansi Tempat Bekerja : STMIK MIKROSKIL Alamat Kantor : Jl. Thamrin No.142 Medan

DATA PENDIDIKAN

SD : SDN 06052 Medan Tamat : 1990

SLTP : SMPN 15 Medan Tamat : 1993

SLTA : SMK Teladan Medan Tamat : 1996

S1 : Sistem Informasi STMK MIKROSKIL Tamat : 2004 S2 : Teknik Informatika USU Tamat : 2016

(8)

Feature Selection (DBFS) dan Adaptive Boosting (Adaboost)” tepat pada waktunya.

Laporan tesis ini disusun sebagai syarat guna mendapatkan gelar sarjana strata dua pada Program Studi Teknik Informatika Universitas Sumatera Utara.

Penulis juga menyadari bahwa penyusunan tesis ini tidak terlepas dari pengarahan, petunjuk, bantuan, dan dukungan dari berbagai pihak. Oleh karena itu, dalam kesempatan yang baik ini, penulis tidak lupa mengucapkan rasa terima kasih dan penghargaan yang sebesar-besarnya kepada:

1. Bapak Prof. Dr. Runtung Sitepu, SH. M.Hum, selaku Rektor Universitas Sumatera Utara.

2. Bapak Prof. Dr. Muhammad Zarlis, selaku Ketua Program Studi Teknik Informatika Universitas Sumatera Utara, dosen penasehat akademik, dan dosen pembimbing utama yang telah banyak meluangkan waktunya untuk memberikan pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini.

3. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc Selaku Dekan Fakultas Ilmu Komputer dan Teknologi Infomasi Universitas Sumatera Utara.

4. Bapak Dr. Pahala Sirait, M.Kom, selaku dosen pembimbing kedua yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, bantuan, dukungan, dan motivasi dalam tesis ini.

5. Bapak Prof. Dr. Tulus, Vor. Dipl. Math, M.Si. selaku dosen penguji utama yang telah banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dan dukungan kepada penulis.

6. Bapak Dr. Poltak Sihombing, M.Kom., selaku dosen penguji kedua yang banyak meluangkan waktunya untuk memberikan masukan, pengarahan, petunjuk, dukungan, dan motivasi kepada penulis.

7. Seluruh dosen di Program Studi Teknik Informatika Universitas Sumatera Utara yang telah mendidik dan membimbing penulis.

(9)

8. Teristimewa kepada orang tua, keluarga, dan teman-teman yang telah banyak memberikan dukungan dan semangat baik secara langsung maupun tidak kepada penulis dalam menyelesaikan tesis ini.

Penulis menyadari bahwa tesis ini masih terdapat kekurangan baik dari segi tata bahasa maupun materi yang terkandung di dalamnya. Oleh karena itu, dengan segala kerendahan hati penulis membuka diri untuk menerima segala saran dan kritik yang bersifat membangun dari semua pihak yang mengarah kepada perbaikan tesis ini. Penulis yakin dengan adanya masukan-masukan kiranya dapat semakin memperbaiki dan menyempurnakan tesis ini.

Akhir kata, penulis berharap tesis ini dapat berguna, memberi manfaat, dan menjadi sumber informasi bagi pembaca. Sebelum dan sesudahnya penulis mengucapkan terima kasih.

Medan, 26 Juli 2016 Penulis,

Sudarto

(10)

Penerapan algoritma adaboost dalam seleksi fitur dilakukan untuk memberi bobot pada setiap fitur yang direkomendasikan, sehingga ditemukan fitur yang merupakan classifier yang kuat, sedangkan DBFS berfokus dalam mengidentifikasi kelas minoritas dan mengevaluasi dampak dari sebuah fitur yang bermanfaat berdasarkan rangking fitur agar dapat direkomendasikan pada classifier C4.5 dalam proses pengklasifikasian. Hasil penelitian menunjukkan bahwa, kinerja akurasi pengklasifikasi C4.5 pada dataset mahasiswa lulusan dengan mengkombinasikan DBFS sebelum proses adaboost, dengan pengaturan nilai confidence level 0,50 dan 30 fold cross-validation, menunjukkan tingkat akurasi klasifikasi yang relatif lebih baik dalam penanganan ketidakseimbangan kelas.

Kata kunci : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

(11)

ANALYSIS OF CLASS IMBALANCE HANDLING USING DENSITY BASED FEATURE SELECTION (DBFS) AND ADAPTIVE BOOSTING

ABSTRACT

The Class Imbalance of dataset between two different class are majority and minority class, which impact on the algorithm C 4.5 that tend to produce good prediction accuracy on the class majority but not be conductive in predicting instances of minority class, so the value of accuracy of classification results C4.5 not optimal. To reduce the influence of class imbalance in the classifier C4.5, is applying a combination of feature selection methods namely Adaptive Boosting (Adaboost) algorithms and Density Based Feature Selection (DBFS) method. Application of adaboost algorithm in feature selection done to give weights to each recommended feature, so will found a feature with strong classifier, While the DBFS focusing in identifying minority classes and evaluating the impact of a useful features based on rank features, then it can be recommended classifier C 4.5 in the process of classification. The results study , shows the performance accuracy classifier C 4.5 on a dataset of student graduates with combines DBFS before the process of adaboost, value setting of the confidence level 0.50 and 30 fold cross-validation, indicates the level of accuracy thefdd classification of the relatively better in handling the class imbalance.

Keyword : Class imbalance, Classifier C4.5, Adaboost, DBFS, Confidence Level, Fold Cross-Validation

(12)

PANITIA PENGUJI ...v

RIWAYAT HIDUP ...vi

UCAPAN TERIMA KASIH ...vii

ABSTRAK ...ix

ABSTRACT ...x

DAFTAR ISI...xi

DAFTAR TABEL ...xiii

DAFTAR GAMBAR ...xiv

BAB I PENDAHULUAN... 1.1. Latar Belakang...1 1.2. Rumusan Masalah...4 1.3. Batasan Masalah...5 1.4. Tujuan Penelitian...5 1.5. Manfaat Penelitian...5

BAB II TINJAUAN PUSTAKA... 2.1. Data Mining...7

2.2. Ketidakseimbangan Kelas (Class Imbalance)...14

2.2.1. Efek dari Ketidakseimbangan kelas pada classifier...15

2.2.2. Tantangan dengan Ketidakseimbangan Kelas...16

2.2.3. Penanganan Ketidakseimbangan Kelas...19

2.2.4. Pendekatan Level Algoritma dengan Seleksi Fitur...20

2.2.5. Pendekatan Level Algoritma dengan Adaptive Boosting (Adaboost)...24

2.3. Algoritma C4.5...26

(13)

2.4.1. Cross-Validation...31

2.4.2. Confunsion Matrix...32

2.4.3. Receiver Operating Character Curve (Kurva ROC)...33

2.4.4. Root Mean Square Error (RMSE)...35

2.5. Penelitian Terkait...36

2.6. Perbedaan dengan Riset yang lain...38

2.7. Kontribusi Riset...38

BAB III METODOLOGI PENELITIAN... 3.1. Pendahuluan...39

3.2. Metode Penelitian...39

3.2.1. Metode Pengumpulan Data...40

3.2.2. Pengolahan Awal (Preprocessing) Data...42

3.3. Model yang diusulkan...44

3.4. Evaluasi dan Validasi...49

3.5. Alat Analisis Data...50

BAB IV HASIL DAN PEMBAHASAN... 4.1. Pendahuluan ...51

4.1.1. Hasil Klasifikasi Algoritma C4.5 tanpa Seleksi Fitur...51

4.1.2. Seleksi Fitur dengan DBFS...55

4.1.3. Seleksi Fitur dengan DBFS sebelum proses Adaboost...60

4.1.4. Seleksi Fitur dengan DBFS setelah proses Adaboost...61

4.2. Pembahasan...63

4.2.1. Analisis Kinerja Pengklasifikasi C4.5 ...63

4.2.2. Estimasi Kinerja Pengklasifikasi C4.5...73

BAB V KESIMPULAN DAN SARAN... 5.1. Kesimpulan...78

5.2. Saran...78

DAFTAR PUSTAKA ...80

(14)

Tabel 3.1. Dataset Pertama Mahasiswa Lulusan...40

Tabel 3.2. Dataset Kedua Mahasiswa Lulusan...41

Tabel 3.3. Dataset Ketiga Mahasiswa Lulusan...41

Tabel 3.4. Gabungan Dataset Pertama, Kedua dan Ketiga...42

Tabel 3.5. Spesifikasi dan Atribut Dataset Mahasiswa Lulusan ...43

Tabel 3.6. Nilai AUC...50

Tabel 3.7. Spesifikasi Hardware dan Software...50

Tabel 4.1. Hasil Nilai Gain Ratio Simpul Pertama...52

Tabel 4.2. Hasil Pengukuran tanpa Seleksi Atribut...53

Tabel 4.3. Peringkat Atribut...58

Tabel 4.4. Hasil Pengukuran dengan DBFS (40%)...59

Tabel 4.7. Hasil Seleksi Fitur dengan DBFS Sebelum Adaboost...60

Tabel 4.8. Hasil Pengukuran dengan DBFS Sebelum Adaboost...61

Tabel 4.9. Hasil Seleksi Fitur dengan DBFS setelah Adaboost...62

Tabel 4.10. Hasil Pengukuran dengan DBFS setelah Adaboost...62

Tabel 4.11. Perbandingan Kinerja 5-Fold dan Confidence Level 0,25...64

(15)

DAFTAR GAMBAR

Halaman

Gambar 2.1. Klasifikasi Decision Tree...9

Gambar 2.2. Clustering ...10

Gambar 2.3. Asosiasi...10

Gambar 2.4. Time Series...11

Gambar 2.5. Urutan Rangkaian Kejadian...11

Gambar 2.6. Tahap – tahap Data Mining...12

Gambar 2.7. Dampak dari Sampel ukuran kecil dalam masalah Ketidakseimbangan Kelas...17

Gambar 2.8. Contoh Ketidakseimbangan Kelas (a) overlapping antara kelas (b) small disjunct dalam ketidakseimbangan kelas...19

Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x...21

Gambar 2.10. Area Overlapping pada setiap Fitur...22

Gambar 2.11. Area Non Overlapping pada setiap Fitur f...23

Gambar 2.12. Proses Klasifikasi Data...28

Gambar 2.13. Contoh Pohon Keputusan...28

Gambar 3.1. Tahapan Penelitian...40

Gambar 3.2. Kerangka Model yang diusulkan...45

Gambar 3.3. Flowchart Algoritma Adaboost...47

Gambar 3.4. Flowchart Algoritma DBFS...48

Gambar 4.1. Hasil Perhitungan DBFS pada Dataset Mahasiswa Lulusan...55

Gambar 4.2. Area Overlapping pada setiap Kelas...57

Gambar 4.3. Grafik Perbandingan Kinerja 5-Fold dan Confidence Level 0,25...64

(16)

(17)

PENDAHULUAN

1.1. Latar Belakang

Saat ini bidang data mining semakin popular seiring dengan semakin meningkatnya kepedulian banyak pihak atas pentingnya pengolahan data guna menggantikan peran manual oleh manusia. Konsep data mining banyak digunakan untuk mempelajari data, mengenali pola dan membuat model berdasarkan data historis. Model tersebut dapat digunakan untuk melakukan klasifikasi dan prediksi terhadap data baru yang memungkinkan untuk membuat atau mendukung pengambilan keputusan.

Dalam bidang data mining terdapat berbagai metode untuk menemukan pola tertentu dalam data. Salah satu metode yang digunakan ialah klasifikasi. Proses klasifikasi merupakan salah satu tugas dalam datamining yang digunakan untuk meramalkan sebuah nilai dari sekumpulan data. Salah satu tantangan terbesar dalam penelitian klasifikasi pada datamining adalah masalah ketidakseimbangan kelas yang umumnya ditemukan dalam aplikasi dunia nyata. (Pant, 2015). Ketidakseimbangan kelas (class imbalance) terjadi dalam jumlah training data antara dua kelas yang berbeda. Satu kelas memiliki jumlah data yang besar (mayoritas) sedangkan kelas yang lain memiliki jumlah data yang minoritas (Weiss, 2013).

Dalam berbagai kasus, algoritma klasifikasi standar memiliki bias terhadap kelas dengan jumlah yang lebih besar , karena aturan yang benar dan yang umum lebih disukai dalam memprediksi contoh – contoh pembobotan kelas mayoritas yang mendukung metrik keakuratan sedangkan aturan khusus yang memprediksi contoh dari kelas minoritas biasanya diabaikan atau memperlakukan mereka sebagai noise (Y.Sun et. Al, 2009) . Hal ini berpengaruh pada algoritma klasifikasi standar yang menghasilkan akurasi prediksi yang baik pada kelas mayoritas tetapi akan menghasilkan akurasi prediksi yang sebaliknya terhadap kelas minoritas dan cenderung menyimpangkan prediksi dari record yang aktualnya adalah kelas minoritas di prediksikan kedalam kelas mayoritas.

Permasalahan ketidakseimbangan kelas (class imbalance) biasanya cenderung menyebabkan overlapping, kurangnya data yang representatif (kasus yang jarang

(18)

Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numerik (Han, 2001). Hasil klasifikasi pada algoritma C4.5 dalam predikat kelulusan mahasiswa tepat waktu dengan grade cumlaude bisa diperoleh dengan syarat utama adalah pernah menjadi asisten semasa kuliah , berasal dari jurusan IPA semasa SMA , rerata SKS per semester 18 dan berjenis kelamin wanita (Yusuf, 2014). Sebagian besar kasus data yang telah dilakukan untuk klasifikasi mahasiswa tepat waktu dan tidak tepat waktu adalah tidak seimbang, yang berarti bahwa hanya sebagian kecil mahasiswa tidak tepat waktu dan sebagian besar tepat waktu. Semakin banyak mahasiswa lulus tidak tepat waktu dapat mempengaruhi nilai akreditasi sebuah perguruan tinggi. Oleh karena itu perlu adanya monitoring dan evaluasi terhadap kecenderungan kelulusan mahasiswa tidak tepat waktu.

Ada tiga pendekatan untuk menangani dataset tidak seimbang (unbalanced), yaitu pendekatan pada level data, level algoritmik, dan menggabungkan atau memasangkan (ensemble) metode (Yap, et al., 2014). Pendekatan pada level data mencakup berbagai teknik resampling dan sintesis data untuk memperbaiki kecondongan distribusi kelas training data. Pada tingkat algoritmik, metode utamanya adalah menyesuaikan operasi algoritma yang ada untuk membuat pengklasifikasi (classifier) agar lebih konduktif terhadap klasifikasi kelas minoritas (Zhang, Liu, Gong, & Jin, 2011). Sedangkan pada pendekatan menggabungkan atau memasangkan (ensemble) metode, ada dua algoritma ensemble-learning paling populer, yaitu boosting dan bagging (Yap, et al., 2014). Pada pendekatan algoritma dan ensemble

(19)

memiliki tujuan yang sama, yaitu memperbaiki algoritma pengklasifikasi tanpa mengubah data, sehingga dapat dianggap ada 2 pendekatan saja, yaitu pendekatan level data dan pendekatan level algoritma (Peng & Yao, 2010). Karena masalah ketidakseimbangan kelas biasanya disertai dengan permasalahan dari dataset berdimensi tinggi, teknik sampling dan metode algoritma tidaklah cukup menangani ketidakseimbangan kelas (class imbalance). Menerapkan seleksi fitur (feature selection) adalah tindakan penting yang perlu dilakukan dalam menangani ketidakseimbangan kelas (class imbalance) dari dataset berdimensi tinggi (Tiwari, 2014).

Seleksi fitur (feature selection) adalah salah satu teknik terpenting dan sering digunakan dalam pre-processing data mining. Fokus seleksi fitur adalah untuk memilih subset variabel dari masukan yang bisa menggambarkan efisiensi input data dalam mengurangi dampak dari noise atau variabel yang tidak relevan dan tetap memberikan hasil prediksi yang baik (Candrashekar, 2014). Untuk dataset tidakseimbang (imbalance), metode seleksi fitur juga harus fokus pada atribut yang membantu dalam identifikasi kelas minoritas (Pant, 2015). Selain itu, kinerja metode seleksi fitur berkembang ketika rasio ketidakseimbangan meningkat. Hasil penelitian menunjukkan bahwa di berbagai rasio ketidakseimbangan kelas, metode DBFS (Density Based Feature Selection) melebihi metode saingan seleksi fitur lainnya terutama ketika lebih dari 0,5% dari fitur yang dipilih untuk tugas klasifikasi. Peningkatan ini lebih nyata sesuai dengan evaluasi statistik AUC (area under curve) terutama dengan rasio ketidakseimbangan tinggi (Alibeigi et al, 2012). Pendekatan untuk menggabungkan seleksi fitur dengan proses boosting fokus pada dua skenario yang berbeda yaitu seleksi fitur dilakukan sebelum proses boosting dan seleksi fitur yang dilakukan dalam proses boosting. Hasil percobaan menunjukkan bahwa melakukan seleksi fitur dalam boosting umumnya lebih baik daripada menggunakan seleksi fitur sebelum proses boosting (Gao, 2014).

Algoritma boosting adalah algoritma iteratif yang memberikan bobot yang berbeda pada distribusi training data di setiap iterasi. Setiap iterasi boosting menambahkan bobot pada contoh-contoh kesalahan klasifikasi dan menurunkan bobot pada contoh klasifikasi yang benar, sehingga secara efektif dapat merubah distribusi pada data training. Salah satu contoh algoritma boosting adalah adaboost. Algoritma adaptive boosting (adaboost) telah dilaporkan sebagai meta-teknik untuk mengatasi

(20)

penentuan kelulusan mahasiswa dengan metode decision tree (C4.5) , dan menghasilkan sebuah model arsitektur yang optimal dan hasil estimasi yang akurat (Bisri, 2015).

Berdasarkan latar belakang tersebut di atas, penulis mencoba melakukan penelitian untuk menyelesaikan permasalahan ketidakseimbangan kelas (Class imbalance) dengan menerapkan seleksi fitur (feature selection) dan pendekatan algoritma serta membandingkan akurasi pengklasifikasian algoritma C4.5 standar dengan kombinasi dari pendekatan seleksi fitur, pendekatan algoritma dan algoritma C4.5 pada sejumlah data sets mahasiswa lulusan program studi sistem informasi STMIK Mikrokil Medan. Pengukuran akurasi menghasilkan confusion matrix untuk penilaian accuracy, precision, recall. Berdasarkan uraian diatas maka penelitian ini diberi judul : ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DBFS (DENSITY BASED FEATURE SELECTION) DAN ADAPTIVE BOOSTING (ADABOOST).

1.2. Rumusan Masalah

Ketidakseimbangan kelas dari dataset antara dua kelas yang berbeda yaitu kelas mayoritas dan kelas minoritas, berpengaruh pada algoritma C4.5 yang cenderung menghasilkan akurasi prediksi yang baik pada kelas mayoritas, sementara kurang baik pada kelas minoritas, sehingga mempengaruhi keoptimalan akurasi dalam pengklasifikasian. Pada ketidakseimbangan kelas dari dataset, dibutuhkan juga fokus pada atribut yang membantu mengidentifikasi ketepatan akurasi kelas minoritas agar dapat mempengaruhi hasil dalam pengklasifikasian. Sehingga diperlukan suatu model untuk penanganan ketidakseimbangan kelas (class imbalance) dengan menggunakan metode Density Based Feature Selection (DBFS) dan Adaptive boosting pada

(21)

algoritma klasifikasi C4.5 serta pengukuran peningkatan kinerja dari sudut pandang akurasi, presisi dan sensitivitas (recall) melalui perbandingan algoritma klasifikasi C4.5 dengan menggunakan metode DBFS dan Adaboost.

1.3. Batasan Masalah

Agar analisis ini mendapatkan gambaran yang jelas, rinci, terarah dan tidak menyimpang dari latar belakang masalah yang telah diuraikan, maka batasan masalah dalam penelitian ini adalah sebagai berikut:

1. Pengklasifikasian menggunakan algoritma C4.5 2. Evaluasi menggunakan K-fold cross validation .

3. Menggunakan confunsion matrix untuk mengukur accuracy, precision dan recall dalam menganalisa kinerja klasifikasi.

4. Menggambarkan estimasi kinerja klasifikasi dengan area under the ROC (AUROC atau AUC)

5. Menggunakan dataset original dari mahasiswa program studi sistem informasi STMIK – Mikroskil tahun ajaran 2004, 2005, 2006

6. Analisis data dan pengujian menggunakan xampp 2.4. dan rapid miner studio 6.5

1.4. Tujuan Penelitian

Adapun tujuan dari penelitian adalah sebagai berikut :

1. Menganalisis penerapan pendekatan seleksi fitur dan pendekatan level algoritma dalam mengurangi pengaruh ketidakseimbangan kelas pada dataset mahasiswa lulusan dengan pengklasifikasi C4.5.

2. Menganalisis kinerja metode klasifikasi C4.5 ketika diintegrasikan dengan algoritma density based feature selection (DBFS) dan algoritma adaptive boosting (adaboost) dalam penanganan ketidakseimbangan kelas pada dataset mahasiswa lulusan.

1.5. Manfaat Penelitian

Hasil penelitian nantinya dapat digunakan sebagai referensi alternatif untuk menangani ketidakseimbangan kelas dan meminimumkan kesalahan dalam pengklasifikasi C4.5. Selain itu dapat membangun model alternatif untuk

(22)

(23)

TINJAUAN PUSTAKA

2.1. Data Mining

Saat ini, kebanyakan algoritma data mining menghasilkan pola yang dapat didefenisikan dalam format atau bentuk matematis. Akan tetapi, makna dari pola yang ditemukan masih sangat sedikit. Dengan kompleksitas objek yang semakin tinggi, masalah ini akan mendapat perhatian lebih dari para penggiat data mining di masa mendatang. Meskipun dimungkinkan untuk menginterpretasikan makna dari permukaan dalam sebuah ruang vektor, pola yang didapat dari objek yang lebih kompleks mungkin tidak mudah diinterpretasikan bahkan oleh pakar sendiri. Jadi, bukan hanya data input untuk data mining yang semakin kompleks, tetapi juga pola yang diperoleh akan jauh lebih kompleks (Purba, 2012).

Data Mining didefinisikan sebagai sebuah proses untuk menemukan hubungan, pola dan tren baru yang bermakna dengan menyaring data yang sangat besar, yang tersimpan dalam penyimpanan, menggunakan teknik pengenalan pola seperti teknik Statistik dan Matematika (Larose, 2005).

Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani:

1. Jumlah data yang sangat besar 2. Dimensi data yang tinggi

3. Data yang heterogen dan berbeda sifat

Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan dua metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilih data (Jefri, 2013).

Dari beberapa teori yang dijabarkan para ahli diatas, bahwa data mining adalah merupakan suatu pencarian dan analisis pada suatu koleksi data yang sangat besar

(24)

Teknologi data mining dapat membantu menjembatani kesenjangan pengetahuan pada sistem Perguruan Tinggi (PT) melalui penemuan pola, asosiasi dan anomali yang tersembunyi, sehingga dapat meningkatkan efektifitas, efisiensi, dan kecepatan proses. Peningkatan ini akan memberi keunggulan pada sistem PT antara lain maksimalisasi sistem pendidikan yang efisien, penurunan angka drop out, peningkatan promosi, meningkatkan ingatan mahasiswa, peningkatan rasio pendidikan, peningkatan kesuksesan mahasiswa, peningkatan hasil yang dicapai mahasiswa dan pengurangan biaya proses dari sistem yang berjalan. Untuk mencapai kualitas dari peningkatan tersebut, maka aplikasi data mining sangat dibutuhkan untuk menyediakan kebutuhan pengetahuan dan wawasan bagi pengambil keputusan pada system PT (Beikzadeh dan Delavari, 2004) .

Menurut Han dan Kamber, (2011), secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu:

 Predictive

Predictive merupakan proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan data mining untuk memprediksikan penjualan dari produk mereka di masa depan dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.

(25)

 Descriptive

Descriptive dalam data mining merupakan proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk validasi dan penjelasan hasil.

Menurut Maclennan, Tang, & Crivat (2009). Berikut adalah fungsi data mining secara umum :

1. Classification

Classification adalah proses untuk mencari model atau fungsi yang menggambarkan dan membedakan kelas-kelas atau konsep data. Fungsi dari Classification adalah untuk mengklasifikasikan suatu target class ke dalam kategori yang dipilih.

Gambar 2.1 Klasifikasi - Decision Tree (Maclennan, et al., 2009)

Decision tree adalah sebuah flowchart yang menyerupai struktur pohon, dimana tiap node menunjukkan sebuah test dari nilai atribut, tiap cabang merepresentasikan sebuah hasil dari test, dan decision tree merepresantasikan kelas-kelas atau distribusi kelas. Decision trees dapat dengan mudah di konversi ke aturan klasifikasi.

Neural network ketika digunakan untuk klasifikasi, biasanya koleksi dari neuron seperti unit pengolahan dengan pertimbangan koneksi antara tiap unit. Ada banyak metode untuk membangun model klasifikasi seperti naïve-bayesian classification, support vector machine (SVM) dan k-nearest neighbor classication.

2. Clustering

Fungsi dari clustering adalah untuk mencari pengelompokkan atribut ke dalam segmentasi-segmentasi berdasarkan similaritas.

(26)

Gambar 2.2 Clustering (Maclennan, et al., 2009)

3. Association

Fungsi dari association adalah untuk mencari keterkaitan antara atribut atau item set, berdasarkan jumlah item yang muncul dan rule association yang ada.

Gambar 2.3 Asosiasi (Maclennan, et al., 2009)

4. Regression

Fungsi dari regression hampir sama dengan klasifikasi. Fungsi dari regression adalah bertujuan untuk mencari prediksi dari suatu pola yang ada.

5. Forecasting

Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang berdasarkan trend yang telah terjadi di waktu sebelumnya.

(27)

Gambar 2.4 Time Series (Maclennan, et al ., 2009)

6. Sequence Analysis

Fungsi dari sequence analysis adalah untuk mencari pola urutan dari rangkaian kejadian.

Gambar 2.5 Urutan Rangkaian Kejadian (Maclennan, et al ., 2009)

7. Deviation Analysis

Fungsi dari deviation analysis adalah untuk mencari kejadian langka yang sangat berbeda dari keadaan normal (kejadian abnormal).

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di gambar 2.6. Tahap-tahap tersebut bersifat iterative dan interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

(28)

Gambar 2.6 Tahap – tahap Data Mining (Han dan Kamber ., 2006)

Tahap-tahap data mining ada 6 (enam) yaitu: 1. Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

(29)

2. Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi Data (Data Selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.

5. Data mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.

6. Evaluasi pola (pattern evaluation)

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk

(30)

orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (Han dan Kamber, 2006).

2.2. Ketidakseimbangan Kelas (Class Imbalance)

Ketidakseimbangan kelas adalah masalah lain pada kualitas data yang sering mensabotase kinerja klasifikasi. Ketidakseimbangan kelas, di mana satu kelas merupakan proporsi kecil dari contoh dataset , menimpa banyak domain dunia nyata, seperti deteksi penipuan, diagnosis penyakit, klasifikasi teks dan prediksi kualitas perangkat lunak. Banyak classifiers, dengan kondisi baik memaksimalkan keseluruhan akurasi klasifikasi atau menjadi kuat untuk data yang noisy, tetapi cenderung untuk mengorbankan kinerja pada kelas minoritas dan berpihak pada mengklasifikasikan lebih dari instance mayoritas secara benar. Jika kedua kelas itu sama pentingnya, ini tidak akan menjadi masalah, namun, dalam kebanyakan kasus ketidakseimbangan kelas, itu adalah kelas jarang terjadi yang mengusung biaya misclassification yang tertinggi .

Ketidakseimbangan kelas juga merupakan adanya sebuah keadaan yang menggambarkan tidak seimbangnya porsi data training antara sebuah kelas dengan kelas yang lain. Permasalahan seperti ini menjadi penting dikarenakan pada beberapa aplikasi data mining, akurasi model prediksi terhadap kelas minoritas lebih menarik / lebih penting daripada akurasi model prediksi terhadap kelas mayoritas. Padahal data kelas mayoritas akan lebih terlatih daripada data kelas minoritas karena classifier biasa cenderung akan membiaskan prediksi kelas minoritas ke kelas

(31)

mayoritas. Hal ini mengakibatkan terjadinya misclassification yang mengakibatkan akurasi untuk prediksi kelas minoritas cenderung buruk serta memungkinkan kelas minoritas hanya dianggap sebagai outlier.

Tabel 2.1. Dataset tidak seimbang (Satyasree et al, 2013)

No Datasets Number of Number of Class Imbalanced

Example Attribut (Minority ; Majority) Ratio

1 Breast 268 9 (Recurrence ;

No-Recurrence) 2.37

2 Breast_W 699 9 (Benign ; Malignant) 1.90

3 Colic 368 22 (Yes ; No) 1.71

4 Credit-g 100 21 (Good ; Bad) 2.33

5 Diabetes 768 8 (Poty ;

Tested-Negty) 1.87

6 Heart-c 303 14 (<50 ; >50_1) 1.19

7 Heart-h 294 14 (<50 ; >50_1) 1.77

8 Heart-stat 270 14 (Absent ; Present) 1.25

9 Hepatitis 155 19 (Die, Live) 3.85

10 Ionosphere 351 34 (B ; G) 1.79

11 Kr-v3-kp 3196 37 (Won ; Now in) 1.09

12 Labor 56 16 (Bad ; Good) 1.85

13 Mushroom 8124 23 (E ; P) 1.08

14 Sick 3772 29 (Negative ; Sick) 15.32

15 Sonar 208 60 (Rock ; Mine) 1.15

2.2.1. Efek dari ketidakseimbangan kelas pada classifier

Ketidakseimbangan kelas mempengaruhi tugas – tugas datamining. Permasalahan ketidakseimbangan kelas juga biasanya cenderung menyebabkan terjadinya overlapping, kurangnya data yang representatif (kasus yang jarang terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004).

Selain itu juga bahwa ketidakseimbangan kelas dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015).

(32)

tersebut bagi pembelajaran kelas minoritas, kerahasiaan dan upaya yang luar biasa untuk menemukan kumpulan data yang diwakili, seperti kejadian yang sangat langka kegagalan space-shuttle. Ketidakseimbangan kelas melibatkan sejumlah kesulitan dalam pembelajaran, termasuk distribusi kelas tidak seimbang, sample size training, overlapping dan small disjuncts.

1. Distribusi ketidakseimbangan kelas

Distribusi kelas tidak seimbang dapat didefinisikan dengan rasio dari jumlah instance dari kelas minoritas untuk yang kelas mayoritas. Dalam masalah domain tertentu, rasio ketidakseimbangan akan sama ekstrimnya dengan 1:10000. Studi tentang menginvestigasi korelasi antara rasio ketidakseimbangan dalam pelatihan diatur dengan hasil klasifikasi menggunakan classifier pohon keputusan. Dan menemukan bahwa distribusi relatif seimbang antara kelas di dataset umumnya memberikan hasil yang lebih baik, tingkat distribusi kelas ketidakseimbangan yang akan mulai menghambat kinerja klasifikasi masih belum diketahui secara pasti.

Eksperimen dari penelitian menemukan bahwa distribusi antara keseimbangan kelas bukanlah jaminan untuk meningkatkan kinerja classifier karena rasio populasi 50:50 tidak selalu menjadi distribusi terbaik untuk bentuk pembelajaran. Hal ini menunjukkan bahwa distribusi ketidakseimbangan kelas bukan satu-satunya alasan yang memperburuk kinerja classifier, faktor lain seperti ukuran sampel training dan kompleksitas kelas juga yang memberikan pengaruh.

Selain distribusi ketidakseimbangan kelas, alasan utama lain mengapa klasifikasi ketidakseimbang kelas menantang adalah karena kurangnya data yang disebabkan oleh ukuran sampel yang kecil di set training. Minimnya jumlah contoh akan

(33)

menyebabkan kesulitan untuk menemukan keteraturan, yaitu, keseragaman pola khususnya di kelas minoritas.

Gambar 2.7. Dampak dari sampel ukuran kecil dalam masalah ketidakseimbangan kelas; (a) garis padat menentukan batas keputusan yang benar dan (b) garis

putus-putus mendefinisikan estimasi batas keputus-putusan (Ali, et al, 2015).

Gambar 2.7 memperlihatkan bagaimana kurangnya data mempengaruhi kinerja klasifikasi dalam pembelajaran ketidakseimbangan kelas, di mana gambar 2.7.a menjelaskan bagaimana classifier yang dibangun sekitar batas keputusan (garis putus-putus) bentuk jumlah yang relatif lebih besar dari contoh-contoh dari kelas yang positif (minoritas) . gambar 2.7.b adalah estimasi batas keputusan dibangun oleh algoritma klasifikasi pembelajaran dihasilkan dari terbatasnya jumlah contoh dari kelas yang positif (minoritas).

2. Kelas Overlapping atau kompleksitas kelas

Salah satu masalah utama dalam klasifikasi ketidakseimbangan kelas adalah kejadian overlapping dalam dataset. Kelas Overlapping atau kadang-kadang disebut sebagai kompleksitas kelas atau kelas separability berhubungan dengan derajat dari separability antara kelas-kelas dalam data. Kesulitan untuk memisahkan kelas minoritas dari kelas mayoritas adalah faktor utama yang mempersulit pembelajaran dari kelas yang lebih kecil. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadang-kadang bahkan di semua ruang fitur, sangat sulit untuk menentukan ketentuan diskriminatif untuk memisahkan kelas. Ruang fitur overlapping disebabkan fitur kehilangan properti intrinsik mereka sehingga membuat

(34)

overlapping memberikan kendala berat untuk kinerja classifier dibandingkan dengan distribusi kelas ketidakseimbangan.

Pada classifiers standar yang beroperasi dengan berusaha untuk memaksimalkan akurasi dalam klasifikasi sering jatuh ke dalam perangkap masalah overlapping karena biasanya mereka diklasifikasikan pada daerah yang overlapping sebagai milik kelas mayoritas sementara asumsi kelas minoritas sebagai noise.

3. Small disjunct

Sementara dalam pembelajaran klasifikasi ketidakseimbangan kelas, rasio antara ketidakseimbangan kelas minoritas dan kelas mayoritas sangat jelas, Kadang suatu saat ketidakseimbangan dalam satu kelas mungkin diabaikan. Di dalam ketidakseimbangan kelas, sering muncul small disjunct ketika kelas terdiri dari beberapa jumlah sub-cluster yang berbeda dari contoh.

Studi tentang dan menjelajahi dalam ketidakseimbangan kelas di kelas minoritas menyatakan bahwa kelas minoritas kurang terwakili disebabkan oleh small disjunct dapat ditingkatkan dengan menerapkan upsampling diarahkan sehubungan dengan kelas minoritas. Masalah small disjuncts di ketidakseimbangan kelas mempengaruhi kinerja klasifikasi karena 1) small disjuct memberatkan classifier dalam tugas konsep pembelajaran dari kelas minoritas dan yang 2) kejadian tentang di dalam masalah kelas, sebagian besar waktu secara implisit. Di dalam masalah kelas ini selanjutnya menandakan karena banyak pendekatan saat ini untuk ketidakseimbangan kelas sebagian besar lebih tertarik untuk memecahkan antara masalah kelas dan mengabaikan distribusi ketidakseimbangan dalam setiap kelas.

(35)

Gambar 2.8. Contoh Ketidakseimbangan antara Kelas (a) overlapping antara kelas (b) small disjunct - dalam ketidakseimbangan kelas (Ali, et al, 2015)

2.2.3. Penanganan Ketidakseimbangan kelas

Secara umum, ada dua strategi untuk menangani klasifikasi ketidakseimbangan kelas ; 1) Pendekatan level data dan 2) pendekatan level algoritma. Metode pendekatan pada level data menyesuaikan rasio ketidakseimbangan kelas dengan tujuan untuk mencapai keseimbangan distribusi antara kelas sedangkan pada pendekatan level algoritma, bahwa algoritma klasifikasi konvensional diperbaiki untuk meningkatkan tugas belajar terutama relatif terhadap kelas yang lebih kecil.

Pendekatan level data atau kadang-kadang dikenal sebagai teknik eksternal mempekerjakan langkah preprocessing untuk menyeimbangkan distribusi kelas . Hal ini dilakukan secara undersampling dan oversampling untuk mengurangi rasio ketidakseimbangan dalam data training. Pada metode undersampling menghilangkan sejumlah kecil contoh dari kelas mayoritas untuk meminimalkan perbedaan antara dua kelas sedangkan oversampling lebih cenderung membuat duplikat contoh dari kelas minoritas.

SMOTE (Synthetic Minority Over-sampling Technique) merupakan teknik oversampling yang popular dalam menangani klasifikasi ketidakseimbangan kelas. SMOTE menambahkan contoh baru untuk kelas minoritas dengan menghitung distribusi probabilitas untuk model kelas yang lebih kecil sehingga membuat keputusan batas yang lebih besar untuk menangkap contoh kelas minoritas yang berdekatan.

(36)

2.2.4. Pendekatan Level data dengan Seleksi Fitur

Dapat dikatakan bahwa seleksi fitur sangat mempengaruhi hasil dari proses klasifikasi. Untuk dataset tidakseimbang (imbalance), metode seleksi fitur harus fokus pada fitur yang membantu dalam mengidentifikasi kelas minoritas (Pant, 2015). Penelitian ini mengusulkan sebuah metode untuk melakukan seleksi fitur yakni Density Based Feature Selection (DBFS).

Sasaran dari metode DBFS merupakan sebuah metode pengajaran heuristic yang bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat. Dugaan yang mendorong rasa ingin tahu lewat temuan (secara heuristik) bahwa fitur yang dikatakan baik bila salah satu nilai dari masing-masing class memiliki sisa class yang overlapping, yang disebut dengan instance dari masing-masing class sebagai bagian dari instance yang mungkin dari class lain berdasarkan nilai fitur. Dengan kata lain instance dari masing-masing class tidak menyebar kedalam berbagai instance yang terdapat pada class lain. (Alibeigi et al, 2012).

Untuk menelusuri lebih lanjut kontribusi dari masing – masing fitur serta menetapkan urutan yang tepat , DBFS mempertimbangkan korespondensi distribusi fitur dari seluruh class yang berkorelasi. Prosedur penanganan seleksi fitur dengan metode DBFS dijelaskan berikut ini (Alibeigi et al, 2012) :

1. Mengestimasi Probability Density Function (PDF) dari fitur di setiap kelas

Metode yang lazim digunakan untuk menghitung PDF dapat dikatagorisasikan melalui dua pendekatan yaitu parametrik dan non parametrik. Secara khusus , seluruh metode densitas parametrik klasik merupakan multimodal , sementara banyak permasalahan yang bersifat praktis melibatkan densitas multimodal. Sementara itu , aturan nonparametrik dapat digunakan lewat distribusi sembarang tanpa adanya dugaan bahwa bentuk kepadatan mendasar yang dipahami. Ini

(37)

merupakan penyebab mengapa aturan nonparametrik lebih menarik dan diterapkan sebagai pendekatan yang dilakukan. Bentuk umum dari penilaian nonparametik dari PDF berdasarkan persamaan beriku t:

……….……… (2.1)

Dimana, (x) merupakan nilai dari penilaian PDF misalnya x,v, merupakan volume yang mencakup x,n yang merupakan instance dari total jumlah K yang merupakan jumlah instance yang terdapat dalam V. Konsep-konsep ini dapat dilihat pada gambar 2.9. Penilaian PDF menjadi lebih akurat sama dengan peningkatan N dan volume V menurun. Sejak dalam prakteknya jumlah total dari instance ditetapkan sebagai (N), untuk meningkatkan akurasi dari penilaian PDF sebagai instance x (p(x)), kita mungkin mengumpamakan volume V mendekati nol namun kemudian hal tersebut kemungkinan akan sangat kecil yang mungkin tidak melampirkan berbagai instance. Maksudnya adalah, secara praktik (dengan penetapan sejumlah instance), dengan menemukan sebuah nilai yang disepakti terhadap nilai V, bahkan dengan sebahagian kecil instance, kemungkinan densitas yang dapat diterima mungkin jadi pertimbangan.

Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x (Alibeigi et al, 2012)

2. Prosedur menentukan Peringkat fitur

Langkah kedua setelah penilaian PDF pada masing-masing kelas yaitu menemukan nilai dari fitur berdasarkan penilaian PDF terhadap kelas. Seperti yang disampaikan sebelumnya bahwa fitur yang baik merupakan salah satu dari masing-masing kelas memiliki overlapping minimum dengan kelas yang tersisa. Hal tersebut berarti bahwa

(38)

kelas. Setelah terjadi peningkatan pada bagian overlapping terhadap fitur, penting dilakukan penghitungan nilai overlapping untuk fitur f di kelas cl berdasarkan rumusan berikut ini:

……… (2.2)

Gambar 2.10. Area Overlapping pada setiap fitur f (Alibeigi et al, 2012)

3. Menghitung area non overlapping dari fitur f di kelas cl

Nilai DiscriminantAbility untuk setiap fitur pada masing-masing kelas bermakna bahwa fitur ini sangat dapat diandalkan dalam mengklasifikasikan instance kelas. Pada gambar. 2.11 menunjukkan bahwa bagian dari non - overlapping untuk fitur 2322 dari dataset CNS2 pada masing-masing kelas. Dapat dikatakan bahwa bagian

(39)

yang berlabel A dan B merupakan bagian yang tidak overlapping terhadap masing-masing kelas mayoritas dan minoritas. Pada bagian non - overlapping untuk fitur f pada setiap kelas yang berdampak baik terhadap discriminant ability dari fitur yang dapat didefinisikan sebagai berikut:

…..……….. (2.3)

Fitur discriminantAbility secara keseluruhan merupakan rata-rata nilai DiscriminantAbility dari masing-masing class. Dapat dikatakan bahwa fitur dengan luas bagian yang tidak overlapping atau dengan rata-rata nilai-nilai DiscriminantAbilitiy yang lebih tinggi, mampu mengklasifikasikan instances lebih akurat. Lebih jauh lagi seperti pada pemaparan sebelumnya, fitur yang diasumsikan sebagai sesuatu yang baik bila sesuai dengan nilai-nilai yang berdasarkan fitur instance melibatkan satu kelas yang tidak menyebar ke kelas lain.

Gambar 2.11. Area Non Overlapping pada setiap fitur f (Alibeigi et al, 2012)

Langkah berikutnya mengenumerasi perubahan jumlah sebagai fitur numChanges. Perubahan jumlah mengacu pada jumlah waktu yang terdapat pada kotak label instance dari satu kelas ke kelas yang lain pada fitur khusus dari PDF. Setiap PDF ditentukan , label instance hanyalah kelas yang memiliki maximum probability (PDF value) pada poin tersebut menentukan skor dari fitur f berdasarkan rumus berikut :

(40)

khusus dari kedua classifier yang sesuai dan domain aplikasi, memahami kegagalan classifier ketika distribusi kelas tidak merata. Salah satu metode pendekatan level algoritma adalah metode ensemble.

Metode Ensemble ini melatih beberapa pengklasifikasi data training dan adanya evaluasi dikumpulkan untuk menghasilkan keputusan klasifikasi akhir. Metode ensemble secara umum dapat dideskripsikan sebagai boosting , dimana sebuah classifier diinduksi untuk setiap contoh training set dengan memilih salah satu dari algoritma machine learning. Oleh karena itu, akan ada jumlah k classifier untuk setiap variasi k dari training set .

Metode boosting melakukan percobaan pada training set menggunakan beberapa model untuk mendorong classifier menghasilkan output . Bobot yang lebih tinggi ditetapkan pada setiap classifier untuk contoh secara salah diklasifikasikan. Output kemudian diperbaiki dengan menggunakan pendekatan weighted average. Keputusan akhir diperoleh dengan menggabungkan semua classifier.

Algoritma adaBoost merupakan salah satu dari beberapa varian tentang ide boosting. Penggunaan boosting menarik perhatian karena memberikan jaminan dalam performansi (Witten, 2011). AdaBoost merupakan suatu algoritma pembelajaran untuk meningkatkan kinerja klasifikasi terhadap suatu algoritma pembelajaran sederhana. AdaBoost menggabungkan sekumpulan fungsi classifier lemah untuk membentuk suatu classifier yang kuat .

Adaboost merupakan teknik optimasi yang handal dengan mengkombinasikan beberapa pengklasifikasian dasar (multi base classifier) untuk menghasilkan suatu pengklasifikasian yang kuat (Alpaydin,2010). Jadi AdaBoost juga Merupakan suatu meta-algorithm yang dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya. AdaBoost bersifat adaptif, dimana

(41)

classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. AdaBoost sensitif terhadap data yang noisy dan outliers. Dalam beberapa hal, AdaBoost menjadi kurang rentan terhadap masalah overfitting, jika dibandingkan dengan algoritma pembelajaran pada umumnya.

Pembentukan classifier pada Adaboost didasari input dataset training (Di)

adalah (x1,y1),…..,(xm,ym) dimana setiap xi dimiliki beberapa domain atau ruang

instance X dan setiap label yi dalam beberapa set label Y. Diasumsikan Y = {-1, +1}. AdaBoost disebut algoritma pembelajaran yang lemah dalam serangkaian putaran t = 1 .... T. Salah satu ide utama dari algoritma ini adalah untuk memelihara distribusi bobot lebih dari training set. Bobot dari distribusi ini pada contoh training i dalam putaran t adalah dilambangkan Dt(i) . Awalnya, semua bobot ditetapkan sama, tetapi

dalam setiap putaran, bobot dari contoh yang salah diklasifikasikan meningkat sehingga pembelajaran dasar dipaksa untuk fokus pada contoh yang sulit pada set training.

Pekerjaan pembelajar dasar adalah untuk menemukan classifier

dasar ht : sesuai dengan distribusi Dt. dalam kasus yang sederhana , range dari setiap

ht adalah binary , terbatas pada {-1, +1} . tugas pembelajar dasar itu adalah

meminimalkan kesalahan (error) dari ht dengan persamaan ( Schapire, 2003):

………. (2.5)

Setelah classifier dasar ht sudah diterima, AdaBoost memilih parameter αt  ℝ

sehingga pentingnya mengukur secara intuitif yang akan menetapkan ht . Untuk

binary ht, biasanya diatur dengan persamaan :

menetapkan bobot ht : ………..……….. (2.6)

……….………. (2.7)

Perbaruhi distribusi, dimana Zt sebuah faktor normalisasi yang mengaktifkan Dt+1

(42)

1. Algoritma Adaboost dikolaborasikan dengan algoritma C4.5 dalam model Cross-Standard Industry for Data Mining (CRISP-DM) untuk meningkatkan hasil akurasi prediksi penyakit jantung coroner (Suwondo et al, 2013).

2. Penerapan Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa (Bisri, 2015).

3. Menggabungan Genetic Algorithm dan Adaboost yang disebut "Ada-GA" , dimana Parameter untuk evolusi crossover rate =1, mutation rate = 0.003, population size = 100 – 350, jumlah generasi = 10 - 35 menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik (Elden et al, 2013).

4. Dengan menggabungkan empat metode klasifikasi yang berbeda, yaitu AdaBoost ensemble dengan regresi logistik (direpresentasikan sebagai LA), AdaBoost ensemble dengan decision tree (direpresentasikan sebagai DTA), classifier tunggal pada DT dan classifier tunggal pada support vector machine (SVM) dan dataset bawaan mampu memberikan peningkatan untuk prediksi sebagai default ekonomi yang muncul di Malaysia (Ramakrishnan et al, 2015).

2.3. Algoritma C4.5

Algoritma C4.5 merupakan salah satu algoritma klasifikasi. Algoritma ini berfungsi untuk membuat decision tree (pohon keputusan). Selain menggunakan algoritma C4.5, ID3 dan CART merupakan algoritma yang dipakai dalam pembuatan decision tree. Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, 2005). Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan

(43)

algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numeric (Han, 2001).

Dalam mengkonstruksi pohon, algoritma C4.5 membaca seluruh sampel data training dari storage dan memuatnya ke memori. Hal inilah yang menjadi salah satu kelemahan algoritma C4.5 dalam kategori “skalabilitas” adalah algoritma ini hanya dapat digunakan jika data training dapat disimpan secara keseluruhan dan pada waktu yang bersamaan di memori (Moertini, 2007). Data (input) pada algoritma C4.5 berupa tabel dan menghasilkan output berupa pohon. Terdapat tiga prinsip algoritma C4.5 pada tahap belajar data adalah :

1. Pembuatan pohon keputusan

Obyektif dari algoritma penginduksi pohon keputusan adalah mengkonstruksi struktur data pohon (dinamakan pohon keputusan) yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki kelas. C4.5 mengkonstruksi pohon keputusan dengan strategi divide and conquer. Pada awalnya, hanya dibuat node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan membandingkan gain ratio, kemudian pada node-node yang terbentuk di level berikutnya, algoritma divide and conquer akan diterapkan lagi. Demikian seterusnya sampai terbentuk daun - daun. Sebagai ilustrasi, dari data pelatihan pada Gambar 2.11, C4.5 dapat menghasilkan pohon keputusan seperti terlihat pada Gambar 2.12, dengan simbol kotak menyatakan simpul dan elips menyatakan daun.

(44)

Gambar 2.12. Proses klasifikasi data : (a) Tahap belajar. (b) Tahap pengujian dan penggunaan aturan – aturan untuk mengklasifikasi record baru (Han et al, 2001)

Gambar 2.13. Contoh pohon keputusan (Han et al, 2001)

2. Pemangkasan pohon keputusan dan evaluasi (opsional)

Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah “dibaca”, C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan berdasarkan nilai tingkat kepercayaan (confidence level). Selain untuk pengurangan ukuran pohon, pemangkasan juga bertujuan untuk mengurangi tingkat kesalahan prediksi pada kasus (record) baru

(45)

3. Pembuatan aturan – aturan dari pohon keputusan (opsional)

Aturan – aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan melakukan penelusuran dari akar sampai ke daun. Setiap node dan syarat pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi ditulis di then. Setelah semua aturan dibuat, maka aturan akan disederhanakan (digabung atau diperumum). Sebagai contoh, aturan-aturan yang diturunkan dari pohon keputusan pada Gambar 2.12 adalah:

if Age < 31 or 31 <= Age<= 40 and Income = low then Fair if Age > 40 or 31 <= Age<= 40 and Income = high then Exc

Jika aturan – aturan dari pohon tidak dibuat maka klasifikasi kasus baru dapat dilakukan dengan menggunakan pohon baru. Keakuratan dari aturan – aturan ini dinamakan kesalahan klasifikasi dan didefinisikan sebagai prosentase dari kasus – kasus yang diklasifikasikan dengan salah .

Pada kontruksi pohon C4.5 disetiap simpul pohon, atribut dengan nilai gain ratio yang tertinggi dipilih sebagai atribut test atau split untuk simpul rumus gain ratio adalah : (Moertini, 2007)

Gain ratio(a) = gain(a) / split info(a) ……… (2.10) Dimana gain(a) adalah information gain dan atribut a untuk himpunan sampel dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada pembagian X menjadi n sub himpunan berdasarkan pemeriksaan pada atribut a. sedangkan gain(a) didefenisikan sebagai berikut :

Gain(a) = info(X) – infoa(X) ……….. (2.11)

Dimana adalah fungsi entropi dengan k

adalah jumlah kelas pada himpunan data X. freq (Cj,X) menyatakan jumlah sampel

pada X yang memiliki nilai kelas Cj. │X│menyatakan kardinalitas (jumlah anggota)

himpunan data X.

Infoa(X) = Menyatakan info(X) dan a adalah atribut yang

ditelaah dan n adalah jumlah sub himpunan yang dibentuk dari X (pada atibut diskret , n adalah jumlah nilai unik pada a, sedangkan pada atribut kontinyu n = 2 . sedangkan rumus split info(a) adalah :

(46)

dengan X1 ={ vj │ vj ≤ v} dan X2 ={ vj │ vj  v}, dimana v adalah

dan

sebuah nilai ambang. Cara mencari v adalah dengan mula – mula sampel di X diurutkan berdasarkan nilai dari a. dimisalkan bahwa nilai yang terurut adalah v1,….,vm. Jika i[1,m-1] dan v = (vi + Vi+1) / 2 maka sampel yang dipecah dapat

dinyatakan dengan dan .

Untuk setiap nilai v, gainv, dihitung dengan memperhatikan pemisah sampel diatas.

Information gain untuk a didefenisikan sebagai nilai maksimum dari semua gainv dan

nilai v ditentukan sebagai nilai ambang (threshold) untuk atribut kontinyu.

Penelitian untuk mengembangkan algoritma C4.5 yang asli sudah banyak dilakukan. Dari hasil studi penulis didapati hasil yang sudah dilakukan antara lain :

1. Algoritma C4.5 dapat diimplementasikan untuk memprediksi tingkat kelulusan mahasiswa dengan empat kategori yaitu lulus cepat, lulus tepat, lulus terlambat dan drop out. Attribut yang paling berpengaruh dalam hasil prediksi adalah IPS semester enam.(Kamagi et al, 2014).

2. Algortima C4.5 membangun pohon dengan jumlah cabang tiap simpul sesuai dengan jumlah nilai simpul tersebut. Selain ini algoritma C4.5 cocok digunakan untuk data yang bersifat non-numerik seperti data nilai mahasiswa yang dikelompokkan kedalam empat kelompok (best, Good, Pass, dan Fail) (Rahmayuni, 2014).

3. Algortima C4.5 berbasis Decision Tree , melakukan transformasi data numerik dan juga continue kedalam bentuk kategorikal dan dibuat skala atau interval agar menghasilkan range yang lebih kecil untuk pembelajaran algoritma C4.5 (Puspita et al, 2015) .

(47)

2.4. Validasi dan Evaluasi Kinerja Algortima Klasifikasi

2.4.1. Cross-Validation

Dalam pendekatan cross-validation, setiap record digunakan beberapa kali dalam jumlah yang sama untuk training dan tepat sekali untuk testing. Untuk mengilustrasikan metode ini, anggaplah kita mempartisi data ke dalam dua subset yang berukuran sama. Pertama, kita pilih satu dari kedua subset tersebut untuk training dan satu lagi untuk testing. Kemudian dilakukan pertukaran fungsi dari subset sedemikian sehingga subset yang sebelumnya sebagai training set menjadi test set demikian sebaliknya. Pendekatan ini dinamakan two-fold cross-validation. Total error diperoleh dengan menjumlahkan error untuk kedua proses tersebut. Dalam contoh ini, setiap record digunakan tepat satu kali untuk training dan satu kali untuk testing.

Metode k-fold cross-validation mengeneralisasi pendekatan ini dengan mensegmentasi data ke dalam k partisi berukuran sama. Selama proses, salah satu dari partisi dipilih untuk testing, sedangkan sisanya digunakan untuk training. Prosedur ini diulangi k kali sedemikian sehingga setiap partisi digunakan untuk testing tepat satu kali. Total error ditentukan dengan menjumlahkan error untuk semua k proses tersebut.

Kasus khusus untuk metode k-fold cross-validation menetapkan k = N, ukuran dari data set. Metode ini dinamakan pendekatan leave-one-out, setiap test set hanya mengandung satu record. Pendekatan ini memiliki keuntungan dalam pengunaan sebanyak mungkin data untuk training. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Tan et al.2005).

Metode evaluasi standard yaitu stratified 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Keuntungan metode ini, menghindari overlapping pada data testing. Test set bersifat mutually exclusive dan secara efektif mencakup keseluruhan data set. Kekurangan dari pendekatan ini adalah banyaknya komputasi untuk mengulangi prosedur sebanyak N kali (Gorunescu, 2011).

(48)

Confusion matrix memberikan penilaian kinerja model klasifikasi berdasarkan jumlah objek yang diprediksi dengan benar dan salah (Gorunescu, 2011). Pengukuran akurasi dengan confusion matrix merupakan matrik 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan kenyataan dapat dilihat pada table 2.2.

Tabel 2.2. Confusion matrix (Gorunescu, 2011)

Setelah dibuat confusion matrix, selanjutnya dihitung nilai akurasi, sensitivitas atau disebut recall atau True Positive Rate (TPrate), specificity (ketegasan) atau disebut True Negative Rate (TNrate), False Positive Rate (FPrate), False Negative Rate (FNrate), precision atau disebut Positive Predictive Value (PPV), Negative Predictive Value (NPV), F-Measure, Geometric Mean (GMean), dan Area Under the ROC Curve (AUC). Formulasi perhitungan yang digunakan adalah sebagai berikut (Gorunescu, 2011) :

Accuracy = …..……….. (2.13)

Sensitivity = ... (2.14)

Specificity = TN rate = ………... (2.15)

(49)

Precision = ..………. (2.17)

F-Measure = ………..… (2.18)

G-Mean = ………. (2.19)

Untuk data tidak seimbang, akurasi lebih didominasi oleh ketepatan pada data kelas minoritas, maka metrik yang tepat adalah AUC (Area Under the ROC Curve), F-Measure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas minoritas (Zhang & Wang, 2011). Evaluasi dengan F-Measure, rata-rata harmonik dari dua angka cenderung lebih dekat dengan lebih kecil dari dua, oleh karena itu nilai F-Measure yang tinggi dapat memastikan bahwa kedua recall (sensitivity) dan presisi yang cukup tinggi. Jika hanya kinerja kelas positif dianggap sebagai dua langkah penting yaitu TP rate dan Positive Predictive Value (PP value). PP value didefinisikan sebagai presisi yang menunjukan presentasi objek yang relevan yang didefinisikan untuk retrieval. Dalam pencarian informasi TP rate didefinisikan sebagai recall yang menunjukan presentasi dari objek yang diambil itu adalah relevan. Rata-rata harmonik adalah gabungan dari ukuran presisi dan recall.

2.4.3. Kurva ROC (Receiver Operating Character Curve)

Evaluasi dengan Receiver Operating Character Curve (ROC Curve), secara teknis menggambarkan graifk dua dimensi, dimana tingkat True Positive (TP) terletak pada garis sumbu Y, sedangkan untuk False Positive (FP) terletak pada garis sumbu X. dengan demikian ROC menggambarkan tradeoff antara TP dan FP. Pencatatan dalam ROC dinyatakan dalam sebuah klausa yaitu semakin rendah titik kekiri (0.0), maka dianyatakan sebagai klasifikasi prediksi mendekati/menjadi negatif, sedangkan semakin keatas titik kekanan (1.1), maka dinyatakan sebagai klasifikasi prediksi mendekati/menjadi positif. Titik dengan nilai 1 dinyatakan sebagai tingkat True Positif (TP), sedangkan titik dengan nilai 0 dinyatakan sebagai tingkat False Positive (FP). Pada titik (0.1) merupakan klasifikasi prediksi adalah sempurna karena semua kasus baik positif maupun negatif dinyakatakan dengan benar (True). Sedangkan untuk (1.0) klasifikasi prediksi semuanya dinyatakan sebagai tidak benar (False).