Ketidakseimbangan Kelas (Class Imbalance)

BAB II TINJAUAN PUSTAKA

2.2. Ketidakseimbangan Kelas (Class Imbalance)

Ketidakseimbangan kelas adalah masalah lain pada kualitas data yang sering mensabotase kinerja klasifikasi. Ketidakseimbangan kelas, di mana satu kelas merupakan proporsi kecil dari contoh dataset , menimpa banyak domain dunia nyata, seperti deteksi penipuan, diagnosis penyakit, klasifikasi teks dan prediksi kualitas perangkat lunak. Banyak classifiers, dengan kondisi baik memaksimalkan keseluruhan akurasi klasifikasi atau menjadi kuat untuk data yang noisy, tetapi cenderung untuk mengorbankan kinerja pada kelas minoritas dan berpihak pada mengklasifikasikan lebih dari instance mayoritas secara benar. Jika kedua kelas itu sama pentingnya, ini tidak akan menjadi masalah, namun, dalam kebanyakan kasus ketidakseimbangan kelas, itu adalah kelas jarang terjadi yang mengusung biaya misclassification yang tertinggi .

Ketidakseimbangan kelas juga merupakan adanya sebuah keadaan yang menggambarkan tidak seimbangnya porsi data training antara sebuah kelas dengan kelas yang lain. Permasalahan seperti ini menjadi penting dikarenakan pada beberapa aplikasi data mining, akurasi model prediksi terhadap kelas minoritas lebih menarik / lebih penting daripada akurasi model prediksi terhadap kelas mayoritas. Padahal data kelas mayoritas akan lebih terlatih daripada data kelas minoritas karena classifier biasa cenderung akan membiaskan prediksi kelas minoritas ke kelas

mayoritas. Hal ini mengakibatkan terjadinya misclassification yang mengakibatkan akurasi untuk prediksi kelas minoritas cenderung buruk serta memungkinkan kelas minoritas hanya dianggap sebagai outlier.

Tabel 2.1. Dataset tidak seimbang (Satyasree et al, 2013)

No Datasets ^{Number of} ^{Number of} ^Class ^Imbalanced

Example Attribut (Minority ; Majority) Ratio

1 Breast 268 9 ^{(Recurrence ;}

No-Recurrence) ^2.37

2 Breast_W 699 9 (Benign ; Malignant) 1.90

3 Colic 368 22 (Yes ; No) 1.71

4 Credit-g 100 21 (Good ; Bad) 2.33

5 Diabetes 768 8 ^{(Poty ;}

Tested-Negty) ^1.87

6 Heart-c 303 14 (<50 ; >50_1) 1.19

7 Heart-h 294 14 (<50 ; >50_1) 1.77

8 Heart-stat 270 14 (Absent ; Present) 1.25

9 Hepatitis 155 19 (Die, Live) 3.85

10 Ionosphere 351 34 (B ; G) 1.79

11 Kr-v3-kp 3196 37 (Won ; Now in) 1.09

12 Labor 56 16 (Bad ; Good) 1.85

13 Mushroom 8124 23 (E ; P) 1.08

14 Sick 3772 29 (Negative ; Sick) 15.32

15 Sonar 208 60 (Rock ; Mine) 1.15

2.2.1. Efek dari ketidakseimbangan kelas pada classifier

Ketidakseimbangan kelas mempengaruhi tugas – tugas datamining. Permasalahan ketidakseimbangan kelas juga biasanya cenderung menyebabkan terjadinya overlapping, kurangnya data yang representatif (kasus yang jarang terjadi), small disjuncts atau adanya noise data dan borderline instances yang membuat proses belajar classifier sulit (Japkowich, 2004).

Selain itu juga bahwa ketidakseimbangan kelas dan noise dapat berpengaruh pada kualitas data dalam hal kinerja klasifikasi (Khoshgoftaar et al, 2011). Ini menunjukkan ketidakseimbangan kelas menyebabkan terjadinya misclassification (Zhou et al, 2006). Permasalahan ketidakseimbangan kelas (class imbalance) juga dapat menyebabkan akurasi algoritma C4.5 buruk dalam pengklasifikasian (Rahayu et.al, 2015).

tersebut bagi pembelajaran kelas minoritas, kerahasiaan dan upaya yang luar biasa untuk menemukan kumpulan data yang diwakili, seperti kejadian yang sangat langka kegagalan space-shuttle. Ketidakseimbangan kelas melibatkan sejumlah kesulitan dalam pembelajaran, termasuk distribusi kelas tidak seimbang, sample size training, overlapping dan small disjuncts.

1. Distribusi ketidakseimbangan kelas

Distribusi kelas tidak seimbang dapat didefinisikan dengan rasio dari jumlah instance dari kelas minoritas untuk yang kelas mayoritas. Dalam masalah domain tertentu, rasio ketidakseimbangan akan sama ekstrimnya dengan 1:10000. Studi tentang menginvestigasi korelasi antara rasio ketidakseimbangan dalam pelatihan diatur dengan hasil klasifikasi menggunakan classifier pohon keputusan. Dan menemukan bahwa distribusi relatif seimbang antara kelas di dataset umumnya memberikan hasil yang lebih baik, tingkat distribusi kelas ketidakseimbangan yang akan mulai menghambat kinerja klasifikasi masih belum diketahui secara pasti.

Eksperimen dari penelitian menemukan bahwa distribusi antara keseimbangan kelas bukanlah jaminan untuk meningkatkan kinerja classifier karena rasio populasi 50:50 tidak selalu menjadi distribusi terbaik untuk bentuk pembelajaran. Hal ini menunjukkan bahwa distribusi ketidakseimbangan kelas bukan satu-satunya alasan yang memperburuk kinerja classifier, faktor lain seperti ukuran sampel training dan kompleksitas kelas juga yang memberikan pengaruh.

Selain distribusi ketidakseimbangan kelas, alasan utama lain mengapa klasifikasi ketidakseimbang kelas menantang adalah karena kurangnya data yang disebabkan oleh ukuran sampel yang kecil di set training. Minimnya jumlah contoh akan

menyebabkan kesulitan untuk menemukan keteraturan, yaitu, keseragaman pola khususnya di kelas minoritas.

Gambar 2.7. Dampak dari sampel ukuran kecil dalam masalah ketidakseimbangan kelas; (a) garis padat menentukan batas keputusan yang benar dan (b) garis

putus-putus mendefinisikan estimasi batas keputus-putusan (Ali, et al, 2015).

Gambar 2.7 memperlihatkan bagaimana kurangnya data mempengaruhi kinerja klasifikasi dalam pembelajaran ketidakseimbangan kelas, di mana gambar 2.7.a menjelaskan bagaimana classifier yang dibangun sekitar batas keputusan (garis putus-putus) bentuk jumlah yang relatif lebih besar dari contoh-contoh dari kelas yang positif (minoritas) . gambar 2.7.b adalah estimasi batas keputusan dibangun oleh algoritma klasifikasi pembelajaran dihasilkan dari terbatasnya jumlah contoh dari kelas yang positif (minoritas).

2. Kelas Overlapping atau kompleksitas kelas

Salah satu masalah utama dalam klasifikasi ketidakseimbangan kelas adalah kejadian overlapping dalam dataset. Kelas Overlapping atau kadang-kadang disebut sebagai kompleksitas kelas atau kelas separability berhubungan dengan derajat dari separability antara kelas-kelas dalam data. Kesulitan untuk memisahkan kelas minoritas dari kelas mayoritas adalah faktor utama yang mempersulit pembelajaran dari kelas yang lebih kecil. Ketika pola overlapping yang hadir di setiap kelas untuk beberapa ruang fitur, atau kadang-kadang bahkan di semua ruang fitur, sangat sulit untuk menentukan ketentuan diskriminatif untuk memisahkan kelas. Ruang fitur overlapping disebabkan fitur kehilangan properti intrinsik mereka sehingga membuat

overlapping memberikan kendala berat untuk kinerja classifier dibandingkan dengan distribusi kelas ketidakseimbangan.

Pada classifiers standar yang beroperasi dengan berusaha untuk memaksimalkan akurasi dalam klasifikasi sering jatuh ke dalam perangkap masalah overlapping karena biasanya mereka diklasifikasikan pada daerah yang overlapping sebagai milik kelas mayoritas sementara asumsi kelas minoritas sebagai noise.

3. Small disjunct

Sementara dalam pembelajaran klasifikasi ketidakseimbangan kelas, rasio antara ketidakseimbangan kelas minoritas dan kelas mayoritas sangat jelas, Kadang suatu saat ketidakseimbangan dalam satu kelas mungkin diabaikan. Di dalam ketidakseimbangan kelas, sering muncul small disjunct ketika kelas terdiri dari beberapa jumlah sub-cluster yang berbeda dari contoh.

Studi tentang dan menjelajahi dalam ketidakseimbangan kelas di kelas minoritas menyatakan bahwa kelas minoritas kurang terwakili disebabkan oleh small disjunct dapat ditingkatkan dengan menerapkan upsampling diarahkan sehubungan dengan kelas minoritas. Masalah small disjuncts di ketidakseimbangan kelas mempengaruhi kinerja klasifikasi karena 1) small disjuct memberatkan classifier dalam tugas konsep pembelajaran dari kelas minoritas dan yang 2) kejadian tentang di dalam masalah kelas, sebagian besar waktu secara implisit. Di dalam masalah kelas ini selanjutnya menandakan karena banyak pendekatan saat ini untuk ketidakseimbangan kelas sebagian besar lebih tertarik untuk memecahkan antara masalah kelas dan mengabaikan distribusi ketidakseimbangan dalam setiap kelas.

Gambar 2.8. Contoh Ketidakseimbangan antara Kelas (a) overlapping antara kelas (b) small disjunct - dalam ketidakseimbangan kelas (Ali, et al, 2015)

2.2.3. Penanganan Ketidakseimbangan kelas

Secara umum, ada dua strategi untuk menangani klasifikasi ketidakseimbangan kelas ; 1) Pendekatan level data dan 2) pendekatan level algoritma. Metode pendekatan pada level data menyesuaikan rasio ketidakseimbangan kelas dengan tujuan untuk mencapai keseimbangan distribusi antara kelas sedangkan pada pendekatan level algoritma, bahwa algoritma klasifikasi konvensional diperbaiki untuk meningkatkan tugas belajar terutama relatif terhadap kelas yang lebih kecil.

Pendekatan level data atau kadang-kadang dikenal sebagai teknik eksternal mempekerjakan langkah preprocessing untuk menyeimbangkan distribusi kelas . Hal ini dilakukan secara undersampling dan oversampling untuk mengurangi rasio ketidakseimbangan dalam data training. Pada metode undersampling menghilangkan sejumlah kecil contoh dari kelas mayoritas untuk meminimalkan perbedaan antara dua kelas sedangkan oversampling lebih cenderung membuat duplikat contoh dari kelas minoritas.

SMOTE (Synthetic Minority Over-sampling Technique) merupakan teknik oversampling yang popular dalam menangani klasifikasi ketidakseimbangan kelas. SMOTE menambahkan contoh baru untuk kelas minoritas dengan menghitung distribusi probabilitas untuk model kelas yang lebih kecil sehingga membuat keputusan batas yang lebih besar untuk menangkap contoh kelas minoritas yang berdekatan.

2.2.4. Pendekatan Level data dengan Seleksi Fitur

Dapat dikatakan bahwa seleksi fitur sangat mempengaruhi hasil dari proses klasifikasi. Untuk dataset tidakseimbang (imbalance), metode seleksi fitur harus fokus pada fitur yang membantu dalam mengidentifikasi kelas minoritas (Pant, 2015). Penelitian ini mengusulkan sebuah metode untuk melakukan seleksi fitur yakni Density Based Feature Selection (DBFS).

Sasaran dari metode DBFS merupakan sebuah metode pengajaran heuristic yang bertujuan untuk mengevaluasi dampak dari sebuah fitur yang bermanfaat. Dugaan yang mendorong rasa ingin tahu lewat temuan (secara heuristik) bahwa fitur yang dikatakan baik bila salah satu nilai dari masing-masing class memiliki sisa class yang overlapping, yang disebut dengan instance dari masing-masing class sebagai bagian dari instance yang mungkin dari class lain berdasarkan nilai fitur. Dengan kata lain instance dari masing-masing class tidak menyebar kedalam berbagai instance yang terdapat pada class lain. (Alibeigi et al, 2012).

Untuk menelusuri lebih lanjut kontribusi dari masing – masing fitur serta menetapkan urutan yang tepat , DBFS mempertimbangkan korespondensi distribusi fitur dari seluruh class yang berkorelasi. Prosedur penanganan seleksi fitur dengan metode DBFS dijelaskan berikut ini (Alibeigi et al, 2012) :

1. Mengestimasi Probability Density Function (PDF) dari fitur di setiap kelas

Metode yang lazim digunakan untuk menghitung PDF dapat dikatagorisasikan melalui dua pendekatan yaitu parametrik dan non parametrik. Secara khusus , seluruh metode densitas parametrik klasik merupakan multimodal , sementara banyak permasalahan yang bersifat praktis melibatkan densitas multimodal. Sementara itu , aturan nonparametrik dapat digunakan lewat distribusi sembarang tanpa adanya dugaan bahwa bentuk kepadatan mendasar yang dipahami. Ini

merupakan penyebab mengapa aturan nonparametrik lebih menarik dan diterapkan sebagai pendekatan yang dilakukan. Bentuk umum dari penilaian nonparametik dari PDF berdasarkan persamaan beriku t:

……….……… (2.1)

Dimana, (x) merupakan nilai dari penilaian PDF misalnya x,v, merupakan volume yang mencakup x,n yang merupakan instance dari total jumlah K yang merupakan jumlah instance yang terdapat dalam V. Konsep-konsep ini dapat dilihat pada gambar 2.9. Penilaian PDF menjadi lebih akurat sama dengan peningkatan N dan volume V menurun. Sejak dalam prakteknya jumlah total dari instance ditetapkan sebagai (N), untuk meningkatkan akurasi dari penilaian PDF sebagai instance x (p(x)), kita mungkin mengumpamakan volume V mendekati nol namun kemudian hal tersebut kemungkinan akan sangat kecil yang mungkin tidak melampirkan berbagai instance. Maksudnya adalah, secara praktik (dengan penetapan sejumlah instance), dengan menemukan sebuah nilai yang disepakti terhadap nilai V, bahkan dengan sebahagian kecil instance, kemungkinan densitas yang dapat diterima mungkin jadi pertimbangan.

Gambar 2.9. Estimasi Non Parametrik dari PDF pada instance x (Alibeigi et al, 2012)

2. Prosedur menentukan Peringkat fitur

Langkah kedua setelah penilaian PDF pada masing-masing kelas yaitu menemukan nilai dari fitur berdasarkan penilaian PDF terhadap kelas. Seperti yang disampaikan sebelumnya bahwa fitur yang baik merupakan salah satu dari masing-masing kelas memiliki overlapping minimum dengan kelas yang tersisa. Hal tersebut berarti bahwa

kelas. Setelah terjadi peningkatan pada bagian overlapping terhadap fitur, penting dilakukan penghitungan nilai overlapping untuk fitur f di kelas cl berdasarkan rumusan berikut ini:

……… (2.2)

Gambar 2.10. Area Overlapping pada setiap fitur f (Alibeigi et al, 2012)

3. Menghitung area non overlapping dari fitur f di kelas cl

Nilai DiscriminantAbility untuk setiap fitur pada masing-masing kelas bermakna bahwa fitur ini sangat dapat diandalkan dalam mengklasifikasikan instance kelas. Pada gambar. 2.11 menunjukkan bahwa bagian dari non - overlapping untuk fitur 2322 dari dataset CNS2 pada masing-masing kelas. Dapat dikatakan bahwa bagian

yang berlabel A dan B merupakan bagian yang tidak overlapping terhadap masing-masing kelas mayoritas dan minoritas. Pada bagian non - overlapping untuk fitur f pada setiap kelas yang berdampak baik terhadap discriminant ability dari fitur yang dapat didefinisikan sebagai berikut:

…..……….. (2.3)

Fitur discriminantAbility secara keseluruhan merupakan rata-rata nilai DiscriminantAbility dari masing-masing class. Dapat dikatakan bahwa fitur dengan luas bagian yang tidak overlapping atau dengan rata-rata nilai-nilai DiscriminantAbilitiy yang lebih tinggi, mampu mengklasifikasikan instances lebih akurat. Lebih jauh lagi seperti pada pemaparan sebelumnya, fitur yang diasumsikan sebagai sesuatu yang baik bila sesuai dengan nilai-nilai yang berdasarkan fitur instance melibatkan satu kelas yang tidak menyebar ke kelas lain.

Gambar 2.11. Area Non Overlapping pada setiap fitur f (Alibeigi et al, 2012)

Langkah berikutnya mengenumerasi perubahan jumlah sebagai fitur numChanges. Perubahan jumlah mengacu pada jumlah waktu yang terdapat pada kotak label instance dari satu kelas ke kelas yang lain pada fitur khusus dari PDF. Setiap PDF ditentukan , label instance hanyalah kelas yang memiliki maximum probability (PDF value) pada poin tersebut menentukan skor dari fitur f berdasarkan rumus berikut :

khusus dari kedua classifier yang sesuai dan domain aplikasi, memahami kegagalan classifier ketika distribusi kelas tidak merata. Salah satu metode pendekatan level algoritma adalah metode ensemble.

Metode Ensemble ini melatih beberapa pengklasifikasi data training dan adanya evaluasi dikumpulkan untuk menghasilkan keputusan klasifikasi akhir. Metode ensemble secara umum dapat dideskripsikan sebagai boosting , dimana sebuah classifier diinduksi untuk setiap contoh training set dengan memilih salah satu dari algoritma machine learning. Oleh karena itu, akan ada jumlah k classifier untuk setiap variasi k dari training set .

Metode boosting melakukan percobaan pada training set menggunakan beberapa model untuk mendorong classifier menghasilkan output . Bobot yang lebih tinggi ditetapkan pada setiap classifier untuk contoh secara salah diklasifikasikan. Output kemudian diperbaiki dengan menggunakan pendekatan weighted average. Keputusan akhir diperoleh dengan menggabungkan semua classifier.

Algoritma adaBoost merupakan salah satu dari beberapa varian tentang ide boosting. Penggunaan boosting menarik perhatian karena memberikan jaminan dalam performansi (Witten, 2011). AdaBoost merupakan suatu algoritma pembelajaran untuk meningkatkan kinerja klasifikasi terhadap suatu algoritma pembelajaran sederhana. AdaBoost menggabungkan sekumpulan fungsi classifier lemah untuk membentuk suatu classifier yang kuat .

Adaboost merupakan teknik optimasi yang handal dengan mengkombinasikan beberapa pengklasifikasian dasar (multi base classifier) untuk menghasilkan suatu pengklasifikasian yang kuat (Alpaydin,2010). Jadi AdaBoost juga Merupakan suatu meta-algorithm yang dapat digunakan bersamaan dengan banyak algoritma pembelajaran lain untuk meningkatkan kinerjanya. AdaBoost bersifat adaptif, dimana

classifiers berikutnya dibangun untuk mendukung data-data yang mengalami kesalahan klasifikasi oleh classifier sebelumnya. AdaBoost sensitif terhadap data yang noisy dan outliers. Dalam beberapa hal, AdaBoost menjadi kurang rentan terhadap masalah overfitting, jika dibandingkan dengan algoritma pembelajaran pada umumnya.

Pembentukan classifier pada Adaboost didasari input dataset training (Di) adalah (x1,y1),…..,(xm,ym) dimana setiap xi dimiliki beberapa domain atau ruang instance X dan setiap label yi dalam beberapa set label Y. Diasumsikan Y = {-1, +1}. AdaBoost disebut algoritma pembelajaran yang lemah dalam serangkaian putaran t = 1 .... T. Salah satu ide utama dari algoritma ini adalah untuk memelihara distribusi bobot lebih dari training set. Bobot dari distribusi ini pada contoh training i dalam putaran t adalah dilambangkan D_t(i) . Awalnya, semua bobot ditetapkan sama, tetapi dalam setiap putaran, bobot dari contoh yang salah diklasifikasikan meningkat sehingga pembelajaran dasar dipaksa untuk fokus pada contoh yang sulit pada set training.

Pekerjaan pembelajar dasar adalah untuk menemukan classifier

dasar ht : sesuai dengan distribusi Dt. dalam kasus yang sederhana , range dari setiap h_t adalah binary , terbatas pada {-1, +1} . tugas pembelajar dasar itu adalah meminimalkan kesalahan (error) dari h_t dengan persamaan ( Schapire, 2003):

………. (2.5)

Setelah classifier dasar ht sudah diterima, AdaBoost memilih parameter αt  ℝ sehingga pentingnya mengukur secara intuitif yang akan menetapkan h_t . Untuk binary h_t, biasanya diatur dengan persamaan :

menetapkan bobot h_t : ………..……….. (2.6)

……….………. (2.7)

Perbaruhi distribusi, dimana Zt sebuah faktor normalisasi yang mengaktifkan Dt+1

1. Algoritma Adaboost dikolaborasikan dengan algoritma C4.5 dalam model Cross-Standard Industry for Data Mining (CRISP-DM) untuk meningkatkan hasil akurasi prediksi penyakit jantung coroner (Suwondo et al, 2013).

2. Penerapan Adaboost pada metode Decision Tree terbukti efektif menghasilkan model arsitektur yang optimal dalam penyelesaian ketidakseimbangan kelas dalam penentuan kelulusan mahasiswa (Bisri, 2015).

3. Menggabungan Genetic Algorithm dan Adaboost yang disebut "Ada-GA" , dimana Parameter untuk evolusi crossover rate =1, mutation rate = 0.003, population size = 100 – 350, jumlah generasi = 10 - 35 menghasilkan solusi yang lebih baik ( weak classifier lebih sedikit dan sedikit peningkatan dari akurasi klasifikasi) dari pada AdaBoost klasik (Elden et al, 2013).

4. Dengan menggabungkan empat metode klasifikasi yang berbeda, yaitu AdaBoost ensemble dengan regresi logistik (direpresentasikan sebagai LA), AdaBoost ensemble dengan decision tree (direpresentasikan sebagai DTA), classifier tunggal pada DT dan classifier tunggal pada support vector machine (SVM) dan dataset bawaan mampu memberikan peningkatan untuk prediksi sebagai default ekonomi yang muncul di Malaysia (Ramakrishnan et al, 2015).

Dalam dokumen ANALISIS PENANGANAN KETIDAKSEIMBANGAN KELAS DENGAN MENGGUNAKAN DENSITY BASED FEATURE SELECTION (DBFS) DAN ADAPTIVE BOOSTING (ADABOOST) TESIS (Halaman 30-42)