DOI: 10.30865/mib.v7i2.5862
Random Oversampling, Chi-Square, dan AdaBoost dalam Penanganan Ketidakseimbangan Kelas pada Klasifikasi C5.0
Tanti
Informatika, Teknologi Informasi, Universitas Mikroskil, Medan, Indonesia Email: [email protected]
Email Penulis Korespondensi: [email protected]
Abstrak−Di dalam data mining, terdapat metode klasifikasi. Salah satu masalah yang kerap dialami dalam klasifikasi data mining adalah ketidakseimbangan kelas. Ketidakseimbangan kelas adalah kondisi dimana distribusi dataset tidak merata, artinya terbagi menjadi kelas mayoritas dan kelas minoritas dengan tingkat keparahan yang bervariasi. Kelas minoritas sering salah diklasifikasikan karena kelas mayoritas akan diklasifikasi secara berlebihan. Masalah ini membuat proses klasifikasi menjadi sulit dan mengakibatkan kinerja klasifikasi menjadi tidak optimal. Karena terjadi ketidakseimbangan, klasifikasi akan menghasilkan akurasi yang jauh lebih tinggi untuk kelas mayoritas daripada kelas minoritas. Tujuan dari penelitian ini adalah menerapkan Random Oversampling, Chi-Square, dan AdaBoost dalam mengatasi ketidakseimbangan kelas agar dapat mengoptimalkan kinerja dari klasifikasi C5.0. Dalam berurusan dengan dataset yang tidak seimbang, penilaian kinerja perlu lebih berfokus pada kelas positif. Sehingga metrik yang lebih sesuai untuk menilai hasil klasifikasi dari dataset yang tidak seimbang adalah recall/sensitivity/TPR. Hasil penelitian menunjukkan bahwa penerapan Random Oversampling saja mampu meningkatkan kinerja recall/sensitivity/TPR dari C5.0 standar. Penerapan Chi-Square saja belum mampu meningkatkan kinerja klasifikasi C5.0, namun meningkat setelah penerapan Random Oversampling. Kombinasi ketiganya yaitu Random Oversampling, Chi-Square, dan AdaBoost mampu meningkatkan nilai recall/sensitivity/TPR dari C5.0 standar.
Kata Kunci: Ketidakseimbangan Kelas; C5.0; Random Oversampling; Chi-Square; AdaBoost
Abstract−In data mining, there is a classification method. One of the problems often experienced in data mining classification is class imbalance. Class imbalance is a condition where the distribution of the dataset is uneven, meaning that it is divided into the majority class and the minority class with varying degrees of severity. The minority class is often misclassified because the majority class will be overclassified. This problem makes the classification process difficult and results in sub-optimal classification performance. Due to an imbalance, the classification will produce much higher accuracy for the majority class than for the minority class. This study aims to apply Random Oversampling, Chi-Square, and AdaBoost in overcoming class imbalances to optimize the performance of the C5.0 classification. In dealing with unbalanced datasets, performance appraisal needs to focus more on the positive class. So that the metric that is more suitable for assessing the classification results of unbalanced datasets is recall/sensitivity/TPR. The results showed that the application of Random Oversampling alone was able to improve the recall/sensitivity/TPR performance of standard C5.0. The application of Chi-Square alone has not been able to improve the performance of the C5.0 classification, but it has increased after the application of Random Oversampling. The combination of the three, namely Random Oversampling, Chi-Square, and AdaBoost able to increase the recall/sensitivity/TPR value of the standard C5.0.
Keywords: Class Imbalance; C5.0; Random Oversampling; Chi-Square; AdaBoost
1. PENDAHULUAN
Jumlah pengguna internet meningkat setiap tahunnya. Per Januari 2022, jumlah pengguna internet di Tanah Air mencapai 204,7 juta pengguna, dimana terdapat kenaikan 1,03% dibandingkan tahun sebelumnya [1]. Volume transaksi online pun terus meningkat seiring dengan perubahan pola pikir konsumen dalam kegiatan pembelian yang beralih dari fisik menjadi online [2]. Transaksi dapat dilakukan di mana saja dan kapan saja melalui berbagai media belanja online. Waktu, biaya, dan berbagai kendala yang kerap dialami dalam kegiatan belanja tradisional pun dapat diminimalisir berkat adanya belanja online. Selama kurun waktu 20 tahun terakhir, masyarakat modern cenderung melakukan kegiatan pembelian online melalui berbagai platform e-commerce karena kenyamanan dan efisiensi waktu bila dibandingkan dengan belanja tradisional [3].
Kecenderungan dalam pemenuhan kebutuhan secara online yang meningkat berberapa waktu ke belakang menyebabkan perlunya penjual untuk menganalisis riwayat pelanggan demi mengetahui pola dan niat dari berbagai jenis pelanggan online yang ada. Karena memahami perilaku dan niat pelanggan online akan sangat penting untuk proses pemasaran, meningkatkan customer experience, serta meningkatkan penjualan [4]. [5]
berpendapat bahwa penting untuk memberikan pengalaman online yang lancar dan memuaskan bagi konsumen agar mereka dapat berkunjung kembali.
Menganalisis niat beli online menggunakan data pengalaman pembeli telah muncul dalam komputasi dan penambangan data (data mining) [4]. Data mining adalah tahapan utama dalam KDD (Knowledge Discovery in Database), yang merupakan aktivitas yang berkaitan dengan pengumpulan data, pemakaian data historis untuk menemukan pengetahuan, informasi, keteraturan, pola atau hubungan dalam data yang berukuran besar, dimana output-nya dapat digunakan sebagai alternatif dalam pengambilan keputusan atau untuk memperbaiki pengambilan keputusan di masa yang akan datang [6]. Karena setiap data transaksi disimpan dalam database, data mining dapat membantu pengambilan keputusan karena data mining dapat menentukan pola algoritma mana yang cocok untuk digunakan dalam pencarian data [7].
DOI: 10.30865/mib.v7i2.5862
Data mining memiliki dua pengelompokkan yaitu supervised dan unsupervised learning. Supervised learning ditandai dengan adanya class/label/target pada himpunan data. Sedangkan unsupervised learning tidak memiliki atribut keputusan atau class/label/target [8]. Di dalam data mining terdapat berbagai metode yang memiliki fungsi dan tujuan yang berbeda, salah satunya adalah klasifikasi. Proses klasifikasi memiliki dua tahapan, yaitu learning (analisis training data menggunakan sebuah algoritma klasifikasi) dan classification (test data untuk mengestimasi ketepatan dari classification rules) [9]. Metode klasifikasi yang paling terkenal adalah pohon keputusan. Interpretasinya sederhana dan dapat dengan mudah dipahami dengan penjelasan singkat [10]. Pohon keputusan dapat menangani overfitting, menangani atribut kontinu, memilih atribut yang tepat untuk pemilihan atribut, menangani data pelatihan dengan nilai atribut yang hilang, dan meningkatkan efisiensi komputasi [11].
Masalah yang kerap dialami dalam klasifikasi data mining adalah ketidakseimbangan dataset [12].
Komunitas data mining dan machine learning sering dihadapkan pada dua masalah utama yaitu bekerja dengan data tidak seimbang dan memilih fitur terbaik [13]. Ketidakseimbangan kelas atau ketidakseimbangan dataset adalah kondisi dimana dataset memiliki distribusi yang tidak merata, dalam hal ini terbagi menjadi kelas mayoritas dan kelas minoritas. Kelas mayoritas memiliki jumlah instance yang lebih banyak dibanding kelas minoritas.
Pengaplikasian di dunia nyata menunjukkan tingkat keparahannya bisa bervariasi dari minor hingga parah [14].
Nilai rasio ketidakseimbangan kelas (jumlah sampel di kelas mayoritas dibagi dengan jumlah sampel di kelas minoritas) yang mendekati atau lebih dari 1,5-2,0 dianggap tidak seimbang [15], [16].
Permasalahan ketidakseimbangan kelas (class imbalance) membuat proses belajar classifier menjadi sulit [12]. Algoritma klasifikasi tradisional memberikan hasil yang buruk pada kumpulan data yang tidak seimbang karena dirancang untuk kumpulan data yang seimbang [17]. Kelas minoritas sering salah diklasifikasikan, karena machine learning memprioritaskan kelas mayoritas dan mengabaikan kelas minoritas [18]. Kelas mayoritas akan diklasifikasi secara berlebihan karena meningkatnya probabilitas, sehingga kelompok minoritas lebih sering salah diklasifikasikan [19]. Hal ini akan mempengaruhi kualitas data dalam hal kinerja klasifikasi [20] yang mengakibatkan kinerja klasifikasi menjadi tidak optimal [21].
Pada dasarnya, teknik data mining dan machine learning yang dirancang untuk menyelesaikan permasalahan klasifikasi membutuhkan distribusi kelas yang seimbang [22]. Jika tingkat ketidakseimbangan kelas ekstrim, maka akurasi prediksi keseluruhan akan tinggi karena kemungkinan besar model memprediksi sebagian besar sampel sebagai milik kelas mayoritas [14]. Ketidakseimbangan kelas akan berdampak pada hasil prediksi klasifikasi karena akan menghasilkan akurasi yang jauh lebih tinggi untuk kelas mayoritas daripada kelas minoritas ketika terjadi ketidakseimbangan data [23].
Ada beberapa teknik yang dapat digunakan untuk memecahkan masalah ketidakseimbangan kelas, yaitu metode level algoritma, metode level data, metode cost sensitive, dan metode berbasis ensemble [24]. Metode level data adalah teknik yang banyak digunakan dalam menangani ketidakseimbangan kelas, salah satunya adalah metode oversampling yang mengubah distribusi kelas dengan cara memanipulasi data training ke arah yang lebih seimbang. Pendekatan lain dalam menangani dataset yang tidak seimbang adalah pendekatan menggabungkan atau memasangkan (ensemble) metode, dimana ada dua algoritma ensemble-learning yang paling populer, yaitu boosting dan bagging [25]. Algoritma boosting telah dilaporkan sebagai meta-teknik untuk mengatasi masalah ketidakseimbangan kelas (class imbalance) [26]. Seleksi fitur adalah tindakan yang perlu dilakukan dalam menangani ketidakseimbangan kelas dengan dataset berdimensi tinggi [27]. Seleksi fitur dilakukan untuk mengidentifikasi subset atribut yang optimal [28]. Ada dua keuntungan yang dapat diberikan jika menerapkan seleksi fitur yaitu dapat membantu mengurangi curse of dimensionality dan mengkomputasikan fitur yang penting dapat membantu interpretasi data [29]. Salah satu metode seleksi fitur adalah Chi-square, yang menggunakan uji independensi untuk menilai apakah fitur tersebut tidak bergantung pada label kelas [30].
Dataset niat beli online (Online Shoppers Purchasing Intention) [31] memiliki kelas yang tidak seimbang.
Berbagai penelitian telah dilaksanakan untuk menganalisis niat beli online dengan pendekatan data mining, misalnya dengan berbagai metode/teknik untuk mengatasi ketidakseimbangan kelas yang ada dan memberikan hasil yang berbeda-beda, seperti [32] yang menggunakan teknik oversampling menaikkan TPR dan f1 score dari algoritma C4.5, random forest, multilayer perceptron, dan support vector machine. Algoritma klasifikasi C5.0 yang menerapkan resample meningkatkan kinerja specificity dan AUC, dimana random oversampling meningkatkan specificity sebesar 95,67% dan AUC meningkat menjadi 91,11%. Penerapan boosting juga meningkatkan kinerja akurasi, dimana penerapannya bersamaan dengan C5.0 dan random oversampling meningkat akurasinya menjadi 93,86% [33].
Berdasarkan uraian di atas, maka penelitian ini akan mengombinasikan Random Oversampling, Chi- Square, dan AdaBoost pada klasifikasi C5.0.
2. METODOLOGI PENELITIAN
2.1 Tahapan Penelitian
Penelitian dilaksanakan menggunakan bantuan IBM SPSS Modeler 18.0. Langkah-langkah penyelesaian dapat dilihat pada Gambar 1 dan diuraikan dalam beberapa poin di bawah ini.
DOI: 10.30865/mib.v7i2.5862
Gambar 1. Tahapan penelitian a. Pengumpulan Data
Dataset yang digunakan adalah Online Shoppers Purchasing Intention yang berasal dari UCI Machine Learning Repository [31], terdiri dari delapan belas fitur dengan 12330 record dimana terdapat tujuh belas fitur sebagai variabel kriteria (predictor) dan satu fitur sebagai variabel target (label kelas). Dataset ini memiliki dua tipe data yaitu numerik dan kategorikal. Adapun variabel kriteria yang ada di dalam dataset ini terdiri dari administrative, administrative duration, informational, informational duration, product related, product related duration, bounce rate, exit rate, page value, dan special day. Sedangkan variabel targetnya adalah revenue, yang memiliki dua kelas yaitu TRUE dan FALSE. TRUE berarti kunjungan yang berakhir dengan pembelian dan FALSE berarti sebaliknya yaitu kunjungan yang tidak berakhir dengan pembelian.
b. Preprocessing
Tahap preprocessing dilakukan dalam dua cara yaitu cleaning dan binning. Cleaning adalah proses pendeteksian dan penghapusan data yang tidak lengkap dan tidak relevan di dalam dataset seperti extreme value (outlier yang bernilai ekstrim). Record akhir yang valid setelah proses cleaning adalah berjumlah 11735.
Sementara binning adalah proses pengelompokkan data ke dalam beberapa kelompok observasi. Proses binning dilakukan untuk menghomogenisasikan tipe fitur, sebab dataset memiliki dua tipe data yaitu numerik dan kategorikal. Dalam penelitian ini, data dikelompokkan ke dalam lima tipe diskrit.
c. Model yang diusulkan
Setelah melalui tahap preprocessing, dataset yang baru dibagi menjadi dua bagian yaitu training dan testing dengan komposisi 90:10 (90% untuk training dan 10% untuk testing). Pengujian dilakukan dalam sepuluh proses dengan mengintegrasikan ROS (Random Oversampling), CS (Chi-Square), dan AB (AdaBoost) pada klasifikasi menggunakan algoritma C5.0. Penempatan algoritma/metode pada setiap poin menunjukkan urutan pemrosesan yang dilakukan.
Random Oversampling dilakukan untuk menyeimbangkan data training. Chi-Square untuk memutuskan fitur mana yang diikutsertakan dalam klasifikasi. AdaBoost diintegrasikan dengan algoritma C5.0 dengan beberapa jumlah iterasi.
1. C5.0, artinya klasifikasi menggunakan C5.0 standar.
2. ROS+C5.0, artinya menerapkan Random Oversampling sebelum klasifikasi C5.0.
3. ROS+C5.0+AB10, artinya, menerapkan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 10 iterasi.
4. ROS+C5.0+AB20, artinya menerapkan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 20 iterasi.
5. ROS+C5.0+AB30, artinya menerapkan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 30 iterasi.
6. CS+C5.0, artinya menerapkan Chi-Square sebelum klasifikasi C5.0.
7. CS+ROS+C5.0, artinya menerapkan Chi-Square dan Random Oversampling sebelum klasifikasi C5.0.
8. CS+ROS+C5.0+AB10, artinya menerapkan Chi-Square dan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 10 iterasi.
DOI: 10.30865/mib.v7i2.5862
9. CS+ROS+C5.0+AB20, artinya menerapkan Chi-Square dan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 20 iterasi.
10. CS+ROS+C5.0+AB30, artinya menerapkan Chi-Square dan Random Oversampling sebelum klasifikasi C5.0 dengan integrasi AdaBoost sebanyak 30 iterasi.
Sementara ROS+CS+C5.0 dan ROS+CS+C5.0+AB tidak dilakukan karena penerapan Chi-Square setelah Random Oversampling menunjukkan semua fitur menghasilkan Tolak H0 yang artinya ada hubungan antara variabel kriteria (predictor) dan variabel target (label kelas). Sehingga proses ini tidak dilanjutkan karena hasil klasifikasi akan sama dengan ataupun tanpa Chi-Square.
2.2 Random Oversampling
Rasio ketidakseimbangan adalah cara sederhana untuk mengukur pengamatan yang tidak merata di seluruh kelas.
Ketika nilai rasio ketidakseimbangan sama dengan 1, maka dataset seimbang. Nilai rasio yang lebih besar menunjukkan adanya perbedaan yang besar dalam ukuran kelas. Resampling bertujuan untuk menyeimbangkan data (rasio kelas mayoritas/minoritas harus mendekati 1,0).
Random Undersampling menghapus sebagian besar sampel dari data training secara acak, sedangkan Random Oversampling menyalin beberapa sampel dari data pelatihan secara acak [34]. Undersampling bekerja dengan mengurangi kelas mayoritas, sehingga sangat baik untuk mempercepat proses komputer, tapi model yang dihasilkan mungkin tidak layak karena dengan menghilangkan sebagian kecil dari data akan menyebabkan kehilangan beberapa informasi penting. Dalam metode oversampling, ukuran kelas minoritas dikembangkan dengan metode bootstrap, yaitu dengan membuat data minoritas baru [35]. Random Oversampling mengambil sampel secara acak dari kelas minoritas dan menambahkan sampel ini ke kumpulan data [36]. Metode oversampling lebih sering dipilih daripada metode level data lainnya karena undersampling menghilangkan data di kelas mayoritas [37].
2.3 Chi-Square Feature Selection
Komunitas data mining dan machine learning sering dihadapkan pada dua masalah utama, yaitu bekerja dengan data yang tidak seimbang dan memilih fitur terbaik [13]. Langkah paling sederhana dalam seleksi fitur adalah mengamati setiap fitur yang dibangkitkan secara independen dan menguji kemampuan diskriminasinya pada masalah yang harus diselesaikan, sehingga akan membantu membuang fitur dengan kemampuan diskriminasi yang buruk dan mempertahankan fitur dengan kemampuan diskriminasi yang baik sehingga akan mengurangi kompleksitas model dan waktu komputasi [38].
Chi-square feature selection adalah salah satu metode filter based feature selection yang merupakan bagian dari supervised feature selection. Seleksi fitur dilakukan untuk mengidentifikasi subset atribut yang optimal [28].
Chi-square menggunakan uji independensi untuk menilai apakah fitur bergantung pada label kelas atau tidak [30]
dengan cara mengevaluasi kemandirian dua peristiwa (kemunculan fitur dan kemunculan kelas) untuk sekumpulan data tertentu [29]. Langkah-langkah penerapan chi-square feature selection adalah sebagai berikut.
a. Menetapkan hipotesis
H0: Tidak ada hubungan antara dua variabel.
H1: Ada hubungan antara dua variabel.
b. Menentukan nilai O (observed value)
Yang dilakukan pada tahap ini adalah menghitung jumlah setiap baris, dan jumlah setiap kolom. Jumlah ini disebut marginals dan ada nilai marginal baris dan nilai marginal kolom.
c. Menentukan nilai df (degrees of freedom)
𝑑𝑓 = (𝑟𝑜𝑤𝑠 − 1) ∗ (𝑐𝑜𝑙𝑢𝑚𝑛𝑠 − 1) (1)
d. Menentukan nilai E (expected value)
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∗ 𝑃(𝐵) (2)
e. Menghitung nilai chi-square 𝑋2=(𝑂−𝐸)2
𝐸 (3)
f. Menerima atau menolak H0
Pengambilan keputusan berdasarkan nilai chi-square:
1. Jika nilai chi-square hitung > chi-square tabel, maka artinya H0 ditolak dan H1 diterima 2. Jika nilai chi-square hitung < chi-square tabel, maka artinya H0 diterima dan H1 ditolak.
2.4 Adaptive Boosting
Salah satu pengembangan machine learning untuk meningkatkan akurasi model adalah metode ensemble [39].
Salah satu metode klasifikasi ensemble yang lebih populer digunakan adalah boosting [33] dan metode yang umum digunakan adalah algoritma Adaptive Boosting [40].
DOI: 10.30865/mib.v7i2.5862
Algoritma Adaptive Boosting (AdaBoost) membangun pengklasifikasi kuat dengan cara mengombinasikannya dengan sejumlah pengklasifikasi lemah [41]. Pada tahap awal, setiap sampel diberikan bobot yang sama. Setelah setiap klasifikasi, hasil yang benar berkurang bobotnya, dan hasil yang salah bertambah bobotnya. Proses diulangi hingga mencapai ambang batas atau jumlah siklus maksimum [25], [42], [43].
a. Suatu dataset pelatihan dengan N sampel memiliki dua kelas dengan label 𝑦 ∈ {0,1}
b. Tetapkan bobot awal yang sama untuk setiap sampel dalam set pelatihan.
𝑤𝑖1 =1
𝑁, 𝑖 = 1,2, … , 𝑁 (4)
c. Untuk setiap iterasi 𝑡 = 1,2, … , 𝑇
1. Pilih secara acak kumpulan data dengan N sampel dari kumpulan pelatihan asli menggunakan weighted resampling. Peluang sampel untuk dipilih terkait dengan bobotnya. Sampel dengan bobot yang lebih tinggi memiliki kemungkinan yang lebih tinggi untuk dipilih.
2. Dapatkan learner, f(x) (model prediktif atau pengklasifikasi) dari kumpulan data yang disampel ulang.
3. Terapkan learner f(x) ke set data pelatihan asli. Jika sampel salah diklasifikasikan, jika salah = 1, jika tidak
= 0.
4. Hitung jumlah weighted errors dari semua sampel pelatihan.
𝑒𝑟𝑟𝑜𝑟𝑡= ∑𝑁𝑖=1(𝑤𝑖𝑡× 𝑒𝑟𝑟𝑜𝑟𝑖𝑡) (5)
5. Hitung indeks kepercayaan learner f(x):
𝛼𝑡=1
2𝑙𝑛 (1−𝑒𝑟𝑟𝑜𝑟𝑡
𝑒𝑟𝑟𝑜𝑟𝑡 ) (6)
Indeks kepercayaan dari learner f(x) tergantung pada weighted error.
6. Perbarui bobot semua sampel pelatihan asli:
𝑤𝑖𝑡+1= 𝑤𝑖𝑡× {𝑒𝑥𝑝(−𝛼𝑡) 𝑢𝑛𝑡𝑢𝑘 𝑚𝑒𝑛𝑢𝑟𝑢𝑛𝑘𝑎𝑛 𝑏𝑜𝑏𝑜𝑡
𝑒𝑥𝑝(𝛼𝑡) 𝑢𝑛𝑡𝑢𝑘 𝑚𝑒𝑛𝑎𝑖𝑘𝑘𝑎𝑛 𝑏𝑜𝑏𝑜𝑡 (7)
Jika sampel diklasifikasikan dengan benar, bobotnya menurun, sedangkan bobot untuk sampel yang salah diklasifikasikan meningkat.
7. Kemudian, lakukan normalisasi bobot, 𝑤𝑖𝑡= 𝑤𝑖𝑡
∑ 𝑤𝑁𝑖 𝑖𝑡 (8)
sehingga,
∑ 𝑤𝑁𝑖 𝑖𝑡+1= 1 (9)
8. 𝑇 = 𝑡 + 1, jika 𝑒𝑟𝑟𝑜𝑟 < 0.5, atau 𝑡 < 𝑇, ulangi langkah a-g; jika tidak, berhenti dan 𝑇 = 𝑡 − 1.
9. Setelah T iterasi, 𝑡 = 1,2, … , 𝑇, terdapat model prediksi 𝑓𝑡(𝑥), 𝑡 = 1,2, … 𝑇. Prediksi akhir untuk kasus j, diperoleh dari prediksi gabungan model T menggunakan pendekatan voting:
𝑦𝑗= 𝑠𝑖𝑔𝑛 ∑𝑇𝑡=1𝛼𝑡𝑓𝑡(𝑥) (10)
2.5 Klasifikasi C5.0
Salah satu algoritma data mining yang diterapkan pada algoritma pohon keputusan adalah C5.0. Algoritma ini adalah versi lanjutan dari C4.5 dengan kinerja yang lebih superior. Algoritma C5.0 lebih baik daripada C4.5 dalam hal akurasi, kecepatan, dan memori [44]. Tingkat akurasi algoritma C5.0 adalah yang terbaik dan waktu eksekusinya lebih singkat dibandingkan dengan algoritma klasifikasi lain [45]. Berikut ini adalah algoritma C5.0 [46]
a. Gain ratio digunakan sebagai dasar pembentukan node atau akar dan cabang pohon keputusan. Gain ratio dapat dihitung sebagai berikut.
𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝐾, 𝐶) = 𝐺𝑎𝑖𝑛(𝐾,𝐶)
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝐾,𝐶) (11)
b. Berdasarkan persamaan di atas, 𝑆𝑝𝑙𝑖𝐼𝑛𝑓𝑜(𝐾, 𝐶) dan 𝐺𝑎𝑖𝑛(𝐾, 𝐶) dihitung sebagai berikut.
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝐾, 𝐶) = 𝐼𝑛𝑓𝑜𝐸𝑛𝑡𝑟𝑜𝑝𝑦(|𝐶1|
|𝐶|, … ,|𝐶𝑖|
|𝐶|) (12)
𝐺𝑎𝑖𝑛(𝐾, 𝐶) = 𝐼𝑛𝑓𝑜𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐾) − 𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛(𝐾, 𝐶) (13)
Dimana 𝐾 adalah jumlah fitur dan 𝐶𝑖 adalah partisi dari 𝐶 yang diturunkan dari nilai 𝐾.
c. Dengan demikian, dirumuskan 𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛(𝐾, 𝐶) dan 𝐼𝑛𝑓𝑜𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐾) sebagai berikut.
DOI: 10.30865/mib.v7i2.5862
𝐼𝑛𝑓𝑜𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐾) = − ∑𝑁∈𝐶𝑖=1𝑖𝑃𝑖𝑙𝑜𝑔2𝑃𝑖 (14)
𝐼𝑛𝑓𝑜𝐺𝑎𝑖𝑛(𝐾, 𝐶) = − ∑𝑁∈𝐶𝑖=1𝑖𝑃𝑖× 𝐼𝑛𝑓𝑜𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝐾𝑖) (15) d. Menurut persamaan di atas, 𝑃 dihitung sebagai berikut.
𝑃 = (|𝐶1|
|𝑆| ,|𝐶2|
|𝑆|, … ,|𝐶𝑖|
|𝑆|) (16)
Dimana |𝑆| adalah jumlah contoh dalam himpunan 𝑆 dan 𝑃 adalah distribusi probabilitas partisi (𝐶1, 𝐶2, … , 𝐶𝑖) 2.6 Evaluasi
Kinerja klasifikasi dievaluasi berdasarkan nilai accuracy, precision, recall/sensitivity/TPR, selectivity/specificity/
TNR, dan f1 score yang dihitung berdasarkan true positive (TP), false negative (FN), false positive (FP), dan true negative (TN) yang ada di confusion matrix. TP adalah instance positif yang benar diklasifikasikan sebagai positif.
FN adalah instance positif yang diklasifikasikan sebagai negatif. FP adalah instance negatif yang diklasifikasikan sebagai positif. Sedangkan TN adalah instance negatif yang benar diklasifikasikan sebagai negatif [47]. Confusion matrix dalam penelitian ini diperoleh dari hasil klasifikasi yang dilakukan melalui IBM SPSS Modeler 18.0.
Tabel 1. Confusion Matrix
Actual
Positive Negative
Predicted Positive True Positive (TP) False Positive (FP) Negative False Negative (FN) True Negative (TN) 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (17)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃
𝑇𝑃+𝐹𝑃 (18)
𝑅𝑒𝑐𝑎𝑙𝑙/𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 (𝑇𝑃𝑅) = 𝑇𝑃
𝑇𝑃+𝐹𝑁 (19)
𝑆𝑒𝑙𝑒𝑐𝑡𝑖𝑣𝑖𝑡𝑦/𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 (𝑇𝑁𝑅) = 𝑇𝑁
𝑇𝑁+𝐹𝑃 (20)
𝐹1 𝑠𝑐𝑜𝑟𝑒 = 2𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 (21)
3. HASIL DAN PEMBAHASAN
Bagian ini berisikan temuan-temuan penelitian yang berasal dari pengujian yang dilakukan. Proses klasifikasi dilakukan sebanyak sepuluh kali sesuai dengan yang tercantum pada Tabel 3. Uji Chi-Square dilakukan menggunakan IBM SPSS Statistics 23, sedangkan Random Oversampling dan integrasi antara C5.0 dan AdaBoost dilakukan dengan bantuan IBM SPSS Modeler 18.0.
3.1 Seleksi Fitur
Pengambilan keputusan mengenai fitur yang relevan untuk proses klasifikasi adalah berdasarkan perbandingan Chi-Square Hitung dengan Chi-Square Tabel pada tingkat signifikansi 0,05. Nilai Chi-Square Hitung dan Chi- Square Tabel dapat dilihat pada Tabel 2.
Tabel 2. Keputusan Berdasarkan Nilai Chi-Square
Fitur Chi-Square Hitung (X2) df Chi-Square Tabel Keputusan
Administrative 198,832 4 9,49 Tolak H0
Administrative Duration 120,756 4 9,49 Tolak H0
Informational 135,710 4 9,49 Tolak H0
Informational Duration 98,914 4 9,49 Tolak H0
Product Related 216,253 4 9,49 Tolak H0
Product Related Duration 238,538 4 9,49 Tolak H0
Bounce Rates 255,706 4 9,49 Tolak H0
Exit Rates 554,350 4 9,49 Tolak H0
Page Values 3856,607 4 9,49 Tolak H0
Special Day 79,701 3 7,82 Tolak H0
Month 344,731 9 16,92 Tolak H0
Operating Systems 59,344 7 14,07 Tolak H0
Browser 24,633 12 21,03 Tolak H0
DOI: 10.30865/mib.v7i2.5862
Fitur Chi-Square Hitung (X2) df Chi-Square Tabel Keputusan
Region 5,362 8 15,51 Terima H0
Traffic Type 317,286 19 30,14 Tolak H0
Visitor Type 134,272 2 5,99 Tolak H0
Weekend 11,405 1 3,84 Tolak H0
Uji Chi-Square yang dilakukan menunjukkan fitur region memiliki nilai Chi-Square Hitung yang lebih kecil daripada Chi-Square Tabel artinya H0 diterima dan H1 ditolak. Hal ini menunjukkan bahwa tidak ada hubungan antara fitur region dengan revenue. Sedangkan enam belas fitur lainnya berhubungan dengan revenue.
Sehingga, keputusan yang diambil adalah fitur region dikecualikan dari proses klasifikasi 6-9 (Tabel 3. Hasil Pengujian).
Tabel 2 menunjukkan bahwa fitur yang memiliki nilai Chi-Square hitung tertinggi adalah page value, artinya fitur tersebut merupakan fitur yang paling relevan terhadap revenue. Sedangkan fitur region yang memiliki nilai Chi-Square terendah artinya fitur tersebut yang paling tidak relevan terhadap revenue. Berdasarkan tabel di atas, urutan fitur dari yang paling relevan sampai yang paling tidak relevan terhadap revenue adalah page values, exit rates, month, traffic type, bounce rates, product related duration, product related, administrative, informational, visitor type, administrative duration, informational duration, special day, operating systems, browser, weekend, dan region.
3.2 Klasifikasi
Bagian ini berisi hasil klasifikasi yang dilakukan menggunakan IBM SPSS Modeler 18.0.
Tabel 3. Hasil Pengujian
No. Integrasi Accuracy Precision
Recall/
Sensitivity/
TPR
Selectivity/
Specificity/
TNR
F1 score
1 C5.0 89,45% 74,81% 52,13% 96,63% 61,44%
2 ROS+C5.0 82,85% 47,74% 67,55% 85,79% 55,95%
3 ROS+C5.0+AB10 86,44% 55,63% 53,16% 92,40% 54,37%
4 ROS+C5.0+AB20 87,95% 57,89% 50,38% 94,05% 53,88%
5 ROS+C5.0+AB30 88,46% 58,88% 52,50% 94,17% 55,51%
6 CS+C5.0 89,37% 74,62% 51,60% 96,63% 61,01%
7 CS+ROS+C5.0 84,13% 50,58% 69,68% 86,91% 58,61%
8 CS+ROS+C5.0+AB10 86,58% 54,49% 59,51% 91,31% 56,89%
9 CS+ROS+C5.0+AB20 86,18% 54,88% 55,21% 91,79% 55,05%
10 CS+ROS+C5.0+AB30 86,27% 52,98% 53,33% 91,90% 53,16%
Proses pengujian dibagi ke dalam sepuluh proses yang dapat dilihat pada Tabel 3. Pengujian dilakukan dengan menerapkan Random Oversampling (ROS), Chi-Square (CS), dan AdaBoost (AB) dalam klasifikasi C5.0.
Hasil pengujian dievaluasi berdasarkan lima metrik yang dihitung berdasarkan confusion matrix pada masing- masing pengujian yaitu accuracy, precision, recall/sensitivity/TPS, selectivity/specificity/TNR, dan f1 score.
3.2.1 C5.0
Pengujian pertama yang dilakukan adalah klasifikasi dengan algoritma C5.0 dengan jumlah fitur lengkap yaitu delapan belas fitur. Tabel 3 menunjukkan kinerja dari klasfiikasi C5.0 dan dapat dijelaskan sebagai berikut.
a. Kasus yang terindentifikasi benar (accuracy) adalah sebesar 89,45%.
b. Tingkat keakuratan data yang diminta dengan hasil yang diberikan oleh model (precision) adalah sebesar 74,81%.
c. Kasus positif yang benar-benar positif (recall/sensitivity/TPR) adalah sebesar 52,13%.
d. Kasus negatif yang benar-benar negatif (selectivity/specificity/TNR) adalah sebesar 96,63%.
e. Rata-rata harmonik precision dan recall/sensitivity/TPR adalah sebesar 61,44%.
Dari penjelasan di atas terlihat bahwa nilai yang tertinggi adalah pada selectivity/specificity/TNR sebab klasifikasi dilakukan menggunakan dataset yang tidak seimbang. Karena dataset didominasi oleh kelas negatif, maka algoritma lebih berfokus ke kelas negatif dan cenderung mengabaikan kelas positif. Hal ini bisa dilihat dari rendahnya nilai recall/sensitivity/TPR.
3.2.2 ROS+C5.0
Pengujian selanjutnya adalah klasifikasi C5.0 menggunakan fitur yang berjumlah lengkap dan sampelnya telah diseimbangkan dengan metode Random Oversampling. Hasil pengujian dapat dilihat pada Tabel 3 dan dapat dijelaskan sebagai berikut.
a. Kasus yang terindentifikasi benar (accuracy) adalah sebesar 82,85%.
DOI: 10.30865/mib.v7i2.5862
b. Tingkat keakuratan data yang diminta dengan hasil yang diberikan oleh model (precision) adalah sebesar 47,74%.
c. Kasus positif yang benar-benar positif (recall/sensitivity/TPR) adalah sebesar 67,55%.
d. Kasus negatif yang benar-benar negatif (selectivity/specificity/TNR) adalah sebesar 85,79%.
e. Rata-rata harmonik precision dan recall/sensitivity/TPR adalah sebesar 55,95%.
Setelah menerapkan Random Oversampling terlihat bahwa nilai recall/sensitivity/TPR meningkat dibanding klasifikasi C5.0 standar. Namun nilai selectivity/specificity/TNR terlihat terjadi penurunan.
3.2.3 ROS+C5.0+AB
Pengujian selanjutnya adalah mengombinasikan C5.0 dengan AdaBoost (dengan jumlah iterasi sebanyak 10, 20, dan 30 iterasi) menggunakan fitur berjumlah lengkap dan sampelnya telah diseimbangkan dengan metode Random Oversampling.
a. Kasus yang terindentifikasi benar (accuracy) tertinggi adalah pada iterasi sebanyak 30 yaitu sebesar 88,46%.
b. Tingkat keakuratan data yang diminta dengan hasil yang diberikan oleh model (precision) tertinggi adalah pada iterasi sebanyak 30 yaitu sebesar 58,88%.
c. Kasus positif yang benar-benar positif (recall/sensitivity/TPR) adalah pada iterasi sebanyak 10 yaitu sebesar 53,16%.
d. Kasus negatif yang benar-benar negatif (selectivity/specificity/TNR) tertinggi adalah pada iterasi sebanyak 30 yaitu sebesar 94,17%.
e. Rata-rata harmonik precision dan recall/sensitivity/TPR tertinggi adalah pada iterasi sebanyak 30 yaitu sebesar 55,51%.
Dari penjelasan di atas terlihat bahwa secara umum, kinerja klasifikasi dari ROS+C5.0+AB akan meningkat seiring bertambahnya iterasi. Penerapan Random Oversampling dan AdaBoost mampu meningkatkan nilai recall/sensitivity/TPR dari C5.0 standar. Namun nilai selectivity/specificity/TNR terlihat terjadi sedikit penurunan dibanding C5.0 standar.
3.2.4 CS+C5.0
Pengujian selanjutnya adalah klasifikasi C5.0 menggunakan fitur yang diseleksi dengan Chi-Square. Pengujian dilakukan dengan menggunakan fitur berjumlah tujuh belas.
a. Kasus yang terindentifikasi benar (accuracy) adalah sebesar 89,37%.
b. Tingkat keakuratan data yang diminta dengan hasil yang diberikan oleh model (precision) adalah sebesar 74,62%.
c. Kasus positif yang benar-benar positif (recall/sensitivity/TPR) adalah sebesar 51,60%.
d. Kasus negatif yang benar-benar negatif (selectivity/specificity/TNR) adalah sebesar 96,63%.
e. Rata-rata harmonik precision dan recall/sensitivity/TPR adalah sebesar 61,01%.
Dari penjelasan di atas terlihat bahwa kinerja klasifikasi umumnya sedikit menurun dibanding C5.0 standar.
Namun nilai selectivity/specificity/TNR sama dengan C5.0 standar. Hal ini menunjukkan bahwa pemilihan fitur yang relevan mampu mempertahankan kinerja klasifikasi.
3.2.5 CS+ROS+C5.0+AB
Pengujian selanjutnya adalah klasifikasi yang mengombinasikan C5.0 dengan AdaBoost (dengan jumlah iterasi sebanyak 10, 20, dan 30 iterasi) menggunakan fitur yang telah diseleksi menggunakan Chi-Square yaitu berjumlah tujuh belas fitur dan sampelnya telah diseimbangkan dengan metode Random Oversampling.
a. Kasus yang terindentifikasi benar (accuracy) tertinggi adalah pada iterasi sebanyak 10 yaitu sebesar 86,58%.
b. Tingkat keakuratan data yang diminta dengan hasil yang diberikan oleh model (precision) tertinggi adalah pada iterasi sebanyak 20 yaitu sebesar 54,88%.
c. Kasus positif yang benar-benar positif (recall/sensitivity/TPR) adalah pada iterasi sebanyak 10 yaitu sebesar 59,51%.
d. Kasus negatif yang benar-benar negatif (selectivity/specificity/TNR) tertinggi adalah pada iterasi sebanyak 30 yaitu sebesar 91,90%.
e. Rata-rata harmonik precision dan recall/sensitivity/TPR tertinggi adalah pada iterasi sebanyak 10 yaitu sebesar 56,89%.
Setelah menerapkan Random Oversampling terlihat bahwa nilai recall/sensitivity/TPR meningkat dibanding klasifikasi C5.0 standar.
3.3 Perbandingan Metrik Evaluasi 3.3.1 Accuracy
Gambar 2 menunjukkan perbandingan accuracy dari masing-masing klasifikasi yang dilakukan. Yang memberikan accuracy tertinggi adalah C5.0 standar yaitu sebesar 89,45%. Penerapan Random Oversampling menurunkan kinerja accuracy, begitu juga dengan Chi-Square meskipun tidak terlalu signifikan. Penerapan AdaBoost pada
DOI: 10.30865/mib.v7i2.5862
ROS+C5.0 mampu meningkatkan kinerja accuracy seiring bertambahnya iterasi. Sementara penerapan AdaBoost pada CS+ROS+C5.0 cenderung memberikan accuracy yang stabil.
Ketika bekerja dengan dataset yang tidak seimbang, accuracy saja tidak cukup untuk menilai kinerja karena nilai yang dihasilkan didominasi oleh kelompok mayoritas yaitu kelas negatif. Namun dengan penerapan Random Oversampling yang menyeimbangkan kelas positif dan negatif memberikan accuracy yang cukup baik meskipun lebih rendah jika dibandingkan dengan klasifikasi C5.0 standar.
Dari hasil penelitian yang dilakukan, terlihat bahwa antar algoritma memberikan kinerja accuracy yang berfluktuasi. Dalam menilai kinerja klasifikasi, accuracy saja tidak cukup untuk dijadikan patokan, karena terdapat beberapa metrik lain yang perlu dianalisis seperti precision, recall/sensitivity/TPR, selectivity/specificity/TNR, dan f1 score.
Gambar 2. Perbandingan Accuracy 3.3.2 Precision
Precision adalah metrik yang menggambarkan tingkat keakuratan antara data yang diminta dengan hasil yang diberikan oleh model. Gambar 3 menunjukkan nilai precision tertinggi pada penelitian ini adalah pada klasifikasi C5.0 standar. Penerapan Random Oversampling menurunkan nilai precision, begitu juga dengan penerapan Chi- Square, ada penurunan precision meskipun tidak terlalu signifikan. Penerapan AdaBoost mampu meningkatkan kinerja precision dari ROS+C5.0 dan CS+ROS+C5.0, namun menurun jika dibandingkan dengan C5.0 standar.
Metrik precision sensitif terhadap ketidakseimbangan kelas dan nilainya tidak cukup untuk mengevaluasi hasil, karena tidak memberikan wawasan tentang jumlah sampel dari kelompok positif yang diklasifikasikan sebagai negatif (FN).
Gambar 3. Perbandingan Precision 3.3.3 Recall/Sensitivity/TPR
Recall/sensitivity/TPR adalah metrik yang tepat dalam mengevaluasi kinerja karena metrik tersebut hanya bergantung pada kelas yang positif. Gambar 4 menunjukkan nilai recall/sensitivity/TPR tertinggi pada penelitian ini adalah pada integrasi CS+ROS+C5.0 yaitu sebesar 69,68%.
Penerapan Random Oversampling mampu meningkatkan recall/sensitivity/TPR dibanding klasifikasi C5.0 standar, karena Random Oversampling menyeimbangkan kelas positif dan negatif. Sedangkan penerapan Chi- Square menurunkan nilai recall/sensitivity/TPR dibanding klasifikasi C5.0 standar namun tidak terlalu signifikan.
Penerapan AdaBoost menurunkan kinerja recall/sensitivity/TPR pada ROS+C5.0 dan CS+ROS+C5.0, namun lebih tinggi bila dibandingkan dengan C5.0 standar dan kinerjanya juga cenderung stabil seiring bertambahnya iterasi.
89,45%
82,85%84,13% 86,18%86,27%86,44%86,58%87,95%88,46%89,37%
C5.0 ROS+C5.0+AB10 ROS+C5.0+AB30 CS+ROS+C5.0 CS+ROS+C5.0+AB20
Accuracy
74,81%
47,74%
55,63%
57,89%
58,88% 74,62%
50,58%
54,49%
54,88%
52,98%
C5.0 ROS+C5.0+AB10 ROS+C5.0+AB30 CS+ROS+C5.0 CS+ROS+C5.0+AB20
Precision
DOI: 10.30865/mib.v7i2.5862
Gambar 4. Perbandingan Recall/Sensitivity/TPR 3.3.4 Selectivity/Specificity/TNR
Metrik selectivity/specificity/TNR mengukur persentase kasus negatif yang benar-benar negatif. Metrik ini tidak terpengaruh oleh ketidakseimbangan karena hanya bergantung pada kelas negatif. Gambar 5 menunjukkan nilai selectivity/specificity/TNR tertinggi adalah pada klasifikasi C5.0 standar. Penerapan Random Oversampling menurunkan kinerja selectivity/specificity/TNR dari C5.0 standar. Penerapan Chi-Square memberikan nilai selectivity/specificity/TNR yang sama dengan C5.0 standar. Penerapan AdaBoost setelah menerapkan Random Oversampling meningkatkan nilai selectivity/specificity/TNR, begitu juga dengan kombinasi Chi-Square dan Random Oversampling. Kombinasi Chi-Square, Random Oversampling, dan AdaBoost cenderung menurunkan kinerja selectivity/specificity/TNR dari C5.0 standar, namun cenderung meningkat seiring bertambahnya iterasi.
Gambar 5. Perbandingan Selectivity/Specificity/TNR 3.3.5 F1 Score
F1 score adalah rata-rata harmonik precision dan recall/sensitivity/TPR. Seperti yang terlihat pada Gambar 6, nilai f1 score tertinggi adalah pada klasifikasi C5.0 standar yaitu sebesar 61,44%.
Gambar 6. Perbandingan F1 Score
4. KESIMPULAN
Dari hasil penelitian yang dilakukan dapat disimpulkan bahwa penerapan Random Oversampling mampu meningkatkan kinerja klasifikasi C5.0 berdasarkan pada metrik recall/sensitiviy/TPR. Karena
52,13%53,16% 67,55%
50,38%51,60%52,50%53,33%55,21%59,51%69,68%
C5.0 ROS+C5.0+AB10 ROS+C5.0+AB30 CS+ROS+C5.0 CS+ROS+C5.0+AB20
Recall/Sensitivity/TPR
96,63%
85,79%86,91% 91,31%91,79%91,90%92,40%94,05%94,17% 96,63%
C5.0 ROS+C5.0+AB10 ROS+C5.0+AB30 CS+ROS+C5.0 CS+ROS+C5.0+AB20
Selectivity/Specificity/TNR
61,44%
55,95%
54,37%
53,88%55,05%55,51%56,89%58,61% 61,01%
53,16%
C5.0 ROS+C5.0+AB10 ROS+C5.0+AB30 CS+ROS+C5.0 CS+ROS+C5.0+AB20
F1 Score
DOI: 10.30865/mib.v7i2.5862
recall/sensitivity/TPR mengukur persentase kasus positif yang benar-benar positif, meningkatnya sampel positif akibat penerapan Random Oversampling akan meningkatkan nilai pada metrik tersebut. Penerapan Chi-Square saja belum mampu meningkatkan kinerja klasifikasi C5.0, namun penurunan kinerjanya tidak terlalu signifikan, dan kinerja recall/sensitivity/TPR meningkat setelah penerapan Random Oversampling. Penerapan AdaBoost mampu meningkatkan kinerja klasifikasi pada beberapa metrik evaluasi. Integrasi Random Oversampling, Chi- Square, dan AdaBoost mampu memberikan kinerja recall/sensitiviy/TPR yang lebih tinggi dibanding C5.0 standar.
Hasil dari penelitian yang telah dilakukan diharapkan dapat mendorong penelitian lanjutan di masa yang akan datang. Saran terkait penelitian di masa yang akan datang adalah seperti menerapkan metode atau algoritma klasifikasi lain untuk menemukan model yang memberikan kinerja lebih baik dan menggunakan dataset lain dengan bidang yang sama atau berbeda dalam kasus kelas tidak seimbang.
REFERENCES
[1] C. M. Annur, “Ada 204,7 Juta Pengguna Internet di Indonesia Awal 2022,” Katadata Media Network, 2022.
https://databoks.katadata.co.id/datapublish/2022/03/23/ada-2047-juta-pengguna-internet-di-indonesia-awal-2022.
[2] S. Sahney, K. Ghosh, and A. Shrivastava, “Conceptualizing consumer ‘trust’ in online buying behaviour: An empirical inquiry and model development in Indian context,” J. Asia Bus. Stud., vol. 7, no. 3, pp. 278–298, 2013, doi:
10.1108/JABS-Jul-2011-0038.
[3] D. Wagner, S. Chaipoopirutana, and H. Combs, “A Study of Factors Influencing the Online Purchasing Intention toward Online Shopping in Thailand,” AtMA 2019 Proccedings, no. 2013, pp. 277–292, 2019.
[4] M. R. Kabir, F. Bin Ashraf, and R. Ajwad, “Analysis of different predicting model for online shoppers’ purchase intention from empirical data,” 2019 22nd Int. Conf. Comput. Inf. Technol., no. March 2020, 2019, doi:
10.1109/ICCIT48885.2019.9038521.
[5] T. P. Novak, D. L. Hoffman, and Y. F. Yung, “Measuring the customer experience in online environments: A structural modeling approach,” Mark. Sci., vol. 19, no. 1, pp. 22–42, 2000, doi: 10.1287/mksc.19.1.22.15184.
[6] E. Buulolo, Data Mining untuk Perguruan Tinggi. Yogyakarta: Deepublish, 2020.
[7] O. Chouat and A. H. Irawan, “Implementation of Data Mining on Online Shop in Indonesia,” in IOP Conference Series:
Materials Science and Engineering, 2018, vol. 407, no. 1, doi: 10.1088/1757-899X/407/1/012013.
[8] D. Nofriansyah and G. W. Nurcahyo, Algoritma Data Mining dan Pengujian, 1st ed. Yogyakarta: Deepublish, 2015.
[9] R. T. Vulandari, Data Mining Teori dan Aplikasi Rapidminer, 1st ed. Yogyakarta: Penerbit Gava Media, 2017.
[10] L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone, Classification and regression trees. 2017.
[11] J. R. Quinlan, C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.
[12] N. Japkowicz, “Assessment metrics for imbalanced learning,” in Imbalanced Learning: Foundations, Algorithms, and Applications, 1st ed., Wiley-IEEE Press, Ed. 2013, pp. 187–206.
[13] T. M. Khoshgoftaar, K. Gao, and N. Seliya, “Attribute selection and imbalanced data: Problems in software defect prediction,” in Proceedings - International Conference on Tools with Artificial Intelligence, ICTAI, 2010, vol. 1, doi:
10.1109/ICTAI.2010.27.
[14] J. L. Leevy, T. M. Khoshgoftaar, R. A. Bauder, and N. Seliya, “A survey on addressing high-class imbalance in big data,”
J. Big Data, vol. 5, no. 1, 2018, doi: 10.1186/s40537-018-0151-6.
[15] H. He and Y. Ma, Imbalanced learning: Foundations, algorithms, and applications. 2013.
[16] S. Vluymans, “Dealing with imbalanced and weakly labelled data in machine learning using fuzzy and rough set methods,” in Studies in Computational Intelligence, vol. 807, 2019.
[17] G. Douzas and F. Bacao, “Self-Organizing Map Oversampling (SOMO) for imbalanced data set learning,” Expert Syst.
Appl., vol. 82, 2017, doi: 10.1016/j.eswa.2017.03.073.
[18] N. Santoso, W. Wibowo, and H. Himawati, “Integration of synthetic minority oversampling technique for imbalanced class,” Indones. J. Electr. Eng. Comput. Sci., 2019, doi: 10.11591/ijeecs.v13.i1.pp102-108.
[19] J. M. Johnson and T. M. Khoshgoftaar, “Survey on deep learning with class imbalance,” J. Big Data, vol. 6, no. 1, 2019, doi: 10.1186/s40537-019-0192-5.
[20] K. Gao, T. Khoshgoftaar, and R. Wald, “Combining feature selection and ensemble learning for software quality estimation,” in Proceedings of the 27th International Florida Artificial Intelligence Research Society Conference (FLAIRS), 2014.
[21] A. Nurmasani and Y. Pristyanto, “Algoritme Stacking untuk Klasifikasi Penyakit Jantung pada Dataset Imbalanced Class,” Pseudocode, vol. 8, no. 1, 2021, doi: 10.33369/pseudocode.8.1.21-26.
[22] J. Ortigosa-Hernández, I. Inza, and J. A. Lozano, “Towards Competitive Classifiers for Unbalanced Classification Problems: A Study on the Performance Scores,” 2016, [Online]. Available: http://arxiv.org/abs/1608.08984.
[23] Q. Gu, X. M. Wang, Z. Wu, B. Ning, and C. S. Xin, “An improved SMOTE algorithm based on genetic algorithm for imbalanced data classification,” J. Digit. Inf. Manag., vol. 14, no. 2, 2016.
[24] A. Fernández, S. García, M. Galar, R. C. Prati, B. Krawczyk, and F. Herrera, Learning from Imbalanced Data Sets. 2018.
[25] B. W. Yap, K. A. Rani, H. A. A. Rahman, S. Fong, Z. Khairudin, and N. N. Abdullah, “An application of oversampling, undersampling, bagging and boosting in handling imbalanced datasets,” in Lecture Notes in Electrical Engineering, 2014, pp. 13–22, doi: 10.1007/978-981-4585-18-7_2.
[26] Y. Sun, M. S. Kamel, A. K. C. Wong, and Y. Wang, “Cost-sensitive boosting for classification of imbalanced data,”
Pattern Recognit., vol. 40, no. 12, pp. 3358–3378, 2007, doi: 10.1016/j.patcog.2007.04.009.
[27] D. Tiwari, “Handling Class Imbalance Problem Using Feature Selection,” Int. J. Adv. Res. Comput. Sci. Technol., vol.
2, no. 2, pp. 516–520, 2014.
[28] I. S. Thaseen, C. A. Kumar, and A. Ahmad, “Integrated Intrusion Detection Model Using Chi-Square Feature Selection and Ensemble of Classifiers,” Arab. J. Sci. Eng., vol. 44, no. 4, 2019, doi: 10.1007/s13369-018-3507-5.
[29] A. Thakkar and R. Lohiya, “Attack classification using feature selection techniques: a comparative study,” J. Ambient
DOI: 10.30865/mib.v7i2.5862
Intell. Humaniz. Comput., vol. 12, no. 1, 2021, doi: 10.1007/s12652-020-02167-9.
[30] J. Li et al., “Feature selection: A data perspective,” ACM Comput. Surv., vol. 50, no. 6, 2017, doi: 10.1145/3136625.
[31] “Online Shoppers Purchasing Intention Dataset,” UCI Machine Learning Repository, 2018.
https://archive.ics.uci.edu/ml/datasets/Online+Shoppers+Purchasing+Intention+Dataset.
[32] C. O. Sakar, S. O. Polat, M. Katircioglu, and Y. Kastro, “Real-time prediction of online shoppers’ purchasing intention using multilayer perceptron and LSTM recurrent neural networks,” Neural Comput. Appl., vol. 31, no. 10, pp. 6893–
6908, 2019, doi: 10.1007/s00521-018-3523-0.
[33] H. Kuswanto, N. Sunusi, S. Siswanto, and N. Nirwan, “Application of Resampling and Boosting Methods Using the C5.0 Algorithm,” Proc. Int. Conf. Data Sci. Off. Stat., vol. 2021, no. 1, 2022, doi: 10.34123/icdsos.v2021i1.198.
[34] Y. Xiao and X. Xiao, “An intrusion detection system based on a simplified residual network,” Inf., vol. 10, no. 11, 2019, doi: 10.3390/info10110356.
[35] D. Jain, A. K. Mishra, and S. K. Das, “Machine Learning Based Automatic Prediction of Parkinson’s Disease Using Speech Features,” in Advances in Intelligent Systems and Computing, 2021, vol. 1164, doi: 10.1007/978-981-15-4992- 2_33.
[36] L. Gong, S. Jiang, and L. Jiang, “Tackling Class Imbalance Problem in Software Defect Prediction through Cluster-Based Over-Sampling with Filtering,” IEEE Access, vol. 7, 2019, doi: 10.1109/ACCESS.2019.2945858.
[37] S. DEMİR and E. K. ŞAHİN, “Evaluation of Oversampling Methods (OVER, SMOTE, and ROSE) in Classifying Soil Liquefaction Dataset based on SVM, RF, and Naïve Bayes,” Eur. J. Sci. Technol., 2022, doi: 10.31590/ejosat.1077867.
[38] E. Prasetyo, DATA MINING Mengolah Data Menjadi Informasi Menggunakan Matlab. 2014.
[39] D. Kurniawan and D. C. Supriyanto, “Optimasi Algoritma Support Vector Machine (Svm) Menggunakan Adaboost Untuk Penilaian Risiko Kredit,” J. Teknol. Inf., vol. 9, no. 1, 2013.
[40] G. Feng, J. D. Zhang, and S. Shaoyi Liao, “A novel method for combining Bayesian networks, theoretical analysis, and its applications,” Pattern Recognit., vol. 47, no. 5, 2014, doi: 10.1016/j.patcog.2013.12.005.
[41] S. Mulyati, Y. Yulianti, and A. Saifudin, “Penerapan Resampling dan Adaboost untuk Penanganan Masalah Ketidakseimbangan Kelas Berbasis Naϊve Bayes pada Prediksi Churn Pelanggan,” J. Inform. Univ. Pamulang, vol. 2, no.
4, 2017, doi: 10.32493/informatika.v2i4.1440.
[42] R. Hao, X. Xia, S. Shen, and X. Yang, “Bank direct marketing analysis based on ensemble learning,” in Journal of Physics: Conference Series, 2020, vol. 1627, no. 1, doi: 10.1088/1742-6596/1627/1/012026.
[43] X. Wu et al., “Top 10 algorithms in data mining,” Knowl. Inf. Syst., vol. 14, no. 1, pp. 1–37, 2008, doi: 10.1007/s10115- 007-0114-2.
[44] Ross Quinlan, “Is See5/C5.0 Better Than C4.5?,” RuleQuest Research, 2017. https://rulequest.com/see5- comparison.html#:~:text=Decision trees%3A faster%2C smaller&text=0 produce trees with similar,are noticeably smaller and C5.
[45] S. Rajeswari and K. Suthendran, “C5.0: Advanced Decision Tree (ADT) classification model for agricultural data analysis on cloud,” Comput. Electron. Agric., vol. 156, pp. 530–539, 2019, doi: 10.1016/j.compag.2018.12.013.
[46] J. H. Joloudari, M. Haderbadi, A. Mashmool, M. Ghasemigol, S. S. Band, and A. Mosavi, “Early detection of the advanced persistent threat attack using performance analysis of deep learning,” IEEE Access, vol. 8, 2020, doi:
10.1109/ACCESS.2020.3029202.
[47] I. C. Dipto, T. Islam, H. M. M. Rahman, and M. A. Rahman, “Comparison of Different Machine Learning Algorithms for the Prediction of Coronary Artery Disease,” J. Data Anal. Inf. Process., vol. 08, no. 02, 2020, doi:
10.4236/jdaip.2020.82003.