View of KOMBINASI ALGORITMA KLASIFIKASI DENGAN ALGORITMA OVERSAMPLING UNTUK MENANGANI KETIDAKSEIMBANGAN KELAS PADA LEVEL DATA

(1)

Jurnal Teknik Informatika dan Sistem Informasi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 29

Kombinasi Algoritma Klasifikasi Dengan Algoritma Oversampling Untuk Menangani Ketidakseimbangan

Kelas Pada Level Data

Gagah Gumelar*¹, Kusrini², Hanif Al Fatta³

1,2,3

Program Studi Magister Teknik Informatika Universitas AMIKOM Yogyakarta, Yogyakarta, Indonesia, (0274) 884201

e-mail: *¹[email protected], ²[email protected],

3[email protected]

Abstrak

Imbalance data merupakan masalah yang harus diselesaikan pada klasifikasi data mining, karena dapat mengakibatkan menurunnya performa klasifikasi. salah satu cara untuk mengatasi masalah imbalance data adalah dengan metode sampling. metode sampling sendiri dibagi menjadi tiga yaitu under sampling, over sampling, dan hybrid. metode over sampling dipilih karena tidak menghilangkan informasi penting dari sebuah data. algoritma smote merupakan salah satu contoh dari algoritma oversampling. dalam perkembangannya algoritma smote memiliki kelemahan yaitu data sintesis yang dihasilkan mengalami overgeneralize dan noise sehingga ditemukan algoritma k means smote pada penelitian ini membandingkan antara dataset tanpa resampling dengan yang telah dilakukan resampling.

Pengukuran hasil penelitian menggunakan algoritma klasifikasi yaitu logistic regression, decision tree, naïve bayes dan svm confusion matrix dan gmean sebagai penguji performa klasifikasi. Hasil dari penelitian penerapan metode oversampling pada dataset dengan nilai IR yang berbeda - beda pada dataset yang imbalance menghasilkan kombinasi algoritma oversampling dan algoritma klasifikasi paling signifikan terdapat pada dataset ecoli dengan imbalance ratio 9.28 algoritma Naive Bayes dengan algoritma k means SMOTE memiliki nilai akurasi 76,9 % dan nilai g mean 0.866 dimana jika dibandingkan dengan implementasi dataset yang langsung diklasifikasikan menggunakan algoritma Naive bayes yang memiliki nilai akurasi 44,2 % dan nilai g mean sebesar 0.629 selisih nilai akurasi sebesar 32,7 % dan g mean 0,237.

Kata kunci— imbalance data, resampling, SMOTE, K Means SMOTE

Abstract

Data imbalance is a problem that must be solved in data mining classification, because it can result in a decrease in classification performance. One way to solve the problem of data imbalance is by sampling method. The sampling method itself is divided into three, namely under sampling, over sampling, and hybrid. The over sampling method was chosen because it does not remove important information from a data. The smote algorithm is an example of an oversampling algorithm. In its development, the smote algorithm has a weakness, namely the synthesis data produced is overgeneralized and noise so that the k means SMOTE algorithm was found in this study comparing the dataset without resampling with the one that has been resampling. Measurement of research results using classification algorithms, namely logistic regression, decision tree, naïve bayes and svm, confusion matrix and g mean as a classification

(2)

30 Jatisi ISSN 2407-4322 Vol. 10, No. 2, Juni 2023, Hal. 29-39 E-ISSN 2503-2933

Gagah, et., al [Kombinasi Algoritma Klasifikasi Dengan Algoritma Oversampling Untuk Menangani Ketidakseimbangan Kelas pada Level Data]

to datasets with different IR values - the difference in the imbalance dataset resulted in the most significant combination of oversampling algorithm and classification algorithm found in the ecoli dataset with an imbalance ratio of 9.28 Naive Bayes algorithm with the k means SMOTE algorithm has an accuracy value of 76.9% and a mean g value of 0.866 which when compared to the implementation of the dataset which is directly classified using the Naive bayes algorithm which has an accuracy value of 44.2% and a mean g value of 0.629 the difference between an accuracy value of 32.7% and a g mean of 0.237.

Keywords— imbalance data, resampling, SMOTE, K means SMOTE

1. PENDAHULUAN

Data mining adalah suatu kegiatan pengumpulan data, pemakaian data historis untuk menemukan pengetahuan dari sebuah data [1]. Salah satu cabang dari data mining adalah klasifikasi. Klasifikasi merupakan teknik penggalian informasi dari sebuah data. Klasifikasi merupakan bagian dari supervised classification yaitu kelas sudah diketahui dari awal [8].

Permasalahan pada saat data mining dengan metode klasifikasi adalah keadaan kelas pada dataset yang tidak seimbang. Ketidakseimbangan dataset adalah keadaan dimana distribusi kelas di dalam dataset tidak seimbang [2] .

Sebuah data dapat dikatakan sebagai tidak seimbang apabila ada suatu kelas yang memiliki data yang lebih banyak dibandingkan dengan kelas lainnya. Kelompok dari kelas dengan jumlah yang lebih banyak disebut dengan kelas mayoritas, sedangkan kelompok kelas dengan jumlah yang lebih sedikit disebut dengan kelas minoritas [10] . Perbandingan antara kelas mayoritas dengan kelas minoritas disebut dengan Imbalance Ratio (IR) atau rasio ketidakseimbangan [2] . Ketidakseimbangan dataset pada data mining adalah masalah yang serius dan harus ditangani.

Dataset yang tidak seimbang menyebabkan misleading atau kesesatan dalam menentukan hasil kualifikasi dimana data kelas minoritas sering diklasifikasikan sebagai kelas mayoritas [10]. Penerapan algoritma klasifikasi secara langsung tanpa memperhatikan keseimbangan distribusi kelas dapat mengakibatkan prediksi yang baik bagi kelas mayoritas dan tidak baik pada kelas minoritas.

Apabila algoritma klasifikasi diimplementasikan tanpa algoritma resampling terhadap dataset yang memiliki kelas imbalance maka akan mengalami penurunan performa dalam klasifikasinya [10]. Pada implementasinya resampling terdapat 3 teknik resampling yaitu 1.

under sampling 2. over sampling, dan 3. hybrid ( gabungan ke antara undersampling dan oversampling ) [9] . Teknik oversampling dipilih karena seperti undersampling yang dapat menghilangkan informasi penting dari dataset. Algoritma oversampling yang digunakan Synthetic Minority Over-sampling Technique (SMOTE), algoritma ini dipilih dari beberapa algoritma resampling karena Synthetic Minority Over-sampling Technique (SMOTE) menghasilkan akurasi yang baik dan efektif dalam menangani kelas yang tidak seimbang karena dapat mengurangi overfitting [10].

Hal ini bertujuan untuk menyeimbangkan distribusi kelas pada dataset yang imbalance sehingga dapat meningkatkan kinerja dari algoritma klasifikasi. Hasil dari penelitian kombinasi ini akan dibandingkan dengan hasil klasifikasi tanpa resampling dan kombinasi antara teknik resampling + clustering dengan algoritma klasifikasi. Uji evaluasi yang digunakan adalah akurasi, G Mean (g-mean), dan Confusion Matrix (CM). Data yang digunakan untuk pengujian adalah data public ecoli yang dapat diakses secara bebas di KEELS imbalance dataset. namun pada implementasinya SMOTE memiliki kekurangan yaitu data sintesis yang tumpang tindih.

(3)

Jatisi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 31

Peneliti lain melakukan penelitian dengan mengkombinasikan antara algoritma SMOTE dengan algoritma Naive Bayes pada penentuan potensi kredit di koperasi guru rawamerta pada data yang tidak seimbang. Hasil dari kombinasi antara algoritma SMOTE dengan algoritma Naive Bayes menghasilkan akurasi sebesar 94,015 % dan G mean sebesar 0,948 [5].

Peneliti lain mengusulkan kombinasi antara algoritma SMOTE dengan algoritma klasifikasi Naive Bayes, SVM, KNN, DT yang menghasilkan algoritma Naïve Bayes memiliki akurasi paling baik 96,43 %, SVM dengan 99,02 %, KNN dengan 97,29 % dan Decision Tree dengan nilai 97,29 % pada dataset ecoli 15,8 yang telah dilakukan implementasi algoritma SMOTE dengan 10 fold cross validation. Sedangkan memiliki nilai G-mean paling baik 96,42

% untuk algoritma Naïve Bayes, SVM dengan 99,37 %, KNN dengan 99,53 % dan Decision Tree dengan nilai 96,29 % pada dataset ecoli 15, 8 yang telah dilakukan implementasi algoritma SMOTE dengan 10 fold cross validation [10].

Peneliti lain melakukan penelitian dengan metode SMOTE pada AODE dapat meningkatkan nilai kinerja akurasi dengan efektif pada klasifikasi imbalance class atau kelas tidak seimbang yang digunakan untuk credit scoring atau penilaian kredit pada datasets German Credit [6].

Peneliti lain mengusulkan kombinasi antara algoritma SMOTE dengan algoritma clustering yaitu K-means. Pada paper ini disebutkan bahwa SMOTE memiliki kelemahan yaitu hasil dari data sintesis yang noise karena tidak membedakan area kelas yang tumpang tindih.

Hasil dari kombinasi kedua algoritma ini membuat akurasi menghasilkan klasifikasi SVM memiliki akurasi dan sensitivitas lebih baik, yaitu 82 % dan 77 % [4].

Peneliti lain mengusulkan kombinasi antara algoritma genetika dengan algoritma SMOTE, pada paper ini dijelaskan bahwa SMOTE memiliki kelemahan yaitu overgeneralization karena hasil dari data sintesis merupakan data yang sama dari data asli, sehingga kombinasi dari kedua algoritma ini digunakan untuk mengatasi hal tersebut. Penerapan dari usulan ini menghasilkan nilai G-mean yang lebih baik daripada SMOTE tanpa algoritma genetika [11] .

Dari referensi yang sudah disajikan peneliti ingin mencoba membandingkan antara algoritma klasifikasi terhadap dataset tanpa oversampling, algoritma SMOTE dengan algoritma klasifikasi, dan algoritma k means SMOTE dengan algoritma klasifikasi dengan dataset yang memiliki nilai imbalance ratio yang berbeda - beda.

2. METODE PENELITIAN

Metode penelitian dimulai dengan merumuskan masalah, studi literatur dari jurnal, buku, serta berbagai sumber di internet yang menunjang jalannya penelitian. Data yang digunakan dalam penelitian ini adalah dataset ecoli, yang diambil dari repository keels dataset yang menyediakan dataset imbalance dengan berbagai ukuran imbalance atau sering disebut dengan imbalance ratio (IR) detail dari dataset yang digunakan dapat dilihat pada tabel 2.

Dataset yang didapat dari keels dataset dilakukan preprocessing untuk mengubah kelas dari string menjadi nilai numeric. setelah dilakukan preprocessing pada dataset, ada 3 skenario yang dilakukan pada penelitian ini yaitu:

1. Implementasi dataset dengan algoritma klasifikasi

2. Implementasi dataset kemudian dilakukan sampling dengan algoritma smote, kemudian dilakukan klasifikasi dengan algoritma klasifikasi

3. Implementasi dataset kemudian dilakukan sampling dengan algoritma k means smote, kemudian dilakukan klasifikasi dengan algoritma klasifikasi

(4)

32 Jatisi ISSN 2407-4322 Vol. 10, No. 2, Juni 2023, Hal. 29-39 E-ISSN 2503-2933

Kemudian dilakukan evaluasi hasil menggunakan confusion matrix dan G mean. Sehingga hasil dari evaluasi yang dilakukan dapat ditarik kesimpulan sebagai hasil dari penelitian Metode penelitian ini sesuai dengan gambar 1.

Gambar 1. Metode Penelitian

Tahapan metode penelitian pada gambar 1 untuk penelitian ini dapat dijelaskan sebagai berikut:

2.1 Rumusan Masalah

Rumusan masalah dari penelitian ini adalah mencari kombinasi akurasi terbaik dari metode oversampling dataset dari beberapa level imbalance.

(5)

Jatisi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 33

2.2 Study Literatur

Langkah selanjutnya adalah melakukan studi literatur yang berkaitan dengan rumusan masalah yang sudah dirumuskan sebelumnya. Studi literatur implementasi algoritma SMOTE pada dataset yang memiliki imbalance ratio yang berbeda - beda [10]. kemudian implementasi algoritma k means SMOTE terhadap dataset yang imbalance [4].

2.3 Pengumpulan Data

Dataset didapat dari repository keels dapat diakses pada lama https://sci2s.ugr.es/keel/imbalanced.php yang menyediakan dataset yang imbalance. Detail atribut dataset ecoli yang digunakan pada penelitian ini yaitu pada tabel 1, Sedangkan untuk dataset imbalance dapat dilihat pada tabel 2.

Tabel 1. Atribut Data e coli No Atribut

1 a1

2 a2

3 a3

4 a5

5 a6

6 a7

7 Class

Detail dataset ecoli yang digunakan pada penelitian ini yaitu pada tabel 2.

Tabel 2. Detail Dataset e coli dan Nilai Imbalance Ratio

No Dataset IR

1 ecoli-0_vs_1 1.86

2 ecoli1 3.36

3 ecoli2 5.46

4 ecoli3 8.6

5 ecoli-0-3-4-7_vs_5-6 9.28

6 ecoli-0-6-7_vs_5 10

7 ecoli-0-1_vs_5 11

8 ecoli-0-1-4-7_vs_5-6 12.28

(6)

34 Jatisi ISSN 2407-4322 Vol. 10, No. 2, Juni 2023, Hal. 29-39 E-ISSN 2503-2933

9 ecoli-0-1-4-6_vs_5 13

10 ecoli4 15.8

2.4 Normalisasi Data

Pada proses preprocessing ini bertujuan untuk mengubah kelas dari dataset yang sebelumnya text menjadi numeric, sehingga dapat dilakukan klasifikasi terhadap dataset.

Terdapat dua kelas didalam dataset ecoli, yaitu positif dan negatif. Kelas positif diwakili dengan angka 1 sedangkan kelas negatif diwakili dengan angka 0.

2.5 SMOTE

Synthetic Minority Over-sampling Technique (SMOTE) merupakan teknik oversampling untuk menyeimbangkan jumlah distribusi data pada sebuah kelas minoritas dengan cara mensintesis (membuat data baru) dataset dari kelas minoritas hingga jumlah dataset menjadi seimbang dengan jumlah dataset pada kelas mayoritas [3]. Metode Synthetic Minority Over- sampling Technique (SMOTE) ditawarkan untuk menangani Overfitting, yaitu dengan memanfaatkan ketetanggaan terdekat (K-NN) dari jumlah oversampling yang dikehendaki.

2.6 K means SMOTE

K means SMOTE merupakan algoritma oversampling yang mengkombinasikan antara algoritma k means dengan algoritma SMOTE dimana dataset dikelompokan terlebih dahulu oleh algoritma k means kemudian dari cluster yang terbentuk dipilih cluster untuk dilakukan oversampling menggunakan algoritma SMOTE [12].

2.7 Implementasi Algoritma Klasifikasi

Penelitian ini menggunakan algoritma klasifikasi LR, DC, NB dan SVM sebagai evaluasi dari kombinasi algoritma sampling yang diterapkan. Dataset yang digunakan untuk penelitian ini dibagi menjadi 2 yaitu:

1. Data Testing 2. Data Training

dimana pembagiannya data testing sebesar 20 % sedangkan data training sebesar 80 %.

2.8 Evaluasi Hasil

Pada data mining klasifikasi cara untuk mengukur kinerja dari sebuah model yang dihasilkan menggunakan Confusion Matrix. Confusion Matrix adalah suatu metode yang digunakan untuk melakukan perhitungan performa klasifikasi pada konsep data mining [7] . Presisi atau confidence adalah proporsi data yang diprediksi positif oleh algoritma klasifikasi yang juga positif benar pada data sebenarnya. Recall atau sensitivity adalah proporsi kasus positif yang sebenarnya diprediksi positif secara benar [10].

Tabel 3. Confusion Matrix

Predicted Class Actual Class

+ -

+ True Positives (TP) False Positives (FP) - False Negatives (FN True Negatives (TN)

(7)

Jatisi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 35

Perhitungan akurasi dengan tabel Confusion Matrix terdapat pada rumus 1

= ………1

= ……….2

=

……….……….3

− = ×

……….………...4

3. HASIL DAN PEMBAHASAN 3.1 Hasil

Pada penelitian ini, membandingkan penerapan antara algoritma klasifikasi, algoritma SMOTE dengan algoritma klasifikasi, kemudian algoritma k means SMOTE dengan algoritma klasifikasi. algoritma over sampling yang digunakan adalah algoritma SMOTE dan algoritma k means SMOTE. sedangkan algoritma klasifikasi yang digunakan adalah algoritma Logistic Regression, Decision Tree, Naive Bayes, dan SVM. Setelah dilakukan normalisasi terhadap dataset yang memiliki imbalance ratio yang berbeda - beda. Evaluasi hasil yang digunakan adalah menggunakan confusion matrix akurasi dan G mean. Hasil dari skenario yang dijelaskan sebelumnya dapat dilihat pada tabel 4, 5, dan 6.

Tabel 4. Hasil Implementasi Algoritma Klasifikasi Terhadap Dataset No Dataset IR Logistic Regression Decision Tree

Akurasi G mean Akurasi G mean

1 ecoli-0_vs_1 1.86 0.977 0.971 0.977 0.971

2 ecoli1 3.36 0.852 0.852 0.852 0.766

3 ecoli2 5.46 0.838 0.838 0.911 0.814

4 ecoli3 8.6 0.926 0.926 0.897 0.436

5 ecoli-0-3-4-7_vs_5-6 9.28 0.980 0.980 0.980 0.866

6 ecoli-0-6-7_vs_5 10 1 1 0.977 0.987

7 ecoli-0-1_vs_5 11 0.958 0.958 0.937 0.699

8 ecoli-0-1-4-7_vs_5-6 12.28 0.985 0.985 0.970 0.701

9 ecoli-0-1-4-6_vs_5 13 0.982 0.982 0.928 0.495

10 ecoli4 15.8 0.926 0.926 0.926 0.755

No Dataset IR Naive Bayes SVM

1 ecoli-0_vs_1 1.86 0.954 0.942 0.977 0.971

2 ecoli1 3.36 0.808 0.882 0.852 0.706

3 ecoli2 5.46 0.205 0.262 0.882 0.542

4 ecoli3 8.6 0.794 0.796 0.926 0.0

(8)

36 Jatisi ISSN 2407-4322 Vol. 10, No. 2, Juni 2023, Hal. 29-39 E-ISSN 2503-2933

5 ecoli-0-3-4-7_vs_5-6 9.28 0.442 0.629 0.961 0.856

6 ecoli-0-6-7_vs_5 10 0.886 0.555 0.977 0.816

7 ecoli-0-1_vs_5 11 0.979 0.866 0.937 0.846

8 ecoli-0-1-4-7_vs_5-6 12.28 0.970 0.0 0.985 0.707

9 ecoli-0-1-4-6_vs_5 13 0.982 0.866 0.982 0.866

10 ecoli4 15.8 0.808 0.890 0.926 0.0

Tabel 5. Hasil Implementasi Algoritma Klasifikasi dan Algoritma Smote Terhadap Dataset No Dataset IR Logistic Regression Decision Tree

1 ecoli-0_vs_1 1.86 0.977 0.971 0.977 0.971

2 ecoli1 3.36 0.838 0.759 0.823 0.692

3 ecoli2 5.46 0.867 0.838 0.911 0.863

4 ecoli3 8.6 0.808 0.804 0.867 0.601

5 ecoli-0-3-4-7_vs_5-6 9.28 0.884 0.819 0.942 0.847

6 ecoli-0-6-7_vs_5 10 0.954 0.975 0.931 0.962

7 ecoli-0-1_vs_5 11 0.916 0.835 0.937 0.846

8 ecoli-0-1-4-7_vs_5-6 12.28 0.940 0.690 0.985 0.707

9 ecoli-0-1-4-6_vs_5 13 0.964 0.857 0.946 0.700

10 ecoli4 15.8 0.926 0.959 0.941 0.762

1 ecoli-0_vs_1 1.86 0.977 0.971 0.977 0.971

2 ecoli1 3.36 0.808 0.882 0.852 0.819

3 ecoli2 5.46 0.25 0.347 0.852 0.830

4 ecoli3 8.6 0.794 0.796 0.779 0.788

5 ecoli-0-3-4-7_vs_5-6 9.28 0.423 0.612 0.884 0.819

6 ecoli-0-6-7_vs_5 10 0.931 0.796 0.977 0.987

7 ecoli-0-1_vs_5 11 0.979 0.866 0.916 0.835

8 ecoli-0-1-4-7_vs_5-6 12.28 0.970 0.701 0.940 0.690

9 ecoli-0-1-4-6_vs_5 13 0.982 0.866 0.964 0.857

10 ecoli4 15.8 0.779 0.872 0.926 0.959

(9)

Jatisi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 37

Tabel 6. Hasil Implementasi Algoritma Klasifikasi dan Algoritma K Means Smote Terhadap

Dataset

No Dataset IR Logistic Regression Decision Tree Akurasi G mean Akurasi G mean

1 ecoli-0_vs_1 1.86 0.977 0.971 0.977 0.971

2 ecoli1 3.36 0.838 0.759 0.838 0.631

3 ecoli2 5.46 0.882 0.846 0.911 0.814

4 ecoli3 8.6 0.794 0.574 0.882 0.432

5 ecoli-0-3-4-7_vs_5-6 9.28 0.903 0.829 0.980 0.866

6 ecoli-0-6-7_vs_5 10 0.977 0.987 1.0 1.0

7 ecoli-0-1_vs_5 11 0.937 0.846 0.958 0.856

8 ecoli-0-1-4-7_vs_5-6 12.28 0.940 0.690 0.985 0.707

9 ecoli-0-1-4-6_vs_5 13 0.964 0.857 0.982 0.866

10 ecoli4 15.8 0.941 0.967 0.926 0.755

1 ecoli-0_vs_1 1.86 0.977 0.971 0.977 0.971

2 ecoli1 3.36 0.794 0.832 0.838 0.759

3 ecoli2 5.46 0.338 0.473 0.852 0.784

4 ecoli3 8.6 0.823 0.812 0.779 0.569

5 ecoli-0-3-4-7_vs_5-6 9.28 0.769 0.866 0.903 0.829

6 ecoli-0-6-7_vs_5 10 0.954 0.806 0.977 0.987

7 ecoli-0-1_vs_5 11 0.979 0.866 0.916 0.835

8 ecoli-0-1-4-7_vs_5-6 12.28 0.970 0.701 0.940 0.690

9 ecoli-0-1-4-6_vs_5 13 0.982 0.866 0.964 0.857

10 ecoli4 15.8 0.882 0.934 0.955 0.975

3.2 Pembahasan

Hasil pengujian terhadap dataset dengan imbalance ratio yang rendah ke tinggi menghasilkan nilai akurasi dan G mean yang variatif. nilai akurasi dan G mean pada dataset ecoli dengan skenario pertama (keseluruhan hasil pada skenario pertama dapat dilihat pada tabel 4 diatas) dataset imbalance langsung diimplementasikan terhadap algoritma klasifikasi dengan split data 20 % untuk data testing dan 80 % untuk data training menghasilkan akurasi terbaik 100 % dan G mean 1 pada dataset imbalance ratio 10 dengan algoritma logistic regression.

Sedangkan untuk skenario ke dua (keseluruhan hasil pada skenario kedua dapat dilihat pada tabel 5 diatas) dataset yang imbalance dilakukan oversampling menggunakan algoritma SMOTE kemudian hasil sampling diimplementasikan ke algoritma klasifikasi dengan split data

(10)

38 Jatisi ISSN 2407-4322 Vol. 10, No. 2, Juni 2023, Hal. 29-39 E-ISSN 2503-2933

20 % untuk data testing dan 80 % untuk data training menghasilkan akurasi terbaik 0.982 % dan g mean 0,866 pada dataset imbalance ratio 13 dengan algoritma Naive Bayes.

Sedangkan skenario ke tiga (keseluruhan hasil pada skenario ketiga dapat dilihat pada tabel 6 diatas) dataset yang imbalance dilakukan oversampling menggunakan algoritma SMOTE kemudian hasil sampling diimplementasikan ke algoritma klasifikasi dengan split data 20 % untuk data testing dan 80 % untuk data training menghasilkan akurasi terbaik 100 % dan g mean 1 pada dataset imbalance ratio 10 dengan algoritma Decision Tree.

Kombinasi algoritma oversampling dan algoritma klasifikasi paling signifikan terdapat pada dataset dengan imbalance ratio 9.28 algoritma Naive Bayes dengan algoritma k means SMOTE memiliki nilai akurasi 76,9 % dan nilai G mean 0.866 dimana jika dibandingkan dengan implementasi dataset yang langsung diklasifikasikan menggunakan algoritma Naive bayes yang memiliki nilai akurasi 44,2 % dan nilai g mean sebesar 0.629 selisih nilai akurasi sebesar 32,7 % dan g mean 0,237.

4. KESIMPULAN

Berdasarkan hasil penelitian penerapan metode oversampling pada dataset dengan nilai IR yang berbeda - beda pada dataset yang imbalance menghasilkan kombinasi algoritma oversampling dan algoritma klasifikasi paling signifikan terdapat pada dataset ecoli dengan imbalance ratio 9.28 algoritma Naive Bayes dengan algoritma k means SMOTE memiliki nilai akurasi 76,9 % dan nilai G mean 0.866 dimana jika dibandingkan dengan implementasi dataset yang langsung diklasifikasikan menggunakan algoritma Naive bayes yang memiliki nilai akurasi 44,2 % dan nilai G mean sebesar 0.629 selisih nilai akurasi sebesar 32,7 % dan G mean 0,237.

5. SARAN

Saran untuk penelitian selanjutnya dapat memvalidasi klasifikasi dengan k fold cross validation untuk mengetahui performa klasifikasi pada setiap bagian dari dataset.

DAFTAR PUSTAKA

[1] Wahyudi, Mochamad. Masitha. (2020). Data Mining: Penerapan Algoritma K Means Clustering dan K Medoid Clustering.

[2] Fernández, Alberto. Garcia, Salvadora (2018). Learning from Imbalanced Data Sets, Springer.

[3] Chawla. Nitesh V, Bowyer. Kevin W, 2002, SMOTE: Synthetic Minority Over-sampling Technique, Journal of Artificial Intelligence Research.

[4] H. Hairani, K. E. Saputro, and S. Fadli, 2020, “K-means-SMOTE For Handling Class Imbalance in The Classification of Diabetes with C4.5, SVM, and Naive Bayes,” J.

Teknol. dan Sist. Komput., Vol. 8, No. 2, pp. 89–93, doi: 10.14710/jtsiskom.8.2.2020.89- 93.

(11)

Jatisi ISSN 2407-4322

Vol. 10, No. 2, Juni 2023, Hal. 29-39 E- ISSN 2503-2933 39

[5] N. Sulistiyowati and M. Jajuli, 2020 , “Integrasi Naive Bayes Dengan Teknik Sampling

Smote Untuk Menangani Data Tidak Seimbang,” Nuansa Inform., Vol. 14, No. 1, p. 34, doi: 10.25134/nuansa.v14i1.2411.

[6] O. Heranova, , 2019 , “Synthetic Minority Oversampling Technique pada Averaged One Dependence Estimators untuk Klasifikasi Credit Scoring,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), Vol. 3, No. 3, pp. 443–450, doi: 10.29207/resti.v3i3.1275.

[7] R. Perangin-angin, E. Harianja, I. Jaya, and B. Rumahorbo, 2020, “Penerapan Algoritma Safe-Level-Smote Untuk Peningkatan Nilai G-Mean Dalam Klasifikasi Data Tidak Seimbang,” Methomika J. Manaj. Inform. dan Komputerisasi Akunt., Vol. 4, No. 1, pp.

67–72, doi: 10.46880/jmika.v4i1.145.

[8] R. Septiani, I. P. A. Citra, and A. S. A. Nugraha, 2019, “Jurnal Geografi Perbandingan Metode Supervised Classification dan Unsupervised Classification Terhadap Penutup Lahan di Kabupaten Buleleng,” Vol. 16, No. 196, pp. 90–96, doi:

10.15294/jg.v16i2.19777.

[9] Santoso, Wijayanto, 2017, “Synthetic Over Sampling Methods for Handling Class Imbalanced Problems: A Review”, IOP Conference Series: Earth and Environmental Science.

[10] Sulistiyono. Mulia, Pristiyanto. Yoga, 2021, Implementasi Algoritma Synthetic Minority Over-Sampling Technique Untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi, Jurnal Sistemasi (Sistem Informasi).

[11] T. E. Tallo and A. Musdholifah, 2018, “The Implementation of Genetic Algorithm in Smote (Synthetic Minority Oversampling Technique) for Handling Imbalanced Dataset Problem,” Proc. - 2018 4th Int. Conf. Sci. Technol. ICST Vol. 1, pp. 1–4, doi:

10.1109/ICSTC.2018.8528591.

[12] Last, F., Douzas, G. and Bacao, F. (2017) “Oversampling for Imbalanced Learning Based on K-Means and SMOTE”. Information Sciences 465 (2018) 1-20 https://doi.org/10.1016/j.ins.2018.06.056.