• Tidak ada hasil yang ditemukan

Jurnal Media Informatika Budidarma

N/A
N/A
Protected

Academic year: 2023

Membagikan "Jurnal Media Informatika Budidarma"

Copied!
7
0
0

Teks penuh

(1)

Wulan Suci, Copyright © 2022, MIB, Page 1775

Algoritma K-Nearest Neighbors dan Synthetic Minority Oversampling Technique dalam Prediksi Pemesanan Tiket Pesawat

Wulan Suci*, Samsudin

Sains dan Teknologi, Sistem Informasi, Universitas Islam Negeri Sumatera Utara, Medan, Indonesia Email: 1[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Penelitian ini menerapkan Synthetic Minority Oversampling Technique untuk meningkatkan performa metode K- Nearest Neighbors dalam memprediksi pada kelas data tidak seimbang (imbalance class). Kebanyakan algoritma klasifikasi secara implisit mengasumsikan bahwa data yang diproses memiliki distribusi yang seimbang, sehingga pengklasifikasi standar lebih condong kearah data yang jumlah kelasnya dominan (kelas mayoritas). Penggunaan Synthetic Minority Oversampling Technique dapat meningkatkan performa metode K-Nearest Neighbors untuk data pemesanan tiket pesawat. Meskipun dari sisi akurasi Synthetic Minority Oversampling Technique dengan K-Nearest Neighbors lebih rendah yaitu sebesar 79,65%

dibandingkan K-Nearest Neighbors tanpa menggunakan Synthetic Minority Oversampling Technique yaitu sebesar 97,81%, teknik yang disarankan tidak mengalami peningkatan namun dari performa lain, metode yang diusulkan dapat mengungguli K- Nearest Neighbors dengan menggunakan Synthetic Minority Oversampling Technique dalam hal presisi, recall, dan F1-Score ketika diterapkan pada dataset Pemesanan Tiket Pesawat. Presisi naik 18,00% dari 62,00% menjadi 80,00%, recall naik 28,00%

dari 52,00% menjadi 80,00%, dan F1-Score naik 27,00% dari 53,00% menjadi 80,00% pada dataset pemesanan tiket pesawat.

Kata Kunci: Klasifikasi; K-Nearest Neighbors; Synthetic Minority Oversampling Technique; Performa; Canceled Ticketing Abstract−This study applies the Synthetic Minority Oversampling Technique to improve the performance of the K-Nearest Neighbors method in predicting the unbalanced data class. Most classification algorithms implicitly assume that the processed data has a balanced distribution, so that the standard classifier is more inclined towards data with a dominant class number (majority class). The use of Synthetic Minority Oversampling Technique can improve the performance of the K-Nearest Neighbors method for flight ticket booking data. Although in terms of accuracy, Synthetic Minority Oversampling Technique with K-Nearest Neighbors is lower at 79.65% compared to K-Nearest Neighbors without using Synthetic Minority Oversampling Technique, which is 97.81%, the suggested technique did not improve but from other performance, The proposed method can outperform K-Nearest Neighbors by using Synthetic Minority Oversampling Technique in terms of precision, recall, and F1-Score when applied to the Airline Ticket Booking dataset. Precision increased 18.00% from 62.00% to 80.00%, recall increased 28.00% from 52.00% to 80.00%, and F1-Score increased 27.00% from 53.00% to 80 ,00% on the flight ticket booking dataset.

Keywords: Classification; K-Nearest Neighbors; Synthetic Minority Oversampling Technique; Performance; Canceled Ticketing

1. PENDAHULUAN

Data tidak seimbang adalah keadaan data yang tidak seimbang antar kelas data yang satu dengan kelas data lainnya.

Kondisi data yang tidak seimbang adalah masalah dalam klasifikasi karena pengklasifikasi cenderung memprediksi pada kelompok data yang banyak (mayoritas) dibandingkan dengan kelompok data yang sedikit (minoritas)[1]. Klasifikasi merupakan penemuan model proses pada satu kelas yang bertujuan untuk menghitung nilai peluang yang muncul pada satu kelas[2]. Pada hakekatnya data real, data yang ditambang langsung dari databas adalah tidak seimbang. Kondisi tersebut menyulitkan metode klasifikasi dalam melakukan fungsi generalisasi pada proses machine learning. Algoritma klasifikasi seperti K-Nearest Neighbor menunjukkan performa yang buruk ketika bekerja pada data dengan kelas yang sangat tidak seimbang karena lebih banyak memusatkan klasifikasi pada kelas yang dominan. Pada beberapa kasus, kelas minoritas justru lebih penting untuk diidentifikasi daripada kelas mayoritas. Salah satu kasus yang mengalami ketidakseimbangan kelas adalah data pemesanan tiket pesawat pada CV. Trend Pelangi Mandiri. Data pemesanan tiket pesawat yang diperoleh dari CV.

Trend Pelangi Mandiri mengalami imbalance class dimana jumlah pemesanan dengan status success lebih banyak dibandingkan pemesanan yang berstatus cancelled.

Salah satu teknik yang dapat mengatasi permasalahan data adalah dengan menggunakan teknik data mining.

Data mining atau sering juga disebut penemuan pengetahuan dalam basis data (KDD) merupakan sebuah kegiatan yang meliputi pengumpulan, penggunaan data historis untuk menemukan keteraturan pola dengan jumlah data yang besar. Hasil data mining bisa digunakan dalam membantu pengambilan keputusan di masa depan[3].

Penelitian yang dilakukan oleh[4] dengan topik “Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma K-NN”. Berdasarkan hasil penelitian dengan menerapkan nilai k tetangga yang bervariasi yaitu 1, 3, 5, 7 dan 9 diperoleh bahwa penerapan SMOTE dapat meningkatkan akurasi algoritma K-NN pada nilai k=1 dan k=3 dengan gain presisi rata-rata adalah 3,36.

Penelitian yang dilakukan oleh[5] dengan topik “Implementasi Algoritma Synthetic Minority Over- Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi”. Pada scenario eksperimen algoritma K-NN menunjukkan akurasi 97,29 % pada dataset ecoli 15,8 setelah melakukan SMOTE

(2)

Wulan Suci, Copyright © 2022, MIB, Page 1776 dengan 10-fold cross validation. Sedangkan memiliki nilai G-mean dengan 99,53 % pada dataset ecoli 15,8 setelah dilakukan SMOTE dengan 10-fold cross validation.

Penelitian yang dilakukan oleh[6] melakukan “Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Television Advertisement Performance Rating Menggunakan Artificial Neural Network”. Hasil eksperimen menunjukkan kinerja ANN+SMOTE mencapai akurasi sebesar 87.06% sedangkan ANN hanya 86.35%.

Penelitian oleh[7] dengan judul penelitian “Implementasi SMOTE untuk mengatasi Imbalance Class pada Klasifikasi Car Evolution menggunakan K-NN”, menyimpulkan bahwa penggunaan SMOTE mampu mengatasi ketidakseimbangan kelas dengan meningkatkan nilai akurasi rata-rata sebesar 9.97%.

Berdasarkan penelitian yang telah dilakukan sebelumnya akan dijadikan sebagai referensi atau pedoman dalam penelitian ini. Perbedaan penelitian ini dengan penelitian sebelumnya adalah dari segi atribut dan dari segi data yang digunakan. Algoritma yang diusulkan dalam penelitian ini adalah algoritma K-Nearest Neighbors.

Algoritma K-Nearest Neighbors adalah metode yang digunakan untuk mengklasifikasikan objek yang memiliki jarak paling dekat dengan objek berdasarkan data latih[8]. Jumlah sampel data pemesanan tiket pesawat yang didapatkan dari CV. Trend Pelangi Mandiri mengalami imbalance class dimana jumlah pemesanan yang sukses lebih banyak dibandingkan pemesanan yang berstatus cancelled.

Kebanyakan algoritma pengklasifikasi cenderung secara implisit mengasumsikan bahwa data yang diproses memiliki distribusi yang seimbang, sehingga pengklasifikasi standar cenderung memprioritaskan data dengan jumlah kelas yang dominan. Synthetic Minority Oversampling Technique (SMOTE) digunakan dalam menyeimbangkan kelas untuk menerapkan algoritma K-NN agar klasifikasi tidak mengarah pada data mayor.

Diharapkan dengan kombinasi metode SMOTE mampu memberikan data yang mewakili data aslinya serta mampu meningkatkan performa dari metode K-NN untuk memprediksi pemesanan tiket pesawat yang kemungkinan besar akan dibatalkan.

Dari data tersebut perusahaan dapat melihat pola pemesanan yang terindikasi akan melakukan cancel dari nama maskapai yang sering cancel. Penelitian ini juga dapat digunakan sebagai alat bantu evaluasi bagi perusahaan untuk meminimalisisir kerugian yang akan terjadi dengan membuat kebijakan/keputusan berdasarkan informasi baru yang didapat dari hasil proses data mining.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Ada beberapa tahapan dalam proses penyelesaian dari penelitian ini, yaitu:

2.1.1 Understanding Goal

Tahapan pertama dimulai dengan mengidentifikasi permasalahan yang dihadapi. Peneliti menemukan suatu permasalahan pada data pemesanan tiket pesawat dimana data tersebut dalam keadaan kelas data yang tidak seimbang. Sehingga dalam hal klasifikasi tidak bekerja dengan baik karena lebih dominan kepada kelas yang jumlahnya mayoritas. Penulis melakukan pengumpulan data melalui observasi dan wawancara dengan pihak perusahaan untuk mendapatkan informasi yang lebih detail mengenai data. Penulis membutuhkan pemahaman lebih lanjut mengenai topik penelitian, maka dari itu dilakukan tahap studi kepustakaan dengan mencari informasi dari berbagai sumber dan mengumpulkan karya ilmiah berbentuk jurnal, skripsi dan juga buku. Dengan adanya permasalahan itu diterapkan teknik SMOTE untuk meningkatkan performa K-NN untuk data pemesanan tiket pesawat.

Gambar 1. Tahapan Data Mining 2.1.2 Selection

Menurut[9] tahapan data mining dimulai dari data mentah, selanjutnya adalah menyeleksi data dari sekumpulan data operasional. Data yang digunakan dalam penelitian ini berasal dari CV. Trend Pelangi Mandiri, yaitu data pemesanan tiket pesawat tahun 2019, 2020, dan 2021.

(3)

Wulan Suci, Copyright © 2022, MIB, Page 1777 2.1.3 Preprocessed Data

Data perlu dibersihkan sebelum proses pra-pemrosesan dan penambangan data. Pada tahapan ini data yang tidak relevan, missing value, dan radudant harus dibersihkan. Hal ini dikarenakan syarat awal dalam melakukan data mining adalah datanya relevan, tidak missing value, dan tidak radudant.

2.1.4 Preprocessed Data

Transformasi merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Pola informasi yang dihasilkan dari proses data mining harus disajikan dalam format yang mudah dipahami oleh para pemangku kepentingan.

2.1.5 Data Mining

Tahap ini merupakan proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu berdasarkan proses KDD secara keseluruhan. Metode yang digunakan pada penelitian ini adalah metode K-Nearest Neighbor (K-NN) dan teknik SMOTE. Algoritma K-Nearest Neighbors adalah sebuah metode yang digunakan untuk melakukan klasifikasi terhadap objek berdasarkan data latih yang memiliki jarak paling dekat dengan objek tersebut. Synthetic Minority Oversampling Technique (SMOTE) digunakan dalam menyeimbangkan kelas untuk menerapkan algoritma K-NN agar klasifikasi tidak mengarah pada data mayor.

2.1.6 Interpretation

Model pengetahuan yang ditemukan perlu ditampilkan dalam bentuk yang mudah dimengerti bagi pihak yang berkepentingan.

2.2 Synthetic Minority Oversampling Technique (SMOTE)

Metode SMOTE bekerja dengan mencari K-Nearest Neighbors (yaitu tetangga terdekat data sebanyak K) untuk setiap data di kelas minoritas, setelah itu dibuat data sintetis sebanyak prosentase duplikasi yang diinginkan antara data minor dan K-Nearest Neighbors yang dipilih secara acak[10]. Metode SMOTE adalah salah satu metode yang paling umum digunakan untuk menangani ketidakseimbangan kelas data. Imbalanced class (kelas tidak seimbang) dapat diartikan sebagai adanya data yang memiliki kecenderungan lebih besar (mayority class) dibandingkan data lainnya[11]. Dalam data pemesanan tiket pesawat terdapat lebih banyak pemesanan yang sukses sebagai kelas mayority, sedangkan pemesanan yang berstatus cancel lebih sedikit atau disebut dengan kelas minority. Untuk itu SMOTE digunakan untuk menyeimbangkan kelas agar dihasilkan klasifikasi yang lebih akurat.

Pemrosesan data sintetik pada data dengan nilai fitur numerik berbeda dari data dengan nilai fitur kategoris, menurut[12] persamaan Euclidean digunakan untuk mengukur Kesamaan data numerik, sedangkan untuk data kategorik diukur menggunakan rumus Value Difference Metric (VDM), yaitu:

𝑑(𝑉1, 𝑉2) = ∑ |𝐶1𝑖

𝐶1𝐶2𝑖

𝐶2|

𝑁𝑖=1 (1)

2.3 K-Nearest Neighbors (K-NN)

Algoritma K-Nearest Neighbors (K-NN) bertujuan untuk mencari jarak terdekat antara data yang dievaluasi dengan data tetangga terdekat pada data latih. Dengan K merupakan banyaknya data terdekat. K-NN adalah salah satu metode machine learning yang digunakan untuk melakukan pengelompokan pada objek baru berdasarkan sejumlah parameter ‘K’ tetangga terdekat[13]. Tujuan dari K-NN untuk memprediksi suatu objek dan kemudian mengklasifikasi objek tersebut ke dalam satu kelompok golongan tertentu atau kelompok golongan yang lain.

Prediksi adalah sistem pendukung keputusan yang membantu mengklasifikasikan data testing ke dalam golongan-golongan tertentu sesuai dengan ketentuan awal atau ke dalam suatu kelas yang dilatih pada data training untuk mengidentifikasi sesuatu di masa mendatang[14].

Menurut[15] klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan suatu konsep atau kelas data sehingga nantinya data tersebut dapat dengan mudah dipahami.

Tujuan klasifikasi adalah untuk membangun model yang dapat digunakan untuk memprediksi kelas objek atau data dengan spesifikasi kelas yang tidak diketahui.

Tahapan algoritma K-Nearest Neighbor (K-NN) dijelaskan sebagai berikut: (1) persiapkan data training (data sampel) dan data testing (data uji), (2) Penentuan nilai k dan (3) Perhitungan jarak data testing ke setiap data training[16]. Langkah-langkah dalam klasifikasi pada K-Nearest Neighbor (K-NN) menurut penelitan[17] adalah sebagai berikut:

a. Menentukan parameter k (jumlah tetangga paling dekat).

b. Menghitung kedekatan berdasarkan model jarak Euclidean terhadap data latih yang diberikan, dengan persamaan :

D (𝑥, 𝑦) = ||𝑥 − 𝑦||2 = √∑𝑁 |𝑥 − 𝑦|2 (2)

c. Mengurutkan hasil jarak yang didapatkan secara ascending (berurutan dari nilai tinggi ke rendah).

d. Hitung jumlah setiap kelas berdasarkan k tetangga terdekat.

(4)

Wulan Suci, Copyright © 2022, MIB, Page 1778 e. Kelas mayoritas dijadikan sebagai kelas bagi data uji.

3. HASIL DAN PEMBAHASAN

Dalam penelitian ini penulis memulai dengan teknik SMOTE, data yang semula merupakan data pemesanan tiket pesawat dimana lebih banyak pemesanan dengan status berhasil sebagai kelas mayoritas dan cancel sebagai kelas minoritas karena datanya lebih sedikit. Keadaan data ini tidak seimbang atau disebut imbalance class. Untuk menyeimbangkan data maka digunakan teknik SMOTE. Dengan metode ini dapat membuat dataset menjadi seimbang tanpa terlalu overfit, yaitu dengan membuat contoh synthetic daripada dengan menduplikasi sampel.

Dari proses teknik SMOTE akan didapatkan data baru yang seimbang. Selanjutnya data dalam keadaan seimbang diproses dengan perhitungan K-NN. Proses perhitungan dimulai dengan menentukan nilai K yang akan di proses berdasarkan nilai parameter K yang di tentukan, kemudian melakukan proses Data Euclidean untuk menghitung jarak setiap tetangga tersebut, lalu urutkan hasilnya berdasarkan jarak, mulai dari yang terkecil ke yang terbesar, selanjutnya melakukan proses penentuan atau voting.

Pada bagian ini, kami akan membangun fondasi untuk penelitian ini; Secara umum penelitian ini akan menggunakan data resampling dengan pendekatan SMOTE untuk menangani data pemesanan tiket pesawat, seperti terlihat pada Gambar 2. Tahapan algoritma K-NN dan SMOTE dapat dilihat pada gambar dibawah ini.

Gambar 2. Tahapan SMOTE dan K-NN 3.1 Data Requirements

Tahap pertama adalah pengumpulan data, dimana digunakan dataset pemesanan tiket persawat yang terdiri dari 2 kelas dengan 9 jumlah fitur dan memiliki 5711 instances. Rincian data yang digunakan ditunjukkan pada tabel 1.

Tabel 1. Data Pemesanan Tiket Pesawat

No. M1 M2 M3 R1 R2 R3 R4 R5 FAX Class

1 1 0 0 1 6 0 0 0 1 Success

2 2 0 0 2 1 0 0 0 4 Success

3 2 0 0 2 1 0 0 0 1 Success

4 3 0 0 3 4 0 0 0 2 Success

5 1 0 0 1 6 0 0 0 1 Success

… … … …

5711 1 0 0 2 1 7 0 0 1 Success

Seperti yang ditunjukkan pada Tabel 1. Data tersebut akan digunakan untuk menentukan berapa banyak minoritas dan kelas mayoritas yang ada. Untuk melihat apakah teknik yang disarankan dapat menghasilkan hasil akurasi yang lebih tinggi, penelitian ini akan membandingkannya dengan metode K-NN yang menggunakan dataset pemesanan tiket pesawat. Tabel 2 menunjukkan kumpulan data yang digunakan berdasarkan distribusi kelasnya:

Tabel 2. Distribusi Kelas Data

Data Attributes Class Distribution Class Positive Negative Flight

Booking Ticket

9 2 5554 157

3.2 Oversampling Process

Pada langkah kedua, dataset di-oversampling menggunakan Synthetic Minority Oversampling Technique (SMOTE) untuk memperbaiki ketidakseimbangan dataset antara kelas positif dan negatif. Data akan di- oversampling terlebih dahulu menggunakan SMOTE, Tabel 3 berisi detail untuk dataset baru.

(5)

Wulan Suci, Copyright © 2022, MIB, Page 1779 Tabel 3. Detail Data Setelah SMOTE

Data Attributes Class Distribution Class Positive Nagative Flight

Booking Ticket

9 2 5554 5554

3.3 Testing

Langkah selanjutnya adalah menggunakan K-Nearest Neighbor untuk melakukan pehitungan menggunakan confusion matrix antara data latih dan uji pada setiap dataset (K-NN). Kami memilih strategi pemisahan 80% dan 20% untuk menjaga kesinambungan fitur. Khususnya, untuk sampel setiap data, kami menggunakan 80% pertama untuk pelatihan dan 20% sisanya untuk pengujian.

3.4 Evaluation

Terakhir, kami membandingkan kumpulan data baru menggunakan pemisahan data 80/20 dalam melakukan proses klasifikasi data untuk melihat apakah SMOTE dan K-NN dan K-NN tanpa SMOTE memiliki kinerja yang lebih baik dari sisi Accuracy, Precision, Recall, dan F-1 Score.

3.5 Hasil

Berdasarkan Gambar 3 akurasi rata-rata dari data, nilai akurasi untuk K-NN pada dataset Tiket Pemesanan Penerbangan adalah 97,81%, sedangkan SMOTE + KNN adalah 79,65%.

Gambar 3. Akurasi Rata-Rata dari Data

Tabel 4 menunjukkan bahwa SMOTE+KNN mengungguli K-NN asli dalam hal presisi, recall, dan F1- Score ketika diterapkan pada dataset Flight Booking Ticket, meskipun nilai tidak unggul dalam hal akurasi. Presisi naik 18,00%, recall naik 28,00%, dan F1-Score naik 27,00% pada dataset Flight Booking Ticket.

Tabel 4. Detail Kinerja

Performance Flight Booking Ticket

K-NN SMOTE+K-NN Avg Increase

Accuracy 97,81% 79,65% -18,16%

Precision 62,00% 80,00% 18.00%

Recall 52,00% 80,00% 28.00%

F1-Score 53,00% 80,00% 27.00%

Gambar 4 menunjukkan keseluruhan performa K-NN dan SMOTE+KNN dari sisi Accuracy, Precision, Recall, dan F-1 Score yang telah dilakukan.

Gambar 4. Perbandingan Kinerja Keseluruhan 97,81%

79,65%

0,00%

20,00%

40,00%

60,00%

80,00%

100,00%

120,00%

Flight Booking Ticket k-NN SMOTE+KNN

97,81%

62,00% 52,00% 53,00%

79,65% 80,00% 80,00% 80,00%

0,00%

50,00%

100,00%

150,00%

Accuracy Precision Recall F1-Score

k-NN SMOTE+KNN

(6)

Wulan Suci, Copyright © 2022, MIB, Page 1780 Dari Gambar 4 kita bisa melihat perbandingan performa keseluruhan dari algoritma K-NN yang ditunjukkan dengan warna biru dan performa SMOTE+ K-NN yang ditunjukkan dengan warna orange.

Penggunaan Synthetic Minority Oversampling Technique dapat meningkatkan performa metode K-Nearest Neighbors untuk data pemesanan tiket pesawat. Meskipun dari sisi akurasi Synthetic Minority Oversampling Technique dengan K-Nearest Neighbors lebih rendah yaitu sebesar 79,65% dibandingkan K-Nearest Neighbors tanpa menggunakan Synthetic Minority Oversampling Technique yaitu sebesar 97,81%, teknik yang disarankan tidak mengalami peningkatan namun dari performa lain, metode yang diusulkan dapat mengungguli K-Nearest Neighbors dengan menggunakan Synthetic Minority Oversampling Technique dalam hal presisi, recall, dan F1- Score ketika diterapkan pada dataset Pemesanan Tiket Pesawat. Presisi naik 18,00% dari 62,00% menjadi 80,00%, recall naik 28,00% dari 52,00% menjadi 80,00%, dan F1-Score naik 27,00% dari 53,00% menjadi 80,00% pada dataset pemesanan tiket pesawat.

4. KESIMPULAN

Data pemesanan tiket pesawat dalam kelas target “Canceled” dapat ditangani dengan menggunakan SMOTE.

Kami menemukan bahwa, dalam studi kasus kami, oversampling kelas minoritas sederhana, dan yang lebih canggih, Teknik SMOTE memiliki hasil yang hampir sama dalam kombinasi dengan yang diterapkan model klasifikasi K-Nearest Neighbors (KNN). Metode yang diusulkan dapat dapat memberdayakan pengawas pemesanan tiket pesawat untuk menghitung kerugian mereka yang timbul dari lanjutan pembatalan pemesanan tiket dan pembatasan masalah yang terkait dengan pemesanan berlebih (biaya redistribusi, uang atau pembayaran administrasi. Berdasarkan penjelasan pada bagian sebelumnya dapat disimpulkan bahwa penggunaan SMOTE dapat meningkatkan performa metode K-NN untuk data pemesanan tiket pesawat. Meskipun dari sisi akurasi SMOTE dengan K-NN lebih rendah yaitu sebesar 79,65% dibandingkan K-NN tanpa menggunakan SMOTE yaitu sebesar 97,81%, teknik yang disarankan tidak mengalamni peningkatan namun dari performa lain, metode yang diusulkan dapat mengungguli K-NN dengan menggunakan SMOTE dalam hal presisi, recall, dan F1-Score ketika diterapkan pada dataset Pemesanan Tiket Pesawat. Presisi naik 18,00%, recall naik 28,00%, dan F1-Score naik 27,00% pada dataset pemesanan tiket pesawat. Hal ini dapat disimpulkan bahwa metode SMOTE dengan KNN memiliki performa yang lebih baik dibandingkan hanya menggunakan Metode K-NN saja.

REFERENCES

[1] R. D. Fitriani, H. Yasin, and T. Tarno, “PENANGANAN KLASIFIKASI KELAS DATA TIDAK SEIMBANG DENGAN RANDOM OVERSAMPLING PADA NAIVE BAYES (Studi Kasus: Status Peserta KB IUD di Kabupaten Kendal),” J. Gaussian, vol. 10, no. 1, pp. 11–20, 2021, doi: 10.14710/j.gauss.v10i1.30243.

[2] T. Triase and S. Samsudin, “Implementasi Data Mining dalam Mengklasifikasikan UKT (Uang Kuliah Tunggal) pada UIN Sumatera Utara Medan,” J. Teknol. Inf., vol. 4, no. 2, pp. 370–376, 2020, doi: 10.36294/jurti.v4i2.1711.

[3] F. D. Pratama, I. Zufria, and T. Triase, “Implementasi Data Mining Menggunakan Algoritma Naïve Bayes Untuk Klasifikasi Penerima Program Indonesia Pintar,” Rabit J. Teknol. dan Sist. Inf. Univrab, vol. 7, no. 1, pp. 77–84, 2022, doi: 10.36341/rabit.v7i1.2217.

[4] A. N. Kasanah, Muladi, and U. Pujianto, “Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam,” RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 3, no. 10, 2019.

[5] M. Sulistiyono, Y. Pristyanto, S. Adi, and G. Gumelar, “Implementasi Algoritma Synthetic Minority Over-Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi,” Sistemasi, vol. 10, no. 2, p. 445, 2021, doi: 10.32520/stmsi.v10i2.1303.

[6] E. Sutoyo and M. A. Fadlurrahman, “Penerapan SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Television Advertisement Performance Rating Menggunakan Artificial Neural Network,” J. Edukasi dan Penelit. Inform., vol. 6, no. 3, p. 379, 2020, doi: 10.26418/jp.v6i3.42896.

[7] F. Dwi Astuti, Femi and Nova Lenti, “Implementasi SMOTE untuk mengatasi,” JUPITER (Jurnal Penelit. Ilmu dan Teknol. Komputer), vol. 13, pp. 89–98, 2021.

[8] N. Z. Dina and R. S. Marjianto, “PREDIKSI PENENTUAN PENERIMA BEASISWA DENGAN METODE KNEAREST NEIGHBOURS (Studi Kasus: Program Studi Sistem Informasi Fakultas Vokasi Universitas Airlangga),”

InfoTekJar (Jurnal Nas. Inform. dan Teknol. Jaringan), vol. 2, no. 2, pp. 135–139, 2018, doi:

10.30743/infotekjar.v2i2.269.

[9] P. Butka, P. Bednár, and J. Ivančáková, “Methodologies for Knowledge Discovery Processes in Context of AstroGeoInformatics,” in Knowledge Discovery in Big Data from Astronomy and Earth Observation:

Astrogeoinformatics, 2020, pp. 1–20.

[10] R. Perangin-angin, E. J. G. Harianja, and I. K. Jaya, “Pendekatan Level Data untuk Menangani Ketidakseimbangan Data Menggunakan Algoritma K-Nearest Neighbor,” J. TIMES, vol. IX, no. 1, pp. 22–32, 2020, [Online]. Available:

https://ejournal.stmik-time.ac.id/index.php/jurnalTIMES/article/view/615.

[11] H. Hairani, K. E. Saputro, and S. Fadli, “K-means-SMOTE for handling class imbalance in the classification of diabetes with C4.5, SVM, and naive Bayes,” J. Teknol. dan Sist. Komput., vol. 8, no. 2, pp. 89–93, 2020, doi:

10.14710/jtsiskom.8.2.2020.89-93.

[12] K. U. Syaliman, “Enhance the Accuracy of K-Nearest Neighbor ( K-Nn ) for Unbalanced Class Data Using Synthetic Minority Oversampling Technique ( Smote ) and Gain Ratio ( Gr ),” vol. 10, no. 1, pp. 188–195, 2021.

[13] R. N. Yusra and O. S. Sitompul, “InfoTekJar : Jurnal Nasional Informatika dan Kombinasi K-Nearest Neighbor ( KNN

(7)

Wulan Suci, Copyright © 2022, MIB, Page 1781 ) dan Relief-F Untuk Meningkatkan Akurasi Pada Klasifikasi Data,” vol. 1, pp. 0–5, 2021.

[14] I. Darmayanti, P. Subarkah, L. R. Anunggilarso, and J. Suhaman, “Prediksi Potensi Siswa Putus Sekolah Akibat Pandemi Covid-19 Menggunakan Algoritme K-Nearest Neighbor,” J. Sains Teknol., vol. 10, no. 2, pp. 230–238, 2021.

[15] S. Ulya, M. A. Soeleman, and F. Budiman, “Optimasi Parameter K Pada Algoritma K-NN Untuk Klasifikasi Prioritas Bantuan Pembangunan Desa,” Techno.Com, vol. 20, no. 1, pp. 83–96, 2021, doi: 10.33633/tc.v20i1.4215.

[16] R. Rahayu Marlis, Abdullah, and F. Yunita, “Sistem Prediksi Kualitas Kopra Putih Menggunakan k-Nearest Neighbor (k-NN),” Sist. J. Sist. Inf., vol. 10, no. 2, pp. 290–299, 2021, [Online]. Available: http://sistemasi.ftik.unisi.ac.id.

[17] A. A. Nababan, M. Khairi, and B. S. Harahap, “Implementation of K-Nearest Neighbors ( KNN ) Algorithm in Classification of Data Water Quality,” vol. 6, no. 36, pp. 30–35, 2022.

Referensi

Dokumen terkait

Berdasarkan hasil analisis dan pembahasan yang telah dilakukan pada dua metode klasifikasi yaitu k-nearest neighbors dalam mengklasifikasi 2 set data kain yaitu

Sistem ini menggunakan algoritma K-Nearest Neighbors dan 'ball tree' untuk mengidentifikasi buku yang paling mirip dengan buku yang dipilih oleh pengguna dan