View of ANALISIS KOMPARASI ALGORITMA C5.0 DAN NAIVE BAYES PENENTUAN PENERIMA BEASISWA UNIVERSITAS PRIMA INDONESIA

(1)

508

ANALISIS KOMPARASI ALGORITMA C5.0 DAN NAIVE BAYES PENENTUAN PENERIMA BEASISWA UNIVERSITAS PRIMA INDONESIA

Carolus Laberto Fantasy*¹⁾, Felix Luther Mateus Simanjuntak²⁾, Raja Levi Aldi Purba³⁾, Andrean⁴⁾, Oloan Sihombing⁵⁾

1,2,3,4,5 Fakultas Sains dan Teknologi, Universitas Prima Indonesia Medan

Email: [email protected]¹⁾, [email protected]²⁾, [email protected]³⁾, [email protected]⁴⁾, [email protected]⁵⁾

Abstract

In developing quality human resources, Prima Indonesia University offers a scholarship program to help with educational costs for outstanding students. This research aims to help solve the problem of scholarship recipient selection which requires in-depth analysis using data mining technology. In this research, the use of the C5.0 algorithm and Naive Bayes algorithms was compared in determining scholarship recipients at Prima Indonesia University. The research method involves research locations at Prima Indonesia University using scholarship student data for 2019-2022 as research objects. The research instrument includes the use of the Python programming language with Google Colab as an editor, the Windows 10 operating system, and hardware with certain specifications. Data collection involves observation, literature study, data cleaning, data mining, and exploratory data analysis. The results of research using and comparing the C5.0 and Naive Bayes algorithms show an accuracy of 98.62% and 91.37% respectively.

Evaluation involves precision, recall, F1, and confusion matrix values. In conclusion, the C5.0 algorithm is more accurate in determining scholarship eligibility than Naive Bayes, with accuracy increasing by around 8%. This research contributes to the development of data mining and predictive analysis in the context of determining scholarship recipients in higher education institutions.

Keywords: C5.0 algorithm, Naïve Bayes, Prima Indonesia University, Scholarship, Accuracy

1. PENDAHULUAN

Pendidikan tinggi merupakan salah satu faktor kunci dalam pembangunan sumber daya manusia yang berkualitas. Namun, biaya pendidikan yang tinggi seringkali menjadi hambatan bagi calon mahasiswa yang memiliki potensi akademik tinggi tetapi terkendala secara finansial [1], [2]. Oleh karena itu, banyak lembaga pendidikan tinggi, termasuk Universitas Prima Indonesia, menawarkan program beasiswa untuk membantu mahasiswa yang berprestasi namun kurang mampu secara ekonomi.

Penyeleksian penerima beasiswa merupakan proses yang krusial dan memerlukan analisis mendalam terhadap berbagai faktor dan kriteria untuk memastikan bantuan finansial diberikan kepada mereka yang benar-benar membutuhkan. Dalam konteks ini, teknologi data mining dan analisis prediktif telah membuktikan

diri sebagai alat yang efektif untuk membantu pengambilan keputusan yang cerdas dan akurat dalam berbagai domain [3], [4], termasuk penentuan penerima beasiswa.

Dalam konteks analisis data untuk penentuan penerima beasiswa, terdapat dua algoritma yang sering digunakan yaitu algoritma C5.0 dan Naive Bayes. Algoritma C5.0 merupakan merupakan penyempurnaan dari algoritma ID3 dan C4.5. Dalam proses pembentukan pohon keputusan nilai informasi gain tertinggi akan terpilih sebagai root bagi node selanjutnya [5]. Sementara itu, Naive Bayes adalah algoritma klasifikasi probabilitas yang berdasarkan teorema Bayes dengan asumsi sederhana yaitu independensi antar-fitur [6].

Perbandingan antara algoritma C5.0 dan Naive Bayes dalam penentuan penerima beasiswa belum banyak diteliti secara mendalam,

(2)

509

khususnya untuk konteks Universitas Prima Indonesia. Meskipun kedua algoritma ini telah digunakan dalam berbagai bidang, namun kemampuan dan performanya berbeda dalam kasus penentuan penerima beasiswa.

Dengan demikian, penelitian ini difokuskan pada analisis komparasi antara algoritma C5.0 dan Naive Bayes dalam konteks penentuan penerima beasiswa di Universitas Prima Indonesia. Melalui penelitian ini, akan diidentifikasi algoritma yang paling sesuai dan efektif untuk digunakan dalam proses seleksi penerima beasiswa. Penggunaan algoritma yang tepat akan membantu lembaga pendidikan tinggi dalam pengambilan keputusan yang lebih tepat dan akurat, sehingga bantuan finansial dapat diberikan kepada calon mahasiswa yang benar- benar berhak menerimanya. Selain itu, penelitian ini juga dapat memberikan kontribusi dalam pengembangan lebih lanjut tentang penerapan data mining dan analisis prediktif di bidang pendidikan.

2. METODE PENELITIAN 2.1. Lokasi Penelitian

Lokasi dari penelitian adalah Universitas Prima Indonesia beralamat Jl. Sampul No. 3, Medan Petisah, Kota Medan, Sumatera Utara.

Bahan Penelitian yang digunakan adalah data Mahasiswa Beasiswa tahun 2019 – 2022 sebagai objek yang diteliti.

2.2. Instrumen Penelitian

Berdasarkan latar belakang masalah yang telah penulis paparkan, maka pada penelitian ini membutuhkan bahan-bahan atau instrumen penelitian demi mendukung jalannya penelitian ini.

1) Kebutuhan Perangkat Lunak :

a. Bahasa Pemograman Python dengan menggunakan Google Collab sebagai editor b. Sistem Operasi Windows 10

2) Kebutuhan Perangkat Keras : a. Processor Intel (R) Core i3

b. Laptop yang memiliki kapasitas RAM 4096 MB (4 GB)

2.3. Pengumpulan Data

Pengumpulan data bertujuan untuk memperoleh informasi yang diperlukan dalam mendukung kebutuhan penelitian yang akan dilakukan. Dalam penelitian, penting untuk memiliki data yang dapat membuktikan keberadaan penelitian tersebut dan dapat dipertanggungjawabkan di masa depan. Beberapa metode umum pengumpulan data meliputi :

Gambar 1. Proses Penelitian 1) Observasi

Teknik observasi adalah metode yang umum digunakan dalam penelitian kualitatif.

Seiring perkembangan penelitian di dunia, teknik observasi telah lama didominasi oleh pengamatan visual, yang dianggap lebih unggul daripada pengamatan auditif yang kurang dilakukan.

Catatan lapangan sangat tergantung pada apa yang kita lihat secara visual, baik oleh peneliti maupun kamera sebagai alat bantu dalam mengamati [7].

2) Studi Literatur

Studi literatur adalah metode yang digunakan untuk mengumpulkan data atau sumber yang relevan dengan topik yang diangkat dalam penelitian. Dalam proses mencari

(3)

510

informasi, peneliti mengumpulkan informasi dari berbagai sumber seperti jurnal nasional, sitasi, buku, dan skripsi yang terkait dengan judul penelitian [8].

3) Data Cleaning

Data cleaning merupakan proses analisis data guna mengidentifikasi kesalahan dan inkonsistensi yang mungkin ada dalam database.

Dengan kata lain, tahap ini dikenal sebagai audit data, dimana berbagai jenis anomali dalam database akan ditemukan. Hasil dari tahap awal ini berupa indikasi mengenai kemungkinan adanya anomali dalam database [9].

4) Data Mining

Salah satu cara adalah menggunakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk secara otomatis menganalisis dan mengekstrak pengetahuan (knowledge). Definisi lainnya mengenai pembelajaran berbasis induksi adalah proses pembentukan definisi-definisi konsep umum dengan mengamati contoh-contoh spesifik dari konsep yang akan dipelajari. Knowledge Discovery in Databases (KDD) adalah penerapan metode saintifik pada data mining, di mana data mining merupakan langkah dalam proses KDD [10].

Beberapa teknik dan karakteristik data mining meliputi, yaitu klasifikasi [prediktif], klustering [deskriptif], penemuan aturan asosiasi [deskriptif], regresi [prediktif], deteksi deviasi [prediktif].

5) Exploratory Data Analysis (EDA)

Exploratory data analysis adalah suatu pendekatan yang digunakan untuk memahami cara menggambarkan data, hubungan antar data, makna data, dan batasan data yang ada dalam suatu sistem informasi. Selain itu, analisis data juga merupakan proses pengelolaan kumpulan data menjadi beberapa bagian guna menemukan informasi valid yang dapat digunakan sebagai dasar dalam pengambilan keputusan [11].

Berikut adalah beberapa penelitian terdahulu dengan menggunakan metode Naïve Bayes dan Algoritma C4.5 dengan judul untuk menentukan kelayakan penerima bantuan

program keluarga harapan dapat menyelesaikan masalah untuk memprediksi kelayakan warga PKH dengan hasil baik yaitu dengan menggunakan Algoritma C4.5 dengan dilakukan pengujian menggunakan tools RapidMiner, diperoleh hasil bahwa algoritma C4.5 menghasilkan akurasi sebesar 91,25% dan nilai AUC sebesar 0,930, dengan tingkat diagnosa excellent classification. Sementara itu, algoritma Naïve Bayes menghasilkan akurasi sebesar 87,11% dan nilai AUC sebesar 0,923, dengan tingkat diagnosa excellent classification juga [12].

3. HASIL DAN PEMBAHASAN

Penelitian ini bertujuan untuk membandingkan penerapan Algoritma C5.0 dan Naïve Bayes dalam pengujian, dengan tujuan untuk menentukan metode yang memiliki tingkat akurasi tertinggi.

3.1. Dataset

Pada penelitian ini dataset yang digunakan berasal dari informasi mahasiswa beasiswa. Dataset ini diambil dari tahun 2019 sampai 2022, informasi ini memiliki 5 kolom dan 9283 baris. Yang dimana informasi ini berisikan data mahasiswa yang memperoleh beasiswa.

Perinci dataset tersebut dapat dilihat pada tabel 1.

Tabel 1. Dataset Mahasiswa Beasiswa 2019 - 2022

Status Maha siswa

NIM Nama

Tem pat Lahi r

Ag am a

Ipk Seme ntara

Aktif

2233 0304 0313

Marchelina Chistina Manurung

Hau napit u

Pro test

an 3,77

Aktif

2233 0703 0099

Nova Ria Ovelti Sihotang

Dalu - Dalu

Pro test

an 3,86

Aktif

2233 0701 0027

Bagus Kurniawan

Bela wan

Isl

am 3,00

….. ….. ……. …. … …..

(4)

511

Aktif

1933 0304 0251

Gamaliel Armando Sembiring

Med an

Pro test

an 3,69

3.2. Data Pre-processing

Tahap awal proses data dalam analisis penelitian merupakan langkah penting yang melibatkan tindakan untuk membersihkan, mengubah, dan mengorganisir data sehingga dapat diolah dengan efisiensi dan keakuratan.

Proses ini mencakup beberapa langkah, seperti eksplorasi data, penanganan missing values (nilai yang hilang), penanganan outliers (data ekstrem), transformasi data, dan encoding variabel kategorikal. Tujuan dari tahap awal ini adalah untuk memastikan bahwa data yang digunakan dalam analisis selanjutnya telah terpenuhi kualitasnya dan siap untuk dianalisis secara lebih mendalam.

3.2.1. Data Selection

Tahap seleksi data dalam penelitian ini menjadi tahapan yang penting, yang melibatkan serangkaian langkah untuk memilih subset data yang relevan dan mewakili. Dalam konteks penelitian ini, kriteria untuk menentukan mahasiswa yang layak sebagai penerima beasiswa adalah mahasiswa yang telah mencapai semester 3 atau lebih, dan telah memenuhi standar IPK yang ditetapkan sebagai indikator prestasi di kampus. Sebaliknya, mahasiswa yang masih baru tidak memenuhi syarat untuk mendapatkan kelayakan beasiswa karena belum memiliki IPK sebagai ukuran prestasi.

Tujuan dari tahap seleksi data adalah untuk mengidentifikasi variabel-variabel yang paling relevan dan menghilangkan data yang tidak relevan, sehingga sesuai dengan tujuan penelitian dan kebutuhan analisis yang akan dilakukan. Berikut adalah langkah-langkah yang telah dilakukan oleh peneliti dalam proses seleksi data mahasiswa di Universitas Prima Indonesia.

3.2.2. Memeriksa Nilai Kosong (Missing Values)

Proses ini memungkinkan peneliti untuk mengidentifikasi dan menangani kekosongan data yang dapat mempengaruhi hasil analisis.

Dalam tahap pemeriksaan missing values, setiap variabel dalam dataset diperiksa untuk mencari nilai yang hilang. Jika nilai yang hilang ditemukan, peneliti harus mengambil langkah- langkah yang tepat untuk menangani kekosongan tersebut.

Pada penelitian ini, peneliti menemukan adanya nilai kosong seperti yang tercantum dalam tabel 2.

Tabel 2. Hasil Pemeriksaan Nilai Kosong Nama Atribut Nilai Kosong

NIM 33

Penghasilan Orang Tua Per Bulan 0

Prestasi Akademik 582

Kategori Absensi 0

Tempat Tinggal 1

Setelah menemukan data yang kosong, peneliti melakukan penghapusan Nilai Kosong pada atribut tempat tinggal dan juga pada prestasi akademik untuk setiap mahasiswa yang belum memiliki prestasi akademik, yaitu mahasiswa yang baru mendaftar dan belum memiliki nilai IPK. Namun, terkait atribut NIM, peneliti tidak melakukan tindakan apapun karena atribut NIM digunakan sebagai kode unik untuk setiap data mahasiswa. Setelah melalui proses seleksi dan eliminasi data yang kosong, jumlah dataset yang tersisa adalah sebanyak 8700.

3.2.3. Data Transformation

Tahap ini melibatkan penentuan kategori yang sesuai untuk setiap data dalam dataset, sesuai dengan kategori yang telah ditetapkan sebelumnya. Dalam jurnal penelitian ini, terdapat dua jenis data yang digunakan, yaitu data kategorikal dan data numerik. Karena perbedaan jenis data tersebut, penyesuaian perlu dilakukan untuk menyamakan formatnya. Berikut ini adalah langkah-langkah transformasi data yang dilakukan oleh peneliti pada dataset.

(5)

512

Tabel 3. Atribut Prestasi Akademik Prestasi

Akadem ik

Katego ri

Numerik al

Jumla h Data

Nilai Bobo

t (40

%) 0.00 –

1.99

Tidak

Bagus 3 249 25

2.00 – 2.75

Cukup

Bagus 4 152 50

2.76 – 3.24

Bagus

2 1443 75

3.25 – 3.79

Sangat

Bagus 0 4733

3.80 – 100 4.00

Dengan

Pujian 1 2123

Tabel 4. Atribut Absensi Katego

ri Absensi

Katego ri

Numerik al

Jumla h Data

Nilai Bobo

t (25%

)

0-10 Rendah 0 8524 100

11-20 Sedang 1 109 75

21-30 Tinggi 2 36 50

31-100 Sangat

Tinggi 3 31 25

Tabel 5. Atribut Penghasilan Orang Tua Perbulan Kategorikal Numerikal Jumlah

Data

Nilai Bobot (20%) Tidak

ada/Tidak diketahui

2 1513

100

< Rp.500.000 5 425 Rp.500.000 –

Rp.999.999 4 801

Rp.1.000.000 –

Rp.1.999.999 1 1806 75

Rp.2.000.000 –

Rp.4.999.999 0 2777 50

Rp.5.000.000 –

Rp.20.000.000 3 1145

Lebih dari > 25

Rp.20 Juta 6 233

Tabel 6. Atribut Data Tempat Tinggal

Jenis Tempat Tinggal

Kategori kal

Numeri kal

Juml ah Data

Nilai Bob ot (15

%) Bersama

orang tua, Wali dan lainnya

Rumah

Sendiri 0 7173 50

Kost, Asrama dan Panti asuhan

Kost/Kon

trakan 1 1527 100

3.2.4. Mengidentifikasi Atribut

Dalam penelitian ini, dilakukan identifikasi terhadap atribut tujuan yang berhubungan dengan kelayakan mahasiswa untuk mendapatkan beasiswa. Karena tidak ada atribut yang sesuai dengan kebutuhan penelitian, maka dibuatlah atribut baru sebagai atribut tujuan dengan beberapa kondisi sebagai penentu dalam pembuatannya. Untuk mengimplementasikan proses ini, digunakan rumus berikut yang nantinya akan diubah ke dalam bahasa Python seperti berikut:

𝐾𝑒𝑙𝑎𝑦𝑎𝑘𝑎𝑛 𝐵𝑒𝑎𝑠𝑖𝑠𝑤𝑎

= 𝑖𝑓 𝑝𝑒𝑛𝑔ℎ𝑎𝑠𝑖𝑙𝑎𝑛 𝑜𝑟𝑎𝑛𝑔 𝑡𝑢𝑎 𝑝𝑒𝑟 𝑏𝑢𝑙𝑎𝑛

≤ 𝑅𝑝. 999.999 && 𝑡𝑒𝑚𝑝𝑎𝑡 𝑡𝑖𝑛𝑔𝑔𝑎𝑙 =

= 𝐾𝑜𝑠𝑡 𝑎𝑡𝑎𝑢 𝑘𝑜𝑛𝑡𝑟𝑎𝑘𝑎𝑛 & 𝑃𝑟𝑒𝑠𝑡𝑎𝑠𝑖 𝐴𝑘𝑎𝑑𝑒𝑚𝑖𝑘

≥ 3.25 & 𝐴𝑏𝑠𝑒𝑛𝑠𝑖

≤ 10 𝑡ℎ𝑒𝑛 "Pantas" else if " Tidak Pantas"

(1 )

Setelah rumus tersebut diaplikasikan, akan terbentuk atribut baru yang dinamakan

"kelayakan beasiswa" yang memiliki dua nilai, yaitu "pantas" dan "tidak pantas". Selanjutnya, dilakukan proses encoding untuk mengubah nilai-nilai kategorikal pada data menjadi nilai numerikal. Hasil dari proses ini dapat dilihat dalam tabel di bawah ini:

Tabel 7. Hasil Kategori Kelayakan Beasiswa Kategorikal Numerikal Jumlah

Pantas 0 664

Tidak Pantas 1 8036

(6)

513

3.2.5. Bobot Setiap Kolom Atribut

Dalam lingkup penelitian ini, setiap kolom atribut yang akan digunakan akan diberi nilai bobot sesuai dengan nilai yang telah ditetapkan pada awal penelitian. Detail bobot untuk setiap variabel dapat ditemukan dalam tabel berikut:

Tabel 8. Bobot Setiap Kolom Atribut

Kolom Atribut Bobot

Penghasilan Orang tua per bulan

20%

tempat tinggal 15 %

Prestasi Akademik 40%

Absensi 25%

Dalam penentuan kelayakan beasiswa, terdapat beberapa Atribut yang diukur dengan skala tertentu dan diberi bobot untuk menunjukkan tingkat pentingnya masing-masing dalam proses penilaian. Berikut adalah kriteria dan bobot yang digunakan dalam menghitung nilai kelayakan beasiswa (dalam skala 0 hingga 100) berdasarkan Atribut tersebut:

1) Prestasi Akademik:

a. Skala: 25-100 (nilai rata-rata atau IPK).

b. Bobot: 40% (menunjukkan tingkat pentingnya prestasi akademik dalam penilaian kelayakan beasiswa).

2) Penghasilan Orang Tua per bulan:

a. Skala: 25-100 (menunjukkan rendah tingginya penghasilan orang tua).

b. Bobot: 20% (menunjukkan tingkat pentingnya penghasilan orang tua dalam penilaian kelayakan beasiswa).

3) Jenis Tempat Tinggal:

a. Skala: 50-100 (Rumah Kontrakan (0), Rumah Pribadi (1)).

b. Bobot: 15% (menunjukkan tingkat pentingnya jenis tempat tinggal dalam penilaian kelayakan beasiswa).

4) Jumlah Absensi:

a. Skala: 25-100 (persentase kehadiran dalam satu semester).

b. Bobot: 25% (menunjukkan tingkat pentingnya jumlah absensi dalam penilaian kelayakan beasiswa).

Berdasarkan bobot yang telah ditetapkan, nilai kelayakan beasiswa akan dihitung sesuai dengan aturan yang telah disusun.

3.3. Exploratory Data Analysis (EDA)

Pada tahap ini, peneliti menerapkan Exploratory Data Analysis (EDA) untuk memastikan tidak adanya anomali pada dataset setelah melalui tahap transformasi data. EDA melibatkan pengecekan outlier, analisis distribusi data, serta penilaian korelasi antar variabel dalam dataset. Untuk lebih detail dapat dilihat pada gambar dibawah ini:

Gambar 2. Heatmap Korelasi Data Dalam heatmap analisis di atas, semakin intensitas warnanya semakin tinggi korelasinya, dan setiap variabel menunjukkan hubungan korelasi dengan variabel lainnya. Tidak ditemukan adanya nilai anomali, dan korelasi terendah terlihat antara prestasi akademik dan kelayakan beasiswa, yakni sekitar 0.15 atau mendekati 0 (korelasi sangat lemah). Hasil ini menunjukkan bahwa tidak ada hubungan linier yang signifikan antara prestasi akademik dan kelayakan beasiswa.

3.4. Penerapan dan perbandigan Algoritma C5.0 dan Naïve Bayes

Pada tahap ini, sebelum menjalankan algoritma, perlu dilakukan identifikasi terhadap

(7)

514

tujuan dan karakteristik yang akan digunakan dalam proses pengolahan data. Setelah fitur dan target ditentukan, langkah selanjutnya adalah membagi dataset menjadi data training dan data testing. Proporsi pembagian data yang digunakan adalah 80% untuk data training dan 20% untuk data testing. Jumlah total data yang terbagi mengacu pada keseluruhan jumlah data yang tersedia setelah praproses dan transformasi data selesai dilakukan, hasil dari kode tersebut akan menghasilkan pembagian data sebagai berikut:

Tabel 8. Jumlah Pembagian Data Atribut Jumlah

Data

Data Training (80%)

Data Testing (20%)

Pantas 664 531 133

Tidak pantas

8036 6429 1607

Total 8700 6960 1740

Gambar di bawah ini menampilkan diagram Use Case yang secara komprehensif menggambarkan implementasi algoritma C5.0 dan Naïve Bayes mulai dari tahap awal hingga akhir, termasuk proses mendapatkan hasil prediksi dan perbandingan. Rincian visualisasi dapat dilihat pada gambar berikut:

Gambar 3. Diagaram Use Case

3.4.1. Implementasi Algoritma C5.0

Algoritma C5.0 adalah penyempurnaan dari algoritma C4.5, yang pada dasarnya merupakan pengembangan dari algoritma ID3.

C5.0 merupakan algoritma klasifikasi yang cocok untuk digunakan pada dataset yang besar.

Algoritma C5.0 menunjukkan performa yang lebih baik dibandingkan C4.5 dalam hal kecepatan proses, penggunaan memori, dan efisiensi. Algoritma C5.0 bekerja dengan memisahkan sampel berdasarkan atribut yang memberikan informasi. Algoritma ini dapat menangani atribut baik yang bersifat diskrit maupun kontinu, dan proses ini akan berlanjut hingga tidak memungkinkan lagi untuk membagi sampel. Dalam pemilihan atribut, algoritma C5.0 menggunakan informasi gain. Atribut dengan nilai gain tertinggi akan dipilih sebagai akar untuk node berikutnya. Nilai gain terbesar yang diperoleh dari atribut pada dataset awal akan digunakan untuk mencari atribut yang cocok sebagai akar pohon keputusan (decision tree).

Proses ini akan diulang untuk mencari atribut yang menjadi cabang hingga mencapai leaf yang merupakan label kelas. Untuk mendapatkan informasi tentang nilai subset, penelitian ini menggunakan persamaan yang direpresentasikan dalam rumus berikut [10], [12]–[15].

E(A) = ∑ (S_ij + ... + S_mj) / S * I(S_ij, ..., S_mj)

(2) Dalam rumus tersebut:

a. E(A) adalah informasi yang dihasilkan dari atribut A.

b. S_ij, ..., S_mj adalah jumlah subset J yang dibagi dengan jumlah sampel S.

Selanjutnya, untuk menghitung nilai gain, digunakan formula berikut:

Gain(A) = I(S_1, S_2, ..., S_m) - E(A) (3) Dalam rumus tersebut:

a. A adalah atribut yang dievaluasi.

b. S adalah himpunan kasus.

c. S1 adalah jumlah sampel.

Setelah mendapatkan nilai gain ratio tertinggi, nilai tersebut akan digunakan sebagai simpul pada pohon keputusan yang akan

(8)

515

dibangun. Pohon keputusan ini akan menghasilkan score matriks yang akan digunakan untuk perhitungan nilai akurasi, seperti yang terlihat di bawah ini:

Accuracy = (TP + TN) / (TP + TN + FP + FN) * 100%

(4) Accuracy =

(121+1712)/(121+1712+0+24) x100%

Accuracy = 0. 9862= 98,62%

Berdasarkan perhitungan yang dilakukan, diperoleh bahwa nilai akurasi dari pengujian klasifikasi menggunakan algoritma C5.0 adalah sebesar 98,62%.

3.4.2. Implementasi Naïve Bayes

Hasil klasifikasi menggunakan algoritma Naïve Bayes menunjukkan tingkat akurasi sebesar 90,46%. Untuk menjelaskan lebih detail, terdapat 126 true positive (TP), 1464 true negative (TN), tidak ada false positive (FP), dan 150 false negative (FN). True dan True Tidak merepresentasikan kelas atau nilai asli, sementara prediksi YA dan prediksi tidak merepresentasikan kelas atau nilai prediktif.

Class Precision digunakan untuk mengukur tingkat ketepatan antara informasi yang diminta oleh pengguna dengan hasil prediksi yang diberikan oleh sistem. Sementara itu, class recall digunakan untuk mengevaluasi hasil prediksi informasi yang diberikan oleh sistem. Algoritma Naïve Bayes dapat dihitung menggunakan rumus berikut [13], [16], [17]:

Accuracy = (TP + TN) / (TP + TN + FP + FN) * 100%

(5) Accuracy = (126 + 1464) / (126 +

1464 + 0 + 150) * 100%

Accuracy = 0.913793 = 91,37%

Berdasarkan perhitungan yang dilakukan, diperoleh bahwa nilai akurasi dari pengujian klasifikasi menggunakan algoritma Naive Bayes adalah 91,37%.

3.5. Nilai Precision, Recall, F1, Support

Untuk mengukur performa dari setiap model algoritma yang digunakan, kita dapat melihat nilai presisi (precision), recall, f1, dan support. Berikut adalah hasil performa dari

masing-masing algoritma yang telah dijelaskan dalam tabel berikut [18]–[20] :

Tabel 9. Nilai Precision, Recall, F1 Beserta Support Dari Algoritma C5.0

Precision Recall F1- score

Support

0 0.84 1.00 0.91 126

1 1.00 0.99 0.99 1614

Accuracy 0.99 1740

Macro Avg

0.92 0.99 0.95 1740

Weighted Avg

0.99 0.99 0.99 1740

Tabel 10. Nilai Precision, Recall, F1 Beserta Support Dari Naïve Bayes

Precision Recall F1- score

Support

0 0.46 1.00 0.63 121

1 1.00 0.91 0.95 1614

Accuracy 0.91 1740

Macro Avg

0.73 0.95 0.79 1740

Weighted Avg

0.96 0.91 0.93 1740

3.6. Confussion Matrix

Selanjutnya, untuk melakukan evaluasi yang lebih mendalam terhadap performa dari setiap algoritma, kita dapat melihat hasil Confussion Matrix dari kedua algoritma yang digunakan pada gambar di bawah ini:

Gambar 4. Conffusion Matrix Naïve Bayes

(9)

516

Gambar 5. Conffusion Matrix Algoritma C5.0 Berikut adalah informasi hasil Confusion Matrix dari kedua algoritma yang digunakan:

1) Hasil Confusion Matrix Naïve Bayes

a. Terdapat 121 prediksi benar positif (true positive).

b. Tidak ada prediksi salah positif (false positive).

c. Terdapat 177 prediksi salah negatif (false negative).

d. Terdapat 1559 prediksi benar negatif (true negative).

2) Hasil Confusion Matrix C5.0

a. Terdapat 121 prediksi benar positif (true positive).

b. Tidak ada prediksi salah positif (false positive).

c. Terdapat 24 prediksi salah negatif (false negative).

d. Terdapat 1712 prediksi benar negatif (true negative).

4. KESIMPULAN

Setelah menetapkan fitur dan target, dataset dibagi menjadi data training dan data testing dengan proporsi 80% untuk data training dan 20% untuk data testing. Algoritma C5.0 merupakan pengembangan dari C4.5 dan peningkatan dari ID3. Algoritma C5.0 dan Naïve Bayes merupakan algoritma klasifikasi yang

cocok untuk dataset yang besar. Algoritma C5.0 dapat menangani atribut baik yang bersifat diskrit maupun kontinu dan proses ini berlanjut hingga tidak memungkinkan lagi untuk membagi sampel.

Hasil klasifikasi menggunakan algoritma C5.0 memiliki tingkat akurasi sebesar 98,62%, sedangkan Naïve Bayes memiliki akurasi sebesar 91,37%. Berdasarkan perbandingan hasil, terlihat bahwa akurasi algoritma C5.0 meningkat sekitar 8% dibandingkan dengan Naïve Bayes dalam konteks penelitian ini. Sehingga, dapat disimpulkan bahwa algoritma C5.0 memberikan hasil yang lebih akurat dalam menentukan kelayakan mahasiswa untuk mendapatkan beasiswa.

5. REFERENSI

[1] C. Budisaputro, “Analisa Perancangan Sistem Pendukung Keputusan Penentuan Penerima Beasiswa Dengan Metode Analytical Hierarchy Process (Studi Kasus : STIKES BHAKTI HUSADA MULIA),” DoubleClick J. Comput. Inf.

Technol., vol. 1, no. 2, p. 52, 2018, doi:

10.25273/doubleclick.v1i2.2144.

[2] Ghefira Nur Kahfi, Sudarwanto, and Siti Rohmah Rohimah, “Analisis Sensitivitas terhadap Metode WP dan VIKOR dalam Pengambilan Keputusan Penentuan Penerima Beasiswa di UNJ,” JMT J. Mat.

dan Terap., vol. 4, no. 1, pp. 1–10, 2022, doi: 10.21009/jmt.4.1.1.

[3] S. P. Tamba, A. W. Tan, Y. Gunawan, and ..., “Penerapan Data Mining Untuk Pembuatan Paket Promosi Penjualan Menggunakan Kombinasi Fp-Tree Dan Tid-List,” … (Teknik Inf. dan …, vol. 4, 2021.

[4] W. Purba, S. Tamba, and J. Saragih, “The effect of mining data k-means clustering toward students profile model drop out potential,” J. Phys. Conf. Ser., vol. 1007, no. 1, p. 12049, 2018, [Online]. Available:

http://stacks.iop.org/1742- 6596/1007/i=1/a=012049

[5] P. W. Kastawan, D. M. Wiharta, and M.

(10)

517

Sudarma, “Implementasi Algoritma C5.0 pada Penilaian Kinerja Pegawai Negeri Sipil,” Maj. Ilm. Teknol. Elektro, vol. 17, no. 3, p. 371, 2018, doi:

10.24843/mite.2018.v17i03.p11.

[6] S. Eka et al., “Penerapan Model Naive Bayes Untuk Memprediksi Potensi,” vol.

1, no. 1, pp. 82–87, 2021.

[7] I. Ichsan and A. Ali, “Metode Pengumpulan Data Penelitian Musik Berbasis Observasi Auditif,” Musik. J.

Pertunjuk. dan Pendidik. Musik, vol. 2, no. 2, pp. 85–93, 2020, doi:

10.24036/musikolastika.v2i2.48.

[8] D. Parinata and N. D. Puspaningtyas,

“Studi Literatur: Kemampuan Komunikasi Metematis Mahasiswa Pada Materi Integral,” J. Ilm. Mat. Realis. (JI- MR, vol. 3, no. 2, p. 94, 2022.

[9] N. P. A. Widiari, I. M. A. D. Suarjaya, and D. P. Githa, “Teknik Pengolahan Data Cleaning,” J. Ilm. Merpati (Menara Penelit. Akad. Teknol. Informasi), vol. 8, no. 2, p. 137, 2020.

[10] J. Eska, “Penerapan Data Mining Untuk Prekdiksi Penjualan Wallpaper Menggunakan Algoritma C4.5 STMIK Royal Ksiaran,” JURTEKSI (Jurnal Teknol. dan Sist. Informasi), vol. 2, pp. 9–

13, 2016.

[11] D. T. Husni et al., “Analisis Big Data Penjualan Video Games Mengunakan Eda,” J. Tek. Inf. dan Komput., vol. 5, no.

1, p. 43, 2022, doi:

10.37600/tekinkom.v5i1.517.

[12] E. Fitriani, “Perbandingan Algoritma C4.5 Dan Naïve Bayes Untuk Menentukan Kelayakan Penerima Bantuan Program Keluarga Harapan,”

Sistemasi, vol. 9, no. 1, p. 103, 2020, doi:

10.32520/stmsi.v9i1.596.

[13] F. Narti, “JTIM : Jurnal Teknologi Informasi dan Multimedia Perbandingan Algoritma C4 . 5 dan Naive Bayes dalam Klasifikasi Tingkat Kepuasan Mahasiswa Terhadap Pembelajaran Daring,” vol. 4, no. 1, 2022.

[14] C. Anam and H. B. Santoso,

“Perbandingan Kinerja Algoritma C4 . 5 dan Naive Bayes untuk Klasifikasi Penerima Beasiswa,” vol. 8, no. 1, pp. 13–

19, 2018.

[15] E. Hasmin and S. Aisa, “Penerapan Algoritma C4.5 Untuk Penentuan Penerima Beasiswa Mahasiswa Application of C4.5 Algorithm For Determining Student Scholarship Recipients,” Cogito Smart J. |, vol. 5, no.

2, pp. 308–320, 2019.

[16] T. A. Tutupoly and I. Alfarobi,

“Komparasi Algoritma C4.5 dan Naive Bayes yang Dikembangkan menjadi Web Intellegence pada Perhitungan Bonus Tahunan Karyawan di PT. ABC,” J. Mitra Pendidik., vol. 3, no. 1, pp. 11-2292–103, 2019.

[17] S. N. Khasanah, “Komparasi algoritma c4.5 dan naive bayes untuk menganalisa kelayakan pengajuan kredit,” J. Mantik Penusa, vol. 3, no. 3, pp. 94–98, 2019.

[18] L. A. Andika, P. A. N. Azizah, and R.

Respatiwulan, “Analisis Sentimen Masyarakat terhadap Hasil Quick Count Pemilihan Presiden Indonesia 2019 pada Media Sosial Twitter Menggunakan Metode Naive Bayes Classifier,” Indones.

J. Appl. Stat., vol. 2, no. 1, p. 34, 2019, doi: 10.13057/ijas.v2i1.29998.

[19] W. Hidayat, M. Ardiansyah, and A.

Setyanto, “Pengaruh Algoritma ADASYN dan SMOTE terhadap Performa Support Vector Machine pada Ketidakseimbangan Dataset Airbnb,”

Edumatic J. Pendidik. Inform., vol. 5, no.

1, pp. 11–20, 2021, doi:

10.29408/edumatic.v5i1.3125.

[20] E. Dwi Pratama, “Implementasi Model Long-Short Term Memory (LSTM) pada Klasifikasi Teks Data SMS Spam Berbahasa Indonesia,” J. Mach. Learn.

Comput. Intell., vol. 1, no. 2, pp. 38–42, 2022.