Analisis Perbandingan Kinerja Algoritma Klasifikasi dengan Menggunakan Metode K-Fold Cross Validation

(1)

DOI: 10.30865/mib.v6i4.4681

Analisis Perbandingan Kinerja Algoritma Klasifikasi dengan Menggunakan Metode K-Fold Cross Validation

Ritham Tuntun^*, Kusrini, Kusnawi

Fakultas Ilmu Komputer, Program Studi Magister Teknik Informatika, Universitas AMIKOM Yogyakarta, Yogyakarta, Indonesia

Email: ^1,*rithamtuntun10@gmail.com, ²kusrini@amikom.ac.id,^3,khusnawi@amikom.ac.id Email Penulis Korespondensi: rithamtuntun10@email.com

Abstrak−Pada penelitian ini bertujuan untuk membandingkan kinerja dari dua algoritma data mining klasifikasi yaitu algoritma K-Nearest Neighbor, dan C4.5 dengan menggunakan metode K-fold cross validation. Data yang digunakan pada penelitian ini yaitu data publik iris dengan jumlah 150 data dan target klas berjumlah 3 label yaitu iris-setosa, iris-versicolor, dan iris-virginica. Data training yang digunakan sebesar 97% atau 145 data dari 150 data, dan data testing yang digunakan sebesar 3% atau 5 data, dan jumlah K pada K-fold cross validation sebesar 30 atau 30 kali tahap percobaan. Hasil penelitian yaitu diperoleh kinerja algoritma K-Nearest Neighbor sebesar 95,33%, recall sebesar 95,33%, dan presisi sebesar 96,27%.

Sedangkan algoritma C4.5 memperoleh akurasi sebesar 96,00%, recall sebesar 94,44%, dan presisi sebesar 93,52%.

Kata Kunci: K-Nearest Neighbor; C4.5; Cross validation; Klasifikasi; Data mining

Abstract−This study aims to compare the performance of two classification data mining algorithms, namely the K-Nearest Neighbor algorithm, and C4.5 using the K-fold cross validation method. The data used in this study are iris public data with a total of 150 data and 3 label target classes, namely iris-setosa, iris-versicolor, and iris-virginica. The training data used is 97%

or 145 data from 150 data, and the testing data used is 3% or 5 data, and the number of K in the K-fold cross validation is 30 or 30 times the experimental stage. The results showed that the performance of the K-Nearest Neighbor algorithm was 95.33%, recall was 95.33%, and precision was 96.27%. While the C4.5 algorithm obtained an accuracy of 96.00%, recall of 94.44%, and precision of 93.52%.

Keywords: K-Nearest Neighbor; C4.5; Cross validation; Classification; Data mining

1. PENDAHULUAN

Data mining adalah suatu istilah yang digunakan untuk memecah atau membagi-bagi suatu penemuan pengetahuan dalam suatu kumpulan data. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai kumpulan data yang besar. Dalam data mining terdapat algoritma klasifikasi yang bertujuan untuk mengelompokan data berdasarkan terget variabel yang sudah ada atau memang ada [1]. Algoritma klasifikasi terbagi atas beberapa algoritma yang dua diantaranya yaitu algoritma K-NEAREST NEIGHBOR (K-NN) dan algoritma C4.5. Algoritma K-NEAREST NEIGHBOR adalah algoritma klasifikasi yang bekerja dengan cara mengelompokan data baru berdasarkan jarak data tersebut terhadap jarak beberapa data training terdekat atau data tetangga (Neighbor). Klasifikasi data baru bergantung pada jumlah klasifikasi data terdekat dengan data baru tersebut [2]. Alur algoritma yang dilakukan pada metode K-NN untuk memprediksi class adalah dengan cara menghitung similarity antara data yang baru dengan data yang telah ada dan telah klasifikasikan. Dengan kata lain metode ini bekerja berdasarkan data baru kepada data yang telah ada atau data training. [3]. Jadi algoritma K-NN menentukan hasil klasifikasi berdasarkan klasifikasi data dampau terdekat yang memiliki jumlah terbanyak. Sedangkan Algoritma C4.5 menentukan hasil klasifikasi berdasarkan pohon keputusan yang dibentuk dengan menggunakan data lampau. Algoritma C4.5 adalah supervised learning, maka memerlukan pra-klasifikasi variabel yang menjadi sasaran. Sekumpulan data latih harus dilakukan persiapan untuk membentuk algoritma yang memiliki nilai-nilai variabel target. Pada algoritma ini dievaluasi semua atribut dengan menggunakan ukuran statistik dalam bentuk information gain dan perhitungan entropy. Information gain adalah informasi atau ukuran efektivitas pada atribut dalam data classification [4]. Cross validation atau estimasi rotasi merupakan suatu teknik validasi model untuk menilai dan mengetahui berapa hasil statistik analisis yang akan menggeneralisasi himpunan data independen. Teknik dari cross validation adalah k-fold cross validation, dimana memecah data menjadi ‘k’ bagian set data dengan ukuran yang sama. Penggunaan k-fold cross validation untuk menghilangkan bias pada data. Training data dan testing data dilakukan sebanyak jumlah k yang ditentukan [5].

Penelitian ini akan memecah data menjadi 30 jumlah ‘k’, kemudian melakukan training data dan testing data.

Tujuan penggunaan k-fold cross validation pada proses training dan testing adalah untuk melakukan percobaan sebanyak jumlah ‘k’ sehingga memperoleh hasil kinerja yang mungkin dihasilkan pada setiap kemungkinan percobaan yang dilakukan terhadap dataset. Penelitian ini bertujuan untuk melakukan perbandingan kinerja pada algoritma K-NN dengan algoritma C4.5 dengan menggunakan metode Cross validation dengan jumlah ‘k’

sebanyak 30.

Penelitian dengan tujuan melakukan perbandingan algoritma K-NN dan algoritma C4.5 juga pernah dilakukan [3] dalam penelitian tersebut dilakukan perbandingan algoritma K-NN dan algoritma C4.5 lalu melakukan komparasi hasil evaluasi kinerja kedua algoritma tersebut dengan mempertimbangkan nilai accuracy klasifikasi metode tersebut. Hasil dari penelitian tersebut yaitu setelah ditambahkan fitur seleksi Forward

(2)

selection, algoritma C4.5 memperoleh tingkat akurasi sebesar 96.66%, sedangkan algortima K-NN memperoleh tingkat akurasi sebesar 98.34%. maka diketahui algoritma K-NN lebih unggul jika menggunakan fitur forward selection pada kasus data mahasiswa yang berpotensi drop out. Penelitian yang hampir serupa juga pernah dilakukan [6] penelitian tersebut juga melakukan perbandingan algoritma K-NN dan C4.5 tapi data yang digunakan adalah data-data nasabah peminjam pada koperasi. Penelitian tersebut bertujuan untuk mengetahui teknik atau algoritma manakah yang lebih unggul dalam melakukan dan memecahkan permasalahan tentang kredit macet yaitu dengan cara melakukan perbandingan nilai accuracy kedua algoritma itu. Hasil dari penelitian ini adalah diperoleh kinerja algoritma K-NN mendapatkan nilai akurasi sebanyak 45,21% sedangkan Algoritma C4.5 mendapatkan nilai akurasi sebanyak 61,64%. Maka dapat disimpulkan metode C4.5 lebih baik dibandingkan metode K- NEAREST NEIGHBOR pada studi kasus penelitian ini. Perbedaannya terletak pada data yang digunakan yaitu data nasabah peminjam di koperasi, serta metode validasi pengujiannya.

Selanjutnya penelitian yang dilakukan [7] yaitu melakukan perbandingan algoritma data mining seperti algoritma C4.5, naïve bayes, K-NEAREST NEIGHBOR, dan SVM dengan menggunakan data untuk prediksi nilai dan waktu kelulusan mahasiswa prodi teknik informatika. Tujuannya yaitu Menerapkan algoritma data mining serta membandingkan kinerja dari algoritma-algoritma tersebut. Pengujian kinerja algoritma menggunakan teknik atau metode Confusion matrix. Ukuran kinerja yang digunakan sebagai pertimbangan adalah akurasi, error, AUC, ROC. Pada penelitian tersebut didapatkan hasil perbandingan bahwa algoritma Naïve bayes lebih unggul karena memiliki tingkat kinerja yang paling baik pada semua kategori kinerja dengan nilai akurasi sebesar 76,79%, error hanya sebesar 23,17%, dan AUC sebesar 0,850. Selanjutnya diikuti algoritma C4.5 dengan nilai akurasi sebesar 75,96%, algortima SVM dengan nilai akurasi sebesar 74,04%, dan yang terakhir ada algoritma K-NEAREST NEIGHBOR dengan nilai akurasi sebesar 68,05%.

Penelitian dengan tujuan perbandingan algoritma data mining juga pernah dilakukan [8] penelitian yang bertujuan untuk membandingkan kinerja dari algoritma klasifikasi seperti algoritma C4.5, Random Forest, SVM, dan naive bayes serta data yang digunakan yaitu data peserta JISC yang dengan jumlah 200 data. Hasil penelitian ini yaitu akurasai algoritma C4.5, Random Forest, SVM dan Naive bayes pada dataset kegiatan pramuka Jogja International Scout Camp (JISC) Provinsi Sumatera Utara tahun 2020 yaitu algoritma C4.5 didapatkan akurasi sebesar 86,67%, Pada algoritma Random Forest didapatkan akurasi sebesar 83,33%, Pada algoritma SVM didapatkan akurasi sebesar 95%, Pada algoritma Naive bayes didapatkan akurasi sebesar 86,67%, maka diketahui abhwa akurasi algoritma yang memiliki nilai paling tinggi adalah pada algoritma SVM dan paling kecil adalah pada algoritma random forest.

Penelitian tentang perbandingan algoritma data mining juga pernah dilakukan [9] yaitu penelitian yang bertujuan untuk mengetahui kinerja algoritma mana yang lebih baik diantara lima algoritma data mining seperti decision tree, Naïve bayes, k-nearest neighbour, ID3, dan CHAID dengan menggunakan uji test dan tools yang digunakan adalah rapid miner. Rapidminer adalah suatu platform atau software untuk Data Science yang dikembangkan oleh perusahaan Rapid miner, yang menyediakan lingkungan terpadu untuk Machine learning, deep learning, text mining, dan analisis prediktif. Aplikasi biasa digunakan sebagai aplikasi untuk kebutuhan bisnis dan komersil ataupun dengan tujuan untuk penelitian, pendidikan, pelatihan, membuat prototype dengan cepat, dan development software, serta mendukung langka-langkah dalam proses machine learning termasuk persiapan data, visualisasi hasil, validasi dan pengoptimalan [10] sehingga dapat mengetahui performa yang baik dari algoritma-algoritma tersebut. Hasil penelitian tersebut yaitu hasil tertinggi dari nilai akurasi sebesar sebesar 85.00% yaitu algoritma K-NEAREST NEIGHBOR. sedangkan untuk nilai AUC sebesar 0.758 untuk algoritma Chaid. dan dari asil uji t-test yang dilakukan bahwa algoritma id3, chaid dan Naive bayes merupakan algoritma dengan performa terbaik yang diterapkan pada dataset blogger.

Selanjutnya penelitian yang dilakukan [11] dengan tujuan untuk mengetahui metode dengan tingkat kinerja akurasi yang paling tinggi dalam studi kasus klasifikasi karyawan sesuai kriteria. Hasil dari penelitian tersebut yaitu diperoleh metode C4.5 mempunyai nilai akurasi 73,33 %, K-NN mempunyai nilai akurasi 70 %, naive bayes mempunyai nilai akurasi sebesar 80 %. Sehingga dari ketiga metode tersebut maka diperoleh algoritma yang paling tepat yang digunakan yaitu Naive bayes karena memiliki nilai akurasi paling tinggi.

Selain penelitian yang berfokus perbandingan algoritma data mining, ada beberapa penelitian yang membahas tentang penggunaan metode cross validation seperti yang dilakukan [12] dengan tujuan menggunakan metode pengujian algoritma Cross validation untuk membandingkan algoritma data mining K-NN dan Naive bayes. Hasil dari penelitian tersebut yaitu diperoleh rata-rata akurasi sistem ketika menggunakan K-NN sebesar 63,68 % dan standar deviasi 7,47. Sedangkan ketika diterapkan naive bayes classifier dihasilkan rata-rata akurasi sistem sebesar 79,71 % dan standar deviasi 3,55%. Dengan demikian naive bayes classifier akurasi sistem dalam melakukan klasifikasi lebih baik dibandingkan dengan K-NN.

Selanjutnya penelitian yang dilakukan [13] tentang implementasi algoritma data mining C4.5 dalam melakukan klasifikasi ketepatan waktu kelulusan pada mahasiswa penerima bidikmisi. Dapat diketahui bahwa tingkat kinerja algoritma C4.5 dapat mencapai persentase sebesar 95% paa kasus data mahasiswa penerima beasiswa bidik misi.

Penelitian ini menggunakan dataset yang bersifat publik yaitu dataset iris yang memiliki 150 data, 4 variabel atribut, serta 3 label target kelas. Metode pengujian dan validasi menggunakan metode K-fold cross

(3)

DOI: 10.30865/mib.v6i4.4681

validation. Tujuan dari penelitian ini yaitu membandingkan tingkat kinerja dari algoritma K-NN dan C4.5 untuk mengetahui algoritma manakah yang memiliki tingkat kinerja yang lebih unggul pada dataset publik iris.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Penelitian ini dilakukan untuk mengetahui tingkat kinerja dari algoritma K-NN dan algoritma C4.5 dengan menggunakan dataset publik iris kemudian memilih atribut yang akan digunakan, menentukan variabel target (label) klasifikasi, mengkategorisasikan data-data sebaganyak 3 kategori yaitu pendek, sedang, dan panjang, kemudian menggunakan metode K-fold cross validation, dan terakhir membandingkan tingkat kinerja kedua algoritma tersebut. Adapun langkah-langkah yang dilakukan dalam penelitian ini ditunjukan pada Gambar 1.

Langkah-langkah penelitian.

Gambar 1. Langkah-langkah penelitian 2.2 Alur Klasifikasi

Alur klasifikasi pada penelitian ini dimulai dari tahap seleksi data, preprocessing data, transformasi data, data mining, dan evaluasi. Proses-proses tersebut dapat dijelaskan sebagai berikut:

a. Seleksi data

Proses seleksi terhadap data yang akan digunakan untuk data mining yang dalam penelitian ini yaitu menggunakan algoritma klasifikasi.

b. Preprocessing data

Dalam penelitian ini yaitu melakukan pemilihan atribut yang akan digunakan seperti variabel a1, a2, a3, a4, dan label sebagai label target.

c. Transformasi data

Dalam penelitian ini menyalin data yang telah dipilih sebelumnya ke dalam format excel yang akan digunakan untuk proses data mining menggunakan aplikasi Rapidminer.

d. Data mining

Pada penelitian ini yaitu menerapkan model algoritma K-NN dan algoritma C4.5 untuk melakukan klasifikasi terhadap data yang menjadi bagian dari data training pada setiap tahap sesuai dengan aturan k-fold cross validation.

e. Evaluasi

Pada penelitian ini yaitu melakukan pemeriksaan hasil klasifikasi dari model algoritma data mining sesuai dengan aturan k-fold cross validation.

2.3 Model Algoritma K-NN

Algoritma K-NEAREST NEIGHBOR merupakan teknik yang menentukan nilai jarak yang ada pada pengujian data testing terhadap data training berdasarkan nilai terkecil pada nilai tingkat kedekatan ketetanggaan. Tujuan dari algoritma K-NEAREST NEIGHBOR yaitu untuk melakukan prediksi klasifikasi objek baru berdasarkan atribut pada data latih. Algoritma K-NEAREST NEIGHBOR menggunakan prediksi klasifikasi kedeatan tetangga untuk melihat nilai prediksi dari sampel data uji yang baru [14]. Adapun rumus perhitungan pada algoritma K-NN adalah sebagai berikut [3] :

(4)

Similarity (T,S) = x = ^∑^𝒏_𝒊=𝟏𝒇(𝑻𝒊,𝑺𝒊)∗𝒘𝒊

𝒘𝒊 (1)

nilai kedekatan berada diantara 0 sampai 1. Nilai 0 artinya kedua kasus tidak memiliki similarity, sedangkan nilai 1 artinya kedua kasus memiliki similarity mutlak.

2.4 Model Algoritma C4.5

Algoritma C4.5 diciptakan oleh Ross Quinlan yang merupakan pengembangan dari algoritma ID3 yang juga dibuat oleh Quinlan. Beberapa pengembangan algoritma yang dilakukan pada C4.5 yaitu dapat mengatasi missing value, dapat mengatasi continue data, dan pruning [3]. tahap-tahap yang digunakan untuk membuat pohon keputusan dengan menggunakan metode algoritma C4.5, yaitu [1] :

a. Mempersiapkan data latih. Data latih biasanya didapatkan dari data masa lalu yang sudah ada sebelumnya dan sudah memiliki hasil klasifikasi

b. Menentukan root atau akar dari pohon keputusan. Root didapatkan dari atribut yang terpilih dengan cara menghitung nilai gain dari masing-masing atribut, atribut yang memiliki nilai gain tertinggi akan menjadi root pada pohon keputusan trsebut. Sebelum menghitung nilai gain, hitung dahulu nilai entropy dengan menggunakan rumus berikut:

Entropy(s) = ∑^𝑛_𝑖=1−𝑝𝑖 ∗ log₂ 𝑝𝑖 (2)

Keterangan:

S : kumpulan kasus A : atribut

n : jumlah partisi

pi : proporsi dari Si terhadap S

c. menentukan nilai gain dengan metode informasi gain:

Gain(S,A) = Entropy(S) - ∑ ^𝑆𝑖

𝑆∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)

𝑛𝑖=1 (3)

Keterangan : S : kumpulan kasus A : atribut

n : jumlah partisi atribut A

|Si| : jumlah kasus pada partisi ke-i

|S| : jumlah kasus dalam S

d. ulangi proses untuk mencari root hingga semua kasus terpartisi e. Proses partisi Decision tree akan berhenti ketika:

1. Semua kasus dalam node N mendapat kelas yang sama.

2. Tidak ada atribut di dalam kasus yang dipartisi lagi.

3. Tidak ada kasus di dalam cabang yang kosong 2.5 Alur Validasi Pengujian

Metode validasi pengujian yang digunakan yaitu metode Cross validation yaitu metode validasi model untuk menilai dan mengetahui berapa hasil statistik analisis yang akan menggeneralisasi himpunan data independen [5].

Pada penelitian ini data yang digunakan akan dibagi menjadi 30 subset data. Pada tahap pertama subset data ke-1 akan menjadi data testing dan subset data lainnya akan menjadi data training. Selanjutnya pada tahap kedua subset ke-2 akan menjadi data testing, sedangkan subset data lainnya menjadi data training. Proses pada tahap selanjutnya sama dengan penggunaan subset data sesuai dengan tahap yang dilakukan. Ilustrasi pembagian subset data dapat dilihat pada Gambar 2.

Gambar 2. Ilustrasi subset data

(5)

DOI: 10.30865/mib.v6i4.4681

3. HASIL DAN PEMBAHASAN

3.1 Pengumpulan Data

Data yang digunakan adalah dataset yang bersifat publik yaitu dataset iris. Dataset iris adalah dataset yang berisi 3 jenis spesies bunga beserta ukuran petal dan sepalnya. Data ini tersedia dalam bentuk CSV pada Sklearn dan dalam format excel yang digunakan sebagai tabel. setiap baris menunjukkan jenis bunga yang berbeda, sedangkan kolom menunjukkan fitur data, yaitu: panjang sepal, lebar sepal, panjang petal, dan lebar petal. Ada 3 jenis bunga yaitu Setosa, Versicolor dan Virginica. Ada 50 sampel data untuk setiap jenis minat. Jadi jika di total ada sampel data 50x3 = 150 sampel data [15]. Adapun bentuk dari dataset yang digunakan dalam penelitian ini dapat dilihat pada tabel 1. Dataset publik iris.

Tabel 1. Dataset publik iris

No. id a1 a2 a3 a4 label 1 Id_1 5,1 3,5 1,4 0,2 Iris-setosa 2 Id_2 4,9 3,0 1,4 0,2 Iris-setosa 3 Id_3 4,7 3,2 1,3 0,2 Iris-setosa 4 Id_51 7,0 3,2 4,7 1,4 Iris-versicolor 5 Id_52 6,4 3,2 4,5 1,5 Iris-versicolor 6 Id_53 6,9 3,1 4,9 1,5 Iris-versicolor 7 Id_101 6,3 3,3 6,0 2,5 Iris-virginica 8 Id_102 5,8 2,7 5,1 1,9 Iris-virginica 9 Id_103 7,1 3,0 5,9 2,1 Iris-virginica 3.2 Seleksi Data

Pada tahap ini dilakukan proses pemilihan variabel atribut yang akan digunakan dalam proses data mining menggunakan algoritma K-Nearest Neighbor dan algoritma C4.5. Variabel atribut yang digunakan adalah variabel a1 yang mewakili panjang sepal, variabel a2 yang mewakili lebar sepal, variabel a3 yang mewakili panjang petal, variabel a4 yang mewakili lebar petal, dan label yang menjadi label atau kelas target dari klasifikasi yang terdiri dari 3 target kelas yaitu iris-setosa, iris-versicolor, dan iris-virginica. Bentuk data hasil seleksi dapat dilihat pada Tabel 4. Hasil seleksi.

Tabel 4. Hasil seleksi No. a1 a2 a3 a4 label

1 5,1 3,5 1,4 0,2 Iris-setosa 2 4,9 3,0 1,4 0,2 Iris-setosa 3 4,7 3,2 1,3 0,2 Iris-setosa 4 7,0 3,2 4,7 1,4 Iris-versicolor 5 6,4 3,2 4,5 1,5 Iris-versicolor 6 6,9 3,1 4,9 1,5 Iris-versicolor 7 6,3 3,3 6,0 2,5 Iris-virginica 8 5,8 2,7 5,1 1,9 Iris-virginica 9 7,1 3,0 5,9 2,1 Iris-virginica 3.3 Preprocessing Data

3.3.1 Transformasi Data

Pada tahap ini data dipastikan menggunakan format file Microsoft excel agar data dapat diproses sesuai dengan algoritma data mining K-Nearest Neighbor dan algoritma C4.5 dengan bantuan aplikasi data mining Rapidminer dalam proses training data dan juga testing data.

3.3.2 Data Reduction

Data yang telah melalui proses seleksi dan transformasi selanjutnya akan melalui proses reduksi data. Pada tahap ini data pada variabel a1 yang mewakili panjang sepal, variabel a2 yang mewakili lebar sepal, variabel a3 yang mewakili panjang petal, dan variabel a4 yang mewakili lebar petal, akan dikategorisasikan menjadi 3 kategori data pada masing-masing variabel. Pada variabel a1 dengan nilai 4,3 sampai 5,4 dikategorikan sebagai ‘pendek’, variabel a1 dengan nilai 5,5 sampai dengan 6,7 dikategorikan sebagai ‘sedang’, variabel a1 dengan nilai 6,8 sampai dengan nilai 7,9 dikategorikan sebagai ‘panjang’. Variabel a2 dengan nilai 2,0 sampai 2,7 dikategorikan sebagai

‘pendek’, variabel a2 dengan nilai 2,8 sampai dengan 3,6 dikategorikan sebagai ‘sedang’, variabel a2 dengan nilai 3,7 sampai dengan 4,4 dikategorikan sebagai ‘panjang’. Variabel a3 dengan nilai 1 sampai dengan 2,9 dikategorikan sebagai ‘pendek’, variabel a2 dengan nilai 3 sampai dengan 4,9 dikategorikan sebagai ‘sedang’, variabel dengan nilai 5 sampai 6,9 dikategorikan sebagai ‘panjang’. Variabel a4 dengan nilai 0,1 sampai dengan

(6)

0,8 dikategorikan sebagai ‘pendek’, variabel a4 dengan nilai 0,9 sampai dengan 1,7 dikategorikan sebagai

‘sedang’, variabel a4 dengan nilai 1,8 sampai dengan 2,5 dikategorikan sebagai ‘panjang’. Bentuk dari kategorisasi data dapat dilihat pada Tabel 3. Kategorisasi data

Tabel 3. Kategorisasi data

No. a1 a2 a3 a4 label

1 Pendek Sedang Pendek Pendek Iris-setosa 2 Pendek Sedang Pendek Pendek Iris-setosa 3 Pendek Sedang Pendek Pendek Iris-setosa 4 Panjang Sedang Sedang Sedang Iris-versicolor 5 Sedang Sedang Sedang Sedang Iris-versicolor 6 Panjang Sedang Sedang Sedang Iris-versicolor 7 Sedang Sedang Panjang Panjang Iris-virginica 8 Sedang Pendek Panjang Panjang Iris-virginica 9 Panjang Sedang Panjang Panjang Iris-virginica 3.4 Algoritma K-Nearest Neighbor

Data yang telah selesai dipersiapkan selanjutnya akan dilakukan mining menggunakan algoritma data mining.

Yang pertama menggunakan algoritma K-Nearest Neighbor. Algoritma K-NEAREST NEIGHBOR merupakan metode data mining dengan cara menghitung kedekatan diantara case yang baru dengan kasus yang terdahulu. K- NN juga disebut (lazy leaners) dikarenakan metode ini bekerja hanya dengan melihat kedekatan dengan tetangga (neighbor) [16]. Data disiapkan dalam bentuk format file Microsoft excel, kemudian akan diimpor ke dalam aplikasi Rapidminer. Selanjutnya data yang telah diimpor kemudian akan disambungkan dengan operator Cross validation dengan banyak jumlah ‘k’ pada k-fold sebanyak 30. Bentuk proses tahap ini pada aplikasi Rapidminer dapat dilihat pada Gambar 6. Data ke cross validation.

Gambar 6. Data ke cross validation

Selanjutnya di dalam operator cross validation akan ditambahkan operator Split Data yang digunakan untuk membagi partisi data yang akan digunakan sebagai data testing dan data training. Pembagian data yaitu sebesar 97% sebagai data training atau dalam rasio sebesar 0,97, dan 3% sebagai data testing atau dalam rasio sebesar 0,03. Selanjutnya operator Split Data disambungkan dengan operator model K-NN dengan jumlah k pada K-NN adalah k=3. Langkah selanjutnya adalah menyambungkan model K-NN dengan operator Apply Model, dan dari Apply Model disambungkan ke operator Performance untuk mengetahui tingkat kinerja dari algoritma K-Nearest Neighbor pada data iris dengan menggunakan metode k-fold cross validation dan ‘k’ pada cross validation sebesar 30 atau 30 tahap percobaan. Ukuran kinerja algoritma yang akan dilihat adalah tingkat akurasi, classification error, recall, dan presisi. Bentuk proses tahap ini pada aplikasi Rapidminer dapat dilihat pada Gambar 7. Algoritma K- NN.

Gambar 7. Algoritma K-NN

(7)

DOI: 10.30865/mib.v6i4.4681

Setelah desain proyek telah terbentuk, selanjutnya adalah menjalankan desain proyek tersebut. Hasil tingkat kinerja yang diperoleh dapat dilihat pada Gambar 8. Kinerja K-NN.

Gambar 8. Kinerja K-NN

Berdasarkan hasil pada Gambar 8, dapat diketahui tingkat kinerja algoritma K-Nearest Neighbor pada dataset iris dengan menggunakan metode cross validation dan jumlah ‘k’ pada cross validation sebesar 30 yaitu nilai akurasi sebesar 95,33%, nilai recall sebesar 94,44%, dan nilai presisi sebesar 93,70%.

3.5 Algoritma C4.5

Selanjutnya data publik iris akan digunakan untuk proses data mining menggunakan algoritma C4.5. Algoritma C 4.5 termasuk kedalam kategori algoritma Decision tree yang memiliki masukan berupa data training dan testing samples. Algoritma C4.5 termasuk ke dalam kategori algoritma Decision Tree. Pada algoritma ini memiliki dua masukan yaitu data training dan testing samples. Training samples adalah data contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya sebelumnya [17]. Data disiapkan dalam bentuk format file Microsoft excel, kemudian akan diimpor ke dalam aplikasi Rapidminer. Selanjutnya data yang telah diimpor kemudian akan disambungkan dengan operator Cross validation dengan banyak jumlah ‘k’ pada k-fold sebanyak 30. Bentuk proses tahap ini pada aplikasi Rapidminer dapat dilihat pada Gambar 9. Data ke cross validation.

Gambar 9. Data ke cross validation

Selanjutnya di dalam operator cross validation akan ditambahkan operator Split Data yang digunakan untuk membagi partisi data yang akan digunakan sebagai data testing dan data training. Pembagian data yaitu sebesar 97% sebagai data training atau dalam rasio sebesar 0,97, dan 3% sebagai data testing atau dalam rasio sebesar 0,03. Selanjutnya operator Split Data disambungkan dengan operator model Decision Tree dengan nilai confidence

= 0.1, maximal depth = 10, minimal gain 0.01, minimal leaf size = 2. Langkah selanjutnya adalah menyambungkan model Decision Tree dengan operator Apply Model, dan dari Apply Model disambungkan ke operator Performance untuk mengetahui tingkat kinerja dari algoritma C4.5 pada data iris dengan menggunakan metode k-fold cross validation dan ‘k’ pada cross validation sebesar 30 atau 30 tahap percobaan. Ukuran kinerja algoritma yang akan dilihat adalah tingkat akurasi, classification error, recall, dan presisi. Bentuk proses tahap ini pada aplikasi Rapidminer dapat dilihat pada Gambar 10. Algoritma C4.5.

Gambar 10. Algoritma C4.5

(8)

Setelah desain proyek telah terbentuk, langkah selanjutnya yaitu menjalankan desain proyek yang telah dibuat. Hasil tingkat kinerja yang diperoleh dapat dilihat pada Gambar 11. Kinerja C4.5.

Gambar 11. Kinerja C4.5

Berdasarkan hasil pada Gambar 11, diketahui bahwa tingkat kinerja algoritma C4.5 pada dataset iris dengan menggunakan metode cross validation dan jumlah ‘k’ pada cross validation sebesar 30 yaitu nilai akurasi sebesar 96.00%, nilai recall sebesar 93,44%, dan nilai presisi sebesar 93,52%.

Berdasarkan hasil implementasi kedua algoritma tersebut, maka didapatkan hasil perbandingan algoritma yang dapat dilihat pada Tabel 4. Hasil perbandingan.

Tabel 4. Hasil perbandingan

No Algoritma Kinerja

Akurasi Recall Presisi 1 K-Nearest Neighbor 95.33% 94.44% 93.70%

2 C4.5 96.00% 94.44% 93.52%

4. KESIMPULAN

Berdasarkan hasil penelitian yang telah didokumentasikan pada poin Hasil dan Pembahasan, maka didapatkan kesimpulan bahwa tingkat kinerja algoritma data mining pada data publik iris yang diuji dan divalidasi menggunakan metode k-fold cross validation dengan jumlah ‘k’ pada k-fold cross validation sebesar 30, yaitu algoritma C4.5 lebih unggul dengan tingkat akurasi yang lebih besar yaitu 96,00%, unggul dari K-Nearest Neighbor dengan tingkat akurasi 95,33%. Untuk tingkat recall memiliki persentase yang sama yaitu sebesar 94,44%, dan untuk tingkat presisi algoritma C4.5 sebesar 93,52%, sedangkan untuk tingkat presisi algoritma algoritma K-Nearest Neighbor sebesar 93,70%.

UCAPAN TERIMAKASIH

Ucapan terimakasih saya sampaikan kepada pihak STMIK Multicom Bolaang Mongondow yang telah mendukung dan memfasilitasi saya dalam melakukan penelitian hingga ke tahap publikasi.

REFERENCES

[1] Kusrini and L. Taufiq Emha, Algoritma Data mining Yogyakarta, no. February. 2009. [Online]. Available:

https://books.google.co.id/books?id=-Ojclag73O8C&printsec=frontcover#v=onepage&q&f=false [2] S. Santoso, Statistik Deskriptif Konsep dan Aplikasi dengan Microsoft excel dan SPSS. 2003.

[3] Y. D. Atma and A. Setyanto, “Perbandingan algoritma c4.5 dan K-NN dalam identifikasi mahasiswa berpotensi drop out,” Metik J. ISSN 2580-1503, vol. 2, no. 2, pp. 31–37, 2018.

[4] D. Suyanto, Data mining Untuk Klasifikasi Dat, no. x. Bandung: Informatika, 2019.

[5] D. J. Hand, Principles of data mining, vol. 30, no. 7. 2007. doi: 10.2165/00002018-200730070-00010.

[6] A. Setianingrum, A. Hindayanti, D. M. Cahya, and D. S. Purnia, “Perbandingan Metode Algoritma K-NN & Metode Algoritma C45 Pada Analisa Kredit Macet (Studi Kasus PT Tungmung Textil Bintan),” EVOLUSI J. Sains dan Manaj., vol. 9, no. 2, pp. 78–92, 2021, doi: 10.31294/evolusi.v9i2.11166.

[7] S. Widaningsih, “Perbandingan Metode Data mining Untuk Prediksi Nilai Dan Waktu Kelulusan Mahasiswa Prodi Teknik Informatika Dengan Algoritma C4,5, Naïve bayes, Knn Dan Svm,” J. Tekno Insentif, vol. 13, no. 1, pp. 16–25, 2019, doi: 10.36787/jti.v13i1.78.

[8] M. Azhari, Z. Situmorang, and R. Rosnelly, “Perbandingan Akurasi, Recall, dan Presisi Klasifikasi pada Algoritma C4.5, Random Forest, SVM dan Naive bayes,” J. Media Inform. Budidarma, vol. 5, no. 2, p. 640, 2021, doi:

10.30865/mib.v5i2.2937.

[9] Ardiyansyah, P. A. Rahayuningsih, and R. Maulana, “Analisis Perbandingan Algoritma Klasifikasi Data mining Untuk Dataset Blogger Dengan Rapid miner,” J. Khatulistiwa Inform., vol. VI, no. 1, pp. 20–28, 2018.

(9)

DOI: 10.30865/mib.v6i4.4681

[10] R. Nofitri and N. Irawati, “Analisis Data Hasil Keuntungan Menggunakan Software Rapidminer,” JURTEKSI (Jurnal Teknol. dan Sist. Informasi), vol. 5, no. 2, pp. 199–204, 2019, doi: 10.33330/jurteksi.v5i2.365.

[11] F. N. Hasan, N. Hikmah, and D. Y. Utami, “Perbandingan Algoritma C4.5, KNN, dan Naive bayes untuk Penentuan Model Klasifikasi Penanggung jawab BSI Entrepreneur Center,” J. Pilar Nusa Mandiri, vol. 14, no. 2, p. 169, 2018, doi:

10.33480/pilar.v14i2.908.

[12] F. Tempola, M. Muhammad, and A. Khairan, “Perbandingan Klasifikasi Antara KNN dan Naive bayes pada Penentuan Status Gunung Berapi dengan K-fold cross validation,” J. Teknol. Inf. dan Ilmu Komput., vol. 5, no. 5, p. 577, 2018, doi:

10.25126/jtiik.201855983.

[13] t ramadhan, e suswaini, and a uperiati, “Implementasi Algoritma C4. 5 Dalam Klasifikasi Ketepatan Waktu Kelulusan Pada Data Mahasiswa Penerima Beasiswa Bidikmisi (Studi …,” Student Online J. …, vol. 2, no. 2, pp. 1348–1357, 2021, [Online]. Available: https://soj.umrah.ac.id/index.php/sojft/article/view/1014

[14] H. N. Zerlinda, I. Slamet, and E. Zukhronah, “Klasifikasi Calon Penerima Bidikmisi Dengan Menggunakan,” Semin.

Nas. Penelit. Pendidik. Mat. 2019 Umt Klasifikasi, pp. 88–93, 2019.

[15] I. Prihandi, “KNN on Iris Data with Python Programming,” vol. 2, no. 7, pp. 6–8, 2019.

[16] F. Gorunescu, Data mining: Concepts, models and techniques, vol. 12. 2011. doi: 10.1007/978-3-642-19721-5.

[17] D. Nofriansyah and G. W. Nurcahyo, Algoritma Data mining Dan Pengujian. Yogyakarta, 2019.