• Tidak ada hasil yang ditemukan

View of Perbandingan K-Nearest Neighbors, Support Vector Dan Random Forest Pada Prediksi Medical Cost

N/A
N/A
Protected

Academic year: 2024

Membagikan "View of Perbandingan K-Nearest Neighbors, Support Vector Dan Random Forest Pada Prediksi Medical Cost"

Copied!
14
0
0

Teks penuh

(1)

Jln. Kha)b Sulaiman Dalam, No. 1, Padang, Indonesia, Telp. (0751) 7056199, 7058325 Website: ijcs.stmikindonesia.ac.id | E-mail: [email protected]

Perbandingan K-Nearest Neighbors, Support Vector Dan Random Forest Pada Prediksi Medical Cost

Anggista Oktavia Praneswara1 [email protected]

Fakultas Ilmu Komputer, Universitas Amikom Yogyakarta

Informasi Artikel Abstrak Diterima : 24 Jul 2023

Direview : 2 Ags 2023 Disetujui : 29 Ags 2023

Asuransi kesehatan adalah kontrak yang mengharuskan membayar sebagian atau seluruh biaya perawatan terkait masalah kesehatan yang dialami.

Pengguna asuransi harus membayar premi dengan membayar iuran dalam periode yang telah ditentukan. Dalam praktiknya, pembayaran premi asuransi kesehatan bisa langsung dipotong dari gaji bulanan yang didapat. Maka dari itu, penelitian ini dilakukan dengan mengimplementasikan sebuah algoritma prediksi biaya medis yang dikeluarkan per individu dengan menggunakan perbandingan 3 algoritma yaitu K-Nearest Neighbor, Support Vector Machine dan Random Forest dengan dataset yang diambil kaggle dengan nama insurance.csv berdasarkan kolom usia, jenis kelamin, indeks Massa Tubuh (BMI), jumlah anak dalam satu keluarga, individu perokok atau tidak, wilayah tempat tinggal penerima asuransi kesehatan dan biaya medis yang ditanggung oleh asuransi kesehatan. Metode penelitian dilakukan dengan pemeriksaan data dengan melakukan analisi pada dataset serta membagi data menjadi data training dan data test. Hasil penelitian pada algoritma KNN memiliki nilai prediksi MSE sebesar 9651.5, algoritma Random Forest memiliki nilai prediksi MSE sebesar 9755.4, sedangkan algoritma SVM memiliki nilai prediksi MSE sebesar 9312.6.

Kata Kunci

medical cost, k-nearest neighbor, support vector machine, random forest

Keywords Abstrak

medical cost, k-nearest neighbor, support vector machine, random forest

Health insurance is a contract that requires you to pay part or all of the costs of treatment related to health problems you are experiencing. Insurance users must pay premiums by paying contributions within a predetermined period. In practice, the payment of health insurance premiums can be directly deducted from the monthly salary earned. Therefore, this research was conducted by implementing an algorithm for predicting medical costs incurred per individual by using a comparison of 3 algorithms namely K-Nearest Neighbor, Support Vector Machine and Random Forest with a dataset taken by kaggle with the name insurance.csv based on the column age, type sex, body mass index (BMI), number of children in one family, individual smokers or not, area of residence of health insurance recipients and medical expenses covered by health insurance. The research method is carried out by examining data by analyzing the dataset and dividing the data into training data and test data. The results of the research on the KNN algorithm have an MSE prediction value of 9651.5, the Random Forest algorithm has a MSE prediction value of 9755.4, while the SVM algorithm has a MSE prediction value of 9312.6.

(2)

A. Pendahuluan

Meningkatnya biaya perawatan kesehatan telah menimbulkan tantangan serius di banyak negara.

Pemahaman yang akurat tentang biaya yang terkait dengan alternatif terapi dapat menyebabkan penghematan biaya yang substansial. Asuransi kesehatan adalah kontrak yang mewajibkan perusahaan asuransi untuk menanggung sebagian atau seluruh biaya pengobatan yang berkaitan dengan kondisi kesehatan yang dihadapi[1]. Untuk menerimanya, tertanggung harus membayar premi dalam jangka waktu tertentu, yang disebut premi. Layanan yang ditawarkan bergantung pada peralatan dan model yang dipilih. Secara umum, asuransi kesehatan menanggung biaya pemeriksaan kesehatan, pembedahan, obat resep, perawatan gigi dan rawat inap.

Perkembangan teknologi medis yang pesat, meningkatnya biaya perawatan kesehatan, serta perubahan dalam sistem asuransi kesehatan telah menyebabkan meningkatnya tekanan finansial bagi individu, keluarga, dan masyarakat secara keseluruhan. Faktor utama dalam kontribusi peningkatan biaya medis adalah kemajuan teknologi medis yang luar biasa. Dalam studi klinis atau observasional jangka panjang untuk mengumpulkan data biaya, itu tidak bisa dihindari bahwa beberapa pasien tidak diikuti sampai tujuan akhir sehingga biaya medis mereka tidak sepenuhnya diamati. Beberapa laporan yang tidak dipublikasikan telah memberikan penyempurnaan dan alternatif. Semua upaya ini, bagaimanapun, terbatas pada masalah satu sampel.

Data mining merupakan opsi yang bisa digunakan untuk mengelola data dengan cara mengklasifikasikan data menjadi informasi yang teridentifikasi, membentuk pengetahuan yang berguna untuk mendukung pengambilan keputusan[2]. Pemanfaatan teknologi data mining sangat berharga dalam menemukan informasi yang sangat signifikan dari kumpulan data yang dimiliki.

Keahlian dalam data mining dapat diterapkan pada data transaksi premi asuransi kesehatan, memberikan wawasan berharga dari gudang data mereka[3]. Dalam era modern saat ini, teknologi dan algoritma telah berkembang pesat dalam bidang kesehatan. Cabang dari ilmu komputer pada machine learning yang bekerja memanfaatkan data serta algoritma untuk membuat sebuh model yang dapat memprediksi keluaran (output) dari pola kumpulan data tersebut[4]. Salah satu contohnya adalah penerapan algoritma machine learning dalam prediksi biaya kesehatan atau medical cost. Dalam penggunaannya, algoritma machine learning dapat memproses data dengan cepat dan akurat sehingga dapat membantu para tenaga medis dalam pengambilan keputusan yang lebih baik dan efisien. Hal ini teramat penting karena biaya kesehatan dapat menjadi beban finansial yang besar bagi pasien[5]. Data dalam pembelajaran machine leaning berasal dari Kaggle yang datanya telah diolah[6]. Persiapan data adalah tahap fundamental dari analisis data. Persiapan data terdiri dari teknik-teknik yang berkaitan dengan analisis data mentah sehingga menghasilkan data berkualitas[7].

Fokus utama dalam machine learning adalah akurasi dari algoritma yang digunakan. Salah satu metode klasifikasi adalah penggunaan algoritma machine learning. Menggunakan algoritma pembelajaran mesin yang berbeda, klasifikasi dapat digunakan tetapi dengan akurasi yang berbeda[8].

Pada penelitian ini digunakan Algoritma K-Nearest Neighbor, Support Vector Machine dan Random Forest. K-Nearest Neighbor mengklasifikasikan objek yang paling dekat dengan objek yang akan dianalisis berdasarkan nilai K dari data training[9]. Random Forest adalah salah satu metode algoritma data mining untuk mengklasifikasikan suatu kumpulan data[10]. Support Vector Machine merupakan metode klasifikasi tercanggih saat ini dengan pemaksimalan batas hyperplane yang memisahkan kumpulan data[2]. Oleh karena itu, algoritma untuk memprediksi biaya medis individu menggunakan perbandingan ketiga algoritma JST, Random Forest dan SVM dengan kumpulan data berdasarkan usia, jenis kelamin, indeks massa tubuh (BMI) dan jumlah anak sekeluarga, individu perokok atau tidak, kemudian tempat tinggal penerima asuransi dan biaya pengobatan yang ditanggung oleh asuransi kesehatan.

(3)

B. Metode Penelitian

Untuk alur penelitiannya, tertuang dalam Flowchart dibawah ini:

Gambar 1. Alur penelitian

B.1. Dataset

Dataset penelitian diambil dari https://www.kaggle.com/datasets/mirichoi0218/insurance.

Dataset berisi 1338 data terdiri dari 7 kolom yakni 4 kolom numerik (age, bmi, children dan charges) dan 3 kolom kategori (jenis kelamin, perokok dan wilayah). Pada proses analisis, informasi yang terdapat pada tipe kelas diubah menjadi informasi numerik. Perubahan yang dilakukan mengganti jenis kelamin laki-laki dengan angka 1 dan perempuan dengan angka 0. Begitu pula pada data merokok, data ya diubah menjadi 1 untuk perokok dan data bukan perokok diubah menjadi 0. Data region, northeast menjadi 0, northwest=1, southeast=2 dan southwest=3.

B.2. Exploratory Data Analysis

Analisis data eksplorasi (EDA) adalah metode analisis statistik yang meneliti data secara visual dan numerik untuk memahami karakteristik dan pola data yang ada. EDA menggunakan teknik seperti visualisasi data, ringkasan statistik, dan pengujian hipotesis untuk menilai tren dan pola potensial dalam data. Tujuan utama EDA adalah untuk memperdalam pemahaman tentang data sehingga dapat digunakan untuk mengestimasi model statistik yang benar atau membuat keputusan yang lebih baik.

(4)

B.3. Preprocessing B.3.1. Encoding

Encoding (pengkodean) mengubah teks menjadi bentuk numerik sehingga dapat diproses oleh model atau algoritme pembelajaran mesin. Pada penelitian ini akan menggunakan teknik One Hot Encoding yang merupakan teknik pengkodean paling sederhana di mana setiap kata atau karakter dalam teks direpresentasikan sebagai vektor biner dengan nilai 1 atau 0 tergantung apakah ada dalam teks atau tidak.

B.3.2. Principal Component Analysis

Principal Component Analysisi merupakan teknik pengurangan dimensi yang sangat diminati.

Teknik ini digunakan untuk pengurangan ukuran, ekstraksi fitur, dan transformasi data dari "ruang n- dimensi" ke sistem koordinat baru dengan ukuran m, di mana m lebih kecil dari n.

B.3.3. Splitting Data

Proses pembagian data menjadi 2 yaitu data testing dan data test. Tujuan utama dari pertukaran data adalah untuk menguji penyajian model atau algoritma terhadap data yang sebelumnya tidak terlihat (pengujian data) untuk dapat menilai kemampuan model untuk menggeneralisasi.

Saat berbagi informasi, data dapat dibagikan dalam berbagai proporsi tergantung pada tujuan analisis dan ukuran materi. Rasio yang digunakan untuk membagi data adalah 80:20, di mana data pelatihan menyumbang 80% dari semua data, sedangkan data uji menyumbang 20% dari semua data.

B.3.4. Standarisasi Data

Standarisasi adalah suatu teknik transformasi yang sangat umum diterapkan pada proses awal modelling. Penelitian ini menggunakan StandardScaler dengan library Scikitlearn. StandardScaler melakukan proses standardisasi fitur dengan cara mengurangkan mean lalu dibagi dengan standar deviasi untuk menggeser distribusi. Penskala standar membuat distribusi dengan standar deviasi 1 dan rata-rata 0. Sekitar 68% nilai berada di antara -1 dan 1.

B.4. Modelling

Proses pembuatan model matematika atau algoritma yang digunakan untuk memahami dan memprediksi perilaku atau hubungan antar variabel dalam kumpulan data. Pemodelan data sangat penting dalam analisis data, terutama saat mengembangkan model pembelajaran mesin. Model yang dibangun dapat digunakan untuk memprediksi perilaku atau hasil dalam situasi yang mirip atau mirip dengan kumpulan data yang digunakan untuk membangun model. Algoritma pemodelan machine learning yang digunakan adalah KNN, SVM dan Random Forest.

B.4.5. K-Nearest Neighbors

Pemodelan K-Nearest Neighbors (KNN) adalah teknik pembelajaran mesin untuk membuat model klasifikasi atau regresi. Pada proses ini, hanya melatih data pelatihan dan menyimpan data uji untuk fase evaluasi, yang terdapat dalam modul evaluasi model.

B.4.6. Support Vector Machine

Model machine learning multifungsi digunakan dalam melakukan penyelesaian permasalah klasifikasi, regresi serta deteksi outlier. Support Vector Machine memiliki tujuan untuk menemukan hyperplane terbaik yang berada di ruang dimensi N, berfungsi sebagai garis pemisah yang jelas untuk titik data masukan.

(5)

B.4.7. Random Forest

Model prediktif yang mencakup teknik bagging multi-model yang bekerja sama. Ide model ansambel adalah sekelompok model bekerja sama untuk memecahkan suatu masalah. Dengan demikian, tingkat keberhasilannya lebih tinggi dibandingkan dengan model mandiri. Dalam model ansambel, pada setiap modelnya harus melakukan prediksi dengan mandiri. Lalu pada masing-masing model ansambel digabungkan untuk membuat prediksi akhir.

B.5. Evaluasi

Model machine learning bertipe regresi digunakan untuk memprediksi nilai kontinu, dan performa model yang dapat dievaluasi dengan menggunakan metrik kesalahan seperti Mean Squared Error (MSE). MSE menghitung selisih kuadrat antara nilai sebenarnya dan nilai prediksi, kemudian mengambil mean selisih kuadrat tersebut. Semakin kecil nilai MSE, semakin baik performa model dalam melakukan prediksi. MSE dapat dihitung dengan menggunakan rumus:

MSE = ( 1/n ) * ∑( y – y_pred )2 n : jumlah data

y : nilai aktual y_pred : nilai prediksi

C. Hasil dan Pembahasan

Proses penelitian ini menggunakan bahasa python. Pada proses analisis menggunakan library numpy, pandas, sklearn, matplotlib dan seaborn. Pandas dan numpy sebagai data analysis tools.

Matplotlib dan seaborn digunakan untuk visualisasi data. Kemudian yang terakhir, sklearn digunakan untuk machine learning. Source code pada penelitian ini dapat diakses melalui link berikut https://github.com/anggistaop/komparasi-medicalcosts.

C.1. Pemanggilan dan Analisis Dataset

Proses akses record menggunakan perintah read dari library pandas. Hasil perintah tersebut pada gambar 2.

Gambar 2. Dataset insurance.csv

(6)

Gambar 3. Informasi dataset

Gambar 3 menjelaskan bahwa dataset memiliki 1338 baris dan 7 kolom yang terdiri atas 3 kolom tipe objek dan 4 kolom tipe numerik. Dataset insurance memiliki variabel seperti berikut:

• Age : Usia yang menerima asuransi kesehatan.

• Sex : Jenis kelamin pada penerima asuransi kesehatan.

• BMI : Indeks massa tubuh, gambaran tentang tubuh, tinggi atau rendahnya berat relatif dalam kaitannya dengan tinggi badan, indeks massa tubuh objektif (kg/m2) menggunakan rasio tinggi dan berat badan, sebaiknya 18,5-24,9.

• Children : Jumlah tanggungan asuransi kesehatan anak.

• Smoker : Perokok.

• Region : Terdiri atas northeast, northwest, southeast dan southwest.

• Charges : Biaya medis individu ditagih oleh asuransi kesehatan.

C.2. Exploratory Data Analysis (EDA)

Exploratory Data Analysis dilakukan sebagai tahap pemeriksaan data seperti data yang kosong, pengubahan data katogeri menjadi numerik serta penghapusan data yang sama. Hasil dari pengecekan informasi dataset yang telah digunakan pada gambar 4.

Gambar 4. Data statistik

(7)

Gambar 4 merupakan hasil analisa untuk menampilkan atau melihat data statistik. Dengan adanya data diatas, dapat digunakan sebagai indikator apakah ada data yang tidak wajar. Dari data tersebut, terdapat nilai dari data yang dilakukan analisis, seperti nilai age tertinggi adalah 64. Maka nilai age maksimalnya 64 masih wajar. Dengan demikian banyak anak maksimal 5 juga wajar dan data disimpulkan valid.

C.3. Visualisasi Data

Pengubahan dari data mentah menjadi informasi yang dapat ditampilkan secara grafis. Pada fase ini, dataset dibagi menjadi dua yaitu fitur numerik dan kategorikal. Fitur numerik ditampilkan dalam boxplot untuk memeriksa outlier dan histogram yang menunjukkan distribusi frekuensi dataset.

Gambar 5-8 memperlihatkan visualisasi data numerik dan memperlihatkan variabel age, bmi, children dan charges dalam bentuk histogram. Gambar 9-11 memperlihatkan visualisasi data fitur kategorikal untuk variabel sex, smoker dan region.

Gambar 5. Visualisasi data variabel age

Gambar 6. Visualisasi data variabel bmi

(8)

Gambar 7. Visualisasi data variabel children

Gambar 8. Visualisasi data variabel charges

Gambar 9. Visualisasi fitur kategori variabel sex

Gambar 10. Visualisasi fitur kategori variabel smoker

(9)

Gambar 11. Visualisasi fitur kategori variabel region C.4. Encoding

Tahap ini merupakan visualisasi One Hot Encoding pada fitur kategori. Hasil pengolahannya terdapat pada tabel 1.

Tabel 1. Hasil pengolahan One Hot Encoding

age children charges sex_female sex_male smoker_no smoker_yes

0 19 0 16884.92400 1 0 0 1

1 18 1 1725.55230 0 1 1 0

2 28 3 4449.46200 0 1 1 0

3 33 0 21984.47061 0 1 1 0

4 32 0 3866.85520 0 1 1 0

region_northeast region_northwest region_southeast region_southwest

0 0 0 0 1

1 0 0 1 0

2 0 0 1 0

3 0 1 0 0

4 0 1 0 0

C.5. Principal Component Analysis

Principal Component Analysis mereduksi variabel asal menjadi variabel baru yang tidak memiliki korelasi linier, atau biasa disebut sebagai komponen utama. Komponen utama dapat menangkap sebagian besar variasi dari variasi aslinya. Oleh karena itu teknik ini diterapkan pada data karena hanya menggunakan komponen utama dan mengabaikan yang lainnya. Kemudian pada Tabel 2 ditampilkan hasil reduksi dimensi dengan variabel umur, anak dan pembayaran dengan menggunakan teknik PCA, dengan hanya mempertahankan komponen PC pertama saja.

Tabel 2. Hasil Pengolahan PCA pada fitur Numerik

(10)

age children charges sex_female sex_male smoker_no smoker_yes

0 19 0 16884.92400 1 0 0 1

1 18 1 1725.55230 0 1 1 0

2 28 3 4449.46200 0 1 1 0

3 33 0 21984.47061 0 1 1 0

4 32 0 3866.85520 0 1 1 0

… … … …

1333 50 3 10600.54830 0 1 1 0

1334 18 0 2205.98080 1 0 1 0

1335 18 0 1629.83350 1 0 1 0

1336 21 0 2007.94500 1 0 1 0

1337 61 0 29141.36030 1 0 0 1

region_northeast region_northwest region_southeast region_southwest

0 0 0 0 1

1 0 0 1 0

2 0 0 1 0

3 0 1 0 0

4 0 1 0 0

… … … … …

1333 0 1 0 0

1334 1 0 0 0

1335 0 0 1 0

1336 0 0 0 1

1337 0 1 0 0

C.6. Splitting Data

Dengan melakukan splitting data dengan parameter :

• X : menghapus kolom variabel charges

• Y : menampilkan kolom variabel charges

• test size : ukuran pada pembagian dataset, pada penelitian ini memiliki 80% untuk data train dan 20% data test.

• Random_state : mengontrol random number generator yang digunakan, pada penelitian ini menggunakan random_state = 123.

Agar mampu mengetahui seluruh jumlah pada dataset, maka dapat menggunakan fungsi print len pada variabel X. Lalu, dapat menegtahui hasil jumlah dataset setelah splitting data di data training dengan fungsi len pada data X_train. Jika ingin menampilkan hasil jumlah datase setelah splitting data pada data test dapat menggunakan fungsi len pada data X_test. Pada gambar 12 merupakan hasil splitting data.

Gambar 12. Hasil splitting data

(11)
(12)

C.7. Standarisasi

Melakukan standarisasi data numeric agar memiliki mean 0 dan standart deviation 1. Gambar 13 menunjukkan hasul dari dilakukannya proses standardrisasi pada variabel age dan children pada data X_train.

Gambar 13. Hasil standarisasi pada X_train

Gambar 14. Hasil standarisasi pada Describe X_train

Proses ini mengubah nilai mean dan memiliki nilai standard devisiasi menjadi 1. Pada gambar 14, terdapat hasil nilai mean = 0 dan standard devisiasi =1. Setelah data melewati proses standarisasi maka data siap dilatih menggunakan model machine learning.

C.8. Modelling

Proyek ini menerapkan 3 Algoritma model machine learning yang berbeda yaitu K-Nearest Neighbors, Support Vector Machine dan Random Forest. Setiap model menggunakan parameter default yang telah disediakan pada library sklearn.

C.9. Evaluasi

Melakukan perhitungan nilai Mean Squared Error pada data training dan testing setelah membagi dengan nilai 1e8. Proses perhitungan tersebut dilakukan agar MSE tetap berada dalam skal yang tidak terlalu besar.

(13)

Gambar 15. Hasil perhitungan nilai MSE

Dari gambar 15, terlihat bahwa modelling algoritma KNN memiliki nilai error pada data testing paling kecil kemudian pada Random Forest yang sedikit lebih banyak dibandingkan dengan KNN dan SVM yang memiliki nilai error paling banyak dibandingkan kedua model yang lain yakni KNN dan Random Forest. Dengan adanya model tersebut, dapat memilih sebagai indikator terhadap model terbaik dalam memprediksi biaya medis yang ditanggung per individu. Dengan melakukan pengujian, perlu membuat prediksi menggunakan beberapa harga dari data testing dan berikut hasil prediksi setiap model.

Tabel 3. Hasil prediksi setiap model

y_true predeksi_KNN prediksi_RF prediksi_SVM

9800.8882 9651.5 9755.4 9312.6

Dari hasil diatas, di dapati hasil algoritma K-Nearest Neighbor (KNN) memiliki nilai prediksi sebesar 9651.5. Algoritma Random Forest memiliki nilai prediksi sebesar 9755.4. Algoritma Support Vector Machine (SVM) memiliki nilai prediksi sebesar 9312.6.

D. Simpulan

Dari ketiga model algoritma yang dikembangkan dapat dilihat bahwa dari hasil perbandingan prediksi dari ketiga algoritma yaitu KNN, Random Forest, dan SVM dapat disimpulkan bahwa KNN memiliki nilai error yang paling rendah pada data pengujian, sedangkan Random Forest memiliki error yang lebih banyak pada data pengujian dibandingkan KNN dan SVM memiliki nilai error tertinggi dibandingkan KNN dan Random Forest.

E. Ucapan Terima Kasih

Peneliti mengucapkan terima kasih kepada Universitas Amikom Yogyakarta dan pendamping yang telah membantu dalam penelitian ini.

(14)

F. Referensi

[1] F. Nurzaman, “PENERAPAN ALGORITMA REGRESI LINIER UNTUK PREDIKSI JUMLAH KLAIM PADA ASURANSI KESEHATAN,” 2017.

[2] M. Ali, R. Sekolah, T. Teknik, S. Jalan, and N. Jaya, “Penggunaan Data Mining Dalam Memecahkan Permasalahan Dalam Pengelolaan Data.” [Online]. Available: www.IJCSI.org.

[3] A. Muji, L. Sholihin, R. Utami, and P. Septianto, “HETEROGENEUS MULTIPLE CLASSIFIERS MENGGUNAKAN C4.5, K-NEAREST NEIGHBOR DAN NAIpVE BAYES UNTUK MENENTUKAN TINGKAT PEMBAHARUAN POLIS ASURANSI JIWA,” Merdeka Indonesia Jurnal International, vol. 3,

no. 1, pp. 44–53, Jun. 2023, [Online]. Available:

https://merdekaindonesia.com/index.php/MerdekaIndonesiaJournalInternati/article/view/68 [4] M. Rangga, A. Nasution, and M. Hayaty, “Perbandingan Akurasi dan Waktu Proses Algoritma K-NN dan SVM dalam Analisis Sentimen Twitter,” JURNAL INFORMATIKA, vol. 6, no. 2, pp. 212–218, 2019, [Online]. Available: http://ejournal.bsi.ac.id/ejurnal/index.php/ji

[5] P. Rawinda Meliala, “Perbandingan Algoritma Machine Learning untuk Survivabilitas dan Biaya Pengobatan Pasien Kanker Paru-paru di Taiwan,” 2021.

[6] M. Sholeh, S. #2, and D. Andayati, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Machine Linear untuk Analisis Regresi Linier Biaya Asuransi Kesehatan dengan Menggunakan Python Jupyter Notebook,” 2022, [Online]. Available: www.data.jakarta.go.id.

[7] S. Zhang, C. Zhang, and Q. Yang, “Data preparation for data mining,” Applied Arti;icial Intelligence, vol. 17, no. 5–6, pp. 375–381, May 2003, doi: 10.1080/713827180.

[8] T. A.M and A. Yaqin, “Perbandingan Algoritma Naı̈ve Bayes, K-Nearest Neighbors dan Random Forest untuk Klasiwikasi Sentimen Terhadap BPJS Kesehatan pada Media Twitter,” InComTech : Jurnal Telekomunikasi dan Komputer, vol. 12, no. 1, p. 01, Apr. 2022, doi:

10.22441/incomtech.v12i1.13642.

[9] D. Muhidin and A. Wibowo, “STRING (Satuan Tulisan Riset dan Inovasi Teknologi) PERBANDINGAN KINERJA ALGORITMA SUPPORT VECTOR MACHINE DAN K-NEAREST NEIGHBOR TERHADAP ANALISIS SENTIMEN KEBIJAKAN NEW NORMAL.” [Online]. Available:

www.kompas.com

[10] F. Yulian Pamuji, V. Puspaning Ramadhan, and R. Artikel, “Jurnal Teknologi dan Manajemen Informatika Komparasi Algoritma Random Forest Dan Decision Tree Untuk Memprediksi Keberhasilan Immunotheraphy Info Artikel ABSTRAK,” vol. 7, pp. 46–50, 2021, [Online].

Available: http://http://jurnal.unmer.ac.id/index.php/jtmi

Referensi

Dokumen terkait

Kinerja algoritma Naive Bayes pada saat melakukan prediksi tidak membutuhkan waktu lama karena memiliki kecepatan yang tinggi saat diaplikasikan ke dalam database

Kesimpulan yang diperoleh pada penelitian ini adalah dari hasil perbandingan algoritma klasifikasi k-Nearest Neighbour , Naïve Bayes dan C4.5 yang digunakan pada studi

Dengan melihat perbandingan tingkat akurasi dan AUC, maka dapat diketahui bahwa algoritma C4.5 memiliki akurasi dan performansi terbaik, sehingga rule yang dihasilkan

Setelah melakukan prediksi pada data pasien epilepsi dengan metode random forest dan SVM, langkah selanjutnya adalah membandingkan hasil klasifikasi dari dua metode yang

Dari semua hasil data testing dengan periode 6 bulan bahwa algoritma yang memiliki accuracy, precision, dan recall dengan jumlah paling tinggi adalah algoritma Support

Hasil analisis menunjukkan bahwa regresi linear memiliki kinerja yang lebih baik dalam hal prediksi tarif ojek online, dengan nilai Root Mean Square Error RMSE dan Mean Squared Error

KESIMPULAN Kesimpulan yang didapat adalah dengan diperoleh hasil akurasi yang lebih besar dari 70% untuk semua metode menunjukkan bahwa metode yang digunakan dalam artikel ini cukup

Pada data breast Hasil akurasi tertinggi dari pengujian yang telah dilakukan adalah sebesar 57,40% pada metode KNN dengan k=1 dan 53,12% pada metode SVM dengan kernel linear,