Studi Kasus Feature Engineering Untuk Data Teks: Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi

(1)

93

Studi Kasus Feature Engineering Untuk Data Teks:

Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi

Cevi Herdian¹, Ahya Kamila², I Gusti Agung Musa Budidarma ³

1,2 Program Studi Sains Data, Fakultas Teknologi dan Design, Universitas Bunda Mulia, Indonesia.

3Program Studi Bisnis Digital, Fakultas Teknologi dan Design, Universitas Bunda Mulia, Indonesia.

Informasi Artikel:

Dikirim: 13-12-2023; Diterima: 28-12-2023; Diterbitkan: 18-01-2024 Doi : http://dx.doi.org/10.31602/tji.v15i1.13457

ABSTRAK

Di dalam pemodelan pembelajaran mesin (Machine Learning), data terbagi menjadi jenis data numerik dan jenis data teks. Tetapi Machine Learning lebih cenderung efektif dalam mengenali pola pada jenis data numerik karena algoritma Machine Learning, terutama yang berbasis statistik dan matematika, dirancang untuk memproses dan menganalisis data numerik. Sehingga bentuk data teks harus dirubah ke dalam bentuk data numerik yang merupakan bagian dari Feature Engineering. Pada penelitian ini, peneliti membanding sebuah hasil akurasi dari prediksi Machine Learning yaitu linear regresi pada teks label data yang telah dilakukan perubahan menjadi numerik dengan metode Feature engineering Label Encoding dan juga Feature Engineering One-Hot Encoding. Pada penelitian ini didapatkan hasil R-Square untuk Label Encoding 0.54 dan R-Squared untuk One-Hot Encoding 0.85 (hasil One-Hot Encoding lebih baik). Sehingga tentu saja yang harus dipilih untuk model yang dibuat adalah Feature Engineering One-Hot Encoding.

Untuk kedepannya bisa dilakukan pengujian dengan metode lain untuk merubah data teks menjadi numerik seperti Bags of Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), dan yang lainnya.

Kata Kunci: Machine learning, Feature Engineering, Label Encoding, one-hot encoding

Pendahuluan

Saat ini, peningkatan penggunaan teknik pembelajaran mesin (Machine Learning) untuk mengidentifikasi dan meramalkan tren di berbagai industri adalah hasil dari perkembangan teknologi yang terus-menerus dan cepat [1], [2]. Salah satu aspek penting dalam pembangunan model prediktif melibatkan teknik Feature Engineering yaitu sebuah teknik merekayasa fitur-fitur, karena sangat diperlukan untuk menciptakan representasi data yang sesuai untuk model pembelajaran [3], [4].

Fokus utama dalam Feature Engineering pada saat ini adalah membandingkan metode Label Encoding dengan One-Hot Encoding terutama saat diterapkan pada data yang memiliki label atau kategori (data teks) [5], [6]. Dalam kerangka ini, penelitian ini bertujuan untuk mendapatkan hasil prediksi model yang lebih akurat dengan akurasi yang tinggi.

(2)

94 Pada penelitian ini, peneliti mengambil sebuah studi kasus prediksi harga mobil bekas.

Memprediksi harga jual mobil bekas adalah tugas yang kompleks. Hal tersebut karena adanya variasi yang signifikan dalam karakteristik data seperti merek, model, tahun pembuatan, kondisi kendaraan dll. Dengan melakukan penelitian ini, diharapkan peneliti dapat memperdalam pemahaman mengenai penggunaan Label Encoding dan One-Hot Encoding untuk meningkatkan performa model prediktif pada suatu dataset.

Penelitian ini akan mencakup pengujian akurasi terkait penjualan mobil bekas dengan memperhatikan beberapa faktor seperti distribusi merek, fluktuasi harga berdasarkan model, dan faktor-faktor lain yang mempengaruhi tingkat ketidakpastian harga kendaraan.

Penelitian ini bertujuan untuk mencari akurasi terbaik untuk studi kasus prediksi harga mobil bekas. Lebih spesifik, hasil penelitian ini akan memberikan wawasan berharga bagi peneliti, praktisi industri, dan pengembang bagaimana memperlakukan data yang terdiri dari Sebagian besarnya adalah teks di dalam sebuah model pembelajaran mesin (Machine Learning). Fokus utama penelitian ini adalah pada pengembangan fitur dengan menggunakan teknik Feature Engineering Label Encoding dan juga One-Hot Encoding untuk mencari akurasi tertinggi [7], [8].

Metode

Penelitian kali ini merupakan sebuah penelitian kuantitatif, dimana dipergunakan dataset yang berasal dari Kaggle.com. Dataset tersebut berisi informasi data sebagai berikut:

Make, Model, Year, Engine Fuel Type, Engine Cylinders, Transmission Type, Driven Wheels, Number of Doors, Market Category, Vehicle Size, Vehicle Style, Highway Mpg, City MPG, dan Popularity, dan MSRP (harga).

Untuk lebih jelasnya, dibawah ini terdapat Flowchart untuk menjelaskan penelitian ini.

Gambar 1. Flowchart Penelitian

(3)

95 Data Preparation:

Pengumpulan, pembersihan, dan transformasi data mentah menjadi format yang cocok untuk analisis dikenal sebagai persiapan data (Data Preparation). Tahap ini memiliki peran krusial dalam proses penelitian untuk analisis data dan Machine Learning karena kualitas dan kesesuaian data dapat signifikan memengaruhi efektivitas dan akurasi dari analisis atau model yang dilakukan selanjutnya [9].

Proses dimulai dengan mengimpor data ke lingkungan Python menggunakan Google Colab. Selanjutnya, dilakukan pembersihan data untuk mengidentifikasi dan

menangani duplikat, outlier, nilai yang hilang, dan inkonsistensi dalam dataset, menjaga keakuratan dan kelengkapan informasi. Kemudian, proses transformasi data mencakup pengkodean variabel kategori dan teknik feature engineering guna

meningkatkan kinerja model. Selain itu, data diformat secara tepat, dan dataset telah siap digunakan dalam analisis atau algoritma Machine Learning tertentu[10].

Exploratory Data Analysis (EDA):

Exploratory Data Analysis (EDA) dikenal sebagai analisis data eksploratif. Ini adalah pendekatan untuk menyelidiki secara mendalam dataset dengan tujuan mengungkapkan fitur-fitur utamanya, seringkali melalui penggunaan grafik statistik dan berbagai teknik visualisasi data. Menemukan pola, keterkaitan, anomali, dan wawasan dalam data merupakan fokus utama dari analisis data eksploratif (EDA), yang kemudian menjadi dasar untuk analisis dan pemodelan lebih lanjut [11].

EDA merupakan tahap kritis dalam proses analisis data karena memberikan wawasan menyeluruh tentang data, memungkinkan peneliti dan analis membuat keputusan yang terinformasi mengenai langkah-langkah berikutnya dalam alur kerja analisis atau pemodelan [12]. EDA umumnya dilakukan sebelum menerapkan pemodelan statistik formal untuk membimbing analisis lebih mendalam. Beberapa metode yang sering digunakan melibatkan analisis deskriptif, penentuan jenis variabel, penanganan data yang hilang, serta eksplorasi korelasi atau hubungan antar fitur.

Gambar 2. Exploratory Data Analysis

(4)

96 Label Encoding:

Dalam pembelajaran mesin dan pra-pemrosesan data, Label Encoding adalah metode yang mengubah data kategorikal—yang direpresentasikan sebagai label teks—menjadi format numerik. Dengan kata lain, hal ini melibatkan pemberian nilai numerik yang unik untuk setiap kategori atau label dalam variabel kategorikal [13].

Misalnya label "Warna," sebagai variabel kategorikal dengan label "Merah," "Hijau,"

dan "Biru." Label-label ini dapat diberikan nilai numerik berturut-turut 0, 1, dan 2 dalam label encoding. Pemetaannya akan mirip dengan ini:

Merah: 0 Hijau: 1 Biru: 2

Karena banyak algoritma pembelajaran mesin berkinerja lebih baik pada data numerik, label encoding sering digunakan saat bekerja dengan jenis algoritma tersebut. Penting untuk diingat bahwa proses Label Encoding menciptakan hubungan ordinal di antara kategori-kategori, menunjukkan adanya urutan yang mungkin tidak ada dalam data asli.

One-Hot Encoding:

One-Hot Encoding dalam pemrosesan data dan Machine Learning merujuk pada teknik yang digunakan untuk menggambarkan variabel kategorikal sebagai vektor biner.

Dalam metode ini, setiap kategori atau label diubah menjadi vektor biner dengan panjang yang setara dengan jumlah total kategori yang berbeda dalam variabel tersebut. Semua elemen vektor memiliki nilai nol, kecuali indeks yang sesuai dengan kategori, yang diwakili oleh angka 1 [14].

Bayangkan situasinya, sebagai contoh, jika terdapat tiga kategori dalam variabel kategorikal "Warna," yaitu Merah, Hijau, dan Biru. Representasi One-Hot Encoding untuk setiap kategori adalah sebagai berikut:

Red: [1, 0, 0]

Green: [0, 1, 0]

Blue: [0, 0, 1]

Walaupun One-Hot Encoding memiliki keunggulan, metode ini bisa menghasilkan ruang fitur yang memiliki dimensi tinggi, terutama ketika digunakan pada dataset yang memiliki banyak kategori. Dalam konteks tersebut, diperlukan pertimbangan yang cermat untuk menyeimbangkan kelebihan representasi dengan potensi peningkatan kompleksitas komputasi [15].

(5)

97 Modeling: Machine Learning Modeling Linear Regression

Model Regresi Linier dalam Pembelajaran Mesin (Machine Learning) adalah algoritma dasar yang digunakan untuk memprediksi variabel hasil yang bersifat kontinu berdasarkan satu atau lebih variabel prediktor. Dengan kata lain, algoritma ini membangun model hubungan antara variabel independen (fitur atau prediktor) dan variabel dependen (juga dikenal sebagai variabel target atau respons) dengan menyesuaikan persamaan linear pada data yang diamati [16].

Persamaan untuk Linear Regression bisa dilihat dibawah ini:

Y = mx+b (1)

Dimana,

y adalah variabel dependen, x adalah variabel independen,

m adalah kemiringan garis (koefisien yang mewakili hubungan antara x dan y), b adalah y-intercept (titik di mana garis memotong sumbu y).

Dalam kasus regresi linear berganda, di mana terdapat beberapa variabel prediktor, persamaannya menjadi:

y=b0+b1x1+b2x2+…+bnxn (2) Dimana,

b0 adalah y-intercept,

b1, b2 ,…, bn adalah koefisien untuk masing-masing variabel prediktor yang sesuai, yaitu x1,x2,…,xn.

Dalam tugas-tugas seperti meramalkan penjualan, memprediksi harga rumah, dan mengeksplorasi keterkaitan antar variabel, regresi linear seringkali menjadi pilihan.

Metode ini sangat berguna dalam konteks pemodelan statistik dan analisis prediktif karena algoritmanya yang sederhana namun efektif, serta memiliki asumsi dan interpretasi yang baik [17].

(6)

98 Evaluasi Model:

Setiap model Machine Learning memerlukan suatu parameter yang berpengaruh terhadap kualitasnya [18]. Dalam penelitian ini, beberapa parameter digunakan, sebagaimana dijelaskan di bawah ini.

• Mean Absolute Error (MAE) merupakan metode perhitungan yang digunakan untuk mengukur selisih rata-rata secara mutlak antara nilai prediksi dan nilai aktual. Pendekatan ini menghasilkan nilai yang setara untuk setiap kesalahan yang terjadi [19].

• Mean Squared Error (MSE) adalah suatu metode perhitungan yang mengevaluasi rata-rata perbedaan kuadrat antara nilai prediksi dan nilai aktual.

Dalam pendekatan ini, kesalahan yang lebih besar dikenakan sanksi yang lebih berat daripada yang terjadi pada Metode Mean Absolute Error (MAE) [20].

• Root Mean Squared Error (RMSE) merupakan akar kuadrat dari MSE dan memberikan indikator rata-rata ukuran kesalahan dalam unit yang sama dengan variabel target [21].

• Koefisien determinasi (R-squared atau R2) mengukur seberapa besar varians dalam variabel target dapat dijelaskan oleh model. Skala nilai R2 berkisar dari 0 hingga 1, dimana nilai yang lebih tinggi menandakan tingkat kesesuaian yang lebih baik [22], [23], [24], [25]

Hasil

Hasil akhir dari proses yang telah dilakukan peneliti terbagi menjadi beberapa bagian yaitu Data Preparation, Exploratory Data Analysis (EDA), Machine Learning Modeling, dan Evaluasi Model. Pada bagian diskusi ini, akan dijabarkan hasil analisis, temuan penelitian, dan pembahasannya dengan pendekatan ilmiah. Selain itu, terdapat juga grafik-grafik yang mendukung hasil tersebut.

Data Preparation:

Data yang telah didownload di Kaggle.com lalu diimpor ke dalam python dengan menggunakan Google Colab (Python Editor). Dan peneliti menggunakan data struktur dataframe (rows dan columns) untuk mempermudah proses analisis kedepannya.

(7)

99 Gambar 3. Dataframe

Dalam tabel data tersebut, terdapat elemen data yang mencakup fitur dan target, dengan fitur yang melibatkan unsur-unsur berikut:

Model, Year, Engine Fuel Type, Engine Cylinders, Transmission Type, Driven Wheels, Market Category, Vehicle Size, Vehicle Style , dan Popularity, Number of Doors, Make, Highway Mpg, City MPG.

Dan sebagai targetny yaitu MSRP atau Price.

Exploratory Data Analysis (EDA):

Dalam penelitian ini, ada bebera EDA yang telah dibuat diantaranya adalah Summary Statistics, Counting Missing Value, Distribution, dan juga Outliers.

• Summary Statistics: adalah ukuran deskriptif yang memberikan gambaran singkat tentang fitur utama suatu dataset, memberikan wawasan tentang ukuran pemusatan, variabilitas, dan distribusinya.

• Counting Missing Value: adalah jumlah data yang hilang atau tidak ada

• Distribution: suatu hal yang merujuk pada nilai-nilai dalam suatu set data tersebar atau didistribusikan. Hal tersebut memberikan gambaran tentang sejauh mana nilai-nilai cenderung terkumpul di sekitar nilai pusat dalam dataset.

• Outliers: Outliers atau pencilan adalah nilai-nilai yang secara signifikan berbeda dari mayoritas nilai dalam sebuah dataset.

Gambar 4. Summary Statistics

(8)

100 Gambar 5. Missing Value

Gambar 6. Distribusi Harga

(9)

101 Gambar 7. Outliers

Label Encoding:

Label encoding adalah suatu metode dalam pengolahan data yang digunakan untuk mengonversi nilai-nilai dalam satu kolom kategori menjadi nilai numerik atau label.

Semua bentuk teks yang berupa label seperti fitur yang telah dijelaskan diatas dibuah menjadi sebuah nilai numerik.

Gambar 8. Label Encoding One-Hot Encoding:

Dalam langkah ini, seluruh data yang bersifat teks atau non-numerik diubah menjadi fitur baru, sebagaimana telah dijelaskan sebelumnya. Hal ini mengakibatkan peningkatan jumlah fitur dalam dataframe secara signifikan.

Gambar 9. One-Hot Encoding Modeling: Machine Learning Modeling Linear Regression

Pada pemodel kali ini, peneliti menggunakan dua buah pendekatan, yaitu Modeling Linear Regression dengan Feature Engineering Label Encoding dan Modeling Linear Regression dengan Feature Engineering One-Hot Encoding. Pada gambar dibawah ini diperlihatkan hasil model dan juga residu dari model tersebut di dalam data validation dan data testing.

(10)

102 Modeling dengan Feature Engineering Label Encoding:

Gambar 10. Data Validation: Modeling Linear Regression dengan Label Encoding

Gambar 11. Data Validation: Residu Modeling Linear Regression dengan Label Encoding

(11)

103 Gambar 12. Data Testing: Modeling Linear Regression dengan Label Encoding

Gambar 13. Data Testing: Residu Modeling Linear Regression dengan Label Encoding

Modeling dengan Feature Engineering One-Hot Encoding:

Gambar 14. Data Validation: Modeling Linear Regression dengan One-Hot Encoding

(12)

104 Gambar 15. Data Validation: Residu Modeling Linear Regression dengan One-Hot Label

Encoding

Gambar 16. Data Testing: Modeling Linear Regression dengan One-Hot Label Encoding

Gambar 17. Data Testing: Residu Modeling Linear Regression dengan One-Hot Label Encoding

Evaluasi:

Setelah membagi dataset menjadi data pelatihan (data training), validasi (data validation), dan pengujian (data testing), serta memisahkan fitur dan target, hasil untuk

(13)

105 parameter diperoleh seperti berikut.

Label Encoding

• Validation Mean Squared Error (MSE) Val label: 109991506.53359598

• Validation R-squared (R2) Val Label: 0.5413705047260811

• Validation Mean Absolute Error (MAE) Val Label: 7998.41289179089

• Validation Root Mean Squared Error (RMSE) Val Label: 10487.683563761637

• Test Mean Squared Error (MSE) Test Label: 124566883.54957971

• Test R-squared (R2) Test Label: 0.5046145795967711

• Test Mean Absolute Error (MAE) Test Label: 8038.770884489156

• Test Root Mean Squared Error (RMSE) Test Label: 11160.953523314203

One-Hot Encoding

• Validation Mean Squared Error (MSE) Val Onehot: 35849710.15965941

• Validation R-squared (R2) Val Onehot: 0.8505181445876561

• Validation Mean Absolute Error (MAE) Val Onehot: 3462.1756800781664

• Validation Root Mean Squared Error (RMSE) Val Onehot: 5987.462748081144

• Test Mean Squared Error (MSE) Test Onehot: 35510421.5103415

• Test R-squared (R2) Test Onehot: 0.8587799213777815

• Test Mean Absolute Error (MAE) Test Onehot: 3549.5871152778022

• Test Root Mean Squared Error (RMSE) Test Onehot: 5959.062133452

Pembahasan

Dari kedua Feature Enginering yang dilakukan yaitu Label Encoding dan juga One- Hot Encoding, peneliti menyimpulkan bahwa dalam studi kasus ini, One-hot Encoding memiliki akurasi yang jauh lebih besar daripada Label Encoding. Hal tersebut bisa dilihat di dalam parameter R-squared, dimana parameter ini menunjukan ukuran statistik yang digunakan dalam regresi linear untuk menilai seberapa besar bagian varians pada variabel dependen yang dijelaskan oleh variabel independen.

Untuk Label Encoding didapat R-squared 0.54 dan untuk One-Hot Encoding dihasilkan R-squared 0.85, sehingga dalam studi kasus ini peneliti berkesimpulan bahwa Feature Engineering yang dipilih adalah One-Hot Encoding.

Kesimpulan

Pengukuran ini memberikan informasi mengenai sejauh mana kinerja model Machine Learning. Kinerja model yang optimal dapat diidentifikasi melalui nilai yang lebih kecil untuk MAE, RMSE, dan MSE, serta nilai yang lebih tinggi untuk R2.

Dengan sedikit kesalahan yang relatif dan skor R-squared yang tinggi dalam situasi ini, model ini nampak berjalan dengan baik. Dimana terdapat selisih 0.31 antara penggunaan Label Encoding dan One-Hot Encoding. Sehingga tentu saja model yang akan dipilih adalah model yang menggunakan One-Hot Encoding.

(14)

106 Walaupun hasil dari pemodelan yang telah dilakukan sangat memuaskan, namun pemodelan Machine Learning selalu memberikan peluang untuk ditingkatkan. Berikut adalah beberapa teknik dan strategi lanjutan yang dapat dipertimbangkan untuk meningkatkan model yang telah ada. Beberapa pilihan dibawah layak untuk dicoba yang kemungkinan besar bisa meningkatkan akurasi pemodelan yang telah ada.

• Regularization Techniques: Regresi Ridge, Regresi Lasso, dan kombinasi keduanya (L1 dan L2)

• Polynomial Regression Degree: Eksperimen dengan derajat polinomial yang berbeda. Meskipun Anda menggunakan derajat 2, Anda dapat mencoba derajat yang lebih tinggi atau lebih rendah untuk melihat apakah itu meningkatkan kinerja model tanpa overfitting.

• Feature Engineering: Dengan cermat merancang, membuat, dan memilih fitur berdasarkan pengetahuan dalam bidang tertentu serta analisis data. Pemilihan fitur menggunakan metode seperti Recursive Feature Elimination (RFE) dapat memberikan manfaat.

Khusus untuk Feature Engineering, berikut adalah beberapa ide untuk fitur yang ditambahkan:

Age of the Car, Engine Displacement, Fuel Efficiency, Popularity Interaction,

Categorical Feature Interactions, Log Transformation, Binning, Year Grouping, dan Feature Scaling.

Referensi

[1] M. Bertolini, D. Mezzogori, M. Neroni, and F. Zammori, “Machine Learning for industrial applications: A comprehensive literature review,” Expert Syst Appl, vol. 175, p. 114820, Aug. 2021, doi: 10.1016/j.eswa.2021.114820.

[2] A. Angelopoulos et al., “Tackling Faults in the Industry 4.0 Era—A Survey of Machine- Learning Solutions and Key Aspects,” Sensors, vol. 20, no. 1, p. 109, Dec. 2019, doi:

10.3390/s20010109.

[3] B. Rajoub, “Characterization of biomedical signals: Feature engineering and extraction,”

in Biomedical Signal Processing and Artificial Intelligence in Healthcare, Elsevier, 2020, pp. 29–50. doi: 10.1016/B978-0-12-818946-7.00002-0.

[4] W. Long, Z. Lu, and L. Cui, “Deep learning-based feature engineering for stock price movement prediction,” Knowl Based Syst, vol. 164, pp. 163–173, Jan. 2019, doi:

10.1016/j.knosys.2018.10.034.

(15)

107 [5] S. Alyoubi, M. Kalkatawi, and F. Abukhodair, “The Detection of Fake News in Arabic

Tweets Using Deep Learning,” Applied Sciences, vol. 13, no. 14, p. 8209, Jul. 2023, doi:

10.3390/app13148209.

[6] J. M. Johnson and T. M. Khoshgoftaar, “Encoding High-Dimensional Procedure Codes for Healthcare Fraud Detection,” SN Comput Sci, vol. 3, no. 5, p. 362, Jul. 2022, doi:

10.1007/s42979-022-01252-4.

[7] M. Kuhn and K. Johnson, Feature Engineering and Selection. Chapman and Hall/CRC, 2019. doi: 10.1201/9781315108230.

[8] S. P. R.M. et al., “An effective feature engineering for DNN using hybrid PCA-GWO for intrusion detection in IoMT architecture,” Comput Commun, vol. 160, pp. 139–149, Jul.

2020, doi: 10.1016/j.comcom.2020.05.048.

[9] F. Emmert-Streib, Z. Yang, H. Feng, S. Tripathi, and M. Dehmer, “An Introductory Review of Deep Learning for Prediction Models With Big Data,” Front Artif Intell, vol. 3, Feb. 2020, doi: 10.3389/frai.2020.00004.

[10] C. Starbuck, “Data Preparation,” in The Fundamentals of People Analytics, Cham:

Springer International Publishing, 2023, pp. 79–95. doi: 10.1007/978-3-031-28674-2_6.

[11] A. Páez and G. Boisjoly, “Exploratory Data Analysis,” 2022, pp. 25–64. doi: 10.1007/978- 3-031-20719-8_2.

[12] A. A.-W. Shahba, W. Soufan, O. Altwijri, E. Alsadoon, and S. Alkathiri, “The Impact of Student Response Systems (SRS) on Student Achievements: A University-Scale Study with Deep Exploratory Data Analysis (EDA),” Systems, vol. 11, no. 8, p. 384, Jul. 2023, doi: 10.3390/systems11080384.

[13] R. LaRose and B. Coyle, “Robust data encodings for quantum classifiers,” Phys Rev A (Coll Park), vol. 102, no. 3, p. 032420, Sep. 2020, doi: 10.1103/PhysRevA.102.032420.

[14] K. Zhang et al., “Description-Enhanced Label Embedding Contrastive Learning for Text Classification,” IEEE Trans Neural Netw Learn Syst, pp. 1–14, 2023, doi:

10.1109/TNNLS.2023.3282020.

[15] P. Cerda and G. Varoquaux, “Encoding High-Cardinality String Categorical Variables,”

IEEE Trans Knowl Data Eng, vol. 34, no. 3, pp. 1164–1176, Mar. 2022, doi:

10.1109/TKDE.2020.2992529.

[16] G. James, D. Witten, T. Hastie, R. Tibshirani, and J. Taylor, “Linear Regression,” 2023, pp.

69–134. doi: 10.1007/978-3-031-38747-0_3.

[17] D. Maulud and A. M. Abdulazeez, “A Review on Linear Regression Comprehensive in Machine Learning,” Journal of Applied Science and Technology Trends, vol. 1, no. 4, pp.

140–147, Dec. 2020, doi: 10.38094/jastt1457.

(16)

108 [18] G. Varoquaux and O. Colliot, “Evaluating Machine Learning Models and Their Diagnostic

Value,” 2023, pp. 601–630. doi: 10.1007/978-1-0716-3195-9_20.

[19] M. Ćalasan, S. H. E. Abdel Aleem, and A. F. Zobaa, “On the root mean square error (RMSE) calculation for parameter estimation of photovoltaic models: A novel exact analytical solution based on Lambert W function,” Energy Convers Manag, vol. 210, p.

112716, Apr. 2020, doi: 10.1016/j.enconman.2020.112716.

[20] D. Chicco, M. J. Warrens, and G. Jurman, “The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation,” PeerJ Comput Sci, vol. 7, p. e623, Jul. 2021, doi: 10.7717/peerj-cs.623.

[21] G. Zenkner and S. Navarro-Martinez, “A flexible and lightweight deep learning weather forecasting model,” Applied Intelligence, vol. 53, no. 21, pp. 24991–25002, Nov. 2023, doi: 10.1007/s10489-023-04824-w.

[22] R. Di Mari, S. Ingrassia, and A. Punzo, “Local and Overall Deviance R-Squared Measures for Mixtures of Generalized Linear Models,” J Classif, vol. 40, no. 2, pp. 233–266, Jul.

2023, doi: 10.1007/s00357-023-09432-4.

[23] C. Herdian, “Prediksi Harian Harga Penutupan Dogecoin: Analisis Faktor Pengaruh dan Algoritmanya,” Techno Xplore : Jurnal Ilmu Komputer dan Teknologi Informasi, vol. 8, no. 1, pp. 17–27, Apr. 2023, doi: 10.36805/technoxplore.v8i1.4423.

[24] J. F. Andry, H. Hartono, Honni, A. Chakir, and Rafael, “Data Set Analysis Using Rapid Miner to Predict Cost Insurance Forecast with Data Mining Methods,” Journal of Hunan University Natural Sciences, vol. 49, no. 6, pp. 167–175, Jun. 2022, doi:

10.55463/issn.1674-2974.49.6.17.

[25] “Big Data Analytics in Healthcare: COVID-19 Indonesia Clustering,” Journal of Population Therapeutics and Clinical Pharmacology, vol. 30, no. 4, Jan. 2023, doi:

10.47750/jptcp.2023.30.04.028.