• Tidak ada hasil yang ditemukan

Evaluasi Model Klasifikasi Pembelian Pelanggan Menggunakan PCA dan LDA

N/A
N/A
Denaya Ferrari

Academic year: 2024

Membagikan "Evaluasi Model Klasifikasi Pembelian Pelanggan Menggunakan PCA dan LDA"

Copied!
20
0
0

Teks penuh

(1)

UJIAN AKHIR SEMESTER PENGENALAN POLA

Evaluasi Kinerja Model Klasifikasi pada Data Pembelian Pelanggan Menggunakan Principal Component Analysis (PCA) dan Linear

Discriminant Analysis (LDA) Dosen Pengampu :

Dr. Muhammad Munsarif S. Kom., M. Kom Dhendra Marutho, M. Kom

Disusun oleh :

Denaya Ferrari Noval Agatra C2C021047

PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS MUHAMMADIYAH SEMARANG

TAHUN 2023/2024

(2)

i DAFTAR ISI

BAB I ... 1

PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Penelitian ... 2

1.4 Manfaat Penelitian ... 3

1.5 Batasan Masalah... 3

BAB II ... 4

LANDASAN TEORI ... 4

2.1 Klasifikasi ... 4

2.2 Principal Component Analysis (PCA) ... 4

2.3 Linear Discriminant Analysis (LDA)... 5

2.4 Model – Model Klasifikasi... 6

BAB III ... 8

METODOLOGI ... 8

3.1 Deskripsi Data ... 8

3.2 Preprocessing Data ... 9

3.3 Implementasi PCA dan LDA ... 10

3.5 Model Klasifikasi ... 10

3.6 Evaluasi Model... 10

BAB IV ... 12

HASIL DAN PEMBAHASAN ... 12

4.1 Hasil Eksperimen ... 12

4.2 Perbandingan Kinerja Model ... 14

BAB V ... 16

PENUTUP ... 16

5.1 Kesimpulan ... 16

5.2 Saran ... 16

DAFTAR PUSTAKA ... 17

(3)

1 BAB I PENDAHULUAN

1.1 Latar Belakang

Machine Learning (ML) adalah salah satu teknologi terkini yang paling menarik. Ini adalah bidang ilmu data yang berkembang pesat yang berhubungan dengan mesin yang belajar dari pengalaman mereka. Salah satu tantangannya adalah membantu membuat prediksi untuk data keuangan (DaCorte, A.M. 2022).

Dengan kata lain, ML terkait dengan aplikasi komputer yang secara otomatis meningkatkan kinerja keseluruhannya melalui pengalaman (Li, Y. 2019). ML berpotensi mengembangkan sistem yang dapat secara otomatis beradaptasi dan menyesuaikan diri dengan pengguna individu.

Karena besarnya jumlah data yang dapat diakses oleh organisasi dan perluasan kemampuan perangkat keras, pendekatan pembelajaran mesin telah meningkat dalam hal kekuatan dan efisiensi dalam menangani lebih banyak tantangan di masyarakat kita. Salah satu aplikasi penting dari pembelajaran mesin adalah dalam menganalisis data pembelian pelanggan untuk berbagai tujuan bisnis, termasuk meningkatkan strategi pemasaran dan memahami perilaku konsumen.

Berbagai teknik pembelajaran mesin dan penambangan data dapat digunakan untuk tugas ini, termasuk jaringan Bayesian, pohon keputusan (DT), mesin vektor pendukung (SVM), k-nearest neighbor (KNN), jaringan saraf, model Markov tersembunyi (HMM), sistem kekebalan buatan (AIS), dan peta pengorganisasian diri (SOM) (Kumar et al., 2022).

Tujuan utama dari analisis data pembelian pelanggan adalah untuk memperoleh wawasan yang dapat membantu pengambilan keputusan yang lebih baik dan meningkatkan kinerja bisnis. Namun demikian, pendekatan tradisional sering kali tidak cukup untuk menangani kompleksitas dan volume data yang besar.

Oleh karena itu, teknik seperti Principal Component Analysis (PCA) dan Linear Discriminant Analysis (LDA) digunakan untuk mereduksi dimensi data, yang dapat meningkatkan efisiensi dan akurasi model klasifikasi (Ali et al., 2022).

(4)

2

PCA dan LDA adalah teknik reduksi dimensi yang membantu dalam mengurangi kompleksitas data sambil mempertahankan informasi penting. PCA bekerja dengan mengidentifikasi komponen utama yang menjelaskan variansi terbesar dalam data, sementara LDA memaksimalkan separasi antar kelas dalam data. Dalam proyek ini, kami mengevaluasi kinerja model klasifikasi pada data pembelian pelanggan dengan menggunakan PCA dan LDA (Hayati et al., 2024).

Prosedur ini memerlukan kemampuan identifikasi dan deteksi yang akurat untuk memberikan wawasan yang berharga. Oleh karena itu, sistem harus dilatih secara menyeluruh dengan data yang sesuai agar berhasil mengklasifikasikan data pembelian pelanggan. Pembelajaran mesin adalah proses sistem atau pembelajaran mesin melalui pendekatan statistik seperti pengelompokan, regresi, dan klasifikasi (Dawood et al., 2019).

1.2 Rumusan Masalah

Adapaun beberapa rumusan maslaah dari penelitian ini adalah:

1. Apakah kinerja model klasifikasi dalam memprediksi pembelian pelanggan setelah dilakukan reduksi dimensi menggunakan Principal Component Analysis (PCA) dan Linear Discriminant Analysis (LDA)?

2. Apakah penggunaan PCA dan LDA dapat meningkatkan akurasi, presisi, dan efisiensi model klasifikasi dalam memprediksi perilaku pembelian pelanggan dibandingkan dengan model tanpa reduksi dimensi?

.

1.3 Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah:

1. Mengevaluasi kinerja berbagai model klasifikasi dalam memprediksi pembelian pelanggan setelah dilakukan reduksi dimensi menggunakan PCA dan LDA.

2. Membandingkan efektivitas PCA dan LDA dalam meningkatkan akurasi, presisi, dan efisiensi model klasifikasi dibandingkan dengan model yang tidak menggunakan reduksi dimensi.

(5)

3 1.4 Manfaat Penelitian

Beberapa manfaat yang didapatkan dari penelitian ini, sebagai berikut:

1. Memberikan wawasan bagi praktisi data dalam memilih teknik reduksi dimensi yang paling efektif untuk meningkatkan kinerja model klasifikasi pada data pembelian pelanggan.

2. Menyediakan panduan bagi perusahaan dalam mengimplementasikan pembelajaran mesin untuk analisis data pembelian pelanggan, yang dapat membantu dalam meningkatkan strategi pemasaran dan pengambilan keputusan bisnis.

3. Memperluas pengetahuan akademis mengenai pengaruh teknik reduksi dimensi terhadap kinerja model klasifikasi dalam konteks analisis data pembelian pelanggan.

1.5 Batasan Masalah

Beberapa batasan masalah dalam penelitian ini sebagai berikut:

1. Data yang digunakan dalam penelitian ini terbatas pada data pembelian pelanggan dari satu sumber atau dataset tertentu, yang mungkin tidak mewakili semua jenis perilaku pelanggan di berbagai industri.

2. Penelitian ini hanya fokus pada teknik reduksi dimensi PCA dan LDA, dan tidak mencakup teknik reduksi dimensi lainnya yang mungkin juga efektif dalam meningkatkan kinerja model klasifikasi.

3. Model klasifikasi yang dievaluasi dalam penelitian ini dibatasi pada beberapa algoritme populer seperti Logistic Regression, Support Vector Machine, Naive Bayes, Decision Tree, dan Random Forest, sehingga hasil penelitian mungkin tidak mencerminkan kinerja model lain yang belum diuji.

4. Penelitian ini tidak mempertimbangkan faktor-faktor eksternal yang dapat mempengaruhi perilaku pembelian pelanggan, seperti tren ekonomi atau perubahan kebijakan perusahaan.

(6)

4 BAB II

LANDASAN TEORI

2.1 Klasifikasi

Klasifikasi adalah metode analisis data yang digunakan untuk memprediksi label atau kategori dari data baru berdasarkan data yang telah ada. Teknik ini sangat berguna dalam berbagai aplikasi seperti deteksi penipuan, diagnosis medis, dan analisis pemasaran (Ali et al., 2022). Dengan menggunakan algoritma klasifikasi, kita dapat membangun model yang mampu mengidentifikasi pola dalam data historis dan mengaplikasikannya untuk mengklasifikasikan data baru. Beberapa algoritma klasifikasi yang umum digunakan antara lain Logistic Regression, Support Vector Machine (SVM), Naive Bayes, Decision Tree, dan Random Forest.

Setiap algoritma memiliki kelebihan dan kekurangan yang berbeda, sehingga pemilihan algoritma yang tepat sangat penting untuk mendapatkan hasil prediksi yang akurat(Saha et al., n.d.).

2.2 Principal Component Analysis (PCA)

Principal Component Analysis (PCA) adalah teknik statistik yang digunakan untuk mereduksi dimensi dari dataset yang memiliki banyak variabel dengan cara mentransformasikannya menjadi variabel baru yang disebut principal components. PCA berfungsi untuk mengurangi kompleksitas data tanpa kehilangan informasi penting. Teknik ini sering digunakan dalam pra-pemrosesan data untuk meningkatkan efisiensi dan kinerja model pembelajaran mesin. Dengan mereduksi dimensi data, PCA membantu dalam mengatasi masalah multikolinearitas dan overfitting yang sering muncul dalam model klasifikasi (Hayati et al., 2024;

Kongklad et al., 2022). PCA mentransformasi data asli X ke dalam ruang komponen utama Z dengan cara berikut:

A. Mean Centering

Mengurangi rata-rata dari setiap fitur..

𝑋𝐶𝑒𝑛𝑡𝑒𝑟𝑒𝑑 = 𝑋 − 𝜇

(7)

5 B. Covariance Matrix

Menghitung matriks kovarians dari data yang telah di-center.

𝐶 = 1

𝑛 − 1𝑋𝐶𝑒𝑛𝑡𝑒𝑟𝑒𝑑𝑇 𝑋𝐶𝑒𝑛𝑡𝑒𝑟𝑒𝑑

C. Eigen Decomposition

Menghitung eigenvektor dan eigennilai dari matriks kovarians.

𝐶𝑣 = 𝜆𝑣

D. Transformation

Menggunakan eigenvektor untuk mentransformasikan data ke ruang komponen utama.

𝑧 = 𝑋𝐶𝑒𝑛𝑡𝑒𝑟𝑒𝑑𝑉

Di mana V adalah matriks yang kolom-kolomnya adalah eigenvektor yang disusun berdasarkan eigennilai terbesar.

2.3 Linear Discriminant Analysis (LDA)

Linear Discriminant Analysis (LDA) adalah teknik yang digunakan untuk mencari kombinasi linear dari fitur yang memisahkan dua atau lebih kelas data.

Tujuan utama LDA adalah untuk memaksimalkan separasi antar kelas sambil meminimalkan varians di dalam kelas. LDA sangat efektif dalam meningkatkan akurasi klasifikasi dengan memproyeksikan data ke dalam ruang yang berdimensi lebih rendah di mana kelas-kelas data lebih terpisah. Seperti PCA, LDA juga digunakan untuk reduksi dimensi, namun dengan fokus yang lebih pada meningkatkan separasi antar kelas daripada sekadar mengurangi variabilitas data (Hayati et al., 2024; Lasalvia et al., 2022). Langkah-langkah LDA adalah sebagai berikut:

A. Mean Vectors

Menghitung rata-rata untuk setiap kelas.

(8)

6 𝜇𝑘 = 1

𝑁𝑘𝛴𝑖=1𝑁𝑘 𝑋𝑖

B. Within-Class Scatter Matrix

Menghitung scatter matrix dalam kelas.

𝑆𝑤 = ∑ ∑ (𝑋𝑖− 𝜇𝑘)(𝑋𝑖 − 𝜇𝑘)𝑇

𝑁𝑘 𝑖=1 𝐾

𝜅=1

C. Between-Class Scatter Matrix

Menghitung scatter matrix antar kelas.

𝑆𝐵 = ∑ ∑ (𝜇𝑘− 𝜇)(𝜇𝑘− 𝜇)𝑇

𝑁𝑘 𝑖=1 𝐾

𝜅=1

D. Eigen Decomposition

Menghitung eigenvektor dan eigennilai dari matriks invers scatter dalam kelas dikalikan scatter antar kelas.

𝑆𝑤−1𝑆𝐵𝑣 = 𝜆𝑣

E. Transformation

Menggunakan eigenvektor untuk mentransformasikan data ke ruang LDA.

𝑍 = 𝑋𝑊

Di mana W adalah matriks yang kolom-kolomnya adalah eigenvektor yang disusun berdasarkan eigennilai terbesar..

2.4 Model – Model Klasifikasi

Model-model klasifikasi yang sering digunakan dalam analisis data meliputi Logistic Regression, Support Vector Machine (SVM), Naive Bayes, Decision Tree, dan Random Forest. Masing-masing model memiliki kelebihan dan kekurangan tergantung pada karakteristik data yang digunakan (Kumar et al., 2022). Berikut adalah gambaran singkat dari masing-masing model:

(9)

7

Logistic Regression: Model yang digunakan untuk memodelkan probabilitas kejadian dengan fungsi logistik. Sangat efektif untuk data biner.

Support Vector Machine (SVM): Model yang mencari hyperplane optimal yang memisahkan kelas dengan margin terbesar. Cocok untuk data dengan dimensi tinggi.

Naive Bayes: Model probabilistik yang menggunakan Teorema Bayes dengan asumsi independensi antar fitur. Cepat dan efisien untuk data besar.

Decision Tree: Model yang membagi data ke dalam subset yang homogen berdasarkan fitur-fitur tertentu. Mudah diinterpretasikan namun rentan terhadap overfitting.

Random Forest: Ensemble dari beberapa decision tree yang dibangun dengan sampel acak dari data. Mengurangi overfitting dan meningkatkan akurasi.

Dengan memahami konsep dasar PCA, LDA, dan model-model klasifikasi, kita dapat membangun dan mengevaluasi model yang lebih efektif dalam memprediksi perilaku pembelian pelanggan. Penelitian ini bertujuan untuk membandingkan kinerja model klasifikasi dengan dan tanpa reduksi dimensi menggunakan PCA dan LDA, serta memberikan rekomendasi tentang teknik yang paling efektif untuk analisis data pembelian pelanggan(Zhang et al., 2022).

(10)

8 BAB III METODOLOGI

3.1 Deskripsi Data

Data yang digunakan dalam proyek ini adalah data pembelian pelanggan dari sebuah perusahaan retail yang diperoleh dari Kaggle (https://www.kaggle.com/datasets/denisadutca/customer-behaviour). Dataset ini mencakup informasi demografis pelanggan serta riwayat pembelian mereka, yang bertujuan untuk menerapkan dan membandingkan berbagai algoritma pembelajaran mesin.

Data ini mencakup detail tentang 400 pelanggan dari sebuah perusahaan, termasuk ID unik, jenis kelamin, usia pelanggan, dan gaji. Selain itu, terdapat informasi mengenai keputusan pembelian, yaitu apakah pelanggan memutuskan untuk membeli produk tertentu atau tidak. Informasi ini membantu dalam memahami perilaku pelanggan dan faktor-faktor yang mempengaruhi keputusan pembelian mereka.

Dengan menggunakan data ini, kita dapat menerapkan berbagai algoritma pembelajaran mesin seperti Logistic Regression, SVM, Naive Bayes, Decision Tree, dan Random Forest untuk memprediksi perilaku pembelian pelanggan.

Selanjutnya, kita juga akan menerapkan teknik reduksi dimensi seperti PCA dan LDA untuk meningkatkan efisiensi dan akurasi model. Analisis ini bertujuan untuk memberikan wawasan mendalam tentang pola pembelian pelanggan dan membantu perusahaan dalam mengembangkan strategi pemasaran yang lebih efektif.

(11)

9

Gambar 1. Distribusi Data

3.2 Preprocessing Data

Tahapan preprocessing data adalah langkah krusial untuk memastikan kualitas dan kesiapan data sebelum analisis. Proses ini dimulai dengan penanganan nilai yang hilang (missing values) yang dapat muncul akibat ketidaklengkapan pengisian data atau kesalahan pencatatan, melalui metode seperti imputasi dengan nilai rata-rata atau penghapusan baris yang mengandung nilai hilang jika jumlahnya tidak signifikan. Setelah itu, data kategorikal seperti jenis kelamin pelanggan diubah menjadi bentuk numerik menggunakan teknik seperti one-hot encoding.

Normalisasi atau standardisasi data dilakukan untuk mengatur skala fitur agar memiliki rentang nilai yang sama, mencegah dominasi fitur dengan skala besar.

Langkah ini diikuti dengan deteksi dan penanganan outliers melalui metode statistik seperti Z-score atau IQR, serta penghapusan fitur yang tidak relevan atau redundan berdasarkan analisis korelasi antar fitur.

Tahap preprocessing juga mencakup pembagian data menjadi set pelatihan dan set pengujian dengan rasio seperti 80:20 atau 70:30 untuk memastikan evaluasi model yang akurat. Pembagian ini memastikan bahwa sebagian besar data digunakan untuk melatih model dan sisanya digunakan untuk menguji kinerjanya.

Dengan menyelesaikan tahap-tahap ini, data pembelian pelanggan dari perusahaan retail menjadi siap untuk dianalisis lebih lanjut menggunakan teknik Principal Component Analysis (PCA) dan Linear Discriminant Analysis (LDA), serta berbagai model klasifikasi yang akan diterapkan dalam penelitian ini..

(12)

10 3.3 Implementasi PCA dan LDA

Setelah tahap preprocessing, dimana data dibersihkan dan disiapkan untuk analisis lebih lanjut, langkah selanjutnya adalah menerapkan teknik reduksi dimensi Principal Component Analysis (PCA) dan Linear Discriminant Analysis (LDA).

PCA digunakan untuk mereduksi dimensi data dengan cara mengidentifikasi komponen utama yang menjelaskan variansi terbesar dalam dataset. Proses ini mengubah data ke dalam ruang baru yang terdiri dari komponen utama, sehingga mengurangi jumlah fitur tanpa menghilangkan informasi penting. Sebaliknya, LDA difokuskan pada menemukan kombinasi fitur yang memaksimalkan separasi antar kelas dalam data. Tidak seperti PCA, LDA mempertimbangkan informasi kelas selama proses reduksi dimensi, sehingga menghasilkan fitur baru yang optimal untuk klasifikasi.

3.5 Model Klasifikasi

Setelah reduksi dimensi dengan PCA dan LDA, langkah berikutnya adalah melatih berbagai model klasifikasi menggunakan data yang telah direduksi tersebut.

Model-model yang digunakan dalam penelitian ini mencakup Logistic Regression, Support Vector Machine (SVM), Naive Bayes, Decision Tree, dan Random Forest.

Setiap model dilatih menggunakan data hasil reduksi dari PCA dan LDA secara terpisah, sehingga memungkinkan perbandingan kinerja model berdasarkan kedua teknik reduksi dimensi ini. Proses pelatihan melibatkan penggunaan data latih untuk membangun model dan data uji untuk mengevaluasi kinerja prediksi model tersebut.

3.6 Evaluasi Model

Evaluasi kinerja model dilakukan dengan menghitung berbagai metrik evaluasi seperti accuracy, precision, recall, f1-score, dan ROC curve. Metrik-metrik ini memberikan gambaran menyeluruh tentang kemampuan model dalam mengklasifikasikan data dengan benar. Accuracy mengukur proporsi prediksi yang benar dari keseluruhan prediksi, precision mengukur proporsi prediksi positif yang

(13)

11

benar-benar positif, recall mengukur proporsi kasus positif yang terdeteksi dengan benar oleh model, f1-score merupakan rata-rata harmonis dari precision dan recall, dan ROC curve menggambarkan kinerja model dengan memperlihatkan trade-off antara true positive rate dan false positive rate pada berbagai threshold.

Dengan membandingkan metrik-metrik ini untuk masing-masing model setelah menggunakan PCA dan LDA, penelitian ini bertujuan untuk mengevaluasi seberapa baik setiap model berfungsi dengan data yang direduksi. Hasil evaluasi ini akan memberikan wawasan tentang efektivitas PCA dan LDA dalam meningkatkan kinerja model klasifikasi, serta membantu dalam memilih teknik dan model yang paling optimal untuk aplikasi pada data pembelian pelanggan .

(14)

12 BAB IV

HASIL DAN PEMBAHASAN

4.1 Hasil Eksperimen

Hasil dari pelatihan dan pengujian model Support Vector Machine (SVM) dan Logistic Regression akan disajikan dan dianalisis. Kedua model ini dievaluasi menggunakan metrik-metrik seperti precision, recall, f1-score, serta confusion matrix untuk memberikan gambaran kinerja mereka dalam mengklasifikasikan gambar MRI tumor otak.

A. Hasil dari Model tanpa PCA/LDA

Evaluasi kinerja model tanpa penerapan teknik reduksi dimensi PCA dan LDA dilakukan untuk memberikan baseline atau titik awal perbandingan. Tabel di bawah ini menyajikan metrik kualitas untuk berbagai algoritma klasifikasi yang digunakan dalam penelitian ini. Metrik yang dihitung mencakup accuracy, precision, recall, dan f1-score.

Tabel 1. Assessment of performance of classifiers without PCA/LDA Perfoma score of different Classifiers without PCA/LDA

Classification Algorithms

Quality metric parameters

Accuracy Precision Recall F1 - Score

Logistic Regression 1 1 1 1

K-Nearest Neighbour

(KNN) 1 1 1 1

Support Vector Machine

(SVM) 1 1 1 1

Gaussian Naive Bayes 1 1 1 1

Decision Tree 1 1 1 1

Random Forest 1 1 1 1

Dari tabel tersebut, terlihat bahwa semua algoritma klasifikasi menunjukkan kinerja sempurna dengan nilai metrik yang mencapai 1 pada semua parameter kualitas, yaitu accuracy, precision, recall, dan f1-score. Hal ini mungkin disebabkan oleh karakteristik dataset yang digunakan atau kondisi ideal pada data training dan testing. Hasil ini memberikan dasar yang kuat untuk membandingkan bagaimana

(15)

13

PCA dan LDA mempengaruhi performa model klasifikasi pada tahapan analisis selanjutnya.

B. Hasil dari Model dengan PCA

Hasil evaluasi untuk model yang diterapkan dengan PCA menunjukkan bahwa teknik ini dapat meningkatkan kinerja sebagian besar algoritma klasifikasi, dengan akurasi yang tinggi dihasilkan dari berbagai model. Tabel 2 menyajikan metrik kinerja untuk model-model yang diterapkan pada data setelah dimensi direduksi menggunakan PCA. Secara umum, Random Forest menunjukkan performa terbaik dengan akurasi 0.95, diikuti oleh K-Nearest Neighbour (KNN) dengan akurasi 0.93, dan Support Vector Machine (SVM) dengan akurasi 0.91.

Meskipun semua model menunjukkan kinerja yang solid, perbedaan dalam precision, recall, dan f1-score di antara model-model tersebut mencerminkan kekuatan dan kelemahan masing-masing algoritma dalam mengatasi data yang telah direduksi dimensinya.

Tabel 2. Assessment of performance of classifiers with PCA Perfoma score of different Classifiers with PCA

Classification Algorithms

Quality metric parameters

Accuracy Precision Recall F1 - Score Logistic Regression 0.89 0.90/0.84 0.95/0.73 0.92/0.78 K-Nearest Neighbour

(KNN) 0.93 0.96/0.83 0.93/0.91 0.95/0.87

Support Vector Machine

(SVM) 0.91 0.92/0.89 0.97/0.77 0.94/0.83

Gaussian Naive Bayes 0.88 0.89/0.83 0.95/0.68 0.92/0.75 Decision Tree 0.90 0.95/0.79 0.91/0.86 0.93/0.83 Random Forest 0.95 0.97/0.91 0.97/0.91 0.97/0.91

C. Hasil dai Model dengan LDA

Model yang diterapkan dengan LDA juga menunjukkan kinerja yang baik, dengan beberapa model menunjukkan performa lebih unggul dibandingkan dengan PCA. Tabel 3 menggambarkan hasil evaluasi untuk model-model yang diterapkan pada data setelah dimensi direduksi menggunakan LDA. Logistic Regression dan

(16)

14

Gaussian Naive Bayes tampil menonjol dengan akurasi masing-masing 0.93, sementara Random Forest menunjukkan akurasi sedikit lebih rendah di 0.85 dibandingkan dengan PCA. Meskipun beberapa model mengalami penurunan kinerja ketika menggunakan LDA dibandingkan dengan PCA, LDA secara keseluruhan memberikan nilai precision, recall, dan f1-score yang kompetitif.

Tabel 3. Assessment of performance of classifiers with LDA Perfoma score of different Classifiers with LDA

Classification Algorithms

Quality metric parameters

Accuracy Precision Recall F1 - Score Logistic Regression 0.93 0.93/0.90 0.97/0.82 0.95/0.86 K-Nearest Neighbour

(KNN) 0.86 0.90/0.76 0.91/0.73 0.91/0.74

Support Vector Machine

(SVM) 0.88 0.85/1 1/0.55 0.92/0.71

Gaussian Naive Bayes 0.93 0.93/0.90 0.97/0.82 0.95/0.86 Decision Tree 0.86 0.90/0.70 0.91/0.73 0.91/0.74 Random Forest 0.85 0.90/0.73 0.90/0.73 0.90/0.73

4.2 Perbandingan Kinerja Model

Visualisasi perbandingan akurasi model baik sebelum maupun sesudah penerapan PCA dan LDA menunjukkan adanya variasi dalam kinerja model tergantung pada teknik reduksi dimensi yang digunakan. Tabel 4 menyajikan perbandingan metrik kinerja untuk berbagai algoritma klasifikasi, baik tanpa penerapan PCA/LDA, dengan PCA, maupun dengan LDA. Secara umum, model- model klasifikasi menunjukkan penurunan performa setelah penerapan PCA dan LDA jika dibandingkan dengan hasil tanpa reduksi dimensi. Sebagai contoh, Random Forest, yang awalnya memiliki akurasi sempurna 1.00 tanpa PCA/LDA, menunjukkan akurasi 0.95 dengan PCA dan sedikit penurunan menjadi 0.85 dengan LDA. Demikian pula, K-Nearest Neighbour (KNN) mengalami penurunan akurasi dari 1.00 menjadi 0.93 dengan PCA dan 0.86 dengan LDA. Meskipun beberapa model mengalami penurunan performa, penggunaan PCA dan LDA tetap memberikan manfaat dalam mengurangi dimensi data dan memperbaiki separasi kelas, yang penting untuk aplikasi yang membutuhkan pengolahan data besar dan

(17)

15

kompleks. Variasi ini menekankan pentingnya memilih teknik reduksi dimensi yang tepat untuk model dan konteks spesifik dari analisis data.

Tabel 4. Perbandingan Semua Metode Compare All Methods

Classification Algorithms

Quality metric parameters Tanpa

PCA/LDA

Dengan PCA

Dengan LDA

Logistic Regression 1.00 0.89 0.93

K-Nearest Neighbour (KNN) 1.00 0.93 0.86

Support Vector Machine (SVM) 1.00 0.91 0.88

Gaussian Naive Bayes 1.00 0.88 0.93

Decision Tree 1.00 0.90 0.86

Random Forest 1.00 0.95 0.85

(18)

16 BAB V PENUTUP

5.1 Kesimpulan

Dalam penelitian ini, kami mengevaluasi kinerja model klasifikasi pada data pembelian pelanggan dengan menggunakan teknik Principal Component Analysis (PCA) dan Linear Discriminant Analysis (LDA) untuk reduksi dimensi. Hasil analisis menunjukkan bahwa penerapan PCA dan LDA memiliki dampak yang bervariasi terhadap akurasi model. Secara umum, sebagian besar model klasifikasi mengalami penurunan akurasi ketika menggunakan PCA dan LDA dibandingkan dengan kinerja mereka tanpa reduksi dimensi. Namun, teknik ini tetap menawarkan manfaat signifikan dalam hal reduksi dimensi dan pemrosesan data besar. Misalnya, Random Forest dan K-Nearest Neighbour menunjukkan penurunan performa yang signifikan dengan penerapan PCA dan LDA, tetapi tetap mempertahankan akurasi yang relatif tinggi. Di sisi lain, beberapa model seperti Gaussian Naive Bayes menunjukkan peningkatan atau stabilitas performa ketika menggunakan LDA. Hal ini menegaskan bahwa pemilihan teknik reduksi dimensi yang tepat dapat mempengaruhi hasil akhir dari model klasifikasi.

5.2 Saran

Berdasarkan temuan dari penelitian ini, disarankan untuk melakukan eksplorasi lebih lanjut terkait pengaruh teknik reduksi dimensi terhadap berbagai jenis model klasifikasi. Penelitian lebih mendalam tentang parameter dan konfigurasi yang optimal untuk PCA dan LDA dapat membantu dalam mengoptimalkan performa model. Selain itu, penambahan teknik reduksi dimensi lain dan kombinasi teknik yang berbeda dapat memberikan wawasan tambahan mengenai bagaimana cara terbaik untuk menangani data yang sangat besar dan kompleks. Implementasi metode evaluasi yang lebih komprehensif dan penyesuaian model berdasarkan karakteristik spesifik data juga dianjurkan untuk meningkatkan akurasi dan efektivitas model klasifikasi dalam aplikasi praktis.

(19)

17

DAFTAR PUSTAKA

Alfian, G., Octava, M. Q. H., Hilmy, F. M., Nurhaliza, R. A., Saputra, Y. M., Putri, D. G. P., Syahrian, F., Fitriyani, N. L., Atmaji, F. T. D., Farooq, U., Nguyen, D. T., & Syafrudin, M. (2023). Customer Shopping Behavior Analysis Using RFID and Machine Learning Models. Information (Switzerland), 14(10). https://doi.org/10.3390/info14100551

Ali, S., Hassan, M., Kim, J. Y., Farid, M. I., Sanaullah, M., & Mufti, H. (2022).

FF-PCA-LDA: Intelligent Feature Fusion Based PCA-LDA Classification System for Plant Leaf Diseases. Applied Sciences (Switzerland), 12(7).

https://doi.org/10.3390/app12073514

Chang, V., Hall, K., Xu, Q., Amao, F., Ganatra, M., & Benson, V. (2024).

Prediction of Customer Churn Behavior in the Telecommunication Industry Using Machine Learning Models. Algorithms, 17(6), 231.

https://doi.org/10.3390/a17060231

DaCorte, A.M. The Effects of the Internet on Financial Institutions’ Fraud Mitigation. Ph.D. Thesis, Utica University, Utica, NY, USA, 2022. 2.

Dai, Y., & Wang, T. (2021). Prediction of customer engagement behaviour response to marketing posts based on machine learning. Connection Science, 33(4), 891–910. https://doi.org/10.1080/09540091.2021.1912710

Dawood, E. A. E., Elfakhrany, E., & Maghraby, F. A. (2019). Improve profiling bank customer’s behavior using machine learning. IEEE Access, 7, 109320–

109327. https://doi.org/10.1109/ACCESS.2019.2934644

Fahimi, P. (2024). Binary color-coded magic squares: A study of uniqueness under rotation/reflection, PCA, and LDA analysis. Discrete Mathematics, 347(1). https://doi.org/10.1016/j.disc.2023.113708

Hayati, R., Munawar, A. A., Lukitaningsih, E., Earlia, N., Karma, T., & Idroes, R.

(2024). Combination of PCA with LDA and SVM classifiers: A model for determining the geographical origin of coconut in the coastal plantation, Aceh Province, Indonesia. Case Studies in Chemical and Environmental Engineering, 9. https://doi.org/10.1016/j.cscee.2023.100552

Kongklad, G., Chitaree, R., Taechalertpaisarn, T., Panvisavas, N., & Nuntawong, N. (2022). Discriminant Analysis PCA-LDA Assisted Surface-Enhanced Raman Spectroscopy for Direct Identification of Malaria-Infected Red Blood Cells. Methods and Protocols, 5(3). https://doi.org/10.3390/mps5030049 Kumar, S., Ahmed, R., Bharany, S., Shuaib, M., Ahmad, T., Tag Eldin, E.,

Rehman, A. U., & Shafiq, M. (2022). Exploitation of Machine Learning Algorithms for Detecting Financial Crimes Based on Customers’ Behavior.

Sustainability (Switzerland), 14(21). https://doi.org/10.3390/su142113875

(20)

18

Lasalvia, M., Capozzi, V., & Perna, G. (2022). A Comparison of PCA-LDA and PLS-DA Techniques for Classification of Vibrational Spectra. Applied Sciences (Switzerland), 12(11). https://doi.org/10.3390/app12115345 Li, Y. Credit risk prediction based on machine learning methods. In Proceedings

of the 2019 14th International Conference on Computer Science & Education (ICCSE), Toronto, ON, Canada, 19–21 August 2019; pp. 1011–1013.

Preetha, R., & Jinny, S. V. (2023). Retraction Note to: Early diagnose breast cancer with PCA-LDA based FER and neuro-fuzzy classification

system(Journal of Ambient Intelligence and Humanized Computing, (2020), 12, (7195–7204), 10.1007/s12652-020-02395-z). In Journal of Ambient Intelligence and Humanized Computing (Vol. 14, p. 277). Springer Science and Business Media Deutschland GmbH. https://doi.org/10.1007/s12652- 022-04063-w

Saha, L., Kumar Tripathy, H., Masmoudi, F., & Gaber, T. (n.d.). A Machine Learning Model for Personalized Tariff Plan based on Customer’s Behavior in the Telecom Industry. In IJACSA) International Journal of Advanced Computer Science and Applications (Vol. 13, Issue 10).

www.ijacsa.thesai.org

Zhang, C. C., Mei, M., Mei, Z. L., Zhang, J. K., Deng, A. Y., & Lu, C. L. (2022).

PLDANet: Reasonable Combination of PCA and LDA Convolutional Networks. International Journal of Computers, Communications and Control, 17(2). https://doi.org/10.15837/ijccc.2022.2.4541

Referensi

Dokumen terkait

Berdasarkan latar belakang diatas, rencana penelitian ini akan mengevaluasi potensi hidung elektronik yang dikombinasikan dengan metode linear discriminant analysis

Principal component analysis atau PCA merupakan salah satu metode yang digunakan dalam ekstraksi ciri, tujuan dari PCA adalah mereduksi ciri dari suatu citra, hal

Salah satu metode algoritma machine learning yang digunakan dalam penelitian ini adalah Principal Component Analysis (PCA) dimana ini merupakan salah satu bagian dari

Metode yang digunakan untuk pengklasifikasian ulasan kepuasan destinasi wisata adalah kombinasi antara metode Principal Component Analysis (PCA) sebagai metode

Kesimpulan dari hasil penelitian yang telah dilakukan menyatakan bahwa Metode Principal Component Analysis memberikan pengaruh yang cukup signifikan terhadap kinerja

Tahap akhir dari penelitian ini adalah mengukur hasil akurasi model klasifikasi decision tree C4.5 setelah melalui proses seleksi fitur dataset menggunakan

Berdasarkan hasil penelitian dan pembahasan terkait penerapan kombinasi algoritma Support Vector Machine (SVM) dan Principal Component Analysis (PCA) pada dataset

Dalam rangka ekstraksi fitur untuk pengenalan wajah sebagai tujuan dalam penelitian ini, metode Principal Component Analysis (PCA) diusulkan, proses ektraksi