Vol. 3 No. 3 (2021), 148-155
DOI: 10.35580/variansiunm22988
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
PERBANDINGAN METODE PCA-SVM DAN SVM UNTUK KLASIFIKASI INDEKS KEPUASAN MASYARAKAT TERHADAP LAYANAN PENDIDIKAN DI KABUPATEN
JENEPONTO
Nur Ikhwana
1, Muhammad Nusrang
2, Sudarmin
3Program Studi Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Negeri Makassar, Indonesia
Keywords: Support Vector Machine (SVM), Principal Component Analysis (PCA), Community Satisfaction Index
Abstract:
Support Vector Machine (SVM) is one of the classification methods used to find the best hyperplane by maximizing the distance between classes. SVM aims to build a model that can predict the given test data. The SVM method can be implemented easily and the testing time is short, but it needs to reduce the computation burden. One way that can be done is to perform feature extraction to get the main characteristics of the data. The method that can be used to extract features is Principal Component Analysis (PCA). PCA is used to reduce the dimensions of data which are generally used in numerical scale data. If the data in the study used categorical data, then the PCA used was Nonlinear PCA. The data used in this study is the Community Satisfaction Survey data in Jeneponto Regency. This study compares the PCA-SVM and SVM methods for the classification of the Jeneponto Regency Community Satisfaction Index. The overall PCA-SVM classification results are better than SVM with 100% accuracy.
1. Pendahuluan
Pengolahan data merupakan salah satu hal yang penting di era perkembangan teknologi dan informasi seperti saat ini. Untuk menghasilkan informasi yang akurat dari data yang diolah, diperlukan metode pengolahan data yang efektif dan efisien. Sejalan dengan perkembangan teknologi, berbagai macam metode pengolahan data juga terus dikembangkan. Hal ini untuk memenuhi kebutuhan akan metode yang bersesuaian dengan data yang akan diolah. Salah satu metode dalam pengolahan data adalah metode klasifikasi. Metode klasifikasi telah menjadi alat standar untuk menangani kompleksitas data karena memungkinkan representasi dan interpretasi yang siap pakai (Annas et al., 2007).
Dalam klasifikasi, terdapat berbagai macam metode statistika yang dapat digunakan, diantaranya adalah Decision Tree, Naïve Bayes, Neural Network, Regresi Logistik dan sebagainya, yang digunakan untuk membangun sebuah model untuk melakukan pengenalan/klasifikasi/prediksi pada suatu data agar diketahui pada kelas mana data tersebut berada (Firdaus, 2017).
Salah satu metode klasifikasi yang banyak digunakan oleh data scientist adalah Support Vector Machine (SVM).
SVM pertama kali diperkenalkan sebagai hasil kolaborasi antara statistika dan machine learning (Vapnik, & Cortes, 1995). SVM memiliki tujuan membangun sebuah model yang dapat memprediksi data tes yang diberikan.
Metode SVM dapat digunakan dengan waktu pengujian yang singkat akan tetapi perlu memperkecil beban komputasinya. Salah satu cara untuk memperkecil beban komputasi data sebelum dilakukan uji dengan menggunakan SVM adalah melakukan ekstraksi fitur. Ekstrasi fitur digunakan untuk mendapatkan ciri-ciri utama dari data. Metode yang sering digunakan dalam mengekstrasi fitur adalah Principal Component Analysis (PCA). Fungsi dari PCA adalah mereduksi variabel dan mendapatkan skor komponen utama. Namun, dalam aplikasinya tidak semua data penelitian berskala numerik. Pada data non numerik, digunakan PCA Nonlinear dengan transformasi nonlinear yang menurut Gifi (1981) transformasi nonlinear adalah transformsi optimal dari nilai kualitatif ke nilai kuantitatif (Markos dkk, 2010).
Pada penelitian ini, PCA Nonlinear dikombinasi dengan SVM untuk mengklasifikasikan tingkat kepuasan masyarakat terhadap layanan pendidikan di Kabupaten Jeneponto.
*Corresponding author.
E-mail address: [email protected]
Layanan pendidikan merupakan salah satu layanan publik yang sangat dekat dengan kehidupan masyarakat karena pendidikan merupakan hak dasar bagi setiap warga negara. Secara filososfis, tanggung jawab pendidikan melekat pada keluarga, masyarakat, dan pemerintah. Selain itu, pendidikan juga memegang peranan penting dalam mengembangkan dan Layanan pendidikan merupakan salah satu layanan publik yang sangat dekat dengan kehidupan masyarakat karena pendidikan merupakan hak dasar bagi setiap warga negara. Secara filososfis, tanggung jawab pendidikan melekat pada keluarga, masyarakat, dan pemerintah. Selain itu, pendidikan juga memegang peranan penting dalam mengembangkan dan meningkatkan kualitas sumber daya manusia, oleh karena itu memberikan pelayanan pendidikan yang baik dan efisien memberikan pengaruh yang besar terhadap kehidupan masyarakat. Layanan pendidikan sebagai salah satu layanan publik dapat ditemukan di semua wilayah di Indonesia, termasuk pula Kabupaten Jeneponto. Meskipun Kabupaten Jeneponto adalah salah satu kabupaten dengan nilai IPM terendah di Provinsi Sulawesi Selatan, pemerintah Kabupaten Jeneponto selalu berupaya untuk memperbaiki segala aspek yang dapat menunjang keberhasilan pembangunan.
2. Tinjauan Pustaka 2.1. Data Mining
Data Mining adalah proses yang menggunakan berbagai alat analisis data untuk menemukan pola dan hubungan dalam data yang dapat digunakan untuk membuat prediksi yang valid. Langkah analitis pertama dan paling sederhana dalam data mining adalah mendeskripsikan data, meninjaunya secara visual menggunakan bagan dan grafik, serta mencari hubungan antar variable (Chung et al., 2005)
2.2. Machine Learning
Machine learning adalah bidang yang mempelajari pengembangan algoritma komputer untuk mengubah data menjadi aksi yang cerdas atau secara singkat dapat juga diartikan sebagai proses mengubah data menjadi informasi yang berfokus pada bagaimana pembelajaran komputer menggunakan komputer untuk memecahkan masalah (Faisal, 2016).Metode Machine Learning dapat dibedakan menjadi dua yaitu Supervised Learning dan Unsupervised Learning.
Supervised Learning seringkali disebut juga sebagai predictive modelling atau pemodelan prediktif. Algoritma pemodelan prediktif primer adalah klasifikasi untuk variabel target yang bersifat kategorik ataupun regresi untuk variabel target kontinu (Abbott, 2014). Kinerja model yang dikembangkan dengan menggunakan Supervised Learning bergantung pada ukuran dan variansi dari training dataset untuk memperoleh generalisasi yang lebih baik serta kekuatan prediksi yang lebih besar untuk dataset baru (Awad & Khanna, 2015). Unsupervised Learning adalah kebalikan dari supervised learning, dimana tidak memiliki variable target pada datasetnya sehingga disebut sebagai descriptive modelling atau pemodelan deskriptif. Data input dianalisis dan dikelompokkan berdasarkan kedekatan data input satu dengan lainnya. Masing – masing grup atau kelompok diberikan label untuk menunjukkan manakah yang termasuk kedalam grup tersebut. Dari kelompok yang dihasilkan, dibutuhkan bantuan manusia untuk melakukan interpretasi hasil atau mendeskripsikan apa isi dari kelompok tersebut.
2.3. Support Vector Machine (SVM)
Support Vector Machine (SVM) secara sederhana didefinisikan sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada ruang input. Hyperplane terbaik didapatkan dengan mencari hyperplane yang terletak di tengah-tengah antara dua bidang pembatas kelas dengan memaksimalkan margin atau jarak antara dua set objek dari kelas yang berbeda (Santosa, 2007). Hyperplane klasifikasi linier SVM dinotasikan:
𝒘′𝒙 + 𝑏 = 0 (2.1)
dimana:
w = vektor ⊥ terhadap bidang pemisah x = input variable bebas
b = bias
Objek 𝑥𝑖 yang termasuk pada kelas -1 dirumuskan sebagai objek yang memenuhi pertidaksamaan
𝒘′𝒙𝒊+ 𝑏 ≤ −1 (2.2)
Dan objek 𝑥𝑖 yang termasuk pada kelas +1:
𝒘′𝒙𝒊+ 𝑏 ≤ +1 (2.3)
Jika kita mengambil satu support vector dari masing masing kelas yang memenuhi persamaan (2.2) dan (2.3), dan apabila kedua persamaan tersebut dikurangi maka akan dihasilkan persamaan (2.4) yang memberikan perhitungan margin antara support vector dan hyperplane yang memberikan nilai maksimal.
𝑑+− 𝑑−=(1−𝑏)
‖𝒘‖ −(−𝑏−1)
‖𝒘‖ = 2
‖𝒘‖ (2.4)
Mencari hyperplane terbaik juga dapat menggunakan metode Quadratic Progamming (QP) Problem yaitu meminimalkan 12‖𝑤‖2 dengan syarat 𝑦𝑖(𝒙𝒊. 𝒘′ + 𝑏) ≥ 1, untuk ∀𝑖
Masalah ini dapat diselesaikan dengan menggunakan fungsi Lagrange sebagai berikut:
min 𝐿𝑝=1
2‖𝒘‖2+ ∑𝑁𝑖=1𝛼𝑖(1 − 𝑦𝑖(𝒙𝒊𝒘′ + 𝑏)) min 𝐿𝑝= 1
2‖𝒘‖2− ∑𝑁𝑖=1𝛼𝑖𝑦𝑖(𝒙𝒊𝒘′ + 𝑏) + ∑𝑁𝑖=1𝛼𝑖 (2.5) Dengan 𝛼𝑖= pengganda fungsi Lagrange dan i = 1, 2, …, n
Nilai optimal dapat dihitung dengan memaksimalkan L terhadap 𝛼𝑖, dan meminimalkan L terhadap w dan b. Hal ini seperti kasus dual problem 𝑚𝑎𝑥𝛼𝑊(𝛼) = 𝑚𝑎𝑥𝛼(𝑚𝑖𝑛𝑤,𝑏𝐿(𝑤, 𝑏, 𝛼)) (Gunn, 1998).
Nilai minimum dari fungsi lagrange tersebut diberikan oleh
𝜕𝐿
𝜕𝑏= 0 ⇒ ∑𝑛𝑖=1𝛼𝑖𝑦𝑖= 0
𝜕𝐿
𝜕𝑤= 0 ⇒ 𝒘 = ∑𝑛𝑖=1𝛼𝑖𝒙𝒊𝑦𝑖 (2.6)
Dengan memperhatikan bahwa titik optimal gradient L=0, persamaan (2.5) dapat dimodifikasi menjadi masalah memaksimumkan yang hanya mengandung 𝛼𝑖
Sehingga menurut Hastie et al (2001) persamaannya menjadi sebagai berikut 𝑚𝑎𝑥 𝐿𝑑= ∑𝑛𝑖=1𝛼𝑖−1
2∑𝑛𝑖=1∑𝑛𝑗=1𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(𝒙𝒊′𝒙𝒋) (2.7)
dengan batasan, ∑𝑛𝑖=1𝛼𝑖𝑦𝑖= 0; 𝛼𝑖 ≥ 0, 𝑖 = 1, 2, … , 𝑛
Pada kasus linier non-separable, seringkali terjadi misclassification dimana beberapa data mungkin tidak bisa dikelompokkan secara benar (Novianti dan Purnami, 2012). Sehingga persamaan dimodifikasi dengan menambahkan variabel slack 𝜉𝑖≥ 0. Variabel slack adalah sebuah ukuran kesalahan klasifikasi (Rachman dan Purnami, 2012). Gunn (1998) telah melakukan modifikasi pada pembatas untuk kasus non-separable:
𝑦𝑖(𝒘′𝒙𝒊) + 𝑏 ≥ 1 − 𝜉𝑖, 𝑖 = 1, 2, … , 𝑛
Didefenisikan sebagai parameter baru C sebagai batasan antara memaksimalkan margin dan mengurangi jumlah data yang salah ketika diklasifikasikan. Persamaannya menjadi:
min1
2‖𝒘‖2+ 𝐶 ∑𝑛𝑖=1𝜉𝑖 (2.8)
dengan 𝑦𝑖(𝒘𝒙𝒊) + 𝑏 ≥ 1 − 𝜉𝑖, 𝑖 = 1, 2, … , 𝑛
Banyak teknik machine learning yang dikembangkan dengan asumsi kelinieran, sehingga algoritma yang hasilnya terbatas pada kasus-kasus yang linier (Santosa, 2007). Apabila pola dalam ruang fitur tidak dapat dipisahkan secara linear, pola tersebut diproyeksikan kedalam ruang berdimensi tinggi dimana fitur tersebut diasumsikan dapat dipisahkan secara linear dan dilakukan klasifikasi. Teknik ini disebut kernel trick (Khamparia & Pandey, 2018). Fungsi kernel digunakan untuk memetakan dimensi awal himpunan data yang lebih rendah ke dimensi baru yang relatif lebih tinggi.
2.4. PCA Nonlinear
PCA Nonlinear merupakan pengembangan dari PCA yang diperkenalkan oleh Gifi pada tahun 1989. PCA Nonlinear digunakan sebagai alternatif PCA linear untuk menangani variabel kategori dan hubungan nonlinear. PCA Nonlinear menghasilkan tiga kelompok, yaitu skor komponen utama (variable loadings), kategori kuantifikasi (category quantifications), dan skor komponen objek (object scores). Dalam PCA Nonlinear, kategori semua peubah dengan skala bukan numerik akan diberi kuantifikasi kategori dengan skala numerik yang sesuai. PCA Nonlinear bertujuan untuk mengoptimalkan atau mencari rata-rata kuadrat korelasi yang optimal antara peubah yang telah diberi kuantifikasi kategori dengan komponen. Dalam pencarian nilai optimal tersebut, baik komponen loading dan kuantifikasi kategori akan memberikan nilai yang bervariasi sampai nilai optimum ditemukan. Pada dasarnya, PCA nonlinear dan PCA linear sangat mirip dari segi tujuan, metode, hasil dan interpretasi, perbedaannya adalah dalam PCA linear variabel yang diukur dapat dianalisis secara langsung, sedangkan pada PCA nonlinear variabel yang diukur dikuantifikasi selama analisis (Linting et al., 2007).
Untuk memudahkan perhitungan PCA Nonlinear jika data terbentuk dalam matriks H berukuran n×m, digunakan notasi berikut:
n = banyak pengamatan/objek; i = 1, 2, …, n m = banyak variabel
𝑘𝑗= banyak kategori pada variabel ke-j; j = 1, 2, …, m ℎ𝑗= vector kolom ke-j dari matriks H berukuran n×1
𝐺𝑗 = matriks indicator dari hj berukuran 𝑛 × 𝑘𝑗 dengan:
𝑔(𝑗)𝑖𝑟 akan bernilai 1 jika objek ke-I berada dalam karegori ke-r dari variabel j, dan 0 jika objek ke-i tidak berada dalam kategori ke-r dari variabel j.
i = 1, 2, …, n; r = 1, 2, …, 𝑘𝑗
𝑮𝒋 merupakan matriks yang berisi frekuensi dari tiap kategori pada setiap variabel. 𝑮𝒋 dikatakan lengkap jika tiap baris pada 𝑮𝒋 memiliki satu unsur bernilai satu dan selainnya bernilai 0.
PCA Nonlinear bertujuan untuk menentukan matriks skor objek (X) dan kuantifikasi kategori 𝒀𝑗 dengan meminimumkan fungsi homogeneity loss (𝜎𝑀):
𝝈𝑀(𝑿, 𝒀) = 1 𝑚∑ 𝑡𝑟
𝑚
𝑗=1
(𝑿 − 𝑮𝒋𝒀𝒋)′𝑴𝒋(𝑿 − 𝑮𝒋𝒀𝒋) dimana:
tr = trace
X = matriks skor komponen objek berukuran n×m
Y = kumpulan dari multiple dan single category quantification 𝑮𝒋 = matriks indicator untuk variabel ke-j berukuran n×(kj) 𝒀𝒋 = hitungan kategori berganda berukuran kj×p
𝑴𝒋 = matriks identitas berukuran n×n
Supranto (2004) menyatakan bahwa tidak ada cara tunggal untuk menentukan berapa banyak dimensi atau komponen utama yang harus dipertahankan saat mereduksi variabel dalam analisis komponen utama. Oleh karena itu, cara terbaik untuk menentukan banyaknya komponen utama adalah mengombinasikan intuisi atau pertimbangan peneliti dengan satu atau lebih dari beberapa teknik penentuan yang ada. Menurut Rencher (2002), ada empat kriteria penentuan banyaknya komponen utama yang terpilih, yaitu dengan menggunakan keragaman total, nilai eigen, scree plot, dan uji hipotesis.
2.5. Indeks Kepuasan Masyarakat (IKM)
Indeks Kepuasan Masyarakat (IKM) adalah data dan informasi tentang tingkat kepuasan masyarakat yang diperoleh dari hasil pengukuran secara kuantitatif dan kualitatif atas pendapat masyarakat dalam memperoleh pelayanan dari aparatur penyelenggara pelayanan publik dengan membandingkan antara harapan dan kebutuhannya (Kepmen PAN No 25 Tahun 2004).
2.6. Layanan Pendidikan
Pelayanan adalah usaha melayani kebutuhan orang lain. Pelayanan pada dasarnya adalah kegiatan yang ditawarkan kepada konsumen atau pelanggan yang dilayani yang bersifat tidak berwujud dan tidak dapat dimiliki (KBBI). Sedangkan pendidikan menurut UU No. 20 Tahun 2003 adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran agar peserta didik secara aktif mengembangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa, dan Negara. Layanan pendidikan secara sederhana diartikan sebagai jasa pendidikan. Kata jasa (service) itu sendiri memiliki beberapa arti, mulai dari pelayanan peribadi (personal service) sampai pada jasa sebagai suatu produk (Rambat, 2005). Layanan pendidikan adalah usaha melakukan pelayanan pendidikan seoptimal, seefektif, dan sebaik mungkin kepada pihak internal maupun eksternal lembaga pendidikan untuk mencapai tujuan dan kemajuan pendidikan.
3. Metode Penelitian 3.1. Jenis Penelitian
Penelitian ini merupakan adalah penelitian kuantitatif yaitu penelitian yang analisisnya lebih menekankan pada data numerik atau angka yang akan diolah menggunakan metode statistika.
3.2. Sumber Data
Data yang akan digunakan pada penelitian ini adalah data sekunder dari hasil Survei Kepuasan Masyarakat Tahun 2019 Kabupaten Jeneponto yang diperoleh dari Badan Perencanaan dan Pembangunan Daerah (BAPPEDA) Kabupaten Jeneponto.
3.3. Definisi Operasional Peubah
Adapun definisi operasional peubah adalah sebagai berikut : 1. Indeks Kepuasan Masyarakat
Indeks Kepuasan Masyarakat (IKM) adalah data dan informasi tentang tingkat kepuasan masyarakat yang diperoleh dari hasil pengukuran secara kuantitatif dan kualitatif atas pendapat masyarakat dalam memperoleh pelayanan dari aparatur penyelenggara pelayanan publik dengan membandingkan antara harapan dan kebutuhannya (Kepmen PAN No 25 Tahun 2004).
2. Kesesuaian Persyaratan dengan jenis Pelayanan
Persyaratan Pelayanan yaitu persyaratan baik teknis maupun administratif yang harus dipenuhi dalam pengurusan jenis pelayanan.
3. Sistem, Mekanisme, dan Prosedur
Sistem, Mekanisme, dan Prosedur yaitu tata cara pelayanan yang diatur bagi pemberi dan penerima layanan, termasuk pengaduan.
4. Unsur Kecepatan Waktu Penyelesaian
Kecepatan waktu pelayanan yaitu jangka waktu yang diperlukan untuk menyelesaikan seluruh proses pelayanan dari setiap jenis pelayananan.
5. Unsur Kewajaran Biaya/Tarif
Kewajaran biaya/tarif pelayanan, yaitu biaya yang dikenakan kepada penerima layanan dalam mengurus dan/atau memperoleh pelayanan dari penyelenggara yang besarnya ditetapkan berdasarkan kesepakatan antara penyelenggara dan masyarakat.
6. Produk Spesifikasi Jenis Pelayanan
Produk Spesifikasi Jenis Pelayanan adalah hasil pelayanan yang diberikan dan diterima sesuai dengan ketentuan yang telah ditetapkan.
7. Kompetensi Pelaksana
Kompetensi Pelaksana yaitu kemampuan yang harus dimiliki oleh pelaksana meliputi pengetahuan, keahlian, keterampilan, dan pengalaman.
8. Perilaku Pelaksana
Perilaku Pelaksana yaitu sikap dan perilaku petugas dalam memberikan pelayanan.
9. Kualitas Sarana dan Prasarana
Sarana adalah segala sesuatu yang dapat dipakai sebagai alat dalam mencapai maksud dan tujuan. Prasarana adalah segala sesuatu yang merupakan penunjang utama terselenggaranya suatu proses (usaha, pembangunan, proyek).
10. Penanganan pengaduan, saran, dan masukan
Penanganan pengaduan, saran, dan masukan adalah tata ara pelaksanaan penanganan pengaduan dan tindak lanjut.
3.4. Prosedur Penelitian
Prosedur yang dilakukan pada penelitian ini adalah:
1. Mengambil data sekunder dari BAPPEDA Kabupaten Jeneponto
2. Melakukan analisis data menggunakan software R Studio dengan metode SVM dan PCA-SVM 3. Menyusun laporan hasil penelitian
4. Membuat kesimpulan 3.5. TeknikAnalisis Data
Teknik analisis dalam penelitian ini adalah:
1. Menginputkan data penelitian
2. Melakukan pengujian klasifikasi menggunakan SVM 3. Menginterpretasi hasil klasifikasi SVM
4. Pengujian PCA-SVM dengan melakukan tahapan sebagai berikut:
a.
Menentukan eigenvalue pada data awalb.
Melakukan pengujian SVM dengan data hasil PCAc.
Menginterpretasi hasil dari PCA-SVM5. Mengevalusai hasil pengujian SVM dan PCA-SVM berdasarkan nilai akurasi, spesitifitas, dan sensitifitas.
6. Menarik kesimpulan dari hasil pengujian SVM dan PCA-SVM
4. Hasil Penelitian dan Pembahasan 4.1. Hasil Penelitian
4.1.1. Klasifikasi Indeks Kepuasan Masyarakat dengan SVM
Klasifikasi dilakukan dengan membagi data set menjadi dua bagian yaitu data training dan data testing.
Pembagian data training dan data testing menggunakan rasio 70:30. Hasil klasifikasi Indeks Kepuasan Masyarakat di Kabupaten Jeneponto Tahun 2019 menggunakan metode SVM terangkum dalam tabel berikut:
Tabel 4. 1 Confusion Matrix SVM
Training Testing
Kelas Prediksi Kelas Sebenarnya Kelas Sebenarnya
Tidak Puas Puas Tidak Puas Puas
Tidak Puas 3 0 0 0
Puas 0 121 1 61
Berdasarkan tabel 4.1 pada klasifikasi SVM pada data testing menghasilkan sebanyak 61 responden yang diprediksi puas dan sesuai dengan keadaan sebenarnya yaitu puas, 1 responden diprediksi puas dengan keadaan sebenarnya tidak puas. Tidak terdapat responden yang diprediksi tidak puas dengan keadaan sebenarnya puas dan tidak ada responden yang diprediksi tidak puas dengan keadaan sebenarnya tidak puas.
4.1.2. Klasifikasi Indeks Kepuasan Masyarakat dengan PCA-SVM a. Nilai Eigen
Sebelum melakukan pengujian dengan metode PCA-SVM, terlebih dahulu dilakukan proses reduksi data menggunakan PCA Nonlinear. Penentuan Principal Component yang akan digunakan didasarkan pada nilai eigenvalue yang menjelaskan tentang keragaman data. Berikut adalah nilai dari eigenvalue:
Tabel 4. 2 Nilai Eigen
Component Eigenvalues Variance Cumulative
PC1 0,0228 0,5925 0,5925
PC2 0,0157 0,4074 1,0000
Pada Tabel 4.2 menunjukkan PC1 memiliki keragaman kumulatif sebesar 59,25% sehingga diindikasikan bahwa belum dapat merepresentasikan peubah asalnya. PC2 menunjukkan keragaman kumulatif sebesar 100% hal ini menunjukkan bahwa 2 komponen utama sudah cukup dan dapat menjelaskan keragaman seluruh peubah asalnya.
b. Klasifikasi PCA-SVM
Setelah melakukan proses reduksi data, selanjutnya dilakukan proses klasifikasi dengan metode SVM menggunakan data hasil reduksi.
Tabel 4. 3 Confusion Matrix PCA-SVM
Training Testing
Kelas Prediksi Kelas Sebenarnya Kelas Sebenarnya
Tidak Puas Puas Tidak Puas Puas
Tidak Puas 1 0 1 0
Puas 1 122 0 61
Berdasarkan Tabel 4.3 pada klasifikasi PCA-SVM data testing menunjukkan bahwa sebanyak 61 responden yang diprediksi puas dan sesuai dengan keadaan sebenarnya yaitu puas, 1 responden yang diklasifikasikan tidak puas dengan keadaan sebenarnya tidak puas. Tidak terdapat responden yang diprediksi tidak puas dengan keadaan sebenarnya puas dan tidak ada responden yang diprediksi puas dengan keadaan sebenarnya tidak puas.
4.1.1. Evaluasi Kinerja SVM dan PCA-SVM
Hasil klasifikasi Indeks Kepuasan Masyarakat di Kabupaten Jeneponto tahun 2019 menggunakan metode SVM dan PCA-SVM disajikan pada tabel berikut:
Tabel 4. 4 Evaluasi kinerja SVM dan PCA-SVM
Training Testing
Evaluasi Kinerja SVM (%) PCA-SVM (%) SVM (%) PCA-SVM (%)
Accuracy 1,0000 0,9919 0,9839 1,0000
Sensitivity 1,0000 0,5000 0,0000 1,0000
Specitifity 1,0000 1,0000 1,0000 1,0000
Berdasarkan Tabel 4.4 pada klasifikasi PCA-SVM data testing terlihat bahwa secara keseluruhan metode PCA- SVM memiliki nilai akurasi, sensitifitas, dan spesitifitas yang lebih besar dibandingkan dengan SVM.
4.2. Pembahasan
Klasifikasi dilakukan dengan pembagian dataset 70:30. 70 untuk data training dan 30 untuk data testing. Evaluasi hasil pengujian metode SVM dan PCA-SVM didasarkan pada nilai akurasi, sensitifitas, dan spesitifitas. Nilai akurasi adalah tingkat ketepatan model dalam memprediksi kelas. Berdasarkan Tabel 4.4 yakni evaluasi kinerja pada data training menunjukkan hasil bahwa metode SVM dan PCA-SVM memiliki perbedaan nilai akurasi yang tidak signifikan dengan perbedaan nilai sebesar 0,0081. Sedangkan pada evaluasi kinerja data testing berdasarkan Tabel 4.4 menunjukkan bahwa perbedaan nilai akurasi metode SVM dan PCA-SVM sebesar 0,016. Berdasarkan hal tersebut maka dapat disimpulkan bahwa klasifikasi menggunakan metode PCA-SVM untuk data testing lebih baik dibandingkan dengan metode SVM.
Nilai sensitifitas adalah tingkat ketepatan model dalam memprediksi kelas positif. Dari Tabel 4.4 diatas, terlihat bahwa nilai sensitifitas dari SVM lebih besar dibandingkan dengan PCA-SVM dengan perbedaan nilai sebesar 0,5 pada data training. Sedangkan pada data testing, terlihat bahwa nilai sensitifitas dari PCA-SVM lebih besar dibandingkan dengan SVM. Sehingga, dapat disimpulkan bahwa pada data testing, metode PCA-SVM lebih baik dibandingkan dengan SVM.
Nilai spesitifitas adalah tingkat ketepatan model dalam memprediksi kelas negatif, dari Tabel 4.4 diatas, terlihat bahwa nilai spesitifitas dari SVM dan PCA-SVM adalah sama yakni sebesar 100%, hal ini berarti bahwa model sudah tepat dalam memprediksi kelas negatif.
Berdasarkan pengujian yang telah dilakukan, metode PCA-SVM lebih baik dibandingkan dengan SVM dalam mengklasifikasi Indeks Kepuasan Masyarakat Kabupaten Jeneponto. Hal ini sejalan dengan penelitian yang dilakukan oleh Utami & Arianti (2020) yang melakukan klasifikasi kesejahteraan rumah tangga di Kab. Brebes yang menghasilkan kesimpulan bahwa PCA-SVM lebih baik dibandingkan dengan SVM. Khamparia & Pandey (2018) dalam penelitiannya juga mengungkapkan bahwa penggunaan PCA untuk reduksi dimensi secara signifikan dapat meningkatkan kinerja dari SVM.
5. Kesimpulan dan Saran 5.1. Kesimpulan
Berdasarkan hasil analisis dengan menggunakan metode SVM dan PCA-SVM, diperoleh kesimpulan sebagai berikut:
1. Metode PCA-SVM lebih baik dalam mengkasifikasi Indeks Kepuasan Masyarakat Kabupaten Jeneponto dibandingkan dengan metode SVM. Dapat dilihat dari tingkat akurasi, spesitifitas, dan sensitifitas metode PCA- SVM yang lebih tinggi dibandingkan dengan metode SVM.
2. Komponen utama yang terbentuk adalah sebanyak 2 komponen utama yang didasarkan pada nilai proporsi kumulatifnya sebesar 100%, yang disimpulkan bahwa 2 komponen utama sudah dapat menjelaskan keragaman seluruh peubah asalnya.
5.2. Saran
Adapun saran untuk penelitian selanjutnya adalah sebagai berikut:
1. Untuk penelitian selanjutnya dapat menggunakan metode klasifikasi lainnya dengan tetap mengkombinasikan dengan PCA, misalnya Regresi Logistik-PCA.
2. Menggunakan SVM-PCA pada dataset yang berjumlah lebih besar dan menggunakan data mix (numerik dan kategori), misalnya data debitur perbankan.
3. Data pada penelitian selanjutnya menggunakan data seimbang.
Referensi
Annas, S., Kanai, T., & Koyama, S. 2008. Principal Component Analysis and Self-Organizing Map for Visualizing and Classifyng Fire Risks in Forest Regions. Agricultural Information Reasearch, 16 (2). 44-51
Awad, M., & Khanna, R. 2015. Efficient Learning Machines: Theories, Concepts, Applications for Engineers and System Designers. Apress.
Chung, H. M., Gray, P., & Mannino, M. 2005. Introduction to Data Mining and Knowledge Discovery.
https://doi.org/10.1109/hicss.1998.648318
Faisal, M. R. 2016. Seri Belajar Data Science: Klasifikasi dengan Bahasa Pemrograman R. In Indonesia Net Developer Community (Issue February).
Firdaus. 2017. Penerapan Metode Support Vector Machine pada Klasifikasi Jenis Keganasan Kanker Payudara.
Skripsi. Universitas Negeri Makassar. Makassar.
Gifi A. 1990. Nonlinear Multivariate Analysis. Chichester, England: John Wiley and Sons.
Gunn, S. R. 1998. Support Vector Machines for Classification and Regression. Southampton: University of Southampton.
Hestie, T., Tibshirani, R., & Friedman, J. 2001. The Elements of Statistical Learning Data Mining, Inference, and Prediction. California: Springer
Johnson, R. A., & Wichern, D. W. 2007. Applied Multivariate Analysis (6th Edition). Prentice Hall: New Jersey Jolliffe, I. T. 2002. Principal Component Analysis, Second Edition. Encyclopedia of Statistics in Behavioral Science,
30(3), 487.
https://doi.org/10.2307/1270093
Khamparia, A., & Pandey, B. 2018. SVM and PCA Based Learning Feature Classification Approaches for E-Learning System. International Journal of Web-Based Learning and Teaching Technologies, 13.
Koesriputranto, A. (2015). Prediksi Harga Saham Di Indonesia Dengan Menggunakan Metode Hybrid Principal Component Analysis dan Support Vector Machine (PCA-SVM). 1–80.
Linting M, Meulman JJ, Groenen PJF, Van der Kooij JJ. 2007. Nonlinear Principal Components Analysis: Introduction and Application. Psychological Methods. 12: 336-358.
Markos, A.I., Vozalis, M.G. & Margaritis, K.G. 2010. An Optimal Scaling Approach to Collaborative Filtering Using Categorical Principal Component Analysis and Neighbohood Formation. IFIP Advances in Information and Communication Technology. 339.22-29. Springer.
Menteri Pendayagunaan Aparatur Negara dan Reformasi Birokrasi. 2017, Mei 16. Pedoman Penyusunan Survei Kepuasan Masyarakat Unit Penyelenggara Pelayanan Publik. Februari 22, 2021.
https://jdih.menpan.go.id/data_puu/permen%2014%202017.pdf
Ningrum, H. C. S. 2018. Perbandingan Metode Support Vector Machine (SVM) Linear, Radial Basis Function (RBF), dan Polinomial Kernel dalam Klasifikasi Bidang Studi Lanjut Pilihan Alumni UII. Statistics UII.
Nugroho, A. S. 2003. Support Vector Machine Teori dan Aplikasinya dalam Bioinformatika. In Kuliah Umum Ilmu Komputer. http://asnugroho.net
Novianti, F.A & Purnami, S.W. 2012. Analisis Diagnosis Pasien Kanker Payudara Menggunakan Regresi Logistik dan Support Vector Machine (SVM) Berdasarkan Hasil Mamografi. Jurnal Sains dan Seni ITS, 1(1).
Rachman, F & Purnami, S.W. 2012. Klasifikasi Tingkat Keganasan Breast Cancer dengan Menggunakan Regresi Logistik Ordinal dan Support Vector Machine (SVM). Jurnal Sains dan Seni ITS, 1(1).
Recher, A. C. 2002. Methods of Multifariate Analysis. Canada: John Willey and Sons Ltd.
Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu: Yogyakarta.
Supranto, J. 2004. Analisis Multivariat: Arti dan Interpretasi. Jakarta: PT Asdi Mahasatya.
Utami, T. W., & Arianti, I. 2020. Principal Component Analysis Support Vector Machine (PCA-SVM) Untuk Klasifikasi Kesejahteraan Rumah Tangga Di Kabupaten Brebes. Proceeding SENDIU, 978–979.
https://www.unisbank.ac.id/ojs/index.php/sendi_u/article/view/7969/2932
Vapnik, V & Cortes, C. 1995. Support Vector Networks. Machine Learning, 20, 273-297
Ye, A. 2020, Agustus. Beyond Ordinary PCA: Nonlinear Principal Component Analysis. Mei 17, 2021. Toward Data Science.