TUGAS PRA UTS
“
Principal Component Analysis” Pembelajaran Mesin
Kelas F
Dosen pengampu:
Rosalia Arum Kumalasanti,S.T.,M.T.
Disusun oleh :
Nama: Mateus Appuwan Situmorang NIM: 215314128
PROGRAM STUDI INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
2023
Review PCA (Principal Component Analysis) dan pengaplikasiannya
Analisis Komponen Utama (PCA) adalah salah satu teknik statistik yang paling umum digunakan dalam analisis data multivariat dengan membangun variable-variable baru yang merupakan kombinasi linear dari variable-variable asli. Dan PCA ini merupakan analisis keuangan untuk menentukan sehat tidaknya sebuah department keuangan yang ada dalam sebuah industri. PCA juga digunakan untuk mengurangi dimensi data, mengidentifikasi pola yang tersembunyi dalam data, dan menggambarkan variasi data dengan lebih sederhana. Kemudian jumlah variable lama, dan variable-variable baru ini tidak saling berkolerasi satu sama lain.
Namun demikian, perlu diingat bahwa PCA, seperti yang ada pada penjelasan diatas, dapat diasumsikan bahwa hubungan antar variabel bersifat linier. Oleh karena itu, dalam konteks keuangan, asumsi ini perlu dipertimbangkan dengan hati-hati, karena hubungan antar variabel keuangan tidak selalu bersifat linier. Juga, seiring dengan berkurangnya dimensi data, PCA dapat mengakibatkan kehilangan beberapa informasi yang mungkin penting dalam analisis keuangan.
Oleh karena itu, penggunaan PCA dalam analisis keuangan harus dilakukan dengan pemahaman yang mendalam tentang karakteristik data dan tujuan analisis.
▪ Rumus dasar PCA adalah:
𝒀 = 𝑿. 𝑽
• Y adalah matriks data hasil tranformasi.
• X adalah matriks data asli.
• V adalah matriks vektor eigen yang merupakan komponen utama.
▪ Langkah-langkah Pelaksanaan PCA:
a. Standarisasi Data: Langkah pertama yang ada dalam PCA adalah digunakan untuk menstandarisasi data dengan mengurangkan rata-rata yang ada disetiap variable dan membaginya dengan devisiasi standar. Hal ini digunakan agar setiap variable yang ada dengan skala yang berbeda memiliki kontribusi yang sama dan setara dalam analisis. Standarisai data dapat dilakukan sebagai berikut:
𝒁 =(𝑿 − 𝝁) 𝝈
Di mana z adalah matriks data yang telah di-standarisasi, kemudian X adalah matriks data awal, 𝜇 adalah vektor rata-rata dari setiap variable, dan 𝜎 adalah vektor deviasi standart dari setiap variable yang ada.
b. Menghitung Matriks Kovariasi: Setelah melakukan standarisasi data, kita dapat menghitung matriks kovariansi. Matriks kovariansi adalah pengukuran hubungan antara variable-variable dalam data. Matiks konveriansi dapat diukur dengan hubungan antar antar variable dalam data dan dihitung sebagai berikut:
𝑪 = 𝟏
𝒏 − 𝟏𝒁𝑻𝒁
Di mana C adalah matriks kovariansi, X adalah matriks data yang telah di- standarisai sebelumnya, dan n adalah jumlah observasi.
c. Menghitung Vektor Eigen: Langkah selanjutnya ini adalah dengan menghitung vektor eigen yang ada di matriks kovariansi. Vektor eigen adalah gambaran arah dari setiap komponen utama. Vektor egien V dapat ditemukan sebagai berikuy ini:
𝑪𝑽 = 𝝀𝑽
Di mana λ adalah nilai dari eigen, dan V adalah vektor eigen.
d. Memilih Komponen Utama: Setelah selesai menghitung vektor eigen, kita memilih komponen utama yang akan digunakan. Komponen utama ini biasanya dipilih berdasarkan eigenvalues terbesar, yang menggambarkan variasi data yang telah dipilih. Setelah vektor eigen diperoleh, kita mengurutkannya berdasarkan nilai eigennya (λ) dari yang terbesar ke terkecil. Komponen utama dipilih berdasarkan nilai karakteristik terbesarnya. Jika kita ingin memperkecil dimensi data k komponen utama, kita pilih vektor eigen k teratas.
e. Tranformasi Data: Data asli diubah ke dalam sistem koordinat baru yang didasari pada komponen utama yang telah dipilih. Tranformasi data dapat dilakukan sebagai berikut agar menjadi komponen utama:
Y=X.V
Di mana Y adalah matriks data yang telah ditransformasi sebelumnya, Z adalah matriks data yang telah distandarisasi, dan V adalah matriks komponen utama yang telah dipilih.
▪ Aplikasi PCA dalam berbagai bidang:
a. Analisis Data Multivariat: PCA digunakan untuk mengidentifikasi pola yang ada dalam data multivariat dengan mengurangi dimensinya. Ini dapat membantu dalam pemahaman yang lebih baik tentang hubungan antar variable.
b. Pengenalan pola dan klasifikasi: Dalam pengenalan pola dan klasifikasi, PCA digunakan untuk mengurangi dimensi data sehingga algoritma klasifkasi dapat bekerja lebih baik dan efisien. Contohnya dalam pengenalan wajah, PCA ini dapat digunakan untuk mengurangi dimensi citra wajah sebelum digunakan dalam algoritma pengenalan.
c. Analisis Genomik: Dalam bidang genetika, PCA digunakan untuk mengidentifikasi pola hubungan yang ada antar individu berdasarkan data genomik.
Hal ini membantu dalam menganalisis keragaman antar genetik dan hubungan keluarga.
d. Keuangan: Kemudian dalam analisis keunagan, PCA digunakan untuk mengelompokkan aset-aset yang ada dalam bidang keuangan dengan karakteristik serupa dan untuk mengidentifikasi faktor-faktor yang ada untuk mempengaruhi portofolio inventasi.
e. Teknik Pengolahan Citra: PCA digunakan dalam pengolahan citra untuk dapat mengurangi dimensi data citra dan mempertahankan fitur -fitur yang penting, ini juga dapat membantu untuk kompresi citra dan ekstraksi fitur citra.
▪ Keuntungan dan Keterbatasan PCA
Keuntungan PCA:
• Mengurangi Dimensi Data: Salah satu keunggulan utama PCA adalah kemampuannya untuk mengatasi masalah "curse of dimensionality". Dalam data berdimensi tinggi, jumlah variabel dapat menjadi luar biasa banyak, yang membuat analisis data sulit dan berisiko overfitting. PCA memungkinkan kita untuk mereduksi dimensi data tanpa kehilangan terlalu banyak informasi yang ada, sehingga nantinya meringankan beban perhitungan dan memperbaiki hasil analisis.
• Mengidentifikasi Pola Tersembunyi: PCA membantu mengungkap pola yang mungkin tidak terlihat dalam dimensi tinggi. Dengan mentransformasikan data ke dalam sistem koordinat baru yang didasarkan pada komponen utama, PCA memungkinkan kita untuk mengidentifikasi korelasi dan hubungan yang mungkin tersembunyi di antara variabel-variabel. Ini dapat mengarah pada pemahaman yang lebih baik tentang data.
• Memudahkan Visualisasi: PCA mempermudah interpretasi dan visualisasi data yang kompleks. Dalam dimensi tinggi, sulit untuk memvisualisasikan data. Namun, dengan menggunakan komponen utama yang lebih sedikit, kita dapat menggambarkan data dalam grafik dua atau tiga dimensi, yang memudahkan pemahaman dan komunikasi hasil analisis kepada orang lain.
Keterbatasan PCA:
• Tidak Cocok untuk Semua Data: Salah satu keterbatasan utama PCA adalah asumsinya tentang hubungan antarvariabel yang bersifat linier. PCA tidak efektif
untuk data yang memiliki hubungan non-linier. Untuk data semacam itu, teknik lain seperti Kernel PCA mungkin bisa lebih sesuai.
• Kehilangan Informasi: PCA mengurangi dimensi data dengan mengabaikan komponen dengan eigenvalues rendah. Ini berarti sebagian informasi mungkin hilang selama proses transformasi. Kita perlu mempertimbangkan tingkat kehilangan informasi ini dan memastikan bahwa hasil analisis masih cukup informatif untuk keperluan kita.
• Sensitif Terhadap Outliers: PCA sensitif terhadap data ekstrem (outliers).
Outliers ini dapat memiliki pengaruh yang signifikan pada hasil analisis PCA nya nanti. Oleh karena itu, ada baiknya perlu tindakan pengelolaan outliers sebelum atau selama proses analisis PCA untuk mengurangi dampaknya.
Dengan keuntungan dan keterbatasan yang ada, maka dapat disimpulkan bahawa Berdasarkan review, pembahasan yang ada dan mengacu pada implementasi rumus pada rumusan yang ada yaitu mengidentifikasi menggunakan principal component analysis, maka dapat ditarik kesimpulan dengan garis besar sebagai berikut:
1. Tingkat akurasi yang ada dalam motode ini dipengaruhi oleh nilai threshold atau nilai ambang batas keabuan. Apabila rentang nilai thereshold panjang, maka tingkat akurasi metode rendah.
2. Ukuran pixel citra yang ada mempunyai pengaruh pada nilai matriks. Dan apabila nilai pixelnya citra itu besar maka proses pengambilan nilai matriksnya akan lama.
3. Jumlah data set mempunyai pengaruh pada proses testingya nanti.
4. Kualitas yang ada pada citra mempunyai pengaruh akurasi pada metode. Dan apabila data citra memiliki noise maka akan menghasilkan nilai matriks yang berbeda pula dan nantinya mempengaruhi pada proses PCA nya nanti.