KAJIAN PENGARUH
NOISE
DALAM ANALISIS
KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH
YANG BERKORELASI
FAJRIANZA ADI NUGRAHANTO
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Kajian Pengaruh Noise
dalam Analisis Komponen Utama untuk Peubah-Peubah yang Berkorelasi adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.
Bogor, April 2014
Fajrianza Adi Nugrahanto
ABSTRAK
FAJRIANZA ADI NUGRAHANTO. Kajian Pengaruh Noise dalam Analisis Komponen Utama untuk Peubah-Peubah yang Berkorelasi. Dibimbing oleh KUSMAN SADIK dan YENNI ANGRAINI.
Analisis Komponen Utama (AKU) merupakan salah satu teknik peubah ganda yang pada umumnya digunakan untuk mereduksi dimensi data. AKU menggunakan matriks ragam-peragam sebagai informasi awal analisisnya. Perubahan nilai pada matriks ragam-peragam dapat mengubah skor AKU yang dihasilkan. Salah satu kondisi yang dapat menyebabkan perubahan ini adalah adanya pengaruh noise pada data. Kondisi tersebut telah diteliti oleh Tsakiri dan Zurbenko (2011), dengan hasilnya menunjukkan bahwa terdapat perbedaan dari skor AKU ketika data dipengaruhi oleh noise. Penelitian ini dilakukan untuk melihat pengaruh noise pada data dengan peubah-peubah yang saling berkorelasi. Hasil penelitian menunjukkan bahwa noise memberikan pengaruh yang besar pada hasil AKU untuk nilai koefisien korelasi tertentu.
Kata kunci: analisis komponen utama, korelasi, matriks ragam-peragam, noise
ABSTRACT
FAJRIANZA ADI NUGRAHANTO. Study on Effect of Noise on Principal Component Analysis for Correlated Variables. Supervised by KUSMAN SADIK and YENNI ANGRAINI.
Principal Component Analysis (PCA) is one of multivariate techniques that generally used for dimension reduction. PCA uses covariance matrices as initial information. Change in values of those matrices can result in different PCA scores. One of conditions that can cause the change is noise presence, which was studied by Tsakiri and Zurbenko (2011). It showed that PCA results will be different when the data were affected by noise. This study was conducted to see the effect of noise on PCA results for data with correlated variables. The results showed that noise have greater influence on PCA results for certain correlation coefficient values.
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika
pada
Departemen Statistika
KAJIAN PENGARUH
NOISE
DALAM ANALISIS
KOMPONEN UTAMA UNTUK PEUBAH-PEUBAH
YANG BERKORELASI
FAJRIANZA ADI NUGRAHANTO
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul Skripsi : Kajian Pengaruh Noise dalam Analisis Komponen Utama untuk Peubah-Peubah yang Berkorelasi
Nama : Fajrianza Adi Nugrahanto NIM : G14090014
Disetujui oleh
Dr Ir Kusman Sadik, MSi Pembimbing I
Yenni Angraini, SSi, MSi Pembimbing II
Diketahui oleh
Dr Ir Anang Kurnia, MSi Ketua Departemen
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian ini ialah pengaruh noise terhadap matriks ragam-peragam, dengan judul Kajian Pengaruh Noise dalam Analisis Komponen Utama untuk Peubah-Peubah yang Berkorelasi.
Terima kasih penulis ucapkan kepada Bapak Dr Ir Kusman Sadik, MSi dan Ibu Yenni Angraini, SSi MSi selaku pembimbing. Ungkapan terima kasih juga disampaikan kepada ayah, ibu, serta seluruh keluarga, dan teman-teman Statistika 46 atas segala doa dan kasih sayangnya.
Semoga karya ilmiah ini bermanfaat.
Bogor, April 2014
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 1
TINJAUAN PUSTAKA 2
Pengaruh Noise terhadap Nilai Akar Ciri dan Vektor Akar Ciri 2
METODE 4
Bahan 4
Tahapan Analisis 4
Tahapan Penentuan Parameter 6
HASIL DAN PEMBAHASAN 8
Hasil Simulasi Pertama 8
Hasil Simulasi Kedua 16
SIMPULAN DAN SARAN 18
Simpulan 18
Saran 18
DAFTAR PUSTAKA 18
LAMPIRAN 19
DAFTAR TABEL
1 Matriks ragam-peragam pada 7
2 Nilai matriks untuk seluruh nilai 9
3 Selisih nilai vektor akar ciri matriks dan 9
4 Nilai matriks dan untuk
7 Parameter simulasi modifikasi nilai konstanta 14
8 Nilai matriks pada kondisi ! untuk
15
9 Nilai vektor akar ciri data bangkitan 17
10 Nilai akar ciri dan % proporsi keragaman kumulatif data bangkitan 17
DAFTAR GAMBAR
1 Proses pembuatan matriks simulasi 8
2 Grafik untuk 10
3 Grafik untuk 11
4 Grafik dengan berbagai nilai rasio !" 13
5 Grafik besaran nilai rotasi vektor akar ciri 13
6 Grafik dengan berbagai nilai # 14
7 Grafik pada kondisi simulasi $ ! dan
! 16
DAFTAR LAMPIRAN
PENDAHULUAN
Latar Belakang
Analisis Komponen Utama (AKU) merupakan salah satu teknik peubah ganda yang banyak diterapkan dalam berbagai bidang. Analisis ini pada umumnya digunakan untuk mereduksi dimensi dari data sehingga menjadi lebih sederhana (Johnson dan Wichern 1988). AKU menggunakan informasi dari matriks ragam-peragam atau matriks korelasi untuk membuat beberapa kombinasi linear dari peubah-peubah awal. Kombinasi linear ini yang kemudian disebut sebagai komponen utama. Komponen-komponen utama tersebut kemudian dipilih sedemikian rupa sehingga banyaknya komponen utama yang dipilih lebih sedikit dibandingkan dengan banyaknya peubah awal yang ada.
Joliffe (2002) menjelaskan bahwa nilai komponen utama dari AKU dapat berubah pada kondisi tertentu. Pengujian sensitifitas dan stabilitas untuk nilai komponen utama ini telah dilakukan untuk berbagai kondisi, salah satunya adalah ketika terjadi perubahan pada keragaman data. Krzanowski (1984) menyatakan bahwa komponen utama hanya dapat diinterpretasikan dengan baik apabila nilai skornya stabil untuk perubahan nilai akar ciri yang kecil. Pengujian yang telah dilakukan menunjukkan bahwa nilai skor komponen utama menjadi tidak stabil ketika suatu nilai akar ciri % berubah sebesar & pada kondisi nilai % dan % saling berdekatan.
Tsakiri dan Zurbenko (2011) melakukan pengujian yang sama terhadap stabilitas komponen utama ketika terdapat pengaruh noise pada data. Statistical noise merupakan sebuah istilah yang merujuk kepada keragaman yang tidak dapat dijelaskan dari sebuah data (Tsakiri dan Zurbenko 2011). Secara umum, statistical noise ditemukan pada data riil dalam bentuk galat (error) atau residual. Ber-dasarkan Pirker (2009), nilai pencilan atau amatan berpengaruh juga dapat dikatakan sebagai statistical noise.
Terdapatnya noise pada data dapat mempengaruhi hasil dari AKU, terutama untuk nilai skor komponen utama. Hasil penelitian Tsakiri dan Zurbenko (2011) dengan menggunakan kondisi vektor data yang saling bebas menunjukkan bahwa apabila suatu matriks ragam-peragam dengan perbedaan nilai akar ciri yang lebih kecil dari besarnya noise digunakan pada AKU, maka hasil yang didapat dari analisis tersebut akan sangat berbeda jauh dengan hasil analisis tanpa adanya
noise. Dalam penelitian ini, akan dilakukan simulasi terkait pengaruh noise
terhadap AKU dengan menggunakan vektor data yang memiliki korelasi. Hasil dari simulasi yang dilakukan akan dibandingkan dengan teorema yang dikemukakan dari hasil penelitian Tsakiri dan Zurbenko (2011).
Tujuan Penelitian
2
TINJAUAN PUSTAKA
Pengaruh Noise terhadap Nilai Akar Ciri dan Vektor Akar Ciri
Tsakiri dan Zurbenko (2011) mengemukakan tiga buah teorema yang berkaitan dengan pengaruh noise terhadap nilai akar ciri dan vektor akar ciri untuk analisis komponen utama. Didefinisikan ' sebagai ( x 1 vektor acak yang berasosiasi dengan matriks peragam ). Didefinisikan juga ' ' * + sebagai vektor acak yang memiliki noise, dengan + merupakan vektor noise acak yang berasosiasi dengan matriks peragam !. Matriks peragam yang berasosiasi dengan ' adalah ). Dekomposisi spektral dari matriks peragam ) diberikan oleh
) , * , * * % % %, (1)
dengan % merupakan nilai akar ciri dari ) yang memenuhi $ $ $ % , dan - . / merupakan vektor akar ciri yang berasosiasi dengan nilai-nilai akar ciri tersebut. Norma dari matriks peragam ) didefinisikan sebagai ) , dengan merupakan nilai akar ciri terbesar
Teorema pertama menyebutkan bahwa apabila didefinisikan 0 1 0 % %1 sebagai dekomposisi spektral dari ' yang memenuhi
pertidaksamaan $ ! untuk ( dengan ! ! .
Maka dekomposisi spektral dari ' , yaitu 0 1 0 % %1, memenuhi
kondisi: 5 !dan 5 !untuk (.
a. Pembuktian 67 67 5 8+.
Didefinisikan + 0& & &%1, sebagai suatu vektor noise yang berasosiasi dengan matriks ragam-peragam 9:. Diasumsikan 0 1 0 1 0 % %1 adalah pasangan akar ciri dan vektor akar ciri dari matriks ragam-peragam dengan
noise, ) . Berdasarkan definisi 9; < , akan didapat:
9; 9; 5 9; 9; 9: !. Perubahan nilai terbesar akar ciri dengan noise dan nilai terbesar akar ciri tanpa noise tidak akan melebihi nilai !, sehingga 5 !.
3
Penentuan kondisi selisih vektor eigen akan dibagi menjadi tiga kasus yang didasarkan dari persamaan * +. Kasus pertama adalah apabila vektor
noise memiliki arah yang sama dengan . Selisih vektor eigen dengan noise dan vektor eigen tanpa noise dalam kasus ini adalah sama dengan !@, sehingga !@5 !, dengan ! merupakan nilai standar deviasi dari komponen noise dengan panjang maksimum.
Kasus kedua adalah apabila vektor noise tegak lurus dengan . Berdasarkan teorema Phytagoras dan persamaan (2), perbedaan antara vektor akar ciri dengan noise dan vektor akar ciri tanpa noise dapat diestimasi berdasarkan ciri tanpa noise dapat diestimasi berdasarkan ABC # DE
G DEHIF2H .
Akibat dari adanya ketiga kasus ini adalah nilai norma dari perbedaan vektor akar ciri dengan noise dan vektor akar ciri tanpa noise tidak akan melebihi
!, 5 !. Pemeriksaan lebih lanjut akan menghasilkan ! dan dengan mengetahui bahwa JKL M MN + !, dapat disimpulkan
bahwa 5 !.
Penentuan selisih vektor eigen kedua dari ketiga kasus di atas dimulai dengan cara memproyeksikan vektor pada bidang yang tegak lurus terhadap , yang kemudian akan disebut sebagai OPQR0 1. Berdasarkan persamaan (2), maka
dapat disimpulkan bahwa: OPQR0 1 * OPQR0 1 5
OPQR0 1 * OPQR0 1 5 !.
Dari bagian sebelumnya, diketahui bahwa $ ! berlaku untuk semua ( , sehingga dapat ditunjukkan dengan induksi matematika bahwa 5 ! berlaku untuk seluruh (. Diasumsikan bahwa kondisi sebelumnya dipenuhi untuk sebanyak S dan perbedaan antara vektor eigen dengan noise dan vektor eigen tanpa noise ditentukan oleh pertidaksamaan
N N 5 S ! . Maka akan diperoleh N N N
4
Teorema 2
Teorema kedua menyebutkan bahwa apabila didefinisikan U ,V sebagai komponen utama ke-i dari matriks peragam ' dan $ ! untuk ( . Maka panjang dari komponen utama dengan noise, U , dapat ditentukan oleh pertidaksamaan: U 5 0 1 2 * ! untuk ( dan perbedaan antara U dengan U dapat didefinisikan oleh 5 !untuk
(.
Pembuktian teorema ini diperoleh dengan melakukan langkah sebagai berikut. Didefinisikan WKP0XY1 <Y, maka nilai norma dari komponen utama
Teorema ketiga menyebutkan bahwa x didefinisikan sebagai vektor acak dengan matriks peragam ' dan didefinisikan juga [ untuk ( . Jika vektor acak noise + dengan matriks peragam + yang memenuhi ! ! terdapat pada vektor acak ' sehingga 0 1 !
!untuk ( , maka ruang akar ciri akan bersifat
asymptotically invariant, sedangkan nilai dari vektor akar ciri di dalam ruang tersebut akan berubah secara signifikan.
METODE
Bahan
Data yang digunakan dalam penelitian ini adalah data populasi berupa matriks ragam-peragam dengan dimensi 2 x 2 yang disimulasikan dengan fungsi yang terdapat di dalam piranti lunak statistika R 2.15.1.
Tahapan Simulasi
5 Simulasi pertama
Tahapan simulasi yang dilakukan untuk mencapai tujuan dari simulasi pertama adalah sebagai berikut:
a. Menentukan nilai ragam ( \ ! ) untuk membuat matriks noise
dengan antar noise bersifat saling bebas. b. Menentukan nilai !, yaitu max( \ ! ).
c. Membuat matriks noise ( !) berdasarkan poin [a].
d. Menentukan nilai ragam ( ) serta koefisien korelasi ( ) untuk membuat matriks ragam-peragam populasi awal. Nilai ragam vektor dengan ] > 1 ditentukan oleh persamaan:
^ 0^> 1 # _ 0] 1 ` ! a (3) dengan nilai # berupa # $ !
e. Membuat matriks ragam-peragam data populasi ( )) berdasarkan poin [d].
f. Membuat matriks ragam-peragam data noise ( )*) dengan cara menjumlahkan ) dengan !.
g. Menghitung nilai akar ciri ( ) dan vektor akar ciri ( ) untuk setiap matriks )*dan ).
h. Menghitung nilai 7 7 , yaitu vektor akar ciri, untuk setiap pasang matriks ( )*, )).
i. Mengulang proses dari poin [a]-[h] untuk nilai koefisien korelasi ( ) yang berbeda. Nilai yang digunakan adalah 0.1-0.9 dengan peningkatan sebesar 0.01.
Simulasi kedua
Tahapan simulasi yang dilakukan untuk mencapai tujuan dari simulasi kedua adalah sebagai berikut:
a. Membangkitkan peubah bebas V b c0 1 , V b c0 1 , Vdb c0e 1 dan Vfb c0 1 dengan masing-masing S . b. Membangkitkan nilai galat (noise) & berdasarkan sebaran peluang
normal dengan parameter tertentu ( & b c0 1 , & b c0 1 dan & b c0 11.
c. Menentukan nilai parameter regresi gh g g gd gf .
d. Membangkitkan nilai U berdasarkan persamaan (4)
U * V * V * Vd * Vf (4) e. Membangkitkan nilai U berdasarkan persamaan (5)
U * V * V * Vd * Vf* & (5) f. Melakukan analisis komponen utama untuk gugus peubah V V Vd
Vf U.
g. Melakukan analisis komponen utama untuk gugus peubah V V Vd Vf U.
h. Membandingkan hasil analisis berdasarkan poin [f] dan [g].
6
Tahapan Penentuan Parameter
Tahapan penentuan parameter merupakan tahapan yang dilakukan untuk menentukan nilai dari parameter yang digunakan dalam simulasi pertama. Parameter yang digunakan dalam simulasi pertama meliputi matriks ragam-peragam populasi, matriks noise dan matriks simulasi.
Matriks ragam-peragam populasi
Matriks ragam-peragam populasi merupakan matriks ragam-peragam yang menggambarkan karakteristik dari data populasi. Matriks ini berdimensi 3 . Penentuan dimensi dilakukan berdasarkan dari hasil simulasi pendahuluan. Matriks ragam-peragam dengan dimensi lebih dari 2 x 2 tidak mampu memenuhi kondisi awal yang disyaratkan oleh teorema untuk beberapa nilai koefisien korelasi, sedangkan matriks ragam-peragam dengan dimensi 2 x 2 mampu memenuhi kondisi awal yang disyaratkan untuk seluruh nilai koefisien korelasi, sehingga dipilih matriks ragam-peragam dengan dimensi 2 x 2 untuk digunakan dalam simulasi.
Matriks peragam populasi dibentuk dari suatu matriks ragam-peragam yang memiliki nilai di luar diagonal utama berupa nol. Pembuatan matriks ini adalah dengan cara menentukan terlebih dahulu nilai-nilai ragam setiap peubah, yaitu nilai-nilai pada diagonal utama matriks. Nilai-nilai ini ditentukan dengan menggunakan persamaan (3). Nilai konstanta (# ) dengan kondisi simulasi $ ! menggunakan nilai # yang lebih besar atau sama dengan !. Nilai pada kolom diagonal utama ke-1 pada matriks ditentukan secara subjektif agar nilai pada kolom diagonal terakhir tidak bernilai negatif maupun nol. Hal ini dilakukan karena nilai ragam tidak dapat bernilai negatif dan apabila nilai ragam adalah nol, maka nilai peragam akan juga bernilai nol untuk semua nilai koefisien korelasi. Seluruh nilai konstanta dan matriks ragam-peragam populasi awal yang digunakan dalam simulasi dapat dilihat pada Lampiran 5.
Pada penelitian ini, nilai-nilai di luar diagonal utama (peragam) pada matriks ragam-peragam populasi menjadi salah satu fokus penelitian. Nilai peragam akan berubah sesuai dengan besarnya nilai koefisien korelasi antar dua peubah, sehingga matriks ragam-peragam populasi yang digunakan dalam penelitian akan memiliki nilai peragam yang berbeda-beda disesuaikan dengan nilai koefisien korelasi yang diinginkan dengan tetap menggunakan nilai diagonal utama yang sama. Penentuan nilai peragam ini dilakukan dengan menggunakan persamaan (6).
ijkl ll l m n m (6)
7 terdapat 81 matriks ragam-peragam yang berbeda. Setiap peningkatan sebesar 0.01 akan meningkatkan nilai di luar diagonal utama sebesar 0.353.
Tabel 1 Matriks ragam-peragam pada
Matriks
Ragam-Matriks noise merupakan matriks ragam-peragam yang menggambarkan karakteristik dari noise. Matriks noise memiliki dimensi 3 , yang disesuaikan dengan dimensi matriks ragam-peragam populasi. Matriks ini dibentuk dengan menentukan terlebih dahulu nilai terbesar pada diagonal utamanya. Nilai terbesar ini kemudian akan dijadikan sebagai nilai !. Nilai-nilai diagonal utama lainnya akan ditentukan secara subjektif dengan memperhitungkan agar setiap elemen diagonal utama tidak memiliki nilai yang sama, bernilai nol maupun negatif. Hal ini dilakukan karena apabila elemen diagonal utama bernilai sama, maka komponen utama yang dihasilkan oleh matriks ragam-peragam dengan noise dan tanpa noise akan sama sehingga nilai selisihnya akan sama dengan nol. Seluruh matriks noise yang digunakan memiliki ! yang bernilai setengah dari nilai ! , yang dimaksudkan untuk mempermudah simulasi. Nilai-nilai di luar diagonal utama akan diisi dengan nilai nol yang bertujuan untuk memenuhi asumsi, yaitu bahwa antar noise tidak terdapat korelasi (saling bebas). Seluruh matriks noise
yang digunakan dapat dilihat pada Lampiran 5. Matriks simulasi
8
menggunakan matriks matriks ragam-peragam populasi awal dengan dan matriks noise .
+ =
Gambar 1 Proses pembuatan matriks simulasi
HASIL DAN PEMBAHASAN
Hasil Simulasi Pertama
Pembahasan simulasi pertama terdiri atas tiga sub pembahasan, yaitu hasil simulasi pada kondisi $ !, hasil simulasi dengan modifikasi nilai konstanta (#), dan hasil simulasi pada kondisi ! . Seluruh pembahasan simulasi pertama akan mengacu kepada teorema pertama mengenai pengaruh noise yang dikemukakan oleh Tsakiri dan Zurbenko (2011).
Hasil simulasi pada kondisi 67 67 - $ 8+.
Bagian pertama dari pembahasan hasil simulasi ini merupakan pembahasan hasil simulasi pada kondisi $ ! dengan menggunakan parameter yang telah ditentukan. Simulasi ini dilakukan dengan tujuan untuk melihat pengaruh noise pada hasil analisis komponen utama ketika data yang digunakan merupakan data dengan peubah-peubah yang berkorelasi. Parameter-parameter yang digunakan dalam bagian simulasi ini telah disesuaikan dengan kondisi yang dibutuhkan agar teorema berlaku. Hasil akhir dari simulasi ini kemudian akan dibandingkan dengan teorema yang ada.
Langkah awal yang dilakukan dalam simulasi ini adalah pemeriksaan awal nilai pada matriks ragam-peragam populasi untuk nilai koefisien korelasi yang berbeda. Pemeriksaan ini dilakukan agar kondisi yang dibutuhkan oleh teorema, yaitu $ !, terpenuhi. Sebagai contoh kasus, pada Tabel 2 dapat dilihat nilai yang didapat dari matriks ragam-peragam awal , dengan nilai yang didapat selalu lebih besar dari ! untuk setiap nilai koefisien korelasi, sehingga syarat awal teorema telah terpenuhi.
9 ragam-peragam populasi awal dengan = 0.5, dan matriks simulasi (matriks ragam-peragam populasi dengan noise) ..
Tabel 2 Nilai matriks untuk seluruh nilai
Tabel 3 Selisih nilai vektor akar ciri matriks dan
Nilai Vektor Akar Ciri
Vektor Akar Ciri Ke-1 Vektor Akar Ciri Ke-2 dengan
Tahapan berikutnya adalah menghitung nilai norma dari masing-masing selisih vektor akar ciri. Penghitungan nilai norma selisih vektor akar ciri ini
menggunakan persamaan (2). Nilai untuk dengan
10
11
Gambar 3 Grafik untuk
Pada bagian hasil simulasi ini, di samping pembahasan mengenai perbandingan antara hasil simulasi dan teorema, akan dibahas juga mengenai beberapa hal lain terkait dengan hasil simulasi yang didapat. Pembahasan pertama yaitu mengenai grafik . Pada Gambar 3 dapat dilihat bahwa nilai akan berkurang nilainya ketika nilai koefisien korelasi data semakin besar, sedangkan nilai akan bertambah ketika nilai koefisien korelasi data semakin besar. Hal ini disebabkan karena penjumlahan nilai untuk akan bernilai sama dengan penjumlahan nilai diagonal utama pada matriks
noise yang digunakan, atau secara matematis dapat dituliskan sebagai
! . Nilai ! yang tetap untuk seluruh nilai koefisien korelasi akan membuat nilai membesar ketika nilai semakin menurun. Salah contoh kasus untuk pembahasan ini dapat dilihat pada Tabel 5 yang menggunakan matriks ragam-peragam awal dan matriks noise .
Tabel 5 Nilai matriks
12
Pembahasan kedua yaitu pada Gambar 2 dapat dilihat bahwa grafik akan memiliki bentuk dan nilai yang sama dengan grafik . Hal ini disebabkan karena penggunaan data dengan peubah sebanyak dua akan menghasilkan dua komponen utama yang bernilai sama tetapi berbeda tanda positif dan negatif serta posisinya. Pada Tabel 6 dapat dilihat nilai kedua komponen utama untuk matriks ragam-peragam awal pada berbagai nilai koefisien korelasi. Kondisi ini berlaku baik untuk matriks ragam-peragam awal maupun matriks ragam-peragam dengan noise, sehingga nilai dari kedua matriks tersebut akan sama untuk seluruh komponen utama.
Tabel 6 Vektor akar ciri pertama dan kedua matriks pada
Pembahasan ketiga adalah pembahasan mengenai pengaruh rasio antara nilai ! dan nilai ragam terbesar dari matriks ragam-peragam populasi awal ( 1. Pada Lampiran 5 dapat dilihat nilai rasio ini untuk seluruh parameter yang digunakan. Hasil simulasi menunjukkan bahwa semakin besar rasio antara nilai ! dan nilai akan mengakibatkan semakin besarnya nilai . Hal ini dapat dilihat dari keempat grafik pada Gambar 4. Masing-masing grafik menggambarkan nilai rasio yang berbeda.
Pembahasan keempat yaitu pembahasan mengenai besarnya rotasi yang terjadi antara komponen utama yang mengandung noise dengan komponen utama tanpa noise. Grafik dari besarnya rotasi ini akan memiliki bentuk yang sama dengan grafik . Hal ini disebabkan karena perubahan nilai pada komponen utama disebabkan karena adanya rotasi dari vektor akar ciri, sehingga perubahan nilai komponen utama dan besarnya rotasi akan saling berhubungan. Semakin besar rotasi yang terjadi, maka akan semakin besar pula perubahan nilai komponen utama. Gambar 5 menunjukkan besarnya rotasi yang terjadi untuk matriks ragam-peragam awal dengan matriks noise .
Hasil simulasi dengan modifikasi nilai konstanta (p)
13
Gambar 4 Grafik dengan berbagai nilai rasio !"
Gambar 5 Grafik besaran nilai rotasi vektor akar ciri
konstanta yang digunakan selengkapnya dapat dilihat pada Lampiran 6. Bagian simulasi ini dilakukan dengan tujuan untuk melihat pengaruh perubahan hasil komponen utama ketika nilai konstanta diubah dengan tetap memperhatikan kondisi yang diperlukan agar teorema terpenuhi.
Pada bagian simulasi ini, nilai dari matriks ragam-peragam populasi awal akan diubah sesuai dengan nilai # yang dipakai. Penentuan nilai # untuk kedua kondisi dilakukan secara subjektif agar dapat mempermudah simulasi. Pada Tabel 7 dapat dilihat kondisi simulasi yang digunakan sebagai contoh kasus.
0.2 0.4 0.6 0.8
Koefisien Korelasi 0 1 Koefisien Korelasi 0 1
Koefisien Korelasi 0 1 Koefisien Korelasi 0 1
14
Tabel 7 Parameter simulasi modifikasi nilai konstanta
Kondisi simulasi
Bentuk garis mengacu kepada grafik pada Gambar 6 b
Nilai konstanta ini dijadikan sebagai kontrol c
Matriks noise yang digunakan adalah
Hasil simulasi pada Gambar 6 menunjukkan bahwa kedua kondisi modifikasi yang digunakan mampu memberikan hasil yang berbeda. Pada kondisi (# $ #), nilai yang didapat akan semakin kecil ketika nilai konstanta dibuat lebih besar, sedangkan pada kondisi (# #1, nilai yang didapat akan semakin besar ketika nilai konstanta dibuat lebih kecil. Dari hasil simulasi ini dapat disimpulkan bahwa di bawah pengaruh noise, hasil analisis komponen utama yang didapat akan lebih baik apabila selisih nilai ragam pada matriks ragam-peragamnya semakin besar.
Gambar 6 Grafik dengan berbagai nilai #
15 Hasil simulasi pada kondisi 67 67 - 8+.
Bagian ketiga dari simulasi dilakukan dengan mencoba kondisi simulasi yang tidak mendukung kondisi yang dibutuhkan agar teorema terpenuhi, yaitu kondisi ! . Hasil dari kondisi simulasi ini akan dibandingkan dengan kondisi yang memenuhi teorema, yaitu $ !. Simulasi ini dilakukan dengan tujuan untuk melihat dampak dari tidak terpenuhinya kondisi awal dari teorema untuk hasil analisis komponen utama. Seluruh parameter yang digunakan dalam bagian simulasi ini dapat dilihat pada Lampiran 7.
Langkah awal yang dilakukan dalam simulasi ini adalah pemeriksaan awal nilai pada matriks ragam-peragam populasi untuk nilai koefisien korelasi yang berbeda. Pemeriksaan ini dilakukan agar matriks ragam-peragam awal tidak memenuhi syarat awal teorema. Sebagai contoh kasus, pada Tabel 9 dapat dilihat nilai yang didapat dari matriks ragam-peragam awal dengan matriks
noise . Kondisi yang harus dicapai agar teorema tidak terpenuhi adalah . Nilai pada Tabel 8 menunjukkan bahwa kondisi yang dibutuhkan agar teorema tidak terpenuhi hanya dapat tercapai hingga nilai , sehingga dalam simulasi ini nilai yang digunakan dimulai dari
sampai dengan peningkatan sebesar 0.005. Tabel 8 Nilai matriks pada kondisi
Langkah berikutnya adalah menjalankan simulasi untuk mendapatkan nilai
dan untuk pada kondisi ! dan
16
Gambar 7 Grafik pada kondisi simulasi $ ! dan !
Hasil Simulasi Kedua
Bagian simulasi ini dilakukan untuk melihat pengaruh noise pada data yang dibangkitkan dari sebaran normal. Data yang dibangkitkan merupakan data yang digunakan dalam analisis regresi. Peubah yang digunakan yaitu empat peubah bebas dan satu peubah tak bebas serta banyak data yang dibangkitkan adalah seribu data. Keempat peubah bebas dibangkitkan berdasarkan sebaran normal dengan V b c0 1, V b c0 1 , Vdb c0e 1 dan Vfb c0 1 . Peubah tak bebas dibangkitkan dalam dua bentuk, yaitu peubah tak bebas dengan adanya pengaruh noise dan peubah tak bebas tanpa adanya pengaruh noise. Peubah tak bebas tanpa adanya pengaruh noise dibentuk berdasarkan persamaan (4), sedangkan peubah tak bebas dengan adanya pengaruh noise dibentuk berdasarkan persamaan (5).
Analisis komponen utama kemudian dilakukan untuk empat gugus peubah, yaitu gugus AKU 1 untuk peubah qV V Vd Vf U r, gugus AKU 2 untuk peubah qV V Vd Vf U r dengan & b c0 1, gugus AKU 3 untuk peubah qV V Vd
17 Tabel 9 Nilai vektor akar ciri data bangkitan
Gugus Vektor akar ciri ke-
Tabel 10 Nilai akar ciri dan % proporsi keragaman kumulatif data bangkitan
18
SIMPULAN DAN SARAN
Simpulan
Hasil simulasi menunjukkan bahwa teorema mengenai pengaruh noise yang dikemukakan oleh Tsakiri dan Zurbenko (2011) berlaku untuk kondisi data dengan dua peubah yang berkorelasi. Nilai norma selisih vektor akar ciri akan mengalami kenaikan dimulai dari hingga , kemudian akan mengalami penurunan hingga . Nilai konstanta yang digunakan dalam pembentukan matriks ragam-peragam awal akan mempengaruhi besarnya nilai . Nilai konstanta yang memiliki perbandingan yang lebih besar terhadap besaran noise akan membuat nilai semakin kecil. Penggunaan kondisi simulasi yang tidak mendukung syarat awal teorema menghasilkan hasil simulasi dengan karakteristik yang sama tetapi dengan nilai yang lebih besar dibandingkan dengan penggunaan kondisi simulasi yang mendukung syarat awal teorema.
Saran
Penelitian ini dapat dilanjutkan dengan menambahkan berbagai kondisi simulasi baik pada matriks ragam-peragam awal maupun matriks noise sehingga didapat hasil yang lebih baik.
DAFTAR PUSTAKA
Johnson RA, Wichern DW. 1988. Applied Multivariate Statistical Analysis. 2nd Ed. New Jersey (US): Prentice-Hall.
Joliffe IT. 2002. Principal Component Analysis. 2nd Ed. New York (US): Springer-Verlag.
Krzanowski WJ. 1984. Sensitivity of Principal Components. J R Statist Soc B. 46(3):558-563.
Pirker, Clemens. 2009. Statistical Noise of Valuable Information: The Role of Extreme Cases in Marketing Research [dissertation]. Germany: University of Innsbruck.
Tsakiri KG, Zurbenko IG. 2011. Effect of Noise in Principal Component Analysis.
19 Lampiran 1 Syntax simulasi untuk nilai
fp <- function(diag.pop,diag.noi,w)
#diag.pop, vektor berisi nilai diagonal utama matriks populasi #diag.noi, vektor berisi nilai diagonal utama matriks noise #w, indeks nilai akar ciri (dalam simulasi ini, w=1 atau w=2)
{
n <- 2 #dimensi matriks (n x n)
rho <- 0.1 #nilai koefisien korelasi awal
temp <- NULL #tempat penyimpanan nilai deviasi nilai akar ciri
#pembentukan matriks populasi for(l in 1:81)
{
mat.elm <- NULL #tempat penyimpanan nilai elemen matriks ct <- 1 #counter
{ mat.elm[ct] <- rho*sqrt(diag.pop[i])*sqrt(diag.pop[j]) ct <- ct + 1 } mat.sim <- mat.pop + mat.noi
#penghitungan nilai akar ciri eig.sim <- eigen(mat.sim) eig <- eigen(mat.pop) eig.val.sim <- eig.sim$values
eig.val <- eig$values
#penghitungan nilai selisih akar ciri
20
plot(rho.list,temp,type="l",col=2,lwd=4,xlab="Koefisien Korelasi",ylab="Deviasi",ylim=c(0,up.lim))
21 Lampiran 2 Syntax simulasi untuk nilai
fp <- function(diag.pop,diag.noi,w)
#diag.pop, vektor berisi nilai diagonal utama matriks populasi #diag.noi, vektor berisi nilai diagonal utama matriks noise #w, indeks vektor akar ciri (dalam simulasi ini, w=1 atau w=2)
{
n <- 2 #dimensi matriks (n x n)
rho <- 0.1 #nilai koefisien korelasi awal temp <- NULL #tempat penyimpanan nilai norma
#pembentukan matriks populasi for(l in 1:81)
{
mat.elm <- NULL #tempat penyimpanan nilai elemen matriks ct <- 1 #counter
{ mat.elm[ct] <- rho*sqrt(diag.pop[i])*sqrt(diag.pop[j]) ct <- ct + 1 } mat.sim <- mat.pop + mat.noi
#penghitungan vektor akar ciri eig.sim <- eigen(mat.sim) eig <- eigen(mat.pop) eig.vec.sim <- eig.sim$vectors
eig.vec <- eig$vectors
#penghitungan nilai norma selisih vektor akar ciri dev <- abs(eig.vec.sim[,w]) - abs(eig.vec[,w]) temp <- c(temp, sqrt(sum(dev^2)))
22
#pembuatan grafik
up.lim <- 0.15 #batas nilai atas sumbu-y pada grafik rho.list <- seq(0.1,0.9,by=0.01)
plot(rho.list,temp,type="l",col=2,lwd=4,xlab="Koefisien Korelasi",ylab="Deviasi",ylim=c(0,up.lim))
23 Lampiran 3 Syntax simulasi untuk nilai rotasi vektor akar ciri
fp <- function(diag.pop,diag.noi)
#diag.pop, vektor berisi nilai diagonal utama matriks populasi #diag.noi, vektor berisi nilai diagonal utama matriks noise
{
n <- 2 #dimensi matriks (n x n) rho <- 0.1 #nilai korelasi awal
temp.dev <- NULL #penyimpanan nilai deviasi vektor akar ciri temp.norm <- NULL #penyimpanan nilai norma
#pembentukan matriks populasi for(l in 1:81)
{
mat.elm <- NULL #tempat penyimpanan nilai elemen matriks ct <- 1 #counter
{ mat.elm[ct] <- rho*sqrt(diag.pop[i])*sqrt(diag.pop[j]) ct <- ct + 1 } mat.sim <- mat.pop + mat.noi
24
#pembuatan grafik
up.lim <- 10 #batas nilai atas sumbu-y pada grafik rho.list <- seq(0.1,0.9,by=0.01)
p
plot(rho.list,temp,type="l",col=2,lwd=4,xlab="Koefisien Korelasi",ylab="Theta",ylim=c(0,up.lim))
25 Lampiran 4 Syntax pembangkitan data regresi
set.seed(1000)
#pembentukan peubah penjelas x1 <- rnorm(1000,100,15) x2 <- rnorm(1000,15,3) x3 <- rnorm(1000,40,5) x4 <- rnorm(1000,70,10)
#pembentukan nilai noise e <- rnorm(1000,5,8)
#pembentukan peubah respon
y <- 10 + 0.5*x1 + 1.2*x2 + 0.9*x3 + 0.75*x4 y.noi <- 10 + 0.5*x1 + 1.2*x2 + 0.9*x3 + 0.75*x4 + e
#penghitungan nilai skor komponen utama pca <- matrix(c(x1,x2,x3,x4,y1),1000,5) pca.noi <- matrix(c(x1,x2,x3,x4,y.noi),1000,5)
v1 <- var(pca) v2 <- var(pca.noi)
26
Lampiran 5 Daftar nilai parameter untuk simulasi pada kondisi $ !
# dan ! Matriks Ragam-Peragam
Populasi Awal Matriks Noise
Rasio
! dan
# = 25
! = 10 0.2
# = 25
! = 15 0.3
# = 25
! = 20 0.4
# = 25
! = 25 0.5
# = 50
! = 20 0.2
# = 50
! = 30 0.3
# = 50
! = 40 e 0.4
# = 50
27 Lampiran 6 Daftar nilai parameter untuk simulasi pada kondisi $ !
dengan modifikasi nilai konstanta (#)
Parameter simulasi pada kondisi # $ #
Matriks Noise
Matriks Ragam-Peragam Populasi Awal
1 2 3 4
a
a
e
a
e
e a
e ee e
a
Matriks kontrol
Parameter simulasi pada kondisi # #
Matriks Noise
Matriks Ragam-Peragam Populasi Awal
1 2 3 4
a
a
a
e a
a
28
Lampiran 7 Daftar nilai parameter untuk simulasi pada kondisi $ !
dan kondisi !
# , # a
Matriks Ragam-Peragam Populasi
Awal Matriks
Noise
$ ! !
# = 25
# = 20
# = 25
# = 15
# = 25
# = 10 e
# = 50
# = 40
# = 50
# = 30
# = 50
# = 20
aNilai # berasosiasi dengan matriks ragam-peragam pada kondisi $ !, sedangkan nilai # berasosiasi dengan matriks ragam -peragam pada kondisi
29 Lampiran 8 Hasil simulasi pada kondisi $ !
Matriks ragam-peragam populasi awal :
Matriks noise : e
Koefisien Korelasi 0 1 Koefisien Korelasi 0 1
30
Lampiran 9 Hasil simulasi pada kondisi $ ! dengan modifikasi nilai konstanta (#)
Parameter simulasi modifikasi nilai konstanta
Kondisi simulasi
Bentuk garis mengacu kepada grafik pada gambar di bawah b
Nilai konstanta ini dijadikan sebagai kontrol c
Matriks noise yang digunakan adalah e
32