• Tidak ada hasil yang ditemukan

Principal Component Analysis Siana Halim. Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

N/A
N/A
Protected

Academic year: 2021

Membagikan "Principal Component Analysis Siana Halim. Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996"

Copied!
14
0
0

Teks penuh

(1)

Principal Component Analysis

Siana Halim

Subhash Sharma, Applied Multivariate Techniques, John Willey & Sons, 1996

(2)

Pendahuluan

Pendahuluan

Sebuah analis keuangan ingin menentukan sehat tidaknya y sebuah departement keuangan

pada sebuah industri. Dalam penelitian awal telah

diidentifikasikan terdapat Tugas pertama dari analysis b d l h diidentifikasikan terdapat

sejumlah rasio keuangan (kira-kira ada 120 variabel) yang dapat digunakan untuk analisa

di atas Tentu saja tidaklah

tersebut tentunya adalah

menyederhanakan/mereduksi

ke-120 rasio menjadi beberapa index saja (misalnya 3), yang mana di atas. Tentu saja, tidaklah

mudah untuk

menginterpretasikan 120 buah informasi untuk menentukan

j ( y ), y g index tersebut merupakan

kombinasi linear dari seluruh rasio awal (120 rasio).

apakah departement keuangan tsb dalam keadaan sehat atau

tidak. Apa yang harus dilakukannya ?

(3)

Pendahuluan

Pendahuluan

Manajer marketing berkeinginan untuk membangun sebuah untuk membangun sebuah

model regresi untuk

menentukan forecast dari sales. Namun demikian, ternyata

i bl i bl

Akanlah sangat membantu, bila marketing manajer tersebut membangun variable „baru“ variable-variable yang

seharusnya independent ternyata saling berkorelasi (multicollinearity). Dalam model

membangun variable „baru yang merupakan kombinasi

linear dari variable-variable lama, sedemikian hingga

variable-variable baru tersebut tidak

( y)

regresi adanya multicollinearity dapat menyebabkan standard error dari estimasi parameter sangat tinggi dan model regressi

variable baru tersebut tidak saling berkorelasi. Variable-variable baru ini dapat digunakan

untuk membangun model sangat tinggi, dan model regressi

yang dihasilkan menjadi tidak stabil. Apa yang harus dilakukan

oleh manager tersebut ?

(4)

Bagaimana Caranya ?

Bagaimana Caranya ?

Gunakan Principal Component Analysis

p

p

y

(PCA).

PCA adalah sebuah teknik untuk membangun variable-variable baru yang merupakan kombinasi linear dari y g p variable asli. Jumlah maximum dari variable-variable baru ini akan sama dengan jumlah dari variable-variable lama, dan variable-variable baru ini tidak saling g

(5)

Secara Geometri

Secara Geometri

2 1 * 1 cos x sin x x = θ + θ X1 X2

Observasi Original Mean Original Mean

2 1 * 2 sin x cos x x = − θ + θ Corrected Corrected 1 16 8 8 5 2 12 4 10 7

3 13 5 6 3 Dicari θ optimum s d h variance x 1*

4 11 3 2 -1

5 10 2 8 5

6 9 1 -1 -4

Dicari θ optimum s.d.h variance x1 maximum dan x2* orthogonal (saling tegak lurus) dengan x1*

θ = 43 261 7 8 0 4 1 8 7 -1 6 3 9 5 -3 -3 -6 10 3 -5 -1 -4 θ = 43.261 * 2 1 * 1 0.728x 0.685 x x = + 10 3 5 1 4 11 2 -6 -3 -6 12 0 -8 0 -3 ⎤ ⎡23.091 16.455 ⎡ 1 0.746⎤ 2 1 * 2 0.685x 0.728x x = − + ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = 091 . 21 455 . 16 455 . 16 091 . 23 S ⎦ ⎤ ⎢ ⎣ ⎡ = 1 746 . 0 746 . 0 1 R

(6)

Secara Geometri

Secara Geometri

Mean Corrected Data New Variables

Observasi X1 X2 X1* X2* 1 8 5 9.253 -1.841 2 4 7 7.710 2.356 3 5 3 5.697 -1.242 4 3 -1 1.499 -2.784 5 2 5 4.883 2.271 6 1 -4 -2.013 -3.598 7 0 1 0.685 0.728 8 -1 3 1.328 2.870 9 -3 -6 -6.297 -2.313 10 -5 -4 -6.382 0.514 11 -6 -6 -8.481 -0.257 12 -8 -3 -7.882 3.298 Mean 0 0 0.000 0.000 SS 424.334 61.666 ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = 666 . 61 0 0 576 . 38 S ⎦ ⎤ ⎢ ⎣ ⎡ = 1 0 0 1 R Variance 38.576 5.606 ⎦ ⎣

(7)

Objective dari PCA

Objective dari PCA

Dalam PCA

` Variable-variable baru disebut sebagai principle

component dan nilai nilai bentukan dari varible ini

component dan nilai-nilai bentukan dari varible ini

disebut sebagai principle component score.

` Variable yang baru merupakan kombinasi linear dari variable-variable asli

variable-variable asli.

` Variable baru pertama berhubungan dengan variance maximum dari data.

` Variable baru kedua menunjukkan variance maximum ` Variable baru kedua menunjukkan variance maximum

yang belum terhitung pada variable pertama

` Variable baru ketiga menunjukkan variance maximum yang belum terhitung pada kedua variable pertama

yang belum terhitung pada kedua variable pertama ` Variable baru ke-p menunjukkan variance maximum

yang belum terhitung pada p-1 variable terdahulu. ` Seluruh p variable baru tidak berkorelasi.

(8)

Loadings

Loadings

` Loadings adalah korelasi antara variable asli dengan variable baru.

` Loadings memberikan indikasi variable original mana yang ` Loadings memberikan indikasi variable original mana yang

sangat penting atau mempengaruhi pembentukan variable baru ` Semakin tinggi nilai Loading maka variable lama ybs semakin

memiliki pengaruh terhadap pembentukan variable baru.p g p p

` Loading dapat pula dihitung dengan menggunakan rumus sbb:

i ij

ij

w

l

=

λ

` Lij adalah loading dari variable ke-j untuk principal component ke i w adalah bobot dari variable ke j terhadap principal

i j

ij

s

l

λ

ke-i, wij adalah bobot dari variable ke-j terhadap principal

component ke-i, λi adalah nilai eigen dari principal component ke-i dan sj adalah standard deviasi dari variable ke-j

(9)

Hal-hal yang berhubungan dengan PCA

Hal hal yang berhubungan dengan PCA

1.

Adakah effect dari type data (misalnya mean

corrected ataupun data yang telah di-standard-kan)

p

y g

)

terhadap PCA ?

2.

Apakah PCA merupakan teknik yang memadai ?

3.

Berapakah jumlah Principal Component yang harus

dipilih ?

4

B

i

i t

t ik

PCA

?

4.

Bagaimana menginterpretasikan PCA ?

5.

Bagaimana penggunaan dari Principal Component

Scores ?

Scores ?

(10)

1. Adakah effect dari type data (misalnya mean corrected ataupun data yang telah di-standard-kan) terhadap PCA ?

yang telah di-standard-kan) terhadap PCA ?

` Secara umum, bobot yang dibebankan /diberikan pada sebuah variable dipengaruhi oleh variance relative dari variable karena itu data seharusnya distandardkan s d h variable, karena itu data seharusnya distandardkan s.d.h. variance untuk setiap variable menjadi sama (yaitu satu). ` Namun demikian, pilihan antara memproses data awal

dengan mean corrected atau data yang distandardkan jugae ga ea co ecte atau ata ya g sta a a juga tergantung pada faktor-faktor lain.

` Sebagai contoh, jika tidak ada alasan yang memaksa seorang pengambil keputusan untuk menganggap sebuah

i bl l bihg p g i pd i i bl l ig gg pk li

variable lebih penting dari variable yang lain maka analisa akan lebih baik jika kita menggunakan data yang distandardkan.

` Namun demikian bila ada alasan bahwa variance dari ` Namun demikian bila, ada alasan bahwa variance dari suatu variable menunjukkan tingkat kepentingan dari variable tersebut, maka analisa akan lebih baik jika kita menggunakan mean corrected data.gg

(11)

2.Apakah PCA merupakan teknik yang memadai ?

` Jika objective dari analisa data adalah membangun kombinasi linear yang tidak saling berkorelasi maka

keputusan apakah PCA cukup baik digunakan atau tidak keputusan apakah PCA cukup baik digunakan atau tidak tergantung pada apakah hasil dari PCA ini dapat

diinterpretasikan atau tidak. Bila hasil dari PCA tidak dapat diinterpretasikan, maka penggunakan PCA tid k d ti d b ik dihi d i

tidak ada artinya dan sebaiknya dihindari.

` Jika objective dari analisa data adalah untuk mengurangi jumlah variable (principle component) yang merupakan kombinasi linear dari variable variable asli maka jumlah kombinasi linear dari variable-variable asli, maka jumlah principle component harus kurang dari jumlah variable asli. Dalam kasus seperti ini, PCA hanya boleh

dilakukan bila data dapat direpresentasikan dalam p p beberapa buah principle component tanpa

menghilangkan informasi secara substansial

(12)

3. Berapakah jumlah Principal Component yang harus

dipilih ?

dipilih ?

` Jika data yang digunakan adalah data yang sudah distandardkan, gunakan aturan nilai eigen yang lebih dari satu untuk

menentukan jumlah principal component

` Plot prosentase dari variance pada tiap principal component dan lihatlah pada „siku“ pada plot tersebut (p „ p p (scree plotp ). )

Aturan ini dapat digunakan untuk mean-corrected data ataupun data yang telah distandardkan.

` Gunakan komponen-komponen yang secara statistik ` Gunakan komponen-komponen yang secara statistik

(13)

4. Bagaimana menginterpretasikan PCA ?

4. Bagaimana menginterpretasikan PCA ?

` Gunakan nilai Loading untuk menginterpretasikan PCA. Semakin tinggi nilai loading dari suatu variable maka

Semakin tinggi nilai loading dari suatu variable maka

variable tersebut memiliki pengaruh dalam pembentukan principle component score dan sebaliknya.

` Secara tradisional, nilai loading yang dianggap sebagai nilai

(14)

5. Bagaimana penggunaan dari Principal Component

Scores ?

Scores ?

` Nilai principal component scores dari dua variable baru (principal component) utama, dapat digunakan sebagai input variable untuk data clustering.

` Secara umum scores dari principal component juga dapat digunakan sebagai input variable untuk analisa regressi dang g p g analisa diskriminant (discriminant analysis)

` Keuntungan menggunakan principal component score adalah variable-variable baru ini tidak saling berkorelasi sehingga variable-variable baru ini tidak saling berkorelasi sehingga masalah multicolinearity dapat dihindari.

Referensi

Dokumen terkait

Besar nilai viskositas untuk minyak goreng curah yang telah digunakan untuk menggoreng ikan teri, diperoleh hasil bahwa terjadi kenaikan nilai pada satu kali penggorengan

PROYEK : PENYEDIAAN SARANA AIR BERSIH PEKERJAAN : PEKERJAAN BANGUNAN RUMAH POMPA. LOKASI : BOOSTER

Perhitungan di atas merupakan salah satu dasar dalam penerapan algoritma Stream dalam kriptografi, yaitu suatu string yang diterjemahkan ke dalam biner dapat

Penyerahan fisik buku/dumi ke Sekretariat Panitia Penilaian Buku Nonteks Pelajaran (PPBNTP), Pusat Kurikulum dan Perbukuan, Badan Penelitian dan Pengembangan dan

adres unik global berbasis Internet rotocol (IP) atau ekstensi-nya;. Ø  mampu menunjang komunikasi

Hasil penelitian kualitas produk dan citra merek secara simultan berpengaruh signifikan terhadap keputusan pembelian produk Eiger di Surakarta dan secara persial

26. Tubuh setiap saat dapat mengalami kontak dengan mikroba penyebab penyakit tetapi tidak selalu mengakibatkan sakit karena memiliki system pertahanan. Sistem pertahanan tubuh

Jenis Robusta atau polihibrid Robusta memerlukan pokok naungan dari jenis Gliricidia sp., Leucaniea sp. atau Erythrina sp. boleh ditanam pada 6m x 6m, iaitu