• Tidak ada hasil yang ditemukan

Maka x dikatakan eigenvector (vektor karakteristik) dari matriks yang terkait

2.4 Analisis Komponen Utama (Principal Component Analysis)

Metode Analisis Komponen Utama bermula dari Karl Pearson pada tahun 1901 untuk peubah non-stokastik. Analisis ini kemudian ditetapkan menjadi peubah stokastik oleh Harold Hotelling pada tahun 1933. Analisis ini merupakan analisis tertua. Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan yang sukar walaupun hanya menggunakan beberapa peubah. Analisis ini baru berkembang penggunaannya setelah tersedia fasilitas komputasi elektronik (Jolliffe, 2002).

Analisis Komponen Utama merupakan suatu teknik analisis statistik untuk mentransformasikan variabel-variabel asli yang masih berkorelasi satu dengan yang lain menjadi suatu variabel baru yang tidak berkorelasi lagi (Johnson dan Wichern, 2007). Analisis Komponen Utama bertujuan untuk menyederhanakan variabel yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan dengan menghilangkan korelasi variabel melalui transformasi variabel asal ke variabel baru yang tidak berkorelasi. Variabel hasil mereduksi tersebut dinamakan principal component atau komponen utama (Aroef, 1991). Komponen utama adalah kombinasi linear dari variabel acak atau statistik yang memiliki sifat khusus dalam hal variasi (Anderson, 1984).

Secara aljabar linier, komponen utama merupakan kombinasi-kombinasi linier dari p peubah acak . Secara geometri, kombinasi linier ini merupakan sistem koordinat baru yang diperoleh dari rotasi sistem semula dengan

sebagai sumbu koordinat. Misalkan vektor acak

merupakan matriks kovarian ∑ dengan eigenvalue λ1 λ2

≥ ≥ λp≥ 0.

Perhatikan kombinasi linier:

: kombinasi linier dari variabel X : variabel ke p

: bobot atau koefisien untuk variabel ke p Var ( ) = Cov =

Komponen utama adalah kombinasi linier di mana variansi pada = sebesar mungkin.

Komponen utama pertama adalah kombinasi linier dengan variansi maksimum. Yang memaksimumkan . Jelas dapat meningkat dengan mengalikan dengan konstanta. Berdasarkan kenyataan di atas, maka dapat dibuat pernyataan umum yang berkaitan dengan konsep analisis komponen utama sebagai berikut:

Komponen utama ke-1 : kombinasi linier yang memaksimumkan

serta

Komponen utama ke-2 : kombinasi linier yang memaksimumkan

serta dan

Komponen utama ke-i : kombinasi linier yang memaksimumkan serta dan untuk k < i.

Misalkan matriks kovarian yang bersesuaian dengan vektor acak [ ]. Misalkan ∑ memiliki pasangan eigenvalueeigenvector

( dimana . Komponen utama ke-i diberikan oleh

Dengan,

(diperoleh ketika ) karena eigenvector dinormalkan. Dengan demikian,

Dengan cara yang sama,

Untuk , dengan , untuk dan

Karena = maka . Tinggal menunjukkan bahwa ei tegak lurus terhadap memberikan Cov(Yi Yk) = 0. Eigenvector dari orthogonal jika semua eigenvalue berbeda. Jika eigenvalue tidak berbeda semuanya, maka eigenvector yang bersesuaian dengan eigenvalue dapat dipilih supaya orthogonal. Dengan demikian, untuk setiap dua eigenvector ei dan . Karena , perkalian dengan memberikan,

untuk setiap . (terbukti) Komponen utama tidak berkorelasi dan memiliki variansi sama dengan eigenvalue dari ∑ (Johnson dan Wichern, 2007).

Misalkan [ ] memiliki matriks kovarians , dengan pasangan eigenvalueeigenvector ( di mana

. Misalkan adalah komponen

utama. Maka,

Bukti. Dari dengan , dapat ditulis dimana adalah matriks diagonal dari eigenvalue dan [ ]

sedemikian sehingga . Dapat diperoleh

maka,

∑ ∑

Total variansi populasi = Dan sebagai akibatnya, proporsi variansi total dari komponen utama ke-k adalah

)

Misal apabila p berukuran besar, sedangkan diketahui bahwa sekitar 80% - 90% variansi populasi total telah mampu diterangkan oleh satu, dua, atau tiga komponen utama yang pertama, maka komponen-komponen utama itu telah dapat mengganti p buah varabel asal tanpa mengurangi informasi yang banyak. Setiap komponen dari vektor koefisien [ ] juga harus diperiksa. Besar diukur dari variabel ke-k ke komponen utama ke-i, tanpa memperhatikan variabel yang lain. Secara khusus proporsional terhadap koefisien korelasi antara Yi dan Xk (Johnson dan Wichern, 2007).

Misalkan adalah komponen utama yang diperoleh dari matriks kovarians ∑, maka

adalah koefisien korelasi antara komponen Yi dan variabel Xk. Disini ( adalah pasangan eigenvalue eigenvector dari ∑.

Bukti. Ambil sedemikian sehingga dan . Karena

. Maka dan menghasilkan:

Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan tetapi masih mengandung informasi atau karakteristik yang termuat dalam data awal secara signifikan. Tujuan utamanya adalah untuk menjelaskan sebanyak mungkin jumlah varian data awal dengan sedikit mungkin komponen utama. Sebagian besar variasi dalam himpunan variabel yang diamati cenderung berkumpul pada komponen utama pertama dan semakin sedikit informasi dari variabel awal yang terkumpul pada komponen utama terakhir. Hal ini berarti bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa kehilangan banyak informasi. Dengan cara ini analisis komponen utama dapat digunakan untuk mereduksi variabel-variabel. Komponen utama bersifat ortogonal yang artinya bahwa setiap komponen utama merupakan wakil dari seluruh variabel asal sehingga komponen-komponen utama tersebut dapat dijadikan pengganti variabel asal apabila analisis terhadap variabel tersebut membutuhkan ortogonalitas.

Penetapan banyaknya komponen utama untuk dapat ditafsirkan dengan baik dapat dilihat dari:

a. Proporsi keragaman kumulatif dari komponen utama

Menurut Morrison (1990), banyaknya komponen utama yang dipilih sudah cukup memadai apabila komponen utama tersebut mempunyai persentase keragaman kumulatif tidak kurang dari 75% dari total keragaman data. Sedangkan Johnson dan Wichern (2007) mengatakan bahwa komponen utama deng an kondisi persentase keragaman kumulatif sebesar 80-90%, dapat menggambarkan data asalnya.

b. Nilai dari eigenvalue

Pemilihan komponen utama yang digunakan, didasarkan ada nilai eigenvalue- nya. Aturan yang digambarkan pada bagian ini khusus digunakan untuk matriks korelasi, meskipun dapat digunakan juga untuk beberapa jenis matriks kovarians. Ide dibalik aturan ini bahwa jika semua elemen x adalah independen, maka komponen utama sama dengan variabel asli dan semua memiliki unit varians pada kasus matriks korelasi. Sehingga setiap komponen utama dengan varians kurang dari 1 mengandung sedikit informasi dari salah

satu variabel asli jadi tidak dapat dipertahankan. Dalam bentuk sederhana terkadang disebut aturan Kaiser (Kaiser’s rule) dan hanya mempertahankan komponen utama dengan varians lebih dari 1 (Jolliffe, 2002).

Melakukan pengujian terhadap matriks korelasi dari data yang menjadi objek pengamatan. Matriks korelasi digunakan untuk melihat keeratan hubungan antara peubah yang satu dengan peubah yang lain. Ada dua macam pengujian yang dapat dilakukan terhadap matriks korelasi, yaitu:

a. Uji Bartlett

Pengujian ini dilakukan untuk melihat apakah matriks korelasinya bukan merupakan suatu matriks identitas, jika matriks korelasinya merupakan matriks identitas, maka tidak ada korelasi antarpeubah yang digunakan. Uji ini dipakai bila sebagian besar dari koefisien korelasi kurang dari 0,5.

Hipotesis:

H0 : Matriks korelasi merupakan matriks identitas H1 : Matriks korelasi bukan merupakan matriks identitas

[ ] | | Keterangan:

N : Jumlah observasi p : Jumlah peubah

| | : Determinan dari matriks korelasi Uji Bartlett akan menolak H0 jika nilai

b. Uji Kaiser Meyer Olkin (KMO)

Uji KMO digunakan untuk mengetahui apakah metode penarikan sampel yang digunakan memenuhi syarat atau tidak. Di samping itu, uji KMO berguna untuk mengetahui apakah data yang digunakan dapat dianalisis lebih lanjut atau tidak. Rumusan uji KMO adalah:

rij : Koefisien korelasi sederhana antara peubah i dan j aij : Koefisien korelasi parsial antara peubah i dan j i,j : 1,2, …,p

Apabila nilai KMO lebih besar dari 0,5 maka jumlah data telah cukup untuk dianalisis lebih lanjut.

2.5 Analisis Cluster

Analisis cluster merupakan salah satu teknik statistik multivariat yang tujuan utamanya adalah untuk mengidentifikasi kelompok dari objek berdasarkan karakteristik yang mereka miliki, sehingga objek-objek dalam satu kelompok (cluster) akan memiliki kemiripan karakteristik (Hair, 2010). Analisis cluster melakukan sebuah usaha untuk menggabungkan keadaan atau objek ke dalam suatu kelompok, di mana anggota kelompok itu tidak diketahui sebelumnya untuk dianalisis. Menambahkan penjelasan di atas, Supranto (2004) mengatakan bahwa di dalam analisis cluster tidak ada pembedaan variabel bebas dan variabel tak bebas karena analisis cluster mengkaji hubungan interdependensi antara seluruh set variabel. Tujuan utamanya ialah mengelompokkan objek (kasus/elemen) ke dalam kelompok-kelompok yang relatif homogen didasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti. Karena yang diinginkan adalah untuk mendapatkan cluster yang sehomogen mungkin, maka yang digunakan sebagai dasar untuk mengclusterkan adalah kesamaan skor nilai yang dianalisis.

Sesuai prinsip dasar cluster yaitu mengelompokkan objek yang mempunyai kemiripan, maka proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Dengan memiliki sebuah ukuran kuantitatif untuk mengatakan bahwa dua objek tertentu lebih mirip dibandingkan dengan objek lain, akan mempermudah proses pengelompokan. Pengelompokan dilakukan berdasarkan kemiripan antar objek. Kemiripan diperoleh dengan meminimalkan jarak antar objek dalam kelompok dan memaksimalkan jarak antar kelompok. Salah satu yang biasa digunakan dalam analisis cluster adalah jarak euclidean. Jarak euclidean dapat digunakan jika variabel-variabel yang digunakan tidak

terdapat korelasi dan memiliki satuan yang sama. Jarak euclidean diperoleh dengan rumus sebagai berikut:

√∑

dengan:

d = jarak euclidean

xi , yi = skor komponen utama ke-i

2.2.1 Analisis Cluster Metode K-Means

Metode non hierarki dengan K-Means merupakan metode yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. K- Means bertujuan untuk mengelompokkan data sedemikian hingga jarak tiap-tiap data ke pusat kelompok dalam satu kelompok minimum. Dasar pengelompokkan dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) cluster terdekat (Johnson dan Wichern, 2007). Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan ukuran yang besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Mac Queen menyarankan bahwa penggunaan K-Means untuk menjelaskan algoritma dalam penentuan suatu objek ke dalam cluster tertentu berdasarkan rataan terdekat. Metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut:

1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster secara random

3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat

BAB 1

PENDAHULUAN

Dokumen terkait