STK511
Analisis Statistika
Pertemuan – 13
• Menggambarkan suatu objek tidak cukup menggunakan satu peubah saja
• Kasus pengamatan peubah ganda dijumpai di seluruh bidang terapan
• Perlu analisis lebih canggih dibandingkan analisis pada peubah tunggal (univariate) perlu ‘sumberdaya’ lebih, dalam analisis
13. Peubah Ganda: Pengantar
Pengamatan Peubah Ganda
• Kaidah peluang yang berlaku sangat rumit penurunannya joint distribution, sehingga yang banyak berkembang hanya pada teknik eksplorasi
• Peubah yang sangat banyak menjadikan data berukuran lebih besar, sehingga muncul berbagai teknik pereduksian
• Peubah yang diamati tidak saling bebas (ada overlapping informasi antar peubah), sehingga diperlukan teknik-teknik penyusunan peubah baru seperti komponen utama dan peubah kanonik
13. Peubah Ganda: Pengantar
px
x
x
2 1x =
E(x) = = =
)
(
)
(
1 px
E
x
E
p
1 1 1 2 1 2 1 2 2 1 2var( ) cov( , ) cov( , ) cov( , ) var( ) cov( , )
cov( , ) cov( , ) var( )
p p p p p x x x x x x x x x x x x x x x 11 12 1 21 22 2 1 2 p p p p pp
13. Peubah Ganda: Pengantar
Pengamatan Peubah Ganda Struktur Data
Gugus peubah asal {X1, X2, …, Xp}
Gugus KU
{KU1, KU2, …, KUp} Hanya dipilih k < p KU
saja, namun mampu memuat sebagian besar
informasi
13. Analisis Komponen Utama
Analisis Komponen Utama
Untuk menceritakan bagaimana wajah pacar kita waktu SMA, tidak perlu disebutkan hidungnya mancung, kulitnya halus, rambutnya indah tergerai dan sebagainya. Tapi cukup katakan
‘Pacar saya waktu SMA orangnya cantik’.
Kata ‘cantik’ sudah mampu menggambarkan uraian sebelumnya. Analisis Komponen Utama: Ilustrasi
KU1 = a1x = a11x1 + … + a1pxp
Jika gugus peubah asal {X1, X2, …, Xp} memiliki matriks ragam peragam maka ragam dari komponen utama adalah
= a1’a1 =
Tugas kita adalah bagaimana mendapatkan vektor a1 sehingga ragam di atas maksimum (vektor ini disebut
vektor koefisien)
p i p j ij j ia a 1 1 1 1 2 1 KU
Analisis Komponen Utama
Gugus peubah asal {X1, X2, …, Xp}
Gugus Komponen Utama {KU1, KU2, …, KUp}
13. Analisis Komponen Utama
• Vektor a1 merupakan vektor ciri matriks yang berpadanan dengan akar ciri paling besar.
• Kombinasi linear dari {X1, X2, …, Xp} berupa KU1 = a1x = a11x1 + … + a1pxp
dikenal sebagai KU pertama dan memiliki ragam sebesar 1 = akar ciri terbesar
• KU2 , KU3 , …. Disusun sedemikian sehingga terbesar berurut dan saling bebas dengan KU lainnya.
Analisis Komponen Utama
13. Analisis Komponen Utama
Ilustrasi berikut menggunakan catatan waktu pada olimpiade Los Angeles tahun 1984 untuk berbagai nomor lari putri di cabang atletik. Ada tujuh nomor yang dicatat, yaitu lari 100 meter, 200 meter, 400 meter, 800 meter, 1500 meter, 3000 meter, dan marathon. Tiga nomor pertama catatan waktu dalam satuan detik, sedangkan empat nomor yang lain dalam menit. Data yang tersedia ada 55 negara peserta.
Ilustrasi
13. Analisis Komponen Utama
m100 m200 m400 m800 m1500 m3000 marathon m100 1.0000 0.9528 0.8350 0.7277 0.7163 0.7417 0.5423 m200 0.9528 1.0000 0.8572 0.7241 0.7029 0.7099 0.5444 m400 0.8350 0.8572 1.0000 0.8981 0.7757 0.7776 0.5507 m800 0.7277 0.7241 0.8981 1.0000 0.8260 0.8636 0.6545 m1500 0.7163 0.7029 0.7757 0.8260 1.0000 0.9031 0.6996 m3000 0.7417 0.7099 0.7776 0.8636 0.9031 1.0000 0.7966 marathon 0.5423 0.5444 0.5507 0.6545 0.6996 0.7966 1.0000
Ilustrasi: Matriks korelasi
13. Analisis Komponen Utama
Eigenvalue Difference Proportion Cumulative 1 5.53319890 4.81746883 0.7905 0.7905 2 0.71573007 0.35411502 0.1022 0.8927 3 0.36161505 0.15335511 0.0517 0.9444 4 0.20825995 0.11607781 0.0298 0.9741 5 0.09218213 0.04086896 0.0132 0.9873 6 0.05131317 0.01361245 0.0073 0.9946 7 0.03770072 0.0054 1.0000
Ilustrasi: Akar ciri
0 1 2 3 4 5 6 1 2 3 4 5 6 7
13. Analisis Komponen Utama
• Metode 1: Menggunakan 2 KU sudah mencapai proporsi keragaman 89.27%
• Metode 2: Hanya 2 KU yang memiliki akarciri lebih besar dari 0.7
• Metode 3: Pada k = 2 terlihat gambar scree plot sangat curam di kiri tapi landai di kanan. Jadi 2 KU yang digunakan sudah mencukupi.
Ilustrasi: Berapa KU?
13. Analisis Komponen Utama
Ilustrasi: Vektor ciri
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 m100 0.378202 -.426104 0.359297 -.165099 -.331229 0.225902 0.598584 m200 0.376416 -.452874 0.363819 -.011005 0.175249 0.037974 -.698982 m400 0.391311 -.272232 -.325636 0.378804 0.371464 -.556664 0.274544 m800 0.390624 0.067673 -.512111 0.402954 -.250932 0.579870 -.137794 m1500 0.385043 0.230072 -.245359 -.680608 0.481480 0.195655 0.072641 m3000 0.395890 0.308242 -.074146 -.249112 -.615938 -.509888 -.203317 marathon 0.323383 0.621855 0.551857 0.376128 0.217762 0.056004 0.110204
13. Analisis Komponen Utama
• Analisis Hub antar Peubah
• Pemeriksaan Multikolinearitas • Analisis KU
• Regresi KU dengan Peubah Respon Y
• Transformasi Regresi KU ke Peubah Baku Z • Transformasi Regresi Z ke Peubah Asal X
Contoh Aplikasi KU: Regresi Komponen Utama
13. Analisis Komponen Utama
• Tujuan analisis gerombol :
Menggabungkan beberapa objek ke dalam kelompok-kelompok berdasarkan sifat kemiripan atau sifat
ketidakmiripan antar objek
Objek dalam kelompok lebih mirip dibandingkan dengan objek antar kelompok
Ketakmiripan antar objek diukur dengan jarak tertentu : jarak Euclid, Mahalanobis dll
13. Cluster Analysis
• Tujuan dari penggerombolan
• Kemiripan atau ketakmiripan seperti apa yang
diharapkan berhubungan dengan
pemilihan peubah
• Mengkuantifikasi ukuran kemiripan antar
objek
13. Cluster Analysis
Pengantar
• Metode Grafik
– Plot Profil
– lot Andrew
– Plot Andrew termodifikasi
• Metode Penggerombolan Berhirarki
• Metode Penggerombolan tak Berhirarki
13. Cluster Analysis
• Plot profil dari setiap pengamatan • Pembakuan data sangat membantu • Kelemahan :
tidak efektif untuk data yang terlalu banyak pengamatan. • Ilustrasi :
Diperoleh hasil ujian untuk 7 mata ajaran yaitu Matematika, Fisika, Biologi, Sejarah Nasional, Pendidikan kewiraan, dan Kesenian. Ada 6 mahasiswa yang terlibat.
13. Cluster Analysis
Plot Profil
13. Cluster Analysis
5 6 7 8 9
Mat Fis Bio Sej Kew Sos Seni
Mata Ajaran
N
il
a
i
Andi Benny Budi Ika Maya Ana
13. Cluster Analysis
Plot Profil
13. Cluster Analysis
1. Metode aglomeratif
2. Metode berhirarki divisif (pemisahan)
Beberapa ukuran ketakmiripan antar gerombol : • Pautan Tunggal • Pautan Lengkap • Pautan Centroid • Pautan Median • Pautan Rataan
13. Cluster Analysis
Penggerombolan Berhirarki• Pautan Tunggal (Single Linkage = Nearest Neighbor) Jarak antar dua gerombol diukur dengan jarak terdekat
antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain.
h(Br, Bs) = min { d(xi, xj); xi anggota Br, dan xj anggota Bs }
13. Cluster Analysis
• Pautan Lengkap (Complete Linkage = Farthest Neighbor)
Jarak antar dua gerombol diukur dengan jarak terjauh antara sebuah objek dalam gerombol yang satu dengan sebuah objek dalam gerombol yang lain.
h(Br, Bs) = max { d(xi, xj); xi anggota Br, dan xj anggota Bs }
13. Cluster Analysis
Penggerombolan Berhirarki
• Pautan Centroid (Centroid Linkage)
Jarak antara dua buah gerombol diukur sebagai jarak Euclidean antara kedua rataan (centroid) gerombol. Jika dan adalah vektor rataan (centroid) dari
gerombol Br dan Bs, maka jarak kedua gerombol tersebut didefinisikan sebagai :
Jarak yang baru didefinisikan sebagai :
r
x
x
s s r s s r rn
n
n
n
x
x
13. Cluster Analysis
Penggerombolan Berhirarki• Pautan Median (Median Linkage)
Jarak antar gerombol didefinisikan sebagai jarak antar median, dan gerombol-gerombol dengan jarak terkecil akan digabungkan.
Median untuk gerombol yang baru adalah Mbaru = 2 s r m m
13. Cluster Analysis
Penggerombolan Berhirarki• Pautan Rataan (Average Linkage)
Jarak antara dua buah gerombol, Br dan Bs
didefinisikan sebagai rataan dari nrns jarak yang dihitung antara xi anggota Br dan xj anggota Bs
13. Cluster Analysis
• Dari ilustrasi sebelumnya, digunakan konsep jarak Euclidian dan diperoleh matriks jarak sbb :
13. Cluster Analysis
Penggerombolan Berhirarki: Ilustrasi
Dengan menggunakan konsep Single lingkage diperoleh hasil dalam bentuk dendogram sebagai berikut :
13. Cluster Analysis
Metode K rataan (k-means) Algoritmanya sbb :
1. Tentukan besarnya k, yaitu banyaknya gerombol, dan tentukan juga centroid di tiap gerombol.
2. Hitung jarak antara setiap objek dengan setiap centroid. 3. Hitung kembali rataan (centroid) untuk gerombol yang
baru terbentuk.
4. Ulangi langkah 2 sampai tidak ada lagi pemindahan objek antar gerombol.
13. Cluster Analysis
Penggerombolan Tak Berhirarki
• Misalkan ada dua peubah X1 dan X2 yang tiap objeknya diberi nama A, B, C dan D. Datanya sebagai berikut:
13. Cluster Analysis
1. Dikelompokkan ke dalam 2 kelompok. Centroid dipilih secara acak : c1 = (2, 2) dan c2 = (-1, -2).
2. Jarak yang digunakan jarak Euclidian. Memasukkan objek ke gerombol berpatokan pada jarak terdekat Diperoleh matriks jarak sbb :
13. Cluster Analysis
Penggerombolan Tak Berhirarki: Ilustrasi
3. Hitung centroid baru, rataan dari vektor masing-masing unsur.
c1 = (5, 3)
c2 = [(-1, 1) + (1, -2) + (-3, -2)]/3 = (-1, -1) Diperoleh matriks yang sbb :
Diperoleh 2 gerombol : G1 = {A} dan G2 = {B, C, D}.
13. Cluster Analysis
• Biplot diperkenalkan pertama kali oleh Gabriel (1971) sehingga sering disebut sebagai Gabriel’s biplot.
• Metode ini tergolong dalam analisis eksplorasi peubah ganda yang ditujukan untuk menyajikan data peubah ganda dalam peta dua dimensi, sehingga perilaku data mudah dilihat dan diinterpretasikan.
13. Biplot
Biplot adalah teknik statistika deskriptif yang dapat disajikan secara visual guna menyajikan secara simultan n obyek pengamatan dan p peubah dalam ruang bidang datar, sehingga ciri-ciri peubah dan obyek pengamatan serta posisi relatif antar obyek pengamatan dengan peubah dapat dianalisis. (Jollife, 1986 & Rawlings 1988).
13. Biplot
Definisi
1. Hubungan antar peubah
2. Kemiripan relatif antar obyek pengamatan
3. Posisi relatif antar obyek pengamatan dengan peubah 4. Nilai peubah pada suatu objek
13. Biplot
Biplot merupakan teknik statistika deskriptif dimensi ganda yang mendasarkan pada penguraian nilai singular (PNS) atau Singular Value Decomposition (SVD).
Misalkan suatu matriks data X berukuran nxp yang berisi n pengamatan dan p peubah yang dikoreksi terhadap nilai rata-ratanya dan berpangkat r, dapat dituliskan menjadi
X = U L A’
13. Biplot
Konsep Dasar
Keterangan :
matriks U dan A masing-masing berukuran (nxr) dan (pxr)
sehingga U’U = A’A = Ir
L adalah matrik diagonal berukuran (rxr) dengan unsur-unsur diagonalnya adalah akar kuadrat dari akar ciri X’X atau XX’ sehingga
1 2 .... r
13. Biplot
Kolom matris A adalah vektor ciri yang berpadanan dengan akar ciri dari matrik X’X atau XX’.
Lajur-lajur matrik U dapat dihitung melalui :
Dengan i adalah akar ciri ke-i dari matrik X’X dan ai adalah lajur ke-i matrik A.
i i a 1 Ui
13. Biplot
Konsep Dasarn
X
r=
nU
r rL
r rA
pA = [a
1, a
2, …,a
r]
r 2 1 0 0 0 0 0 0 L r r a a a 1 ,..., 1 , 1 U 2 2 1 113. Biplot
Konsep Dasar: SVD• X = U L L1- A’
= G H’
• Misalkan G = U L serta H’ = L1- A’
Unsur ke-(i,j) matriks X dapat dituliskan sbb : X ij = gi’h
j
dimana: i = 1,2,3,...,n j = 1,2,3,...,p
dengan gi’dan hj’ masing-masing merupakan baris-baris matriks G dan H
Jika r(X)=2 maka gi dan hj digambarkan dalam ruang berdimensi 2
13. Biplot
Konsep Dasar: SVD
• Jika = 1, maka G = UL dan H = A, sehingga diperoleh hubungan: X’X = (GH’)(GH’)’ = GH’ HG’ = GA’ AG’ = GG’
• Jika = 0 maka G = U dan H = AL, sehingga diperoleh X’X = (GH’)’(GH’) = HG’ GH’ = HU’ UH’ = HH’
13. Biplot
Konsep Dasar: SVD1. Kedekatan antar obyek.
Dua obyek dengan karakteristik sama akan digambarkan sebagai dua faktor yang posisi-nya berdekatan.
2. Keragaman peubah.
Peubah dengan keragaman kecil digambarkan sebagai vektor yang pendek. Begitu pula sebaliknya.
13. Biplot
Informasi yang Bisa Diperoleh
3. Hubungan antar peubah :
Jika sudut dua peubah < 900 maka korelasi bersifat positif
Jika sudut dua peubah > 900 maka korelasi bersifat
negatif
Semakin kecil sudutnya, maka semakin kuat korelasinya. 4. Nilai peubah pada suatu obyek.
Karakteristik suatu obyek bisa disimpulkan dari posisi relatifnya yang paling dekat dengan suatu peubah.
13. Biplot
• Ilustrasi berikut memberikan penerapan BIPLOT untuk menilai posisi relatif sembilan negara ASEAN menurut indikator
pembangunan berkelanjutan (sustatinable development indicators).
Ada 9 variabel yang dimasukkan.
13. Biplot
Ilustrasi
13. Biplot
13. Biplot
Ilustrasi
Biplot Analysis
13. Biplot
Perusahaan penyedia jasa layanan kartu kredit harus mampu membuat fungsi diskriminan yang mampu memisahkan calon pemegang kartu yang potensial melakukan transaksi dan yang tidak (idle) berdasarkan data dalam formulir aplikasi.
X mampu menjadi
pembeda, tetapi Y tidak pembeda, tetapi X tidak Y mampu menjadi
13. Diskriminan
Prinsip Dasar
X dan Y saja tidak mampu Membutuhkan fungsi non-linear