Analisis Multivariat
Kuliah ke - 2
Dr. Ir. Eko Pujiyanto, S.Si., M.T., IPM Teknik Industri - UNS
Isi
• P e n y a jia n D a ta M u ltiv a ria t
• B e n tu k G ra fik D a ta M u ltiv a ria t
•
M u ltiv a ria te M is s in g D a ta
• A n a lis is
O u tlie r
•
A M u ltiv a ria te O u tlie r D e te c tio n M e th o d
• D a ta M u ltiv a ria t d e n g a n D is trib u s i N o rm a l
Penyajian Data Multivariat
Penyajian Data Multivariat
Example 1:
Figure 1 shows the following statistics for each of the EU countries:
1. Gross national product (GDP) per capita
2. Accumulated public debt (as a percentage of GDP), 3. Current annual public
deficit (as a percentage of GDP)
4. Current annual inflation rate
5. Percentage of the population that is unemployed.
Penyajian Data Multivariat
Example 2:
X1 age
X2 short-term memory span X3 IQ
X4 reading ability
X1 X2 X3 X4
Bentuk Grafik Data Multivariat
Univariat (n=1) Bivariat (n=2)
Bentuk Grafik Data Multivariat
Trivariat (n=3) Multivariat (n>3)
Bentuk Grafik Data Multivariat
Multivariat ( Four-dimensional plot)
Bentuk Grafik Data Multivariat
Contoh
Bentuk Grafik Data Multivariat
Contoh
Multivariate Missing Data
• Pengumpulan data dapat terjadi data yang tidak lengkap (missing data ).
• Missing data adalah suatu keadaan dimana
beberapa nilai atribut dalam suatu sekumpulan data (data set) kosong atau tidak ada nilainya
• Missing data pertama kali diperkenalkan oleh Orchard dan Woodbury (1972)
• Ketika data tidak lengkap atau hilang diklarifikasi
Multivariate Missing Data
• Peyebab terjadinya missing data
– Peralatan yang tidak berfungsi dengan baik – Kesalahan mekanis
– Penolakan responden untuk menjawab kuisioner
– Tidak adanya jawaban yang spesifik sehingga tidak mengetahui variabel yang
dipermasalahkan
Multivariate Missing Data
Tipe missing data berdasarkan keacakan
• Missing Completely at Random (MCAR) : tidak
bergantung pada nilai seluruh variabel, baik variabel yang terisi (diketahui) maupun variabel yang
mengandung missing data
• Missing at Random (MAR) : bergantung pada variabel yang terisi (diketahui) namun tidak bergantung pada variabel yang mengandung missing data itu sendiri
• Not Missing at Random (NMAR), bergantung pada variabel itu sendiri sehingga tidak dapat diprediksi dari variabel yang lain.
Multivariate Missing Data
Metode mengatasi missing data
– Mengabaikan atau membuang data yang hilang
– Estimasi parameter
Contoh : Algoritma Ekspektasi-Maksimisasi (EM)
– Metode imputasi
Multivariate Missing Data
Algoritma Ekspektasi-Maksimisasi (EM)
• Algoritma EM merupakan teknik iteratif untuk menghitung estimasi kemungkinan maksimum
(maximum likelihood estimation) untuk data tidak lengkap.
• Ide dasar algoritma EM adalah mewakili vektor data yang diamati, misalkan vektor y (data tidak lengkap) menjadi vektor x (data lengkap) dengan cara pemetaan tertentu (cukup rumit
).Multivariate Missing Data
Algoritma Ekspektasi-Maksimisasi (EM)
Multivariate Missing Data
Contoh Dengan Metode EM
Ada Missing Data Lengkap
X1 X2 X3 X1 X2 X3
1.5 1.4 1.6 1.5 1.4 1.6
1.5 1.9 1.5 1.47 1.9
2 1.6 1.84 2 1.6
2.2 1.96 2.15 2.2
2.1 2.3 2.2 2.1 2.3 2.2
1.8 2 1.9 1.8 2 1.9
Mltivariate Missing Data
Metode imputasi
1. Metode imputasi dengan ukuran pemusatan 2. Metode imputasi regresi
3. Metode imputasi Hot Deck
4. Metode imputasi ColdDeck
5. Metode imputasi berbasis Machine Learning
Contoh : K-Nearest Neighbor Imputation (KNNI)
Multivariate Missing Data
K-Nearest Neighbor Imputation (KNNI)
• Metode yang paling terkenal yang
digunakan untuk mengatasi missing data.
• Menggunakan konsep jarak
• Memberikan hasil imputasi yang
sangat baik bahkan ketika data yang digunakan memiliki missing data yang cukup besar
Multivariate Missing Data
K-Nearest Neighbor Imputation (KNNI)
• Kelebihan
– Dapat digunakan untuk memprediksi dua tipe data ( diskrit dan kontinu )
– Tidak membutuhkan pembentukan model prediksi
• Kekurangan
– Menggunakan semua data Proses lama
Multivariate Missing Data
Tahapan KNNI
Multivariate Missing Data
Tahapan KNNI
Multivariate Missing Data
Contoh Aplikasi KNNI
A Study of K-Nearest Neighbour as an Imputation Method.pdf
Multivariate Missing Data
Contoh Aplikasi KNNI
https://stackoverflow.com/questions/453214 06/missing-value-imputation-in-python-
using-knn
Analisis Outlier
Definisi Outlier
• Outlier/anomali adalah data set yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya
• Analisis outlier disebut juga analisis anomali/deteksi anomali atau deteksi deviasi.
Analisis Outlier
Manfaat Analisis Outlier
• Deteksi penyalahgunaan kartu kredit
• Segmentasi data pelanggan
• Deteksi adanya penyusupan pada jaringan komunikasi
• Analisis Medis
Analisis Outlier
Penyebab Outlier
• Data berasal dari sumber yang berbeda
• Variasi natural data itu sendiri
• Kesalahan pada saat pengukuran atau
pengumpulan data
Analisis Outlier
Konsep Dasar Analisis Outlier
• Bangun profil dari data “normal”
• Gunakan profil untuk mendeteksi anomali (data anomali memiliki
karakteristik yang sangat berbeda)
Analisis Outlier
Metode Analisis Outlier
• Metode Grafis
• Model Based ( pendekatan statistik )
• Distance Based ( dalam bentuk vektor )
– Nearest Neighbor based – Density Based
– Clustering Based
• Deviation Based
Analisis Outlier
Metode Grafis
• Box Plot (1D)
• Scatter plot (2 D)
• Spin plot (3D)
Analisis Outlier
Kelemahan Metode Grafis
• Bergantung pada peneliti, karena hanya mengandalkan visualisasi grafis
• Dibutuhkan seseorang yang ahli dan berpengalaman
• Membutuhkan waktu yang lama
Analisis Outlier
Model Based (Pendekatan Statistik)
• Asumsikan fungsi distribusi data yang dimiliki
• Gunakan Uji Statistik yang bergantung pada :
– Distribusi data
– Parameter distribusi (mean,median,variance) – Jumlah outlier yang dapat diterima (selang
kepercayaan)
Analisis Outlier
Model Based (Pendekatan Statistik)
Menggunakan nilai kuartil dan jangkauan.
• Jangkauan kuartil (JK) didefinisikan sebagai kuartil-3 dikurangi kuartil-1
• Data outlier
– Data kurang dari 1.5*JK (kuartil-1) – Data lebih dari 1.5*JK (kuartil-3)
Analisis Outlier
Kelebihan dan Kelemahan Pendekatan Statistik
• Jika fungsi distribusi data sudah diketahui, maka pendekatan statistik akan sangat efektif.
• Tetapi, sulit menemukan fungsi distribusi
• Kebanyakan uji hanya cocok untuk single attribut
• Sulit untuk menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi
Analisis Outlier
Distance based (Nearest-Neighbor Based)
• Tentukan jarak dari tiap pasang titik (data)
• Sebuah data dikatakan outlier jika :
– Jumlah data di sekitarnya lebih sedikit dari p dalam jarak D
– Data tsb merupakan top n titik yang jaraknya paling jauh dari ke tetangga terdekatnya
– Data tsb merupakan top n titik rata-rata jaraknya paling besar dari k tetangga terdekatnya
Analisis Outlier
Kelebihan dan kelemahan
NNB
• Pendekatannya sederhana
• Sangat tergantung pada nilai parameter yang dipilih
• Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda
Analisis Outlier
Kelebihan dan kelemahan
NNB
• Pendekatannya sederhana
• Sangat tergantung pada nilai parameter yang dipilih
• Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda
A Multivariate Outlier Detection Method
Berbasis pada jarak mahalanobis
A Multivariate Outlier Detection Method
• Minimum Covariance Determinant (MCD) algorithm pada Software SAS
A MULTIVARIATE OUTLIER DETECTION METHOD
• Minimum Covariance Determinant (MCD) algorithm pada Software SAS
A Multivariate Outlier Detection Method
• Minimum Covariance Determinant (MCD) algorithm pada Software SAS
A Multivariate Outlier Detection Method
• Minimum Covariance Determinant (MCD) algorithm pada Software SAS
Data Multivariat dengan Distribusi Normal
Let
1
p
x x
x
= a random vectorLet
1
p
= a vector of constants (the mean vector)Data Multivariat dengan Distribusi Normal
Let
1
1
p
p p
p pp
• covariance matrix
• p × p positive definite matrix
Data Multivariat dengan Distribusi Normal
1
( ) , ,
pf x f x x
Suppose that the joint density of the random vector
1
1 2 / 2 1/ 2
1 e
2
x x
p
is:
x
Data Multivariat dengan Distribusi Normal
The random vector, [x1, x2, … xp] is said to have a p-variate normal distribution with mean vector and covariance matrix
We will write:
~
p,
x N x
Data Multivariat dengan Distribusi Normal
Bivariate Normal distribution Graph
Data Multivariat dengan Distribusi Normal
Tritivariate Normal distribution Graph
x1 x2
x3
mean vector 1
2 3
x 1x= const
Data Multivariat dengan Distribusi Normal
Menguji Normalitas Data Multivariat
• A graphical test of multivariate normality
– Menggunakan konsep jarak mahalanobis
• Goodness-of-fit tests for multivariate normality
– Mardia's test multivariate normality
Data Multivariat dengan Distribusi Normal
Mardia's test multivariate normality
For a sample {x1, ..., xn} of k-dimensional vectors we compute
Data Multivariat dengan Distribusi Normal
Mardia's test multivariate normality
• Under the null hypothesis of multivariate normality
– The statistic A will have approximately a chi- squared distribution with 1/6⋅k(k + 1)(k + 2) degrees of freedom
– The statistic B will be approximately standard normal N(0,1).