• Tidak ada hasil yang ditemukan

Analisis Multivariat - Spada UNS

N/A
N/A
Protected

Academic year: 2023

Membagikan "Analisis Multivariat - Spada UNS"

Copied!
52
0
0

Teks penuh

(1)

Analisis Multivariat

Kuliah ke - 2

Dr. Ir. Eko Pujiyanto, S.Si., M.T., IPM Teknik Industri - UNS

(2)

Isi

• P e n y a jia n D a ta M u ltiv a ria t

• B e n tu k G ra fik D a ta M u ltiv a ria t

M u ltiv a ria te M is s in g D a ta

• A n a lis is

O u tlie r

A M u ltiv a ria te O u tlie r D e te c tio n M e th o d

• D a ta M u ltiv a ria t d e n g a n D is trib u s i N o rm a l

(3)

Penyajian Data Multivariat

(4)

Penyajian Data Multivariat

Example 1:

Figure 1 shows the following statistics for each of the EU countries:

1. Gross national product (GDP) per capita

2. Accumulated public debt (as a percentage of GDP), 3. Current annual public

deficit (as a percentage of GDP)

4. Current annual inflation rate

5. Percentage of the population that is unemployed.

(5)

Penyajian Data Multivariat

Example 2:

X1 age

X2 short-term memory span X3 IQ

X4 reading ability

X1 X2 X3 X4

(6)

Bentuk Grafik Data Multivariat

Univariat (n=1) Bivariat (n=2)

(7)

Bentuk Grafik Data Multivariat

Trivariat (n=3) Multivariat (n>3)

(8)

Bentuk Grafik Data Multivariat

Multivariat ( Four-dimensional plot)

(9)

Bentuk Grafik Data Multivariat

Contoh

(10)

Bentuk Grafik Data Multivariat

Contoh

(11)

Multivariate Missing Data

Pengumpulan data dapat terjadi data yang tidak lengkap (missing data ).

Missing data adalah suatu keadaan dimana

beberapa nilai atribut dalam suatu sekumpulan data (data set) kosong atau tidak ada nilainya

Missing data pertama kali diperkenalkan oleh Orchard dan Woodbury (1972)

Ketika data tidak lengkap atau hilang diklarifikasi

(12)

Multivariate Missing Data

• Peyebab terjadinya missing data

Peralatan yang tidak berfungsi dengan baik Kesalahan mekanis

Penolakan responden untuk menjawab kuisioner

Tidak adanya jawaban yang spesifik sehingga tidak mengetahui variabel yang

dipermasalahkan

(13)

Multivariate Missing Data

Tipe missing data berdasarkan keacakan

Missing Completely at Random (MCAR) : tidak

bergantung pada nilai seluruh variabel, baik variabel yang terisi (diketahui) maupun variabel yang

mengandung missing data

Missing at Random (MAR) : bergantung pada variabel yang terisi (diketahui) namun tidak bergantung pada variabel yang mengandung missing data itu sendiri

Not Missing at Random (NMAR), bergantung pada variabel itu sendiri sehingga tidak dapat diprediksi dari variabel yang lain.

(14)

Multivariate Missing Data

Metode mengatasi missing data

– Mengabaikan atau membuang data yang hilang

– Estimasi parameter

Contoh : Algoritma Ekspektasi-Maksimisasi (EM)

– Metode imputasi

(15)

Multivariate Missing Data

Algoritma Ekspektasi-Maksimisasi (EM)

Algoritma EM merupakan teknik iteratif untuk menghitung estimasi kemungkinan maksimum

(maximum likelihood estimation) untuk data tidak lengkap.

Ide dasar algoritma EM adalah mewakili vektor data yang diamati, misalkan vektor y (data tidak lengkap) menjadi vektor x (data lengkap) dengan cara pemetaan tertentu (cukup rumit

).

(16)

Multivariate Missing Data

Algoritma Ekspektasi-Maksimisasi (EM)

(17)

Multivariate Missing Data

Contoh Dengan Metode EM

Ada Missing Data Lengkap

X1 X2 X3 X1 X2 X3

1.5 1.4 1.6 1.5 1.4 1.6

1.5 1.9 1.5 1.47 1.9

2 1.6 1.84 2 1.6

2.2 1.96 2.15 2.2

2.1 2.3 2.2 2.1 2.3 2.2

1.8 2 1.9 1.8 2 1.9

(18)

Mltivariate Missing Data

Metode imputasi

1. Metode imputasi dengan ukuran pemusatan 2. Metode imputasi regresi

3. Metode imputasi Hot Deck

4. Metode imputasi ColdDeck

5. Metode imputasi berbasis Machine Learning

Contoh : K-Nearest Neighbor Imputation (KNNI)

(19)

Multivariate Missing Data

K-Nearest Neighbor Imputation (KNNI)

• Metode yang paling terkenal yang

digunakan untuk mengatasi missing data.

• Menggunakan konsep jarak

• Memberikan hasil imputasi yang

sangat baik bahkan ketika data yang digunakan memiliki missing data yang cukup besar

(20)

Multivariate Missing Data

K-Nearest Neighbor Imputation (KNNI)

• Kelebihan

Dapat digunakan untuk memprediksi dua tipe data ( diskrit dan kontinu )

Tidak membutuhkan pembentukan model prediksi

• Kekurangan

Menggunakan semua data  Proses lama

(21)

Multivariate Missing Data

Tahapan KNNI

(22)

Multivariate Missing Data

Tahapan KNNI

(23)

Multivariate Missing Data

Contoh Aplikasi KNNI

A Study of K-Nearest Neighbour as an Imputation Method.pdf

(24)

Multivariate Missing Data

Contoh Aplikasi KNNI

https://stackoverflow.com/questions/453214 06/missing-value-imputation-in-python-

using-knn

(25)

Analisis Outlier

Definisi Outlier

• Outlier/anomali adalah data set yang dianggap memiliki sifat yang berbeda dibandingkan dengan kebanyakan data lainnya

• Analisis outlier disebut juga analisis anomali/deteksi anomali atau deteksi deviasi.

(26)

Analisis Outlier

Manfaat Analisis Outlier

• Deteksi penyalahgunaan kartu kredit

• Segmentasi data pelanggan

• Deteksi adanya penyusupan pada jaringan komunikasi

• Analisis Medis

(27)

Analisis Outlier

Penyebab Outlier

• Data berasal dari sumber yang berbeda

• Variasi natural data itu sendiri

• Kesalahan pada saat pengukuran atau

pengumpulan data

(28)

Analisis Outlier

Konsep Dasar Analisis Outlier

• Bangun profil dari data “normal”

• Gunakan profil untuk mendeteksi anomali (data anomali memiliki

karakteristik yang sangat berbeda)

(29)

Analisis Outlier

Metode Analisis Outlier

Metode Grafis

Model Based ( pendekatan statistik )

Distance Based ( dalam bentuk vektor )

Nearest Neighbor based Density Based

Clustering Based

Deviation Based

(30)

Analisis Outlier

Metode Grafis

• Box Plot (1D)

• Scatter plot (2 D)

• Spin plot (3D)

(31)

Analisis Outlier

Kelemahan Metode Grafis

• Bergantung pada peneliti, karena hanya mengandalkan visualisasi grafis

• Dibutuhkan seseorang yang ahli dan berpengalaman

• Membutuhkan waktu yang lama

(32)

Analisis Outlier

Model Based (Pendekatan Statistik)

Asumsikan fungsi distribusi data yang dimiliki

Gunakan Uji Statistik yang bergantung pada :

Distribusi data

Parameter distribusi (mean,median,variance) Jumlah outlier yang dapat diterima (selang

kepercayaan)

(33)

Analisis Outlier

Model Based (Pendekatan Statistik)

Menggunakan nilai kuartil dan jangkauan.

• Jangkauan kuartil (JK) didefinisikan sebagai kuartil-3 dikurangi kuartil-1

• Data outlier

– Data kurang dari 1.5*JK (kuartil-1) – Data lebih dari 1.5*JK (kuartil-3)

(34)

Analisis Outlier

Kelebihan dan Kelemahan Pendekatan Statistik

Jika fungsi distribusi data sudah diketahui, maka pendekatan statistik akan sangat efektif.

Tetapi, sulit menemukan fungsi distribusi

Kebanyakan uji hanya cocok untuk single attribut

Sulit untuk menentukan fungsi distribusi dan uji yang tepat untuk data berdimensi tinggi

(35)

Analisis Outlier

Distance based (Nearest-Neighbor Based)

Tentukan jarak dari tiap pasang titik (data)

Sebuah data dikatakan outlier jika :

Jumlah data di sekitarnya lebih sedikit dari p dalam jarak D

Data tsb merupakan top n titik yang jaraknya paling jauh dari ke tetangga terdekatnya

Data tsb merupakan top n titik rata-rata jaraknya paling besar dari k tetangga terdekatnya

(36)

Analisis Outlier

Kelebihan dan kelemahan

NNB

• Pendekatannya sederhana

• Sangat tergantung pada nilai parameter yang dipilih

• Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda

(37)

Analisis Outlier

Kelebihan dan kelemahan

NNB

• Pendekatannya sederhana

• Sangat tergantung pada nilai parameter yang dipilih

• Tidak dapat menangani kasus himpunan data yang memiliki kepadatan berbeda pada daerah yang berbeda

(38)

A Multivariate Outlier Detection Method

Berbasis pada jarak mahalanobis

(39)

A Multivariate Outlier Detection Method

• Minimum Covariance Determinant (MCD) algorithm pada Software SAS

(40)

A MULTIVARIATE OUTLIER DETECTION METHOD

• Minimum Covariance Determinant (MCD) algorithm pada Software SAS

(41)

A Multivariate Outlier Detection Method

• Minimum Covariance Determinant (MCD) algorithm pada Software SAS

(42)

A Multivariate Outlier Detection Method

• Minimum Covariance Determinant (MCD) algorithm pada Software SAS

(43)

Data Multivariat dengan Distribusi Normal

Let

1

p

x x

x

 

 

  

 

 

 

= a random vector

Let

1

p

 

 

  

 

 

 

= a vector of constants (the mean vector)

(44)

Data Multivariat dengan Distribusi Normal

Let

1

1

p

p p

p pp

 

 



 

 

   

 

 

 

• covariance matrix

p × p positive definite matrix

(45)

Data Multivariat dengan Distribusi Normal

1

( ) , ,

p

f x   f x x

Suppose that the joint density of the random vector

 

1

1 2 / 2 1/ 2

1 e

2

x x

p

   

is:

x

(46)

Data Multivariat dengan Distribusi Normal

The random vector, [x1, x2, … xp] is said to have a p-variate normal distribution with mean vector and covariance matrix 

We will write:

 

~

p

,

xN    x  

(47)

Data Multivariat dengan Distribusi Normal

Bivariate Normal distribution Graph

(48)

Data Multivariat dengan Distribusi Normal

Tritivariate Normal distribution Graph

x1 x2

x3

mean vector 1

2 3

x 1x= const

(49)

Data Multivariat dengan Distribusi Normal

Menguji Normalitas Data Multivariat

• A graphical test of multivariate normality

Menggunakan konsep jarak mahalanobis

• Goodness-of-fit tests for multivariate normality

Mardia's test multivariate normality

(50)

Data Multivariat dengan Distribusi Normal

Mardia's test multivariate normality

For a sample {x1, ..., xn} of k-dimensional vectors we compute

(51)

Data Multivariat dengan Distribusi Normal

Mardia's test multivariate normality

• Under the null hypothesis of multivariate normality

The statistic A will have approximately a chi- squared distribution with 1/6⋅k(k + 1)(k + 2) degrees of freedom

The statistic B will be approximately standard normal N(0,1).

(52)

Pekan Depan

• One-way anova

• Anova factorial

• Ancova

• Dasar manova dan ancova

• Komputasi manova dan ancova

Referensi

Dokumen terkait