• Tidak ada hasil yang ditemukan

BAB II KAJIAN LITERATUR

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB II KAJIAN LITERATUR"

Copied!
8
0
0

Teks penuh

(1)

BAB II KAJIAN LITERATUR

2.1 Jarak Mahalanobis

Mengutip artikel tentang jarak Mahalanobis dari http://en.wikipedia.org pada 28 Maret 2008, jarak Mahalanobis adalah ukuran jarak yang diperkenalkan oleh Prasanta Chandra Mahalanobis pada tahun 1936, seorang ilmuwan India. Jarak Mahalanobis didasarkan pada korelasi antar variabel-variabel, khususnya invers matriks kovariansi. Dengan demikian, jarak ini berbeda dengan jarak Euclides.

Jarak Euclides antara dua vektor ,x y∈ℜ dirumuskan sebagai berikut. n

2 2

1 1 2 2

( , ) ( ) ( ) .. ( )

Euc n n

d x y = xy + xy + + xy 2

Sedangkan kuadrat jarak Mahalanobis antara dua vektor acak x dan y, yang berdistribusi sama dengan matriks kovariansi ∑ , adalah

1

( , ) ( ) ( )t

M

d x y = xy ∑− xy

Jika matriks kovariansinya adalah matriks identitas, maka jarak Mahalanobisnya akan sama dengan jarak Euclid, berikut pembuktiannya :

1 ( , ) ( ) ( )t M d x y = xy ∑− xy = (xy I) −1(xy)t ( ) ( )t x y I x y = − − = (xy x)( −y)t

(2)

( 1 1)2 ( 2 2)2 ... ( p p)

2

x y x y x y

= − + − + + −

=dEuc( , )x y

Dan jika matriks kovariansinya adalah matriks diagonal maka jarak Mahalanobis akan berupa jarak Euclid yang ternormalisasikan. Misalkan,

∑ = 2 1 2 2 2 0 0 0 0 0 0 0 0 0 . 0 0 0 0 0 . 0 0 0 0 0 p σ σ σ 0 ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ Maka, 1 ( , ) ( ) ( )t M d x y = xy ∑− xy 1 2 1 2 2 2 0 0 0 0 0 0 0 0 ( ) 0 0 . 0 0 ( ) 0 0 0 . 0 0 0 0 0 t p x y x σ σ σ − ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ = − − ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ y 2 1 2 2 2 1 0 0 0 0 1 0 0 0 0 ( ) ( ) 0 0 . 0 0 0 0 0 . 0 1 0 0 0 0 t p x y x σ σ σ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ = − − ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ y 2 2 2 1 1 2 2 2 2 1 2 ( ) ( ) ( ) ... p p p x y x y x y σ σ σ − − − = + + + 2

(3)

2 2 1 ( ) p i i i i x y σ = − =

Jarak mahalanobis juga dapat diaplikasikan untuk masalah Qualitry control (lihat di buku “Introduction to Statistical Quality Control”) dan masalah regression diagnostic (lihat di buku “An Introduction to Computational Statistics”). Begitu luasnya penggunaan jarak Mahalanobis dapat dijumpai dalam literatur tentang statistik multivariat. Dalam skripsi ini jarak Mahalanobis akan digunakan untuk mendeteksi/memisahkan data yang merupakan outlier dari kelompok data yang bukan outlier.

Dalam praktek, ∑ ditaksir berdasarkan sampel. Begitu pula dengan mean populasi µ . Misalkan S dan X matriks kovariansi dan vekor rata-rata dari sampel yang berukuran n dan berditribusi p-variat. Jarak Mahalanobis antara dua anggota sampel x dan y adalah

1

( , ) ( )t ( )

S

d x y = xy Sxy

Khususnya, jika y = X , maka dM( ,x X)= (xX S)t −1(xX). Jarak Mahalanobis ini tidak robust karena X dan S tidak robust. Mengutip dari buku karangan Rosseeuw dan Leroy, berjudul ”Detection outlier and robust regression”, penaksir parameter populasi dikatakan robust jika nilai penaksir tersebut tidak dipengaruhi oleh ada atau tidaknya gangguan/outlier. Jarak Mahalanobis yang robust, misalnya, adalah jarak Mahalanobis yang diberikan oleh FMCD atau MVV (lihat desertasi Diah Erni Herwindiati dan Maman A Djauhari tahun 2005 , “A New Criterion in Robust Estimator For Location And Covarianve Matrix, And Its Application For Outlier Labeling”).

Rumusan (1) adalah rumusan jarak mahalanobis, apakah rumusan ini dapat dikatakan sebagai jarak? Untuk menjawabnya perlu dilakukan pengecekan dengan cara mengecek

(4)

Suatu formula dikatakan jarak jika memenuhi: , , p x y k ∀ ∈ℜ , berlaku : 1. d x y( , )≥0 dan d x y( , )= ⇔ =0 x y 2. d x y( , )=d y x( , ) 3. d x y( , )≤d x k( , )+d k y( , )

Akan ditunjukkan bahwa rumusan (1) merupakan jarak :

1. Sifat nomer 1 dari definisi jarak dipenuhi oleh rumusan (1) karena matriks kovariansi adalah matriks semi definit positif maka inversnya juga pasti semi definit positif sehingga jarak mahlanobis klasik pasti non negative.

2. Sifat nomer 2 dipenuhi oleh rumusan jarak mahalanobis berikut penjelasannya :

1 ( , ) ( ) *t *( ) d x y = xy ∑− xy = − −(y x) *t ∑−1*( (− − )y x) = (yx) *t ∑−1*(y− )x = d y x( , )

3. Sifat nomer 3 (ketaksamaan segitiga) dipenuhi oleh rumusan jarak mahalanobis. Tanda ketaksamaan bias menjadi sama dengan jika vector x, k dan y collinear (segaris)

(5)

2.2 Algoritma metode jarak Mahalanobis klasik

Diketahui himpunan data A =

{

x x1, 2,..,xn

}

dengan xi∈ℜp berdistribusi normal , berikut algoritma metode jarak Mahalanobis klasik jika diterapkan pada data A.

(0, p)

N I

• Hitung vector rata-rata dari data, x=( ,a a1 2,...,ap) dengan

1 1 n j i a n = =

aij untuk aij adalah elemen matriks data A baris ke i dan kolom ke j

• Hitung vector xi− dan transposnya yaitu (x xix)t untuk nilai i=1,2,…,n

dengan p

i

x ∈ℜ

• Setelah itu hitung matriks kovariansi S dari himpunan data A. Ini bisa dihitung dengan menggunakan program Matlab 7 yaitu dengan cara mengetikkan sintaks “S=cov(A)” ke editor m-file.

• Kemudian hitung nilai kuadrat jarak Mahalanobis untuk masing –masing vector data yaitu :

2 1

( , ) ( ) * *( )t

S i i i

d x x = xx Sxx untuk i = 1, 2, ..., n

• Selanjutnya plot nilai kuadrat jarak Mahalanobis untuk i dari 1 sampai n di atas terhadap indeksnya sendiri yaitu i = 1, 2, …, n

Dari plot kuadrat jarak Mahalanobis bisa terlihat data ke berapa yang patut dicurigai sebagai outlier. Dari kajian literatur dapat disimpulkan bahwa metode pendeteksian outlier berdasarkan jarak Mahalanobis hanya efektif untuk kehadiran 1 buah outlier dan distribusi kuadrat jarak Mahalanobis bersifat eksak.

(6)

2.3 Distribusi Kuadrat Jarak Mahalanobis

Pada metode ini yang diplot adalah nilai kuadrat jarak Mahalanobis untuk setiap data. Untuk menentukan data mana yang menjadi outlier, kita perlu menetukan terlebih dahulu titik kritis (cut-off) berdasarkan distribusi kuadrat jarak Mahalanobis.

Johanna Hardin dan David M. Rocke dalam artikelnya yang terbit pada Journal of Computational and Graphical Statistics, volume 14 halaman 928 – 946 tahun 2005, mengatakan bahwa jika diberikan data

{

x x1, 2,..,xn

}

untuk p

i

x ∈ℜ berdistribusi normal multivariat, maka

2 2 ( , ) ( 1) S i n d x x n− ~ ( 1 ( , ) 2 2 p n p Beta − − ) .

Dengan kata lain, kuadrat jarak Mahalanobis klasik mempunyai distribusi eksak

2 ( , ) S i d x x ~ 2 ( 1) ( 1) ( , ) 2 2 n p n p Beta n − − −

Dari sini kita peroleh mean dan variansinya,

2 ( , ) 1 S i nd x x E p n ⎡ ⎤ = ⎢ ⎥ ⎣ ⎦ dan 2 ( , ) ( 1 var 2 1 ( S i nd x x n p p n n ⎡ ⎤ ) 1) − − = ⎢ + ⎣ ⎦ Bukti.

Jika diberikan X variabel acak berdistribusi Beta dengan parameter α dan β maka

[ ]

E X α α β = + dan var

[ ]

2 ( 1)( X ) αβ α β α β =

+ + + (lihat di buku ”Introduction to Mathematical Statistics 6th edition” karangan Hogg and Craig) sehingga :

• 2( , )2 / 2 ( 1) / 2 ( 1) / 2 S i nd x x p E n p n p ⎡ ⎤ = ⎢ + − ⎣ ⎦ −

(7)

/ 2 ( 1) / 2 p n = − 1 p n = − 2 2 ( , ) ( 1) ( 1) S i nd x x n E n ⎡ ⎤ − = − ⎣ ⎦ p 2 ( , ) ( 1) S i nd x x E p n ⎡ ⎤ = ⎢ ⎥ ⎣ ⎦ • var 2( , )2 ( / 2)( 1) / 2 2 ( 1) ( / 2 ( 1) / 2 1)( / 2 ( 1) / 2) S i nd x x p n p n p n p p n p ⎡ ⎤ − − = ⎢ + − − + + − − ⎣ ⎦ ( 1) / 4 2 (( 1) / 2)(( 1) / 2) p n p n n − − = + − 2 ( 1)2 ( 1)( 1) p n p n n − − = + − 2 2 2 ( , ) 2 ( 1) ( 1) var ( 1) ( 1) S i nd x x p n p n n n ⎡ ⎤ − − − = − + ⎣ ⎦ 2 2 ( , ) 2 ( 1) var ( 1) ( 1) ( 1) S i nd x x p n p n n n= − − ⎢ + ⎣ ⎦ 2 ( , ) 2 ( 1) var ( 1) ( 1) S i nd x x p n p n n ⎡ ⎤= − − ⎢ + ⎣ ⎦

Kuadrat jarak Mahalanobis klasik juga dapat didekati oleh distribusi chi-square dengan parameter p.

(8)

2.4 Titik kritis (cut-off)

Berdasarkan distribusi kuadrat jarak Mahalanobis di atas, maka titik kritis (cut-off) pada pengujian kehadiran outlier dapat ditentukan. Misalkan kesalahan tipe I yang diinginkan adalah α. Jadi, α adalah probabilitas bahwa data yang bukan outlier terdeteksi sebagai outlier. Maka titik kritisnya adalah,

2

( 1) ( 1)

_ * (1 , ,

2 2

n p n

cut off Beta

n α ) p − − − = − di mana (1 , ,( ) 2 2 p n p

Beta −α − −1) adalah kuantil ke (1-α) dari distribusi beta

dengan parameter 2 p dan ( 2 n− −p 1)

, n adalah banyaknya data, dan p adalah banyaknya variable. Untuk α = 5%, maka

2

( 1) ( 1)

_ * (0.95, , )

2 2

n p n p

cut off Beta

n

− − −

Referensi

Dokumen terkait

Hasil penelitian terhadap perbedaan profil hasil pemeriksaan hematologi pada penderita tuberculosis sebelum dan sesudah pengobatan pada enam parameter hematologi

Skala usaha industri manisan pala yang mempunyai potensi terbaik untuk di- kembangkan di Kabupaten Daerah Tingkat I1 Bogor tergantung pada tujuan yang ingin dicapai, yaitu

Bahwa berdasarkan pertimbangan-pertimbangan tersebut diatas dan dalam rangka peningkatan kelancaran penyelenggaraan pemerintahan dan pembangunan sehingga lebih berdaya guna

Hasil penelitian untuk hasil belajar pengetahuan setelah siswa mengikuti pembelajaran menggunakan kartu Teka-Teki Silang dan diberikan post-test, nilai yang

yang telah memberikan ilmu dan pengetahuan kepada penulis selama mengikuti pendidikan di Fakultas Seni Rupa dan Desain Institut Teknologi Bandung.. Pak Narno, Pak Ade, dan Pak

1) Terdapat pengaruh secara simultan pelatihan terhadap prestasi kerja pegawai pada kantor Gubernur Sulawesi Selatan (Biro Bina Prekonomian) telah berjalan dengan

Adanya Sistem Informasi Geografis berbasis web mengenai lokasi daerah pariwisata di Pulau Bintan diharapkan mampu memberikan informasi kepariwisataan bagi masyarakat

Infrastruktur Teknologi Informasi dan Komunikasi Kementerian Perdagangan yang selanjutnya disebut Infrastruktur TIK Kementerian Perdagangan adalah perangkat keras jaringan dan