TINJAUAN PUSTAKA. Gambar 1 Diagram kotak garis

(1)

TINJAUAN PUSTAKA

Diagram Kotak Garis

Metode diagram kotak garis atau boxplot merupakan salah satu teknik untuk memberikan gambaran tentang lokasi pemusatan data, rentangan penyebaran dan kemiringan pola sebaran serta dapat digunakan untuk mengidentifikasi adanya pencilan.

Gambar 1 Diagram kotak garis

Selisih Q

3

dan Q

1

menggambarkan tingkat keragaman suatu data. Jika selisihnya semakin besar maka data semakin beragam, dan sebaliknya jika selisihnya semakin kecil maka data semakin kurang beragam. Data yang terletak di antara data terkecil dan Q

1

atau terletak di antara Q

3

dan data terbesar bisa terdapat pencilan.

Pencilan (outlier) didefinisikan sebagai suatu pengamatan yang tampak bertentangan atau tidak konsisten terhadap pengamatan yang lain. Pencilan antara lain dapat dideteksi jika pengamatan lebih besar dari Q

3

+ k(Q

3

- Q

1

) atau lebih kecil dari Q

1

– k (Q

3

- Q

1

). Umumnya k ≥ 1.5, makin besar nilai k, makin ekstrim pencilan yang dihasilkan (Tukey, 1979).

• nilai maksimum

• •

Q

3

= kuartil ke-3

Q

2

= median Q

1

= kuartil ke-1

•

• • nilai minimum

(2)

Dekomposisi Nilai Singular Biasa

Dekomposisi Nilai Singular (DNS) dari matriks data adalah suatu alat yang dapat digunakan untuk memahami struktur data. Beberapa metode yang didasarkan pada DNS ialah Analisis Komponen Utama (AKU), Analisis Biplot, dan Analisis Korespondensi. Misalkan X adalah matriks data peubah ganda dengan n objek pengamatan dan p peubah yang terkoreksi terhadap rata-ratanya.

Jika matriks X berpangkat r dengan r ≤ min {n,p}, maka dengan menggunakan DNS biasa diperoleh:

n

X

p

=

n

U

r

L

r

A′

p

(2.1) Matriks U dan A merupakan matriks ortonormal kolom, di mana U′U = A′A = I

r

. Matriks A adalah matriks yang kolom-kolomnya terdiri atas eigenvektor a

i

yang berpadanan dengan eigennilai λ

i

dari matriks X′X. Matriks U adalah matriks yang kolom-kolomnya merupakan eigenvektor-eigenvektor yang berpadanan dengan eigennilai-eigennilai dari matriks XX′,

U = , , , ,

sedangkan matriks L adalah matriks diagonal yang unsur-unsur diagonalnya merupakan akar kuadrat dari eigennilai-eigennilai tak nol matriks X′X atau matriks XX′, yaitu L = diag( , , …, ), di mana nilai-nilai dari λ

i

memenuhi sifat ≥ ≥ …≥ > 0 dan disebut nilai singular. Selain itu DNS biasa juga dapat ditulis dalam bentuk:

X = ∑ λ

^′

(2.2)

Bila r > 2 dan matriks data X ingin digambarkan pada ruang berdimensi s dengan s < r, dapat dilakukan suatu pendekatan terbaik dengan suatu matriks Y berpangkat s, sehingga diperoleh jarak minimum matriks Y ke matriks X yaitu:

min = min ∑ ∑ (2.3)

Matriks Y tersebut dapat ditulis dalam bentuk DNS biasa:

Y =

n

U

s

L

s

A′

p

(2.4)

dengan U dan A matriks ortonormal kolom yang berukuran nxs dan pxs, L adalah matriks diagonal dengan nilai singular: λ

1

≥ λ

2

≥ λ

3

≥ ….≥ λ

s

> 0 (Johnson &

Wichern, 2002).

(3)

Dekomposisi Nilai Singular Kekar

Misalkan **X* adalah matriks data asal yang di dalamnya terdapat data** pencilan dengan ukuran nxp yang menggambarkan n objek pengamatan dan p peubah. Pembangkitan eigenvektor dan eigennilai tergantung jenis data asal yang digunakan, apabila data yang digunakan memiliki ragam yang relatif sama maka digunakan matriks koragam. Sebaliknya jika data yang digunakan memiliki ragam yang relatif tidak sama, maka digunakan matriks korelasi.

Pada metode DNS kekar, eigenvektor dapat dibangkitkan dari matriks koragam. Misalkan X matriks data yang terpusatkan terhadap median.

n

X

p

=

n

- (

n

1

median **X*.j)) (2.5)** di mana

n

1

**adalah vektor yang semua unsurnya bernilai 1 dan X*.j =** ,

, ,

^′

adalah vektor kolom ke-j dari matriks X* untuk j =1, 2, . . ., p.

Matriks koragam S dari matriks X adalah:

p

S

p

= X′X, (2.6) sedangkan matriks korelasi R dari matriks X adalah:

p

R

p

= D

^-1/2

SD

^-1/2

(2.7)

di mana D

^-1/2

= diag

√ _

,

√ _

, … ,

_{_}

adalah matriks diagonal **dengan MADN(X*.j) = Median{** median . }/0.6745. MADN (Median Obsolute Deviation Normalized) adalah salah satu alternatif mencari simpangan baku yang kekar (Moronna et al., 2006).

Untuk mengetahui bagaimana mencari jarak, terdapat fungsi jarak yang dikenal sebagai fungsi jarak Minkowski. Norma vektor ke-p pada suatu vektor v = (v

1,

. . ., v

m

)’ didefinisikan sebagai berikut:

p

= ( ∑ | |

^p

)

^1/p

, untuk p ≥ 1 (2.8) Jarak Minkowski antara dua vektor v = (v

1,

. . ., v

m

)’ dan u = (u

1,

. . ., u

m

)’

didefinisikan sebagai berikut:

p

= ( ∑ | |

^p

)

^1/p

(2.9)

Ruang vektor yang berhubungan dengan fungsi tersebut dikenal sebagai ruang

Minkowski dan dinotasikan dengan L

p

. Untuk p = 1 maka persamaan (2.9)

didefinisikan sebagai berikut:

(4)

1

= ∑ | | (2.10) Konsep (2.10) dikenal sebagai norma L

1

.

Untuk p = 2 maka persamaan (2.9) didefinisikan sebagai berikut:

2

= ( ∑ | |

²

)

^1/2

(2.11)

Konsep (2.11) dikenal sebagai norma L

2

.

Kesesuaian antara matriks yang merupakan pendekatan terbaik bagi matriks data X menggunakan norma L

1

adalah meminimalkan fungsi:

min ∑ ∑ (2.12)

dengan . Prosedur mendapatkan sejumlah

eigennilai dan eigenvektor kiri dan kanan secara iteratif pada persamaan (2.12) dikenal dengan metode DNS kekar pada L

1

, dan implementasinya norma ini sebagai alternating L

1

regression. Metode ini digunakan untuk menduga sejumlah eigennilai dan eigenvektor kiri dan kanan sehingga hasil dugaan tersebut tahan terhadap pencilan.

Algoritma DNS kekar

a) Dimulai dengan menentukan dugaan awal eigenvektor kiri u

1

dari XX′.

b) Masing-masing kolom j matriks X, dengan j =1,2,…,p, ditentukan c

j

sebagai koefisien regresi L

1

dengan meminimumkan ∑ c) Menghitung hasil perkiraan eigenvektor kanan yaitu a

1

= dengan .

adalah lambang norma Euclid.

d) Menggunakan hasil perkiraan eigenvektor kanan untuk memperhalus perkiraan eigenvektor kiri. Masing-masing baris i matriks X, dengan i=1,2,3,…,n, ditentukan d

i

sebagai koefisien regresi L

1

dengan

meminimumkan ∑ .

e) Menghitung hasil perkiraan eigenvektor kiri yaitu u

1

= .

f) Ulangi hasil langkah (e) dari (b) sampai (e) kembali hingga diperoleh dugaan eigenvektor kiri u

1

dan eigenvektor kanan a

1

yang konvergen.

Proses ini memberikan pasangan eigenvektor pertama yaitu eigenvektor kiri dan eigenvektor kanan. Setelah kreteria nilai tersebut konvergen, eigennilai λ

1

pada L

1

dapat diperoleh dengan meminimumkan:

(5)

∑ ∑ λ (2.13) Untuk yang kedua dan selanjutnya DNS menempatkan X kembali dengan matriks turunan yang berlaku dengan mengurangi bentuk yang baru.

X ← X - λ

^′

(2.14)

Analisis Biplot

Analisis Biplot merupakan suatu upaya untuk memberikan peragaan grafik dari matriks data X dalam suatu plot dengan menumpangtindihkan vektor-vektor yang berada dalam ruang berdimensi tinggi ke dalam ruang berdimensi rendah (dua atau tiga) sekaligus yang mewakili vektor-vektor baris X sebagai gambaran objek dengan vektor-vektor yang mewakili kolom matriks X sebagai gambaran peubah. Dari peragaan ini diharapkan akan diperoleh gambaran tentang ciri-ciri peubah dan objek pengamatan serta posisi relatif antar objek pengamatan dengan peubah dapat dianalisis (Jollife, 2002).

Dari tampilan biplot tersebut, ada beberapa informasi yang dapat diperoleh, di antaranya ialah:

1 Kedekatan antar objek atau kedekatan letak posisi dua objek diinterpretasikan sebagai kemiripan sifat dua objek. Semakin dekat letak dua buah objek maka sifat yang ditunjukan oleh nilai-nilai peubahnya semakin mirip.

2 Panjang vektor peubah sebanding dengan keragaman peubah tersebut.

Semakin panjang vektor peubah maka keragamannya semakin tinggi.

3 Nilai sudut antara dua vektor peubah menggambarkan korelasi kedua peubah.

Semakin sempit sudut yang dibuat antara dua peubah maka semakin tinggi korelasinya. Jika sudut yang dibuat tegak lurus maka kedua peubah tersebut tidak saling berkorelasi. Sedangkan jika sudutnya tumpul yaitu berlawanan arah maka korelasinya negatif.

4 Nilai peubah pada suatu objek dapat menginformasikan keunggulan dari setiap

objek. Objek yang terletak searah dengan arah dari suatu peubah maka nilai

objek tersebut di atas nilai rata-rata, jika berlawanan berarti objek tersebut

nilanya di bawah rata-rata, dan jika hampir tegak lurus berarti nilainya

mendekati rata-rata.

(6)

Analisis biplot didasarkan pada DNS biasa dari matriks data yang sudah terkoreksi terhadap rata-ratanya. Misalkan

n

adalah matriks data peubah ganda yang terdiri n objek pengamatan dan p peubah. Selanjutnya matriks

n

dilakukan tranformasi terhadap nilai rata-ratanya sehingga diperoleh matriks

n

X

p

n

X

p

=

n

- (

n

1

n

) (2.15)

di mana

n

1

n

adalah matriks yang semua unsurnya bernilai 1.

Matriks koragam S dari matriks X adalah:

p

S

p

= X′X, (2.16)

sedangkan matriks korelasi R dari matriks X adalah:

p

R

p

= D

^-1/2

SD

^-1/2

(2.17)

di mana D

^-1/2

= diag

√

,

√

, … , adalah matriks diagonal dengan unsur diagonal utama ; i = 1, 2, . . ., p. Unsur matriks korelasi r

ij

juga merupakan cosinus sudut antara peubah ke-i dan ke-j:

cos( ) = r

ij

(2.18)

Misalkan matriks X berpangkat r dengan r ≤ min {n,p}. Dengan DNS biasa akan diperoleh seperti persamaan (2.1), yaitu:

n

X

p

=

n

U

r

L

r

A′

p

. (2.19)

Dalam Jollife (2002), didefinisikan L

^α

untuk 0 ≤ α ≤ 1, adalah matriks diagonal dengan elemen-elemen , , …, , definisi sama untuk L

^1-α

dengan elemen-elemennya , , …, dan jika G = UL

^α

dan

′ ′

, maka persamaan (2.19) dapat ditulis menjadi

n

X

p

=

n

U

r

L

r

A′

p

=

n

U

r

A′

p

=

n

G

r

H′

p

(2.20)

Untuk menggambarkan matriks X pada ruang berdimensi k < r, dapat didekati menggunakan matriks berpangkat k,

(k)

= G

(k)

H′

(k)

=

^α ^α

′ (2.21)

(7)

Biasanya digunakan k = 2, sehingga koordinat-koordinat G dan H dapat digambarkan dalam ruang berdimensi 2 (Lipkovich & Smith, 2002). Pengambilan nilai α dapat digunakan pada kisaran [0,1], untuk nilai α tertentu berimplikasi dalam interpretasi biplot.

a) Jika α = 0, maka pada (2.19) diperoleh G = U dan H′=LA′ akibatnya:

X′X = (GH′)’ (GH′) = HG′G H′

= HU′UH′

= HH′

= (n-1)S (2.22)

diperoleh:

9 ′ = (n-1)s

ij

, di mana s

ij

adalah koragam peubah ke-i dan ke-j .

Artinya, penggandaan titik antara vektor h

i

dan h

j

akan memberikan gambaran koragam antara peubah ke-i dengan peubah ke-j.

9 Panjang vektor =√ 1 s

i

dengan s

i

= √ .

Artinya, panjang vektor tersebut akan memberikan gambaran tentang keragaman peubah ke-i. Makin panjang vektor h

i

dibandingkan dengan vektor h

j

maka makin besar keragaman peubah h

i

dibanding peubah h

j

. 9 Korelasi antara peubah ke-i dan ke-j dijelaskan oleh cosinus sudut antara

h

i

dan h

j

, yaitu: cos =

^′

= r

ij

, yang artinya:

Bila sudut antara kedua peubah tersebut mendekati 0 maka makin besar korelasi positif antara kedua peubah tersebut dan korelasinya sama dengan 1 diperoleh jika = 0. Bila sudut antara kedua peubah tersebut mendekati maka makin besar korelasi negatif kedua peubah tersebut dan korelasinya sama dengan -1 jika = . Bila sudut makin dekat terhadap

, maka makin kecil korelasi kedua peubah tersebut dan korelasinya sama dengan 0 atau tidak ada korelasi jika sudut =

^π

.

9 Jika X berpangkat p, maka (x

i

– x

j

)’S

^-1

(x

i

– x

j

) = (n-1)(g

i

- g

j

)’(g

i

- g

j

)

Artinya, kuadrat jarak Mahalanobis antara x

i

dengan x

j

akan sebanding

dengan kuadrat jarak Euclid antara g

i

dengan g

j.

(8)

b) Jika α = 1, maka pada (2.19) diperoleh G=UL dan H′ = A′, atau H = A dengan H′ = A′A = I, akibatnya:

XX′= (GH′ ′ ′ = GH′ ′ = GA′ ′

= GG′ (2.23)

diperoleh:

9 (x

i

– x

j

) (x

i

– x

j

) = (g

i

- g

j

) (g

i

- g

j

) (2.24) Artinya, jarak Euclid antara x

i

dengan x

j

akan sama dengan jarak Euclid antara vektor-vektor yang merepresentasikan g

i

dan g

j.

9 Posisi g

i

dalam plot akan sama dengan posisi objek ke-i dengan menggunakan r komponen utama pertama.

9 Vektor lajur h

j

sama dengan vektor a

j

yang merupakan koefisien untuk komponen utama ke-j.

Untuk α ∈ (0,1), maka interpretasi pada korelasi serta jarak Euclid dan Mahalanobis tidak berlaku, sedangkan posisi relatif g

i

dan h

j

masih mencerminkan besaran objek ke-i pada peubah ke-j, x

ij

= ′ .

Baris matriks G berisi koordinat titik-titik yang menggambarkan n objek pada biplot, hasil plot terhadap n titik disebut g-plot. Sedangkan kolom matriks H berisi koordinat titik-titik p peubah yang digambarkan sebagai vektor p peubah pada biplot, hasil plot terhadap vektor p disebut h-plot. Biplot adalah upaya menggabungkan antara h-plot dan g-plot dalam ruang berdimensi rendah.

Analisis biplot yang didasarkan pada DNS kekar, mengambil pendekatan matriks X berpangkat dua yaitu :

X L (2.26)

dengan L dan R adalah matriks yang terdiri dua eigenvektor kiri dan eigenvektor

kanan pertama pada X (Hawkins et al., 2001). Kemudian, matriks L dan R

digunakan sebagai matriks G dan H yang masing-masing merupakan gambaran

vektor-vektor baris dan kolom matriks X.

(9)

Ukuran Kesuaian Biplot

Menurut Gabriel (2002), biplot tidak hanya sebagai pendekatan matriks data X dengan menggunakan matriks GH′, tetapi juga koragam dan korelasi antar peubah, serta bentuk dan kemiripan antar objek. Hasil perkalian HH′ sebagai pendekatan dari matriks X′X yang berkaitan dengan ragam-koragam dan korelasi antar peubah, sedangkan matriks GG′ sebagai pendekatan bagi XX′ yang berkaitan dengan ukuran kemiripan antar objek. Selanjutnya Gabriel mengemukakan ukuran kesuaian biplot (Goodness of Fit of Biplots) sebagai ukuran pendekatan dalam bentuk sebagai berikut:

1) Kesuaian data:

GF

(X, GH′) =

_′ ^′ ^′_′ _′

(2.27) 2) Kesuaian peubah:

GF

(X'X,HH′) =

_′ _′ ^′ ^′_′ _′

(2.28) 3) Kesuaian objek:

GF

(XX', GG′) =

_′ _′ ^′ ^′_′ _′

TINJAUAN PUSTAKA. Gambar 1 Diagram kotak garis

TINJAUAN PUSTAKA

Diagram Kotak Garis

Metode diagram kotak garis atau boxplot merupakan salah satu teknik untuk memberikan gambaran tentang lokasi pemusatan data, rentangan penyebaran dan kemiringan pola sebaran serta dapat digunakan untuk mengidentifikasi adanya pencilan.

Gambar 1 Diagram kotak garis

Selisih Q

dan Q

menggambarkan tingkat keragaman suatu data. Jika selisihnya semakin besar maka data semakin beragam, dan sebaliknya jika selisihnya semakin kecil maka data semakin kurang beragam. Data yang terletak di antara data terkecil dan Q

atau terletak di antara Q

dan data terbesar bisa terdapat pencilan.

Pencilan (outlier) didefinisikan sebagai suatu pengamatan yang tampak bertentangan atau tidak konsisten terhadap pengamatan yang lain. Pencilan antara lain dapat dideteksi jika pengamatan lebih besar dari Q

+ k(Q

- Q

) atau lebih kecil dari Q

– k (Q

- Q

). Umumnya k ≥ 1.5, makin besar nilai k, makin ekstrim pencilan yang dihasilkan (Tukey, 1979).

• nilai maksimum

• •

Q

= kuartil ke-3

Q

= median Q

= kuartil ke-1

•

•

• nilai minimum

Dekomposisi Nilai Singular Biasa

Jika matriks X berpangkat r dengan r ≤ min {n,p}, maka dengan menggunakan DNS biasa diperoleh:

X

=

U

L

A′

(2.1) Matriks U dan A merupakan matriks ortonormal kolom, di mana U′U = A′A = I

. Matriks A adalah matriks yang kolom-kolomnya terdiri atas eigenvektor a

yang berpadanan dengan eigennilai λ

dari matriks X′X. Matriks U adalah matriks yang kolom-kolomnya merupakan eigenvektor-eigenvektor yang berpadanan dengan eigennilai-eigennilai dari matriks XX′,

U = , , , ,

sedangkan matriks L adalah matriks diagonal yang unsur-unsur diagonalnya merupakan akar kuadrat dari eigennilai-eigennilai tak nol matriks X′X atau matriks XX′, yaitu L = diag( , , …, ), di mana nilai-nilai dari λ

memenuhi sifat ≥ ≥ …≥ > 0 dan disebut nilai singular. Selain itu DNS biasa juga dapat ditulis dalam bentuk:

X = ∑ λ

(2.2)

Bila r > 2 dan matriks data X ingin digambarkan pada ruang berdimensi s dengan s < r, dapat dilakukan suatu pendekatan terbaik dengan suatu matriks Y berpangkat s, sehingga diperoleh jarak minimum matriks Y ke matriks X yaitu:

min = min ∑ ∑ (2.3)

Matriks Y tersebut dapat ditulis dalam bentuk DNS biasa:

Y =

U

L

A′

(2.4)

dengan U dan A matriks ortonormal kolom yang berukuran nxs dan pxs, L adalah matriks diagonal dengan nilai singular: λ

≥ λ

≥ λ

≥ ….≥ λ

> 0 (Johnson &

Wichern, 2002).

Dekomposisi Nilai Singular Kekar

Pada metode DNS kekar, eigenvektor dapat dibangkitkan dari matriks koragam. Misalkan X matriks data yang terpusatkan terhadap median.

X

=

- (

1

median X*.j)) (2.5) di mana

1

adalah vektor yang semua unsurnya bernilai 1 dan X*.j = ,

, ,

adalah vektor kolom ke-j dari matriks X* untuk j =1, 2, . . ., p.

Matriks koragam S dari matriks X adalah:

S

= X′X, (2.6) sedangkan matriks korelasi R dari matriks X adalah:

R

= D

SD

(2.7)

di mana D

= diag

,

, … ,

adalah matriks diagonal dengan MADN(X*.j) = Median{ median . }/0.6745. MADN (Median Obsolute Deviation Normalized) adalah salah satu alternatif mencari simpangan baku yang kekar (Moronna et al., 2006).

median **X*.j)) (2.5)** di mana

**adalah vektor yang semua unsurnya bernilai 1 dan X*.j =** ,

adalah matriks diagonal **dengan MADN(X*.j) = Median{** median . }/0.6745. MADN (Median Obsolute Deviation Normalized) adalah salah satu alternatif mencari simpangan baku yang kekar (Moronna et al., 2006).