TINJAUAN PUSTAKA
Diagram Kotak Garis
Metode diagram kotak garis atau boxplot merupakan salah satu teknik untuk memberikan gambaran tentang lokasi pemusatan data, rentangan penyebaran dan kemiringan pola sebaran serta dapat digunakan untuk mengidentifikasi adanya pencilan.
Gambar 1 Diagram kotak garis
Selisih Q
3dan Q
1menggambarkan tingkat keragaman suatu data. Jika selisihnya semakin besar maka data semakin beragam, dan sebaliknya jika selisihnya semakin kecil maka data semakin kurang beragam. Data yang terletak di antara data terkecil dan Q
1atau terletak di antara Q
3dan data terbesar bisa terdapat pencilan.
Pencilan (outlier) didefinisikan sebagai suatu pengamatan yang tampak bertentangan atau tidak konsisten terhadap pengamatan yang lain. Pencilan antara lain dapat dideteksi jika pengamatan lebih besar dari Q
3+ k(Q
3- Q
1) atau lebih kecil dari Q
1– k (Q
3- Q
1). Umumnya k ≥ 1.5, makin besar nilai k, makin ekstrim pencilan yang dihasilkan (Tukey, 1979).
• nilai maksimum
• •
Q
3= kuartil ke-3
Q
2= median Q
1= kuartil ke-1
•
•
• nilai minimum
Dekomposisi Nilai Singular Biasa
Dekomposisi Nilai Singular (DNS) dari matriks data adalah suatu alat yang dapat digunakan untuk memahami struktur data. Beberapa metode yang didasarkan pada DNS ialah Analisis Komponen Utama (AKU), Analisis Biplot, dan Analisis Korespondensi. Misalkan X adalah matriks data peubah ganda dengan n objek pengamatan dan p peubah yang terkoreksi terhadap rata-ratanya.
Jika matriks X berpangkat r dengan r ≤ min {n,p}, maka dengan menggunakan DNS biasa diperoleh:
n
X
p=
nU
rL
rA′
p(2.1) Matriks U dan A merupakan matriks ortonormal kolom, di mana U′U = A′A = I
r. Matriks A adalah matriks yang kolom-kolomnya terdiri atas eigenvektor a
iyang berpadanan dengan eigennilai λ
idari matriks X′X. Matriks U adalah matriks yang kolom-kolomnya merupakan eigenvektor-eigenvektor yang berpadanan dengan eigennilai-eigennilai dari matriks XX′,
U = , , , ,
sedangkan matriks L adalah matriks diagonal yang unsur-unsur diagonalnya merupakan akar kuadrat dari eigennilai-eigennilai tak nol matriks X′X atau matriks XX′, yaitu L = diag( , , …, ), di mana nilai-nilai dari λ
imemenuhi sifat ≥ ≥ …≥ > 0 dan disebut nilai singular. Selain itu DNS biasa juga dapat ditulis dalam bentuk:
X = ∑ λ
′(2.2)
Bila r > 2 dan matriks data X ingin digambarkan pada ruang berdimensi s dengan s < r, dapat dilakukan suatu pendekatan terbaik dengan suatu matriks Y berpangkat s, sehingga diperoleh jarak minimum matriks Y ke matriks X yaitu:
min = min ∑ ∑ (2.3)
Matriks Y tersebut dapat ditulis dalam bentuk DNS biasa:
Y =
nU
sL
sA′
p(2.4)
dengan U dan A matriks ortonormal kolom yang berukuran nxs dan pxs, L adalah matriks diagonal dengan nilai singular: λ
1≥ λ
2≥ λ
3≥ ….≥ λ
s> 0 (Johnson &
Wichern, 2002).
Dekomposisi Nilai Singular Kekar
Misalkan X* adalah matriks data asal yang di dalamnya terdapat data pencilan dengan ukuran nxp yang menggambarkan n objek pengamatan dan p peubah. Pembangkitan eigenvektor dan eigennilai tergantung jenis data asal yang digunakan, apabila data yang digunakan memiliki ragam yang relatif sama maka digunakan matriks koragam. Sebaliknya jika data yang digunakan memiliki ragam yang relatif tidak sama, maka digunakan matriks korelasi.
Pada metode DNS kekar, eigenvektor dapat dibangkitkan dari matriks koragam. Misalkan X matriks data yang terpusatkan terhadap median.
n
X
p=
n- (
n1
1median X*.j)) (2.5) di mana
n1
1adalah vektor yang semua unsurnya bernilai 1 dan X*.j = ,
, ,
′adalah vektor kolom ke-j dari matriks X* untuk j =1, 2, . . ., p.
Matriks koragam S dari matriks X adalah:
p
S
p= X′X, (2.6) sedangkan matriks korelasi R dari matriks X adalah:
p
R
p= D
-1/2SD
-1/2(2.7)
di mana D
-1/2= diag
√ _
,
√ _
, … ,
_adalah matriks diagonal dengan MADN(X*.j) = Median{ median . }/0.6745. MADN (Median Obsolute Deviation Normalized) adalah salah satu alternatif mencari simpangan baku yang kekar (Moronna et al., 2006).
Untuk mengetahui bagaimana mencari jarak, terdapat fungsi jarak yang dikenal sebagai fungsi jarak Minkowski. Norma vektor ke-p pada suatu vektor v = (v
1,. . ., v
m)’ didefinisikan sebagai berikut:
p
= ( ∑ | |
p)
1/p, untuk p ≥ 1 (2.8) Jarak Minkowski antara dua vektor v = (v
1,. . ., v
m)’ dan u = (u
1,. . ., u
m)’
didefinisikan sebagai berikut:
p
= ( ∑ | |
p)
1/p(2.9)
Ruang vektor yang berhubungan dengan fungsi tersebut dikenal sebagai ruang
Minkowski dan dinotasikan dengan L
p. Untuk p = 1 maka persamaan (2.9)
didefinisikan sebagai berikut:
1
= ∑ | | (2.10) Konsep (2.10) dikenal sebagai norma L
1.
Untuk p = 2 maka persamaan (2.9) didefinisikan sebagai berikut:
2
= ( ∑ | |
2)
1/2(2.11)
Konsep (2.11) dikenal sebagai norma L
2.
Kesesuaian antara matriks yang merupakan pendekatan terbaik bagi matriks data X menggunakan norma L
1adalah meminimalkan fungsi:
min ∑ ∑ (2.12)
dengan . Prosedur mendapatkan sejumlah
eigennilai dan eigenvektor kiri dan kanan secara iteratif pada persamaan (2.12) dikenal dengan metode DNS kekar pada L
1, dan implementasinya norma ini sebagai alternating L
1regression. Metode ini digunakan untuk menduga sejumlah eigennilai dan eigenvektor kiri dan kanan sehingga hasil dugaan tersebut tahan terhadap pencilan.
Algoritma DNS kekar
a) Dimulai dengan menentukan dugaan awal eigenvektor kiri u
1dari XX′.
b) Masing-masing kolom j matriks X, dengan j =1,2,…,p, ditentukan c
jsebagai koefisien regresi L
1dengan meminimumkan ∑ c) Menghitung hasil perkiraan eigenvektor kanan yaitu a
1= dengan .
adalah lambang norma Euclid.
d) Menggunakan hasil perkiraan eigenvektor kanan untuk memperhalus perkiraan eigenvektor kiri. Masing-masing baris i matriks X, dengan i=1,2,3,…,n, ditentukan d
isebagai koefisien regresi L
1dengan
meminimumkan ∑ .
e) Menghitung hasil perkiraan eigenvektor kiri yaitu u
1= .
f) Ulangi hasil langkah (e) dari (b) sampai (e) kembali hingga diperoleh dugaan eigenvektor kiri u
1dan eigenvektor kanan a
1yang konvergen.
Proses ini memberikan pasangan eigenvektor pertama yaitu eigenvektor kiri dan eigenvektor kanan. Setelah kreteria nilai tersebut konvergen, eigennilai λ
1pada L
1dapat diperoleh dengan meminimumkan:
∑ ∑ λ (2.13) Untuk yang kedua dan selanjutnya DNS menempatkan X kembali dengan matriks turunan yang berlaku dengan mengurangi bentuk yang baru.
X ← X - λ
′(2.14)
Analisis Biplot
Analisis Biplot merupakan suatu upaya untuk memberikan peragaan grafik dari matriks data X dalam suatu plot dengan menumpangtindihkan vektor-vektor yang berada dalam ruang berdimensi tinggi ke dalam ruang berdimensi rendah (dua atau tiga) sekaligus yang mewakili vektor-vektor baris X sebagai gambaran objek dengan vektor-vektor yang mewakili kolom matriks X sebagai gambaran peubah. Dari peragaan ini diharapkan akan diperoleh gambaran tentang ciri-ciri peubah dan objek pengamatan serta posisi relatif antar objek pengamatan dengan peubah dapat dianalisis (Jollife, 2002).
Dari tampilan biplot tersebut, ada beberapa informasi yang dapat diperoleh, di antaranya ialah:
1 Kedekatan antar objek atau kedekatan letak posisi dua objek diinterpretasikan sebagai kemiripan sifat dua objek. Semakin dekat letak dua buah objek maka sifat yang ditunjukan oleh nilai-nilai peubahnya semakin mirip.
2 Panjang vektor peubah sebanding dengan keragaman peubah tersebut.
Semakin panjang vektor peubah maka keragamannya semakin tinggi.
3 Nilai sudut antara dua vektor peubah menggambarkan korelasi kedua peubah.
Semakin sempit sudut yang dibuat antara dua peubah maka semakin tinggi korelasinya. Jika sudut yang dibuat tegak lurus maka kedua peubah tersebut tidak saling berkorelasi. Sedangkan jika sudutnya tumpul yaitu berlawanan arah maka korelasinya negatif.
4 Nilai peubah pada suatu objek dapat menginformasikan keunggulan dari setiap
objek. Objek yang terletak searah dengan arah dari suatu peubah maka nilai
objek tersebut di atas nilai rata-rata, jika berlawanan berarti objek tersebut
nilanya di bawah rata-rata, dan jika hampir tegak lurus berarti nilainya
mendekati rata-rata.
Analisis biplot didasarkan pada DNS biasa dari matriks data yang sudah terkoreksi terhadap rata-ratanya. Misalkan
nadalah matriks data peubah ganda yang terdiri n objek pengamatan dan p peubah. Selanjutnya matriks
ndilakukan tranformasi terhadap nilai rata-ratanya sehingga diperoleh matriks
nX
pn
X
p=
n- (
n1
n) (2.15)
di mana
n1
nadalah matriks yang semua unsurnya bernilai 1.
Matriks koragam S dari matriks X adalah:
p
S
p= X′X, (2.16)
sedangkan matriks korelasi R dari matriks X adalah:
p
R
p= D
-1/2SD
-1/2(2.17)
di mana D
-1/2= diag
√
,
√
, … , adalah matriks diagonal dengan unsur diagonal utama ; i = 1, 2, . . ., p. Unsur matriks korelasi r
ijjuga merupakan cosinus sudut antara peubah ke-i dan ke-j:
cos( ) = r
ij(2.18)
Misalkan matriks X berpangkat r dengan r ≤ min {n,p}. Dengan DNS biasa akan diperoleh seperti persamaan (2.1), yaitu:
n
X
p=
nU
rL
rA′
p. (2.19)
Dalam Jollife (2002), didefinisikan L
αuntuk 0 ≤ α ≤ 1, adalah matriks diagonal dengan elemen-elemen , , …, , definisi sama untuk L
1-αdengan elemen-elemennya , , …, dan jika G = UL
αdan
′ ′
, maka persamaan (2.19) dapat ditulis menjadi
n
X
p=
nU
rL
rA′
p=
nU
rA′
p=
nG
rH′
p(2.20)
Untuk menggambarkan matriks X pada ruang berdimensi k < r, dapat didekati menggunakan matriks berpangkat k,
(k)