• Tidak ada hasil yang ditemukan

Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya (raw) atau dari diagram pencar dari variabel independen dan variabel dependen. Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu, dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam pendeteksian outlier. Regresi diagnostik merupakan kasus statistik, artinya mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150 nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk memeriksa tiga karakteristik yang secara potensial merupakan data outlier. Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak) antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah

influence, yang menggambarkan besaran dari perubahan koefisien regresi jika outlier dihilangkan dari himpunan data. Secara konseptual, influence

merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari data outlier.

18

1. Leverage

Leverage hanya menggambarkan kasus yang terjadi pada variabel

independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat satu variabel independen, leverage dapat ditentukan sebagai [2]:

 

2 ii 2 1 leverage = h Xi MX n x   

2.5

dengan hii adalah leverage kasus ke-i, n banyaknya data, Xi adalah nilai untuk kasus ke-i, MX adalah mean dari X, dan

x2merupakan jumlah kuadrat n kasus dari simpangan Xi dari meannya. Jika kasus ke-i bernilai MX, maka bentuk kedua dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang minimum, 1

n . Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari MX,

maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari

leverage untuk n-kasus dalam suatu sampel adalah

1

ii

h

Mkn, dengan k merupakan jumlah variabel independen.

Perhitungan leverage di atas untuk kasus dengan satu variabel independen, dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu. Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, Xi1,Xi3,...,Xik, dari centroid variabel independen, centroid merupakan mean dari data,

1, 2,..., k

M M M . Penghitungan nilai hii untuk kasus ini dengan menggunakan

19

 

1 ' '

H X X X X 2.6

dengan H merupakan matrik n ndan X merupakan matrik n

k 1

. Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein

 

k variabel independen ditambah 1 sebagai nilai konstanta

 

0 . Diagonal dari H berisi nilai-nilai leverage. Jadi, leverage untuk kasus ke-i, hii, merupakan nilai dari baris ke-i dan kolom ke-i darai H.

Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai

cutoff. Nilai hii yang melebihi nilai cutoff dideteksi sebagai outlier. Adapun nilai

cutoff yang telah ditentukan dari [2], adalah 2

k 1

nuntuk data yang banyak

n 15

, sedangkan untuk data yang sedikit

n 15

digunakan cutoff

 

3 k 1 n. n

k 1

. Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein

 

k variabel independen ditambah 1 sebagai nilai konstanta

 

0 .

2. Discrepancy

Diagnostik statistik untuk data outlier yang kedua adalah discrepancy atau jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu

ˆ i i

YY , yang merupakan nilai dari residual, e . Pada dasarnya, nilai yang i

menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua metode yaitu Internally Studentized Residuals dan Externally Studentized

20

Internally studentized residuals menunjukkan satu dari dua hal yang

menyangkut residual mentah (raw). Ekspektasi dari variansi residual untuk kasus ke-i diekspresikan sebagai [2]:

 

i residual

 

variansi e MS 1hii 2.7

Dengan MSresidual merupakan estimasi dari keseluruhan variansi dari residual sekitar garis regresi =

2



2

  

1R

y n k 1 . hii merupakan leverage dari kasus ke-i. standar deviasi dari residualdari kasus ke-i adalah

1

i

e residual ii

sdMSh 2.8

Internally studentized residuals merupakan rasio dari besaran nilai residual dari

kasus ke-i dengan standar deviasi dari residual kasus ke-i [2], yaitu:

i

Internally studentized residuals

i i e e sd  2.9

Besar dari Internally studentized residuals berjarak antara 0 dan 1

n k . Sungguh tidak menguntungkan, Internally studentized residuals tidak mengikuti distribusi standar statistk, karena persamaan (2.9) penyebut dan pembilangnya tidak saling bebas. Jadi Internally studentized residuals tidak bisa diinterpretasi menggunakan kurva normal atau t tabel. Dengan demikian, kebanyakan yang lebih disukai dalam menghitung discrepancy adalah dengan menggunakan Externally Studentized Residuals.

Externally Studentized Residuals merupakan isu yang kedua dalam

perhitungan data yang merupakan outlier. Externally Studentized Residuals menunjukkan isu ini dengan memisalkan apa yang terjadi jika kasus yang

21 dianggap outlier dihapuskan dari himpunan data. Misalkan Yi i 

nilai perediksi kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi secara substansial terhadap estimasi variansi residual sekitar garis regresi,

. residual

MS Sedangkan MSresidual i untuk variansi residual dengan kasus ke-i yang merupakan outlier dihapuskan dari data. Misalkan d sebagai perbedaan antara i

data asli observasi, Y, dengan nilai prediksi untuk kasus ke-i yang berasal dari himpunan data dengan kasus ke-i dihapuskan, yaitu: ˆ 

i i i i

dYY . Externally

studentized residuals untuk kasus ke-i, t , dihitung sebagai berikut [2]: i

i i i d d t SE  2.10

Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10) merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut merupakan standar error dengan kasus ke-i diahapuskan. Residual yang dihapuskan, d , dapat dihitung dengan menggunakan residual awal, i e , yaitu i

dengan 1 i i ii e d h   2.11

dan nilai standar residual juga dapat dihitung dengan:

  1 i residual i d ii MS SE h   2.12

22  

1

i i ii residual i e t MS h   2.13

Penentuan nilai outlier berdasarkan nilai Externally studentized residuals lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka Externally studentized residuals akan mengikuti distribusi t dengan df   n k 1

[2]. Penentuan nilai cutoff –nya berdasrkan distribusi t, jika nilai t lebih besar i

dari nilai ttabel dengan derajat kepercayaan  , maka data tersebut memiliki nilai

discrepancy yang besar dan dikategorikan sebagai outlier.

Dokumen terkait