• Tidak ada hasil yang ditemukan

Outlier adalah satu atau lebih data yang tidak biasa, yang tidak cocok dari sebagian data lainnya (one or more atypical data points that do not fit with the rest of the data). Outlier mungkin disebabkan karena dalam melakukan observasi melakukan beberapa kesalahan, hal ini yang biasa disebut observasi terkontaminasi, juga bisa outlier merepresentasikan observasi yang akurat dari kasus yang jarang. Apapun sumber outlier, dalam beberapa kasus menyebabkan dampak yang sangat besar dalam mengestimasi koefisien regresi , standar error, dan estimasi keseluruhan variabel prediktor, R2.[2]

Outlier muncul karena data terkontaminasi dalam beberapa cara. Observasi yang terkontaminasi dapat dan harus diminimalisir dengan prosedur penelitian dan pengolahan data yang hati-hati. Observasi yang terkontaminasi disebabkan [2]:

1. Kesalahan pelaksanaan prosedur penelitian; misalnya: interviewer salah baca dalam beberapa pertanyaan, atau eksperimenter melakukan yang salah atau perlakuan yang kurang sempurna.

2. Ketidakakuratan dalam pengukuran variabel dependen; misalnya peralatan mengalami kerusakan sehingga pengukuran variabel dependen tidak akurat. 3. Kesalahan penulisan atau pengetikan data.

4. Kesalahan perhitungan dari pengukuran; mislnya peneliti kurang tepat menghitung sejumlah variabel independen atau membuat kesalahan dalam perhitungan dari ukuran

12 5. Partisipan yang kurang perhatian. Misal dala kasus tertentu, partisipan sedang dalam keadaan lelah, sakit atau mabuk, dan tidak mampu merespon dengan baik terhadap materi percobaan.

Tiap statistik diagnostik yang akan dibahas nanti, secara potensial dapat menolong dalam pendeketsian data yang terkontaminasi. Ketika peneliti mendeteksi outlier, perlakuan pertamanya adalah melihat kemungkinan bahwa outlier merupakan data yang terkontaminasi. Data dan perhitungan harus diperiksa keakurasiannya. Jika dapat diverifikasi bahwa outlier merupakan data yang terkontaminasi, maka data tersebut tidak harus dimasukkan dalam penganalisisan data. Jika memungkinkan, peneliti bisa mengganti data yang terkontaminasi ini dengan data yang benar dari kasus yang ditelitinya, atau menghapusnya dari himpunan data yang diteliti.

Untuk kasus yang lain, outlier dapat juga merepresentasikan data yang valid, tidak terkontaminasi, akan tetapi outlier tersebut merupakan kasus yang jarang dalam populasi. Ketika outlier yang dideteksi bukan data yang terkontaminasi, maka outlier dapat diperlakukan dengan dua penekanan dalam mengatasi outlier. Pertama, mengeliminasi pengaruh dari kasus jarang tersebut. Kedua, outlier mungkin merepresentasikan signal yang halus dari suatu fenomena yang sangat penting atau ketidak-tepatan dari penentuan model regresi yang telah diujikan, dan penelitian berusaha untuk memahami kasus yang jarang ini sebagai sesuatu yang membawa ke bentuk yang sangat penting dalam penelitian ilmiah.

13 2.2.2 Jenis Outlier

Analisis regresi memberikan suatu model yang menggambarkan hubungan dari beberapa variabel independen (Xi, i = 1,2,…n) dengan variabel dependen ( ,Y ii 1, 2,....,n). Model regresi tersebut didapatkan dengan menggunkan metode estimasi kuadrat terkecil (least square estimate). Metode LS didasarkan pada asumsi bahwa error dari model yang dihasilkan harus berdistribusi normal. Karena dengan error berdistribusi normal metode LS memberikan estimasi parameter yang optimal bagi model regresi tersebut [3].

Akan tetapi, dengan adanya data outlier asumsi kenormalan model regresi tersebut akan tidak terpenuhi [5]. Seperti diketahui pada analisis regresi, terdapat satu variabel dependen yang digambarkan pada scatterplot sebagai arah y, dan beberapa variabel independen pada scatterplot digambarkan sebagai arah x. Oleh karena itu, keberadaan data outlier mungkin teredapat pada arah-y atau pada arah-x atau di keduanya.

Data outlier pada arah-y akan memberikan nilai residual r yang sangat besar (positif atau negatif). Hal ini disebabkan karena data yang menjadi outlier mempunyai jarak yang sangat besar terhadap garis LS. Seperti yang ditunjukkan gambar (2.3.a) yang merupakan scatterplot dan garis LS dari enam titik,

x y1, 1

,....,

x y6, 6

, yang hampir terletak pada suatu garis lurus (garis LS). Oleh

karena itu, penyelesaian LS kecocokannya sangat bagus untuk ke-6 data tersebut. Akan tetapi, andaikan dengan data yang sama, tetapi data ke-4 merupakan data outlier, yaitu y4 yang disebabkan karena ada suatu kesalahan, maka titik

x y4, 4

14 Gambar 2.3 (a). Enam data asli dan garis LS-nya. (b). Data yang sama dengan data pada (a), tetapi dengan outlier dalam arah-y, yaitu y4.

(2.3.b). titk data yang ke-4 bergeser ke atas dan jauh dari posisi asalnya (ditunjukkan dengan bulatan), dan titik ke-4 itu memberikan pengaruh yang besar pada garis LS, yang sangat berbeda dari garis LS pada gambar (2.3.a) yaitu garis LS tidak memberikan kecocokan terhadap ke-6 data tersebut.

Sedangkan data outlier pada arah-x, memberikan pengaruh yang sangat besar pada estimator metode LS karena outlier pada arah-x akan membalikkan garis LS. oleh karena itu, outlier pada arah-x disebut sebagai titik leverage [3]. Seperti ditunjukkan pada gambar (2.4.a) yang merupakan scatterplot dan garis LS dari lima titik data

x y1, 1

 

,..., x y5, 5

yang hampir terletak pada suatu garis lurus

(garis LS). Misalkan dengan data yang sama akan tetapi titik x1adalah outlier yang disebabkan karena suatu kesalahan. Maka, garis LS akan berbalik dari keadaan yang digambarkan pada gambar (2.4.a), seperti yang ditunjukkan pada gambar( 2.4.b). Hal ini dapat dijelaskan sebagai berikut: karena x1terletak jauh, maka residual r1dari garis asal (seperti yang ditunjukkan pada gambar 2.4.a)

15 menjadi sangat besar (negatif), berkontribusi terhadap besarnya jumlah

5i1ri2 untuk garis tersebut. Oleh karena itu, garis asal tidak dapat dipilih dari prespektif LS, dan tentunya garis pada gambar (2.4.b) mempunyai nilai 5 2

1 i

i r

yang

terkecil, karena itu garis asal dibalikkan menjadi garis pada gambar (2.4.b) untuk mengurangi besarnya nilai r12, bahkan jika keempat bentuk lainnya, r r r r22, 32, 42, 52, sedikit dinaikkan [3].

Secara umum, suatu observasi

x yk, k

dikatakan suatu titik leverage ketika xkterletak jauh dari sebagian besar data observasixidalam sampel. Sebagai catatan, bahwa suatu titik leverage tidak memasukkan nilai ykke dalam perhitungan, jadi titik

x yk, k

tidak harus perlu menjadi outlier pada regresi. Ketika

x yk, k

dekat terhadap garis regresi yang ditentukan dengan sebagian besar data, maka hal itu dapat diperkirakan sebagai titik leverage yang bagus seperti ditunjukkan pada gambar (2.5). Oleh karena itu, untuk mengatakan bahwa

x yk, k

adalah suatu titik leverage hanya merujuk pada kepotensialannya Gambar 2.4 (a). Data asal dengan lima titik dan garis LS-nya. (b). Data yang sama dengan data (a), tetapi dengan satu data outlier pada arah-x, yaitu x1.

16 mempengaruhi secara kuat terhadap koefisien-koefisien regresi (disebabkan keterpencilannya komponen xk saja). Titik

x yk, k

tidak harus dipandang menyebabkan pengaruh yang besar terhadap koefisien-koefisien regresi, karena mungkin saja titik

x yk, k

tepat pada garis yang ditentukan kecendrungannya dengan sebagian besar himpunan data lainnya [3].

Dalam regresi berganda,

xi1,...,xip

terletak pada suatu ruang berdimensi p. Suatu titik leverage tetap didefinisikan sebagai suatu titik

xk1,...,xkp,yk

di mana

xk1,...,xkp

merupakan titik-titik yang terpisah dari himpunan data

xi1,...,xip

. Seperti sebelumnya, suatu titik leverage yang berpotensial berpengaruh besar pada koefisien regresi LS, bergantung pada nilai aktual dari yk. akan tetapi pada situasi ini, akan sangat susah mengidentifikasi titik-titik leverage, karena dimensinya yang tinggi [3].

Gambar 2.5 Titik

x yk, k

merupakan titik leverage karena xkterpencil. Akan tetapi,

x yk, k

bukan outlier regresi karena cocok dengan pola kelineran sebagian himpunan titik data lainnya.

17 2.2.3 Deteksi outlier

Data outlier dapat dikenali dengan pemerikasaan visual dari data mentahnya (raw) atau dari diagram pencar dari variabel independen dan variabel dependen. Dalam kasus ketika terdapat lebih dari dua variabel independen, beberapa outlier mungkin akan sangat sulit dideteksi dengan pemeriksaan visual. Oleh karena itu, dibutuhkan alat bantu pada pemeriksaan visual dengan menggunakan uji statistik tertentu yang dikenal dengan regresi diagnostik yang dapat membantu dalam pendeteksian outlier. Regresi diagnostik merupakan kasus statistik, artinya mungkin akan terdapat satu nilai dari tiap diagnostik statistik dari tiap n-kasus dalam himpunan data. Suatu sampel dengan 150 kasus akan menghasilkan 150 nilai dari tiap diagnostik statistiknya, salah satunya merepresentasikan tiap kasus dalam himpunan data tersebut. Regresi diagnostik statistik digunakan untuk memeriksa tiga karakteristik yang secara potensial merupakan data outlier. Pertama adalah leverage: yang menggambarkan seberapa tidak biasanya kasus tersebut dalam bentuk variabel independnya?. Kedua adalah discrepancy (jarak) antara nilai prediksi dan nilai observasi pada variabel hasil (Y). Ketiga adalah influence, yang menggambarkan besaran dari perubahan koefisien regresi jika outlier dihilangkan dari himpunan data. Secara konseptual, influence merepresentasikan perkalian dari leverage dan discepancy. Tiap karakteristik ini harus diperiksa, karena ketiganya mengidentifikasi aspek-aspek yang berbeda dari data outlier.

18 1. Leverage

Leverage hanya menggambarkan kasus yang terjadi pada variabel independen. Untuk tiap kasus, leverage menginformasikan seberapa jauh kasus tesebut dari nilai mean himpunan data variabel independen. Jika hanya terdapat satu variabel independen, leverage dapat ditentukan sebagai [2]:

 

2 ii 2 1 leverage = h Xi MX n x   

2.5

dengan hii adalah leverage kasus ke-i, n banyaknya data, Xi adalah nilai untuk kasus ke-i, MX adalah mean dari X, dan

x2merupakan jumlah kuadrat n kasus dari simpangan Xi dari meannya. Jika kasus ke-i bernilai MX, maka bentuk kedua dari persamaan di atas akan 0 dan hii akan memiliki nilai kemungkinan yang

minimum, 1

n . Misalkan kasus ke-i skor pada X menjadi jauh dan jauh dari MX, maka akan menaikkan hii. Nilai maksimum dari hii adalah 1 nilai mean dari leverage untuk n-kasus dalam suatu sampel adalah

1

ii

h

Mkn, dengan k merupakan jumlah variabel independen.

Perhitungan leverage di atas untuk kasus dengan satu variabel independen, dapat digeneralisasi untuk kasus dengan variabel independen lebih dari satu. Untuk kasus dengan banyak variabel independen, yang menjadi menarik adalah seberapa jauh nilai-nilai untuk tiap k variabel untuk kasus ke-i, Xi1,Xi3,...,Xik, dari centroid variabel independen, centroid merupakan mean dari data,

1, 2,..., k

M M M . Penghitungan nilai hii untuk kasus ini dengan menggunakan

19

 

1

' '

H X X X X 2.6

dengan H merupakan matrik n n dan X merupakan matrik n

k 1

. Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein

 

k variabel

independen ditambah 1 sebagai nilai konstanta

 

0 . Diagonal dari H berisi

nilai-nilai leverage. Jadi, leverage untuk kasus ke-i, hii, merupakan nilai dari baris ke-i

dan kolom ke-i darai H.

Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai cutoff. Nilai hii yang melebihi nilai cutoff dideteksi sebagai outlier. Adapun nilai

cutoff yang telah ditentukan dari [2], adalah 2

k 1

nuntuk data yang banyak

n 15

, sedangkan untuk data yang sedikit

n 15

digunakan cutoff

 

3 k 1 n. n

k 1

. Dengan n merupakan banyaknya data, dan k merupakan jumlah koefisein

 

k variabel independen ditambah 1 sebagai nilai konstanta

 

0 .

2. Discrepancy

Diagnostik statistik untuk data outlier yang kedua adalah discrepancy atau jarak antara nilai prediksi dengan nilai observasi dari variabel dependen (Y), yaitu

ˆ

i i

YY , yang merupakan nilai dari residual, ei. Pada dasarnya, nilai yang menjadi outlier menyebabkan nilai residual menjadi besar dan tidak jatuh pada garis regresi. Nilai discrepancy penghitungannya dengan menggunakan dua metode yaitu Internally Studentized Residuals dan Externally Studentized Residuals.

20 Internally studentized residuals menunjukkan satu dari dua hal yang menyangkut residual mentah (raw). Ekspektasi dari variansi residual untuk kasus ke-i diekspresikan sebagai [2]:

 

i residual

 

variansi e MS 1hii 2.7

Dengan MSresidual merupakan estimasi dari keseluruhan variansi dari residual

sekitar garis regresi =

2



2

  

1R

y n k 1 . hii merupakan leverage dari

kasus ke-i. standar deviasi dari residualdari kasus ke-i adalah

1

i

e residual ii

sdMSh 2.8

Internally studentized residuals merupakan rasio dari besaran nilai residual dari kasus ke-i dengan standar deviasi dari residual kasus ke-i [2], yaitu:

i

Internally studentized residuals i i e e sd  2.9

Besar dari Internally studentized residuals berjarak antara 0 dan 1

n k . Sungguh tidak menguntungkan, Internally studentized residuals tidak mengikuti distribusi standar statistk, karena persamaan (2.9) penyebut dan pembilangnya tidak saling bebas. Jadi Internally studentized residuals tidak bisa diinterpretasi menggunakan kurva normal atau t tabel. Dengan demikian, kebanyakan yang lebih disukai dalam menghitung discrepancy adalah dengan menggunakan Externally Studentized Residuals.

Externally Studentized Residuals merupakan isu yang kedua dalam perhitungan data yang merupakan outlier. Externally Studentized Residuals menunjukkan isu ini dengan memisalkan apa yang terjadi jika kasus yang

21 dianggap outlier dihapuskan dari himpunan data. Misalkan Yi i nilai perediksi kasus ke-i, tetapi kasus ke-i dihapuskan dari himpunan data. Outlier berkontribusi secara substansial terhadap estimasi variansi residual sekitar garis regresi,

.

residual

MS Sedangkan MSresidual i untuk variansi residual dengan kasus ke-i yang merupakan outlier dihapuskan dari data. Misalkan disebagai perbedaan antara data asli observasi, Y, dengan nilai prediksi untuk kasus ke-i yang berasal dari himpunan data dengan kasus ke-i dihapuskan, yaitu:diYiYˆi i . Externally studentized residuals untuk kasus ke-i, ti, dihitung sebagai berikut [2]:

i i i d d t SE  2.10

Paralel dengan Persamaan (2.9), pembilang dari persamaan (2.10) merupakan residual yang mana untuk kasus ke-i dihapuskan dan penyebut merupakan standar error dengan kasus ke-i diahapuskan. Residual yang dihapuskan, di, dapat dihitung dengan menggunakan residual awal, ei, yaitu dengan 1 i i ii e d h   2.11

dan nilai standar residual juga dapat dihitung dengan:

  1 i residual i d ii MS SE h   2.12

22  

1

i i ii residual i e t MS h   2.13

Penentuan nilai outlier berdasarkan nilai Externally studentized residuals lebih banyak digunakan. Karena jika model regresi cocok dengan data, maka Externally studentized residuals akan mengikuti distribusi t dengan df   n k 1 [2]. Penentuan nilai cutoff –nya berdasrkan distribusi t, jika nilai tilebih besar dari nilai ttabel dengan derajat kepercayaan  , maka data tersebut memiliki nilai discrepancy yang besar dan dikategorikan sebagai outlier.

Dokumen terkait