Outlier Pada Analisis Regresi

(1)

Outlier Pada Analisis

Regresi

(2)

Pendahuluan

Tujuan dari Analisis Regresi adalah

mengepas persamaan pada peubah yang terobservasi

Model regresi linier klasik

mengasumsikan hubungan berikut :

Dimana n adalah ukuran contoh

(3)

Pada theori klasik diasumsikan eror e_i menyebar normal dengan rata – rata nol dan ragam 2

Jadi dengan analisis regresi kita menduga parameter

(4)

Dengan menggunakan metode

penduga regresi pada data tersebut didapatkan

Dimana adalah koefisien regresi adalah nilai duga y yang didapat

(5)

Residual r_i dari amatan ke I adalah selisih antara y observasi dan y dugaan

Metode Kuadrat Terkecil (MKT) atau

Ordinary Least Square (OLS) adalah metode paling populer untuk

(6)

Ide dasar metode OLS adalah mencari nilai duga paramete yang

(7)

Efek Outlier pada Regresi Linier

Sederhana

Model Regresi Linier Sederhana

(8)

(9)

Misalkan terdapat kesalahan penulisan y4, maka titik (x4,y4) akan terletak jauh dari garis idealnya.

(10)

(11)

Outlier juga dapat terjadi dalam X. Berikut adalah plot dari 5 titik

(12)

Misalkan kita membuat kesalahan

(13)

Titik (x1,y1) dinamakan outlier dalam arah x dan efeknya pada penduga LS sangat besar karena merubah garis LS.

(14)

(15)

Breakdown Point

Misalkan terdapat sample dengan n titik data

Dan misalkan T adalah penduga regresi sehingga

Misalkan Z’ adalah sample yang

didapat dari Z dimana m titik dalam Z diganti dengan titik – titik yang

(16)

Notasikan bias(m; T, Z) adalah bias maksimum yang dapat disebabkan oleh kontaminasi tersebut

Jika bias (m;T, Z) infinite berarti m outlier dapat memiliki efek yang

(17)

Breakdown point dari estimator T pada sample Z didefinisikan sebagai

Dengan kata lain, break down point

adalah proporsi kontaminasi terkecil

(18)

Breakdown point untuk MKT (OLS) adalah

Karena telah kita lihat bahwa satu outlier sudah dapat merubah nilai koefisien regresi

(19)

Identifikasi Pencilan pada Y

Dalam beberapa analisis regresi seringkali

ditemukan adanya amatan ekstrem, yaitu

bernilai jauh dengan amatan yang lain dalam sampel

Adanya amatan ekstrem atau pencilan ini

dapat menyebabkan residual yang besar dan seringkali memiliki efek yang besar pada

(20)

Pencilan harus diteliti dengan hati – hati apakah sebaiknya amatan ini dipertahankan atau dihilangkan.

(21)

Suatu amatan dapat menjadi pencilan pada Y atau pada X atau pada

(22)

Pendeteksian

Outlier

Untuk pendeteksian pencilan , diperlukan suatu matriks yang dinamakan hat matrix yang

(23)

Penduga Y dapat ditulis sebagai

(24)

Elemen diagonal dari matriks H

memberikan informasi tentang data observasi yang mempunyai nilai

leverage yang besar

Elemen diagonal ke-i dari matriks H

(25)

Dengan adalah vektor baris yang berisi nilai-nilai dari variabel bebas

atau independen dalam pengamatan ke-i.

Pada elemen diagonal matriks H, diperoleh

(26)

Pendeteksian pencilan pada X

Jika nilai lebih besar dari

2(p+1)/n maka pengamatan ke-i dikatakan sebagai outlier pada X

(27)

Pendeteksian Pencilan pada

Y

Hipotesis yang digunakan untuk menguji adalah:

H₀ : Pengamatan ke-i bukan outlier H₁ : Pengamatan ke-i merupakan

outlier

(28)

Pendeteksian Pencilan pada

Y

Kriteria yang digunakan untuk

menguji ada tidaknya outlier adalah

(29)

Pendeteksian Pengamatan

Berpengaruh

Pengamatan berpengaruh

• _{merupakan pengamatan yang}

berpengaruh besar dalam pendugaan koefisien regresi

• _{memiliki nilai galat atau sisaan yang}

besar atau mungkin pula tidak, tergantung pada model yang

(30)

Metode untuk mendeteksi

pengamatan berpengaruh

1. Cook’s Distance

Cook’s Distance merupakan jarak

antara pendugaan parameter dengan MKT yang diperoleh dari n

pengamatan atau observasi yaitu dan pendugaan parameter yang

diperoleh dengan terlebih dahulu menghapus pengamatan atau

(31)

Jarak tersebut dapat dituliskan sebagai berikut:

(32)

Hipotesis untuk menguji adanya

pengamatan berpengaruh adalah sebagai berikut:

H₀ : Pengamatan ke-i tidak berpengaruh

H₁ : Pengamatan ke-i berpengaruh

kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai

(33)

2. The Difference In Fits Statistic

(DFITS)

Hipotesis untuk menguji adanya

pengamatan berpengaruh adalah sebagai berikut:

H₀ : Pengamatan ke-i tidak berpengaruh

H₁ : Pengamatan ke-i berpengaruh merupakan pengaruh

pengamatan atau observasi ke-i pada nilai duga yang

(34)

(35)

Metode untuk Penanganan Pencilan

1. Metode Theil

Merupakan metode regresi nonparametrik Tidak terpengaruh terhadap adanya data

outlier atau pencilan Asumsi:

• _{Contoh yang diambil bersifat acak dan}

kontinyu;

• _{Regresi bersifat linier;}

(36)

Misalkan terdapat n pasangan pengamatan, (X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan

regresi linier sederhana adalah:

(37)

Untuk satu pasangan (X_i, Y_i) dan (X_j, Y_j) slope-nya adalah

untuk i < j

(38)

Penduga M (

M-Estimator)

dengan Fungsi Huber

Penduga M adalah solusi

(1)

(39)

(40)

Untuk mendapatkan penduga koefisien regresi maka fungsi kriteria diturunkan

dan disamakan dengan nol

Dimana adalah hasil diferensiasi dari

fungsi kriteria dan Xij adalah observasi

(41)

Bentuk umum dari persamaan (1) adalah

(42)

Fungsi kriteria Huber yang

(43)

Dan fungsi pengaruhnya adalah

(44)

Persamaan kedua dapat dituliskan

Dengan

(45)

(46)

(47)