Outlier Pada Analisis
Regresi
Pendahuluan
Tujuan dari Analisis Regresi adalah
mengepas persamaan pada peubah yang terobservasi
Model regresi linier klasik
mengasumsikan hubungan berikut :
Dimana n adalah ukuran contoh
Pada theori klasik diasumsikan eror ei menyebar normal dengan rata – rata nol dan ragam 2
Jadi dengan analisis regresi kita menduga parameter
Dengan menggunakan metode
penduga regresi pada data tersebut didapatkan
Dimana adalah koefisien regresi adalah nilai duga y yang didapat
Residual ri dari amatan ke I adalah selisih antara y observasi dan y dugaan
Metode Kuadrat Terkecil (MKT) atau
Ordinary Least Square (OLS) adalah metode paling populer untuk
Ide dasar metode OLS adalah mencari nilai duga paramete yang
Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana
Misalkan terdapat kesalahan penulisan y4, maka titik (x4,y4) akan terletak jauh dari garis idealnya.
Outlier juga dapat terjadi dalam X. Berikut adalah plot dari 5 titik
Misalkan kita membuat kesalahan
Titik (x1,y1) dinamakan outlier dalam arah x dan efeknya pada penduga LS sangat besar karena merubah garis LS.
Breakdown Point
Misalkan terdapat sample dengan n titik data
Dan misalkan T adalah penduga regresi sehingga
Misalkan Z’ adalah sample yang
didapat dari Z dimana m titik dalam Z diganti dengan titik – titik yang
Notasikan bias(m; T, Z) adalah bias maksimum yang dapat disebabkan oleh kontaminasi tersebut
Jika bias (m;T, Z) infinite berarti m outlier dapat memiliki efek yang
Breakdown point dari estimator T pada sample Z didefinisikan sebagai
Dengan kata lain, break down point
adalah proporsi kontaminasi terkecil
Breakdown point untuk MKT (OLS) adalah
Karena telah kita lihat bahwa satu outlier sudah dapat merubah nilai koefisien regresi
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkaliditemukan adanya amatan ekstrem, yaitu
bernilai jauh dengan amatan yang lain dalam sampel
Adanya amatan ekstrem atau pencilan ini
dapat menyebabkan residual yang besar dan seringkali memiliki efek yang besar pada
Pencilan harus diteliti dengan hati – hati apakah sebaiknya amatan ini dipertahankan atau dihilangkan.
Suatu amatan dapat menjadi pencilan pada Y atau pada X atau pada
Pendeteksian
Outlier
Untuk pendeteksian pencilan , diperlukan suatu matriks yang dinamakan hat matrix yang
Penduga Y dapat ditulis sebagai
Elemen diagonal dari matriks H
memberikan informasi tentang data observasi yang mempunyai nilai
leverage yang besar
Elemen diagonal ke-i dari matriks H
Dengan adalah vektor baris yang berisi nilai-nilai dari variabel bebas
atau independen dalam pengamatan ke-i.
Pada elemen diagonal matriks H, diperoleh
Pendeteksian pencilan pada X
Jika nilai lebih besar dari
2(p+1)/n maka pengamatan ke-i dikatakan sebagai outlier pada X
Pendeteksian Pencilan pada
Y
Hipotesis yang digunakan untuk menguji adalah:
H0 : Pengamatan ke-i bukan outlier H1 : Pengamatan ke-i merupakan
outlier
Pendeteksian Pencilan pada
Y
Kriteria yang digunakan untuk
menguji ada tidaknya outlier adalah
Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang
berpengaruh besar dalam pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang
besar atau mungkin pula tidak, tergantung pada model yang
Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s DistanceCook’s Distance merupakan jarak
antara pendugaan parameter dengan MKT yang diperoleh dari n
pengamatan atau observasi yaitu dan pendugaan parameter yang
diperoleh dengan terlebih dahulu menghapus pengamatan atau
Jarak tersebut dapat dituliskan sebagai berikut:
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji hipotesis tersebut adalah sebagai
2. The Difference In Fits Statistic
(DFITS)
Hipotesis untuk menguji adanya
pengamatan berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh merupakan pengaruh
pengamatan atau observasi ke-i pada nilai duga yang
Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik Tidak terpengaruh terhadap adanya data
outlier atau pencilan Asumsi:
• Contoh yang diambil bersifat acak dan
kontinyu;
• Regresi bersifat linier;
Misalkan terdapat n pasangan pengamatan, (X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan
regresi linier sederhana adalah:
Untuk satu pasangan (Xi, Yi) dan (Xj, Yj) slope-nya adalah
untuk i < j
Penduga M (
M-Estimator)
dengan Fungsi Huber
Penduga M adalah solusi
(1)
Untuk mendapatkan penduga koefisien regresi maka fungsi kriteria diturunkan
dan disamakan dengan nol
Dimana adalah hasil diferensiasi dari
fungsi kriteria dan Xij adalah observasi
Bentuk umum dari persamaan (1) adalah
Fungsi kriteria Huber yang
Dan fungsi pengaruhnya adalah
Persamaan kedua dapat dituliskan
Dengan