Jurnal Penelitian Sains Edisi Khusus Juni 2010 (A) 10:06-03
Mendeteksi Beberapa “
Outlier
” dalam Regresi Linier
Robinson Sitepu
Jurusan Matematika FMIPA, Universitas Sriwijaya, Sumatera Selatan, Indonesia
Intisari: Statistik baruFkdigunakan untuk mendeteksi “outlier” dalam regresi linier. Statistik ini digunakan dalam prosedur multi stage sebagai berikut, mula-mula subsetk pengamatan dipilih untuk diuji. JikaF signifikan maka obser-vasi yang paling ekstrem dalam subset yang ditentukan oleh residu yang distudentkan terbesar dibuang dan pengujian ulang untuk (k−1) pengamatan sisanya. Prosedur dihentikan apabila pengujian gagal menolak hipotesis tanpa outlier tersebut.
Kata kunci: outlier, signifikan, regresi
Abstract: New StatisticFkare used to detect “outlier” in the linear regression. These statistics are used in multi-stage procedure as follows, first selected subset ofk observation to be tested. IfF significant then the most extreme observation in the subset are determined by the largest disstudentkan residue discarded and the test is repeated for (k−1) observations of the rest. The procedure will be discontinued if the test fails to reject the hypothesis without these outliers.
Keywords: outlier, significant, regression
Juni 2010
1 PENDAHULUAN
D
alam penelitian yang melibatkan dua variabelatau lebih, sering kita dihasapkan kepada su-atu masalah, apakah kita ingin menentukan hubungan fungsionalnya (regresi) atau kuatnya hubungan antara satu variabel dengan variabel yang lainnya (korelasi). Makalah ini hanya mengubah pengujian hubungan fungsional antara satu variabel dengan variabel yang lainnya yang berbentuk linier dan penentuan model regresi yang baiknya.Dalam penelitian sering diperoleh nilai data penga-matan salah satu atau lebih ada yang ekstrem ( out-lier). Adanya outlier ini kemungkinan besar meru-pakan salah satu sebab kurang baiknya model regresi taksirannya. Oleh karena itu, sebelum kita memba-has cara mendeteksi outlier dalam analisis regresi lin-ier dengan melibatkan nilai residunya melalui prosedur pengujian yang dilakukan secara bertahap.
2 METODOLOGI
Langkah-langkah dalam metodologi, yaitu:
1. Pendeteksianoutlier
2. Prosedur pengujian
3 PEMBAHASAN
3.1 Pendeteksian Outlier
Misalkan Yi, X1i, X2i, . . . , Xpi pasangan yang
mem-punyai hubungan fungsional, dengan asumsi modelnya berbentuk:
~
Y = ˜X ~α+~ǫ
dengan asumsi-asumsi:
1. E(~ǫ) = 0
2. E(~ǫ ~ǫ′) =α2
3. ˜X Variabelnon stole
4. rank dari ˜X adalah penuh.
Misalkan model sampelnya adalah sebagai berikut :
~
Y = ˜X ~α+~e
dengan
~
α= ( ˜X′X)˜ −1˜
X′Y~
Sehingga
~
e = Y~ −X ~˜α
= Y~ −X˜( ˜X′X˜)−1( ˜
X′Y~)
= hI−X˜( ˜X′X˜)−1˜
XiY~
c
R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03
Andaikan
V = ((Vij)) = ˜X( ˜X′X˜)−1X˜
Untuk mendapatkan model yang baik perlu di-ilakukan pengujian secara bertahap untuk mende-teksi ada tidaknya outlier dengan menghilangkan data pengamatan yang diduga sebagai outlier. Setiap tahap, berdasarkan nilai mutlak terbesar residu yang distudentkan, atau maksimum|ti|. Dengan :
ti=
1i
p
1−Vij
3.2 Prosedur Pengujian
3.2.1 Hipotesis
H0 : pengamatan ke-i = 1, bukanoutlier H1 : paling
banyakkpengamatan merupakanoutlier
3.2.2 Statistik Uji (marvyn G.M)
Fk =
(S1−Q∗)k
S1
dengan S1= jumlah kuadrat residu dari pengamatan
pertama untuk model regresi linier
Q∗k= k X
i=1
t2i
3.2.3 Kriteria Uji
TolakH0jikaFk< Fk(α). Fk(α) diperoleh dari tabel
F dengan derajat bebas pemmbilang n dan derajat bebas penyebut k−1. Jika H0 ditolak, maka
penga-mataan ke-ioutlier dan pengujian dilanjutkan: H0: pengamatan ke-i= 2, bukan outlierH1: paling
banyakk−1 pengamatan merupakan outlier Dengan statistik uji
Fk−1=
(S2−Q∗(k−1))
S2
dengan: S2 = jumlah kuadrat residu dari model
re-gresi linier dengan mengurangi data ke-i
Q∗k−1 = k X
i=1
t2i
Demikian proses pengujian ini dilanjutkan sampai didapat kesimpulan bahwa pengamatan bukanoutlier.
3.3 Contoh Pemakaian
Diperoleh data sebagai berikut : Y : kekuatan serat (pound/inci2) X
1 : kehalusan serat (mg/inci) X2 :
Ketuaan serat (%) Analisis :
Unit sampling Y X1 X2 |ti| 1 75.56 4.6 77.55 5.13774 2 67.99 4.0 66.82 6.887915 3 76..16 4.5 65.52 3.785012 4 70.16 4.7 77.23 10.28875 5 99.69 3.2 78.46 16.47107 6 69.07 3.6 67.38 6.888008 7 78.81 4.6 73.36 0.9867995 8 70.16 4.7 72.16 6.918219 9 75.66 5.1 71.19 1.1710928 10 74.48 4.7 76.02 5.045916 11 73.39 4.6 74.93 5.625444 12 66.91 4..9 68.19 7.249629 13 72.32 4.8 75.92 8.488777 14 67.99 4.2 68.12 7.38346 15 88.96 4.9 79.11 8.14544 16 116.54 4.8 69.80 42.48617 17 76.64 5.2 69.12 2.681786 18 78.81 4.9 73.68 1.3269114 19 71.24 5.3 74.58 5.979585
1. Uji kenormalanY
2. Taksir model regresiY padaX1 danX2
3. Deteksi titik pencil/outlier: tentukan residu yang distudentkan ti. Tentukan S : jumlah kuadrat
residu. Diduga pengamatan ke-16, 5, 15, dan 12
outlier. Berartik=4
Uji secara bertahap:
1. Tahap Pertama
H0: pengamatan ke-16 bukan outlier
H1: pengamatan ke-16 outlier (paling banyak
pengamatan merupakan outlier) Jika asumsi Gauss dipenuhi, maka yakni dengan metoda kuadrat terkecil didapat:
ˆ
Y = 38.63252−1.793641X1i+ 0.64752X2i
Dari data diatas diperoleh
S1 = 2571.067008
Q∗4 =
= 2751.067008−2148.598 2571.067008 = 0.1643166
fk(α) = F0.05;15;3
= 8.70
R. Sitepu/Mendeteksi Beberapa Outlier . . . JPS Edisi Khusus (A) 10:06-03
Karena Fk < Fk(α), maka H0 ditolak artinya
pengamatan ke 16 outlier. Karena pengamatan ke-16 adalah outlier maka diteruskan dengan pen-gujian tahap dua.
2. Tahap Kedua
H0: pengamatan ke-5 bukan outlier
H1: pengamatan ke-5 outlier (paling banyak
pengamatan merupakan outlier)
Dari data diatas dengan pengamatan ke-16 di-hilangkan didapat persamaan regresi taksirannya sebagai berikut:
ˆ
Y = 18.17168−3.95681X1i+ 1.031876X2i
Sedangkan
S2 = 696.17169
Q∗3 = 443.5027
F3 = 0.3629406
Untuk n= 18;k = 3, α = 0.05, didapatFtabel =
0.2340. KarenaF3> Ftabelmaka terimaH0. Jadi
pengamatan ke-5 bukan outlier. Proosedur pen-gujian dihenntikan.
Outlier hanya pada data ke-16, data ke-16 diha-puskan sehinggaY menngikuti distribusi normal dan model taksiran yang baik adalah:
ˆ
Y = 18.17169−3.95681X1i+ 1.031876X2i
Model ini dengan aman dapat dipergunakan un-tuk keperluan analisis selanjutnya.
DAFTAR PUSTAKA
[1]Beckman, R.J. and R.D. Cook, 1983, Outliers,
Techometric, 25, 119-149
[2]Drapper, N.R. and H. Smith, ,Applies Regression
Analysis, John Wiley and Son
[3]Marvyn, G.M.A., , Multistage Procedure for Detecting
several Outliers in linear regression,Technometri, 4, 27, 385-399
[4]Prescott, P., , An Approximate Test for Outlier in
Linear Model,Techometics