Analisis Regresi 1
Pokok Bahasan :
Diagnosa Model Melalui Pemeriksaan
Sisaan dan I dentifikasi Pengamatan
Sisaan
Sisaan adalah menyimpangnya nilai amatan y
iterhadap dugaan nilai harapannya
Sisaan untuk suatu amatan ke-i:
Sisaan baku
ˆ
Bisa digunakan untukmemeriksa kebenaran menyebar N(0,1)
σ εi
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13
Y 10.98 11.13 12.51 8.4 9.27 8.73 6.36 8.5 7.82 9.14 8.24 12.19 11.88 X1 20 20 23 20 21 22 11 23 21 20 20 21 21
i 14 15 16 17 18 19 20 21 22 23 24 25 Y 9.57 10.94 9.58 10 8.11 6.83 8.88 7.7 8.47 8.86 10.4 11.08 X1 19 23 20 22 22 11 23 20 21 20 20 22
Berikut adalah 1 set (25 pengamatan) data berpasangan x1i dan yi
Contoh: menghitung sisaan
ε
x
β
β
Y
=
0+
1+
X1
Y
24 22
20 18
16 14
12 10
13 12 11 10 9 8 7 6
Scatterplot of Y vs X1 Dari tebaran x1 terhadap Y digunakan
persamaan garis regresi linier sederhana ordo satu :
Dengan Minitab didapatkan dugaan persamaannya : = 3.56 + 0.290 X1
Untuk setiap amatan dihitung nilai
dugaannya, kemudian hitung sisaannya
(lanjutan)
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13
y 10.98 11.13 12.51 8.40 9.27 8.73 6.36 8.50 7.82 9.14 8.24 12.19 11.88 y_duga 9.35 9.35 10.22 9.35 9.64 9.93 6.75 10.22 9.64 9.35 9.35 9.64 9.64 sisaan 1.63 1.78 2.29 -0.95 -0.37 -1.20 -0.39 -1.72 -1.82 -0.21 -1.11 2.55 2.24
i 14 15 16 17 18 19 20 21 22 23 24 25 y 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.68 8.47 8.86 10.36 11.08 y_duga 9.06 10.22 9.35 9.93 9.93 6.75 10.22 9.35 9.64 9.35 9.35 9.93 sisaan 0.51 0.72 0.23 0.16 -1.82 0.08 -1.34 -1.67 -1.17 -0.49 1.01 1.15
(lanjutan)
I nformasi-informasi yang Didapat
Melalui Sisaan
Bisa melihat pola sebaran peubah acak Y
Melalui sisaan, kita dapat mengetahui apakah asumsi-asumsi
yang disyaratkan pada pendugaan dengan MKT dipenuhi atau tidak
Melalui sisaan, kita juga dapat menguji parameter regresi,
sehingga kita perlu mengetahui sebaran sisaan
Melalui sisaan, kita juga bisa melihat apakah model yang kita pilih
pas atau tidak
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan
merupakan pencilan atau bukan
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan
Pemeriksaan Pola Sebaran
Peubah Respon Y
ε
Acaknya Y disebabkan
karena acaknya eror
Bentuk sebaran Y =
bentuk sebaran eror
Memeriksa bentuk
sebaran Y = memeriksa
bentuk sebaran eror
MODEL REGRESI
Y
=
β
0+
β
1x
+
ε
E [ Y | x
i]
Plot Sisaan untuk:
Pemeriksaan Bentuk Sebaran
S is a a n
Tebaran sisaan dan histogram di samping untuk melihat : BENTUK
SEBARAN
SI SAAN, simetri atau tidak
HASI L
DI AGNOSA : Sebaran
Plot Sisaan untuk:
Pemeriksaan Sebaran Normal
Sisaan
Probability Plot of Sisaan Plot sisaan terhadap peluang
Normal untuk :
Mencocokkan apakah sebaran sisaan merupakan sebaran Normal atau tidak. Ya jika pola tebaran membentuk garis lurus
Hasil Diagnosa : bisa dianggap lurus
Plot Sisaan untuk:
Melihat Ketidakpasan Model
Plot sisaan terhadap
y_duga masih berpola (kuadratik)
Sisaan masih
mengandung
komponen kuadratik
Model belum pas
Æ
model harus ditambah dg komponen kuadratik
y_duga
s
is
a
a
n
200 150
100 50
0 40
30
20
10
0
-10
-20
-30
-40
Plot sisaan vs y_ duga
Plot Sisaan untuk :
Pemeriksaan Asumsi MKT
y_duga
Plot Sisaan vs y_duga
Pada tebaran sisaan terhadap nilai dugaan Y dapat dilihat :
- Sisaan di sekitar nilai nol / tidak
Æ nilai harapan
- Lebar pita sisaan sama atau tidak untuk semua nilai dugaan
Æ kehomogenan ragam
- Tebaran berpola atau tidak
Æ ketidakpasan model
Æ sisaan bebas atau tidak
Pola tebaran sisaan yang tidak memenuhi asumsi MKT:
Ragam tidak homogen (perlu analisis
kua-drat terkecil terboboti; atau transformasi
thdp Y)
Penyimpangan terhadap persamaan
regresi bersifat sistematis; atau karena
tdk disertakannya kedalam model
Model tidak pas (perlu suku-suku lain
dalam model atau transformasi thdp Y)
Pola tebaran sisaan memenuhi asumsi MKT: berpusat di NOL, lebar pita sama, tidak berpola
Pola Tebaran Sisaan
terhadap
0
β
i
Transformasi untuk :
Menghomogenkan Ragam
Transformasi terhadap peubah respon Y
Y
σ
Setelah respon Y ditransformasi,lakukan analisis regresi seperti biasa, sisaan harus diperiksa lagi, jika masih belum memenuhi asumsi, model
Contoh Transformasi untuk
Residuals Versus the Fitted Values
(response is Y)
Fitted Value
Residuals Versus the Fitted Values
(response is akar Y)
Plot Sisaan untuk:
Pemeriksaan Kebebasan Sisaan
Plot sisaan terhadap urutan untuk :
Memeriksa apakah sisaan bebas satu dengan lainnya atau tidak. Bebas jika tdk
membentuk pola.
Hasil Diagnosa :
Tebaran tidak membentuk pola
Æ
Sisaan saling bebasurutan
R
E
S
I1
12 10
8 6
4 2
0 2
1
0
-1
-2
Pola tebaran sisaan yang menginformasikan bahwa pengaruh
waktu belum diperhitungkan
Ragam tidak homogen (perlu analisis kuadrat
terkecil terboboti)
Suatu suku linier dalam waktu harus
ditambahkan ke dalam model
Suku linier dan kuadratik dalam waktu perlu
ditambahkan ke dalam model
Pengaruh waktu jangka panjang tidak mempengaruhi data.
Plot Sisaan untuk:
Pemeriksaan Pengaruh Waktu
Plot sisaan terhadap urutan waktu yg jaraknya sama.
Perhatikan :
Æ
lebar pita sama/ tidakÆ
berpola/ tidakHasil Diagnosa :
• Lebar pita sama Æ homogen
• Tebaran tidak membentuk pola
Æ tidak perlu ditambahkan penga-ruh waktu ke dalam model
urutan
R
E
S
I1
12 10
8 6
4 2
0 2
1
0
-1
-2
Sisaan Terstandardkan
ˆ
Bisa digunakan untukmemeriksa kebenaran menyebar N(0,1)
σ
SI SAAN TERBAKUKAN :
ei = sisaan amatan ke-i
n = banyaknya pengamatan
s2= dugaan bagi ragam Y
iÆ KTsisaan
h = unsur diagonal ke-i matriks H = X(X’X)-1X’
Pd sebaran Normal Baku peluang nilai ri terletak antara -1,96 s.d 1,96 adalah 95% . Æ | ri| > 2 patut dicurigai
Sisaan Terstandarkan (Sisaan Baku)
Residuals Versus the Fitted Values
(response is ln(y))
FITS1
Scatterplot of SRES1 vs FI TS1
Plot Sisaan ei vs Dugaan Y Plot Sisaan Baku ri vs Dugaan Y
Pola tebaran plot sisaan e
idan r
itidak berbeda.
Nilai PRESS
PRESS =
Prediction Sum of Squares,
adalah prosedur
yang merupakan kombinasi dari: semua
kemung-kinan regresi, analisis sisaan, dan teknik validasi.
Digunakan untuk mengukur validitas model.
(
)
melalui dugaan persamaan regresi dari data tanpa amatan ke-i
Model valid jika memiliki PRESS yg kecil
i
pred adalah statistik
la-innya yg berhub dg PRESS. Model valid jika R2
Nilai PRESS
(lanjutan)
PROSEDUR PRESS
Mis. k adalah banyaknya peubah dalam suatu persamaan regresi, n adalah banyaknya amatan
k
1. Sisihkan amatan ke-1, amatan ke-1 tidak digunakan, data tinggal n-1.
2. Dugalah semua ”kemungkinan model regresi” thdp n-1 data tersebut. (jika
k=1Æ banyaknya ”kemungkinan model” hanya 1)
3. Ramal y1 dengan model yang didapat pd no.2. (lakukan untuk semua
kemungkinan model Æ hanya 1 jika k=1)
4. Hitung perbedaan y1 yg disisihkan tadi dengan hasil no.3. Æ
5. Ulangi langkah 1-4 dengan menyisihkan amatan ke-2, ke-3,...., ke-n.
Didapat
6. Untuk setiap model regresi yang mungkin hitung :
7. Pilih model yang relatif memiliki nilai PRESS terkecil, dan melibatkan
Nilai PRESS
(lanjutan)
Y X Dugaan Garis Regresi dg Data tanpa amatan ke-i
ramalan Yi tnp amatan
ke-i
e
i,-ie i,-i
kuadrat
7,46 10 Y tnp 1 = 3,01 + 0,505 X tnp 1 8,06 -0,6 0,36 6,77 8 Y tnp 2 = 3,05 + 0,497 X tnp 2 7,026 -0,256 0,06553 12,74 13 Y tnp 3 = 4,01 + 0,345 X tnp 3 8,495 4,245 18,02003 7,11 9 Y tnp 4 = 3,04 + 0,500 X tnp 4 7,54 -0,43 0,18490 7,81 11 Y tnp 5 = 2,95 + 0,514 X tnp 5 8,604 -0,794 0,63043 8,84 14 Y tnp 6 = 2,46 + 0,577 X tnp 6 10,538 -1,698 2,88320 6,08 6 Y tnp 7 = 2,97 + 0,502 X tnp 7 5,982 0,098 0,00960 5,39 4 Y tnp 8 = 2,72 + 0,526 X tnp 8 4,824 0,566 0,32035 8,15 12 Y tnp 9 = 2,84 + 0,528 X tnp 9 9,176 -1,026 1,05267 6,42 7 Y tnp 10 = 3,03 + 0,498 X tnp10 6,516 -0,096 0,00921 5,73 5 Y tnp 11 = 2,88 + 0,511 X tnp11 5,435 0,295 0,08703
Total = PRESS = 23,6229
Output Minitab untuk data contoh tsb
Nilai PRESS
(lanjutan)
The regression equation is Y = 3,00 + 0,500 X
Predictor Coef SE Coef T P Constant 3,002 1,124 2,67 0,026 X 0,4997 0,1179 4,24 0,002 S = 1,23631 R-Sq = 66,6% R-Sq(adj) = 62,9%
PRESS = 23,6210 R- Sq( pred) = 42,70%
Analysis of Variance
Source DF SS MS F P Regression 1 27,470 27,470 17,97 0,002 Residual Error 9 13,756 1,528
Total 10 41,226
• Hasil PRESS melalui proses
= hasil Minitab
• Untuk k=1 hanya ada 1 model
• Amatan ke-3 memberikan
simpangan ramalan terbesar
• Amatan ke-3 dapat dipandang
sebagai amatan berpengaruh
• Dugaan parameter regresi
tanpa amatan ke-3 sangat
berbeda dg lainnyaÆ dugaan
yg ini relatif yg benar/baik
The regression equation is Y tnp 3 = 4,01 + 0,345 X tnp 3
Predictor Coef SE Coef T P Constant 4,00619 0,00221 1811,78 0,000 X tnp 3 0,345334 0,000237 1454,74 0,000
S = 0,00308655 R-Sq = 100,0
PRESS = 0,000174853 R-Sq(pred) = 100,00%
Analysis of Variance
Source DF SS MS F P Regression 1 20,161 20,161 2116264,34 0,000 Residual Error 15 0,000 0,000
Total 16 20,161
Output Minitab data lengkap Output Minitab data tanpa amatan ke-3
The regression equation is Y = 3,00 + 0,500 X
Predictor Coef SE Coef T P Constant 3,002 1,124 2,67 0,026 X 0,4997 0,1179 4,24 0,002
S = 1,23631 R-Sq = 66,6%
PRESS = 23,6210 R-Sq(pred) = 42,70%
Analysis of Variance
Source DF SS MS F P Regression 1 27,470 27,470 17,97 0,002 Residual Error 9 13,756 1,528
Total 10 41,226
Nilai PRESS
(lanjutan)
Menyisihkan amatan ke-3 mempengaruhi dugaan parameter, menurunkan nilai PRESS Dari sisi model, “persamaan tanpa amatan ke-3” yg terbaik.
X
Fitted Line Plot
Y = 3,002 + 0,4997 X
Fitted Line Plot
Y tnp 3 = 4,006 + 0,3453 X tnp 3
Nilai PRESS
(lanjutan)
Dugaan garis regresi dg data lengkap
PRESS = 23,6210 R-Sq(pred) = 42,70%
Dugaan garis regresi tanpa amatan ke-3
PRESS = 0,000174853 R-Sq(pred) = 100,0%
Semakin kecil nilai PRESS-nya Æ model semakin valid Æ semakin baik untuk
Pencilan
Bisa jadi terletak pada tiga atau empat simpangan
baku atau lebih jauh lagi dari rata-rata sisaannya.
Keberadaan
pencilan
harus
diperiksa
dengan
seksama, apakah pencilan itu merupakan kesalahan
dalam pencatatan amatan atau pencilan tersebut
muncul dari kombinasi keadaan yang tidak biasa
yang
mungkin
saja sangat
penting
dan
perlu
diselidiki lebih jauh.
Pencilan
Scatterplot of Sisaan baku-2 vs dugaan-Y2
dugaan- Y2
Scatterplot of sisaan2 vs dugaan-Y2
Plot antara Sisaan ei vs dugaan Yi Plot antara Sisaan ri vs dugaan Yi
• Dugaan persamaan regresi Y = 3.00 + 0.500 X dgn R-Sq = 66.6%
• Pola tebaran sisaan thdp ei dan ri sama
• Ada sisaan yang nilainya sangat besar Æ potensi sebagai pencilan
Pencilan
MENDETEKSI PENCI LAN
•
Hitung nilai
dengan
7.46 10 -0.46018
6.77 8 -0.19633
12.74 13 2.99999
7.11 9 -0.33085
7.81 11 -0.59695
8.84 14 -1.13497
6.08 6 0.07042
5.39 4 0.3807
8.15 12 -0.75518
6.42 7 -0.06974
5.73 5 0.21188
(lanjutan)
•
Jika nilai | ri| > 2, amatan tsb
Pencilan
(lanjutan)
Scatterplot of Y-3 vs X-3
X t np pclan
Scatterplot of Y tnp pclan vs X tnp pclan
Y = 4.01 + 0.345 X
Pencilan
dugaan t nppcl
s
Scatterplot of s baku tnp pcl vs dugaan tnppcl
Plot sisaan baku (r
i) vs dugaan Y
Tebaran tidak berpola, menyebar di se-kitar nilai nol, lebar pita relatif sama
Mengeluarkan data pencilan dari analisis:
• mampu memperbaiki pola tebaran sisaan yang tadinya berpola (garis lurus)
• harus dilakukan dengan kehati-hatian yang tinggi.
(lanjutan)
Data Lengkap
Data Tanpa Pencilan
Tebaran berpola, karena (1) ada pencilan, atau (2) model tidak pas
dugaan- Y2
Amatan Berpengaruh
AMATAN BERPENGARUH
:berkaitan dengan besarnya perubahan yang terjadi pada
dugaan parameter regresi jika pengamatan tersebut disisihkan
X1 1 1 1 1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,5 1,5 1,5 1,6 1,6 1,6 4,0 Y1 2,11 1,39 0,78 2,02 2,46 3,67 2,56 1,74 1,88 5,15 2,41 2,00 3,56 3,09 0,78 4,29 3,33 3,10 15,00
X1
Y
1
4,0 3,5
3,0 2,5
2,0 1,5
1,0 16 14 12 10 8 6 4 2 0
Scatterplot of Y1 vs X1
Unusual Observations
Obs X1 Y1 Fit SE Fit Residual St Resid 10 1,40 5,147 2,895 0,244 2,252 2,19 R 15 1,50 0,776 3,345 0,243 -2,569 -2,50 R 19 4,00 15,000 14,576 1,009 0,424 1,34 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large
Amatan Berpengaruh
The regression equation is
Y1 = - 3,39 + 4,49 X1
S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1% Analysis of Variance
Source DF SS MS F P Regression 1 150,10 150,10 134,22 0,000 Residual Error 17 19,01 1,12
Total 18 169,11 Unusual Observations
Obs X1 Y1 Fit SE Fit Residual St Resid 10 1,40 5,147 2,895 0,244 2,252 2,19 R 15 1,50 0,776 3,345 0,243 -2,569 -2,50 R 19 4,00 15,000 14,576 1,009 0,424 1,34 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
(lanjutan)
OUTPUT MINITAB
Hasil analisis regresi dari data tersebut menunjukkan bahwa ada 3 amatan yg aneh, yaitu amatan ke 10,15, dan 19. Amatan 10 dan 15 berpotensi sebagai pencilan. Amatan 19
berpotensi sebagai amatan berpengaruh
Bandingkan dg data tanpa amatan 19. Apakah
The regression equation is
Y1 = - 1,26 + 2,88 X1
S = 1,03065 R-Sq = 25,4% R-Sq(adj) = 20,8% Analysis of Variance
Source DF SS MS F P Regression 1 5,797 5,797 5,46 0,033 Residual Error 16 16,996 1,062
Total 17 22,793 Unusual Observations
Obs X1 Y1 Fit SE Fit Resid St Resid 10 1,40 5,147 2,764 0,256 2,383 2,39 R 15 1,50 0,776 3,052 0,318 -2,276 -2,32 R
The regression equation is
Y1 = - 3,39 + 4,49 X1
S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1%
Analysis of Variance
Source DF SS MS F P Regression 1 150,10 150,10 134,22 0,000 Residual Error 17 19,01 1,12
Total 18 169,11
Unusual Observations
Obs X1 Y1 Fit SE Fit Resid St Resid 10 1,40 5,147 2,895 0,244 2,252 2,19 R 15 1,50 0,776 3,345 0,243 -2,569 -2,50 R 19 4,00 15,000 14,576 1,009 0,424 1,34 X
Analisis Regresi thdp Data Lengkap An Regresi thdp Data Tanpa Amatan 19
Penyisihan “pengamatan berpengaruh” mengubah
secara berarti dugaan persamaan regresi
Amatan Berpengaruh
X1
Fitted Line Plot Y1 = - 3,394 + 4,493 X1
Amatan Berpengaruh
(lanjutan)
Dugaan Garis Regresi Data Lengkap Dugaan Grs Regresi Data Tnp Amatan 19
X1 t np amat an 19
Fitted Line Plot
Y1 tnp amatan 19 = - 1,265 + 2,878 X1 tnp amatan 19
Pengaruh titik data ke-i diukur dengan jarak :
pengamatan dan p = banyaknya parameter
Di > F (p,n-p;1-α). menandakan bahwa amatan ke-i berpengaruh.
Amatan Berpengaruh
(lanjutan)
X (i) Y (i) e (i) r (i) D (i) 1 2,11 1,01 1,00 0,30 1 1,39 0,30 0,29 0,09 1 0,78 -0,32 -0,32 -0,09 1,2 2,02 0,02 0,02 0,01 1,2 2,46 0,46 0,45 0,11 1,2 3,67 1,68 1,64 0,45 1,3 2,56 0,11 0,11 0,03 1,3 1,74 -0,71 -0,69 -0,17 1,3 1,88 -0,56 -0,55 -0,13 1,4 5,15 2,25 2,19 0,59 1,4 2,41 -0,49 -0,47 -0,11 1,4 2,00 -0,90 -0,87 -0,21 1,5 3,56 0,21 0,21 0,05 1,5 3,09 -0,26 -0,25 -0,06 1,5 0,78 -2,57 -2,50 -0,72 1,6 4,29 0,50 0,49 0,11 1,6 3,33 -0,47 -0,45 -0,11 1,6 3,10 -0,70 -0,68 -0,16 4 15,00 0,42 1,34 4,40
Dugaan persamaan regresi DATA LENGKAP : Y1 = - 3,39 + 4,49 X1
Banyaknya parameter = 2 Æ p = 2
Banyaknya pengamatan = 19 Æ n = 19
Pengamatan ke -19 memiliki nilai D19 = 4,40
Dengan α = 5%
Nilai tabel F(p,n-p; 1-α) = F (2,17; 0,95) = 3,59
D19 > F (2,17; 0,95)
Dengan α = 5%, amatan ke 19 (terakhir)
merupakan amatan berpengaruh.