Analisis Regresi 1
Pokok Bahasan :
Diagnosa Model Melalui Pemeriksaan
Sisaan dan Identifikasi Pengamatan
Sisaan
Sisaan adalah menyimpangnya nilai amatan y
iterhadap dugaan nilai harapannya
Sisaan untuk suatu amatan ke-i:
Sisaan baku
i iy
b
b
x
]
x
|
[Y
E
]
x
|
[Y
E
i
i
0
1i
i
i
y
y
e
s
e
s
y
y
r
i y y i i i i i
ˆˆ
Bisa digunakan untuk memeriksa kebenaranmenyebar N(0,1)
i Kurang tepat sebab
ragam (ei) = s2 (1-h ii)
2 21
,
)
1
(
x
x
x
x
n
h
h
s
e
r
k i ii ii i iInformasi-informasi yang Didapat
Melalui Sisaan
Bisa melihat pola sebaran peubah acak Y
Melalui sisaan, kita dapat mengetahui apakah asumsi-asumsi
yang disyaratkan pada pendugaan dengan MKT dipenuhi atau
tidak
Melalui sisaan, kita juga dapat menguji parameter regresi,
sehingga kita perlu mengetahui sebaran sisaan
Melalui sisaan, kita juga bisa melihat apakah model yang kita pilih
pas atau tidak
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan
merupakan pencilan atau bukan
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13 Y 10.98 11.13 12.51 8.4 9.27 8.73 6.36 8.5 7.82 9.14 8.24 12.19 11.88 X1 20 20 23 20 21 22 11 23 21 20 20 21 21 i 14 15 16 17 18 19 20 21 22 23 24 25 Y 9.57 10.94 9.58 10 8.11 6.83 8.88 7.7 8.47 8.86 10.4 11.08 X1 19 23 20 22 22 11 23 20 21 20 20 22Berikut adalah 1 set (25 pengamatan) data berpasangan x1
idan y
iyang didapat dari sebuah percobaan. Dari data ini ingin diketahui
model matematika hubungan antara x1 dan Y.
Contoh: menghitung sisaan
ε
x
β
β
Y
0
1
X1 Y 24 22 20 18 16 14 12 10 13 12 11 10 9 8 7 6Scatterplot of Y vs X1 Dari tebaran x1 terhadap Y digunakan
persamaan garis regresi linier sederhana ordo satu :
Dengan Minitab didapatkan dugaan persamaannya : = 3.56 + 0.290 X1 Untuk setiap amatan dihitung nilai
dugaannya, kemudian hitung sisaannya
(lanjutan)
Contoh: menghitung sisaan
i 1 2 3 4 5 6 7 8 9 10 11 12 13 y 10.98 11.13 12.51 8.40 9.27 8.73 6.36 8.50 7.82 9.14 8.24 12.19 11.88 y_duga 9.35 9.35 10.22 9.35 9.64 9.93 6.75 10.22 9.64 9.35 9.35 9.64 9.64 sisaan 1.63 1.78 2.29 -0.95 -0.37 -1.20 -0.39 -1.72 -1.82 -0.21 -1.11 2.55 2.24 i 14 15 16 17 18 19 20 21 22 23 24 25 y 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.68 8.47 8.86 10.36 11.08 y_duga 9.06 10.22 9.35 9.93 9.93 6.75 10.22 9.35 9.64 9.35 9.35 9.93 sisaan 0.51 0.72 0.23 0.16 -1.82 0.08 -1.34 -1.67 -1.17 -0.49 1.01 1.15(lanjutan)
Plot Sisaan untuk:
Melihat Ketidakpasan Model
Plot sisaan terhadap
y_duga masih berpola
(kuadratik)
Sisaan masih
mengandung
komponen kuadratik
Model belum pas
model harus ditambah
dg komponen kuadratik
y_duga si sa an 200 150 100 50 0 40 30 20 10 0 -10 -20 -30 -40Plot sisaan vs y_duga
Plot Sisaan untuk :
Pemeriksaan Asumsi MKT
y_duga si sa an 10.5 10.0 9.5 9.0 8.5 8.0 7.5 7.0 3 2 1 0 -1 -2Plot Sisaan vs y_duga
terpenuhi
j
i
,
0
]
[
3.
penuhi
tidak ter
]
E[
2.
terpenuhi
0
]
[
.
1
2 2 i
iE
E
Kondisi Gauss-MarkovPada tebaran sisaan terhadap nilai dugaan Y dapat dilihat :
- Sisaan di sekitar nilai nol / tidak nilai harapan
- Lebar pita sisaan sama atau tidak untuk semua nilai dugaan
kehomogenan ragam - Tebaran berpola atau tidak
ketidakpasan model sisaan bebas atau tidak
Pola tebaran sisaan yang tidak memenuhi asumsi MKT:
Ragam tidak homogen (perlu analisis
kua-drat terkecil terboboti; atau transformasi
thdp Y)
Penyimpangan terhadap persamaan
regresi bersifat sistematis; atau karena
tdk disertakannya kedalam model
Model tidak pas (perlu suku-suku lain
dalam model atau transformasi thdp Y)
Pola tebaran sisaan memenuhi asumsi MKT:
berpusat di NOL, lebar pita sama, tidak berpola
Pola Tebaran Sisaan
terhadap
0
i
Yˆ
0
Transformasi untuk :
Menghomogenkan Ragam
Transformasi terhadap peubah respon Y
Y
Y*
1
b
Y
ln
Y*
2
b
Y
1
Y*
3
b
Y
1
Y*
4
b
jika
:
Anggap
2
a
b
Setelah respon Y ditransformasi,
lakukan analisis regresi seperti biasa,
sisaan harus diperiksa lagi, jika masih
belum memenuhi asumsi, model
diubah, kemungkinan ada suku
nonlinier yg belum masuk model,
atau lakukan pendugaan dg MKT
terboboti.
Contoh Transformasi untuk
Menghomogenkan Ragam
Fitted Value Re si du al 25 20 15 10 5 10 5 0 -5 -10Residuals Versus the Fitted Values
(response is Y) Fitted Value Re si du al 5,0 4,5 4,0 3,5 3,0 2,5 1,0 0,5 0,0 -0,5 -1,0 -1,5
Residuals Versus the Fitted Values
(response is akar Y)
Plot Sisaan untuk:
Pemeriksaan Bentuk Sebaran
S is a a n Fr ek ue ns i 3 2 1 0 - 1 - 2 - 3 4 3 2 1 0 N o r m a l H i s t o g r a m S i s a a n Tebaran sisaan dan histogram di samping untuk melihat : BENTUK SEBARAN SISAAN, simetri atau tidak HASIL DIAGNOSA : Sebaran sisaan agak menjulur ke kanan
Plot Sisaan untuk:
Pemeriksaan Sebaran Normal
Sisaan Pe lu an g no rm al 5 4 3 2 1 0 -1 -2 -3 -4 99 95 90 80 70 60 50 40 30 20 10 5 1 Normal - 95% CI
Probability Plot of Sisaan Plot sisaan terhadap peluang
Normal untuk :
Mencocokkan apakah sebaran sisaan merupakan sebaran Normal atau tidak. Ya jika pola tebaran membentuk garis lurus Hasil Diagnosa :
Titik2 masih di dalam selang 95%
bisa dianggap lurus menyebar Normal
Plot Sisaan untuk:
Pemeriksaan Kebebasan Sisaan
Plot sisaan terhadap urutan
untuk :
Memeriksa apakah sisaan
bebas satu dengan lainnya
atau tidak. Bebas jika tdk
membentuk pola
.Hasil Diagnosa :
Tebaran tidak membentuk
pola
Sisaan saling bebas
urutan RE SI 1 12 10 8 6 4 2 0 2 1 0 -1 -2
Pola tebaran sisaan yang menginformasikan bahwa pengaruh
waktu belum diperhitungkan
Ragam tidak homogen (perlu analisis kuadrat
terkecil terboboti)
Suatu suku linier dalam waktu harus
ditambahkan ke dalam model
Suku linier dan kuadratik dalam waktu perlu
ditambahkan ke dalam model
Pengaruh waktu jangka panjang tidak
mempengaruhi data.
Pola Tebaran Sisaan
Plot Sisaan untuk:
Pemeriksaan Pengaruh Waktu
Plot sisaan terhadap urutan
waktu yg jaraknya sama.
Perhatikan :
lebar pita sama/tidak
berpola/tidak
Hasil Diagnosa :
• Lebar pita sama homogen • Tebaran tidak membentuk pola
tidak perlu ditambahkan penga-ruh waktu ke dalam model
urutan RE SI 1 12 10 8 6 4 2 0 2 1 0 -1 -2
Sisaan Terstandardkan
(Sisaan Baku)
s
e
s
y
y
r
i y y i i i i i
ˆˆ
Bisa digunakan untukmemeriksa kebenaran menyebar N(0,1)
i
ragam(ei)= s2, kurang tepat
ragam(ei) = s2 (1- h ii)
2 21
,
)
1
(
x
x
x
x
n
h
h
s
e
r
k i ii ii i iSISAAN BAKU :
ei = sisaan amatan ke-i n = banyaknya pengamatan s2= dugaan bagi ragam Y
i KTsisaan
Pd sebaran Normal Baku peluang nilai ri terletak antara -1,96 s.d 1,96 adalah 95%. | ri|>2 patut dicurigai
Sisaan akan memiliki ragam yg relatif besar jika xi di sekitar
x
Sisaan Terstandarkan (Sisaan Baku)
(lanjutan)
Fitted Value Re si du al 2,8 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0 1,0 0,5 0,0 -0,5 -1,0Residuals Versus the Fitted Values
(response is ln(y)) FITS1 SR ES 1 2,8 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0 2 1 0 -1 -2 -3 -4
Scatterplot of SRES1 vs FITS1
Plot Sisaan e
ivs Dugaan Y
Plot Sisaan Baku r
ivs Dugaan Y
Pola tebaran plot sisaan e
idan r
itidak berbeda.
pemeriksaan sisaan dg pola tebaran, keduanya dapat digunakan NILAINYA BERBEDA, untuk uji statistik gunakan ri
Nilai PRESS
PRESS =
Prediction Sum of Squares,
adalah prosedur
yang merupakan kombinasi dari: semua
kemung-kinan regresi, analisis sisaan, dan teknik validasi.
2 i,-i 2 ,e
ˆ
PRESS
y
iy
i i
2 21
PRESS
R
y
y
i PREDyi : nilai respon pada x=xi (data lengkap) : nilai ramalan y pd x=xi yg diramal
melalui dugaan persamaan regresi dari data tanpa amatan ke-i
Model baik jika memiliki PRESS yg kecil
i i
y
ˆ
, 2 11
in
i ii
h
e
= R2pred adalah statistik uji
la-innya yg berhub dg PRESS. Model valid jika R2
Nilai PRESS
(lanjutan)
PROSEDUR PRESS
Mis. p adalah banyaknya parameter dalam suatu pers regresi, n adalah banyaknya amatan
p
y
y
1
ˆ
1 np n p py
y
y
y
y
y
2
ˆ
2,
3
ˆ
3,
...,
ˆ
2 1ˆ
n iy
iy
ipPRESS
Langkah-langkahnya:1. Sisihkan amatan ke-1, amatan ke-1 tidak digunakan, data tinggal n-1.
2. Dugalah semua ”kemungkinan model regresi” thdp n-1 data tersebut. (jika p=1 banyaknya ”kemungkinan model” hanya 1)
3. Ramal y1 dengan model yang didapat pd no.2. (lakukan untuk semua kemungkinan model hanya 1 jika p=1)
4. Hitung perbedaan y1 yg disisihkan tadi dengan hasil no.3.
5. Ulangi langkah 1-4 dengan menyisihkan amatan ke-2, ke-3,...., ke-n. Didapat
6. Untuk setiap model regresi yang mungkin hitung :
7. Pilih model yang relatif memiliki nilai PRESS terkecil, dan melibatkan peubah penjelas sedikit.
Nilai PRESS
(lanjutan)
Y X Dugaan Garis Regresi tnp amatan ramalan Yi
ke-i
e
i,-i e i,-i kuadrat 7,46 10 Y tnp 1 = 3,01 + 0,505 X tnp 1 8,06 -0,6 0,36 6,77 8 Y tnp 2 = 3,05 + 0,497 X tnp 2 7,026 -0,256 0,06553 12,74 13 Y tnp 3 = 4,01 + 0,345 X tnp 3 8,495 4,245 18,02003 7,11 9 Y tnp 4 = 3,04 + 0,500 X tnp 4 7,54 -0,43 0,18490 7,81 11 Y tnp 5 = 2,95 + 0,514 X tnp 5 8,604 -0,794 0,63043 8,84 14 Y tnp 6 = 2,46 + 0,577 X tnp 6 10,538 -1,698 2,88320 6,08 6 Y tnp 7 = 2,97 + 0,502 X tnp 7 5,982 0,098 0,00960 5,39 4 Y tnp 8 = 2,72 + 0,526 X tnp 8 4,824 0,566 0,32035 8,15 12 Y tnp 9 = 2,84 + 0,528 X tnp 9 9,176 -1,026 1,05267 6,42 7 Y tnp 10 = 3,03 + 0,498 X tnp10 6,516 -0,096 0,00921 5,73 5 Y tnp 11 = 2,88 + 0,511 X tnp11 5,435 0,295 0,08703 Total = PRESS = 23,6229Output Minitab untuk data contoh tsb
Nilai PRESS
(lanjutan)
The regression equation is Y = 3,00 + 0,500 X
Predictor Coef SE Coef T P Constant 3,002 1,124 2,67 0,026 X 0,4997 0,1179 4,24 0,002 S = 1,23631 R-Sq = 66,6% R-Sq(adj) = 62,9% PRESS = 23,6210 R-Sq(pred) = 42,70% Analysis of Variance Source DF SS MS F P Regression 1 27,470 27,470 17,97 0,002 Residual Error 9 13,756 1,528 Total 10 41,226
• Hasil PRESS melalui proses = hasil Minitab
• Untuk p=1 hanya ada 1 model • Amatan ke-3 memberikan
simpangan ramalan terbesar • Amatan ke-3 dapat dipandang
sebagai amatan berpengaruh • Dugaan parameter regresi
tanpa amatan ke-3 sangat berbeda dg lainnya dugaan yg ini relatif yg benar/baik
Keluarkan amatan ke-3 dari analisis.
The regression equation is Y tnp 3 = 4,01 + 0,345 X tnp 3
Predictor Coef SE Coef T P Constant 4,00619 0,00221 1811,78 0,000 X tnp 3 0,345334 0,000237 1454,74 0,000 S = 0,00308655 R-Sq = 100,0 PRESS = 0,000174853 R-Sq(pred) = 100,00% Analysis of Variance Source DF SS MS F P Regression 1 20,161 20,161 2116264,34 0,000 Residual Error 15 0,000 0,000 Total 16 20,161
Output Minitab data lengkap
Output Minitab data tanpa amatan ke-3
The regression equation is Y = 3,00 + 0,500 X
Predictor Coef SE Coef T P Constant 3,002 1,124 2,67 0,026 X 0,4997 0,1179 4,24 0,002 S = 1,23631 R-Sq = 66,6% PRESS = 23,6210 R-Sq(pred) = 42,70% Analysis of Variance Source DF SS MS F P Regression 1 27,470 27,470 17,97 0,002 Residual Error 9 13,756 1,528 Total 10 41,226
Nilai PRESS
(lanjutan)
Menyisihkan amatan ke-3 mempengaruhi dugaan parameter, menurunkan nilai PRESS Dari sisi model, “persamaan tanpa amatan ke-3” yg terbaik.
X Y 15,0 12,5 10,0 7,5 5,0 13 12 11 10 9 8 7 6 5 4
Fitted Line Plot
Y = 3,002 + 0,4997 X X tnp 3 Y tn p 3 15,0 12,5 10,0 7,5 5,0 9 8 7 6 5
Fitted Line Plot
Y tnp 3 = 4,006 + 0,3453 X tnp 3
Nilai PRESS
(lanjutan)
Dugaan garis regresi dg data lengkap
PRESS = 23,6210 R-Sq(pred) = 42,70%
Dugaan garis regresi tanpa amatan ke-3
PRESS = 0,000174853 R-Sq(pred) = 100,0%
Semakin kecil nilai PRESS-nya model semakin valid semakin baik untuk meramal Setiap 1 model regresi thdp 1 set data memiliki 1 nilai PRESS