Analisis Regresi 2
Pokok Bahasan :
Asumsi sisaan dan penanganannya
Tujuan Instruksional Khusus :
Mahasiswa dapat menjelaskan asumsi-asumsi yang melandasi analisis regresi linier sederhana dan berganda, efek pelanggarannya, cara
pemeriksaan keterpenuhannya, serta prosedur penanganannya.
Sisaan
Sisaan adalah menyimpangnya nilai amatan yi terhadap dugaan nilai harapannya
Sisaan untuk suatu amatan ke-i:
Sisaan baku
i
y
ib b x ]
x
| [Y E
] x
| [Y
E
i
i
0
1i i
i
y y
e
s
e s
y
r y i
y y
i i
i
i i
ˆ
ˆ Bisa digunakan untuk
memeriksa kebenaran menyebar N(0,1)
i
Kurang tepat sebab
ragam (ei) = s2 (1-hii)
i ii n i
i
x n x
e h r
1 2
,
Informasi-informasi yang Didapat Melalui Sisaan
Bisa melihat pola sebaran peubah acak Y
Melalui sisaan, kita dapat mengetahui apakah asumsi-asumsi yang disyaratkan pada pendugaan dengan MKT dipenuhi atau tidak
Melalui sisaan, kita juga dapat menguji parameter regresi, sehingga kita perlu mengetahui sebaran sisaan
Melalui sisaan, kita juga bisa melihat apakah model yang kita pilih pas atau tidak
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan merupakan pencilan atau bukan
Melalui sisaan, kita juga bisa melihat apakah sebuah pengamatan merupakan pengamatan berpengaruh atau bukan
ASUMSI ASUMSI YANG HARUS DIPENUHI DALAM ANALISIS REGRESI BERGANDA :
1. Kondisi Gauss-Marcov
si autokorela ada
bebas/tdk saling
j i , 0 ] [
3.
) ticity homoscedas
(
x nilai setiap
untuk homogen
sisaan ragam
, ]
[ var ]
E[
2.
nol sisaan
taan harapan/ra
- nilai
0
] [ . 1
2 2 i
sisaan E
E
j i i
3. Galat bebas terhadap peubah bebas, 2. Galat menyebar Normal
i , 0 )
,
cov(xi j
4. Tidak ada multikolinieritas pd peubah bebas, cov(xi,xj) 0 ,i j
Pentingnya Memenuhi Asumsi dalam
Analisis Regresi Sederhana dan Berganda
Sisaan menyebar Normal dengan nilai harapan = 0
diperlukan terutama pada saat pengujian hipotesis dan penyusunan selang kepercayaan bagi parameter pengaruh pelanggaran asumsi sisaan yang tidak
menyebar normal adalah taraf nyatanya tidak akan sesuai (Rawlings, Pantula dan Dickey, 1998).
Asumsi bahwa sisaan menyebar normal tidak terlalu berpengaruh dalam pendugaan parameter regresi dan penguraian total keragaman.
Ragam sisaan dikatakan homogen/konstan jika Var(e)= E(e2) = 2
Ragam sisaan dikatakan tidak homogen (heteroskedastic) jika ragam sisaannya tidak konstan
Heteroskedasticity pada umumnya terjadi pada data cross-section atau data deret waktu
Gambar disamping memperlihatkan :
•ragam sisaan yang tidak konstan, ragam cenderung meningkat ketika nilai x
meningkat.
Ragam Sisaan yang Homogen
Ragam Sisaan yang Homogen
Kehomogenan ragam berperan penting terhadap hasil pendugaan dengan MKT
Ragam homogen = setiap pengamatan
mengandung informasi yang sama penting
Ragam homogen mengakibatkan presisi penduga bagi MKT tinggi
(lanjutan)
Akibat Pelanggarann Asumsi Ketidakhomogenan Ragam (1)
Asumsi kehomogenan/kesamaan ragam (homoscedasticity) memainkan peranan yang sangat penting di dalam pendugaan dengan metode kuadrat terkecil.
Asumsi ini berimplikasi bahwa setiap pengamatan pada peubah respon mengandung informasi yang sama penting sehingga seluruh pengamatan di dalam metode kuadrat terkecil
mendapatkan bobot yang sama.
Ketidakhomogenan ragam (heteroscedasticity) mengakibatkan beberapa pengamatan mengandung informasi yang lebih
dibandingkan yang lain. Dengan demikian, pengamatan tersebut seharusnya mendapatkan bobot yang lebih besar dibandingkan pengamatan yang lain (Rawlings, Pantula dan Dickey 1998).
Sifat dari penduga metode kuadrat terkecil yaitu takbias terbaik (memiliki ragam penduga yang minimum) sangat tergantung dari asumsi ini. Pembobotan yang sama,
sebagaimana pada metode kuadrat terkecil, tidak akan menghasilkan penduga dengan ragam minimum, apabila ragamnya tidak sama.
Karena itu, pengaruh dari tidak dipenuhinya asumsi ini adalah presisi/kecermatan dari penduga metode kuadrat terkecil menjadi lebih kecil jika dibandingkan dengan
penduga yang mengakomodir ketidakhomogenan ragam tersebut (Rawlings, Pantula dan Dickey, 1998).
Akibat Pelanggarann Asumsi
Ketidakhomogenan Ragam (2)
Sisaan Saling Bebas
Sisaan saling bebas = sisaan tidak memiliki korelasi (korelasinya sama dengan nol)
Sisaan yang berkorelasi mungkin disebabkan karena beberapa hal. Data yang dikumpulkan berdasarkan urutan waktu tertentu seringkali memiliki sisaan yang saling berkorelasi. Pada data seperti ini, sisaan dari pengamatan pada waktu tertentu cenderung untuk berkorelasi dengan sisaan yang berdekatan.
Sisaan saling berkorelasi
Pengaruh adanya sisaan yang saling
berkorelasi ini adalah berkurangnya presisi pada penduga metode kuadrat terkecil,
serupa dengan pengaruh ketidakhomogenan ragam.
Dugaan MKT tetap tidak bias tapi standar
error- nya bias ke bawah ( under estimate )
Pemeriksaan Sisaan
Mendeteksi Sisaan Menyebar Normal
Eksplorasi :
histogram sisaan
plot normal
Uji formal :
Uji Kolmogorov Smirnov
Uji Lillifors
Histogram Sisaan untuk:
Pemeriksaan Bentuk Sebaran
Sisaan
Frekuensi
3 2
1 0
-1 -2
-3 4
3
2
1
0
Normal
Histogram Sisaan
Tebaran sisaan dan histogram di samping
untuk melihat : BENTUK
SEBARAN
SISAAN, simetri atau tidak
HASIL
DIAGNOSA : Sebaran
sisaan agak menjulur ke kanan
Plot Sisaan untuk:
Pemeriksaan Sebaran Normal
Sisaan
Peluang normal
5 4 3 2 1 0 -1 -2 -3 -4
99
95 90
80 70 60 50 40 30 20
10 5
1
Normal - 95% CI
Probability Plot of Sisaan Plot sisaan terhadap peluang
Normal untuk :
Mencocokkan apakah sebaran sisaan merupakan sebaran Normal atau tidak. Ya jika pola tebaran membentuk garis lurus Hasil Diagnosa :
bisa dianggap lurus
menyebar Normal
Uji Kolmogorov-Smirnov
Hipotesis
H0: Sisaan menyebar normal
H1: Sisaan tidak menyebar normal
Statistik uji Kolmogorov-Smirnov (D) dapat dirumuskan sebagai:
Statistik uji Kolmogorov-Smirnov berasal dari kelas
supremum statistik fungsi distribusi empiris (empirical distribution function (EDF))
Statistik ini berdasarkan maksimum jarak vertikal antara F(x) dan Fn(x).
Statistik uji Kolmogorov-Smirnov dihitung dari nilai maksimum D+ dan D-, dimana D+ adalah jarak
vertikal terbesar antara F(x) dan Fn(x) ketika Fn(x) lebih besar dari F(x) dan D- adalah jarak vertikal terbesar ketika Fn(x) lebih kecil dari F(x)
Uji Kolmogorov-Smirnov
Uji Lilliefors
Uji Lilliefors merupakan adaptasi dari uji Kolmogorov-Smirnov
Hipotesis yang digunakan sama dengan
hipotesis yang diujikan pada uji Kolmogorov- Smirnov
Uji ini relatif lemah dan data yang diperlukan juga cukup besar agar kita dapat menolak
hipotesis kenormalan sisaan.
Tahapan Uji Lilliefors adalah:
1. Dugalah nilai tengah dan ragam populasi berdasarkan data yang kita miliki
2. Kemudian carilah nilai perbedaan maksimum antara fungsi sebaran empiris (EDF) dan fungsi sebaran
kumulatif (CDF) distribusi normal dengan nilai tengah dan ragam yang telah diduga. Seperti halnya uji
Kolmogorov-Smirnov, nilai ini akan menjadi nilai uji statistik
3. Pada tahapan yang terakhir akan diputuskan apakah
perbedaan itu cukup besar dan signifikan secara statistik.
Uji Lilliefors
Uji Lilliefors
Tahapan yang ketiga ini sedikit lebih sulit
dibandingkan dengan uji Kolmogorov-Smirnov karena fungsi sebaran kumulatif semakin mendekati data.
Hal tersebut dikarenakan nilai dugaan-nya
berdasarkan data tersebut, perbedaan maksimumnya menjadi lebih kecil jika dibandingkan apabila Ho yang hanya memiliki satu distribusi normal. Oleh karena itu diperlukan distribusi null dari statistik uji, yaitu
distribusi peluang yang mengasumsikan Ho benar.
Inilah yang disebut dengan distribusi Lilliefors.
Tabel nilai dari distribusi Lilliefors telah dihitung dengan menggunakan metode Monte Carlo.
Mendeteksi Ragam Sisaan Homogen
Eksplorasi :
Plot antara sisaan dengan dugaan respon
Plot antara sisaan dengan peubah-peubah bebas disarankan untuk dipergunakan karena
ketidakhomogenan ragam sisaan terkadang juga
disebabkan ragam sisaan tersebut merupakan fungsi dari peubah bebas.
Apabila ragam sisaan homogen, maka seharusnya plot antara sisaan tersebut tidak memiliki pola apapun
Plot Sisaan untuk : Pemeriksaan Kehomogenan Ragam
y_duga
sisaan
10.5 10.0 9.5
9.0 8.5 8.0 7.5
7.0 3
2
1
0
-1
-2
Plot Sisaan vs y_duga
terpenuhi
j i , 0 ] [
3.
penuhi
tidak ter
] E[
2.
terpenuhi
0 ] [ . 1
2 2 i
i E E
Kondisi Gauss-Markov
Pada tebaran sisaan terhadap nilai dugaan Y dapat dilihat :
- Sisaan di sekitar nilai nol / tidak nilai harapan
- Lebar pita sisaan sama atau tidak untuk semua nilai dugaan
kehomogenan ragam - Tebaran berpola atau tidak ketidakpasan model sisaan bebas atau tidak
Plot SISAAN vs Y duga
Pola tebaran sisaan yang tidak memenuhi asumsi MKT:
Ragam tidak homogen (perlu analisis kua- drat terkecil terboboti; atau transformasi thdp Y)
Penyimpangan terhadap persamaan
regresi bersifat sistematis; atau karena tdk disertakannya kedalam model Model tidak pas (perlu suku-suku lain Pola tebaran sisaan memenuhi asumsi MKT:
berpusat di NOL, lebar pita sama, tidak berpola
Pola Tebaran Sisaan
terhadap
0
Y ˆ
iPemeriksaan kebebasan
sisaan
Secara eksploratif
Melihat plot antara sisaan dengan urutan sisaan. Jika saling bebas maka tren menyebar secara acak (tidak membentuk pola)
Uji formal
Run Test (Uji Runtunan)
Uji Durbin Watson
Apabila sisaan saling bebas, maka plot plot antara sisaan dengan urutannya tidak akan memiliki pola apapun.
MENDETEKSI
SISAAN SALING BEBAS
MENDETEKSI
SISAAN SALING BEBAS
Uji formal DURBIN-WATSON
Hipotesis :
H0 : Tidak ada autokorelasi ordo 1 pada sisaan H1 : Ada autokorelasi ordo 1 pada sisaan
Statistik uji :
keterangan : T = banyak pengamatan
T
t t T
t
t t
DW
1 2 2
2 1
ˆ ˆ ) ( ˆ
Penanganan Pelanggaran
Asumsi
Cara Mengatasi Ketidak-normalan Sisaan
Transformasi terhadap peubah respon
Secara teori, transformasi tersebut ada apabila sebaran dari peubah respon dapat diketahui.
Namun demikian, terdapat beberapa
transformasi yang umum dipakai, yaitu arcsin, akar kuadrat, logaritma, dan transformasi
logistik (Rawlings, Pantula dan Dickey, 1998).
Metode Box-Cox dapat digunakan sebagai
alternatif penentuan metode transformasi yang terbaik.
Transformasi ini dilakukan dengan memangkatkan peubah respon dengan suatu nilai , di mana merupakan suatu
parameter yang ditentukan dari data (Neter, Wasserman dan Kutner, 1990) dan dicobakan pada suatu selang nilai tertentu (di dalam MINITAB 14 selang nilai yang dicobakan antara -5 sampai dengan 5, untuk = 0 transformasi berupa loge(Y)).
Kriteria yang digunakan untuk menentukan nilai yang optimal adalah nilai yang meminimumkan jumlah kuadrat galat
regresi dari data respon yang telah ditransformasi tersebut.
Transformasi ini berguna untuk mengatasi kemenjuluran sebaran sisaan, ketidakhomogenan ragam sisaan dan ketidaklinieran fungsi regresi. Lebih jauh mengenai
transformasi ini dapat dibaca pada Neter, Wasserman dan Kutner (1990) dan Rawlings, Pantula dan Dickey (1998).
Cara Mengatasi Ketidak-normalan Sisaan:
Metode Box-Cox
Lambda
StDev
5.0 2.5
0.0 -2.5
-5.0 40.0 37.5 35.0 32.5 30.0 27.5 25.0
Lower CL Upper CL
Limit
Lambda
-1.00 (using 95.0% confidence) Estimate -1.24 Lower CL -2.97
Upper CL 0.61
Rounded Value
Box-Cox Plot of Bobot
Cara Mengatasi Ketidak-normalan Sisaan:
Metode Box-Cox
Berdasarkan grafik di samping didapatkan nilai optimal -1.24.
nilai standar : ½, 0, -½, -1.
Karena itu dikembangkan selang kepercayaan bagi nilai ini.
Pada gambar tersebut, selang kepercayaan bagi adalah dari -2.97 sampai 0.61.
Berdasarkan selang ini, dapat dipilih beberapa nilai seperti
½, 0, -½ , -1, dan -2
Cara Mengatasi Ketidak-homogenan Ragam
Dua pendekatan yang dilakukan untuk mengatasi
masalah ketidakhomogenan ragam ini adalah dengan:
transformasi peubah respon atau
metode kuadrat terkecil terboboti (weighted least square).
Transformasi terhadap peubah respon dilakukan dengan tujuan untuk menjadikan ragam menjadi homogen pada peubah respon hasil transformasi tersebut.
Sebaran peluang dari peubah respon ataupun hubungan antara ragam dan rata-ratanya dapat digunakan untuk indikasi pemilihan transformasi yang tepat.
Misalnya transformasi arcsin dikembangkan untuk men-
Sedangkan metode kuadrat terkecil terboboti
menggunakan data asli dari peubah respon, hanya saja besarnya pembobotan yang diterapkan terhadap pengamatan relatif terhadap besarnya informasi yang dikandung oleh pengamatan tersebut (Rawlings,
Pantula dan Dickey 1998).
Pembobot yang biasanya digunakan adalah 1/ei2 atau kebalikan dari kuadrat sisaan.
Cara Mengatasi
Ketidak-homogenan Ragam
Transformasi terhadap Y
Transformasi untuk : Menghomogenkan Ragam
Transformasi terhadap peubah respon Y
Y Y*
1 b
Y ln Y*
2 b
Y Y* 1
3 b
Y Y* 1
4 b
jika
:
Anggap 2
ab
Setelah respon Y ditransformasi,
lakukan analisis regresi seperti biasa, sisaan harus diperiksa lagi, jika masih belum memenuhi asumsi, model
diubah, kemungkinan ada suku nonlinier yg belum masuk model, atau lakukan pendugaan dg MKT terboboti.
Contoh Transformasi untuk Menghomogenkan Ragam
Fitted Value
Residual
25 20
15 10
5 10
5
0
-5
-10
Residuals Versus the Fitted Values (response is Y)
Fitted Value
Residual
5,0 4,5
4,0 3,5
3,0 2,5
1,0 0,5
0,0
-0,5 -1,0
-1,5
Residuals Versus the Fitted Values (response is akar Y)
Plot Sisaan vs Y duga “data asli” Plot Sisaan vs “data transformasi Y*= “ Yˆ Y
Mengatasi Sisaan yang Tidak Saling Bebas
Model deret waktu
Metode kuadrat kecil terampat
Metode ini pengembangan dari MKT terboboti, dimana bobot yang
digunakan ialah keseluruhan matriks ragam-peragam sisaan.
Prosedur Hildreth-Lu
Pola tebaran sisaan yang menginformasikan bahwa pengaruh waktu belum diperhitungkan
Ragam tidak homogen (perlu analisis kuadrat terkecil terboboti)
Suatu suku linier dalam waktu harus ditambahkan ke dalam model
Suku linier dan kuadratik dalam waktu perlu ditambahkan ke dalam model
Pengaruh waktu jangka panjang tidak mempengaruhi data.
Pola Tebaran Sisaan
terhadap Urutan Waktu
Plot Sisaan untuk:
Pemeriksaan Pengaruh Waktu
Plot sisaan terhadap urutan waktu yg jaraknya sama.
Perhatikan :
lebar pita sama/tidak
berpola/tidak Hasil Diagnosa :
• Lebar pita sama homogen
• Tebaran tidak membentuk pola tidak perlu ditambahkan penga- ruh waktu ke dalam model
urutan
RESI1
12 10
8 6
4 2
0 2
1
0
-1
-2
Scatterplot of RESI1 vs urutan
X
Y
15,0 12,5
10,0 7,5
5,0 13
12 11 10 9 8 7 6 5 4
Fitted Line Plot Y = 3,002 + 0,4997 X
X tnp 3
Y tnp 3
15,0 12,5
10,0 7,5
5,0 9
8
7
6
5
Fitted Line Plot Y tnp 3 = 4,006 + 0,3453 X tnp 3
Nilai PRESS
(lanjutan) Dugaan garis regresi dg data lengkapPRESS = 23,6210 R-Sq(pred) = 42,70%
Dugaan garis regresi tanpa amatan ke-3
PRESS = 0,000174853 R-Sq(pred) = 100,0%
Semakin kecil nilai PRESS-nya model semakin valid semakin baik untuk