BAB 6 ANALIS REGRESI 6.2. URAIAN MATERI

(1)

83

Materi pada bab ini meliputi pengujian parameter pada model regresi, pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpangan- penyimpangan asumsi dan cara mengatasinya.

6.1. KOMPETENSI KHUSUS

Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi sebagai berikut:

a. Dapat menduga parameter model regresi melalui pengujian parameter model regresi, baik secara serentak maupun individu

b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik.

c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi.

d. Mahasiswa dapat mengatasi penyimpangan pada model regresi.

6.2. URAIAN MATERI

Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya.

Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah:

( )

y= f x;β +ε

Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model:

(2)

84

0 1 1 2 2 p p

y=β +β x +β x + +L β x +ε

Dalam bentuk matriks, model regresi linear dapat ditulis dalam:

= +

y Xβ ε atau

11 1 0

1 1

21 2 1

2 2

1

1 1

1

p

n np p

n n

x ... x y

β ε

⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢ ⎥

⎢ ⎥=⎢ ⎥ ⎢ ⎥+⎢ ⎥

⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦

M M O M M

M M

Nilai vektor β dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :

( ) (

⁻¹

)

=

β X'X X'y dengan

0

1

p

β β β

⎡ ⎤⎢ ⎥

=⎢ ⎥⎢ ⎥

⎢ ⎥⎣ ⎦

β M ;

( )

1 1 1

2

1 1 1

1 1

2

1 1 1

n n

i pi

i i

n n

i i i pi

i i

n n

pi i pi pi

i i

n x ... x

x x ... x x

x x x x

= =

⎡ ⎤

⎢ ⎥

=⎢ ⎥

⎢ ⎥

⎣ ⎦

∑ ∑

∑ ∑ ∑

X'X M M O M

M

;

( )

1

1 1

1 n i i n

i i i

n pi i i

y x y ...

x y

=

⎡ ⎤

⎢ ⎥

=⎢ ⎥

⎢ ⎥

⎣ ⎦

∑

X'Y

Pengujian terhadap vektor βdapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu.

6.2.1. Pengujian Parameter Regresi Pengujian secera serentak

Hipotesis :

0: H β 0 =

1: H β 0≠

(3)

85 Statistik Uji

Sumber

Variasi df Sum of Squares MS F

Regresi p

∑

⁽^Y^ˆ⁻^Y⁾²

∑

⁽^Y^ˆ⁻^Y⁾²^/^p

sidual MS

gresi MS

Re .

Residual n-p-1

∑

⁽^Y ⁻^Y^ˆ⁾²

∑

⁽^Y ⁻^Y^ˆ⁾²^/(ⁿ⁻^p⁻¹⁾

Total n-1

∑

⁽^Y ⁻^Y⁾²

Tolak Ho jika F >F_α_{, p , n p}_{− −}₁.

Pengujian secara individu Hipotesis

0: _j 0

H β =

1: _j 0

H β ≠

Statistik uji: ^t⁼^β^ˆ^j ^s

( )

^β^ˆ^j

Tolak Ho jika t >t_α _{2 ; n -p-1}

Kegiatan Praktikum

Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam:

( ) ( )

0 1 2

y=β +β ln gdp _ cap +β ln density

Penyelesaian :

a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik transform+ compute]

(4)

86

b) Melakukan analisis regresi ;[klik+analyze+regression+linear]

(5)

87 dan hasilnya adalah :

Model Summary

.840^a .706 .700 5.788

Model 1

R R Square

Adjusted R Square

Std. Error of the Estimate

Predictors: (Constant), ln_gdp, ln_dens a.

ANOVA^b

8519.080 2 4259.540 127.141 .000^a

3551.268 106 33.503

12070.349 108

Regression Residual Total Model 1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), ln_gdp, ln_dens a.

Dependent Variable: Average female life expectancy b.

Coefficients^a

17.981 3.501 5.136 .000

.904 .388 .123 2.332 .022

6.150 .390 .831 15.766 .000

(Constant) ln_dens ln_gdp Model

1

B Std. Error Unstandardized

Coefficients

Beta Standardized

Coefficients

t Sig.

Dependent Variable: Average female life expectancy a.

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :

( ) ( )

17 981 6 150 0 904

y= , + , ln gdp _ cap + , ln density

6.2.2. Pemilihan Model Terbaik

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria

(6)

88

model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan Tabel 6.2.

Tabel 6.1. Kriteria Model Terbaik pada Regresi

No Kriteria Formula Optimum

1 SSE

∑

ⁿi₌₁

(

yi−ˆyi

)

² ^Minimum

2 MSE

(

¹

)

₁

( )

²

1

n

i i

i y ˆy

n p ⁼ −

− −

∑

^Minimum

3 R²

( )

2 1

100

n i i n i i

ˆy y

%

y y

=

− ×

−

∑

^Maksimum

4 Adjusted R² ^{1 1}^{− −}

(

^R²

) ₍ ⁽

_nⁿ₋⁻¹_p

⁾ ₎

^Maksimum

5 Cp Mallow ^SSE

(

ⁿ ²^p

)

MSE− − Minimum

6 AIC ^{ln SSE n}

( ) (

⁺ ²^{p n}

)

^Minimum

7 SBC ^{ln SSE n}

( ) (

⁺ ^{p n ln n}

) ( )

^Minimum

Tabel 6.2. Metode untuk Mendapatkan Model Terbaik

Metode Penjelasan Backward Mulai dengan model lengkap, kemudian variabel independent

yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant

Forward Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant

StepSwise Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan

Best subset regression

Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,…,p variabel independent.

(7)

89 Kegiatan Praktikum

Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression.

Penyelesaian :

a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik analyze+regression+linear]

atau melalui syntax berikut ini:

REGRESSION

/STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN

/DEPENDENT lifeexpf

/METHOD=STEPWISE gdp_cap calories literacy urban death_rt.

dan hasilnya adalah:

(8)

90

ANOVA

7229.894 1 7229.894 222.690 .000

2337.565 72 32.466

9567.459 73

8206.309 2 4103.154 214.028 .000

1361.150 71 19.171

9567.459 73

8906.744 3 2968.915 314.544 .000

660.716 70 9.439

9567.459 73

9017.788 4 2254.447 282.999 .000

549.672 69 7.966

9567.459 73

Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total Model 1

2

3

4

Sum of

Squares df Mean Square F Sig.

Model Summary

.869^a .756 .752 5.698

.926^b .858 .854 4.378

.965^c .931 .928 3.072

.971^d .943 .939 2.822

Model 1 2 3 4

R R Square

Adjusted R Square

Std. Error of the Estimate

Predictors: (Constant), People who read (%) a.

Predictors: (Constant), People who read (%), Death rate per 1000 people

b.

Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita c.

Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake

d.

(9)

91

Coefficients^a

36.226 2.275 15.924 .000

.430 .029 .869 14.923 .000

53.279 2.961 17.995 .000

.330 .026 .667 12.606 .000

-.966 .135 -.378 -7.137 .000

62.740 2.350 26.699 .000

.192 .024 .389 7.890 .000

-1.211 .099 -.474 -12.214 .000

.001 .000 .363 8.614 .000

54.214 3.143 17.252 .000

.172 .023 .347 7.456 .000

-1.136 .093 -.444 -12.178 .000

.000 .000 .252 5.170 .000

.004 .001 .186 3.734 .000

(Constant)

People who read (%

(Constant)

People who read (%

Death rate per 1000 people

(Constant)

People who read (%

Gross domestic product / capita (Constant)

People who read (%

Gross domestic product / capita Daily calorie intake Model

1

2

3

4

Coefficients

Beta Standardized

Coefficients

t Sig.

Sehingga model terbaiknya adalah :

( ) ( ) ( ) ( )

54 214 0 172 1 136 0 000 0 004

lifeexp= , + , literacy − , death_rt + , gdp_cap + , calorie dengan R²= 0.943

b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]

sehingga diperoleh hasil sebagai berikut:

(10)

92 Response is LIFEEXPF

L C D I G A E T D L A U E P O T R R _ R H B A C I _ A C A E R Vars R-Sq R-Sq(adj) C-p S N Y P S T 1 75.6 75.2 225.8 5.6979 X 1 60.2 59.6 412.2 7.2752 X 1 59.8 59.3 416.2 7.3055 X 2 86.9 86.6 90.3 4.1981 X X 2 85.8 85.4 103.5 4.3686 X X 2 83.7 83.3 128.9 4.6816 X X 3 93.1 92.8 17.5 3.0711 X X X 3 92.1 91.7 30.1 3.2935 X X X 3 89.6 89.2 59.8 3.7688 X X X 4 94.3 93.9 5.5 2.8207 X X X X 4 93.5 93.1 15.1 3.0095 X X X X 4 92.5 92.1 26.2 3.2150 X X X X 5 94.4 94.0 6.0 2.8112 X X X X X

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise

6.2.3. Asumsi dalam Analisis Regresi

Model linear yang menggambarkan hubungan antara variabel independent dan variabel dependent adalah :

0 1 1 2 2 p p

y=β +β x +β x + +L β x +ε

Asumsi yang diperlukan untuk model ini adalah:

a. ^ε ^{~ N}

(

⁰^,^σ²

)

b. var

( )

εi =σ² untuk semua i c. ^cov

(

^{ε ε}ⁱ^, ^j

)

= untuk i≠j ⁰

d. Antar variabel independen saling bebas

(11)

93

Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkah- langkah pada Tabel 6.3. berikut ini:

Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya

No. Masalah Deteksi Penyelesaian

1 Residual tidak Berdistribusi normal

Normal probability plot Uji kenormalan,

misalnya uji KS

Tranformasi variabel Regresi bootstrap

2 Hetroscedastivity

( )

i ²

var ε ≠σ

Plot e dengan yˆ Uji Glesjer, White Uji Golfeld-Quandt

Transformasi variabel Weighted Least Squares

3 Autocorrelation

(

ⁱ ^j

)

⁰

cov ε ε, ≠ untuk i≠j

Plot e dengan yˆ Uji Durbin Watson ACF plot

Regresi beda, Regresi ratio, Memasukkan trend, Cochrane Orcutt, Hildreth-Lu,

Durbin, Prais-Winsten 4 Multicollinearity r X , X

(

i j

)

tinggi,

VIF > 10, X'X ≈0 R² tinggi tetapi tidak ada yang significant

stepwise

Principal component reg.

Ridge regression

6.2.3.1. Heteroscedastisitas dan Normalitas

Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :

i i

i σ σ ω

ε ) ² ²

var( = =

Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual yang sudah dibakukan dengan nilai yˆ , jika scatter plot membentuk gambar seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika

(12)

94

membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.

(a) (b)

Gambar 6.1. Plot Untuk Uji Homogenitas Varians

Selain dengan menggunakan scatter-plot seperti di atas, keberadaan hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau:

Jika e =k. x₁. maka dilakukan transformasi sebagai berikut : 1 ...

1 3 3 1 2 2 1 1 1 1 0 1

+ +

= x

x x

x

y β β β β

atau

* ...

3 3

* 2 2

* 1 0 1

* = + x + x + x +

y β β β β

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh:

* ...

3 3

* 2 2

* 1 0 1

* =b +b x +b x +b x + y

Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh :

3 ...

3 2 2 1 0

1+ + + +

=b b x b x b x y

(13)

95

Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan metode weighted least-squares yaitu:

( )

¹

ˆ = ^-1 ⁻ ^-1

β X'Ω X XΩ y

dengan Ω adalah matriks diagonal dengan unsur diagonal adalah ω_i

Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel independent, jika korelasi ini significant maka cenderung terjadi kasus hetroscedasticity.

Koefisien korelasi Spearman dihitung dengan cara :

) 1 ( 1 6 ₂

2

− −

=

∑

n n

r D

dengan D adalah selisih rank antar dua variabel.

Kegiatan Praktikum :

Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut:

Year Saving Income Year Saving Income Year Saving Income

1 264 8777 12 950 17663 23 2105 29560

2 105 9210 13 779 18575 24 1600 28150

3 90 9954 14 819 19635 25 2250 32100

4 131 10508 15 1222 21163 26 2420 32500 5 122 10979 16 1702 22880 27 2570 35250 6 107 11912 17 1578 24127 28 1720 33500 7 406 12747 18 1654 25604 29 1900 36000 8 503 13499 19 1400 26500 30 2100 36200 9 431 14269 20 1829 27670 31 2300 38200 10 588 15522 21 2200 28300

11 898 16730 22 2017 27430

Penyelesaian :

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara:

(14)

96 MTB > regr 'saving' 1 'income';

SUBC> fits c11;

SUBC> resid c12.

The regression equation is saving = - 648 + 0.0847 income

Predictor Coef SE Coef T P Constant -648.1 118.2 -5.49 0.000 income 0.084665 0.004882 17.34 0.000 S = 247.6 R-Sq = 91.2% R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah : MTB > let c13=abs(c12)

MTB > name c13='abs_res'

MTB > regr 'abs_res' 1 'income'

The regression equation is

abs_res = - 7.7 + 0.00935 income

Predictor Coef SE Coef T P Constant -7.69 47.73 -0.16 0.873 income 0.009346 0.001972 4.74 0.000 S = 100.0 R-Sq = 43.6% R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak residual dengan variabel income sehingga terjadi kasus heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model :

(

saving income

)

=β0+β1

(

1income

)

+ε

Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan dengan cara :

MTB > let c4=saving/income MTB > let c5=1/income MTB > name c4='y*' c5='x*' MTB > regr 'y*' 1 'x*';

(15)

97 SUBC> resid c21.

The regression equation is y* = 0.0881 - 723 x*

Predictor Coef SE Coef T P Constant 0.088139 0.004372 20.16 0.000 x* -722.50 72.36 -9.98 0.000 S = 0.01051 R-Sq = 77.5% R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser MTB > let c22=abs(c21)

MTB > name c22='absres'

MTB > regr 'absres' 1 'income' Hasil pengujian Glejser

The regression equation is

absres = 0.00793 +0.000000 income

Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0%

Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak residual dengan income atau varians residual cenderung sudah homogen.

Sedangkan asumsi kenormalan residual dapat diuji dengan cara : MTB > %NormPlot C21;

SUBC> Kstest.

Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

(16)

98

Gambar 6.2. Hasil Uji Kenormalan Data

Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal.

Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah:

y* = 0.0881 – 723 x*

atau

(

saving income

)

=0 0881 723 1, −

(

income

)

Ruas kiri dan kanan digandakan dengan income maka diperoleh : 723 0 0881

saving= − + , income

6.2.3.2. Autokorelasi

Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan metode-metode berikut ini:

a) Statistik uji Durbin-Watson :

∑

=

= − −

= _n

i i n

i

i i

e e e d

1 2 2

2 1) (

(17)

99

b) ACF plot, ada nilai r e ,e

(

t t k₋

)

melampaui batas ⁰^±

(

² ⁿ

)

maka residual tidak saling independent

c) Statistik uji Ljung-Box

∑

= − +

= ^k

j j

j n n r

n Q

1 2

) 2

(

Tolak Ho atau residual saling independent jika Q>χ_α²_;k.

pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat diatasi dengan:

a. Regresi beda

t t t t

t y x x

y − ₋₁= β₀+β₁( − ₋₁)+ε b. Regresi Nisbah

t t

t

t t

x x y

y =β +β +ε

−

− 1

1 0 1

1 0 1 1

t t t t t

y −ρ.y₋ =β +β( x −ρx₋ )+ ε

Kegiatan Praktikum

tahun export gdp tahun export gdp tahun export gdp 1970 102 255 1980 106 259 1990 112 268 1971 105 261 1981 106 258 1991 114 271 1972 105 261 1982 106 257 1992 113 269 1973 105 260 1983 106 257 1993 112 266 1974 104 257 1984 108 261 1994 114 270 1975 104 257 1985 108 261 1995 113 267 1976 106 261 1986 109 262 1996 117 276 1977 106 260 1987 110 264 1997 117 276 1978 105 257 1988 113 271 1998 117 276 1979 106 259 1989 113 271 1999 117 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.

Penyelesaian

a. Penentuan model regresi dan pemeriksaan asumsi independent residual

(18)

100 MTB > regr ‘gdp’ 1 ‘export’;

SUBC > resid c5.

The regression equation is gdp = 110 + 1.41 export

Predictor Coef SE Coef T P Constant 110.354 6.839 16.14 0.000 export 1.40664 0.06251 22.50 0.000

S = 1.549 R-Sq = 94.8% R-Sq(adj) = 94.6%

MTB > %acf c5

Gambar 6.3. Plot Autokorelasi (ACF)

Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent.

b. Mengatasi autocorrelation dengan regresi beda

MTB > diff 'export' c7 MTB > diff 'gdp' c8

MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7;

SUBC> resid c9.

(19)

101 The regression equation is

diff_gdp = - 0.488 + 2.28 dif_xprt

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T P Constant -0.48789 0.09875 -4.94 0.000 dif_xprt 2.27658 0.06924 32.88 0.000

S = 0.4956 R-Sq = 97.6% R-Sq(adj) = 97.5%

MTB > %acf c9

Gambar 6.4. Plot Autokorelasi (ACF) residual sudah saling independent, sehingga model regresinya adalah:

) exp (exp

28 . 2 488 . 0 )

(gdp_t −gdp_t₋₁ =− + ort_t − ort_t₋₁ c. Mengatasi autocorrelation dengan regresi nisbah

MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11;

SUBC> resid c13.

The regression equation is C12 = 0.0563 + 0.942 C11

29 cases used 1 cases contain missing values

Predictor Coef SE Coef T P Constant 0.05627 0.02957 1.90 0.068 C11 0.94186 0.02942 32.01 0.000

S = 0.001930 R-Sq = 97.4% R-Sq(adj) = 97.3%

(20)

102 MTB > %acf c13

Gambar 6.5. Plot Autokorelasi (ACF)

residual sudah saling independent, sehingga model regresinya adalah

1

1 exp

942 exp . 0 0563 . 0

−

+

=

t t

ort ort gdp

gdp

6.2.3.3. Multikolinearitas

Multicollinearity adalah Adanya hubungan linear antar variabel independent.

Multicollinearity dapat dideteksi dengan cara berikut:

a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi

c. X'X ≈0

d. R² tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda

Multicollinearity dapat diatasi dengan metode berikut ini:

a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise.

b. Ridge Regression. Penaksiran koefisien parameter model regresi pada ridge regression adalah

(21)

103

( )

¹

ˆ = + k ⁻

β X'X I X'y , untuk 0< < . k 1

c. Principal Component Regression (PCR). Langkah-langkah dari metode PCR adalah sebagai berikut:

• Melakukan pembakuan (pen-stadar-an) data :

s x z= x−

• Membangkitkan variabel baru yang saling independent

1 11 1 12 2 1

2 21 1 22 2 2

1 2 2

p p

p p p pp p

w a x a x a x

= + + +

L L M

L atau

i = ′i

w a x, dengan a′_i adalah eigen-vector dari eigen-value ke-i yang dihitung dari matriks korelasi antar variabel independent

• Melakukan regresi y dengan w dan mensubstitusi mundur ke dalam model asal, yaitu model y dengan x.

6.3. KEGIATAN PRAKTIKUM

1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin

2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi multicollinearity

Penyelesaian

a. Memilih data dari region Amerika Latin klik [ data+select cases+if ]

(22)

104

b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]

Correlations

1 .550** .500* .833** .756**

.550** 1 .285 .617** .581**

.500* .285 1 .578** .542*

.833** .617** .578** 1 .956**

.756** .581** .542* .956** 1

Average female life expectancy

Gross domestic product / People living in cities (%)it Females who read (%) Males who read (%)

Average female life expectancy

Gross domestic product / capita

People living in cities

(%)

Females who read

(%)

Males who read (%)

Correlation is significant at the 0.01 level (2-tailed).

**.

Correlation is significant at the 0.05 level (2-tailed).

*.

(23)

105

Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity.

c. Memeriksa adanya kasus multicollinearity dengan VIF klik [analyze+regression+linear]

kemudian klik [statistics]

(24)

106

Coefficients^a

45.921 8.483 5.413 .000

.000 .001 .320 .753 1.640

.011 .068 .159 .875 1.525

-.273 .274 -.997 .334 11.573

.594 .238 2.498 .024 13.289

(Constant)

Gross domestic product / capita

People living in cities (%)

Males who read (%) Females who read (%)

Coefficients

t Sig. VIF

Collinearity Statistics

Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk males who read negatif sedangkan koefisien korelasinya positif sehingga memang ada kasus multicollinearity.

d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression + linear + method stepwise]

Coefficients^a

39.013 5.077 7.684 .000

.406 .062 6.557 .000 1.000

(Constant)

Females who read (%) Model

1

Coefficients

t Sig. VIF

Collinearity Statistics

e. Mengatasi multicollinearity dengan ridge regression : klik [file + new + syntax]

(25)

107 klik [Run +All]

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________

.00000 .71418 .05000 .69610 .10000 .68316 .15000 .67496 .20000 .66894 .25000 .66400 .30000 .65966 .35000 .65564 .40000 .65182 .45000 .64811 .50000 .64445 .55000 .64083 .60000 .63722 .65000 .63360 .70000 .62999 .75000 .62637 .80000 .62273 .85000 .61909 .90000 .61544 .95000 .61179 1.0000 .60813 .054792 .026292 1.216924 -.453266 .094060 .064195 .727695 -.027707 .108722 .079079 .576309 .089996 .116972 .087904 .499551 .141542 .122256 .093883 .451628 .168551 .125810 .098171 .418018 .183994 .128228 .101326 .392635 .193180 .129847 .103668 .372467 .198665 .130880 .105402 .355839 .201821 .131470 .106666 .341745 .203441 .131719 .107560 .329540 .204016 .131700 .108158 .318790 .203861 .131470 .108517 .309190 .203186 .131071 .108681 .300520 .202137 .130537 .108683 .292617 .200817 .129895 .108551 .285355 .199298 .129165 .108309 .278639 .197636 .128365 .107975 .272392 .195871 .127509 .107564 .266551 .194033 .126608 .107088 .261068 .192146 .125671 .106558 .255901 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:

(26)

108

Gambar 6.6. Iterasi pada Regresi Ridge

f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,…)

MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA';

SUBC> Coefficients c41-c44;

SUBC> Scores c51-c54.

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.8278 0.7163 0.4141 0.0419 Proportion 0.707 0.179 0.104 0.010 Cumulative 0.707 0.886 0.990 1.000 Variable PC1 PC2 PC3 PC4 GDP_CAP -0.435 0.655 -0.616 0.049 URBAN -0.414 -0.755 -0.506 0.046 LIT_MALE -0.560 0.028 0.478 0.676 LIT_FEMA -0.571 0.022 0.368 -0.734

2. Meregresikan y dengan w

Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1

MTB > regr 'lifeexpf' 1 'w1'

The regression equation is LIFEEXPF = 71.8 - 3.51 w1

Predictor Coef SE Coef T P Constant 71.7619 0.9930 72.26 0.000 w1 -3.5140 0.6051 -5.81 0.000

(27)

109

3. Menyatakan model regresi ke dalam variabel asal

71 8 3 51 1

y= , − , w

(

1 2 3 4

)

71 8 3 51 0 435 0 414 0 560 0 571 y= , − , − . z − . z − . z − . z

1 2 3 4

71 8 1 53 1 45 1 97 2 00 y= , + , z + , z + , z + , z

4 3

2 1

4 3 4

2 3 2 1

1 1.45 1.97 2

53 . 1 8 . 71

x x

x

x s

x x s

x

y= + x − + − + − + −

BAB 6 ANALIS REGRESI 6.2. URAIAN MATERI

( )

( ) (

)

( )

∑ ∑

∑ ∑ ∑

∑ ∑ ∑

( )

∑

∑

∑

∑

∑

∑

∑

∑

( )

( ) ( )

( ) ( )

∑

(

)

(

)

( )

∑

( )

( )

∑

∑

(

) ( (

) )

(

)

( ) (

)

( ) (

) ( )

( ) ( ) ( ) ( )

(

)

( )

(

)

( )

(

)

(

)

( )

∑

(

)

(

)

(

)

(

)

∑

∑

(

)

(

)

∑

( )

(

)

) ₍ ⁽

⁾ ₎