LECTURE NOTES #2
Model Regresi Sederhana I. Pengantar
Analisa regresi merupakan salah satu topik utama ekonometrika. Dengan regresi, kita berupaya mengungkapkan hubungan antar variabel dengan memasukkan unsur kausalitas. Dengan kata lain kita ingin mengetahui jika suatu variabel berubah (misalnya x=tingkat pendidikan) maka apa yang terjadi dengan variabel lainnya (misalnya y=tingkat gaji/upah).
Analisa regresi dalam pengembangannya dapat bersifat sangat kompleks disebabkan karakteristik data, pelanggaran asumsi statistik, non stationarity, dsb. Untuk memperoleh pemahaman yang baik maka pelajaran mengenai analisa regresi akan dimulai dengan model yang paling sederhana. Model ini hanya melibatkan 2 variabel, yakni 1 variabel bebas dan 1 variabel tergantung.
II. Representasi Regresi Sederhana
Dalam analisa regresi sederhana, kita ingin mengetahui perubahan variabel tergantung (disebut y) yang disebabkan oleh berubahnya variabel bebas (disebut x). Dalam representasi model regresi tersebut terdapat tiga aspek yang perlu diperhatikan, yakni
a. Non deterministic relation. Analisa regresi tidak pernah bersifat deterministic. Dengan demikian kita memerlukan suatu perlakuan terhadap variabel-variabel yang tidak dimasukkan kedalam model.
b. Functional form. Bagaimana bentuk fungsional antara variabel y dan x, apakah selalu linier?
c. Ceteris Paribus. Bagaimana kita dapat memasukkan asumsi ceteris paribus (lihat lecture notes 1) kedalam model?
Suatu model regresi sederhana dapat direpresentasikan sbb:
Dimana y adalah variabel tergantung dan x variabel bebas. Sebelum melanjutkan ada baiknya mengetahui terminology lain yang sering digunakan untuk x dan y .
y x
Dependent Variable Independent Variable Explained Variable Explanatory Variable Response Variable Control Variable Predicted Variable Predictor Variable
Regressand Regressor
0 1
Variabel u disebut sebagai error term atau disturbances yang berfungsi untuk menampung seluruh factor yang mempengaruhi y selain x (tidak terbatas pada variabel lain namun mungkin juga kesalahan bentuk fungsional, kesalahan pengukuran, dsb). Variabel u juga sering disebut sebagai variabel tak terobservasi (unobserved).
Parameter β1 disebut slope, dalam analisa ekonometri parameter ini adalah
focus utama. Sedangkan parameter β0 disebut dengan intersep, dalam
kebanyakan analisa ekonometris tidak terlalu menjadi perhatian.
Parameter β1 menunjukkan kuantitas hubungan antara variabel bebas
dengan variabel tergantung dengan mengasumsikan seluruh factor lain (yang tercakup dalam u) adalah konstan. Dalam persamaan 1, β1 adalah
linear dengan demikian perubahan x sebesar ∆x akan berimplikasi pada perubahan y sebesar ∆y.
Sebagai suatu ilustrasi kita dapat menggunakan persamaan 1 untuk mengestimasi hubungan antara gaji dengan pendidikan. Hal ini dirumuskan dalam model sbb:
Katakanlah kita mengukur gaji dalam satuan ribuan rupiah dan didik sebagai jumlah bulan sekolah (termasuk training). Dengan demikian perubahan 1 bulan sekolah akan berimplikasi pada perubahan gaji sebesar
β1 ribuan rupiah.
Analisa regresi seperti yang ditunjukkan persamaan 1 dan 2 adalah sangat sederhana. Beberapa permasalahan yang timbul dari pemodelan seperti ini adalah:
1. Beberapa hubungan ekonomi tidak dapat dideskripsikan secara linier. Sebagai contoh hubungan antara pendidikan dan gaji memiliki sifat increasing return, dengan demikian tambahan 1 unit pendidikan akan bernilai berbeda dengan 1 unit sebelumnya.
2. Permasalahan dalam implementasi ceteris paribus. Bagaimana kita akan menerapkan ceteris paribus (dampak perubahan variabel tergantung akibat berubahnya satu variabel bebas dengan asumsi variabel lain adalah konstan) sementara tidak ada satupun variabel lain ada dalam model.
3. Persamaan 1 dan 2 diestimasi dari data, dengan demikian perlu diperhatikan asumsi statistik yang mendasari prosedur pengambilan kesimpulan induktif semacam ini. Tiga asumsi yang terpenting diantaranya
0 1
Persamaan 3 menyatakan bahwa, rata-rata dari residual adalah nol. Asumsi ini tercapai khususnya jika kita mengasumsikan bahwa parameter intersep adalah bukan nol.
Persamaan 4 menyatakan bahwa tidak ada dampak (korelasi) dari variabel bebas terhadap residual. Sebagai suatu ilustrasi, pada persamaan 2 jika kita mengasumsikan bahwa u mencakup variabel yang disebut skill, maka persamaan 4 berimplikasi bahwa skill tidak berubah dengan bertambahnya pendidikan. Persamaan 4 sering disebut sebagai zero conditional mean assumption.
Terpenuhinya persamaan 3 dan 4 memungkinkan kita untuk menggunakanpersamaan 5 didalam mengintrepretasikan persamaan 1. Dengan kata lain rata-rata y pada x yang tertentu dapat diberikan sebagai E(y| x). Persamaan 5 ini disebut sebagai population regression function
(PRF). Secara grafik hal ini digambarkan pada grafik 1.
Grafik 1. Population Regression Function Sumber: Wooldridge (2005) hal 26.
0 1
( )
0
(
)
( )
0
(
)
E u
E u x
E u
E y x
β
β
x
=
=
=
=
+
………3) ………4) ………5)III. Penurunan Estimator Ordinary Least Squares
Seperti yang telah diuraikan didepan kita mengestimasi population regression function/PRF (persamaan 5) dari suatu sampel. Hasil dari estimasi ini disebut dengan sample regression function/SRF yang berbentuk persamaan 1. Error term diperlukan mengingat hasil yang diperoleh dari sampel ini hanya merupakan suatu dugaan yang diharapkan berlaku atas dasar asumsi/prinsip statistik tertentu. Dengan kata lain selalu terdapat kemungkinan kesalahan atas dugaan populasi karena menggunakan data dari sample. Prinsip ini adalah umum digunakan dalam statistik induktif.
Terdapat beberapa metoda untuk mengestimasi parameter β0 dan β1
misalnya ordinary least squares, maximum likelihood dan methods of moments. Dalam diktat ini akan diilustrasikan suatu metoda yang paling sederhana dan paling banyak digunakan yakni ordinary least squares
(OLS).
Intuisi penggunaan metoda OLS dapat diberikan dengan mempelajari grafik 2. Penggunaan OLS dalam mengestimasi parameter SRF adalah berupaya meminimumkan kuadrat residual. Jika kita memiliki data variabel y dan x sebanyak n, maka parameter β0 dan β1 , dapat diperoleh dengan
menyelesaikan masalah berikut:
Grafik 2. Prinsip OLS
Sumber: Wooldridge (2005), hal 31
0 1 2 2 0 1 ; 1 1
(
)
n n i i iMin
u
y
x
β β = =β
β
⎛
=
−
−
⎞
⎜
⎟
⎝
⎠
∑
∑
………6)jumlah kuadrat residualnya adalah yang paling kecil. Dengan menggunakan teknik kalkulus dan penerapan aturan penjumlahan dapat ditunjukkan bahwa parameter β0 dan β1 adalah (lihat appendiks 1 untuk derivasi):
Parameter yang diperoleh dari persamaan 7 dan 8 disebut dengan estimator OLS. Dari estimator ini kita dapat memperoleh fitted value dari y ketika x = xi, yang diberikan sebagai
Ini adalah nilai prediksi dari y jika kita mengetahui nilai x adalah tertentu. Selanjutnya residual dari observasi ke i dapat dihitung dengan cara
Contoh 1.
Sebagai suatu ilustrasi cara kerja prinsip OLS berikut disajikan suatu contoh yang diberikan oleh Wooldridge (2005). File CEOSAL1.RAW berisi data gaji CEO dan berbagai variabel lainnya (misalnya ROE, Sales, dummy kategori perusahaan, dsb) dengan jumlah observasi sebanyak 209. Disini kita akan mencoba melihat regresi antara gaji CEO (diukur dalam satuan ribu USD) terhadap Return On Equity (diukur dalam poin persentase). Dengan menggunakan software EVIEWS ver. 5.10 dan menjalankan perintah: ls salary c roe pada command window maka diperoleh output sbb:
_ _ ^ 1 1 _ 2 1 _ _ ^ 0 1
(
)(
)
( , )
( )
(
)
n i i i n i ix
x y
y
Cov x y
Var x
x
x
y
x
β
β
β
= =−
−
=
=
−
= −
∑
∑
………7) ………8) ^ ^ ^ 0 1 i iy
=
β
+
β
x
………9) ^ ^ ^ ^ 0 1 i i i i iu
= −
y
y
= −
y
β
−
β
x
………10)Dependent Variable: SALARY Method: Least Squares Date: 05/06/08 Time: 07:54 Sample: 1 209
Included observations: 209
Variable Coefficient Std. Error t-Statistic Prob. C 963.1913 213.2403 4.516930 0.0000 ROE 18.50119 11.12325 1.663290 0.0978 R-squared 0.013189 Mean dependent var 1281.120 Adjusted R-squared 0.008421 S.D. dependent var 1372.345 S.E. of regression 1366.555 Akaike info criterion 17.28750 Sum squared resid 3.87E+08 Schwarz criterion 17.31948 Log likelihood -1804.543 F-statistic 2.766532 Durbin-Watson stat 2.104990 Prob(F-statistic) 0.097768
Tabel1. Output Regresi Salary Terhadap ROE
Dari kolom dengan header: coefficient, kita dapat menuliskan SRF bagi regresi ini sebagai (dengan pembulatan)
Beberapa intrepretasi yang dapat dilakukan terkait dengan persamaan 11 adalah:
a. Jika ROE=0, maka prediksi dari gaji CEO adalah 963,191 ribu USD. b. Jika ROE naik 1 persen maka gaji CEO akan naik sebesar 18,501 ribu
USD (dan sebaliknya jika turun). Karena kita mengestimasi bentuk linier maka perubahan ini tidak dipengaruhi oleh posisi awal gaji CEO.
c. Jika ROE=30% maka gaji CEO adalah 963,191 + 18,501(30) = 1518,221 (ribu USD).
Secara grafis regresi yang diperoleh dapat digambarkan sbb:
^
963,191 18, 501
Grafik 3. SRF dan PRF regresi Gaji CEO terhadap ROE Sumber: Wooldridge (2005), hal 33.
Perlu diperhatikan bahwa regresi yang diperoleh diatas (persamaan 11) adalah estimasi dari PRF. Kita tidak akan pernah tahu PRF yang sebenarnya (kecuali kita bekerja pada data populasi, yang hampir tidak pernah ditemui pada kenyataan). Data sampel yang lain akan memberikan SRF yang berbeda, yang mungkin lebih dekat (atau mungkin juga tidak) dengan PRF.
IV. Karakteristik OLS
Terdapat beberapa karakter yang berguna dari estimator OLS, diantaranya: 1. Jumlah (dan dengan demikian rata-rata) dari residual adalah nol, atau
Karakteristik ini adalah implikasi otomatis dari OLS. 2. Kovariansi dari regresor dan residual adalah nol.
3. Titik rata-rata ( ) selalu berada pada garis regresi, dengan kata lain x y− −,
^ 1
0
n i iu
==
∑
^ 10
n i i ix u
==
∑
………12) ………13) _ ^ ^ _ 0 1 iy
=
β
+
β
x
………14)………17) Selanjutnya kita dapat memandang OLS sebagai mendekomposisi yi
kedalam 2 bagian, yakni fitted value dan suatu residual. Fitted value dan residual tidak memiliki korelasi pada sampel. Untuk melihat hal ini dapat merujuk pada terminology sebagai berikut:
SST adalah ukuran variasi sample yi (menunjukkan seberapa besar dispersi
sample yi disekitar rata-ratanya). SSE menunjukkan variasi sample pada
dan SSR mengukur variasi dari .
Dapat ditunjukkan disini bahwa total variasi pada y adalah sama dengan jumlah SSE dan SSR, atau
Pembuktian terhadap pernyataan ini dapat dilihat pada appendiks.
Selanjutnya dengan membagi persamaan 19 dengan SST kita dapat memperoleh
Kita dapat mendefinisikan R2, koefisien determinasi (R2) sebagai
Seperti yang dapat dilihat pada persamaan 21, koefisien determinasi menunjukkan proporsi variasi variabel tergantung (y) yang dapat dijelaskan oleh variasi variabel bebas (x). Nilai R2 selalu terletak antara 0 dan 1 karena
SSE dan SSR tidak mungkin melebihi nilai SST. R2 adalah suatu ukuran
_ 2 1 _ ^ 2 1 ^ 2 2 1 1
Sum Square Total (SST) =
(
)
Sum Square Explained (SSE) =
(
)
Sum Square Residual (SSR) =
(
)
n i i n i i n n i i i i i
y
y
y
y
y
y
u
= = = =−
−
⎛
⎞
−
⎜
=
⎟
⎝
⎠
∑
∑
∑
∑
^ i y ˆi uSST
=
SSE
+
SSR
………15) ………16) ………19)1
SSE
SSR
SST
SST
=
+
21
SSE
SSR
R
SST
SST
=
= −
………20) ………21)Kembali pada contoh regresi gaji CEO dan ROE diatas (tabel 1), dapat dilihat disini bahwa nilai R2 adalah 0.0131. Dengan kata lain variasi pada
variabel ROE menjelaskan 1.31% variasi pada gaji CEO.
Perlu dicatat disini bahwa meskipun R2 adalah suatu ukuran kesuaian
model, ia bukan satu-satunya ukuran. Penekanan yang berlebih pada koefisien ini dapat memberikan hasil yang misleading. Pada contoh diatas nilai R2 adalah sangat rendah namun tidak menutup kemungkinan bahwa
model yang diperoleh adalah mencerminkan populasi. Pada penelitian ilmu sosial, nilai R2 yang rendah pada suatu model adalah bukan fenonema yang
jarang (Wooldridge, 2005, hal 40).