Efek Variabel yang Tidak Relevan pada Ketidakberpihakan dalam Regresi

(1)

78 BAGIAN 1Analisis Regresi dengan Data Cross-Sectional

berkorelasi denganX¹atauX²; yang penting adalah, sekaliX¹DanX²dikendalikan untuk,X³tidak berpengaruh pada kamu. Dalam hal ekspektasi bersyarat, E1kamu0X¹,X²,X³25E1kamu0X¹,X²25b01b1X¹1b2X².

Karena kita tidak mengetahui hal ituB350, kita cenderung memperkirakan persamaannya termasukX³:

ŷ5 b̂

⁰

1 b̂

1

X

¹

1 b̂

2

X

²

1 b̂

3

X

³

.

[3.39]

Kami telah memasukkan variabel yang tidak relevan,X

³

, dalam regresi kami. Apa efek dari penyertaanX

³

di (3.39) ketika koefisiennya dalam model populasi (3.38) adalah nol? Dalam hal ketidakberpihakan b̂

¹ dan b̂2, adatidak berpengaruh. Kesimpulan ini tidak memerlukan penurunan khusus, karena langsung mengikuti Teorema 3.1. Ingat, ketidakberpihakan berarti E1 b̂J25bJuntuksetiapnilai dariBJ, termasukBJ50. Jadi, kita dapat menyimpulkan bahwa E1 b̂025b0, E1 b̂125b1, E1 b̂225b2, E1 b̂3250 (untuk nilai apa punB0,B1, DanB2). Meskipun b̂3

dirinya sendiri tidak akan pernah benar-benar nol, nilai rata-ratanya di seluruh sampel acak akan menjadi nol.

Kesimpulan dari contoh sebelumnya jauh lebih umum: memasukkan satu atau lebih variabel yang tidak relevan ke dalam model regresi berganda, atau menentukan model secara berlebihan, tidak mempengaruhi ketidakbiasan penduga OLS. Apakah ini berarti memasukkan variabel yang tidak relevan tidak berbahaya? Tidak. Seperti yang akan kita lihat di Bagian 3-4, memasukkan variabel yang tidak relevan dapat menimbulkan dampak yang tidak diinginkanvariansdari penduga OLS.

3-3bBias Variabel yang Dihilangkan: Kasus Sederhana

Sekarang anggaplah, daripada memasukkan variabel yang tidak relevan, kita menghilangkan variabel yang sebenarnya termasuk dalam model (atau populasi) yang sebenarnya. Hal ini sering disebut dengan masalahmengecualikan variabel yang relevanataumeremehkan model. Kami menyatakan di Bab 2 dan awal bab ini bahwa masalah ini umumnya menyebabkan penduga OLS menjadi bias. Inilah saatnya untuk menunjukkan hal ini secara eksplisit dan, yang sama pentingnya, mengetahui arah dan ukuran biasnya.

Mendapatkan bias yang disebabkan oleh penghilangan variabel penting adalah contohnyaanalisis kesalahan spesifikasi. Kita mulai dengan kasus di mana model populasi sebenarnya memiliki dua variabel penjelas dan sebuah istilah kesalahan:

kamu 5b

0

1b

1

X

1

1b

2

X

2

1 kamu ,

[3.40]

dan kami berasumsi bahwa model ini memenuhi Asumsi MLR.1 hingga MLR.4.

Misalkan minat utama kita adalah padaB1, efek parsial dariX¹padakamu. Misalnya,kamuadalah upah per jam (atau log upah per jam),X¹adalah pendidikan, danX²adalah ukuran kemampuan bawaan. Untuk mendapatkan penduga yang tidak biasB1, Kamisebaiknyamenjalankan regresikamupadaX¹DanX²(yang memberikan penduga yang tidak biasB0,B1, DanB2).

Namun, karena ketidaktahuan kami atau tidak tersedianya data, kami memperkirakan model tersebut dengan tidak termasuk x². Dengan kata lain, kami melakukan regresi sederhanakamupadaX¹saja, mendapatkan persamaannya

|

_kamu_5b

|1b |

0 1

X

¹

.

[3.41]

Kami menggunakan simbol “|” daripada “ ” untuk menekankan hal ituB

|

₁berasal dari model yang tidak ditentukan.

Saat pertama kali mempelajari masalah variabel yang dihilangkan, mungkin sulit untuk membedakan antara model sebenarnya yang mendasarinya, (3.40) dalam kasus ini, dan model yang sebenarnya kita perkirakan, yang ditangkap oleh regresi di (3.41). Mungkin tampak konyol untuk menghilangkan variabel tersebutX²jika itu termasuk dalam model, namun seringkali kita tidak punya pilihan. Misalnya sajagajiditentukan oleh

gaji5b

⁰

1b

¹

mendidik1b

²

mampu1kamu.

Karena kemampuan tidak diamati, kami malah mengestimasi modelnya

gaji5b

⁰

1b

1

mendidik1ay,

[3.42]

Di manaay5b²mampu1kamu. Penaksir dariB¹dari regresi sederhanagajipadamendidikadalah apa yang kita

sedang meneleponB

|

1

.

Hak Cipta 2016 Pembelajaran Cengage. Semua Hak Dilindungi Undang-undang. Tidak boleh disalin, dipindai, atau diduplikasi, seluruhnya atau sebagian. Karena hak elektronik, beberapa konten pihak ketiga mungkin disembunyikan dari eBook dan/atau eChapter. Tinjauan editorial menganggap bahwa konten yang disembunyikan tidak berdampak signifikan terhadap pengalaman belajar secara keseluruhan. Cengage Learning berhak menghapus konten tambahan kapan saja jika pembatasan hak berikutnya mengharuskannya.

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.com

(2)

BAB 3Analisis Regresi Berganda: Estimasi 79

Kami memperoleh nilai yang diharapkan dariB

|

₁

tergantung pada nilai sampel dariX

¹

DanX

²

. Mendapatkan ini harapannya tidak sulit karenaB |

₁

hanyalah penduga kemiringan OLS dari regresi sederhana, dan

kita telah mempelajari estimator ini secara ekstensif di Bab 2. Perbedaannya di sini adalah kita harus menganalisis propertinya ketika model regresi sederhana salah ditentukan karena adanya variabel yang dihilangkan.

Ternyata, kami telah melakukan hampir semua upaya untuk mendapatkan bias dalam regresi sederhana

penduga dariB | .Dari persamaan (3.23) kita memiliki hubungan aljabarB

1 ¹

|5 b̂

1

1 b̂ |

²D1, dimana b̂1

dan b̂

2

adalah penduga kemiringan (jika kita dapat memilikinya) dari regresi berganda

kamu^SayapadaX^Saya1,X^Saya2,Saya51,P,N

D1adalah kemiringan dari regresi sederhana

X^Saya2padaX^Saya1,Saya51,P,N.

[3.43]

dan |

[3.44]

Karena |

dom) saat menghitung E(B

1

MLR.4, kita tahu bahwa b̂1dan b̂2akan menjadi tidak memihakB1DanB2, masing-masing. Karena itu, D1hanya bergantung pada variabel independen dalam sampel, kami memperlakukannya sebagai variabel tetap (nonran-

| ).Selanjutnya, karena model pada (3.40) memenuhi Asumsi MLR.1 hingga

E1B |25E1 b̂

1 1

1 b̂ |

2

D

1

25E1 b̂

1

21E1 b̂

2

2 | D

1

[3.45]

5b

1

1b |

2

D

1

,

yang menyiratkan bias dalamB

|

1adalah

Bias1B |25E1B

1

|

₁

22b

₁

5b

₂

D

₁

. |

_[3.46]

Sebab bias dalam hal ini muncul karena dihilangkannya variabel penjelas X

²

, suku di ruas kanan persamaan (3.46) sering disebutmenghilangkan bias variabel.

Dari persamaan (3.46), kita melihat ada dua kasus dimanaB |

₁tidak memihak. Yang pertama cantik

jelas: jikaB

²

50—jadi itu X

²

tidak muncul dalam model sebenarnya (3.40)—laluB |

₁tidak memihak. Kami

sudah mengetahui hal ini dari analisis regresi sederhana di Bab 2. Kasus kedua lebih menarik.

ing. Jika |

D

1

50, laluB |

₁tidak memihak untukB1, meskipunB220.

Karena |D

1

adalah kovarians sampel antaraX

1

DanX

2

atas varians sampelX|

1

,D

1

50

jika, dan hanya jika,X¹DanX²tidak berkorelasi dalam sampel. Jadi, kami memiliki kesimpulan penting bahwa, jikaX₁

DanX

₂

tidak berkorelasi dalam sampelB

1

tidak memihak. Hal ini tidak mengherankan: di Bagian 3-2, |

kami menunjukkan bahwa estimator regresi sederhanaB

|dan penduga regresi bergandaB

1

|

₁

adalah

sama kapanX¹DanX²tidak berkorelasi dalam sampel. [Kami juga bisa menunjukkannyaB

|

₁

tidak memihak tanpa

pengkondisian padaXSaya2jika E1X20X125E1X22 ;kemudian, untuk memperkirakanB1, meninggalkanX2dalam istilah kesalahan tidak melanggar asumsi rata-rata bersyarat nol untuk kesalahan tersebut, setelah kita menyesuaikan intersepnya.]

KapanX

1

DanX

2

berkorelasi, |

D1mempunyai tanda yang sama dengan korelasi antarX¹DanX²: |

D

1

. 0 jikaX

1

DanX

2

berkorelasi positif dan | D

1

, 0 jikaX

_& 1

DanX

2

berkorelasi negatif. Tanda dari bias diB |

₁tergantung pada tanda-tanda keduanyaB2DanD1dan dirangkum dalam Tabel 3.2 untuk empat kemungkinan

kasus ketika ada bias. Tabel 3.2 memerlukan kajian yang cermat. Misalnya, bias dalamB |

₁

positif jika B

²

. 0 ( X

²

memberikan efek positif pada kamu ) Dan X

¹

Dan X

²

berkorelasi positif, biasnya negatif jika B

²

. 0 dan X

¹

Dan X

²

berkorelasi negatif, dan seterusnya.

Tabel 3.2 merangkum arah bias, namun besarnya bias juga sangat penting. Bias kecil pada salah satu tanda tidak perlu menjadi perhatian. Misalnya, jika tingkat pengembalian terhadap pendidikan dalam populasi adalah 8,6% dan bias dalam penduga OLS adalah 0,1% (sepersepuluh poin persentase), maka

&

TABEL 3.2Ringkasan Bias diB1Kapan

X

2Dihilangkan di Persamaan Estimasi (3.40)

Kor1 X

¹

, X

²

2.0 Kor1 X

¹

, X

²

2 ,0

B

²

. 0 Bias positif Bias negatif

B

2

, 0 Bias negatif Bias positif

(3)

80 BAGIAN 1Analisis Regresi dengan Data Cross-Sectional

kami tidak akan terlalu khawatir. Di sisi lain, biasnya sekitar tiga poin persentase akan jauh lebih serius. Besar kecilnya bias ditentukan oleh besar kecilnyaB

2

dan | D

1

.

Dalam praktiknya, sejak ituB2adalah parameter populasi yang tidak diketahui, kita tidak dapat memastikannya B2adalah positif atau negatif. Namun demikian, kita biasanya mempunyai gagasan yang cukup bagus tentang arah efek parsialX²padakamu. Lebih jauh lagi, meskipun ada tanda korelasi antaraX¹DanX²tidak dapat diketahui jikaX² tidak diamati, dalam banyak kasus, kita dapat menebak apakah hal tersebut benar atau tidakX¹DanX²berkorelasi positif atau negatif.

Dalam persamaan upah (3.42), menurut definisi, kemampuan yang lebih tinggi akan menghasilkan produktivitas yang lebih tinggi dan karenanya upah yang lebih tinggi:B2. 0. Juga, ada alasan untuk mempercayai hal itumendidikDanmampu berkorelasi positif: rata-rata, individu dengan kemampuan bawaan lebih memilih tingkat pendidikan yang lebih tinggi. Jadi, OLS memperkirakan dari persamaan regresi sederhanagaji5b⁰1b1mendidik1ayadalahrata-rataterlalu besar. Hal ini tidak berarti perkiraan yang diperoleh dari sampel kami terlalu besar. Kita hanya dapat mengatakan bahwa jika kita mengumpulkan banyak sampel acak dan memperoleh estimasi regresi sederhana setiap saat, maka rata-rata estimasi tersebut akan lebih besar dariB1.

CONTOH 3.6 Persamaan Upah Per Jam

Misalkan log model1gaji25b

0

1b

1

mendidik1b

2

mampu1kamumemenuhi Asumsi MLR.1 sampai MLR.4.

Kumpulan data di WAGE1 tidak memuat data kemampuan, jadi kami memperkirakanB

1

dari regresi sederhana

mencatat1gaji25.5841 .083mendidik

N5526,R

²

5.186.

^[3.47]

Ini adalah hasil dari satu sampel saja, jadi kita tidak bisa mengatakan bahwa 0,083 lebih besar dariB1; tingkat pengembalian pendidikan yang sebenarnya bisa lebih rendah atau lebih tinggi dari 8,3% (dan kita tidak akan pernah tahu secara pasti).

Namun demikian, kita tahu bahwa rata-rata estimasi seluruh sampel acak akan terlalu besar.

Contoh kedua, misalkan pada tingkat sekolah dasar, nilai rata-rata siswa pada ujian standar ditentukan oleh

skor rata-rata5b01b1mengeluarkan1b2povrate1kamu, [3.48]

Di manamengeluarkanadalah pengeluaran siswa danpovrateadalah tingkat kemiskinan anak-anak di sekolah. Dengan menggunakan data distrik sekolah, kami hanya melakukan observasi terhadap persentase siswa yang memiliki nilai kelulusan dan pengeluaran per siswa; kami tidak memiliki informasi mengenai tingkat kemiskinan. Jadi, kami memperkirakan B1dari regresi sederhanaskor rata-ratapadamengeluarkan.

Kita dapat kembali memperoleh kemungkinan biasB

|

₁

. Pertama,B

²

mungkin negatif: ada banyak bukti

bahwa anak-anak yang hidup dalam kemiskinan mendapat nilai rata-rata lebih rendah pada tes standar. Kedua, rata-rata pengeluaran per siswa mungkin berkorelasi negatif dengan tingkat kemiskinan: Semakin tinggi tingkat kemiskinan, semakin tinggi tingkat kemiskinan.

tingkat erty, semakin rendah rata-rata pengeluaran per siswa, sehingga Corr1X¹,X²2 ,0. Dari Tabel 3.2,B

|

₁_akan

mempunyai bias positif. Pengamatan ini mempunyai implikasi penting. Bisa jadi dampak belanja sebenarnya adalah nol; yaitu,B150. Namun, estimasi regresi sederhana sebesarB1biasanya akan lebih besar dari nol, dan hal ini dapat membawa kita pada kesimpulan bahwa pengeluaran itu penting, padahal sebenarnya tidak.

Saat membaca dan melakukan pekerjaan empiris di bidang ekonomi, penting untuk menguasai terminologi yang terkait dengan penduga yang bias. Dalam konteks menghilangkan variabel dari model (3.40), if

E1B

|2.B11, lalu kami mengatakan ituB1

|memilikibias ke atas. Ketika E1B |

₁

2 ,B

₁

, |B

₁

memilikibias ke bawah.

Definisi-definisi ini sama apakahB

¹

adalah positif atau negatif. Ungkapanbias menuju nol

mengacu pada kasus di mana E1B1|2mendekati nol dibandingkan sekarangB1. Oleh karena itu, jikaB1kalau begitu, itu positifB

|

₁

bias menuju nol jika memiliki bias ke bawah. Di sisi lain, jikaB

¹

, 0, laluB |

₁

bias menuju nol jika itu

memiliki bias ke atas.

(4)

BAB 3Analisis Regresi Berganda: Estimasi 81

3-3cBias Variabel yang Dihilangkan: Kasus yang Lebih Umum

Mendapatkan tanda bias variabel yang dihilangkan ketika terdapat banyak regresi dalam model estimasi adalah hal yang lebih sulit. Kita harus ingat bahwa korelasi antara satu variabel penjelas dan kesalahan umumnya menghasilkansemuaPenduga OLS menjadi bias. Misalnya saja model populasi

kamu 5b

0

1b

1

X

1

1b

2

X

2

1b

3

X

3

1 kamu

[3.49]

memenuhi Asumsi MLR.1 sampai MLR.4. Tapi kami menghilangkanX3dan memperkirakan modelnya sebagai

|

_kamu_5b

|1b

0 1

|X

¹

1b |

₂

X

²

.

[3.50]

Sekarang, anggaplah ituX²DanX³tidak berkorelasi, tapi ituX¹berkorelasi denganX³. Dengan kata lain,X¹adalah berkorelasi dengan variabel yang dihilangkan, tapiX2tidak. Sangat menggoda untuk memikirkan hal itu, sementara ituB

|

₁

mungkin bias berdasarkan derivasi pada subbab sebelumnya,B |

₂

tidak memihak karenaX

²

tidak berkorelasi

denganX3. Sayangnya, ini adalahbukanumumnya terjadi: keduanyaB1

|DanB |

₂biasanya akan menjadi bias. Satu-satunya pengecualian untuk ini adalah ketikaX1DanX2juga tidak berkorelasi.

Bahkan dalam model yang cukup sederhana di atas, sulit untuk mendapatkan arah biasB |

₁

Dan B

2

seringkali berguna secara praktis. Jika kita berasumsi demikianX1DanX2tidak berkorelasi, maka kita dapat mempelajari biasnyaB1

| .hal ini dikarenakanX1,X2, DanX3semuanya dapat dikorelasikan secara berpasangan. Namun demikian, ada perkiraan

|

seolah olah X

²

tidak ada dalam populasi dan model estimasi. Faktanya, kapan X

¹

Dan X

²

tidak berkorelasi, dapat ditunjukkan bahwa

N

A

1X

Saya1

2X

1

2X

E1B |25b

¹ ¹

1b

³ ^Saya51N ^Saya3

.

A

1 X

Saya1

2 X

¹

2

Saya51

Ini seperti persamaan (3.45), tapiB3menggantikanB2, DanX³menggantikanX²dalam regresi (3.44). Karena itu,

bias diB |

₁

diperoleh dengan menggantiB

2

denganB

3

DanX

²

denganX

³

pada Tabel 3.2. JikaB

3

. 0 dan Kor1X

1

,X

3

2.0, bias masukB |

₁positif, dan seterusnya.

Sebagai contoh, misalkan kita menambahkanahlike model upah:

gaji 5b

⁰

1b

¹

mendidik 1b

²

ahli 1b

³

mampu 1 kamu .

Jikamampudihilangkan dari model, penduga keduanyaB¹DanB2bias, meskipun kita berasumsiahli tidak berkorelasi denganmampu. Kami sebagian besar tertarik untuk kembali ke dunia pendidikan, jadi alangkah baiknya jika kita bisa menyimpulkan ituB

|

₁memiliki bias ke atas atau ke bawah karena kemampuan yang dihilangkan. Kesimpulan ini tidak mungkin terjadi tanpa asumsi lebih lanjut. Sebagaiperkiraan, anggap saja, sebagai tambahan ahliDanmampumenjadi tidak berkorelasi,mendidikDanahlijuga tidak berkorelasi. (Pada kenyataannya, mereka adalah beberapa-

apa yang berkorelasi negatif.) SejakB

³

. 0 dan mendidik Dan mampu berkorelasi positif,B |

₁akan memilikinya

bias ke atas, seolah-olah ahli tidak ada dalam model.

Alasan yang digunakan dalam contoh sebelumnya sering kali diikuti sebagai panduan kasar untuk mendapatkan kemungkinan bias pada penduga dalam model yang lebih rumit. Biasanya, fokusnya adalah pada hubungan antara variabel penjelas tertentu, misalnya,X1, dan faktor kunci yang dihilangkan. Sebenarnya, mengabaikan semua variabel penjelas lainnya adalah praktik yang valid hanya jika masing-masing variabel tidak berkorelasiX1, tapi ini tetap merupakan panduan yang berguna. Lampiran 3A berisi analisis yang lebih cermat terhadap bias variabel yang dihilangkan dengan beberapa variabel penjelas.

3-4Varians Penaksir OLS

Sekarang kita memperoleh varians dari penduga OLS sehingga selain mengetahui kecenderungan sentral dari b̂J, kami juga memiliki ukuran penyebaran dalam distribusi pengambilan sampelnya. Sebelum menemukan variansnya, kami

menambahkan asumsi homoskedastisitas, seperti pada Bab 2. Kami melakukan ini karena dua alasan.