BAB 2 LANDASAN TEORI

(1)

BAB 2

LANDASAN TEORI

2.1 Regresi

2.1.1 Pengertian Persamaan Regresi

Menurut Sir Francis Galton (1822-1911), persamaan regresi adalah persamaan matematik yang memungkinkan kita meramalkan nilai-nilai atau variabel-variabel suatu peubah tak bebas dari nilai-nilai satu atau lebih peubah bebas (Walpole,1995,p340 ). Nilai peubah tak bebas dinyatakan dengan konotasi y dan nilai peubah bebas dengan konotasi x.

Kuat atau tidaknya hubungan variabel independen (X) dan variabel dependen (Y) diukur dengan suatu nilai yang disebut dengan koefisien korelasi, sedangkan besarnya pengaruh X terhadap Y, diukur dengan koefisien regresi.

Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada didalamnya (Supranto,2001, p178).

Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan tersebut.

Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data dengan tepat, maka dimasukkanlah error

ε

ke dalam persamaan regresi tersebut.

Karena error itu tidak dapat dihilangkan sama sekali, maka resiko itu akan selalu ada. Resiko hanya bisa diperkecil dengan memperkecil kesalahan (minimized error).

(2)

2.1.2 Pengertian Regresi Linear dan Regresi Non Linear

Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang bersyarat. Regresi dikatakan linear apabila hubungan antara peubah bebas dan peubah tak bebas adalah linear, sedangkan apabila hubungan antara peubah bebas dan peubah tak bebas tidak linear, maka regresi dikatakan regresi non linear. Hubungan antara peubah bebas dan peubah tak bebas dapat dikatakan linear apabila diagram pencar data dari peubah-peubah tersebut mendekati pola garis lurus.

2.1.3 Regresi Linear Sederhana

2.1.3.1 Pengertian Regresi Linear Sederhana

Regresi Linear Sederhana adalah suatu persamaan regresi di mana peubah bebasnya berbentuk skalar dan apabila diagram pencar data dari peubah-peubah tersebut mendekati pola garis lurus.

2.1.3.2 Persamaan Regresi Linear Sederhana

Model Regresi Linear Sederhana dapat dinyatakan dalam persamaan :

(2.1) Keterangan :

Yi : nilai peubah tak bebas pada percobaan ke-i

β0, β1 : koefisien regresi

Xi : nilai peubah bebas pada percobaan ke - i

єi : error dengan mean E{єi}=0 dan varians σ2{єi}= σ2

, єi &єj tidak berkorelasi.

i i

i X

(3)

i : 1,…,n

2.1.3.3 Pendugaan Koefisien Regresi Linear Sederhana

Metode Kuadrat Terkecil Biasa adalah suatu metode untuk menghitung koefisien regresi sampel (b0 & b1) sebagai penduga koefisien regresi populasi (β0 & β1), sedemikian rupa sehingga jumlah kesalahan kuadrat memiliki nilai terkecil.

Dengan bahasa matematik, dapat dinyatakan sebagai berikut : Model sebenarnya adalah

Yi = β0 + β1Xi + εi Model estimasi adalah

Ŷi = b0 + b1Xi Kesalahan error i adalah

ei = Yi – (b0 + b1Xi) Jumlah kesalahan kuadrat adalah

∑ei2= ∑ [Yi – ( b0+ b1Xi)] 2

Jadi metode kuadrat terkecil adalah metode menghitung b0 dan b1 sedemikian rupa

sehingga ∑ei2 minimum. Caranya adalah dengan membuat turunan parsial

∑ei2 mula-mula terhadap b0 kemudian terhadap b1 dan menyamakannya dengan nol, sehingga kita dapat memperoleh rumus :

(2.2.) (2.3) x b y b₀ = − ₁

∑

∑ ∑

− − = ₂ ₂ 1 ) ( Xi Xi n Yi Xi XiYi n b

(4)

Fungsi linear persamaan regresi apabila digambarkan akan tampak seperti gambar 2.1.3.3

Gambar 2.1.3.3 Fungsi Yi = b0 + b1Xi

b0 dan b1 adalah konstanta yang harus diestimasi, εi adalah error yang harus diminimalkan.

2.1.4 Regresi Linear Berganda

2.1.4.1.Pengertian Regresi Linear Berganda

Regresi Linear Berganda adalah regresi yang meramalkan hubungan antara satu variabel peubah tak bebas dengan dua atau lebih variabel peubah bebas, yang akan ditentukan hubungan antara Y dan X1, X2,...Xk.

(5)

2.1.4.2.Persamaan Regresi Linear Berganda

Untuk meramalkan Y, apabila semua nilai peubah bebas diketahui, dipergunakan persamaan regresi linear berganda. Hubungan Y dan X1, X2,... ,Xk yang sebenarnya adalah sebagai berikut :

( untuk populasi )

( untuk sampel )

(2.4) Keterangan :

b0 ,b1, b2, bk : parameter / koefisien yang akan ditaksir

εi : nilai peubah gangguan yang berkaitan dengan pengamatan ke-i

i : 1, 2, 3, ..., n

Apabila dinyatakan dalam bentuk persamaan matriks, sebagai berikut :

Y = X B + ε (2.5) Keterangan : Y, B, ε : vector X : matriks x Y i = B0 + B1X1i + B2X2i + … + BkXki + εi Y i = b0 + b1X1i + b2X2i + … + bkXki + εi

(6)

2.1.4.3 Metode Kuadrat Terkecil Biasa

Ketika model regresi tidak mencapai prediksi dan estimasi yang diharapkan maka hasil yang didapat menjadi bias.

Residu jika terlampau besar dapat secara dominan mempengaruhi prediksi yang dinamakan outlier. Outlier akan mempengaruhi standar error, sehingga selang kepercayaan menjadi melebar, estimasi tidak lagi konsisten.

Beberapa asumsi yang penting adalah sebagai berikut :

1. Nilai harapan setiap error sama dengan nol E(ε i) = 0 untuk semua i.

2. error yang satu tidak berkorelasi terhadap error lainnya E( ε i) = 0 untuk i

≠ j, akan tetapi mempunyai varians yang sama homoskedastisitas untuk semua i.

3. X1, X2,... ,Xk merupakan bilangan riil, tanpa mengandung kesalahan.

Dengan perkataan lain, matriks merupakan himpunan angka-angka konstan(fixed number). y1 y2 . . . y1 . . yn y1 y2 . . . y1 . . yn y1 y2 . . . y1 . . yn Y = B = ε = 1 X11 X21 ... Xk1 1 X12 X22 ... Xk2 . . . . . . . . 1 X1i X2i ... Xki . . . . . . . . . . . . 1 X1n X2n ... Xkn X =

(7)

4. Matriks X mempunyai rank k < n. Banyaknya observasi n harus lebih banyak dari banyaknya peubah, atau lebih banyak dari koefisien regresi parsial yang akan diestimasi.

Ŷ = b0 + b1X1 + b2X2 + … + bkXk (2.6)

Jika asumsi di atas dapat dipenuhi, maka penggunaan metode kuadrat terkecil sederhana akan menghasilkan Best Linear Unbiased Estimator terhadap koefisien B.

Dengan menggunakan metode Kuadrat Terkecil Biasa maka b0 dan b1 merupakan penduga tidak bias dan mempunyai varians minimum diantara semua penduga linear tak bias.

Misalkan b sebagai penduga β :

Y = Xb + e e = Y - Xb

ei = Yi - b1Xi1 - b2Xi2 - ... – bkXik (2.7)

Maka jumlah pangkat dua simpangan yang harus diminimumkan :

∑ ei2 = ∑ ( Yi - b1Xi1 - b2Xi2 - ... - bkXik)2

Estimasi vektor β dengan menggunakan metode kuadrat terkecil, ialah vektor b sedemikian rupa sehingga jumlah kuadrat error adalah

(2.8) Caranya ialah dengan menurunkan penurunan parsial ∑ ei2 terhadap setiap komponen vektor b dan menyamakannya dengan 0.

(8)

(2.9)

Persamaan tersebut dapat disederhanakan menjadi :

(2.10) Apabila dinyatakan di dalam bentuk matriks, persamaan normal di atas akan menjadi :

(2.11) Dengan demikian b sebagai penduga β dapat diperoleh melalui rumus :

(2.12)

untuk menyelesaikan persamaan secara matriks persamaan matriks. δ∑ei2/ δb1 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X1i) = 0 δ∑ei2/ δb2 = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-X2i) = 0 . . . . δ∑ei2/ δbk = 2 ∑ ( Yi - - b1Xi1 - b2Xi2 - ... – bkXik ) (-Xki) = 0 Y X Xb XT ₌ T Y X X X b₌₍ T ₎−1 T nb0 + b1∑X1i + b2∑X1iX2i + ... + bk∑X1iXki = ∑Yi b0 ∑X 1i + b1∑X1i2 + b2∑X1i X2i + … + bk∑X1iXki = ∑X1iYi b0 ∑X2i + b1∑X1i X2i + b2∑X2i2 + … + bk∑X2iXki = ∑X2iYi . . . . b0 ∑Xki + b1∑X1i Xki + b2∑X2i2 Xki + … + bk∑Xki2 = ∑kiYi

(9)

Pada dasarnya, nilai-nilai dari koefisien bj bervariasi, dan varians dari bj dalam bentuk vektor matrik adalah sebagai berikut :

Var (b) = σ²(XTX)-1 (2.13)

arena umumnya σ² tidak diketahui, maka σ² diduga dengan Se², sehingga perkiraan

varians (b) adalah

Var (b) = Sb² = Se²(XTX)-1 (2.14)

dimana Se² merupakan varians dari error yang dinyatakan dengan rumus berikut Se² = eTe = Σ ei²

n-k-1 n-k-1 (2.15)

dimana : n = banyaknya observasi k = banyaknya variabel bebas

2.1.4.4 Standar Error

Kesalahan baku regresi sama dengan simpangan baku (standard deviation) atau standar error dari kesalahan pengganggu, dinyatakan dengan

Se = √ Se² =

(2.16) Jika matriks D = (XTX)-1 , maka varians bj dapat dinyatakan dengan

Sbj² = Se² djj (2.17)

dimana djj = elemen matriks D dari baris j dan kolom j yang terletak pada diagonal utama. Simpangan baku dari bj adalah akar dari Sbj², dinyatakan dengan

Sbj = √S² bj (2.18)

1 Σei2

(10)

2.1.5 Robust Regression

Robust regresi menyediakan analisis alternatif dari metode Kuadrat Terkecil Biasa.

Dalam ruang lingkupnya, regresi robust memiliki ketahanan kuat terhadap outlier yang menjadi keistimewaan dari metode ini. Salah satu alasan yang mungkin mengapa metode regresi robust membutuhkan waktu yang lama untuk untuk diterima adalah adanya beberapa metode bersaing yang salah diawal implementasinya. Selain itu komputasi dalam regresi robust juga lebih rumit dari metode kuadrat terkecil sederhana dimana membutuhkan komputasi yang lebih intensif. Alasan lain dari kurang terkenalnya regresi robust adalah beberapa paket software statistik gagal mengimplementsi metode

ini(Stromberg,2004).

Pada tahun 1973, Huber memperkenalkan estimasi M untuk regresi, M pada estimasi M adalah tipe dari maximum likelihood. Metode ini awalnya diperkirakan tahan terhadap outlier pada variabel response, akan tetapi ternyata tetap rentan terhadap

pengaruh outlier.

Tahun 1980an, Least Median of Square dan Least Trimmed of Square muncul sebagai alternatif dari estimasi M. Tipe-tipe dari regresi robust adalah least median of squares, least trimmed of squares, weighted least squares,dan metode-metode lainnya. Menurut Staudte dan Sheather(1990,p 92), estimasi yang resistant(kuat) adalah sesuatu yang secara relatif tidak terpengaruh oleh perubahan besar pada bagian yang kecil dari data atau perubahan kecil pada bagian yang besar pada data. Jadi jika estimasi mendapat pengaruh kuat dari outlier maka hasil yang didapat tidak akan secara tepat mewakili estimasi. Penggunaan umum dari regresi robust adalah pada data yang terdapat outlier.

(11)

Deteksi outlier mencakup determinasi dimana residu(error = prediksi – hasil aktual) adalah nilai positif atau negatif ekstrim). Outlier dapat benar-benar mengacau pada sample mean akan tetapi memili efek relatif kecil pada sample median.

Tipe dari outlier tidak dapat dengan mudah dibedakan walaupun dengan menggunakan definisi matematis. Menurut Rousseeuw dan Zomeren (1990), Outlier adalah realitas yang empiris, akan tetapi definisi exact adalah lebih sukar dipahami daripada

pendefinisian exact pada kluster.

Tipe-tipe dari outlier diantaranya adalah:

1. Outlier regresi adalah sebuah poin yang menyimpang dari hubungan kelinearan ditentukan dari (n-1) poin yang lainnya, atau paling tidak dari mayoritas dari poin-poin tersebut.

2. Outlier residu adalah sebuah poin yang memiliki standarisasi residu yang besar ketka digunakan dalam perhitungan. Kita dapat membedakan antara outlier

regresui dan outlier residu, sebuah poin dapat menjadi sebuah outlier regresi tanpa menjadi sebuah outlier residu (jika poin tersebut memiliki pengaruh) dan sebuah poin dapat saja sebagai outlier residu tanpa menjadi bukti yang kuat bahwa poin tersebut juga merupakan outlier regresi.

3. Outlier x adalah sebuah poin yang menyimpang hanya pada koordinat x. Sepertinya poin tersebut dapat menyebabkan estimasi regresi robust menjadi kurang baik, akan tetapi estimasi robust yang paling modern tidak terpengaruh dengan adanya outlier x.sebuah outlier x dapat juga adalah outlier regresi atau outlier residu.

(12)

4. outlier y adalah sebuah poin yang menjadi pencilan karena memiliki koordinat y yang ekstrim. Cara dan tingkat dimana outlier tersebut dapat mengakibatkan pengaruh pada estimasi parameter akan tergantung pada koordinat x dan konfigurasi umum dari poin-poin lainnya. Poin tersebut juga mungkin saja merupakan outlier regresi atau outlier residu.

5. outlier x dan y adalah sebuah poin yang menyimpang pada kedua koordinat dan mungkin saja merupakan outlier regresi atau outlier residu, atau outlier tersebut memiliki efek yang kecil atau bahkan tidak memiliki efek apa-apa pada

perhitungan regresi. Faktor tetapnya adalah konfigurasi dari poin-poin lainnya. Dalam tulisan-tulisan mengenai regresi robust, umumnya regresi robust digunakan ketika nilai regresor telah ditetapkan (fixed regresor), fixed regresor adalah kasus spesial dalam regresi robust. Pengembangan historis pada banyak kelas-kelas dalam estimasi regresi robust diikuti oleh Rousseeuw dan Leroy (1987) yang kemudian mengemukakan ide dari meminimalisasi jumlah nilai-nilai absolut dari residu. Walaupun estimasi didapatkan dari penggunaan dari krriteria yang ridak terlalu dipnegaruhi oleh outlier y, tetapi dpat juga dipengaruhi secara kuat oleh outlier x.

Persentase terkecil dari data yang kurang baik yang menyebabkan garis persamaan regresi kurang baik disebut sebagai poin pengganggu (breakdown point). Poin pengganggu (breakdown point) dari estimasi adalah hanya 1/n.

Konsep penting lain dari regresi robust adalah efisiensi, ketika data set mengandung outlier, kita dapat menggunakan efisensi dari estimasi robust ketika Kuadrat Terkecil Biasa hanya hanya dapat diaplikasikan poin-poin data yang baik.

(13)

- dapat membuat estimsi sebaik metode kuadrat terkecil

- untuk menciptakan perhitungan yang lebih baik dari metode kuadrat terkecil ketika hasil dari Kuadrat Terkecil Biasa tidak mewakili dengan baik.

- tidak terlalu sulit untuk dihitung dan dimengerti.

2.1.5.1 Metode Kuadrat Median Terkecil

Least Median of Squares (Rouseseeuw, 1984) adalah adalah salah satu metode estimasi dari keluarga robust regression. Metode ini melakukan perhitungan dengan menghilangkan pengaruh-pengaruh dari residu. Menurut Venables dan Ripley (1999), algoritma ini meminimalkan median(nilai tengah) dari kuadrat residu terurut.

Gambar disebelah kiri adalah sebuah foto jalan secara aerial dari atas (garis hitam tebal).

Pada panel (b), kuadrat terkecil menentukan garis persamaan akan tetapi jalan tersebut tidak tertangkap dengan baik oleh garis putih.

Pada panel (c) juga terdapat garis, akan tetapi bukan menggunakan algoritma OLS, metode pendekatan yang digunakan adalah Kuadrat Median Terkecil.

(14)

Hawkins (1993) menyatakan bahwa, kriteria dari metode Kuadrat Median Terkecil adalah metode analisis standar dari data ketika adanya kemungkinan banyaknya data outlier, dimana estimasi terhadap banyaknya nilai pengganggu tetap dimungkinkan. Minimalisasi dilakukan pada urutan nilai residu kuadrat, dimana h= [n/2]+[(p+1)/2], n adalah ukuran dari sampel, p adalah jumlah dari parameter random.

Garis yang dibentuk oleh metode Kuadrat Median Terkecil tidak akan merespon seperti halnya garis dari metode Kuadrat Terkecil Biasa terhadap outlier. Hal ini dapat

ditunjukkan dari ketahanannya dari poin pengganggu sampai sebesar 50% dari data.

2.1.6 Masalah Regresi Linier Berganda

Di dalam regresi linier berganda dapat terjadi beberapa keadaan yang dapat menyebabkan estimasi koefisien regresi tidak lagi menjadi penduga koefisien tak bias terbaik. Beberapa masalah / kondisi yang dapat terjadi pada regresi linier berganda adalah sebagai berikut :

2.1.6.1 Otokorelasi

Di dalam suatu model regresi, dianggap bahwa kesalahan pengganggu

ε

i ,di mana i = 1,2,3,…,n merupakan variabel acak yang bebas. Dengan kata lain bahwa kesalahan observasi yang berikutnya diperoleh secara bebas terhadap kesalahan sebelumnya. Artinya E(

ε

i

,ε

i+r ) = 0, untuk semua i dan semua r ≠ 0.

Apabila asumsi tersebut tidak berlaku, maka akan terdapat banyak kesukaran di dalam analisis ekonomi. Jika terjadi suatu otokorelasi, maka apabila metode kuadrat

(15)

terkecil diterapkan untuk memperkirakan parameter / koefisien regresi, maka penduga penduga yang dihasilkan bukan lagi penduga tak bias yang terbaik. Selain itu, apabila terjadi otokorelasi di antara kesalahan pengganggu maka pengujian nyata berdasarkan statistik uji t dan F sebetulnya tidak berlaku lagi.

Solusi untuk masalah otokorelasi adalah data asli harus ditransformasikan terlebih dahulu untuk menghilangkan otokorelasi di antara kesalahan pengganggu tersebut. Untuk menguji ada tidaknya otokorelasi dapat menggunakan Statistik d Durbin-Watson (The Durbin-Durbin-Watson d Statistics).

2.1.6.2 Heterokedastisitas

Apabila matriks ragam (variance) kesalahan adalah sebagai berikut :

Dan apabila beberapa elemen pada diagonal utama tidak sama dengan satu (Vii≠1), maka kesalahan pengganggu tersebut disebut heteroskedastis. Dengan kata lain kesalahan pengganggu merupakan variabel bebas, tetapi kesalahan pengganggu tersebut mempunyai varians yang berbeda untuk setiap nilai X yang berbeda, di mana X merupakan variabel bebas.

Cara untuk mengatasi masalah heterokedastisitas adalah mengubah matrik kovarian menjadi matrik yang memenuhi homokedastisitas.

(16)

2.1.6.3 Multikolinieritas

Multikolinieritas adalah masalah yang timbul pada regresi linier apabila terdapat suatu hubungan atau ketergantungan linier di antara beberapa atau semua dari peubah-peubah bebas. Jika peubah-peubah-peubah-peubah bebas tersebut saling berkorelasi, maka akan sangat sulit untuk memisahkan pengaruh mereka masing-masing terhadap peubah tak bebas dan untuk mendapatkan penaksir yang baik bagi koefisien-koefisien regresi. Akibat dari multikolinieritas adalah :

a. Apabila hubungan tersebut sempurna, maka koefisien regresi parsial tak akan dapat diestimasi.

b. Apabila hubungan tersebut tidak sempurna, maka koefisien regresi parsial masih dapat diestimasi, tetapi kesalahan baku dari penduga koefisien regresi parsial sangat besar. Hal ini menyebabkan pendugaan/ramalan nilai Y dengan menggunakan X1 dan X2 kurang teliti.

2.2 R Language

R Language adalah system komputasi menggunakan manipulasi data, kalkulasi dan tampilan grafik dan dapat digunakan untuk implementasi pengujian-pengujian statistika, analisi deret, akses pada bahasa pemrograman lain dan fasiliatas perbaikan kesalahan. Dapat dijalankan dalam lingkungan system UNIX, Windows, dan MacOS.

(17)

R Language merupakan implementasi dari S Language yang dikembangkan oleh Bell Laboratories oleh Rick Becker, John Chambers dan Allan Wilks pada tahun 1980, dan sejak itu telah dipakai secara luas oleh komunitas statistika.

R Language telah banyak dikembangkan untuk analisis data interaktif ke dalam paket-paket yang dapat diperoleh secara gratis. Bahasa pemrograman ini merupakan high level language sehingga cukup mudah untuk dipahami dan dipelajari, memiliki fasilitas pengaturan dan penyimpanan data yang efektif. R Language juga menyediakan operator untuk perhitungan matriks dan array, selain itu dalam analis data R Language dapat menyediakan tampilan analisis data dalam bentuk grafik.

R Language memiliki banyak kesamaan dengan bahasa S, namun perbedaan mendasar adalah software S bersifat komersial. R Language dapat diperoleh dari

http://www.r-project.org . Versi terbaru dari R Language adalah R-2.3.1 yang terbit pada

1 Juni 2006. Penelitian ini menggunakan versi R terbaru. R menyediakan banyak paket-paket fungsi yang dapat digunakan dalam pemodelan statistika.