PEMILIHAN MODEL TERBAIK pada REGRESI

(1)

REGRESI TERAPAN

(Pemilihan Model Regresi

Terbaik )

PEMBAHASAN

2.1 Kriteria Pemilihan Model Terbaik

Ada beberapa kriteria pemilihan model terbaik dalam analisis regresi, diantaranya :

A.Uji Fp

Uji Fp merupakan suatu kriteria pemilihan model terbaik dengan membandingkan fungsi atau model yang memiliki jumlah variabel independen lebih sedikit dengan model yang memiliki jumlah variabel independen lebih banyak. Syaratnya, model yang lbih sederhana adalah anak gugus dari model yang lebih kompleks. Alat yang digunakan adalah uji F. Uji F banyak digunakan untuk melihat manfaat penambahan variabel independen dalam model.

Uji hipotesis :

Ho : kedua model tidak berbeda satu sama lain. Hi : kedua model berbeda secara signifikan.

Statistik uji :

F_p=(JKSa−JKSb)/(b−a)

JKS_b/(n−b)

Dimana :

JKS_a : jumlah kuadrat sesatan untuk model dengan a parameter

JKS_b : jumlah kuadrat sesatan untuk model dengan b parameter n : banyaknya pengamatan

Daerah kritik :

Pada tingkat kepercayaan (1- φ¿∗100, Ho ditolak jika F_p > F ((b-a);(n-b);

φ¿

(2)

Misalkan terdapat m kemungkinan model yang dapat menggambarkan hubungan antara variabel dependen dan beberapa variabel independen. Untuk setiap model dapat dihitung nilai kuadrat rata-rata sesatannya yang didefinisikan sebagai berikut :

KRS_m= JKSm (n−P)

Dimana : KRSm: jumlah kuadrat rata-rata sesatan untuk model ke- k

JKSm : jumlah kuadrat sesatan untuk model ke- k P : jumlah parameter model ke- k

Model terbaik adalah model yang memiliki nilai KRS_m minimum. Kriteria lain yang dapat digunakan koefisien korelasi berganda rm2 . rm2 disebut juga koefisien determinasi yang dapat diartikan sebagai banyaknya proporsi keragaman variabel dependen (Y) yang dapat diterangkan oleh model (0 ≤ rm2≤1 . Nilai rm2 akan cenderung bertambah atau naik seiring bertambahnya jumlah variabel independen (X) atau bertambahnya jumlah parameter dalam model.

C. Statistik Cp Mallows

Rumus statistik Cp mallows model ke-m adalah :

C_p=JKSm

S2 −(n−2p) Dimana :

S2

=KRS= 1

(n−p)

∑

_i₌₁

n

(Y_i−^Y_i)2 ; penduga tak bias dari σ2

Nilai harapan dari Cp, adalah :

E( C_p¿=EJKSm

S2 −(n−2p)

= E( JKSm

S2 ¿−(n−2p)

Karena E( JKSm¿=(n−p)E

(

KRSm

)

=(n−p)σ 2

E( Cp¿=

(n−p)σ2

(3)

= p

Dengan demikian model yang diharapkan (terbaik) adalah model yang memberikan nilai Cp p.

D. Kriteria Informasi

Terdapat dua kriteria informasi yang sering digunakan, yaitu Akaike Information criterion (AIC) dan Bayesian Infomation Criterion (BIC). Misalnya terdapat model m, maka rumus-rumus AIC dan BIC medel ke-m berturut-turut dapat ditulis :

AIC_m=−2 lnJKSm

n +2p

BICm=−2 ln

(

JKS_m

n

)

+plnn

Dimana :

JKS_m: jumlah kuadrat sesatan untuk model ke-m n : jumlah data sampel

p : jumlah parameter model ke-m

Baik AIC maupun BIC dengan formula 2p dan p ln(n) memberikan pinalti terhadap penambahan jumlah parameter. Model terbaik adalah model yang memberikan nilai AIC dan BIC minimum.

2.2 Metode Pemilhan Model Terbaik

Ada 5 metode yang biasa digunakan untuk pemilihan model terbaik dalam analisi regresi, yaitu :

 Metode seleksi maju(Forward Selection)

 Eliminasi mundur (Backward Elimination)

 Stepwise Regression

 All Possible Regression

 Prediction Sum of Squeres (PRESS)

(4)

Model seleksi maju merupakan metode yang populer pada saat komputer belum berperan. Salah satu keuntungan metode ini adalah disajikannya melalui proses pembentukan model setahap demi setahap. Pada metode ini, variabel independen dimasukan satu persatu menurut urutan besar pengaruh terhadap variabel dependen. Metode ini dimulai dengan menghitung koefisien korelasi variabel independen dengan variabel dependen

r

(¿¿YXi, ,, i=1,2,…, p)

¿

, variabel independen yang memiliki koefisien korelasi terbesar

(tanpa memperhatikan tanda korelasi + atau -) dimasukan pertama kali kedalam model. Misalkan terdapat 3 buah variabel independen ( X₁, X₂, X₃¿ dan diketahui nilai koefisien korelasi terbesar adalah rYX2. Jadi variabel independen yang pertama kali dimasukan

kedalam model adalah X₂ dan diperoleh model awal :

^

Y= ^β0+ ^β2X2

Selanjutnya lakukan uji hipotesis dengan Ho : β2 = 0 dengan H1 : β2≠0 , jika terima Ho makan proses analisis selesai dan dapat dipastikan variabel independen lainnya tidak signifikan menjelaskan Y. Namun jika tolak Ho maka X₂ masuk kedalam model dan langkah selanjutnya menghitung korelasi parsial variabel independen lainnya ( X₁, X₃¿

dengan menganggap X₂ tertentu dan begitu selanjutnya sampai analisis selesai dan model sudah terpilih.

Kelebihan dan Kekurangan Forward Selection

1. Kelebihan prosedur Forward selection diantaranya sebagai berikut:

 Metode forward, backward, dan stepwise merupakan alternative untuk mengurangi kemungkinan adanya multikolinearitas dalam model yang dihasilkan.

2. Kelemahan prosedur Forward Selection adalah diantaranya;

 Lama dalam penghitungan , karena harus menghitung satu-satu dari peubah yang ada, dari peubah yang memiliki F tersebar.

 Dalam metode ini, ada kemungkinan untuk memasukkan lebih banyak variabel yang tidak begitu signifikan ke dalam model dibanding metode backward dan stepwise, karena MSE yang dihasilkan forward akan lebih kecil yang menyebabkan nilai Fobs besar.

 Prosedur ini tidak selalu mengarahkan ke model yang terbaik, mengingat kita hanya mempertimbangkan sebuah subset kecil dari semua model-model yang mungkin. Sehingga resiko melewatkan atau kehilangan model terbaik akan bertambah seiring dengan penambahan jumlah variabel bebas.

(5)

Metode ini adalah kebalikan dari metode seleksi maju. Pertama masukan semua

bahwa tidak ada variabel independen yang dapat menjelaskan Y secara signifikan. Namun jika tolak Ho maka perhatikan koefisien regresi atau besarnya pengaruh setiap variabel independen. Misalkan variabel independen yang memiliki pengaruh paling kecil adalah X3, ujilah apakah pengaruh variabel tersebut signifikan atau tidak. Jika pengaruhnya signifikan maka proses analisis selesai dan model awal diatas merupakan model terpilih. Namun jika pengaruhnya tidak signifikan maka X₃ harus dikeluarkan dari model.

• Jika FL < F0, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut

• Jika FL>F0, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan atau dipilih.

2.2.3 Stepwise Regression

Stepwise regression adalah satu cara untuk memperoleh model terbaik secara sistematis, mulai dari model dengan satu variabel independen (X),kemudian menambah variabel independen berikutnya sambil melihat kemungkinan membuang varibel independen yang ada dalam model. Metode ini merupakan kombinasi dari metode forward selection dan metode backward elimination. Metode ini populer pada tahun 70-an.

Pada metode forward selection kemungkinan untuk memasukan variabel independen dengan kriteria besarnya korelasi atau korelasi parsial antara variabel independen dengan variabel dependen. Perhatikan, setelah terdapat sedikitnya 2 variabel independen (X), kemungkinan membuang X yang tidak signifikan dengan langkah mundur. Demikian seterusnya sampai tidak ada lagi variabel independen (X) yang dapat dibuang ataupun dimasukan. Metode stepwise regression hanya memberikan satu model terbaik tanpa model alternatif lain jika model yang terpilih sulit diaplikasikan.

2.2.4 All Possible Regression

All possible regression atau semua kemungkinan regresi adalah metode pemilihan model terbaik dengan cara menghitung semua kombinasi variabel independen yang mungkin. Misal ada p variabel independen, maka akan ada sebanyak 2p

(6)

Misalkan terdapat tiga variabel independen ( X₁, X₂, X₃¿ _{hitunglah kemungkinan}

model!

2p−1=23−1=8−1=7

Metode ini memungkinkan beberapa metode alternatif, namun jumlah variabel independen relatif banyak sehingga banyaknya model yang harus dihitung bertambah dan membutuhkan proses yang lama.

2.2.5 Prediction Sum of Squares (PRESS)

Tujuan utama pembentukan modal terhadap suatu permasalahan adalah untuk memprediksi atau peramalan. Indikator prediksi yang baik adalah nilai prediksi sama atau hampir sama dengan kenyataan. Prediction sum of squares (PRESS) atau penduga jumlah kuadrat diusulkan oleh Allen pada tahun 1974 yaitu tentang penggunaan semua pegamatan, kecuali pengamatan ke-i untuk memprediksi nilai variabel dependen (Yi). Misalkan ada n

pengamatan, langkah-langkah perhitungannya adalah :

 Hilangkan atau buang data ke-i dari variabel dependen dan independennya.

 Hitunglah semua kemungkinan model regresi.

 Lakukan pendugaan nilai variabel dependen ( Y_i¿ untuk tiap model namakan

^

Y

(¿¿ip)

¿

untuk model dengan parameter p.

 Untuk tiap model hitung, khusus data ke-i yang dihilangkan :

M_p=

∑

i=1 n

(Y_i−^Y_ip)²

 Pilih model yang memberikan nilai M_p terkecil tetapi tidak terlalu banyak mengandung variabel independen.

Metode PRESS merupakan kombinasi antara metode all possible regression, prediksi, dan

(7)

Contoh Kasus

Tentang pengaruh kerja (X1) dan motivasi pimpinan (X2) terhadap produktivitas kerja (Y) dengan ukuran sampel 15 pada suatu perusahaan.

Responden X1 X2 Y

Dari data tersebut akan dilakukan dianalisis dengan menggunakan SPSS. Metode seleksi maju (forward selection)

(8)

ANOVAb

Model Sum of Squares df Mean Square F Sig.

1 Regression 685.155 1 685.155 165.623 .000a

Residual 53.779 13 4.137

1 (Constant) 8.941 1.161 7.701 .000

VAR00002 1.388 .108 .963 12.869 .000

a. Dependent Variable: VAR00004

Excluded Variablesb

Model Beta In t Sig.

Partial Correlation

Collinearity Statistics Tolerance

1 VAR00003 -.029a _-.331 _.747 _-.095 _.791

a. Predictors in the Model: (Constant), VAR00002 b. Dependent Variable: VAR00004

(9)

Sehinggga diperoleh model akhir yang digunakan metode seleksi maju (forward

Model Sum of Squares df Mean Square F Sig.

1 Regression 685.155 1 685.155 165.623 .000a

Residual 53.779 13 4.137

Total 738.933 14

(10)

Coefficientsa

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig.

B Std. Error Beta

1 (Constant) 8.941 1.161 7.701 .000

VAR00002 1.388 .108 .963 12.869 .000

a. Dependent Variable: VAR00004

Excluded Variablesb

Model Beta In t Sig.

Partial Correlation

Collinearity Statistics Tolerance

1 VAR00003 -.029a _-.331 _.747 _-.095 _.791

a. Predictors in the Model: (Constant), VAR00002 b. Dependent Variable: VAR00004

Sama seperti out put sebelumnya output pada stepwise regression juga terdiri atas 5 buah tabel. Tabel pertama menerangkan bahwa metode yang digunakan adalah metode stepwise regression yang dilakukan dalam satu tahap dengan kinerja kariawan sebagai variabel dependen dan lingkungan kerja sebagai variabel independen yang pertama dimasukan ke dalam model. Masih sama seeperti output pada forward selections. Jadi model akhir yang digunakan untuk metode stepwise regression adalah :

^

(11)

BAB III PENUTUP

3.1 Kesimpulan

1. Ada empat kriteria dalam pemilihan model terbaik dalam analisis regresi, diantaranya:

 Uji Fp

 Kuadrat rata-rata sesatan(KRS)

 Statistik Cp mallows

 Kriteria informasi

2. Ada 5 metode yang biasa digunakan untuk pemilihan model terbaik dalam analisi regresi, yaitu :

 Metode seleksi maju(Forward Selection)

 Eliminasi mundur (Backward Elimination)

 Stepwise Regression

 All Possible Regression