Oleh karena evaluasi dengan regresi semua kemungkinan memerlukan prosedur komputasi yang relatif rumit, berbagai metode telah dikembangkan untuk mengevaluasi hanya sebagian kecil dari subset model regresi baik melalui penambahan ataupun pengurangan variabel prediktor satu per satu. Metode seperti ini secara umum dapat dikatakan sebagai prosedur atau metode regresi bertahap (Stepwise Regression Methods).
Metode ini dapat diklasifikasikan ke dalam tiga kategori, yaitu : (1) prosedut maju (Forward Selection), (2) prosedur mundur (Backward Elimination), dan (3) regresi bertahap (Stepwise Regression), yang merupakan gabungan dari prosedur 1 dan 2. Berikut ini akan diberikan gambaran mengenai ketiga prosedur tersebut.
Prosedur ini dimulai dengan asumsi bahwa tidak ada prediktor dalam model selain intersep. Prosedur ini dibuat untuk menentukan model subset yang optimal dengan menyisipkan prediktor ke dalam model satu per satu. Prediktor pertama yang masuk ke dalam persamaan adalah prediktor yang mempunyai korelasi yang paling besar dengan variabel respons y. Misalkan bahwa prediktor itu adalah x1. Prediktor ini juga akan memberikan nilai terbesar dari statistik F untuk menguji keberartian regresi. Prediktor ini dimasukkan jika statistik F lebih besar dari nilai F yang dipilih sebelumnya, sebut saja FIN
(atau F-to-enter)
Variabel prediktor kedua yang dipilih masuk adalah prediktor yang mempunyai korelasi terbesar dengan y setelah dilakukan penyesuaian pada efek dari prediktor pertama yang masuk terhadap y. Korelasi seperti ini disebut juga sebagai korelasi parsial. Korelasi parsial ini merupakan korelasi sederhana antara residu dari regresi π¦Μ = π½Μo + π½Μ1π₯1 dengan residu dari regresi pada kandidat prediktor yang lain pada x1, katakanlah π₯Μπ= πΌΜππ+ πΌΜπππ₯1untuk j = 2, 3, β¦ , k. Misalkan bahwa pada tahap 2, prediktor yang mempunyai korelasi parsial dengan y adalah x2. Hal ini berarti bahwa statistik F parsial terbesar diberikan oleh:
Prosedur Maju
Apabila nilai F ini lebih besar dari pada FIN, maka x2 akan dimasukkan ke dalam model.
Secara umum, pada setiap tahap, prediktor yang mempunyai korelasi parsial tertinggi dengan y (atau ekivalen dengan statistik F terbesar untuk prediktor lainnya yang sudah ada dalam model) akan dimasukkan ke dalam model jika statistik F parsial lebih besar daripada FIN. Prosedur ini akan berhenti jika statistik F parsial pada tahap tertentu tidak lebih besar dari FIN atau juga jika kandidat prediktor terakhir dimasukkan ke dalam model.
Prosedur mundur dilakukan untuk menentukan model yang baik dengan proses yang berlawanan arah dengan prosedur maju. Artinya prosedur mundur dimulai dengan melibatkan semua k kandidat variabel prediktor. Kemudian statistik F parsial dihitung untuk setiap prediktor. Statistik F yang terkecil dibandingkan dengan suatu nilai yang ditentukan sebelumnya, FOUT (F-to-remove), dan jika nilai statistik F parsial yang terkecil ini lebih kecil dari FOUT, maka prediktor tesebut dikeluarkan dari model. Kemudian dibentuk model regresi dengan k β 1 prediktor dan statistik F parsial untuk model baru ini akan dihitung, dan prosedur di atas diulang. Algoritma prosedur mundur ini akan berhenti jika nilai F parsial terkecil tidak lebih kecil daripada FOUT. Prosedur mundur merupakan suatu prosedur pemilhhan varabel yang baik (Montgomery and Peck, 1992).
Prosedur ini lebih banyak disukai oleh para peneliti yang ingin melihat bagaimana efek dan semua kandidat prediktor, sehingga diharapkan tidak ada infomasi yang hilang.
Regresi bertahap merupakan modifikasi dari seleksi atau prosedur maju di mana pada setiap tahap semua prediktor yang berada di dalam model dievaluasi melalui uji-F parsial.
Nilai kritis FOUT yang telah ditentukan sebelumnya digunakan sebagai kriteria pemilihan variabel. Jadi pada setiap tahap, prediktor dapat dimasukan ke dalam model, sedangkan yang lainnya dapat dikeluarkan. Adanya masalah multikolinearitas dalam data dapat menyebabkan suatu prediktor tidak nyata walaupun prediktor tersebut merupakan kandidat prediktor yang penting pada tahap awal dari prosedur ini. Prosedur akan berhenti jika tidak ada lagi penambahan prediktor ke dalam model berdasarkan kriteria FIN , serta tidak ada prediktor lagi yang dikeluarkan dari model berdasarkan kriteria FOUT.
Contoh 1
Hald [1952, dalam Montgomery dan Peck(1992)] memperkenalkan data mengenai kekuatan yang disusun dalam sejumlah kalori per gram dari semen (y) sebagai fungsi dari banyaknya masing-masing empat bahan campuran, yaitu: tricalcium aluminate (X1), tricalcium silicate (X2), tetracalcium alumino ferrite (X3), dan dicalcium silicate (X4). Data disajikan dalam tabel berikut ini
Prosedur Mundur
Prosedur Bertahap
No Y X1 X2 X3 X4
1 78.5 7 26 6 60
2 74.3 1 29 15 52
3 104.3 11 56 8 20
4 87.6 11 31 8 47
5 95.9 7 52 6 33
6 109.2 11 55 9 22
7 102.7 3 71 17 6
8 72.5 1 31 22 44
9 93.1 2 54 18 22
10 115.9 21 47 4 26
11 83.8 1 40 23 34
12 113.3 11 66 9 12
13 109.4 10 68 8 12
Sumber: Montgomery, D.C. and E.A. Peck (1992). Introduction to Linear Regression Analysis.
New York: John Wiley and Sons
Untuk menyelesaikan kasus di atas, maka pemilihan model akan dilakukan dengan menggunakan metode regresi bertahap, baik prosedur maju (forward), prosedur mundur (backward), maupun dengan regresi bertahap (stepwise).
Pada dasarnya SPSS memberikan beberapa metode yang digunakan dalam pemilihan variabel dan pembentukan model, yaitu: metode ENTER, FORWARD, REMOVE, BACKWARD, dan STEPWISE. Metode ENTER sudah banyak dibahas pada modul- modul sebelumnya, sedangkan yang akan dibahas dalam modul ini adalah metode FORWARD, BACKWARD, dan STEPWISE. Oleh karena ketiga metode pembentukan model tersebut tidak dapat dilakukan secara simultan, maka hal ini perlu dilakukan satu per satu, dan langkah-langkah yang akan dibahas disini adalah untuk metode FORWARD.
Adapun langkah- langkahnya adalah sebagai berikut:
1. Dari baris menu pilih Analyze, kemudian pilih submenu Regression. Dari serangkaian pilihan Regression yang ada, sesuai dengan kasus pilih Linear.
β’ Dependent: Y
β’ Independent(s): X1, X2, X3, dan X4
β’ Methods: Forward
2. Pilih tombol Statistics. Pilihan ini berkenaan dengan perhitungan statistik regresi yang akan digunakan. Perhatikan default yang ada di SPSS adalah Estimates dan Model fit. Untuk memberikan ringkasan statistik bagi variabel-variabel yang diamati pilih Descriptive. Kemudian klik Continue untuk meneruskan proses analisis.
3. Pilih tombol Options. Pilihan ini diberikan untuk menentukan kriteria metode pentahapan, dalam hal ini akan digunakan kriteria FIN sebesar 0.10 dan FOUT sebesar 0.11 atau dalam SPSS dinyatakan dengan Entry dan Removal
OLAH DATA
4. Ulangi langkah 2 sampai dengan langkah 4, tetapi metode yang digunakan adalah untuk metode Backward dan Stepwise.
5. Klik Paste.
Berikut ini adalah analisis dan output yang diberikan oleh SPSS untuk pembentukan model melalui metode atau prosedur maju atau FORWARD. Untuk kesederhanaan output untuk Descriptive tidak ditampilkan, dalam modul ini.
Variable Entered/Removed. Output ini memberikan penjelasan tentang urutan dari variabel-variabel yang dimasukkan ke dalam model dari masing-masing tahapan. Seperti yang telah dijelaskan di awal modul ini bahwa prosedur maju dimulai dengan tidak ada satu prediktor pun di dalam model. Pada tahap pertama, dengan nilai F-to-enter sebesar 0.10, variabel yang dimasukkan pertama kali ke dalam model adalah X4, kemudian berturut-turut variabel X1 dan X2. Sedangkan output yang diberikan oleh prosedur mundur, yang merupakan kebalikan prosedur maju, dimana pada tahap pertama semua prediktor masuk ke dalam model melalui metode ENTER. Pada tahapan berikutnya, variabel yang pertama kali dikeluarkan dari model adalah variabel X3 kemudian X4 (lihat kolom Variable Removed dengan kriteria F-to-remove sebesar 0.10).
Selanjutnya, tahapan yang diberikan melalui regresi bertahap memungkinan variabel yang sudah masuk dapat dikeluarkan kembali dari model tersebut. Seperti yang ditunjukkan dalam output tersebut, variabel-variabel X4, X1, dan X2 merupakan urutan variabel yang dimasukan ke dalam model (dengan kriteria F-to- enter sebesar 0.10 dan F-to-remove sebesar 0.11). Akan tetapi pada tahap ke-empat, variabel X4 dikeluarkan lagi dari model.
ANALISIS
Model Summary. Output ini menjelaskan ringkasan statistik dari masing-masing model untuk setiap tahap. Ukutan-ukuran statistik yang diberikan dalam model summary ini adalah koefisien korelasi multipel antara Y dengan masing-masing X(R), koefisien determinasi (R-square), koefisien determinasi terkoreksi (Adjusted R square), dan galat baku taksiran. Sebagai contoh untuk prosedur maju, model 1 artinya model yang hanya berisi konstanta dan X4 dengan nilai R2 sebesar 0.675. Model 2 artinya model yang berisi konstanta, X4, dan X1 dengan nilai R2 sebesar 0.972.
ANOVA. Tabel analisis varians untuk masing-masing model juga diberikan dalam output SPSS ini. Tabel ini dapat digunakan untuk membantu menentukan variabel- variabel mana saja yang masuk ke dalam kriteria untuk dikeluarkan atau dimasukkan.
Sebagai contoh, untuk prosedur maju, nilai F parsial untuk X1 dengan syarat X4 sudah masuk ke dalam model dihitung berdasarkan
Oleh karena nilai F parsial F = 108.23 > F(0.10; 1, 11) = 3.29, maka variabel X1 bisa masuk ke dalam model. Dengan cara yang sama proses ini dilakukan terhadap variabel- variabel lain.
Dalam prosedur mundur akan ditentukan FOUT. dengan menggunakan Ξ± = 0.11, jadi prediktor akan dibuang apabila nilai statistik-F parsial lebih kecil dari F(Ξ±; 1, n-p) Pada tahap 0 memberikan hasil pencocokan untuk model lengkap. Nilai F parsial terkecil adalah F = 0.02 dan ini berhubungan dengan prediktor X3. Pada tahap 1 dalam output SPSS, terlihat pencocokan model yang melibatkan tiga buah prediktor (X1, X2, X4). Pada tahap 2, terlihat pencocokan model yang hanya melibatkan dua buah prediktor (X1, X2). Nilai F parsial terkecil untuk model ini adalah F = 146.52, yang berhubungan dengan X1, dan oleh karena nilai ini lebih besar daripada FOUT = F(Ξ±; 1, 10) = 3.08, maka tidak ada lagi prediktor yang harus dikeluarkan dari model.
Pada prosedur regresi bertahap telah dinyatakan taraf nyata Ξ± baik untuk memasukkan sebesar 0.10 dan untuk mengeluarkan prediktor sebesar 0.11. Perlu dicatat bahwa nilai Ξ± untuk memasukkan variabel dalam SPSS harus lebih kecil daripada nilai Ξ± untuk mengeluarkan variabel. Pada tahap pertama, prosedur dimulai dengan tidak ada satu pun variabel di dalam model dan mencoba untuk menambahkan prediktor X4. Oleh karena statistik-F parsial pada tahap ini lebih besar dari FIN = F(0.10; 1, 11) = 3.23, maka X4 ditambahkan kedalam model. Pada tahap 2, prediktor X1 ditambahkan ke dalam model.
Apabila nilai F parsial untuk X4 lebih kecil dari FOUT = F(0.10; 1, 11) = 3.29, maka X4 akan dibuang dari model. Tetapi, oleh karena nilai F parsial untuk X4 pada tahap 2 ini adalah F
= 159.30, sehingga X4 tetap dipertahankan di dalam model. Pada tahap 3, algoritma regresi bertahap menambahkan prediktor X2 ke dalam model. Kemudian nilai statistik-F parsial untuk X1 dan X4 dibandingkan dengan FOUT = F(0.10; 1, 9) = 3.36. Oleh karena untuk X4 telah diketahui nilai F parsialnya, yaitu sebesar 1.86, yang lebih kecil daripada FOUT =
F(0.10; 1, 9) = 3.14 menunjukkan hasil dari pembuangan X4 dari model. Pada tahap ini hanya
tertinggal kandidat prediktor X3, yang tidak dapat ditambahkan ke dalam model karena nilai F parsialnya tidak melebih FIN.
Coefficients. Seperti biasa nilai taksiran dari masing-masing koefisien regresi pada setiap tahapan akan ditampilkan dalam output ini. Pada output ini ditampilkan nilai taksiran koefisien yang tidak dibakukan beserta galat bakunya, nilai taksiran koefisien yang dibakukan, statistik-t dan nilai-p. Model akhir yang diberikan oleh masing-masing diberikan pada baris terakhir dari output tersebut. Model akhir yang diberikan oleh prosedur maju adalah:
Kemudian, model akhir yang diberikan oleh prosedur mundur adalah:
Sedangkan model akhir yang diberikan oleh prosedur regresi bertahap adalah:
Hasil yang diperoleh prosedur regresi bertahap ini sama dengan apa yang diberikan pada prosedur mundur.
Excluded Variables. Output ini memberikan penjelasan mengenai variabel- variabel yang tidak dilibatkan dalam analisis untuk setiap tahapan. Didalamnya diberikan pula nilai taksiran dari masing-masing koefisien regresi berserta nilai statistik-t. Selain itu ditunjukkan pula nilai korelasi parsial dan ukuran untuk memerikasa kolinearitas diantara variabel bebas (tolerance).
Berikut ini adalah output yang diberikan oleh SPSS untuk pembentukan model melalui metode atau prosedur maju atau BACKWARD.
Sedangkan output SPSS untuk pembentukan model yang diberikan melalui prosedur regresi bertahap adalah sebagai berikut.
Algoritma regresi bertahap yang telah dibahas di atas bukan merupakan jaminan merupakan subset model regresi yang terbaik. Lebih jauh lagi, semua prosedur regresi bertahap ini berhenti dengan satu persamaan akhir, dimana seorang peneliti yang tidak berpengalaman dapat menyimpulkan bahwa mereka telah menemukan model yang dianggap model yang optimal. Bagian dari masalah ini adalah bahwa sepertinya tidak terdapat satu buah model subset terbaik, tetapi terdapat beberapa model yang dianggap baik.
Peneliti juga harus ingat bahwa urutan dari prediktor yang masuk atau keluar dari model tidak diartikan sebagai urutan dari kepentingan prediktor tersebut. Jarang ditemukan bahwa suatu prediktor yang masuk ke dalam model pada awal prosedur kemudian dapat diabaikan pada tahapan berikutnya. Hal ini dibuktikan pada kasus diatas, dimana dalam prosedur maju memilih x4 sebagai prediktor pertama yang masuk. Tetapi, pada saat x2
ditambahkan pada tahapan berikutnya, x4 tidak lagi diperlukan lagi dalam model sebab adanya korelasi yang tinggi diantara x2 dan x4. Inilah fakta mengenai masalah yang terjadi dalam prosedur maju, sekali predictor masuk, maka prediktor itu tidak dapat dikeluarkan pada tahap berikutnya.
Perlu dicatat bahwa baik prosedur maju, prosedur mundur, maupun regresi bertahap tidak akan memberikan hasil yang sama pada model akhirnya. Korelasi antar prediktor dapat mempengaruhi urutan masuk atau keluarnya prediktor dari model. Sebagai contoh telah ditentukan bahwa prediktor yang dipilih oleh masing-masing prosedur adalah sebagai berikut:
Prosedur maju: X1 X2 X4
Prosedur mundur: X1 X2
Regresi bertahap: X1 X2
No Y X1 X2 X3 13 43.3 8.0 23 7.6 14 44.1 6.5 35 7.0 15 42.8 6.6 39 5.0 16 33.6 3.7 21 4.4 17 34.2 6.2 7 5.5 18 48.0 7.0 40 7.0 19 38.0 4.0 35 6.0 20 35.9 4.5 23 3.5 21 40.4 5.9 33 4.9 22 36.8 5.6 27 4.3 23 45.2 4.8 34 8.0 24 35.1 3.9 15 5.0
Beberapa pengguna disarankan bahwa semua prosedur dapat diterapkan dengan harapan untuk melihat beberapa kesamaan atau mempelajari tentang struktur data yang dapat ditelusuri dengan hanya menggunakan satu prosedur pemilihan. Lebih jauh, hasil- hasil yang diberikan oleh metode regresi bertahap dan regresi semua kemungkinan tidak selalu sama. Berk (1978) menyatakan bahwa hasil-hasil dari prosedur maju cenderung sama dengan apa yang dihasilkan regresi semua kemungkinan untuk ukuran subset kecil tidak untuk yang besar, sedangkan prosedur mundur hasilnya cenderung akan sama dengan regresi semua kemungkinan untuk ukuran subset besar tapi tidak untuk subset yang kecil.
Latihan
Latihan 1
Seorang peneliti dari sebuah Lembaga Penelitian akan mengevaluasi hubungan antara gaji yang diterima oleh seorang statistisi per tahun ( Y, dalam ribuan dollar) dengan indeks kualitas publikasi ( X1) indeks keberhasilan dalam mendapatkan dana penelitian (X2), dan pengalaman (X3 , dalam tahun). Data untuk 24 orang
statistisi disajikan dalam tabel berikut ini:
No Y X1 X2 X3 1 33.2 3.5 9 6.1 2 40.3 5.3 20 6.4 3 38.7 5.1 18 7.4 4 46.8 5.8 33 6.7 5 41.4 4.2 31 7.5 6 37.5 6.0 13 5.9 7 39.0 6.8 25 6.0 8 40.7 5.5 30 4.0 9 30.1 3.1 5 5.8 10 52.9 7.2 47 8.3 11 38.2 4.5 25 5.0 12 31.8 4.9 11 6.4
Sumber: (Wasserman, Neter, J. & Kutner, M. H., 1990)
Bentuk model βterbaik; dengan menggunakan prosedur maju. prosedur mundur. dan regresi bertahap.
Latihan 2
Berikut ini merupakan data yang dibangkitkan oleh Webster. Gunst. dan Mason (1974) dalam Montgomery dan Peck (1992). Data ini terdiri dari satu variable tak
bebas Y dan enam buah variable bebas X untuk N = 12 pengamaatan. Data ini dibangkitkan dengan ketentuan bahwa β4π=1π₯ππ = 10 untuk pengamatan 2-12. Sedangkan
β4π=1π₯ππ = 11 untuk pengamatan 1. Regresor 5 dan 6 ( X5 dan X6) diperoleh dari tabel bilangan acak normal. Untuk respon Yi dibangkitkan melalui persamaan : Yi = 10 + 2.0Xi1 + 1.0 Xi2 + 0.2 Xi3 β 2.0 Xi4 + 3.0 Xi5 + 10.0 Xi6
No Y X1 X2 X3 X4 X5 X6
1 10.006 8.000 1.000 1.000 1.000 0.541 -0.099 2 9.737 8.000 1.000 1.000 0.000 0.130 0.070 3 15.087 8.000 1.000 1.000 0.000 2.116 0.115 4 8.422 0.000 0.000 9.000 1.000 -2.397 0.252 5 8.652 0.000 0.000 9.000 1.000 -0.046 0.017 6 16.289 0.000 0.000 9.000 1.000 0.365 1.504 7 5.958 2.000 7.000 0.000 1.000 1.996 -0.865 8 9.313 2.000 7.000 0.000 1.000 0.228 -0.055 9 12.960 2.000 7.000 0.000 1.000 1.380 0.502 10 5.541 0.000 0.000 0.000 10.000 -0.798 -0.399 11 8.756 0.000 0.000 0.000 10.000 0.257 0.101 12 10.937 0.000 0.000 0.000 10.000 0.440 0.432 Sumber: Mongomery and Peck (1992). Introduction to Linear Regression Analysis.
Second Edition, New York: John Wiley and Sons.
Bentuk model βterbaik; dengan menggunakan prosedur maju. prosedur mundur. dan regresi bertahap.
Latihan 3
Data yang diberikan pada Tabel L5 pada Lampiran mencerminkan informasi yang diambil dari tujuhbelas rumah sakit yang ada di Amerika Serikat. Variabel-variabel prediktor yang diamati adalah jenis-jenis pekerjaan yang dibutuhkan pekerja dalam instalasi suatu rumah sakit. Variabel-variabel itu adalah: y = jam kerja bulanan, x1 = rata-rata kunjungan pasien per hari, x2 = pengguna sinar-X bulanan, x3 = tempat tidur yang digunakan bulanan, x4 = populasi per 1000 penduduk, dan x5 = rata-rata lamanya rawat inap pasien (dalam hari).
Tujuan dari analisis ini adalah untuk menentukan model regresi yang dapat digunakan untuk menaksir (atau memprediksi) tenaga kerja yang dibutuhkan oleh suatu rumah sakit.
Evaluasi model model subset dengan menggunakan prosedur maju. prosedur mundur.
dan regresi bertahap