Analisis dan Eksplorasi Data 2015 2016

(1)

Uji Asumsi Penduga Model

Part 1 – Deteksi Pelanggaran Asumsi*

Wahyu Dwi Lesmono, S.Si

(2)

(3)

Kapan Pengujian Asumsi Model

dilakukan?

Pengujian asumsi penduga model dilakukan

apabila metode penduga parameter yang

digunakan adalah metode OLS (

Ordinary

Least Square

). Namun tidak menutup

kemungkinan jika metode penduga parameter

yang lain harus dilakukan pengujian asumsi.

Pengujian asumsi penduga model dapat

(4)

Kenapa Perlu dilakukan Uji

Asumsi?

Suatu model dapat dikatakan memiliki nilai penduga

terbaik apabila memenuhi kriteria BLUE (Best Linear

Unbiased Estimator) berdasarkan minimisasi iteratif

dengan teorema Gauss-Markov, yaitu:

1. Penduga parameter bersifat efisien (Nilai ragam

yang minimum)

2. Penduga parameter bersifat linear terhadap

variabel bergantung.

(5)

Aturan dalam asumsi

1. Hubungan antara variabel bergantung dengan variabel bebas bersifat linear.

2. Variabel bebas bersifat tetap pada setiap observasi (tidak berubah-ubah/tidak stokastik).

3. Nilai variabel bebas harus bervariasi.

4. Nilai rata-rata residual/galat dengan syarat dari masing-masing variabel bebasnya adalah 0.

5. Ragam residual/galat adalah konstan atau bersifat homokedastisitas. 6. Tidak ada hubungan antar perbedaan observasi residual (serial

correlation).

7. Tidak ada hubungan antara variabel bebas dengan residual. 8. Variabel residual/galat berdistribusi normal.

9. Tidak ada korelasi-korelasi yang sempurna antar variabel bebas.

(6)

Definisi Autokorelasi

Autokorelasi (Korelasi Silang atau Korelasi Seri)

merupakan suatu kondisi adanya korelasi antar

galat pada observasi yang berbeda. Suatu model

dikatakan baik apabila bebas dari masalah

autokorelasi.

Autokorelasi sering terjadi pada data time series

(data dengan variabel waktu), namun tidak

menutup kemungkinan terjadi pada data

cross-sectional (data antar objek/tanpa variabel

(7)

Faktor Penyebab

Autokorelasi

1. Data mengandung pergerakan naik-turun secara

musiman.

2. Kekeliruan memanipulasi data.

3. Data yang dianalisis tidak bersifat stasioner.

4. Data yang digunakan bersifat runtut.

5. Adanya bias spesifikasi (Mengeluarkan variabel yang

benar dari persamaan model karena alasan-asalan

tertentu).

6. Adanya keterlambatan (Lag)

7. Adanya hubungan variabel pada observasi yang

diperoleh dengan variabel pada observasi

(8)

Indikasi dan Konsekuensi Akibat

Autokorelasi

1. Metode penduga masih bersifat linear dan

tidak bias namun tidak efisien sehingga tidak

mempunyai ragam yang minimum. Akibatnya

kriteri metode penduga berubah menjadi LUE

(Linear Unbiased Estimation).

2. Nilai standard error pada parameter menjadi

underestimated dan nilai statistik t, F, dan

koefisien determinasi menjadi overestimated

sehingga memberikan kesimpulan yang

(9)

Cara Mendeteksi Adanya

Autokorelasi

1. Menggambarkan korelogram

autokorelasi dan autokorelasi

parsial.

2. Menggambarkan scatter plot antara

residual dengan residual pada

observasi sebelumnya.

(10)

Cara Penanggulangan Adanya

Autokorelasi

1. Biarkan data apa adanya (Jika datanya

Cross-Sectional)

2. Menambahkan data observasi

3. Melakukan transformasi data dengan melakukan

lag, differencing pada variabel bebas, atau

transformasi dengan fungsi tertentu.

4. Menggunakan metode penduga Maximum

Likelihood, Yule-Walker, Full Information Maximum

Likelihood, atau Unconstrained Least Square (ULS).

(11)

Definisi Heterokesdastisitas

Heterokesdastisitas

(Kebalikan

dari

Homokesdastisitas)

merupakan

suatu

kondisi

terjadinya

keragaman

residual/galat

dengan

observasi dari satu observasi ke observasi yang

lainnya yang

TIDAK

konstan. Suatu model dikatakan

baik apabila rata-rata nilai residualnya adalah nol,

residualnya memiliki pola ragam yang konstan, dan

tidak saling berhubungan dengan residual observasi

yang lainnya.

(12)

Faktor Penyebab

Heterokesdastisitas

1. Adanya penggolongan antarobjek, baik secara

numerik maupun kategorik, yang menyebabkan nilai

penduganya terlalu jauh.

2. Metode penduga dan pengumpulan sampel yang

menghasilkan nilai simpangan baku parameter yang

semakin besar.

3. Adanya pencilan pada data sehingga menyebabkan

terjadinya keragaman yang tinggi.

4. Kemiringan (skewness) yang tidak merata.

5. Spesifikasi model yang tidak tepat.

(13)

Indikasi dan Konsekuensi Akibat

Heterokesdastisitas

1. Uji F pada persamaan model yang signifikan namun banyak

uji t dari masing-masing parameter yang tidak signifikan

atau sebaliknya sehingga mengakibatkan nilai simpangan

baku dari setiap variabel bebasnya tidak dapat dipercaya

kebenarannya serta mengakibatkan ragamnya tidak

minimum.

2. Nilai penduga parameter model tidak efisien sehingga

mengakibatkan nilai penduganya menjadi LUE (Linear

Unbiased Estimation).

3. Nilai residual pada beberapa observasi cukup besar

sehingga mengakibatkan model tidak cocok untuk dilakukan

prediksi (cross-sectional) atau peramalan (time series).

(14)

Cara Mendeteksi Adanya

Heterokesdastisitas

1. Melihat scatter plot/scatter gram

antara kuadrat residual dengan

penduga variabel bergantung atau

variabel bebas.

2. Menghitung korelasi antara variabel

bebas dengan variabel residual

dengan metode korelasi

Spearman-Rank.

(15)

Cara Penanggulangan Adanya

Heterokesdastisitas

1. Menggunakan metode penduga Regresi Instrumen

Variabel (IV), Generalized Least Square (GLS),

Generalized Method of Moment (GMM), Feasible

GLS (FGLS), dan Weighted Least Square (WLS) (Jika

ragam kelompok observasinya diketahui).

2. Transformasikan data dengan fungsi yang sesuai.

3. Menggunakan metode koreksi Heteroskedasticity

Consistent Coefficient Covariance (Jika ragam

kelompok observasinya tidak diketahui).

(16)

Definisi Multikolinearitas

Multikolinearitas merupakan suatu

kondisi adanya korelasi antarvariabel.

Suatu model yang baik “seharusnya”

tidak terjadi korelasi di antara variabel

bebasnya.

Secara aljabar, multikolinearitas

(17)

Faktor Penyebab

Multikolinearitas

1. Metode pengumpulan data yang digunakan

terbatas pada populasi yang diambil

sampelnya.

2. Retriksi yang ada pada model

3. Spesifikasi model yang minim atau berlebihan

4. Model yang

overdetermined

(Lebih banyak

jumlah parameternya dibandingkan jumlah

observasi)

5. Pergerakan nilai antar variabel yang sama

(18)

Indikasi dan Konsekuensi Akibat

Multikolinearitas

1. Nilai koefisien determinasi tinggi namun banyak

variabel bebas yang tidak signifikan atau sebaliknya.

Sehingga menyebabkan selang kepercayaan nilai

penduga parameternya lebih lebar.

2. Nilai standard error yang sangat rendah dibandingkan

nilai penduga parameter atau sebaliknya. Sehingga

menyebabkan terjadi kesesatan prediksi yang tidak ak

3. Nilai ragam dan koragam antar variabel yang cukup

besar, sehingga variabel-variabel tersebut sulit

digunakan untuk estimasi. Walaupun sulit digunakan

untuk estimasi, masalah multikolinearitas masih

(19)

Cara Mendeteksi Adanya

Multikolinearitas

1. Melihat bentuk scatterplot antar variabel

2. Melihat adanya koefisien korelasi antar variabel

bebas yang tinggi.

3. Melihat adanya koefisien korelasi parsial antar

variabel bebas dengan antar variabel kontrol

yang tinggi.

4. Menghitung nilai eigen dan indeks kondisi.

5. Menghitung nilai toleransi dan

Variance Inflating

Factor

(VIF)

(20)

Cara Penanggulangan Adanya

Multikolinearitas

1. Biarkan apa adanya.

2. Mengetahui adanya retriksi secara teoritis terdahulu pada model dari hasil penduga parameter dan menambahkan retriksi pada model.

3. Mengkombinasikan data cross-sectional dan data time series. 4. Tambahkan jumlah observasi jika memungkinkan.

5. Hilangkan salah satu variabel bebas yang mengandung korelasi yang kuat terhadap variabel yang lain.

6. Transformasi variabel dengan fungsi resiprokal pada variabel yang memiliki korelasi kuat.

7. Transformasi variabel dengan melakukan differencing pertama. (Untuk data time series)

8. Menggunakan analisis faktor.

9. Menggunakan pendekatan regresi Ridge, regresi Bayesian, dan regresi polinomial ortogonal.

(21)

Contoh Kasus 1

Diketahui model regresi berganda yang didefinisikan sebagai berikut:

0 1 1 2 2

Dengan menetapkan tingkat kepercayaan sebesar 95%:

a. Buatlah persamaan Regresinya dengan metode penduga OLS dan lakukan

pengujian signifikansi modelnya! b. Apakah metode penduga OLS dari

model tersebut terdapat asumsi yang dilanggar? Periksalah dengan uji

autokorelasi, heterokedastisitas, multikolinearitas, normalitas, dan linearitas!

c. Berikan penanggulangan apabila

(22)

-Analyze > Regression > Linear

-Masukkan variabel Y di kotak Dependent dan variabel X1 dan X2 di kotak Independent

-Statistics > Ceklis Estimates, Model Fit, R Squared Change, Collinearity Diagnostics, Durbin-Watson, Casewise Diagnostics pilih All cases > Continue -Plot > Masukkan X sebagai ZPRED dan Y sebagai

(23)

-Plot > di kotak Residuals ceklis Unstandardized > Continue -Klik OK

-Uji normalitas (nilai statistik):

Analyze > Nonparametric Test > 1-Sample KS Masukkan Unstandardized Residual ke Test

Variable List > Ceklis Test Distribution Normal > OK

-Uji normalitas (visual):

(24)

Stat > Regression > Regression > Fit Regressions Model

Masukkan Y di Responses, serta X1 dan X2 di Continous Predictors Graphs > Pilih Residual Plots di bagian Four in One > OK

Results > Ceklis semua, pada Display of Results pilih Simple Tables, pada Fits and Diagnostics pilih Only for Unusual Observations > OK

(25)

Jawaban A (SPSS)

Berdasarkan nilai R-Square

menunjukkan nilai 0.995 yang berarti 99.5% variasi dari Y dapat dijelaskan oleh variasi dari variabel x1 dan x2, sisanya dijelaskan oleh variabel bebas lainnya.

Berdasarkan uji F dapat disimpulkan bahwa seluruh

variabel bebas secara bersama-sama memberikan pengaruh terhadap variabel y.

Berdasarkan uji t dapat

disimpulkan bahwa seluruh variabel bebas secara terpisah memberikan pengaruh

terhadap variabel y. N.B: Variabel bebas berpengaruh jika nilai Sig <

Taraf Nyata . Baik uji F maupun uji t

1 2

9.261 0.261

1.187 Y





X



X

(26)

Jawaban A (SPSS)

Berdasarkan nilai Standard

Error of the Estimate adalah

0.1287 menunjukkan bahwa variasi Y yang tidak dijelaskan oleh variabel bebas sebesar 0.1287 satuan.

Berdasarkan uji F dapat

disimpulkan bahwa nilai akar dari mean square residual yaitu 0.1287 yang

menunjukkan bahwa nilai error yang mungkin terjadi pada

model sebesar 0.1287 satuan._{Berdasarkan uji t dapat} disimpulkan bahwa nilai

simpangan baku untuk setiap penduga parameternya cukup kecil sehingga tidak berakibat banyak penyimpangan dalam menduga variabel bergantung. N.B: Standard Error of the Estimate (SEE) sama

(27)

Jawaban A

(Minitab)

Regression Analysis: Y versus X1, X2

Analysis of Variance

Fits and Diagnostics for Unusual Observations

Obs Y Fit Resid Std Resid 20 23.7000 24.0532 -0.3532 -3.03 R

R Large residual

Durbin-Watson Statistic

Durbin-Watson Statistic = 1.80353

Berdasarkan hasil analisis ragam pada model regresi yang dibentuk menunjukkan bahwa seluruh variabel bebas

mempengaruhi variabel bergantungnya. Baik secara bersama-sama (Source

regression) maupun secara terpisah

(Source x1 dan x2).

Hasil model summary menunjukkan bahwa

simpangan galat penduga (S)

menunjukkan 0.1287 yang menunjukkan bahwa rata-rata jarak dari titik data dari garis regresi sebesar 0.1287% Y. R-Square

menunjukkan bahwa 99.48% variasi nilai Y dapat dijelaskan oleh variabel X1 dan X2. Sisanya dijelaskan oleh variabel yang lainnya yang tidak disebabkan dalam model. R-Square Adjusted menunjukkan bahwa 99.42% variasi nilai Y dapat dijelaskan oleh adanya penambahan

variabel X1 dan X2. Sisanya dijelaskan

oleh variabel yang tidak ditambahkan dalam model. R-Square Prediction

(28)

Jawaban A

(Minitab)

Regression Analysis: Y versus X1, X2

Fits and Diagnostics for Unusual Observations

Obs Y Fit Resid Std Resid 20 23.7000 24.0532 -0.3532 -3.03 R

R Large residual

Durbin-Watson Statistic

Durbin-Watson Statistic = 1.80353

Hasil uji t koefisien regresi menunjukkan bahwa setiap perubahan x1 dan x2 secara signifikan mempengaruhi variabel Y. Selain itu, tanpa adanya perubahan dari x1 dan x2 secara signifikan mempengaruhi variabel Y.

1 2

9.261 0.261

1.187 Y





X



X

Model Persamaan Regresinya adalah: Berdasarkan uji t dapat disimpulkan bahwa nilai simpangan baku untuk

setiap penduga parameternya cukup kecil sehingga tidak berakibat banyak penyimpangan dalam menduga variabel bergantung.

Hasil fits and diagnostics for unusual observations menunjukkan bahwa terdapat nilai residual yang besar pada observasi ke-20. Hal tersebut menunjukkan bahwa

(29)

Deteksi Autokorelasi Secara Visual

dengan Scatter Plot

Untuk axis merupakan waktu dan ordinat merupakan residual, gambar a, b, c, d menunjukkan adanya pola tertentu antara waktu dengan residual yang mengindikasikan adanya masalah autokorelasi pada data. Sementara itu, gambar e menunjukkan tidak terdapat bentuk pola antara waktu dengan residual yang menunjukkan bahwa tidak terdapat masalah autokorelasi pada data

Catatan:

Waktu sama halnya dengan

(30)

Deteksi Autokorelasi Secara Visual

dengan Scatter Plot

Dengan axis adalah waktu dan

ordinat adalah residual. Gambar a kiri menunjukkan pola hubungan galat yang melandai setiap waktunya sehingga terdapat masalah autokorelasi positif. Sementara Gambar b kiri menunjukkan pola hubungan galat yang curam setiap waktunya sehingga terdapat masalah autokorelasi negatif.

(31)

Jawaban B (Uji Autokorelasi)

Berdasarkan Line Plot Observation Order dengan Residual menunjukkan bahwa pola residual antar observasi memiliki pola yang tidak terlalu tajam dan tidak membentuk pola sistematika tertentu. Sehingga mengindikasi bahwa model regresi yang dibentuk dengan

(32)

Prosedur Pengujian Autokorelasi

dengan Durbin-Watson

1. Tentukan banyaknya observasi (n) dan banyaknya variabel bebas pada model (k)

2. Hitung Durbin-Watson Statistik

3. Tentukan nilai Durbin-Watson Tabel (dL dan dU) dan selisih nilai 4 dengan Durbin-Watson batas atas (4-dU) dan batas bawah (4-dL)

(33)

Jawaban B (Uji Autokorelasi)

Pengujian dengan Durbin-Watson: -Banyaknya observasi n = 20

-Banyaknya variabel bebas k = 2

-Nilai Durbin-Watson statistik: DW=1.804 -Berdasarkan tabel Durbin Watson,

diperoleh:

1. Batas bawah Durbin-Watson tabel: dL = 1.1004

2. Batas atas Durbin-Watson tabel: dU = 1.5367

-Nilai 4-dU = 4-1.5367 = 2.4633

-Nilai 4-dL = 4-1.1004 = 2.8996 Durbin-Watson Statistic

(34)

Jawaban B (Uji Autokorelasi)

Berdasarkan hasil uji Watson didapat bahwa nilai

Durbin-Watson statistik berada diantara

dU

dan

4-dU

sehingga metode

OLS pada model regresi tidak mengalami masalah autokorelasi.

(35)

Deteksi Heterokesdastisitas Secara

Visual dengan Scatter Plot

(36)

Deteksi Heterokesdastisitas Secara

Visual dengan Scatter Plot

(37)

Jawaban B (Uji

Heterokesdastisitas)

(38)

Deteksi Multikolinearitas

Untuk mendeteksi adanya

multikolinearitas dapat menggunakan

nilai Indeks Kondisi, Toleransi, atau

nilai

Variance Inflation Factor

(VIF).

Conditional

Index (CI) Toleransi(TOL)

Variance Inflation Factor (VIF)

Keterangan Multikolinearitas

1 ≤ CI ≤ 15 0.25 ≤ TOL ≤ 1 1 ≤ VIF ≤ 4 _Masalah/AmanTidak Ada

15 < CI ≤ 50 0.1429 ≤ TOL _{< 0.25} 4 < VIF ≤ 7 Sedikit Masalah/Hati-_Hati 50 < CI ≤

100 0.1 ≤ TOL ≤ 0.1429 7 < VIF ≤ 10 Masalah/BermasalahCukup

(39)

Jawaban B (Uji

Multikolinearitas)

Hasil nilai Tolerance dan VIF menunjukkan bahwa variabel X1 dan X2 mengalami cukup masalah

pada multikolinearitas. Parameter β₂ pada indeks kondisi memiliki nilai diatas 50 dan proporsi variasi antar parameter penduganya diatas 0.7 sehingga metode OLS pada model Regresi mengalami cukup masalah multikolinearitas

(40)

Jawaban B (Uji Normalitas)

(41)

Jawaban B (Uji Normalitas)

Berdasarkan uji normalitas dengan menggunakan uji Anderson-Darling

menunjukkan bahwa residual berdistribusi normal. Walaupun residual memiliki distribusi sedikit memenceng ke arah kiri dan meruncing dan terdapat pencilan. Namun dengan pengujian normalitas dengan Anderson-Darling

(42)

Jawaban B (Uji Normalitas)

(43)

Jawaban B (Uji Normalitas)

Berdasarkan Q-Q plot menunjukkan bahwa residual berdistribusi

normal. Pada normal Q-Q Plot titik observasinya mendekati garis linear Z dan pada detrended normal Q-Q plot titik observasinya menjauhi

(44)

Jawaban B (Uji Linearitas)

Source DF Adj SS Adj MS F-Value P-Value Regression 2 54.3863 27.1932 1641.14 0.000 X1 1 0.3685 0.3685 22.24 0.000 X2 1 10.7053 10.7053 646.08 0.000 Error 17 0.2817 0.0166

Lack-of-Fit 2 0.0417 0.0208 1.30 0.301

Pure Error 15 0.2400 0.0160 Total 19 54.6680

H0: Model Regresi dari Penduga berbentuk linear

H1: Model Regresi dari Penduga berbentuk nonlinear

Berdasarkan uji Linearitas dari sumber keragaman Lack-of-Fits (ketidakpasan penduga) menunjukkan bahwa nilai P-Value = 0.301 > Taraf Nyata = 0.05

sehingga terima H0. Sehingga diperoleh kesimpulan bahwa model regresi yang

(45)

Jawaban C

Berdasarkan hasil nomor b, asumsi

yang dilanggar adalah

multikolinearitas. Karena model regresi

yang dibentuk dari definisi (teoritis)

dan data yang diperoleh hanya data

yang tersedia saja, maka

(46)

Penelitian yang dilakukan oleh Nina bertujuan untuk mengetahui dampak volume maksimal kebugaran tubuh berdasarkan faktor indeks massa gizi tubuh (IMT) dan tingkat aktivitas fisik dari Atlet Bulu Tangkis Himatika 2014. Berikut ini merupakan data yang diperoleh dan diolah oleh Nina dari 18 berdasarkan formulasi yang dia ambil dari literatur statistik kesehatan tertentu.

a. Bentuklah model yang menggambarkan tujuan kasus tersebut dan dugalah parameter model dengan menggunakan metode OLS!

b. Lakukan pengujian asumsi model untuk mengetahui adanya pelanggaran asumsi pada model yang telah anda bentuk pada poin a!

c. Berikan cara penanggulangan berdasarkan hasil pada nomor b!

(47)

Jawaban A

Karena tujuannya ingin mengetahui pengaruh faktor indeks

massa gizi tubuh dan tingkat aktivitas fisik terhadap volume

maksimal kebugaran tubuh berdasarkan. Maka model dapat

diformulasikan dengan model regresi berganda:

0_MAX 0 1 2

V









IMT





AF

Dengan menggunakan metode OLS diperoleh:

0_MAX

48.7168 1.0224

8.3684

(48)

Jawaban B

Karena nilai Adjusted R-Square bernilai negatif, penduga simpangan baku yang kecil, namun hanya

(49)

Jawaban B (Uji Autokorelasi)

Berdasarkan Line Plot Observation Order dengan Residual menunjukkan bahwa pola residual antar observasi memiliki pola yang sedikit tajam dan menurun. Sehingga mengindikasi bahwa model regresi yang

(50)

Jawaban B (Uji Autokorelasi)

Pengujian dengan Durbin-Watson: -Banyaknya observasi n = 18

-Banyaknya variabel bebas k = 2

-Nilai Durbin-Watson statistik: DW=1.330 -Berdasarkan tabel Durbin Watson,

diperoleh:

1. Batas bawah Durbin-Watson tabel: dL = 1.0461

2. Batas atas Durbin-Watson tabel: dU = 1.5353

-Nilai 4-dU = 4-1.5353 = 2.4647

-Nilai 4-dL = 4-1.0461 = 2.9539 Durbin-Watson Statistic

(51)

Jawaban B (Uji Autokorelasi)

Berdasarkan hasil uji Durbin-Watson didapat bahwa nilai Durbin-Watson statistik berada diantara dL dan dU metode OLS pada model regresi tidak dapat

diperoleh kesimpulan mengenai adanya masalah autokorelasi positif ataupun tidak.

(52)

Jawaban B (Uji

Heteroskedastisitas)

(53)

Jawaban B (Uji

Multikolinearitas)

(54)

Jawaban B (Uji Normalitas)

Berdasarkan uji normalitas dengan menggunakan uji Anderson-Darling

(55)

Jawaban B (Uji Normalitas)

(56)

Jawaban B (Uji Normalitas)

Berdasarkan Q-Q plot menunjukkan bahwa residual berdistribusi

normal. Pada normal Q-Q Plot titik observasinya mendekati garis linear Z dan pada detrended normal Q-Q plot titik observasinya menjauhi

(57)

Jawaban C

Karena model regresi dengan penduga OLS tidak mengalami masalah

autokorelasi, heteroskedastisitas, multikolinearitas, dan normalitas namun tidak dapat dilakukan uji linearitas dan homogenitas serta nilai Adjusted R-Square yang bernilai negatif, maka terdapat permasalahan pada metode penduga atau spesifikasi model.

Untuk permasalahan metode penduga, dapat dilakukan dengan cara menggunakan metode lain seperti:

1. Instrumen Variabel (IV)

2. Generalized Least Square (GLS)

3. Generalized Method of Moment (GMM)

4. Weighted Least Square (WLS)

5. Feasible GLS (FGLS)

(58)

Jawaban C Tanpa Mengikutsertakan Intersep

Tanpa mengikutsertakan parameter intersep (Constant) pada model diperoleh bahwa nilai R-Square dan R-R-Square Adjusted meningkat