SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS
Joko Sungkono1, Th. Kriswianti Nugrahaningsih2
Abstract: Terdapat empat asumsi klasik dalam regresi diantaranya asumsi normalitas. Jika asumsi normalitas dilanggar, maka hasil estimasi, uji t, dan uji F pada regresi menjadi tidak valid. Selain itu perlu diperhatikan korelasi diantara variable independen, jika terdapat korelasi yang cukup tinggi maka dapat dikatakan terjadi multikolinearitas. Efek dari multikolinearitas ini dapat mengakibatkan estimasi parameter regresi yang dihasilkan menjadi tidak efisien karena mempunyai bias dan variansi yang besar.
Berdasarkan hasil simulasi, dampak multikolineritas pada regresi linear ganda dengan keadaan asumsi normalitas dipenuhi memberikan standar error estimasi dan MSE yang jauh lebih besar jika dibandingkan dalam kondisi asumsi normalitas dilanggar. Dalam kondisi error berdistribusi t, standar error estimasi dan MSE juga hampir sama dengan kondisi asumsi normalitas dipenuhi. Hal ini berarti jika terjadi multikolineritas, estimasi koefisien regresi pada kondisi eror berdistribusi simetris yang diperoleh tidak valid. Pada kondisi error berdistribusi non simetris (exponensial, weibull dan gamma) standar error estimasi dan MSE yang diperoleh jauh lebih kecil daripada kondisi eror berdistribusi simetris. Dengan demikian dampak multikolineritas lebih berbahaya pada kondisi asumsi normalitas terpenuhi, Lebih umum dampak multikolinearitas lebih berbahaya pada kondisi eror berdistribusi simetri.
Kata Kunci : multikolinearitas, normalitas, simulasi
PENDAHULUAN
Statistik adalah ilmu yang mempelajari tentang data, baik dari pengumpulan, pengolahan, penyajian sampai pada penarikan kesimpulan. Salah satu teknik statistik yang digunakan untuk mempelajari hubungan pengaruh variable terhadap variabel lain adalah regr esi. Ana lisis r egresi linear ganda secara parametrik memerlukan beberapa asumsi yang disebut asumsi klasik. Terdapat empat asumsi klasik pada analisis regresi berganda yakni normalitas, multikolinearitas, homoskedastisitas dan autokorelasi (Gujarati, 2004). Pada regresi linear, uji prasyarat yang dilakukan biasanya hanya uji normalitas dan linearitas saja, yang lain hanya diasumsikan (Budiyono,
2013). Pada kenyataa nnya sering ter jadi penyimpangan asumsi tersebut. Bahkan seringkali terjadi penyimpangan dua asumsi secara bersamaan seperti terjadi multikolinearitas dan penyimpangan asumsi normalitas secara bersamaan.
Multikolinearitas adalah adanya hubungan atau korelasi ant ar varia bel beba s. Efek dari multikolinearitas ini dapat mengakibatkan estimasi parameter regresi yang dihasilkan dari analisis regresi linear berganda menjadi tidak efisien karena dapat menyebabkan regresi berganda mempunyai bias dan varians yang besar. Menurut Adeboye dkk (2014), multikolineritas memberikan pengaruh terhadap standar eror estimasi koefisien regresi sehingga hasil
estimasi dimungkinkan tidak akurat. Penelitian yang dilakukan Nyrhinen and Leskinen (2014) menyatakan bahwa multikolineritas mengaburkan interpretasi terhadap str uktur persamaan model, untuk mengatasinya dengan mengeliminasi variabel bebas yang berkorelasi dari model. Menurut Duzan and Sima (2016), masalah multikolineritas data diatasi menggunakan Ridge Regression yang merupakan alternative dari Ordinary Least Square (OLS) pada kondisi multikolineritas. Multikolinearitas juga akan menyebabkan hasil-hasil estimasi menjadi peka terhadap perubahan-perubahan kecil. Selain itu multikolinearitas juga dapat menyebabkan terjadinya perbedaan kesimpulan antara uji statistik F dan uji statistik t (Gujarati, 2004). Sedangkan normalitas adalah kondisi dimana error berdistribusi normal.
Dampak dari tidak terpenuhinya asumsi normalitas adalah baik uji statistik F maupun uji statistik t serta estimasi nilai variabel dependen menjadi tidak valid.
Ayinde dkk (2015) mengkombinasikan Feasible Generalized Least Square Estimators (Cochrane and Maximum Likelihood Estimators) dengan Principal Components Extraction method untuk mengatasi masalah multikolineritas dan autokorelasi. Pada penelitian ini ingin diketahui bagaimana efek multikolineritas pada regresi linear ganda pada kondisi asumsi normalitas dipenuhi maupun dilanggar melalui suatu study simulasi.
REGRES LINEAR GANDA
Regresi merupakan teknik statistic yang digunakan untuk mengetahui pengaruh variabel terhadap va riabel yang lain. Va riabel yang mempengaruhi disebut variabel independen/ variabel bebas/ predictor sedangkan variabel yang dipengaruhi disebut variabel dependen/ variabel terikat/ respon.
Regresi dapat digunakan untuk memprediksi variabel
dependen. Jika variabel independen mempengaruhi variabel dependen secara linear, maka regresi tersebut disebut regresi linear. Berdasarkan banyaknya variable independen, regresi linear dibedakan menjadi regresi linear sederhana dan regresi linear ganda. Jika variable independen hanya satu disebut regresi linear sederhana, sedangkan jika variable independen lebih dari satu disebut regresi linear ganda.
Dalam penelitian yang menggunakan regresi, sering kali dijumpai lebih dari satu variabel independen.
Untuk itu diperlukan model regresi linear ganda. Model regresi linear ganda sering kali digunakan sebagai pendekatan untuk struktur yang kompleks. Analisis regresi linear ganda bertujuan untuk mengetahui bentuk hubungan pengaruh k variabel independen terhadap variable dependen YY (Budiyono, 2013). Model regresi linear ganda pada populasi secara umum diberikan oleh
dimana
: observasi ke-i dari Y
: observasi ke-i dari variabel dengan j = 1, 2,
…, k
: konstanta regresi : koefisien regresi pada
: sesatan pada observasi ke-i dengan
Berdasarkan sampel random dapat dilakukan proses estimasi. Estimasi koefisien regresi dengan menggunakan metode kuadrat terkecil akan diperoleh sistem persamaan sebagai berikut.
Selanjutnya persamaan di atas disebut sebagai persamaan normal. Dengan menyelesaikan sistem persamaan normal ini akan diperoleh
berdasarkan metode estimasi kuadrat terkecil yang
merupakan estimasi koefisien regresi (Sembiring, 1995).
Analisis regresi linear ganda secara parametrik memerlukan beberapa asumsi penting yang disebut asumsi klasik. Terdapat empat asumsi klasik pada analisis regresi berganda yakni normalitas, multikolinearitas, homoskedastisitas dan autokorelasi (Gujarati,2004 ). Asumsi normalitas yang diperlukan pada regresi adalah residual berasal dari populasi normal. Dengan melihat persamaan model regresinya, secara teori normalitas residual dapat dicapai jika variable dependen maupun independen berdistribusi normal. Regresi juga memerlukan asumsi tidak terjadi multikolineritas diantara variable independen.
Maksudnya tidak terdapat korelasi diantara variable independen. Asumsi homoskedastisitas menyatakan bahwa regresi yang memenuhi persyaratan adalah dimana terdapat kesamaan varian dari residual setiap observasi. Regresi juga memerlukan asumsi tidak ada autokorelasi, artinya tidak terdapat korelasi diantara observasi (satu periode dengan periode yang lain).
Uji autokorelasi hanya dilakukan pada data time series.
Jika terdapat asumsi yang tidak dipenuhi maka proses estimasi maupun inferensi lanjutan yang dilakukan menjadi tidak valid. Untuk mengetahui suatu estimasi dikatakan baik atau tidak dapat dilakukan dengan menggunakan Mean Square Error (MSE) estimasi. Jika MSE semakin mendekati nol, maka
estimasi dikatakan semakin baik (Rencher, 2000).
Menurut Hardle (1991) MSE diberikan sebagai berikut
yang merupakan jumlahan bias dari estimasi dan variansinya.
SIMULASI
Pada penelitian ini akan dilakukan simulasi untuk melihat dampak multikolineritas pada regresi linear ganda. Simulasi dilakukan untuk regresi linear ganda terjadi multikolineritas dengan beberapa keadaan distribusi eror yang berbeda. Simulasi dilakukan menggunakan bantuan software R.
Untuk memba tasi konstruksi program, digunakan regresi linier ganda dua (2) variabel bebas dengan lima (5) keadaan distribusi eror, yaitu Normal, t, Exponential, Weibull, dan Gamma.
Pada simulasi ini tidak digunakan data real yang diambil dari lapangan. Data yang digunakan dibangkitkan dari distribusi tertentu dengan bantuan software R sehingga dapat ditentukan kondisi data yang dikehendaki. Pada penelitian ini, data yang dikehendaki untuk keperluan simulasi adalah data regresi linear ganda pada keadaan multikolineritas dengan distribusi error bervariasi.
Kondisi Multikolineritas Dengan Korelasi Tinggi
Misalkan data untuk sebanyak 20 data dibangkitkan dari distribusi Normal dengan rata-rata 50 dan standar deviasi 3. Sedangkan data untuk sebanyak 20 data didesain sedemikian sehingga terjadi korelasi dengan dengan korelasi yang tinggi (0,977).
Parameter koefisien regresi yang digunakan adalah mmmmmmmmmmm . Pada regresi ganda ini didesain data error dibangkitkan dari distribusi Normal, t,
β0= 1, β1=2, dan β2=3
Eksponensial, Weibull dan Gamma. Ringkasan hasil simulasi ini diberikan sebagai berikut.
Tabel 1. Hasil simulasi multikolineritas tinggi
Berdasarkan Tabel 1, dalam keadaan terjadi multikolineritas tinggi, estimasi koefisien regresi pada kondisi error berdistribusi non simetris (exponensial, weibull dan gamma) lebih mendekati nilai parameter yang sebenarnya dibandingkan pada kondisi error berdistribusi simetris (normal dan t). Standar error estimasi yang dihasilkan pada kondisi error berdistribusi simetris jauh lebih besar dibandingkan pada kondisi error berdistribusi non simetris. Akibatnya interval konfidensi yang diperoleh menjadi sangat lebar. Ini berarti jika terjadi multikolineritas dan eror berdistribusi simetris, maka estimasi koefisien regresi dengan metode OLS menjadi tidak valid. Berdasarkan estimasi Mean Square Error (MSE) diberikan sebagai berikut.
Tabel 2. Estimasi MSE
Berdasarkan Tabel 2, seperti halnya pada standar eror, MSE pada kondisi error berdistribusi simetris jauh lebih besar daripada error berdistribusi non simetris. Grafik MSE untuk dan diberikan pada Gambar 1.
Distribusi Error MSE
Normal 13,8616 0,5267 0,1376
T 22,8071 0,4775 0,0908
Exp 0,3027 0,0333 0,0113
Weibull 0,1205 0,0122 0,0004
Gamma 1,0470 0,1289 0,0413
Normal -0,2236 24,127 28,736 35,550 0,3376 0,1057 T 47,905 16,940 30,740 43,608 0,4141 0,1296 Exp 11,936 20,323 29,888 0,3298 0,0313 0,0098 Weibull 11,123 20,121 29,996 0,0903 0,0086 0,0027 Gamma 10,600 18,800 30,404 0,9935 0,0944 0,0295 Distribusi
Error
Estimasi Koefisien S tandar Error Estimasi
Gambar 1. MSE pada kondisi multikolinearitas tinggi
Berdasarkan Gambar 1, menunjukkan bahwa pada kondisi error berdistribusi simetris (Normal dan t), dampak multikolineritas mengakibatkan MSE sangat besar, sehingga estimasi koefisien regresi menjadi kurang valid.
Kondisi Multikolineritas Dengan Korelasi Sedang
Misalkan data untuk sebanyak 20 data dibangkitkan dari distribusi Normal dengan rata-rata 50 dan standar deviasi 3. Sedangkan data untuk sebanyak 20 data didesain sedemikian sehingga terjadi korelasi dengan dengan korelasi yang sedang (0,597).
Parameter koefisien regresi yang digunakan adalah , , dan . Pada regresi ganda ini didesain data error dibangkitkan dari distribusi Normal, t, Eksponensial, Weibull dan Gamma. Ringkasan hasil simulasi ini diberikan sebagai berikut.
Tabel 3. Hasil simulasi multikolineritas sedang
Normal -14,590 20,159 30,313 27,691 0,0661 0,0509 T 56,529 18,549 30,524 35,389 0,0845 0,0651 Exp 10,549 20,018 29,997 0,4028 0,0096 0,0074 Weibull 10,846 20,004 29,996 0,0848 0,0020 0,0016 Gamma 28,743 19,947 29,779 0,8486 0,0203 0,0156 Distribusi
Error
Estimasi Koefisien S tandar Error Estimasi
Berdasarkan Tabel 3, dalam keadaan terjadi multikolineritas sedang, estimasi koefisien regresi pada kondisi error berdistribusi non simetris (exponensial, weibull dan gamma) lebih mendekati nilai parameter yang sebenarnya dibandingkan pada kondisi error berdistribusi simetris (normal dan t). Standar error estimasi ya ng diha silkan pada kondisi error berdistribusi simetris jauh lebih besar dibandingkan pada kondisi error berdistribusi non simetris. Akibatnya interval konfidensi yang diperoleh menjadi sangat lebar. Ini berarti jika terjadi multikolineritas dan eror berdistribusi simetris, maka estimasi koefisien regresi dengan metode OLS menjadi tidak valid. Berdasarkan estimasi Mean Square Error (MSE) diberikan sebagai berikut.
Tabel 4. Estimasi MSE
Berdasarkan Tabel 4, seperti halnya pada standar eror, MSE pada kondisi error berdistribusi simetris jauh lebih besar daripada error berdistribusi non simetris. Grafik MSE untuk dan diberikan pada Gambar 2.
Gambar 2. MSE pada kondisi multikolinearitas Sedang
Distribusi Error MSE
Normal 10,1269 0,0203 0,0339
T 17,1767 0,1522 0,0566
Exp 0,2172 0,0019 0,0004
Weibull 0,0918 0,0004 0,0004
Gamma 2,5944 0,0057 0,0223
Berdasarkan Gambar 2, seperti halnya pada kondisi multikolinearitas tinggi, MSE estimasi lebih besar terjadi pada kondisi eror berdistribusi simetris.
Akan tetapi pada kondisi eror berdistribusi t, MSE estimasi lebih besar dari pada kondisi eror berdistribusi normal. Hal ini menunjukkan bahwa pada kondisi error berdistribusi simetris, dampak multikolineritas mengakibatkan MSE estimasi besar, sehingga estimasi koefisien regresi juga kurang valid.
SIMPULAN
Pada keadaan terjadi multikolineritas, estimasi koefisien regresi pada kondisi error berdistribusi non simetris lebih mendekati nilai parameter yang sebenarnya dibandingkan pada kondisi error berdistribusi simetris. Standar error estimasi yang dihasilkan pada kondisi error berdistribusi simetris jauh lebih besar dibandingkan pada kondisi error berdistribusi non simetris. Akibatnya interval konfidensi yang diperoleh menjadi sangat lebar. Hal ini menandakan bahwa kondisi multikolineritas memberikan dampak yang signifikan pada kondisi error berdistribusi simetr is, art inya da mpak multikolinerits lebih berbahaya pada kondisi asumsi normalitas dipenuhi. Ini berarti jika ter jadi multikolineritas dan eror berdistribusi simetris, maka estimasi koefisien regresi dengan metode OLS menjadi kurang valid..
DAFTAR PUSTAKA
Adeboye, N. O., Fagoyinbo, I. S., and Olatayo, T. O.
2014. Esti mation of the Effect of Multicollinearity on the Standard Error for Regression Coefficients. IOSR Journal of Mathematics, e-ISSN: 2278-5728, p-ISSN:2319- 765X. Volume 10, Issue 4 Ver. I.
Ayinde, K., Lukman, A. F, and Arowolo, O. T. 2015.
Combined Parameters Estimation Methods Of Linear Regression Model With Multicollinearity And Autocorrelation. Journal of Asian Scientific Research, 5(5): 243-250 Budiyono. 2013. Statistika Untuk Penelitian, Edisi
Kedua, UNS Press, Surakarta.
Duzan, H. and Sima, N. 2016. Solution to the Multicollinearity Problem by Adding some Constant to the Diagonal. Journal of Modern Applied Statistical Methods. Vol. 15, No. 1, 752- 773.
Gujarati, D. N, 2004, Basic Econometri, Fourth Edition. The McGraw- Hill Companies, New York.
Hardle, W. 1991. Smoothing Techniques With Implementation in S. Springer-Verlag New York Inc.
Nyrhinen, J. N. and Leskinen E. 2014.
Multicollinearity in Marketing Models: Notes on the Application of Ridge Trace Estimation in Structural Equation Modelling. Electronic Journal of Business Research Methods Volume 12 Issue 1
Rencher, A. C., 2000, Linear Models In Statistics, John Wiley & Sons Inc, New York.
Sembiring, R. K., 1995, Analisis Regresi, Edisi Kedua, Penerbit ITB, Bandung.