Tugas Pemodelan dan Asumsi-asumsi
Program Studi Magister Statistika Departemen Statistika
Universitas Brawijaya
Eriza Rahmawati
246090500111005
Pada analisis regresi linier yang berbasis Ordinary Least Square, Uji Asumsi Klasik adalah persyaratan yang harus dipenuhi. Uji asumsi klasik dilakukan untuk memastikan bahwa persamaan regresi yang diperoleh memiliki ketepatan dalam estimasi, tidak bias dan konsisten. Berikut adalah asumsi-asumsi yang harus dipenuhi dalam analisis regresi linier :
1. Asumsi Kenormalan Galat
Dalam model regresi klasik, galat model (𝑢) diasumsikan berdistribusi normal dengan rata-rata nol dan variansi tetap dan saling bebas dengan variabel prediktor :
𝑢~𝑁(0, 𝜎2)
Karena galat diasumsikan saling bebas dengan variabel prediktor, maka distribusi galat (𝑢) bersyarat pada X akan sama, sehingga berlaku :
𝑢|𝑋~𝑁(0, 𝜎2)
Model regresi linier dengan 1 prediktor dapat dinyatakan sebagai berikut : 𝑌 = 𝛽1+ 𝛽2𝑋 + 𝑢
Karena galat (𝑢) berdistribusi normal, maka distribusi Y bersyarat X juga akan mengikuti distribusi normal, dan dinyatakan sebagai berikut :
𝑌|𝑋~𝑁(𝛽1+ 𝛽2𝑋 , 𝜎2)
Jika asumsi normalitas galat terpenuhi maka distribusi dari penduga parameter akan mengikuti sebaran normal dan dapat dinyatakan sebagai berikut :
𝛽̂𝑗 ~𝑁 (𝛽𝑗 , 𝑣𝑎𝑟(𝛽̂𝑗))
Untuk menguji signifikansi parameter 𝛽̂𝑗 , digunakan statistik uji t, dengan hipotesis yang diajukan adalah 𝐻0∶ 𝛽𝑗= 0 , yang berarti variabel prediktor tidak memiliki pengaruh terhadap Y. Statistik uji t dinyatakan sebagai berikut :
𝑡 = 𝛽̂𝑗− 𝛽𝑗
√𝑣𝑎𝑟(𝛽̂𝑗)
~ 𝑡𝑑𝑏 𝑔𝑎𝑙𝑎𝑡
Kemudian saat ukuran n bertambah besar dan mendekati tak hingga, maka distribusi-t akan mendekati distribusi normal, dan pada kasus tersebut dapat digunakan statistik uji z sebagai berikut :
𝑧 = 𝛽̂𝑗− 𝛽𝑗
√𝑣𝑎𝑟(𝛽̂𝑗)
~ 𝑁(0,1)
Pendeteksian kenormalan dapat dilakukan dengan beberapa cara di antaranya :
• Histogram dari sisaan/galat : merupakan pendeteksian kenormalan secara visual. Histogram sisaan akan menunjukkan distribusi simetris berbentuk lonceng dengan puncak histogram berada di sekitar nol dan menurun secara halus di kedua sisi. Jika histogram tampak miring ke salah satu sisi (kiri atau kanan), maka distribusi galat menunjukkan tidak normal. Kesulitan penggunaan histogram sisaan adalah jika sampel berukuran kecil atau sedikit. Berikut adalah contoh histogram sisaan :
Gambar 1. Histogram Sisaan
Tampak pada Gambar 1, contoh histogram sisaan yang berdistribusi normal dan tidak. Histogram berdistribusi normal memiliki puncak histogram yang berada di titik nol dan menurun secara simetri di sisi kiri dan kanan. Sedangkan histogram sisaan yang tidak berdistribusi normal cenderung miring ke sisi kanan dan puncak histogram tidak berada pada titik nol.
• Q-Q Plot : Sama halnya dengan histogram sisaan, Q-Q plot adalah pendeteksian secara visual, dengan menerapkan konsep kuantil. Kuantil yang dapat digunakan di antaranya median, kuartil, desil dan persentil. Pada Q-Q plot sumbu X adalah kuantil dari sebaran yang diasumsikan, yang biasanya berdistribusi normal. Sedangkan sumbu Y adalah kuantil dari data yang diamati, dalam hal ini kita menggunakan sisaan/galat.
Berikut adalah contoh Q-Q plot
Berdasarkan gambar 2 di atas, Q-Q Plot yang menunjukkan galat berdistribusi normal adalah jika titik-titik berada di sekitar garis lurus (diagonal) seperti gambar sebelah kiri. Sedangkan gambar di sebelah kanan titik-titik bagian kanan atas menyimpang jauh dari garis lurus yang bisa jadi menandakan adanya data outlier.
• Uji Jarque-Bera: Statistik uji Jarque-Bera memfokuskan pada kemiringan (skewness) dan pusat (kurtosis) data. Data dinyatakan menyebar secara normal jika S=0 yang berarti data simetris berada di sekitaran nilai rata-rata dan K=3 seperti distribusi normal standar
Rumus statistik uji Jarque-Bera dapat dinyatakan sebagai berikut : 𝐽𝐵 = 𝑛
6(𝑆2+(𝐾 − 3)2 4 ) Dimana :
𝑛 = jumlah sampel
𝑆 = nilai skewness , 𝑆 = 𝜇̂3
𝜎̂3=
1
𝑛∑𝑛𝑖=1(𝑥𝑖−𝑥̅)3 (𝑛1∑𝑛𝑖=1(𝑥𝑖−𝑥̅)2)
3⁄2
𝐾 = nilai kurtosis , 𝐾 = 𝜇̂4
𝜎̂4=
1
𝑛∑𝑛𝑖=1(𝑥𝑖−𝑥̅)4 (1
𝑛∑𝑛𝑖=1(𝑥𝑖−𝑥̅)2)2 Gambar 2. Q-Q Plot
Gambar 3. Kurva Distribusi Normal
Uji Jarque-Bera mengikuti distribusi chi-squared (JB~𝜒2). Hipotesis yang diajukan adalah sebagai berikut :
𝐻0 : Pengamatan menyebar normal Vs 𝐻1: Pengamatan tidak menyebar normal
Pelanggaran terhadap asumsi normalitas akan berefek pada penggunaan statistik uji t, yang dapat memberikan keputusan yang tidak tepat. Penyebab pelanggaran asumsi normalitas galat di antaranya : sebaran data asli tidak berdistribusi normal, Pelanggaran Asumsi Linieritas, Terdapat pencilan, dan ukuran sampel terlalu kecil.
Jika kasus diatas terjadi, maka perlu perlakuan khusus untuk memperbaiki pelanggaran asumsi normalitas, yaitu dengan cara melakukan transformasi data untuk kasus sebaran data asli tidak berdistribusi normal dan pelanggaran asumsi linieritas. Selain itu dapat menggunakan metode yang robust untuk menangani kasus dengan data pencilan. Kemudian menambahkan observasi untuk kasus dengan ukuran sampel yang terlalu kecil.
2. Asumsi Non-Multikolinieritas
Multikolinieritas adalah situasi dalam regresi linier yang menunjukkan adanya korelasi yang tinggi antara variabel prediktor. Asumsi dasar dalam regresi linier berganda adalah variabel-variabel prediktor tidak saling atau tidak berkorelasi secara berlebihan, untuk memudahkan interpretasi pengaruh masing-masing variabel predictor terhadap respons tanpa ada efek dari variabel prediktor yang lainnya. Multikolinieritas terbagi menjadi dua, yaitu :
• Multikolinieritas Sempurna : terjadi ketika satu variabel prediktor dapat dinyatakan sebagai kombinasi linier variabel prediktor yang lain. Dalam kasus ini menyebabkan koefisien regresi tidak dapat dihitung.Berikut adalah contoh hubungan antara dua variabel prediktor :
𝑌 = 𝛽1+ 𝛽2𝑋2+ 𝛽3𝑋3+ 𝑢 Hubungan linier sempurna variabel 𝑋2 dan 𝑋3 adalah :
𝑋3= 𝛿1+ 𝛿2𝑋2
Sehingga model regresi linier di atas dapat dituliskan kembali menjadi : 𝑌 = 𝛽1+ 𝛽2𝑋2+ 𝛽3(𝛿1+ 𝛿2𝑋2) + 𝑢 𝑌 = 𝛽1+ 𝛽3𝛿1+ (𝛽2+ 𝛽3𝛿2)𝑋2+ 𝑢
𝑌 = 𝑣1+ 𝑣2𝑋2+ 𝑢 Di mana
𝑣1= 𝛽1+ 𝛽3𝛿1 𝑣2= 𝛽2+ 𝛽3𝛿2
Kedua persamaan di atas akan digunakan untuk menduga nilai 𝛽1dan 𝛽2, namun terdapat 3 variabel dan hanya 2 persamaan, maka tidak ada solusi untuk menduga nilai 𝛽1dan 𝛽2. Rumus menghitung penduga parameter regresi menggunakan matriks dapat dinyatakan sebagai berikut :
𝛽̂ = (𝑋′𝑋)−1𝑋′𝑌
Multikolinieritas terjadi ketika satu kolom pada matriks variabel X merupakan kombinasi linier dari kolom yang lain. Hal ini akan menyebabkan matriks 𝑋′𝑋 menjadi singular, yang berarti memiliki determinan nol. Sehingga tidak bisa dilakukan kebalikan/invers matriks untuk menghitung koefisien penduga parameter.
• Multikolinieritas Tidak Sempurna : terjadi ketika satu atau dua variabel prediktor saling berkorelasi tapi bukan kombinasi linier sempurna, sehingga koefisien regresi masih bisa dihitung namun bisa memberikan nilai estimasi yang salah. Multikolinieritas tidak sempurna menyebabkan perubahan pada ragam dari penduga 𝛽̂ , yang menyebabkan estimasi koefisien regresi menjadi tidak stabil.
𝑣𝑎𝑟(𝛽̂) = 𝜎2(𝑋′𝑋)−1
Ketika |𝑋′𝑋| mendekati nol karena adanya kombinasi linier pada variabel prediktor, akan menyebabkan matriks 𝑋′𝑋 hampir singular sehingga menyebabkan (𝑋′𝑋)−1 menjadi sangat besar mendekati tak hingga. Maka dengan demikian ragam dari penduga 𝛽̂ juga akan menjadi sangat besar
𝑣𝑎𝑟(𝛽̂) = 𝜎2(𝑋′𝑋)−1 → ∞
Pendeteksian multikolinieritas dapat dilakukan dengan beberapa cara salah satunya melalui Variance Inflation Factor (VIF). Secara umum semakin tinggi nilai VIF maka semakin besar masalah multikolinieritas.
Pada regresi dengan lebih dari 2 variabel prediktor VIF dapat dihitung sebagai berikut : 𝑉𝐼𝐹 = 1
1 − 𝑅𝑗2
Di mana 𝑅𝑗2 adalah koefisien determinasi dari regresi dengan variabel 𝑋𝑗 sebagai variabel terikat dan 𝑋 selainnya sebagai variabel penjelas. Semakin tinggi nilai 𝑅𝑗2 artinya semakin besar keragaman dari variabel 𝑋𝑗 yang dapat dijelaskan dari variabel 𝑋 lain, sehingga nilai VIF juga semakin tinggi. Interpretasi nilai VIF dapat dijelaskan sebagai berikut :
• 𝑉𝐼𝐹 = 1, menunjukkan tidak adanya korelasi antar variabel prediktor, maka tidak terjadi multikolinnieritas
• 1 < 𝑉𝐼𝐹 ≤ 5 , terdapat korelasi antar variabel prediktor, namun masih dapat di toleransi
• 𝑉𝐼𝐹 > 5, menunjukkan terjadi multikolinieritas secara signifikan, dan perlu dipertimbangkan untuk dilakukan penangan lebih lanjut.
• 𝑉𝐼𝐹 > 10, terjadi korelasi yang kuat antar variabel prediktor, sehingga dapat dikatakan variabel tersebut tidak memberikan kontribusi yang berarti dan membuat koefisien regresi tidak dapat diinterpretasikan dengan baik.
Pelanggaran terhadap asumsi non-multikolinieritas ini akan mengakibatkan hasil statistik uji parsial (uji t) menjadi tidak valid, perubahan tanda koefisien parameter yang tidak sesuai teori yang diharapkan, serta tidak dapat dilakukan interpretasi untuk variabel prediktor karena ada hubungana antar variabel.
Untuk mengatasi pelanggaran asumsi tersebut, dapat dilakukan dengan beberapa cara seperti membuang variabel yang berkorelasi tinggi, menggabungkan data (seperti data cross section dan time series), menambah data atau mengganti dengan data baru, bahkan tidak perlu melakukan tindakan apapun atas pertimbangan ketidaksempurnaan data.
3. Asumsi Homoskedastisitas
Dalam asumsi homoskedastisitas, ragam dari galat harus konstan atau sama untuk semua nilai variabel prediktor. Sebaliknya, heteroskedastisitas terjadi karena ragam galat tidak konstan di seluruh rentang variabel prediktor, yang berarti distribusi galat meningkat atau menurun ketika nilai variabel prediktor berubah. Berikut ilustrasi grafis asumsi homoskedastisitas :
Gambar 4. Ilustrasi Homoskedastisitas
Pada ilustrasi tersebut terlihat distribusi probabilitas galat pada setiap titik 𝑋1, 𝑋2 dan 𝑋3 adalah identik, yang berarti bahwa ragam galat tetap konstan pada berapapun nilai 𝑋. Ragam galat 𝑢𝑖 bersyarat 𝑋𝑖 adalah konstan dan sama dengan 𝜎2 untuk setiap nilai 𝑋𝑖, dituliskan sebagai berikut :
𝑣𝑎𝑟(𝑢𝑖|𝑋𝑖) = 𝐸 (𝑢𝑖2|𝑋𝑖) = 𝜎2 Pendeteksian asumsi homoskedastisitas dapat dilakukan dengan cara :
1. Metode visual melalui Plot Sisaan vs 𝑌̂. Plot ini dibentuk dari kuadrat sisaan (𝑢𝑖2) sebagai sumbu Y dan 𝑌̂ sebagai sumbu X. Pemilihan 𝑌̂ sebagai sumbu X didasarkan dengan alasan peneliti belum mengetahui penyebab atau tidak adanya informasi variabel prediktor mana yang menyebabkan terjadinya heterokedastisitas. Jika peneliti sudah mencurigai salah satu variabel prediktor sebagai penyebab heterokedastisistas, maka dapat dibentuk plot antara variabel prediktor tersebut vs 𝑢𝑖2. Berikut ilustrasi plot sisaan vs 𝑌̂ :
Pola pada gambar (a) adalah pola yang sistematis yang menunjukkan homokedastisitas. Sedangkan pola pada gambar selainnya menunjukkan terjadinya heterokedastisitas.
2. Lagrange Multiplier (LM) Test. Beberapa LM test yang digunakan untuk mendeteksi pelanggaran asumsi homoskedastisitas antara lain : Breusch-Pagan, Glesjer, Hervey-Godfrey, Park. Seperti dijelaskan di atas, sifat homoskedastisitas distribusi galat adalah :
𝑢|𝑋~𝑁(0, 𝜎2) Di mana,
𝑣𝑎𝑟(𝑢𝑖|𝑋𝑖) = 𝐸 (𝑢𝑖2|𝑋𝑖) = 𝜎2 Maka hipotesis uji yang diajukan adalah :
𝐻0 : 𝑣𝑎𝑟(𝑢𝑖|𝑋𝑖) = 𝐸 (𝑢𝑖2|𝑋𝑖) = 𝜎2
Salah satu hubungan 𝑢2 dan variabel 𝑋2, 𝑋3,.., 𝑋𝑘, dengan asumsi 𝑢2 secara nilai harapan tidak tergantung pada variabel X adalah sebagai berikut :
𝑢𝑖2= 𝛿1+ 𝛿2𝑋2𝑖+ 𝛿3𝑋3𝑖+ ⋯ + 𝛿𝑘𝑋𝑘𝑖+ 𝑣𝑖 Maka :
𝐻0∶ 𝛿1= 𝛿2= ⋯ = 𝛿𝑘 = 0
𝐻1∶ 𝑝𝑎𝑙𝑖𝑛𝑔 𝑡𝑖𝑑𝑎𝑘 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝑠𝑎𝑡𝑢 𝛿𝑗≠ 0 , 𝑗 = 2,3, … , 𝑘 Tahapan uji LM adalah sebagai berikut :
• Menduga model regresi untuk mendapatkan nilai sisaan/galat
• Menduga Auxiliary Regression, yaitu melakukan regresi terhadap sisaan sebagai varaiabel respon dan variabel X sebagai variabel prediktor.
• Membuat formula hipotesis nol dan hipotesis alternatif
Gambar 5. Ilustrasi Plot Sisaan vs Y_prediksi
• Hitung statistik uji berdasarkan koefisien determinasi dengan rumus LM test sebagai berikut : 𝐿𝑀 = 𝑛𝑅2~𝜒𝑝−12
• Gunakan nilai uji statistik yang diperoleh untuk mendapatkan nilai P dengan distribusi chi- square
Pelanggaran terhadap asumsi homoskedastisitas dapat menyebabkan meningkatnya ragam dari sebaran 𝛽̂, sehingga 𝛽̂ bukan lagi penduga parameter yang efisien. Kemudian jika terindikasi adanya heterokedastisitas dan ragam 𝛽̂ lebih rendah (underestimate) maka nilai statistik uji T atau F akan lebih besar dari yang sebenarnya yang berujung pada penolakan 𝐻0 untuk uji koefisien parameter.
Untuk mengatasi pelanggaran asumsi tersebut dapat dilakukan beberapa cara di antaranya :
• Weighted Least Square : Metode dengan memberikan bobot yang berbeda pada setiap pengamatan.
Pengamatan dengan sisaan lebih besar akan mendapatkan bobot lebih kecil dan sebaliknya.
• Metode White :Metode yang memberikan koreksi tertentu pada penduga ragam dan simpangan baku penduga OLS. Metode White mebuat ragam tidak lagi underestimate atau overestimate.
• Asumsi Non-Autokorelasi
Asumsi non-autokorelasi menyatakan bahwa galat dari model regresi tidak saling berkorelasi satu sama lain. Permasalahan autokorelasi seringkali terjadi pada data time series atau data panel, di mana data diurutkan berdasarkan waktu atau ruang.
Autokorelasi dapat disebabkan oleh 3 hal yaitu variabel penting yang terabaikan, kesalahan spesifikasi model dan kesalahan pengukuran. Kedua hal tersebut akan mengakumulasi pada galat, yang menyebabkan galat menjadi tidak acak dan memperlihatkan pola autokorelasi.
Autokorelasi yang paling sering terjadi adalah first order serial autocorrelation (AR 1) : 𝑌𝑡 = 𝛽1+ 𝛽2𝑋2𝑡+ 𝛽3𝑋3𝑡+ ⋯ + 𝛽𝑘𝑋𝑘𝑡+ 𝑢𝑡
Di mana :
𝑢𝑡 = 𝜌𝑢𝑡−1+ 𝜀𝑡
𝜌 menyatakan hubungan fungsional antar galat 𝑢𝑡 yang merupakan koefisien dari AR 1, dengan nilai pada rentang -1 sampai 1. Koefisien autokorelasi 𝜌 akan membantu menggambarkan apakah ada pola tertentu dalam galat di antaranya : Autokorelasi positif, Tidak ada korelasi, Autokorelasi Negatif.
- Jika 𝜌 = 0, menunjukkan galat 𝑢𝑡dan 𝑢𝑡−1 tidak saling berautokorelasi
- Jika 𝜌 > 0, menunjukkan galat di waktu sebelumnya 𝑢𝑡−1 mempengaruhi galat 𝑢𝑡 secara positif - Jika 𝜌 < 0, menunjukkan galat di waktu sebelumnya 𝑢𝑡−1 mempengaruhi galat 𝑢𝑡 secara negatif Pendeteksian asumsi autokorelasi dapat dilakukan dengan beberapa statistik uji sebagai berikut :
1. Uji Durbin Watson : hipotesis yang diajukan adalah sebagai berikut 𝐻0∶ 𝜌 = 0 (𝑔𝑎𝑙𝑎𝑡 𝑡𝑖𝑑𝑎𝑘 𝑠𝑎𝑙𝑖𝑛𝑔 𝑏𝑒𝑟𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑠𝑖)
Vs
𝐻0∶ 𝜌 ≠ 0 (𝑔𝑎𝑙𝑎𝑡 𝑠𝑎𝑙𝑖𝑛𝑔 𝑏𝑒𝑟𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑠𝑖) Statistik uji Durbin-Watson ditampilkan sebagai berikut :
𝐷𝑊 ≈ 2(1 − 𝜌̂)
𝜌̂ merupakan koefisien pada AR – 1, dengan rentang -1 sampai 1, maka nilai DW akan berada pada rentang 0 sampai 4.
Gambar 6. Pengujian Durbin Watson
Sayangnya uji Durbin-Watson hanya mendeteksi autokorelasi pada orde pertama 2. Uji Breusch-Godfrey
Pengujian Breusch-Godfyer dinyatakan lebih mampu mendeteksi autokorelasi pada berbagai orde.
Hipotesis yang diajukan adalah :
𝐻0: 𝜌1= 𝜌2= ⋯ = 𝜌𝑟 = 0, 𝑡𝑖𝑑𝑎𝑘 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝐴𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑠𝑖 𝐻1: 𝑠𝑒𝑡𝑖𝑑𝑎𝑘𝑛𝑦𝑎 𝑠𝑎𝑙𝑎ℎ 𝑠𝑎𝑡𝑢 𝜌𝑖≠ 0 , 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝑎𝑢𝑡𝑜𝑘𝑜𝑟𝑒𝑙𝑎𝑠𝑖 Langkah-langkah pengujian asumsi non-autokorelasi adalah sebagai berikut :
• Menduga model regresi untuk mendapatkan nilai sisaan/galat
• Menduga Auxiliary Regression, yaitu melakukan regresi terhadap sisaan sebagai varaiabel respon dan variabel X sebagai variabel prediktor.
𝑢̂𝑡 = 𝛼0+ 𝛼1𝑋2𝑡+ ⋯ + 𝛼𝑘𝑋𝑘𝑡+ 𝜌1𝑢̂𝑡−1+ ⋯ + 𝜌𝑅𝑢̂𝑡−1
• Hitung statistik uji berdasarkan koefisien determinasi dengan rumus LM test sebagai berikut : 𝐿𝑀 = (𝑇 − 𝑟)𝑅2~𝜒𝑝−12
• Gunakan nilai uji statistik yang diperoleh untuk mendapatkan nilai P dengan distribusi chi- square
Autokorelasi pada galat bisa menyebabkan kesalahan pendugaan koefisien regresi yang tidak relevan karena ragam yang besar. R-squared juga akan mendapatkan masalah overestimate atau lebih besar dari biasanya.
Cara mengatasi jika terlanggar asumsi non-autokorelasi dapat dilakukan dengan 2 cara :
- 𝜌 diketahui : menggunakan metode transformasi untuk menghilangkan efek autokorelasi dari model regresi. Transformasi ini bekerja dengan mengurangi persamaan regresi di waktu t dengan regresi di waktu t-1. Jika sudah di transformasi maka model sudah tidak lagi memiliki autokorelasi.
- 𝜌 tidak diketahui : jika nilai 𝜌 tidak diketahui maka tetap harus dilakukan pendugaan atau memperkirakan 𝜌. Untuk menduga nilai 𝜌 dapat digunakan statistik uji Dubin-Watson dan Breusch- Godfrey. Kemudian dilakukan tahapan yang sama seperti jika nilai 𝜌 diketahui
Uji Asumsi
Klasik Definisi Cara
Pengujian Efek Jika Terlanggar Cara Mengatasi Uji Normalitas Memerikasa
apakah galat model (𝑢) berdistribusi normal
- Histogram Sisaan - Q-Q Plot - Statistik Uji Jaque- Bera
- Hasil statistik uji t
menjadi tidak valid - Transformasi data jika data asli tidak berdistribusi normal - Metode robust untuk
data dengan pencilan.
- Menambahkan
observasi jika sampel terlalu kecil.
Uji Non-
Multikolinearitas Memeriksa apakah ada korelasi antar variabel prediktor.
- Variance Inflation Factor (VIF)
- Statistik uji t menjadi tidak signifikan
- Perubahan tanda koefisien parameter yang tidak sesuai teori yang diharapkan -
- Membuang variabel yang berkorelasi tinggi
- Menggabungkan data (seperti data cross section dan time series)
- Menambah data atau mengganti dengan data baru
- Tidak perlu melakukan tindakan
apapun atas
pertimbangan ketidaksempurnaan data.
Uji
Homokedastisitas
Menguji
apakah ragam galat harus konstan atau sama untuk semua nilai variabel prediktor
- Plot Sisaan vs 𝑌̂
- LM test
- Meningkatnya ragam dari sebaran 𝛽̂
- Ragam 𝛽̂ lebih rendah (underestimate)nilai statistik uji t atau F akan lebih besar dari yang sebenarnya
- Metode Weighted Least Square
- Metode White
Uji Non-
Autokorelasi Memeriksa apakah galat dari model regresi tidak saling
berkorelasi satu sama lain
- Uji Durbin Watson - Breusch-
Godfrey.
- Pendugaan koefisien regresi yang tidak relevan karena ragam yang besar
- Overestimated R- squared
- Saat nilai 𝜌 diketahui,
transformasi untuk memperbaiki model regresi
- Saat nilai tidak 𝜌 diketahui, terlebih dahulu diduga nilaii r-squared, baru setelahnya
dilakukann transformasi
Berikut diberikan sebuah data set untuk dilakukan analisis regresi dan pemeriksaan terhadap seluruh asumsi. Data yang diberikan terdiri dari 75 pengamatan dengan variabel respons adalah Sales, dan variabel prediktor adalah Indeks harga barang (Price - 𝑋1) dan biaya yang dikeluarkan untuk iklan (Advert - 𝑋2), dijelaskan sebagai berikut :
Obs sales price advert obs Sales price advert
1 73,2 5,69 1,3 39 66 5,93 2,8
2 71,8 6,49 2,9 40 84,3 5,2 2,3
3 62,4 5,63 0,8 41 79,5 5,62 1,2
4 67,4 6,22 0,7 42 80,2 5,28 3,1
5 89,3 5,02 1,5 43 67,6 5,46 1
6 70,3 6,41 1,3 44 86,5 5,11 2,5
7 73,2 5,85 1,8 45 87,6 5,04 2,1
8 86,1 5,41 2,4 46 84,2 5,08 2,8
9 81 6,24 0,7 47 75,2 5,86 3,1
10 76,4 6,2 3 48 84,7 4,89 3,1
11 76,6 5,48 2,8 49 73,7 5,68 0,9
12 82,2 6,14 2,7 50 81,2 5,83 1,8
13 82,1 5,37 2,8 51 69 6,33 3,1
14 68,6 6,45 2,8 52 69,7 6,47 1,9
15 76,5 5,35 2,3 53 78,1 5,7 0,7
16 80,3 5,22 1,7 54 88 5,22 1,6
17 70,7 5,89 1,5 55 80,4 5,05 2,9
18 75 5,21 0,8 56 79,7 5,76 2,3
19 73,7 6 2,9 57 73,2 6,25 1,7
20 71,2 6,37 0,5 58 85,9 5,34 1,8
21 84,7 5,33 2,1 59 83,3 4,98 0,6
22 73,6 5,23 0,8 60 73,6 6,39 3,1
23 73,7 5,88 1,1 61 79,2 6,22 1,2
24 78,1 6,24 1,9 62 88,1 5,1 2,1
25 75,7 5,59 2,1 63 64,5 6,49 0,5
26 74,4 6,22 1,3 64 84,1 4,86 2,9
27 68,7 6,41 1,1 65 91,2 5,1 1,6
28 83,9 4,96 1,1 66 71,8 5,98 1,5
29 86,1 4,83 2,9 67 80,6 5,02 2
30 73,7 6,35 1,4 68 73,1 5,08 1,3
31 75,7 6,47 2,5 69 81 5,23 1,1
32 78,8 5,69 3 70 73,7 6,02 2,2
33 73,7 5,56 1 71 82,2 5,73 1,7
34 80,2 6,41 3,1 72 74,2 5,11 0,7
35 69,9 5,54 0,5 73 75,4 5,71 0,7
36 69,1 6,47 2,7 74 81,3 5,45 2
37 83,8 4,94 0,9 75 75 6,05 2,2
38 84,3 6,16 1,5
Secara teori, semakin murah suatu barang, maka permintaan/omset penjualan akan semakin tinggi dan sebaliknya. Lalu semakin besar biaya yang dikeluarkan untuk iklan, akan meningkatkan penjualan, karena tujuan dari iklan/promosi adalah untuk mengenalkan suatu barang kepada seseorang yang semula tidak mengetahui menjadi tahu dan tertarik untuk membeli. Berikut adalah hasil analisis regresi berganda atas variabel-variabel di atas :
Berdasarkan output 1 di atas didapatkan model sebagai berikut : 𝑆𝑎𝑙𝑒𝑠𝑖 = 𝛽1+ 𝛽2𝑃𝑟𝑖𝑐𝑒𝑖+ 𝛽3𝐴𝑑𝑣𝑒𝑟𝑡𝑖
𝑆𝑎𝑙𝑒𝑠̂𝑖= 118,914 − 7,90785 𝑃𝑟𝑖𝑐𝑒̂ 𝑖+ 1,86258 𝐴𝑑𝑣𝑒𝑟𝑡̂ 𝑖
Selanjutnya dihitung nilai residual untuk pengujian asumsi klasik : 𝑢̂ = 𝑆𝑎𝑙𝑒𝑠𝑖− 𝑆𝑎𝑙𝑒𝑠̂𝑖
• Pengujian Asumsi Normalitas Hipotesis uji yang diajukan :
𝐻0: 𝑃𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛 𝑚𝑒𝑛𝑦𝑒𝑏𝑎𝑟 𝑛𝑜𝑟𝑚𝑎𝑙 Vs 𝐻1: 𝑃𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛 𝑡𝑖𝑑𝑎𝑘 𝑚𝑒𝑛𝑦𝑒𝑏𝑎𝑟 𝑛𝑜𝑟𝑚𝑎𝑙
Berikut adalah hasil pengujian asumsi normalitas menggunakan histogram sisaan dan uji Jarque-Bera :
Berdasarkan hasil histogram sisaan di atas, tampak puncak histogram berada di sekitar nilai nol dan gambar distribusi simetris pada sisi kiri-kanan berbentuk lonceng. Hasil statistik uji Jarque-Bera adalah 0,1589 dengan nilai P sebesar 0,9235, yang berarti nilai statistik uji Jarque-Bera mendekati nol dan tidak ada alasan untuk menolak 𝐻0. Selain itu nilai P lebih besar dari taraf nyata 5%, yang menunjukkan cukup bukti untuk menerima 𝐻0. Dalam data set ini, asumsi normalitas galat terpenuhi.
0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-15 -10 -5 0 5 10 15
Density
Residual
relative frequency N(3,6664e-14 4,8196) Test statistic for normality:
Chi-square(2) = 0,990 [0,6097]
Output 1. Summary Regresi OLS
Output 3. Uji Normalitas
Output 2. Histogram Sisaan
• Pengujian Asumsi Non-Multikolinieritas Hipotesis uji yang diajukan adalah :
𝐻0: 𝑡𝑖𝑑𝑎𝑘 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝑚𝑢𝑙𝑡𝑖𝑘𝑜𝑙𝑖𝑛𝑖𝑒𝑟𝑖𝑡𝑎𝑠 𝑎𝑛𝑡𝑎𝑟 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑡𝑜𝑟 Vs
𝐻1: 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝑚𝑢𝑙𝑡𝑖𝑘𝑜𝑙𝑖𝑛𝑖𝑒𝑟𝑖𝑡𝑎𝑠 𝑎𝑛𝑡𝑎𝑟 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑡𝑜𝑟 Berikut adalah hasil pengujian asumsi multikolinieritas menggunakan nilai VIF :
Berdasarkan output di atas nilai VIF masing-masing variabel prediktor sebesar 1 yang menunjukkan tidak ada korelasi antara variabel prediktor. Maka asumsi non-multikolinieritas telah terpenuhi.
• Pengujian Asumsi Homoskedastisitas
Secara visual hipotesis uji yang diajukan menggunakan plot antara 𝑌̂ dengan sisaan adalah : 𝐻0: 𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑝𝑜𝑙𝑎 𝑡𝑒𝑟𝑠𝑡𝑟𝑢𝑘𝑡𝑢𝑟 𝑝𝑎𝑑𝑎 𝑝𝑙𝑜𝑡 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
Vs
𝐻1: 𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 𝑝𝑜𝑙𝑎 𝑡𝑒𝑟𝑠𝑡𝑟𝑢𝑘𝑡𝑢𝑟 𝑝𝑎𝑑𝑎 𝑝𝑙𝑜𝑡 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
Pada grafik di atas menunjukkan tidak adanya pola tertentu pada plot residual terhadap masing-masing variabel prediktor, sehingga dapat dikatakan bahwa ragam galat bersifat homoskedastisitas. Agar lebih banyak bukti untuk pengujian asumsi homoskedastisitas, maka dilakukan uji LM Breusch-Pagan dengan hipotesis uji sebagai berikut :
𝐻0: 𝑟𝑎𝑔𝑎𝑚 𝑔𝑎𝑙𝑎𝑡 𝑘𝑜𝑛𝑠𝑡𝑎𝑛 (𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 ℎ𝑒𝑡𝑒𝑟𝑜𝑠𝑘𝑒𝑑𝑎𝑠𝑡𝑖𝑠𝑖𝑡𝑎𝑠) Vs
𝐻1: 𝑟𝑎𝑔𝑎𝑚 𝑔𝑎𝑙𝑎𝑡 𝑡𝑖𝑑𝑎𝑘 𝑘𝑜𝑛𝑠𝑡𝑎𝑛 (𝑡𝑒𝑟𝑑𝑎𝑝𝑎𝑡 ℎ𝑒𝑡𝑒𝑟𝑜𝑠𝑘𝑒𝑑𝑎𝑠𝑡𝑖𝑠𝑖𝑡𝑎𝑠)
-15 -10 -5 0 5 10 15
4,8 5 5,2 5,4 5,6 5,8 6 6,2 6,4
residual
price
Regression residuals (= observed - fitted sales)
-15 -10 -5 0 5 10 15
0,5 1 1,5 2 2,5 3
residual
advert
Regression residuals (= observed - fitted sales)
Output 4. Pengujian Asumsi Multikolinieritas
Output 5. Plot Residual vs Variabel X
Berdasarkan output 6 di atas, nilai statistik uji Breusch-Pagan sebesar 2,7964 dengan nilai P sebesar 0,2470.
Dalam hal ini nilai P lebih besar dari taraf nyata yang diujikan yaitu sebesar 0,05, sehingga cukup bukti untuk tidak menolak 𝐻0. Maka asumsi homoskedastisitas telah terpenuhi.
• Pengujian Asumsi Non-Autokorelasi
Data set yang diberikan adalah data cross sectional. Pengujian asumsi non-autokorelasi biasanya dilakukan pada data time series, di mana pengamatan pada satu waktu dipengaruhi pengamatan waktu lain.
Menggunakan software gretl, saat data terdeteksi sebagai data cross-sectional maka pengujian terhadap asumsi non-autokorelasi otomatis tidak aktif :
Setelah seluruh pengujian asumsi terpenuhi maka dapat diperoleh model regresi linier berganda dengan output sebagai berikut :
Output 6. Pengujian Breusch-Pagan
Output 7. Menu pengujian Autokorelasi
Berdasarkan hasil output 8 di atas, menunjukkan bahwa hasil uji statistik untuk setiap koefisien adalah signifikan, baik secara parsial maupun serempak di mana nilai p sangat kecil atau kurang dari taraf nyata 5% (cukup bukti untuk menolak 𝐻0) , yang berarti variabel Price dan Variabel Advert berpengaruh secara signifikan terhadap variabel sales.
Tanda pada masing-masing koefisien juga sesuai dengan teori ekonomi yang disebutkan di awal, yaitu :
• Indeks harga berhubungan negatif terhadap sales, di mana semakin tinggi indeks harga suatu produk akan menurunkan permintaan yang berarti menurunkan sales. Koefisien pada model regresinya adalah -7,9078
• Biaya iklan berhubungan posistif terhadap sales, yang berarti semakin besar biaya iklan akan meningkatkan sales. Koefisien pada model regresinya adalah 1,8625
Model regresi berganda yang terbentuk adalah sebagai berikut :
𝑠𝑎𝑙𝑒𝑠̂ = 118,914 − 7,90785𝑃𝑟𝑖𝑐𝑒 + 1,86258 𝐴𝑑𝑣𝑒𝑟𝑡
• Setiap terjadi kenaikan harga produk akan menurunkan rata-rata sales sebesar $7,9078, dengan asumsi variabel selainnya adalah nol
• Setiap kenaikan biaya iklan akan menambahkan rata-rata sales sebesar $1,8625, dengan asumsi variabel selainnya adalah nol.
Dalam output di atas juga didapatkan nilai R-squared sebesar 44,8% yang berarti model yang diperoleh berhasil menjelaskan pengaruh harga produk (price) dan biaya iklan (advert) terhadap sales, sebesar 44,8%.
Memang bukan nilai yang cukup tinggi, namun model yang diperoleh susah sesuai dengan teori ekonomi yang diujikan.
Output 8. Summary Regresi OLS