REGRESSION ANALYSIS USING REGRESSION ANALYSIS USING
RIDGE REGRESSION, BEST RIDGE REGRESSION, BEST MODEL, AND NON-LINEAR MODEL, AND NON-LINEAR
REGRESSION REGRESSION
ANALISIS REGRESI B
Lectures:
Santi Puteri Rahayu, S.Si., M.Si,. Ph.D Presented by Kelompok 1
MEET THE TEAM: GROUP 3
Alif Muhammad Mahrus
5003221035
Grahsaro Yosha Teduhati
5003221015
Daffa Dzaky M.
5003221004
Sumaniata Angelica P.
5003221064
Safira Wijawati
5003221126
M. Noor Satriya
5003221140
RIDGE
REGRESSION
a. Lampiran struktur data
b. Scatter plot dan matriks korelasi antara respon dan prediktor c. Hasil estimasi model regresi linier OLS
d. Hasil pengecekan pemenuhan asumsi tidak terjadi multikolinieritas pada model regresi linier OLS
e. Hasil estimasi regresi Ridge dan check multikolinieritas dengan VIF
f. Hasil estimasi model regresi linier yang dinyatakan dalam x g. Hasil evaluasi kesesuaian tanda estimasi parameter model dengan tanda koefisien korelasi pada estimasi model regresi yang dinyatakan dalam x (pengecheckan pemenuhan asumsi tidak terjadi multikolinieritas) dan interpretasikan
STRUKTUR DATA
SCATTER PLOT
Berdasarkan Scatter Plot
yang telah dibuat pada
gambar disamping. Terlihat
bahwa hubungan antar
variabel dependen (Y)
dengan Variabel Independen
X1 dan X2 berhubungan
positif sedangakan
hubungan antar variabel
dependen (Y) dengan
variabel independen X3 dan
X3 adalah negatif.
MATRIKS KORELASI
Postulated Model :
Hubungan antara variabel
Y & X1: positif dengan koefisien korelasi sebesar 0,731 menunjukkan hubungan cukup kuat.
Y & X2: positif dengan koefisien korelasi sebesar 0,816 menunjukkan hubungan kuat.
Y & X3: negatif dengan koefisien korelasi sebesar -0,535 menunjukkan hubungan lemah.
Y & X4: negatif dengan koefisien korelasi sebesar -0,821 menunjukkan hubungan kuat.
ESTIMASI DENGAN OLS
Model Regresi :
SOFTWARE MICROSOFT EXCEL SOFTWARE MINITAB
TABEL OUTPUT SOFTWARE MINITAB
Dari output software Microsoft Excel dan Minitab memiliki hasil model regresi yang sama. Terlihat bahwa nilai R-Square yang tinggi sebesar 98,24%.
Y = 62,4 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4
Y = 62,405 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4^
^
DETEKSI MULTIKOLINIEARITAS MODEL OLS
INDIKATOR 1 : NILAI VIF
Apabila nilai VIF lebih dari 10 maka data terjadi gejala multikolinearitas
Terlihat bahwa nilai VIF > 10 dan bernilai sangat besar sehingga data tersebut terjadi gejala multikolinearitas.
INDIKATOR 2 : KORELASI
Nilai absolut korelasi antar prediktor regresi >
nilai absolut korelasi respon-prediktor regresi menandakan terjadi gejala multikolinearitas
Terlihat bahwa korelasi antar variabel prediktor X1 dan X3 sebesar 0,82. Korelasi antar variabel respon - prediktor senilai 0,73 dan 0,53. Serta korelasi antar variabel prediktor X2 dan X4 sebesar 0,97. Korelasi antar variabel respon - prediktor senilai 0,816 dan 0,821. Sehingga karena nilainya lebih besar, maka menandakan bahwa pada data tersebut terjadi gejala multikolinearitas.
Setelah dilihat dari 3 Indikator gejala multikolinearitas, dataset 1 pada setiap indikator memenuhi asumsi bahwa terjadi gejala multikolinearitas. Sehingga, dapat disimpulkan bahwa dataset 1 terjadi multikolinearitas. Untuk mengatasi multikolinearitas ini maka dilakukan analisis lebih lanjut dengan ridge regression
INDIKATOR 3 : TANDA BETA
Perbedaan tanda antara estimasi parameter (Beta) dan koefisien korelasi respon-prediktor maka menandakan data terjadi gejala multikolinearitas.
Terlihat pada Variabel Independen X3, tanda pada korelasi dan parameter berbeda. Pada korelasi bertanda negatif (-) sedangkan pada parameter bertanda positif (+) hal ini menandakan bahwa terjadi multikolinearitas.
Y = 62,405 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4
^
Bentuk model dari ill-conditionnya :
LANGKAH-LANGKAH MENGATASI ILL-C0NDITION
Karena mengalami ill-condition, maka variabel X kita misalkan sebagai variabel Z
Ubah variabel prediktor baru dari variabel Z -> f dengan standarisasi
Matriks F =
Tentukan nilai matriks F’F
Tentukan nilai matriks F’Y
LANGKAH-LANGKAH MENGATASI ILL-C0NDITION
Tentukan matriks θIr, dan Ir adalah matriks identitas dengan r=4
Dari data tersebut diketahui r=4; s^2=5,983;
bF(0)=[31,633 27,516 2,241 -8,388]’
Matriks identitas (I) dengan r=4 1)
2)
3) Kalikan nilai θ* dengan matriks identitas (Ir) Dapatkan nilai θ*
Dengan rumus :
LANGKAH-LANGKAH MENGATASI ILL-C0NDITION
Tentukan nilai bjF(θ) dengan j=1,2,3,4 Dengan rumus:
Tentukan nilai estimator bj(θ) dengan j=1,2,3,4 Dengan rumus:
Tentukan nilai estimatior b0(θ) Dengan rumus:
LANGKAH-LANGKAH MENGATASI ILL-C0NDITION
Mencari nilai VIF Dengan rumus:
Indikator 1: Nilai VIF>10
Pada perhitungan nilai VIF dari X1,X2,X3,X4, yaitu 2.83, 3.79, 2.74, dan 3.87 yang artinya kurang dari 10 sehingga data tidak terjadi gejala multikolinieritas
Indikator 3: Perbedaan Tanda
Didapatkan bahwa tanda antara estimasi parameter dan koefisien korelasi respon prediktor sesuai sehingga disimpulkan bahwa data tidak terjadi gejala multikolinieritas
DETEKSI MULTIKOLINIEARITAS MODEL RIDGE REG.
INTERPRETASI
Setelah melakukan mendeteksi multikolinieritas sehingga model dari Ridge Regression sudah dapat diintepretasikan dengan model sebagai berikut:
Y = 83,418 + 1,2993 X1 + 0,2998 X2 - 0,142 X3 - 0,349 X4
^INTERPRETASI:
83,418 adalah nilai dari variabel respon secara rata” yang tidak dijelaskan oleh variabel prediktor.
1.
Nilai β1 sebesar 1,2993 berarti setiap kenaikan 1 satuan X1 secara langsung menaikkan nilai y sebanyak 1,2993 satuan.
2.
Nilai β2 sebesar 0,2998 berarti setiap kenaikan 1 satuan X2 secara langsung menaikkan nilai y sebanyak 0,2998 satuan.
3.
Nilai β3 sebesar -0,142 berarti setiap kenaikan 1 satuan X3 secara langsung menurunkan nilai y sebanyak 0,142 satuan.
4.
Nilai β4 sebesar -0,349 berarti setiap kenaikan 1 satuan X4 secara langsung menurunkan nilai y sebanyak 0,349 satuan.
5.
THE BEST MODEL
Meliputi:
All Possible Regression 1.
Best Subset Regression 2.
Backward Elimination 3.
Forward Selection 4.
Stepwise Regression 5.
Sumber data: kesepakatan kelas
STRUKTUR DATA
Berikut merupakan struktur data yang akan digunakan untuk mencari best model
dengan data berjumlah sebesar 64, data menggambarkan faktor-faktor yang diduga memengaruhi nilai Indeks Kenyamanan Kota (IKK). Indeks Kenyamanan Kota diwakilkan oleh variabel respon Y, kemudian beberapa faktor penduga seperti jumlah remaja diwakilkan oleh variabel prediktor X1, sex rasio yang diwakilkan oleh X2, dependensi rasio yang diwakilkan oleh X3, dan nilai APK-PT (Angka Partisipasi Kasar Perguruan Tinggi) yang diwakilkan oleh X4.
SCATTER PLOT MATRIKS KORELASI
Hubungan antara variabel
IKK & Jumlah Remaja (X1): positif dengan koefisien korelasi sebesar 0,286 menunjukkan hubungan sangat lemah.
IKK & Sex Ratio (X2): positif dengan koefisien korelasi sebesar 0,706 menunjukkan hubungan kuat.
IKK & Dependensi Ratio (X3): negatif dengan koefisien korelasi sebesar -0,864 menunjukkan hubungan sangat kuat.
IKK & APK-PT (X4): negatif dengan koefisien korelasi sebesar -0,788 menunjukkan hubungan kuat.
Menggunakan
metode All Possible Regression, kita bisa lakukan langkah awal dengan mencari nilai R yang tertinggi.2
Kemudian kita bisa lakukan langkah selanjutnya yakni dengan mencari nilai R Adjusted yang tertinggi.
2
ALL POSSIBLE REGRESSION
Selain itu kita bisa melihat dari sisi Mean Squared Residual atau nilai MSE, dimana semakin kecil nilainya, maka ia akan semakin baik
ALL POSSIBLE REGRESSION
Dari nilai Cp kita bisa simpulkan bahwa nilai Cp akan semakin baik apabila nilai Cp mendekati jumlah parameter
Karena didapatkan bahwa nilai Cp yang paling mendekati jumlah parameter adalah 2.28 yakni nilai Cp dari variabel X2 dan X3, maka kita bisa simpulkan bahwa model terbaik dihasilkan oleh variabel tersebut dan didapatkan estimasi model regresi:
^
BEST SUBSET REGRESSION
Karena metode Best Subset kurang lebih sama seperti Metode All Possible, maka kita bisa susun menjadi seperti berikut:
Dan dari metode tersebut, sama seperti sebelumnya nilai Cp yang paling mendekati nilai p (dalam hal ini Var + 1) adalah pada X2 dan X3, sehingga didapatkan estimasi model regresi:
^
BACKWARD ELIMINATION
Untuk metode Backward Elimination, kita bisa coba untuk membuat estimasi model regresi dengan kondisi semua variabel prediktornya berada dalam estimasi model tersebut, sehingga didapatkan:
^
dengan hasil pengujian seperti berikut:
Dari tabel pengujian tersebut kita bisa mencoba untuk mengeluarkan variabel yang memiliki nilai P-Value terbesar atau nilai absolut T-Value terkecil, karena 2 hal tersebut menandakan bahwa variabel tersebut tidak memiliki efek signifikan. Dari keputusan tersebut maka kita dapat mengeluarkan variabel X4.
BACKWARD ELIMINATION
KIta cari kembali estimasi model regresi, namun kali ini tidak memasukkan variabel X4, sehingga kita dapatkan estimasi model regresi yang terbaru yakni:
^
dengan hasil pengujian seperti berikut:
Dari tabel pengujian tersebut kita bisa mencoba untuk mengeluarkan variabel yang memiliki nilai P-Value terbesar atau nilai absolut T-Value terkecil lainnya yakni variabel X1. Sehingga kemudian kita bisa kembali mencoba untuk mencari estimasi model regresi terbaru tanpa menyangkut-pautkan variabel X4 dan X1, yakni:
^
BACKWARD ELIMINATION
Dengan mendapatkan hasil estimasi model regresi sebelumnya, kita bisa dapatkan hasil pengujiannya sebagai berikut:
Karena semua nilai P-Value variabel telah berada pada posisi dimana akan memberikan keputusan Tolak H , maka kita dapat memberhentikan eliminasi variabel. Sehingga didapatkan model terbaik dengan metode backward elimination adalah sebagai berikut: 0
^
FORWARD SELECTION
Untuk metode forward selection, langkah pertama yang harus kita lakukan adalah mencari nilai korelasi dari tiap variabel bebas terhadap variabel respon, berikut merupakan hasil yang didapatkan dari minitab:
Karena nilai korelasi terbesar dipegang oleh korelasi variabel Y dengan X3, maka kita bisa mulai lakukan pengujian dan mendapatkan estimasi model regresi dari kedua variabel tersebut, dan didapatkan:
^
FORWARD SELECTION
Karena dari korelasi parsial, nilai korelasi terbesar dihasilkan oleh X2, maka kita akan menambahkan X2 ke dalam estimasi model regresi kita, sehingga menghasilkan estimasi model regresi:
Karena nilai P-Value dan T-Value masih menyatakan Tolak H , maka kita akan lanjutkan penambahan variabel bebas sesuai dengan korelasi parsial terbesar selanjutnya. Korelasi parsial dapat kita lakukan dengan SPSS dan kita dapatkan korelasi parsial sebagai berikut.
0
dengan hasil pengujian model sebagai berikut:
FORWARD SELECTION
^
dengan hasil pengujian seperti berikut:
Karena masing-masing variabel masih memiliki nilai yang signifikan, menurut nilai P-Value dan T- Value, maka kita lanjutkan kembali untuk menambah variabel dengan melihat dari korelasi parsial.
FORWARD SELECTION
Karena didapat bahwa nilai korelasi terbesar selanjutnya diperoleh dari X1, maka kita coba masukkan X1 dalam estimasi model regresi, sehingga didapatkan:
^
dengan hasil pengujian sebagai berikut:
karena terdapat nilai yang membuat estimasi menjadi gagal tolak H , maka penambahan berhenti pada variabel sebelumnya dan disimpulkan bahwa estimasi model terbaiknya adalah:0
^
STEPWISE
Stepwise, merupakan kombinasi dari 2 metode sebelumnya, sehingga seperti metode Forward Selection. Pertama kita mencari korelasi dari variabel bebas terhadap variabel respon.
Dari seluruh nilai korelasi variabel bebas terhadap variabel respon, kita tahu bahwa korelasi variabel X3 dengan variabel Y merupakan nilai korelasi terbesar sehingga kita buat estimasi model regresi dengan variabel tersebut, sehingga diperoleh:
^
STEPWISE
dengan estimasi model yang didapat, berikut merupakan hasil pengujian model tersebut:
Karena nilai P-Value dan T-Value masih menyatakan tolak H , maka kita lanjutkan untuk mencari variabel lain yang sekiranya memiliki sifat seperti X3, dimana hasil pengujian akan menyatakan tolak H , yang menandakan bahwa variabel tersebut signifikan. Penambahan variabel dilakukan dengan melihat nilai korelasi parsial dengan nilai tertinggi.
0
0
Pada tabel, variabel dengan nilai tertinggi selanjutnya adalah variabel X2, sehingga kita coba untuk menambahkan variabel tersebut pada estimasi model regresi.
STEPWISE
didapatkan estimasi model regresi:
^
dengan hasil pengujian seperti berikut:
karena kedua variabel masih memiliki keputusan yang sama, maka kita coba lanjutkan untuk memasukkan variabel lain yang tersedia, kembali menggunakan ketentuan nilai tertinggi dari korelasi parsial.
STEPWISE
Berdasarkan korelasi parsial tersebut kita coba masukkan variabel X1, sehingga didapatkan estimasi model regresi:
^
dengan pengujian sebagai berikut:
Karena didapatkan bahwa variabel X1, memiliki keputusan yang berkebalikan dengan variabel X2 dan X3, maka kita keluarkan variabel tersebut dan kita coba substitusi dengan variabel lain yang belum kita coba masukkan, yakni variabel X4. Didapatkan model regresi dengan variabel X2, X3, dan X4 sebagai berikut:
^
STEPWISE
dari hasil estimasi model tersebut, didapatkan hasil pengujian seperti dibawah
Karena X4, menghasilkan hasil keputusan P-Value dan T-Value yang kurang lebih sama seperti variabel X1, maka kita putuskan untuk tidak memasukkan variabel X4 pada model terbaik.
Sehingga model terbaik untuk menggambarkan variabel bebas dan respon adalah
^
Dengan interpretasi bahwa setiap peningkatan nilai sex rasio (X2) sebanyak satu satuan akan cenderung meningkatkan nilai Indeks Kenyamanan Kota/IKK (Y) sebesar 0.580 dan setiap peningkatan nilai dependensi rasio (X3) sebanyak satu satuan akan cenderung menurunkan nilai Indeks Kenyamanan Kota/IKK sebesar 0.7478. Dengan nilai konstan IKK berada pada angka 78.3.
NON-LINEAR REGRESSION
(1) Linearisasi
(2) Gauss-Newton
Sumber data: PowerPoint Pengantar Regresi Non-Linear halaman 26
Meliputi:
3A. STRUKTUR DATA
Variabel y adalah kecepatan reaksi (velocity) yang diukur dalam satuan counts/min, sedangkan variabel x adalah konsentrasi substrat (concentration) yang diukur dalam satuan ppm (parts per million). Parameter θ1 adalah kecepatan asimptotik dari reaksi (atau nilai maksimum dari y ketika x mendekati tak terhingga), dan θ2 adalah konsentrasi substrat dimana kecepatan reaksi mencapai setengah dari nilai maksimumnya.
Berikut merupakan struktur data yang digunakan
3B. SCATTER PLOT DAN MATRIKS KORELASI SERTA BENTUK SPESIFIKASI MODEL
Didapat plot yang membentuk pola
non-linear sehingga jika
diberi garis regresi linear menjadi
tidak tepat.
Gambar 1. Gambar 2.
Diperoleh koefisien korelasi antara y (kecepatan reaksi) dan x (konsentrasi substrat) sebesar 0,831 artinya memiliki hubungan sangat kuat positif.
3B. SCATTER PLOT DAN MATRIKS KORELASI SERTA BENTUK SPESIFIKASI MODEL
Spesifikasi Model
Postulate Model
Model Taksiran
Linier Intrinsik
dimana
UJI LACK OF FIT
3C. ESTIMASI MODEL DENGAN METODE OLS
Hipotesis
H ∶Tidak terdapat lack of fit dalam model H ∶Terdapat lack of fit dalam model
Daerah Keputusan
Tolak H jika P-Value < α karena 0,001 < 0,05 maka tolak H
Taraf Signifikansi α = 0,05
Kesimpulan
Terdapat lof dalam model atau terjadi ketidaktepatan model regresi linier orde pertama.
0 1
0
0
Karena pada slide sebelumnya, telah ditunjukkan bahwa model Michaelis-Manten adalah model non-linear dan termasuk linier
intrinsik, maka dapat dilanjutkan linearisasi dengan OLS
Maka,
Model regresi linear dengan metode OLS
Prosedur: Regresi Non Linier
Plot 1/y VS 1/x membentuk suatu garis linear
Scatter Plot setelah model regresi dilinearisasi
(2) Gauss-Newton
Untuk menemukan parameter θ1 dan θ2, menurunkan model terhadap
parameternya, seperti berikut:
Formula yang digunakan
Kemudian dilakukan proses iterasi sampai konvergen dimana:
Dari rumus di atas, diperoleh taksiran b sebagai berikut
Dilanjutkan proses iterasi, pada slide berikutnya ...
3D. ESTIMASI MODEL DENGAN METODE GAUSS NEWTON
Rumus yang diberikan
Iterasi ke-0
Sesuai yang ada di ppt, diperoleh initial value sebagai berikut:
Iterasi ke-1
Iterasi ke-2
Iterasi ke-3
Iterasi ke-4
Iterasi ke-5
Iterasi ke-6
Tabel Hasil Iterasi
Setelah itu diperoleh tabel ANOVA sebagai berikut:
UJI SERENTAK
Hipotesis
H ∶θ = θ = 0
H ∶minimal ada satu θ ≠ 0 ; j = 1, 2 Taraf Signifikansi
α = 0,05
Daerah Keputusan:
Tolak H jika P-Value < α dan 0,0001 < 0,05 maka tolak H
Statistik Uji:
Pvalue < 0,0001
Kesimpulan:
Minimal terdapat 1 parameter θ yang signifikan terhadap model.
0 1
0
0
1 j
2
UJI INDIVIDU
Hipotesis H ∶θ = 0 H ∶θ ≠ 0
Taraf Signifikansi α = 0,05
Daerah Keputusan:
Tolak H jika t > t = t = 3,581 karena 30,62 > 3,581 Statistik Uji:
0 1
1 1
Uji θ 1
tabel 0,0025;10
Kesimpulan: Tolak H artinya θ signifikan terhadap model.
0
0 1
Hipotesis H ∶θ = 0 H ∶θ ≠ 0
Taraf Signifikansi α = 0,05
Daerah Keputusan:
Tolak H jika t > t = t = 3,581 karena 7,74 > 3,581 Statistik Uji:
0 2
1 2
Uji θ 1
tabel 0,0025;10
Kesimpulan: Tolak H artinya θ signifikan terhadap model.
0
0 2
Maka,
3E. HASIL EVALUASI
Model Gauss-Newton Model OLS
TERIMA KASIH
Semoga bermanfaat