ANREG TUGAS 2 Kelompok 1

(1)

REGRESSION ANALYSIS USING REGRESSION ANALYSIS USING

RIDGE REGRESSION, BEST RIDGE REGRESSION, BEST MODEL, AND NON-LINEAR MODEL, AND NON-LINEAR

REGRESSION REGRESSION

ANALISIS REGRESI B

Lectures:

Santi Puteri Rahayu, S.Si., M.Si,. Ph.D Presented by Kelompok 1

(2)

MEET THE TEAM: GROUP 3

Alif Muhammad Mahrus

5003221035

Grahsaro Yosha Teduhati

5003221015

Daffa Dzaky M.

5003221004

Sumaniata Angelica P.

5003221064

Safira Wijawati

5003221126

M. Noor Satriya

5003221140

(3)

RIDGE

REGRESSION

a. Lampiran struktur data

b. Scatter plot dan matriks korelasi antara respon dan prediktor c. Hasil estimasi model regresi linier OLS

d. Hasil pengecekan pemenuhan asumsi tidak terjadi multikolinieritas pada model regresi linier OLS

e. Hasil estimasi regresi Ridge dan check multikolinieritas dengan VIF

f. Hasil estimasi model regresi linier yang dinyatakan dalam x g. Hasil evaluasi kesesuaian tanda estimasi parameter model dengan tanda koefisien korelasi pada estimasi model regresi yang dinyatakan dalam x (pengecheckan pemenuhan asumsi tidak terjadi multikolinieritas) dan interpretasikan

(4)

STRUKTUR DATA

(5)

SCATTER PLOT

Berdasarkan Scatter Plot

yang telah dibuat pada

gambar disamping. Terlihat

bahwa hubungan antar

variabel dependen (Y)

dengan Variabel Independen

X1 dan X2 berhubungan

positif sedangakan

hubungan antar variabel

dependen (Y) dengan

variabel independen X3 dan

X3 adalah negatif.

(6)

MATRIKS KORELASI

Postulated Model :

Hubungan antara variabel

Y & X1: positif dengan koefisien korelasi sebesar 0,731 menunjukkan hubungan cukup kuat.

Y & X2: positif dengan koefisien korelasi sebesar 0,816 menunjukkan hubungan kuat.

Y & X3: negatif dengan koefisien korelasi sebesar -0,535 menunjukkan hubungan lemah.

Y & X4: negatif dengan koefisien korelasi sebesar -0,821 menunjukkan hubungan kuat.

(7)

ESTIMASI DENGAN OLS

Model Regresi :

SOFTWARE MICROSOFT EXCEL SOFTWARE MINITAB

TABEL OUTPUT SOFTWARE MINITAB

Dari output software Microsoft Excel dan Minitab memiliki hasil model regresi yang sama. Terlihat bahwa nilai R-Square yang tinggi sebesar 98,24%.

Y = 62,4 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4

Y = 62,405 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4^{^}

^

(8)

DETEKSI MULTIKOLINIEARITAS MODEL OLS

INDIKATOR 1 : NILAI VIF

Apabila nilai VIF lebih dari 10 maka data terjadi gejala multikolinearitas

Terlihat bahwa nilai VIF > 10 dan bernilai sangat besar sehingga data tersebut terjadi gejala multikolinearitas.

INDIKATOR 2 : KORELASI

Nilai absolut korelasi antar prediktor regresi >

nilai absolut korelasi respon-prediktor regresi menandakan terjadi gejala multikolinearitas

Terlihat bahwa korelasi antar variabel prediktor X1 dan X3 sebesar 0,82. Korelasi antar variabel respon - prediktor senilai 0,73 dan 0,53. Serta korelasi antar variabel prediktor X2 dan X4 sebesar 0,97. Korelasi antar variabel respon - prediktor senilai 0,816 dan 0,821. Sehingga karena nilainya lebih besar, maka menandakan bahwa pada data tersebut terjadi gejala multikolinearitas.

Setelah dilihat dari 3 Indikator gejala multikolinearitas, dataset 1 pada setiap indikator memenuhi asumsi bahwa terjadi gejala multikolinearitas. Sehingga, dapat disimpulkan bahwa dataset 1 terjadi multikolinearitas. Untuk mengatasi multikolinearitas ini maka dilakukan analisis lebih lanjut dengan ridge regression

INDIKATOR 3 : TANDA BETA

Perbedaan tanda antara estimasi parameter (Beta) dan koefisien korelasi respon-prediktor maka menandakan data terjadi gejala multikolinearitas.

Terlihat pada Variabel Independen X3, tanda pada korelasi dan parameter berbeda. Pada korelasi bertanda negatif (-) sedangkan pada parameter bertanda positif (+) hal ini menandakan bahwa terjadi multikolinearitas.

Y = 62,405 + 1,551 X1 + 0,510 X2 + 0,102 X3 - 0,144 X4

^

(9)

Bentuk model dari ill-conditionnya :

LANGKAH-LANGKAH MENGATASI ILL-C0NDITION

Karena mengalami ill-condition, maka variabel X kita misalkan sebagai variabel Z

(10)

Ubah variabel prediktor baru dari variabel Z -> f dengan standarisasi

Matriks F =

Tentukan nilai matriks F’F

Tentukan nilai matriks F’Y

LANGKAH-LANGKAH MENGATASI ILL-C0NDITION

(11)

Tentukan matriks θIr, dan Ir adalah matriks identitas dengan r=4

Dari data tersebut diketahui r=4; s^2=5,983;

bF(0)=[31,633 27,516 2,241 -8,388]’

Matriks identitas (I) dengan r=4 1)

2)

3) Kalikan nilai θ* dengan matriks identitas (Ir) Dapatkan nilai θ*

Dengan rumus :

LANGKAH-LANGKAH MENGATASI ILL-C0NDITION

(12)

Tentukan nilai bjF(θ) dengan j=1,2,3,4 Dengan rumus:

Tentukan nilai estimator bj(θ) dengan j=1,2,3,4 Dengan rumus:

Tentukan nilai estimatior b0(θ) Dengan rumus:

LANGKAH-LANGKAH MENGATASI ILL-C0NDITION

(13)

Mencari nilai VIF Dengan rumus:

Indikator 1: Nilai VIF>10

Pada perhitungan nilai VIF dari X1,X2,X3,X4, yaitu 2.83, 3.79, 2.74, dan 3.87 yang artinya kurang dari 10 sehingga data tidak terjadi gejala multikolinieritas

Indikator 3: Perbedaan Tanda

Didapatkan bahwa tanda antara estimasi parameter dan koefisien korelasi respon prediktor sesuai sehingga disimpulkan bahwa data tidak terjadi gejala multikolinieritas

DETEKSI MULTIKOLINIEARITAS MODEL RIDGE REG.

(14)

INTERPRETASI

Setelah melakukan mendeteksi multikolinieritas sehingga model dari Ridge Regression sudah dapat diintepretasikan dengan model sebagai berikut:

Y = 83,418 + 1,2993 X1 + 0,2998 X2 - 0,142 X3 - 0,349 X4

^

INTERPRETASI:

83,418 adalah nilai dari variabel respon secara rata” yang tidak dijelaskan oleh variabel prediktor.

1.

Nilai β1 sebesar 1,2993 berarti setiap kenaikan 1 satuan X1 secara langsung menaikkan nilai y sebanyak 1,2993 satuan.

2.

Nilai β2 sebesar 0,2998 berarti setiap kenaikan 1 satuan X2 secara langsung menaikkan nilai y sebanyak 0,2998 satuan.

3.

Nilai β3 sebesar -0,142 berarti setiap kenaikan 1 satuan X3 secara langsung menurunkan nilai y sebanyak 0,142 satuan.

4.

Nilai β4 sebesar -0,349 berarti setiap kenaikan 1 satuan X4 secara langsung menurunkan nilai y sebanyak 0,349 satuan.

5.

(15)

THE BEST MODEL

Meliputi:

All Possible Regression 1.

Best Subset Regression 2.

Backward Elimination 3.

Forward Selection 4.

Stepwise Regression 5.

Sumber data: kesepakatan kelas

(16)

STRUKTUR DATA

Berikut merupakan struktur data yang akan digunakan untuk mencari best model

dengan data berjumlah sebesar 64, data menggambarkan faktor-faktor yang diduga memengaruhi nilai Indeks Kenyamanan Kota (IKK). Indeks Kenyamanan Kota diwakilkan oleh variabel respon Y, kemudian beberapa faktor penduga seperti jumlah remaja diwakilkan oleh variabel prediktor X1, sex rasio yang diwakilkan oleh X2, dependensi rasio yang diwakilkan oleh X3, dan nilai APK-PT (Angka Partisipasi Kasar Perguruan Tinggi) yang diwakilkan oleh X4.

(17)

SCATTER PLOT MATRIKS KORELASI

Hubungan antara variabel

IKK & Jumlah Remaja (X1): positif dengan koefisien korelasi sebesar 0,286 menunjukkan hubungan sangat lemah.

IKK & Sex Ratio (X2): positif dengan koefisien korelasi sebesar 0,706 menunjukkan hubungan kuat.

IKK & Dependensi Ratio (X3): negatif dengan koefisien korelasi sebesar -0,864 menunjukkan hubungan sangat kuat.

IKK & APK-PT (X4): negatif dengan koefisien korelasi sebesar -0,788 menunjukkan hubungan kuat.

(18)

Menggunakan

metode All Possible Regression, kita bisa lakukan langkah awal dengan mencari nilai R yang tertinggi.²

Kemudian kita bisa lakukan langkah selanjutnya yakni dengan mencari nilai R Adjusted yang tertinggi.

2

ALL POSSIBLE REGRESSION

Selain itu kita bisa melihat dari sisi Mean Squared Residual atau nilai MSE, dimana semakin kecil nilainya, maka ia akan semakin baik

(19)

ALL POSSIBLE REGRESSION

Dari nilai Cp kita bisa simpulkan bahwa nilai Cp akan semakin baik apabila nilai Cp mendekati jumlah parameter

Karena didapatkan bahwa nilai Cp yang paling mendekati jumlah parameter adalah 2.28 yakni nilai Cp dari variabel X2 dan X3, maka kita bisa simpulkan bahwa model terbaik dihasilkan oleh variabel tersebut dan didapatkan estimasi model regresi:

^

(20)

BEST SUBSET REGRESSION

Karena metode Best Subset kurang lebih sama seperti Metode All Possible, maka kita bisa susun menjadi seperti berikut:

Dan dari metode tersebut, sama seperti sebelumnya nilai Cp yang paling mendekati nilai p (dalam hal ini Var + 1) adalah pada X2 dan X3, sehingga didapatkan estimasi model regresi:

^

(21)

BACKWARD ELIMINATION

Untuk metode Backward Elimination, kita bisa coba untuk membuat estimasi model regresi dengan kondisi semua variabel prediktornya berada dalam estimasi model tersebut, sehingga didapatkan:

^

dengan hasil pengujian seperti berikut:

Dari tabel pengujian tersebut kita bisa mencoba untuk mengeluarkan variabel yang memiliki nilai P-Value terbesar atau nilai absolut T-Value terkecil, karena 2 hal tersebut menandakan bahwa variabel tersebut tidak memiliki efek signifikan. Dari keputusan tersebut maka kita dapat mengeluarkan variabel X4.

(22)

BACKWARD ELIMINATION

KIta cari kembali estimasi model regresi, namun kali ini tidak memasukkan variabel X4, sehingga kita dapatkan estimasi model regresi yang terbaru yakni:

^

Dari tabel pengujian tersebut kita bisa mencoba untuk mengeluarkan variabel yang memiliki nilai P-Value terbesar atau nilai absolut T-Value terkecil lainnya yakni variabel X1. Sehingga kemudian kita bisa kembali mencoba untuk mencari estimasi model regresi terbaru tanpa menyangkut-pautkan variabel X4 dan X1, yakni:

^

(23)

BACKWARD ELIMINATION

Dengan mendapatkan hasil estimasi model regresi sebelumnya, kita bisa dapatkan hasil pengujiannya sebagai berikut:

Karena semua nilai P-Value variabel telah berada pada posisi dimana akan memberikan keputusan Tolak H , maka kita dapat memberhentikan eliminasi variabel. Sehingga didapatkan model terbaik dengan metode backward elimination adalah sebagai berikut: ⁰

^

(24)

FORWARD SELECTION

Untuk metode forward selection, langkah pertama yang harus kita lakukan adalah mencari nilai korelasi dari tiap variabel bebas terhadap variabel respon, berikut merupakan hasil yang didapatkan dari minitab:

Karena nilai korelasi terbesar dipegang oleh korelasi variabel Y dengan X3, maka kita bisa mulai lakukan pengujian dan mendapatkan estimasi model regresi dari kedua variabel tersebut, dan didapatkan:

^

(25)

FORWARD SELECTION

Karena dari korelasi parsial, nilai korelasi terbesar dihasilkan oleh X2, maka kita akan menambahkan X2 ke dalam estimasi model regresi kita, sehingga menghasilkan estimasi model regresi:

Karena nilai P-Value dan T-Value masih menyatakan Tolak H , maka kita akan lanjutkan penambahan variabel bebas sesuai dengan korelasi parsial terbesar selanjutnya. Korelasi parsial dapat kita lakukan dengan SPSS dan kita dapatkan korelasi parsial sebagai berikut.

0

dengan hasil pengujian model sebagai berikut:

(26)

FORWARD SELECTION

^

Karena masing-masing variabel masih memiliki nilai yang signifikan, menurut nilai P-Value dan T- Value, maka kita lanjutkan kembali untuk menambah variabel dengan melihat dari korelasi parsial.

(27)

FORWARD SELECTION

Karena didapat bahwa nilai korelasi terbesar selanjutnya diperoleh dari X1, maka kita coba masukkan X1 dalam estimasi model regresi, sehingga didapatkan:

^

dengan hasil pengujian sebagai berikut:

karena terdapat nilai yang membuat estimasi menjadi gagal tolak H , maka penambahan berhenti pada variabel sebelumnya dan disimpulkan bahwa estimasi model terbaiknya adalah:⁰

^

(28)

STEPWISE

Stepwise, merupakan kombinasi dari 2 metode sebelumnya, sehingga seperti metode Forward Selection. Pertama kita mencari korelasi dari variabel bebas terhadap variabel respon.

Dari seluruh nilai korelasi variabel bebas terhadap variabel respon, kita tahu bahwa korelasi variabel X3 dengan variabel Y merupakan nilai korelasi terbesar sehingga kita buat estimasi model regresi dengan variabel tersebut, sehingga diperoleh:

^

(29)

STEPWISE

dengan estimasi model yang didapat, berikut merupakan hasil pengujian model tersebut:

Karena nilai P-Value dan T-Value masih menyatakan tolak H , maka kita lanjutkan untuk mencari variabel lain yang sekiranya memiliki sifat seperti X3, dimana hasil pengujian akan menyatakan tolak H , yang menandakan bahwa variabel tersebut signifikan. Penambahan variabel dilakukan dengan melihat nilai korelasi parsial dengan nilai tertinggi.

0

Pada tabel, variabel dengan nilai tertinggi selanjutnya adalah variabel X2, sehingga kita coba untuk menambahkan variabel tersebut pada estimasi model regresi.

(30)

STEPWISE

didapatkan estimasi model regresi:

^

karena kedua variabel masih memiliki keputusan yang sama, maka kita coba lanjutkan untuk memasukkan variabel lain yang tersedia, kembali menggunakan ketentuan nilai tertinggi dari korelasi parsial.

(31)

STEPWISE

Berdasarkan korelasi parsial tersebut kita coba masukkan variabel X1, sehingga didapatkan estimasi model regresi:

^

dengan pengujian sebagai berikut:

Karena didapatkan bahwa variabel X1, memiliki keputusan yang berkebalikan dengan variabel X2 dan X3, maka kita keluarkan variabel tersebut dan kita coba substitusi dengan variabel lain yang belum kita coba masukkan, yakni variabel X4. Didapatkan model regresi dengan variabel X2, X3, dan X4 sebagai berikut:

^

(32)

STEPWISE

dari hasil estimasi model tersebut, didapatkan hasil pengujian seperti dibawah

Karena X4, menghasilkan hasil keputusan P-Value dan T-Value yang kurang lebih sama seperti variabel X1, maka kita putuskan untuk tidak memasukkan variabel X4 pada model terbaik.

Sehingga model terbaik untuk menggambarkan variabel bebas dan respon adalah

^

Dengan interpretasi bahwa setiap peningkatan nilai sex rasio (X2) sebanyak satu satuan akan cenderung meningkatkan nilai Indeks Kenyamanan Kota/IKK (Y) sebesar 0.580 dan setiap peningkatan nilai dependensi rasio (X3) sebanyak satu satuan akan cenderung menurunkan nilai Indeks Kenyamanan Kota/IKK sebesar 0.7478. Dengan nilai konstan IKK berada pada angka 78.3.

(33)

NON-LINEAR REGRESSION

(1) Linearisasi

(2) Gauss-Newton

Sumber data: PowerPoint Pengantar Regresi Non-Linear halaman 26

Meliputi:

(34)

3A. STRUKTUR DATA

Variabel y adalah kecepatan reaksi (velocity) yang diukur dalam satuan counts/min, sedangkan variabel x adalah konsentrasi substrat (concentration) yang diukur dalam satuan ppm (parts per million). Parameter θ1 adalah kecepatan asimptotik dari reaksi (atau nilai maksimum dari y ketika x mendekati tak terhingga), dan θ2 adalah konsentrasi substrat dimana kecepatan reaksi mencapai setengah dari nilai maksimumnya.

Berikut merupakan struktur data yang digunakan

(35)

3B. SCATTER PLOT DAN MATRIKS KORELASI SERTA BENTUK SPESIFIKASI MODEL

Didapat plot yang membentuk pola

non-linear sehingga jika

diberi garis regresi linear menjadi

tidak tepat.

Gambar 1. Gambar 2.

Diperoleh koefisien korelasi antara y (kecepatan reaksi) dan x (konsentrasi substrat) sebesar 0,831 artinya memiliki hubungan sangat kuat positif.

(36)

3B. SCATTER PLOT DAN MATRIKS KORELASI SERTA BENTUK SPESIFIKASI MODEL

Spesifikasi Model

Postulate Model

Model Taksiran

Linier Intrinsik

dimana

(37)

UJI LACK OF FIT

3C. ESTIMASI MODEL DENGAN METODE OLS

Hipotesis

H ∶Tidak terdapat lack of fit dalam model H ∶Terdapat lack of fit dalam model

Daerah Keputusan

Tolak H jika P-Value < α karena 0,001 < 0,05 maka tolak H

Taraf Signifikansi α = 0,05

Kesimpulan

Terdapat lof dalam model atau terjadi ketidaktepatan model regresi linier orde pertama.

0 1

0

Karena pada slide sebelumnya, telah ditunjukkan bahwa model Michaelis-Manten adalah model non-linear dan termasuk linier

intrinsik, maka dapat dilanjutkan linearisasi dengan OLS

Maka,

Model regresi linear dengan metode OLS

(38)

Prosedur: Regresi Non Linier

Plot 1/y VS 1/x membentuk suatu garis linear

Scatter Plot setelah model regresi dilinearisasi

(39)

(2) Gauss-Newton

Untuk menemukan parameter θ1 dan θ2, menurunkan model terhadap

parameternya, seperti berikut:

Formula yang digunakan

Kemudian dilakukan proses iterasi sampai konvergen dimana:

Dari rumus di atas, diperoleh taksiran b sebagai berikut

Dilanjutkan proses iterasi, pada slide berikutnya ...

3D. ESTIMASI MODEL DENGAN METODE GAUSS NEWTON

Rumus yang diberikan

(40)

Iterasi ke-0

Sesuai yang ada di ppt, diperoleh initial value sebagai berikut:

Iterasi ke-1

Iterasi ke-2

Iterasi ke-3

(41)

Iterasi ke-4

Iterasi ke-5

Iterasi ke-6

Tabel Hasil Iterasi

(42)

Setelah itu diperoleh tabel ANOVA sebagai berikut:

UJI SERENTAK

Hipotesis

H ∶θ = θ = 0

H ∶minimal ada satu θ ≠ 0 ; j = 1, 2 Taraf Signifikansi

α = 0,05

Daerah Keputusan:

Tolak H jika P-Value < α dan 0,0001 < 0,05 maka tolak H

Statistik Uji:

Pvalue < 0,0001

Kesimpulan:

Minimal terdapat 1 parameter θ yang signifikan terhadap model.

0 1

0

1 j

2

UJI INDIVIDU

Hipotesis H ∶θ = 0 H ∶θ ≠ 0

Tolak H jika t > t = t = 3,581 karena 30,62 > 3,581 Statistik Uji:

0 1

1 1

Uji θ 1

tabel 0,0025;10

Kesimpulan: Tolak H artinya θ signifikan terhadap model.

0

0 1

Hipotesis H ∶θ = 0 H ∶θ ≠ 0

Tolak H jika t > t = t = 3,581 karena 7,74 > 3,581 Statistik Uji:

0 2

1 2

Uji θ 1

tabel 0,0025;10

Kesimpulan: Tolak H artinya θ signifikan terhadap model.

0

0 2

Maka,

(43)

3E. HASIL EVALUASI

Model Gauss-Newton Model OLS

(44)

TERIMA KASIH

Semoga bermanfaat