HANDOUT
STATISTIKA LANJUT
MAA 315
Oleh : Kismiantini, M.Si. NIP. 19790816 200112 2 001JURUSAN PENDIDIKAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS NEGERI YOGYAKARTA
1
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 1 : Analisis Korelasi
Analisis korelasi adalah analisis statistika yang membahas tentang derajat (kekuatan) hubungan antara peubah-peubah.
Koefisien korelasi linear mengukur kekuatan hubungan linear antara peubah X dan Y. Koefisien korelasi linear seringkali disebut juga dengan koefisien korelasi Pearson (ditemukan oleh Karl Pearson pada tahun 1857-1936).
Rumus koefisien korelasi linear populasi
= ∑ − ∑ ∑ ∑ − ∑ ∑ − ∑
Rumus koefisien korelasi linear sampel
= ∑ − ∑ ∑ ∑ − ∑ ∑ − ∑
(a) Korelasi positif (b) Korelasi positif yang kuat (c) Korelasi positif sempurna antara X dan Y antara X dan Y antara X dan Y
2
(d) Korelasi negatif (e) Korelasi negatif yang kuat (f) Korelasi negatif sempurna antara X dan Y antara X dan Y antara X dan Y
(g) Tidak ada korelasi (h) Hubungan nonlinear antara X dan Y antara X dan Y
Koefisien Determinasi bagi sampel (r2)
Nilai r2 menyatakan persentase keragaman Y yang dapat dijelaskan oleh hubungan linear antara X dan Y.
Contoh 1:
Data berikut adalah tentang banyaknya keketidakhadiran dan nilai akhir dari tujuh mahasiswa yang dipilih secara acak dari suatu kelas Statistika.
Mahasiswa A B C D E F G
Banyaknya ketidakhadiran (X) 6 2 15 9 12 5 8 Nilai Akhir (Y) 82 86 43 74 58 90 78 a) Buatlah diagram pencar dari data tersebut.
b) Tentukan koefisien korelasi dan maknanya. c) Tentukan koefisien determinasi dan maknanya.
3 Penyelesaian:
a) Diagram pencar bagi X dan Y, terlihat bahwa titik-titik data mengikuti arah garis lurus.
16 14 12 10 8 6 4 2 90 80 70 60 50 40 X Y Scatterplot of Y vs X
b) Koefisien korelasi r = -0,944 artinya ada korelasi negatif yang kuat antara banyaknya ketidakhadiran dan nilai akhir, semakin banyak ketidakhadiran maka semakin menurun nilai akhirnya
c) Koefisien determinasi r2 = 0,891, artinya sebesar 89,1% keragaman nilai akhir yang dapat dijelaskan oleh hubungan linear antara banyaknya ketidakhadiran dan nilai akhir.
Pengujian Korelasi Populasi
Nilai koefisien korelasi antara -1 dan +1. Bila nilai r dekat +1 atau -1 maka ada hubungan linear yang kuat. Bila nilai r dekat 0 maka hubungan linear itu lemah. Bila r samadengan 0 maka tidak ada hubungan linear antara dua peubah tersebut.
Pengujian Hipotesis untuk signifikansi hubungan linear antara dua peubah. 1. Hipotesis
H0 : = 0 (Tidak ada korelasi antara X dan Y)
H1 : ≠ 0 (Ada korelasi signifikan antara X dan Y)
2. Taraf nyata: α 3. Statistik Uji: = 4. Kriteria Keputusan H0 ditolak jika || > ( !)
4
Hipotesis Nol Hipotesis Alternatif Statistik Uji Kriteria Keputusan H0 : = 0 H1 : ≠ 0 = #1 − − 2 H0 ditolak jika || > ( !) H0 : = 0 H0 : ≥ 0 H1 : < 0 H0 ditolak jika t < - tα(n-2) H0 : = 0 H0 : ≤ 0 H1 : > 0 H0 ditolak jika t > tα(n-2) Latihan
Pada soal-soal berikut,
a. Tentukan mana yang sebagai peubah bebas dan peubah tak bebas b. Buatlah diagram pencar
c. Tentukan koefisien korelasi dan maknanya d. Tentukan koefisien determinasi dan maknanya
e. Apakah ada hubungan linear antara kedua peubah tersebut? Gunakan α = 0.05.
f. Apakah ada hubungan linear positif antara kedua peubah tersebut? Gunakan α = 0.05.
1. Seorang pendidik ingin mengetahui hubungan antara nilai skor tes dan nilai IPK dari mahasiswa. Berikut data sampel.
Nilai skor tes 98 105 100 100 106 95 116 112 IPK 2,1 2,4 3,2 2,7 2,2 2,3 3,8 3,4
2. Seorang peneliti ingin mengetahui apakah ada hubungan antara umur dengan lamanya seseorang melakukan olahraga per minggu. Berikut data sampelnya.
Umur 18 26 32 38 52 59
Lamanya olahraga (jam) 10 5 2 3 1,5 1
3. Seorang manajer perusahaan ingin mengetahui hubungan antara banyaknya iklan di radio per minggu dan banyaknya penjualan (dalam jutaan rupiah) untuk suatu barang. Berikut data sampelnya.
Banyaknya iklan di radio 2 5 8 8 10 12 Banyaknya penjualan 2 4 7 6 9 10
4. Empatbelas mahasiswa telah dipilih secara acak dan diperiksa tekanan darahnya. Berikut data tekanan darah sistolik dan diastolik (dalam mmHg).
Sistolik 138 130 135 140 120 125 120 130 130 144 143 140 130 150 Diastolik 82 91 100 100 80 90 80 80 80 98 105 85 70 100
5
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 2 : Analisis Regresi Linear Sederhana
Analisis regresi adalah analisis statistika yang memanfaatkan hubungan antara dua atau lebih peubah kuantitatif sehingga salah satu peubah dapat diramalkan dari peubah lainnya.
Model Regresi Linear Sederhana
dengan
Yi adalah nilai peubah tak bebas dalam pengamatan ke-i β0 dan β1 adalah parameter
Xi adalah konstanta yang diketahui, yaitu nilai peubah bebas dari pengamatan ke-i
εi adalah galat yang bersifat acak dengan rataan E[εi]=0 dan ragam Var [εi]=σ2; εi dan εj tidak
berkorelasi sehingga peragam/kovariansi σ {εi, εj} =0 untuk semua i,j ; i ≠ j
Model regresi linear sederhana:
• Dikatakan “sederhana” karena hanya ada satu peubah bebas.
• Dikatakan “linear dalam parameter” karena tidak ada parameter yang muncul sebagai suatu eksponen atau dikalikan atau dibagi oleh parameter lain.
• Dikatakan “linear dalam peubah bebas” karena peubah dalam model tersebut berpangkat satu.
• Model yang linear dalam parameter dan linear dalam peubah bebas juga dinamakan model ordo-pertama.
Bila sudah diperoleh data sampel (Xi,Yi), selanjutnya hal yang penting adalah membuat diagram pencar antara X dan Y untuk mengetahui pola dari data. Bila pola data menunjukkan linear maka model regresi linear sederhana dapat digunakan. Perhatikan gambar berikut.
16 14 12 10 8 6 4 2 90 80 70 60 50 40 X Y Scatterplot of Y vs X (a) (b)
(c)
ei (sisaan ke-i) adalah beda antara nilai amatan
Bagaimana mendapatkan b0 dan b1
Penduga bagi β0 dan β1 dapat diperoleh dengan met
meminimumkan jumlah kuadrat galat. Misalkan model regresi linear sederhana
dengan
(
2)
, 0 ~ σ ε N iid i maka(
)
(
Y E Y)
(
Y n i i n i i i n i i =∑
− =∑
−∑
= = = 1 1 2 1 2 εSelanjutnya diturunkan terhadap masing
(
)
(
)
(
)
(
)
2 0 2 1 1 0 1 1 1 0 0 = + − − = ∂ ∂ = + − − = ∂ ∂∑
∑
= = i n i i i n i i i X X Y L X Y L β β β β β βPenduga bagi β0 adalah b0 dan penduga bagi
kedua persamaan tersebut. Sehingga diperoleh
(
)
∑
∑
∑
∑ ∑
− − = n X X n Y X Y X b i i i i i i 2 2 1 , b0= 6 (d)i) adalah beda antara nilai amatan Yi dengan nilai dugaannya
1?
dapat diperoleh dengan metode kuadrat terkecil, yaitu dengan inimumkan jumlah kuadrat galat. Misalkan model regresi linear sederhana
.
(
+ Xi))
2 =L1 0 β
β
Selanjutnya diturunkan terhadap masing-masing parameter.
0 0
=
dan penduga bagi β1 adalah b1 yang diperoleh dengan menyelesaikan
kedua persamaan tersebut. Sehingga diperoleh
(
Y b X)
Y bX n i 1 i 1 1 − = − =∑
∑
. 13ode kuadrat terkecil, yaitu dengan
yang diperoleh dengan menyelesaikan 13,82 48,60
7
Makna dugaan koefisien regresi
Misalkan ingin mengetahui hubungan jarak tempuh kendaraan mobil dalam km (X) dengan tingkat emisinya dalam ppm (Y).
• Plot data ternyata menunjukkan ada hubungan linear antara X dan Y
• Dicobakan model linear Yi = β0 + β1Xi + εi, diperoleh persamaan regresi Yˆi =364+5,47Xi.
• Apa makna b0 dan b1 pada konteks ini ?
Makna dari b1 yaitu rata-rata emisi meningkat 5,47 ppm untuk setiap kenaikan jarak tempuh
kendaraan mobil 1 km (atau kenaikan jarak tempuh kendaraan mobil 1 km akan meningkatkan rata-rata emisi yang dihasilkan mobil sebesar 5,47 ppm).
Makna dari b0 yaitu untuk mobil dengan jarak tempuh kendaraan mobil 0 km (mobil baru) maka
rata-rata tingkat emisi yang dihasilkan sebesar 364 ppm.
b0 tidak selalu bermakna
SOAL LATIHAN
1. Berikut data sampel tentang nilai mutu rata-rata (NMR) mahasiswa pada akhir tahun pertama (Y) dan nilai ujian masuk (X).
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Xi 5,5 4,8 4,7 3,9 4,5 6,2 6,0 5,2 4,7 4,3 4,9 5,4 5,0 6,3 4,6 4,3 5,0 5,9 4,1 4,7 Yi 3,1 2,3 3,0 1,9 2,5 3,7 3,4 2,6 2,8 1,6 2,0 2,9 2,3 3,2 1,8 1,4 2,0 3,8 2,2 1,5
a) Buatlah diagram pencar X dan Y.
b) Tentukan persamaan regresi dugaannya beserta maknanya.
2. Data berikut merupakan hasil penelitian tentang hubungan antara nilai ulangan Matematika (dalam skala nilai 10 sampai 100) dengan lama waktu belajar matematika (dalam jam selama seminggu)
Nilai ulangan matematika 95 100 100 80 70 55 50 75 55 60 65 95 Lama waktu belajar
matematika
18 18 19 17 14 5 6 10 13 4 12 10
a) Tentukan peubah mana sebagai peubah bebas X dan peubah tak bebas Y.
b) Tentukan persamaan regresi dugaan dan berikan makna dugaan koefisien regresinya.
3. Suatu penelitian telah dilakukan untuk mengetahui hubungan antara pengeluaran untuk iklan (X dalam jutaan rupiah) dengan penerimaan melalui penjualan (Y dalam jutaan rupiah)
pada perusahaan tertentu. Berikut ringkasan datanya :
∑
∑
∑
∑
∑
= = = = = =10, 120, 500, 6106, 2 1470, 2 25440 i i i i i i Y XY X Y X na) Tentukan persamaan regresi dugaan! Berikan maknanya.
b) Bila pengeluaran untuk iklan sebesar 16 juta rupiah, berapakah penerimaan dari hasil penjualan?
8
4. Tabel ini menunjukkan skor tes penalaran verbal (X) dan skor tes Inggris (Y), untuk setiap
sampel acak dari 8 anak yang mengikuti kedua tes tersebut:
Anak A B C D E F G H
X 112 113 110 113 112 114 109 113 Y 69 65 75 70 70 75 68 76
a) Plot data dengan diagram pencar. Berikan penjelasan dari plot tersebut. b) Tentukan persamaan regresi linear dugaan dan berikan maknanya
9
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 3 : Asumsi-asumsi dalam Analisis Regresi Linear Sederhana
Model regresi linear sederhana bergalat normal
𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖+ 𝜀𝑖 dengan
0 dan 1 adalah parameter
Xi adalah konstanta yang diketahui nilainya
i adalah galat yang menyebar N(0,2) dan bebas satu sama lain
Asumsi-asumsi dalam analisis regresi linear sederhana adalah a. Galat memiliki ragam yang konstan
b. Galat menyebar normal c. Galat bersifat saling bebas
Penyelidikan terpenuhi atau tidak asumsi-asumsi tersebut dengan menggunakan analisis sisaan.
Sisaan atau nilai dugaan galat didefinisikan sebagai 𝑒𝑖 = 𝑌𝑖− 𝑌 𝑖
Galat memiliki ragam yang konstan
Pendeteksian apakah galat memiliki ragam yang konstan atau tidak dengan menggunakan: a. Plot sisaan (ei) dengan nilai dugaan ( 𝑌 𝑖 )
b. Plot sisaan (ei) dengan peubah bebas (Xi)
Kriterianya : Bila sisaan-sisaan tidak membentuk suatu pola tertentu maka galat memiliki ragam yang konstan.
Perhatikan gambar berikut.
(a) Galat memiliki ragam konstan (tidak berpola) (b) Galat tidak memiliki ragam konstan (berpola)
Galat menyebar normal
Pendeteksian apakah galat menyebar normal atau tidak dengan menggunakan plot peluang normal. Plot peluang normal bagi sisaan yaitu plot ei versus hi.
Cara membuat plot peluang normal bagi sisaan:
1. Menghitung nilai sisaan, lalu diurutkan dari kecil ke besar, selanjutnya disebut sisaan terurut 2. Menghitung hi (nilai harapan di bawah asumsi kenormalan) dengan rumus
10 ℎ𝑖= 𝐾𝑇𝐺 𝑧
𝑖−0,375 𝑛+0,25
𝐾𝑇𝐺 = 𝐽𝐾𝐺 𝑛 − 2 , 𝐽𝐾𝐺 = 𝑌𝑖2− 𝑏0 𝑌𝑖− 𝑏1 𝑋𝑖𝑌𝑖
Kriterianya: bila titik-titik (sisaan-sisaan) mengikuti arah garis diagonal maka galat menyebar normal.
Perhatikan contoh berikut:
Dari data sampel ini diperoleh Ŷ = 10 + 2X dengan KTG = 7,5. Selanjutnya akan dibuat plot peluang normal bagi sisaan sebagai berikut.
i Xi Yi Ŷi ei Urutan naik i ei terurut 𝑧 𝑖 − 0,375 𝑛 + 0,25 hi 1 30 73 70 3 1 -3 -4,24 2 20 50 50 0 2 -2 -2,74 3 60 128 130 -2 3 -2 -1,79 4 80 170 170 0 4 -2 -1,02 5 40 87 90 -3 5 -1 -0,33 6 50 108 110 -2 6 0 0,33 7 60 135 130 5 7 0 1,02 8 30 69 70 -1 8 2 1,79 9 70 148 150 -2 9 3 2,74 10 60 132 130 2 10 5 4,24
Galat saling bebas
a. Bila data tidak diamati secara bersamaan, melainkan dalam suatu urutan waktu maka buatlah plot sisaan (ei) terhadap waktu. Tujuan adalah untuk melihat apakah ada korelasi
antara suku galat dengan suku galat berikutnya.
b. Bila data diamati bersamaan, untuk melihat keacakan galat percobaan dibuat plot antara nilai dugaan galat (ei) dengan nilai dugaan respons ( Ŷi )
Gambar disamping menunjukkan bahwa galat menyebar normal karena
titik-titik mengikuti arah garis diagonal.
11
Kriterianya : apabila titik-titik sisaan berfluktuasi secara acak di sekitar nol maka dapat dikatakan bahwa galat saling bebas.
Perhatikan gambar berikut.
(a) (b)
Gambar (a) Plot waktu versus sisaan menunjukkan bahwa titik-titik sisaan tidak berfluktuasi secara acak disekitar nol maka galat tidak saling bebas.
Gambar (b) Plot nilai dugaan versus sisaan menunjukkan bahwa titik-titik sisaan berfluktuasi secara acak disekitar nol maka galat saling bebas.
12
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 4 : Inferensi dalam Analisis Regresi Linear Sederhana
Inferensi terhadap 1
a. Selang Kepercayaan bagi 1
Diketahui bahwa
2 1 1 1 ~ n t b s b , sehingga
; 2 1 1 1 1 2 ; 2 2 n n t b s b t P → 𝑃 𝑏1− 𝑡𝛼 2(𝑛 −2)𝑠 𝑏1 ≤ 𝛽1 ≤ 𝑏1+ 𝑡 𝛼 2(𝑛 −2)𝑠 𝑏1 = 1 − 𝛼 dengan 𝑠2 𝑏1 = 𝐾𝑇𝐺 𝑋𝑖2− 𝑋 𝑖 2 𝑛Jadi selang kepercayaan 100(1-) bagi 1 adalah
𝑏1− 𝑡𝛼
2(𝑛 −2)𝑠 𝑏1 ≤ 𝛽1 ≤ 𝑏1+ 𝑡 𝛼
2(𝑛 −2)𝑠 𝑏1
Misalkan diperoleh selang kepercayaan 95% bagi 1
1,89 1 2,11
Artinya diduga bahwa rata-rata Y naik sekitar antara 1,89 sampai 2,11 satuan untuk setiap kenaikan satu satuan X.
b. Uji bagi 1
Uji bagi 1=0 lawan 10 Hipotesis
H0 : 1=0 (Tidak ada hubungan linear antara X dan Y)
H1 : 1 0 (Ada hubungan linear antara X dan Y)
Taraf nyata : Statistik Uji: Sumber Keragaman db JK KT Fhit Regresi 1 JKR KTR F = KTR/KTG Galat n – 2 JKG KTG Total n – 1 JKT Kriteria keputusan:
13 Perhatikan simpangan total berikut:
i i i
i Y Y Y Y Y
Y ˆ ˆ
Jumlah kuadrat simpangan-simpangan tersebut :
JKG JKR JKT Y Y Y Y Y Yi i i i ˆ ˆ 2 2 2
JKG JKT JKR n X X n Y X Y X n Y Y Y X b Y b Y JKG Y n Y JKT i i i i i i i i i i i i i
2 2 2 2 2 1 0 2 2 2 𝐽𝐾𝑅 = 𝑏12 𝑋𝑖− 𝑋 2 Hipotesis Nol Hipotesis AlternatifStatistik Uji Kriteria keputusan H0 : 1 = c H1 : 1 c 𝑡 =𝑏1− 𝑐
𝑠 𝑏1
H0 ditolak jika |thit| > 𝑡𝛼
2 𝑛 −2
H0 : 1 c
H0 : 1 = c
H1 : 1 > c H0 ditolak jika thit > 𝑡𝛼 𝑛 −2
H0 : 1 c
H0 : 1 = c
H1 : 1 < c H0 ditolak jika thit < −𝑡𝛼 𝑛 −2
Inferensi terhadap 0
a. Selang Kepercayaan bagi 0
Diketahui bahwa
2 0 0 0 ~ n t b s b , sehingga
1 2 ; 0 0 0 2 ; 2 2 n n t b s b t P → 𝑃 𝑏0− 𝑡𝛼 2(𝑛 −2)𝑠 𝑏0 ≤ 𝛽0≤ 𝑏0+ 𝑡 𝛼 2(𝑛 −2)𝑠 𝑏0 = 1 − 𝛼 dengan 𝑠2 𝑏 0 = 𝐾𝑇𝐺 1 𝑛+ 𝑋 2 𝑋𝑖2− 𝑋 𝑖 2 𝑛Jadi selang kepercayaan 100(1-) bagi 0 adalah
𝑏0− 𝑡𝛼
2(𝑛 −2)𝑠 𝑏0 ≤ 𝛽0 ≤ 𝑏0+ 𝑡 𝛼
14
Misalkan diperoleh selang kepercayaan 90% bagi 0
5,34 0 14,66
Artinya diduga bahwa rata-rata Y sekitar antara 5,34 sampai 14,66 satuan untuk X sebesar 0.
Selang kepercayaan bagi 0 ini tidak selalu memberikan informasi yang bermanfaat. b. Uji bagi 0
Uji bagi 0=0 lawan 00 Hipotesis H0 : 0=0 H1 : 0 0 Taraf nyata : Statistik Uji:
𝑡 =
𝑏0 𝑠 𝑏0 Kriteria keputusan: H0 ditolak jika |thit| > 𝑡𝛼2 𝑛 −2
Selang kepercayaan bagi 𝑬 𝒀𝒉 𝑌 ℎ − 𝑡𝛼 2(𝑛 −2) 𝑠 𝑌 ℎ ≤ 𝐸 𝑌ℎ ≤ 𝑌 ℎ + 𝑡 𝛼 2(𝑛 −2)𝑠 𝑌 ℎ dengan 𝑠2 𝑌 ℎ = 𝐾𝑇𝐺 1 𝑛+ 𝑋ℎ − 𝑋 2 𝑋𝑖 − 𝑋 2 𝑌 ℎ = 𝑏0+ 𝑏1𝑋ℎ
Misalkan diperoleh selang kepercayaan 90% bagi 𝐸 𝑌ℎ dengan Xh = 65
277,4 ≤ 𝐸 𝑌ℎ ≤ 311,4
Maknanya dengan tingkat kepercayaan 90% maka rata-rata Y untuk X sebesar 65 adalah 277,4 sampai 311,4 satuan.
Selang prediksi bagi Yh(baru) 𝑌 ℎ − 𝑡𝛼 2(𝑛 −2) 𝑠 𝑝𝑟𝑒𝑑 ≤ 𝑌ℎ(𝑏𝑎𝑟𝑢 ) ≤ 𝑌 ℎ + 𝑡 𝛼 2(𝑛−2) 𝑠 𝑝𝑟𝑒𝑑 dengan 𝑠2 𝑝𝑟𝑒𝑑 = 𝐾𝑇𝐺 1 +1 𝑛+ 𝑋ℎ − 𝑋 2 𝑋𝑖 − 𝑋 2 𝑌 ℎ = 𝑏0+ 𝑏1𝑋ℎ
15
Misalkan diperoleh selang prediksi 90% bagi 𝑌ℎ(𝑏𝑎𝑟𝑢 ) dengan Xh = 100 adalah
332,2 ≤ 𝑌ℎ(𝑏𝑎𝑟𝑢 )≤ 506,6
Maknanya dengan tingkat kepercayaan 90% dapat diprediksikan bahwa rata-rata Y untuk proses berikutnya pada X sebesar 100 adalah 332,2 sampai 506,6 satuan.
SOAL LATIHAN
1. Data berikut merupakan hasil penelitian tentang hubungan antara nilai ulangan Matematika (dalam skala nilai 10 sampai 100) dengan lama waktu belajar matematika (dalam jam selama seminggu).
Nilai ulangan matematika 95 100 100 80 70 55 50 75 55 60 65 95 Lama waktu belajar matematika 18 18 19 17 14 5 6 10 13 4 12 10 a) Tentukan peubah mana sebagai peubah bebas X dan peubah tak bebas Y!
Anggap asumsi-asumsi dalam model regresi linear sederhana terpenuhi. b) Tentukan selang kepercayaan 99% bagi 0 dan 1 beserta maknanya!
c) Ujilah apakah ada hubungan linear antara lama waktu belajar matematika dan nilai ulangan matematika? Gunakan taraf nyata = 0,01.
d) Ujilah apakah 1 = 5 lawan 1 5 ? Gunakan taraf nyata = 0,01.
e) Ujilah apakah 0 = 0 atau tidak? Gunakan taraf nyata = 0,01.
f) Tentukan selang prediksi 95% bagi Yh(baru) dengan Xh = 15
2. Suatu tes diberikan pada semua mahasiswa baru. Seseorang yang memperoleh nilai di bawah 35 tidak diizinkan mengikuti kuliah matematika yang biasa, tetapi harus mengikuti suatu kelas khusus (remedial class). Berikut ringkasan data dari nilai tes dan nilai akhir bagi 20 mahasiswa yang mengikuti kuliah matematika yang biasa:
𝑋𝑖 = 1110; 𝑌𝑖 = 1173; 𝑋𝑖𝑌𝑖 = 67690; 𝑋𝑖2= 67100; 𝑌𝑖2= 74725 a. Tentukan peubah mana sebagai peubah bebas X dan peubah tak bebas Y!
b. Tentukan persamaan regresi dugaan!
c. Bila 60 adalah nilai terendah agar lulus dari pelajaran matematika tersebut, berapakah batas nilai tes terendah di masa mendatang untuk dapat diizinkan mengikuti kuliah tersebut? Anggap asumsi-asumsi dalam model regresi linear sederhana terpenuhi.
d. Ujilah apakah ada hubungan linier antara nilai tes dan nilai akhir? Gunakan taraf nyata 0,05. e. Tentukan selang kepercayaan 95% bagi 0 dan 1 beserta maknanya.
16
3. Suatu percobaan dilakukan pada jenis mobil baru merk tertentu, untuk menentukan jarak yang dibutuhkan untuk berhenti bila mobil tersebut direm pada berbagai kecepatan. Data yang diperoleh sebagai berikut:
Kecepatan (kilometer per jam) 35 50 65 80 95 110 Jarak sampai berhenti (meter) 16 26 41 62 88 119
a. Tentukan peubah mana sebagai peubah bebas X dan peubah tak bebas Y!
b. Tentukan persamaan regresi dugaan dan berikan makna dugaan koefisien regresinya! Anggap asumsi-asumsi dalam model regresi linear sederhana terpenuhi.
c. Tentukan selang kepercayaan 95% bagi 1 dan berikan maknanya!
d. Tentukan selang kepercayaan 95% bagi 0 dan berikan maknanya!
e. Ujilah apakah ada hubungan linear antara kecepatan dan jarak sampai berhenti? Gunakan taraf nyata = 0,05.
f. Ujilah apakah 1 positif? Gunakan taraf nyata = 0,05.
Analisis Variansi
Uji F untuk Ketidakcocokkan Model Regresi Linear Sederhana
• Uji ini mengasumsikan bahwa pengamatan-pengamatan Y untuk suatu X tertentu bersifat bebas, tersebar normal, memiliki ragam yang sama.
• Uji ini menghendaki adanya pengamatan berulang pada satu atau lebih nilai X. Hipotesis
H0 : E{Y} = 0+ 1X
H1 : E{Y} 0+ 1X
Atau
H0 : Tidak ada ketidakcocokan model regresi linear sederhana dengan data
H1 : Ada ketidakcocokan model regresi linear sederhana dengan data
Atau
H0 : Model regresi linear sederhana cocok
H1 : Model regresi linear sederhana tidak cocok
Taraf nyata: Statistik Uji :
n k
JKGM k KKM J F 2 Kriteria keputusan :H0 ditolak jika Fhit > Fα(k-2,n-k)
k= menyatakan banyaknya x yang berbeda n = banyaknya pengamatan
17 Perhatikan berikut ini:
JKKM JKGM JKG Y Y Y Y Y Yij ij ij j j ij ˆ ˆ 2 2 2
Contoh:Lakukan uji kecocokan model regresi linear sederhana dengan taraf nyata 0,05 pada data sampel berikut.
Hipotesis H0 : E{Y} = 0+ 1X H1 : E{Y} 0+ 1X Taraf nyata : = 0,05 Statistik Uji : F = KTKM/KTGM Kriteria keputusan: n=11, k=6, db(KM)=k-2=6-2=4 ,db(GM)=n-k=11-6=5 F0,05(4,5)=5,19
H0 ditolak jika Fhit > 5,19
Hitungan: JKG=170696-(50,722511288)-(0,48670 186200)=14742 JKGM=(28-35)2+(42-35)2+(112-124)2+(136-124)2+(160-155)2+(150-155)2+(152-152)2+(156-140)2+(124- 140)2+(124-114)2+(104-114)2=1148 JKKM=JKG-JKGM=14742-1148=13594 F=(13594/4)/(1148/5)=14,80
Kesimpulan : Karena Fhit=14,80>5,19 maka H0 ditolak
Jadi dengan taraf nyata 0,05 dapat disimpulkan bahwa model regresi linear sederhana tidak cocok digunakan. i Xi Yi 1 125 160 2 100 112 3 200 124 4 75 28 5 150 152 6 175 156 7 75 42 8 175 124 9 125 150 10 200 104 11 100 136 Xi Yi 𝑌 𝑗 75 28 42 35 100 112 136 124 125 160 150 155 150 152 152 175 156 124 140 200 124 104 114
18
SOAL LATIHAN
Seorang kimiawan mempelajari hubungan konsentrasi suatu larutan (Y) dengan waktu (X). Berikut data sampel yang diperoleh:
i Xi Yi 1 9 0,07 2 9 0,09 3 9 0,08 4 7 0,16 5 7 0,17 6 7 0,21 7 5 0,49 8 5 0,58 9 5 0,53 10 3 1,22 11 3 1,15 12 3 1,07 13 1 2,84 14 1 2,57 15 1 3,10
a. Tentukan persamaan regresi linear dugaan b. Lakukan uji F untuk memeriksa apakah ada
ketidakcocokan model bila digunakan model regresi linear sederhana, gunakan taraf nyata 0,05.
19
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 5 : Pendekatan Matriks terhadap Analisis Regresi Linear Sederhana
Perhatikan kembali model regresi linear sederhana berikut Yi = β0+β1Xi+εi
Bila diambil sebanyak n maka diperoleh
n n n X Y X Y X Y ε β β ε β β ε β β + + = + + = + + = 1 0 2 2 1 0 2 1 1 1 0 1 M
Dalam notasi matriks dituliskan sebagai berikut
+ = n n n X X X Y Y Y ε ε ε β β M M M M 2 1 1 0 2 1 2 1 1 1 1 atau
Y
X
β
ε
1 2 1 2 1 × × × × + = n n nPerhatikan bahwa Xββββ adalah vektor nilai-nilai harapan bagi amatan-amatan Yi sebab E{Yi}= β0+β1Xi, sehingga
{ }
1 2 2 1 × × × = X β Y n n EAsumsi : εεεεadalah suatu vektor peubah acak normal yang bebas dengan E{εεεε} = 0 dan = Persamaan normal regresi linear sederhana :
+ ∑ = ∑ ∑ + ∑ = ∑ Ditulis dalam notasi matriks
= ′ → = ′′
=
n n n nY
Y
Y
X
X
X
b
b
X
X
X
X
X
X
K
M
K
M
M
K
K
2 1 2 1 1 0 2 1 2 11
1
1
1
1
1
1
1
1
20 = =
∑
∑
∑
2 2 1 2 1 1 1 1 1 1 1 i i i n n X X X n X X X X X X K M M K X X' = =∑
∑
i i i n n X Y Y Y Y Y X X X K M K 2 1 2 1 1 1 1 Y X'(
)
(
)
− − − =∑
∑
∑
∑
∑
− n X X X X X n i i i i i 2 2 2 1 1 X X' Uji terhadap β1Untuk menguji apakah ada hubungan linear antara Y dengan X, dilakukan pengujian berikut : Hipotesis : H0 : β1 = 0 H1 : β1 ≠ 0 Taraf nyata : α Statistik Uji :
=
⁄ !⁄ Kriteria Keputusan :H0 ditolak jika Fhit > Fα(1,n-2)
Y X' b' Y Y' − = JKG , Y'Y Y'JY − = n JKT 1 , Y'Y=
∑
Yi2 , Y'JY=(
∑
Yi)
2 = 1 1 1 1 L M M M L JSelang Kepercayaan bagi βk
(n )
{
k}
k k (n ){
k}
k t sb b t s b b 2 , 2 / 2 , 2 / − ≤ ≤ + − − α α β{ }
(
)
1 2 − = X'X b KTG s ,{ }
{
}
{
}
{
}
{ }
= 1 2 0 1 1 0 0 2 2 , , b s b b s b b s b s s b21
SOAL LATIHAN
1. Suatu percobaan telah dilakukan untuk menentukan apakah berat seekor kambing (dalam kilogram) dapat diprediksikan (setelah pada periode tertentu) berdasarkan jumlah makanan yang dimakan (dalam kilogram). Berikut data yang telah dinyatakan dalam notasi matriks.
, 14533 379 379 10 = X X' , 31726 825 = Y X' Y'Y=
[
70083]
, Y'JY=[
680625]
Anggap asumsi-asumsi dalam model regresi linear sederhana terpenuhi. a) Tentukan persamaan regresi dugaan beserta maknanya.
b) Bila jumlah makanan seekor kambing sebesar 300 kg, berapakah prediksi berat kambing tersebut?
c) Buatlah selang kepercayaan 99% bagi β1 dan berikan maknanya.
d) Tentukan koefisien korelasinya.
2. Data berikut merupakan hasil penelitian tentang hubungan antara nilai ulangan Matematika (dalam skala nilai 10 sampai 100) dengan lama waktu belajar matematika (dalam jam selama seminggu).
Nilai ulangan matematika 95 100 100 80 70 55 50 75 55 60 65 95 Lama waktu belajar matematika 18 18 19 17 14 5 6 10 13 4 12 10
a) Tentukan peubah mana sebagai peubah bebas X dan peubah tak bebas Y! Anggap asumsi-asumsi dalam model regresi linear sederhana terpenuhi.
b) Tentukan selang kepercayaan 99% bagi β0 dan β1 beserta maknanya!
c) Ujilah apakah ada hubungan linear antara lama waktu belajar matematika dan nilai ulangan matematika? Gunakan taraf nyata α = 0,01.
22
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 6 : Analisis Regresi Linear Ganda
Analisis regresi linear ganda adalah analisis statistika yang digunakan untuk mengetahui hubungan linear antara satu peubah tak bebas Y dengan beberapa peubah bebas (X1, X2, …, Xp-1).
Model regresi linear ganda
i p i p i i i X X X Y 01 12 2 1 , 1 dengan : 0, 1, …, p-1 adalah parameter
Xi1, …, Xi,p-1 adalah konstanta yang diketahui nilainya
i saling bebas dan menyebar N(0,2) i = 1, 2, …, n Persamaan Normal
i ip ip p ip i ip i ip i i ip i p i i i i i i ip i p i i i i i ip p i i Y X X b X X b X X b X b Y X X X b X b X X b X b Y X X X b X X b X b X b Y X b X b X b n b 1 2 1 1 1 2 2 1 1 1 1 0 2 1 2 1 2 2 2 2 1 1 2 0 1 1 1 1 2 1 2 2 1 1 1 0 1 1 2 2 1 1 0 Persamaan regresi dugaan
1 , 1 2 2 1 1 0 ˆ p i p i i i b bX b X b X Y
2 2 1 2 2 2 1 2 1 1 2 1 2 1 22 21 12 11 2 22 12 1 21 11 1 1 1 1 1 1 i i i i i i i i i i n n n n X X X X X X X X X X n X X X X X X X X X X X X X X'
i i i i i n n n Y X Y X Y Y Y Y X X X X X X 2 1 2 1 2 22 12 1 21 11 1 1 1 Y X'
X'X
X'Y b 123 Memaknai Persamaan Regresi Dugaan
Misalkan : Ingin mengetahui apakah volume penjualan (Y, gros) berhubungan dengan jumlah penduduk (X1, ribuan jiwa) dan pendapatan per kapita (X2, dolar).
Diperoleh persamaan regresi dugaannya ialah
2 1 0,00920 496 , 0 453 , 3 ˆ X X Y
Persamaan ini menunjukkan bahwa rataan volume penjualan diharapkan akan naik 0,496 gros bila jumlah penduduk naik 1 ribu jiwa kalau pendapatan per kapita tetap, dan bahwa rataan volume penjualan diharapkan akan naik 0,0092 gros bila pendapatan per kapita naik 1 dolar kalau jumlah penduduk tetap. Bila jumlah penduduk sebesar 0 jiwa dan pendapatan per kapita 0 dollar maka rata-rata volume penjualan sebesar 3,453 gros (tidak bermakna). Uji terhadap Hubungan Regresi
Untuk menguji apakah peubah tak bebas Y berhubungan dengan peubah-peubah bebas (X1, X2,…,Xp-1), dilakukan pengujian berikut :
Hipotesis :
H0 : 1 = 2 = … = p-1=0
H1 : Tidak semua k (k=1,2,…,p-1)sama dengan nol
Taraf nyata : Statistik Uji :
𝐹 = 𝐽𝐾𝑅 𝑝−1 𝐽𝐾𝐺 𝑛 −𝑝 Kriteria Keputusan :
H0 ditolak jika Fhit > F(p-1,n-p)
JY Y' Y Y' n JKT 1 , JKGY'Yb'X'Y Uji terhadap k Hipotesis Nol Hipotesis Alternatif
Statistik Uji Kriteria keputusan H0 : k = c H1 : k c
𝑡 =𝑏𝑘 − 𝑐 𝑠 𝑏𝑘
H0 ditolak jika |thit| > 𝑡𝛼
2 𝑛 −𝑝
H0 : k c
H0 : k = c
H1 : k > c H0 ditolak jika thit > 𝑡𝛼 𝑛 −𝑝
H0 : k c
H0 : k = c
H1 : k < c H0 ditolak jika thit < −𝑡𝛼 𝑛 −𝑝
1 2 X X' b KTG s24
1 2 1 1 0 1 1 1 1 2 0 1 1 0 1 0 0 2 2 , , , , , , p p p p p b s b b s b b s b b s b s b b s b b s b b s b s s bSelang kepercayaan bagi k 𝑏𝑘 − 𝑡𝛼
2(𝑛 −𝑝 )𝑠 𝑏𝑘 ≤ 𝛽𝑘 ≤ 𝑏𝑘 + 𝑡 𝛼
2(𝑛 −𝑝 )𝑠 𝑏𝑘
Makna Selang Kepercayaan bagi k
Misal diperoleh selang kepercayaan 95% bagi β1 adalah
0,018 ≤ 1 ≤ 2,773
Artinya dengan tingkat kepercayaan 95% diduga bahwa rata-rata Y naik sekitar antara 0,018 sampai 2,773 satuan untuk setiap kenaikan satu satuan X1 bila X2 tetap.
Selang Kepercayaan Serempak bagi k
Selang kepercayaan bersama Bonferroni dapat digunakan untuk menduga beberapa koefisien regresi secara serempak. Jika g buah parameter akan diduga secara bersamaan
(asalkan g ≤ p), maka batas-batas kepercayaan serempak dengan tingkat kepercayaan 1-
adalah
k k k
k k Bs b b Bsb b dengan n p g t B 2 Makna Selang Kepercayaan Serempak
Misalkan : Ingin mengetahui apakah volume penjualan (Y, gros) berhubungan dengan jumlah penduduk (X1, ribuan jiwa) dan pendapatan per kapita (X2, dolar). Diperoleh selang
kepercayaan serempak 90% sebagai berikut : (g=2) 0,483≤1≤0,509; 0,0071 ≤2≤0,0113
Selang kepercayaan serempak ini mengindikasikan bahwa 1 dan 2 keduanya positif, hal ini
sesuai harapan teoritis bahwa volume penjualan memang harus naik jika jumlah penduduk naik dan pendapatan per kapita naik, tentu saja asalkan peubah-peubah lain dipertahankan konstan.
25 Koefisien Determinasi Ganda (R2)
R2 = JKR/JKT = 1- (JKG/JKT)
Koefisien ini mengukur proporsi pengurangan keragaman total di dalam Y akibat digunakannya peubah-peubah bebas
X1,X2, …, Xp-1.
Sifat koefisien determinasi ganda : 0 R2 1.
R2 akan bernilai 0 bila semua bk = 0 (k=1,…,p-1). R2 akan bernilai 1 bila semua amatan Y
berada tepat pada permukaan respons dugaannya, Yi = Ŷi untuk semua i.
Koefisien determinasi ganda terkoreksi (𝑹𝒂𝟐)
Penambahan lebih banyak peubah bebas ke dalam model selalu akan menaikkan nilai R2
tidak pernah menurunkannya, sebab JKG tidak pernah menjadi lebih besar bila peubah bebasnya lebih banyak, sedangkan JKT tidak akan berubah bila data responsnya tetap sama.
Karena R2 sering bisa dibuat besar dengan cara menyertakan peubah bebas, maka ada yang menyarankan agar ukuran ini dimodifikasi untuk mempertimbangkan banyaknya peubah bebas di dalam model.
Koefisien determinasi ganda terkoreksi
JKT JKG p n n n JKT p n JKG Ra 1 1 1 1 2Memaknai Koefisien Determinasi Ganda
Misalkan : Ingin mengetahui apakah volume penjualan (Y, gros) berhubungan dengan jumlah penduduk (X1, ribuan jiwa) dan pendapatan per kapita (X2, dolar)
Diperoleh R2 = 0,9989, artinya bila kedua peubah saling bebas, jumlah penduduk dan pendapatan per kapita ikut diperhitungkan maka keragaman volume penjualan dapat dikurangi sebanyak 99,9%.
atau
sebesar 99,9% keragaman dari volume penjualan yang dapat dijelaskan oleh jumlah penduduk dan pendapatan per kapita.
Koefisien Korelasi Ganda
Koefisien korelasi ganda R adalah akar kuadrat positif dari R2
2
R
R
Uji F untuk Kecocokan Model Regresi Linear Ganda
• Uji ini mengasumsikan bahwa pengamatan-pengamatan Y untuk suatu X tertentu
bersifat bebas, tersebar normal, memiliki ragam yang sama.
26 Hipotesis
H0 : E{Y} = 0+ 1X1+2X2 + …+ p-1Xp-1
H1 : E{Y} 0+ 1X1 +2X2 + …+ p-1Xp-1
Atau
H0 : Tidak ada ketidakcocokan model regresi linear ganda dengan data
H1 : Ada ketidakcocokan model regresi linear ganda dengan data
Atau
H0 : Model regresi linear ganda cocok
H1 : Model regresi linear ganda tidak cocok
Taraf nyata: Statistik Uji:
n k
JKGM p k JKKM F Kriteria KeputusanH0 ditolak jika Fhit > Fα(k-p,n-k)
Dengan
2
Yij Yj JKGM , JKGY'Yb'X'Y, JKKM JKGJKGM ContohPerhatikan data tentang kesukaan merk berikut
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Xi1 4 4 4 4 6 6 6 6 8 8 8 8 10 10 10 10
Xi2 2 4 2 4 2 4 2 4 2 4 2 4 2 4 2 4
Yi 64 73 61 76 72 80 71 83 83 89 86 93 88 95 94 100
Y : derajat kesukaan terhadap merk , X1 : kandungan uap air, X2 : kemanisan produk
k = 8, JKG = 94,3, Ŷ = 37,650 + 4,425 X1 + 4,375 X2
Ujilah ketidakcocokan model regresi linear ganda dengan taraf nyata 0,01. Xi1 Xi2 Yij Yj 4 2 64; 61 4 4 73; 76 6 2 72; 71 6 4 80; 83 8 2
27 8 4 10 2 10 4 Hipotesis H0 : E{Y} = 0+ 1X1+ 2X2 H1 : E{Y} 0+ 1X1+2X2 Taraf nyata : = 0,01 Statistik Uji:
n k
JKGM p k JKKM F Kriteria keputusan: n=16, k=8, db(KM)=k-p=8-3=5 ,db(GM)=n-k=16-8=8, F0,05(5,8)= 3,69H0 ditolak jika Fhit > 3,69
Hitungan:
SOAL LATIHAN
1. Suatu penelitian telah dilakukan untuk mengetahui hubungan antara persentase
kehadiran mahasiswa (X1) dan lama belajar dalam jam per minggu (X2) terhadap nilai
akhir ujian suatu mata kuliah (Y). Sebanyak 30 mahasiswa telah dipilih secara acak untuk menjadi subyek penelitian.
Diketahui :
079075 , 0 010051 , 0 640573 , 0 010051 , 0 0018375 , 0 132528 , 0 640573 , 0 132528 , 0 8866861 , 9 1 X X
409 , 251674 , 9810 , 8880 , 224670 , 2016000 , 2440 2 2 2 1 2 1 2 1 2 i i i i i i i i i i X X X X Y X Y X Y Ya) Tentukan persamaan regresi dugaan dan berikan maknanya.
b) Bila dianggap asumsi-asumsi dalam analisis regresi linear ganda terpenuhi, ujilah apakah ada hubungan antara persentase kehadiran mahasiswa dan lama belajar dalam jam per minggu terhadap nilai akhir ujian suatu mata kuliah. Gunakan = 0,05. c) Tentukan selang kepercayaan 95% bagi 1 dan maknanya.
d) Buatlah selang kepercayaan serempak 95% bagi 1 dan 2 beserta maknanya
28 f) Hitunglah koefisien korelasi ganda.
2. Seorang pegawai administrasi rumah sakit ingin mengetahui hubungan antara kepuasan
pelanggan (Y) dan umur pasien (X1, dalam tahun), tingkat keparahan penyakit (X2, dalam
indeks) dan tingkat kecemasan (X3, dalam indeks). Ia mengambil secara acak 23 pasien
dan mengumpulkan data tersebut. Berikut datanya:
i 1 2 3 4 5 6 7 8 9 10 11 12 Xi1 50 36 40 41 28 49 42 45 52 29 29 43 Xi2 51 46 48 44 43 54 50 48 62 50 48 53 Xi3 2,3 2,3 2,2 1,8 1,8 2,9 2,2 2,4 2,9 2,1 2,4 2,4 Yi 48 57 66 70 89 36 46 54 26 77 89 67 i 13 14 15 16 17 18 19 20 21 22 23 Xi1 38 34 53 36 33 29 33 55 29 44 43 Xi2 55 51 54 49 56 46 49 51 52 58 50 Xi3 2,2 2,3 2,2 2,0 2,5 1,9 2,1 2,4 2,3 2,9 2,3 Yi 47 51 57 66 79 88 60 49 77 52 60
Anggap asumsi-asumsi dalam model regresi linear ganda terpenuhi. a. Tentukan fungsi regresi dugaan
b. Ujilah hubungan regresi, gunakan taraf nyata 0,01.
c. Tentukan selang kepercayaan serempak bagi 1, 2 dan 3 dengan tingkat
kepercayaan 90%. Interpretasikan hasilnya.
d. Hitung koefisien korelasi ganda dan berikan maknanya.
3. Seorang peneliti ingin mengevaluasi hubungan antara gaji tahuan peneliti matematika golongan menengah dan senior (Y, dalam ribuan dolar) dan indeks kualitas publikasi (X1), jumlah tahun pengalaman (X2) dan indeks kesuksesan dalam memperoleh hibah (X3). Berikut data sampel 24 peneliti matematika golongan menengah dan senior.
i 1 2 3 4 5 6 7 8 9 10 11 12 Xi1 3,5 5,3 5,1 5,8 4,2 6,0 6,8 5,5 3,1 7,2 4,5 4,9 Xi2 9 20 18 33 31 13 25 30 5 47 25 11 Xi3 6,1 6,4 7,4 6,7 7,5 5,9 6,0 4,0 5,8 8,3 5,0 6,4 Yi 33,2 40,3 38,7 46,8 41,4 37,5 39,0 40,7 30,1 52,9 38,2 31,8 i 13 14 15 16 17 18 19 20 21 22 23 24 Xi1 8,0 6,5 6,6 3,7 6,2 7,0 4,0 4,5 5,9 5,6 4,8 3,9 Xi2 23 35 39 21 7 40 35 23 33 27 34 15 Xi3 7,6 7,0 5,0 4,4 5,5 7,0 6,0 3,5 4,9 4,3 8,0 5,0 Yi 43,3 44,1 42,8 33,6 34,2 48,0 38,0 35,9 40,4 36,8 45,2 35,1
29
Anggap asumsi-asumsi dalam model regresi linear ganda terpenuhi. a. Tentukan fungsi regresi dugaan
b. Ujilah hubungan regresi, gunakan taraf nyata 0,05.
c. Ujilah apakah masing-masing k signifikan. Gunakan taraf nyata 0,05.
d. Tentukan selang kepercayaan serempak bagi 1, 2 dan 3 dengan tingkat
kepercayaan 95%. Interpretasikan hasilnya.
e. Hitung koefisien korelasi determinasi dan berikan maknanya. f. Buatlah selang kepercayaan 95% bagi masing-masing k.
30
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 7 : Asumsi-asumsi dalam Analisis Regresi Linear Ganda Asumsi-asumsi dalam analisis regresi linear ganda adalah
a. Linearitas
b. Tidak terjadi multikolinearitas c. Tidak terjadi heteroskedastisitas d. Normalitas
e. Tidak ada autokorelasi
Linearitas
Model regresi linear ganda diasumsikan linear dalam parameter regresi. Asumsi linearitas dalam regresi ganda lebih sulit dipenuhi berkaitan dimensi data yang semakin tinggi.
Asumsi ini dapat dideteksi dengan plot pencar sisaan dibakukan dengan masing-masing peubah bebas.
Kriteria: asumsi ini terpenuhi bila pada plot ini menunjukkan titik-titik berpencar secara acak, bila berpola maka mengindikasikan terjadinya pelanggaran asumsi. Jika asumsi linearitas tidak terpenuhi maka lakukan transformasi pada Y dan atau peubah bebas tertentu.
Gambar 1. Plot sisaan dibakukan dengan masing-masing peubah bebas
Pada Gambar 1, pada masing-masing plot menunjukkan bahwa titik-titik berpencar secara acak sehingga asumsi linearitas dalam parameter regresi terpenuhi.
Multikolinearitas
Multikolinearitas atau kekolinearan ganda adalah terjadinya korelasi antar peubah bebas.
Model regresi yang baik seharusnya tidak terjadi korelasi antar peubah bebas.
Metode yang banyak digunakan untuk mendeteksi adanya multikolinearitas adalah faktor inflasi ragam (variance inflation factor/VIF) dengan rumus
1 ,..., 2 , 1 , ) 1 ( 2 1 p k R VIFk k 2 k
R adalah koefisien determinasi ganda bila Xk diregresikan terhadap p-2 peubah lainnya di dalam
31
Kriteria terjadinya multikolinearitas adalah VIF > 10 atau nilai TOLERANCE < 0,1 (TOLERANCE = 1/VIF)
Heteroskedastisitas
Ragam galat diasumsikan konstan dari satu pengamatan ke pengamatan lain, hal ini disebut
homoskedastisitas.
Jika ragam galat berbeda disebut heteroskedastisitas.
Model regresi yang baik adalah tidak terjadi heteroskedastisitas.
Untuk mendeteksi heteroskedastisitas adalah dengan membuat plot nilai dugaan yang dibakukan (standardized predicted value) dengan sisaan yang dibakukan (studentized residual).
Jika ada pola tertentu (bergelombang, melebar kemudian menyempit) maka terjadi heteroskedastisitas.
Jika tidak ada pola jelas, maka tidak terjadi heteroskedastisitas.
Gambar 2. Plot nilai dugaan dibakukan dengan sisaan dibakukan
Pada Gambar 2, plot menunjukkan bahwa titik-titik berpencar secara acak (tidak berpola) yang mengindikasikan homoskedastisitas. (Galat memiliki ragam yang sama).
Normalitas
Galat diasumsikan berdistribusi Normal
2
, 0
~
i N .
Model regresi yang baik adalah distribusi data normal atau mendekati normal.
Untuk mendeteksi normalitas digunakan normal p-p plot.
Jika titik-titik (sisaan) menyebar di sekitar garis diagonal dan mengikuti arah garis diagonal, maka model regresi memenuhi asumsi normalitas.
Jika titik-titik (sisaan) menyebar jauh dari garis diagonal dan atau tidak mengikuti arah garis diagonal, maka model regresi tidak memenuhi asumsi normalitas.
32
Gambar 3. Plot P-P Normal
Pada Gambar 3 terlihat bahwa titik-titik dekat dengan garis diagonal sehingga galat memiliki distribusi normal.
Autokorelasi
Bila dalam model regresi linear ganda ada korelasi antara galat pada periode t dengan galat pada periode t-1, maka dinamakan ada masalah autokorelasi.
Model regresi yang baik adalah model regresi yang bebas dari autokorelasi.
Autokorelasi sering ditemukan pada regresi yang datanya adalah time series atau berdasarkan waktu berkala seperti bulanan, tahunan.
Deteksi autokorelasi dengan menggunakan besaran Durbin -Watson (D-W)
n i i n i i i e e e d 1 2 2 2 1) ( Hipotesis NolHipotesis Alternatif Taraf Nyata Kriteria Keputusan H0 : = 0 (Tidak ada autokorelasi) H1 : > 0 (Ada autokorelasi positif)
Jika d > dU maka terima H0 (tidak ada autokorelasi)
Jika d < dL maka tolak H0 (ada autokorelasi positif)
Jika dL ≤ d ≤ dU , maka uji tidak meyakinkan
H1 : < 0
(Ada autokorelasi negatif)
Jika 4-d > dU maka terima H0 (tidak ada autokorelasi)
Jika 4-d < dL maka tolak H0 (ada autokorelasi negatif)
Jika dL ≤ 4-D ≤ dU , maka uji tidak meyakinkan
H1 : ≠ 0
(Ada autokorelasi)
2 Jika d < dL atau 4-d < dL maka tolak H0 (ada
autokorelasi)
Jika d > dU dan 4-d > dU maka terima H0 (tidak ada
autokorelasi )
33
SOAL LATIHAN
Sebuah studi untuk mengetahui hubungan lama bekerja dan kepuasan kerja dengan pendapatan. Berikut data sampel dari sembilan pekerja.
Pendapatan per tahun (ribuan dolar)
Lama bekerja Indeks kepuasan kerja 47 42 54 48 56 59 53 62 66 8 4 12 9 16 14 10 15 22 5,6 6,3 6,8 6,7 7,0 7,7 7,0 8,0 7,8 Selidiki pemenuhan asumsi-asumsi dalam model regresi linear ganda.
35
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 8 : Jumlah Kuadrat Ekstra Kegunaan Jumlah Kuadrat Ekstra:
a. Mengukur pengurangan JKG akibat dimasukkannya 1 atau lebih peubah bebas ke dalam
model regresi, jika diketahui peubah-peubah lain telah ada di dalam model
b. Mengukur kenaikan JKR akibat dimasukkannya 1 atau beberapa peubah bebas ke dalam
model regresi
c. Untuk menguji apakah peubah Xk dapat dibuang dari model regresi ganda
d. Untuk menguji apakah beberapa peubah bebas dapat dibuang dari model regresi ganda
Definisi
Jumlah kuadrat esktra 𝐽𝐾𝑅 𝑋2 𝑋1 mengukur pengaruh marjinal akibat penambahan X2 dalam
model regresi yang sudah ada X1.
𝐽𝐾𝑅 𝑋2 𝑋1 = 𝐽𝐾𝑅 𝑋1, 𝑋2 − 𝐽𝐾𝑅 𝑋1 atau 𝐽𝐾𝑅 𝑋2 𝑋1 = 𝐽𝐾𝐺 𝑋1 − 𝐽𝐾𝐺 𝑋1, 𝑋2 Perluasan 𝐽𝐾𝑅 𝑋3 𝑋1, 𝑋2 = 𝐽𝐾𝑅 𝑋1, 𝑋2, 𝑋3 − 𝐽𝐾𝑅 𝑋1, 𝑋2 atau 𝐽𝐾𝑅 𝑋3 𝑋1, 𝑋2 = 𝐽𝐾𝐺 𝑋1, 𝑋2 − 𝐽𝐾𝐺 𝑋1, 𝑋2, 𝑋3 Contoh 1
Perhatikan tabel berikut 1 8572 , 0 496 , 1 ˆ X Y Yˆ 23,6340,8565X2 Sumber variasi JK db KT Regresi JKR(X1)=352,27 1 352,27 Galat JKG(X1)=143,12 18 7,95 Total 495,39 19 Sumber variasi JK db KT Regresi JKR(X2)=381,97 1 381,97 Galat JKG(X2)=113,42 18 6,30 Total 495,39 19 2 1 0,6594 2224 , 0 174 , 19 ˆ X X Y Yˆ 117,084,334X12,857X2 2,186X3 Sumber variasi JK db MS Regresi JKR(X1,X2)=385,44 2 192,72 Galat JKG(X1,X2)=109,95 17 6,47 Total 495,39 19 Sumber variasi JK db KT Regresi JKR(X1,X2,X3)=396,98 3 132,33 Galat JKG(X1,X2,X3)=98,41 16 6,15 Total 495,39 19
36
Jumlah kuadrat galat bila X1 dan X2 ada dalam model, 𝐽𝐾𝐺 𝑋1, 𝑋2 = 109,95 lebih kecil dibandingkan bila dalam model hanya ada X1, 𝐽𝐾𝐺 𝑋1 = 143,12.
Jumlah kuadrat ekstra untuk pengaruh marjinal akibat penambahan X2 dalam model regresi
yang sudah ada X1.
𝐽𝐾𝑅 𝑋2 𝑋1 = 𝐽𝐾𝐺 𝑋1 − 𝐽𝐾𝐺 𝑋1, 𝑋2 = 143,12 − 109,95 = 33,17 atau 𝐽𝐾𝑅 𝑋2 𝑋1 = 𝐽𝐾𝑅 𝑋1, 𝑋2 − 𝐽𝐾𝑅 𝑋1 = 385,44 − 352,27 = 33,17
Jumlah kuadrat ekstra untuk pengaruh marjinal akibat penambahan X3 dalam model regresi
yang sudah ada X1 dan X2.
𝐽𝐾𝑅 𝑋3 𝑋1, 𝑋2 = 𝐽𝐾𝐺 𝑋1, 𝑋2 − 𝐽𝐾𝐺 𝑋1, 𝑋2, 𝑋3 = 109,95 − 98,41 = 11,54 atau 𝐽𝐾𝑅 𝑋3 𝑋1, 𝑋2 = 𝐽𝐾𝑅 𝑋1, 𝑋2, 𝑋3 − 𝐽𝐾𝑅 𝑋1, 𝑋2 = 396,98 − 385,44 = 11,54
Dekomposisi JKR menjadi Jumlah Kuadrat Ekstra
Dalam regresi ganda dapat diperoleh beberapa dekomposisi JKR menjadi Jumlah Kuadrat Ekstra. Misal untuk dua peubah bebas.
𝐽𝐾𝑇 = 𝐽𝐾𝑅 𝑋1 + 𝐽𝐾𝐺 𝑋1
Lalu substitusi 𝐽𝐾𝐺 𝑋1 dengan 𝐽𝐾𝑅 𝑋2 𝑋1 + 𝐽𝐾𝐺 𝑋1, 𝑋2 sehingga 𝐽𝐾𝑇 = 𝐽𝐾𝑅 𝑋1 + 𝐽𝐾𝑅 𝑋2 𝑋1 + 𝐽𝐾𝐺 𝑋1, 𝑋2
→ 𝐽𝐾𝑇 = 𝐽𝐾𝑅 𝑋1, 𝑋2 + 𝐽𝐾𝐺 𝑋1, 𝑋2
Tabel 1. Contoh Tabel ANOVA dengan Dekomposisi JKR untuk Tiga Peubah X
Sumber Variasi JK db KT Regresi X1 X2|X1 X3|X1,X2 JKR(X1, X2, X3) JKR(X1) JKR(X2|X1) JKR(X3|X1,X2) 3 1 1 1 KTR(X1, X2, X3) KTR(X1) KTR(X2|X1) KTR(X3|X1,X2) Galat JKG(X1, X2, X3) n - 4 KTG(X1, X2, X3) Total JKT n - 1 Uji masing-masing 𝜷𝒌= 𝟎
Bentuk 𝛽𝑘𝑋𝑘 dapat dikeluarkan dari model regresi ganda, dengan hipotesis alternatif sebagai berikut
Hipotesis Nol Hipotesis Alternatif Statistik Uji Kriteria keputusan
H0 : 𝛽𝑘 = 0 H1 : 𝛽𝑘 ≠ 0 𝑡 = 𝑏𝑘
𝑠 𝑏𝑘
H0 ditolak jika 𝑡 > 𝑡𝛼 2(𝑛 −𝑝 )
37 Hipotesis : H0 : k= 0 H1 : k 0 Taraf nyata : Statistik Uji :
KTG X X X X X KTR p n X X JKG X X X X X JKR F p k k k p p k k k 1 1 1 1 1 1 1 1 1 1 , , , , , , , : 1 , , , , , Kriteria Keputusan :H0 ditolak jika Fhit > F(1,n-p)
Uji Apakah Semua k = 0 Hipotesis :
H0 : 1 = 2 = … = p-1 = 0
H1 : Tidak semua k (k=1, …, p-1) sama dengan nol
Taraf nyata : Statistik Uji :
KTG KTR p n X X JKG p X X JKR F p p 1 1 1, , 1 : 1 , , Kriteria Keputusan :H0 ditolak jika Fhit > F(p-1,n-p)
Uji Apakah Beberapa k = 0 Hipotesis :
H0 : q=q+1 = …=p-1= 0
H1 : Tidak semua k di dalam H0 sama dengan nol
Taraf nyata : Statistik Uji :
KTG X X X X KTR p n X X JKG q p X X X X JKR F q p q p q p q 1 1 1 1 1 1 1 1 , , , , , , : , , , , Kriteria Keputusan :38
Misalkan model regresi orde pertama dengan tiga peubah bebas 𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖1+ 𝛽2𝑋𝑖2+ 𝛽3𝑋𝑖3+ 𝜀𝑖
Uji apakah 𝛽3 = 0.
Hipotesis Nol Hipotesis
Alternatif
Statistik Uji Kriteria keputusan
H0 : 𝛽3 = 0 H1 : 𝛽3 ≠ 0 𝐹 = 𝐽𝐾𝑅 𝑋3 𝑋1, 𝑋2 1 𝐽𝐾𝐺 𝑋1, 𝑋2, 𝑋3 𝑛 − 4 H0 ditolak jika 𝐹 > 𝐹𝛼 (1,𝑛 −4) Contoh 2
Dari contoh 1. Apakah X3 dapat dikeluarkan dari model regresi? Gunakan taraf nyata 𝛼 = 0.01.
Hipotesis H0 : 𝛽3 = 0 H1 : 𝛽3 ≠ 0 Taraf nyata: 𝛼 = 0,01 Statistik Uji: 𝐹 = 𝐽𝐾 𝑅 𝑋3 𝑋1,𝑋2 1 𝐽𝐾𝐺 𝑋1,𝑋2,𝑋3 𝑛−4 Kriteria keputusan: F0,01(1,20-4) = F0,01(1,16) = 8,53 H0 ditolak jika 𝐹ℎ𝑖𝑡 > 8,53 Hitungan: 𝐹 = 11,54 1 98,41 16= 1,88 Kesimpulan:
Karena Fhit = 1,88 < 8,53 maka H0 diterima. (𝛽3 = 0)
Jadi pada taraf nyata 0,01 dapat disimpulkan bahwa X3 dapat dikeluarkan dari model regresi.
Misalkan model regresi orde pertama dengan tiga peubah bebas
𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖1+ 𝛽2𝑋𝑖2+ 𝛽3𝑋𝑖3+ 𝜀𝑖 (Model Lengkap)
Apakah 𝑋2 and 𝑋3 dapat dikeluarkan dari model regresi. Null Hypothesis Alternative
Hypothesis
Statistik Uji Kriteria
Keputusan H0 : 𝛽2 = 𝛽3 = 0 H1 : Tidak semua 𝛽2 dan 𝛽3 sama dengan nol 𝐹 = 𝐽𝐾𝑅 𝑋2, 𝑋3 𝑋1 2 𝐽𝐾𝐺 𝑋1, 𝑋2, 𝑋3 𝑛 − 4 H0 ditolak jika 𝐹 > 𝐹𝛼 (2,𝑛 −4) Contoh 3
Dari contoh 1. Apakah X2 dan X3 dapat dikeluarkan dari model regresi? Gunakan taraf nyata
39 Hipotesis
H0 : 𝛽2 = 𝛽3 = 0
H1 : Tidak semua 𝛽2 dan 𝛽3 sama dengan nol Taraf nyata: 𝛼 = 0,01 Statistik Uji: 𝐹 = 𝐽𝐾𝑅 𝑋2,𝑋3 𝑋1 2 𝐽𝐾𝐺 𝑋1,𝑋2,𝑋3 𝑛−4 Kriteria keputusan: F0,01(1,20-4) = F0,01(2,16) = 6,23 H0 ditolak jika 𝐹ℎ𝑖𝑡 > 3,63 Hitungan: 𝐹 = 44,71/2 98,41 16= 3,63 Hitungan:
Karena Fhit = 3,63 < 6,23 maka H0 diterima. (𝛽2 = 𝛽3 = 0)
Jadi pada taraf nyata 0,01 dapat disimpulkan bahwa X2 dan X3 dapat dikeluarkan dari model
regresi.
Koefisien Determinasi Parsial
• Untuk mengukur sumbangan marjinal satu peubah bebas X, bila semua peubah bebas lain telah ada di dalam model.
• Model regresi ganda ordo-pertama dengan 2 peubah bebas
i i i
i X X
Y 01 12 2
Maka koefisien determinasi parsial antara Y dan X1 bila dalam model sudah ada X2
adalah
2 2 1 2 2 . 1 X JKG X X JKR rY Ukuran ini mengukur proporsi penurunan keragaman Y yang diakibatkan oleh dimasukkannya X1 dalam model yang sebelumnya sudah ada X2.
Misalkan diperoleh
0,232 12 , 143 17 , 33 1 1 2 2 1 . 2 X JKG X X JKRrY , artinya jika X2 dimasukkan ke dalam
model regresi yang di dalamnya sudah ada X1 maka JKG akan berkurang 23,2%.
Berikut beberapa rumus koefisien determinasi parsial
2 2 1 2 2 . 1 X JKG X X JKR rY ,
2 3
3 2 1 2 23 . 1 , , X X JKG X X X JKR rY ,
1 3
3 1 2 2 13 . 2 , , X X JKG X X X JKR rY ,
1 2
2 1 3 2 12 . 3 , , X X JKG X X X JKR rY
1 2 3
3 2 1 4 2 123 . 4 , , , , X X X JKG X X X X JKR rY 40 Koefisien Korelasi Parsial
a. Koefisien korelasi parsial merupakan akar kuadrat koefisien determinasi parsial.
b. Koefisien ini mempunyai tanda yang sama dengan koefisien regresi padanannya di dalam
fungsi regresi dugaannya. Contoh 4
Dari contoh 1. Tentukan koefisien korelasi parsial X2 bila X1 sudah ada dalam model regresi?
2 1 0,6594 2224 , 0 174 , 19 ˆ X X Y 𝑟𝑌2|1 = 𝑅𝑌2|12 = 0,232 = 0,482
41
Universitas Negeri Yogyakarta
Fakultas Matematika dan Ilmu Pengetahuan Alam Jurusan Pendidikan Matematika
Topik 9 : Seleksi Model
Langkah-langkah dalam membangun model 1. Pilih satu set peubah bebas
2. Sesuaikan model regresi dengan nilai VIF
3. Jika nilai VIF > 5 maka eliminasi peubah bebas yang memiliki nilai VIF tertinggi, jika semua nilai VIF 5 maka lanjut ke langkah 5
4. Sesuaikan model regresi dengan nilai VIF untuk model yang baru (tanpa peubah yang telah dihapus)
5. Lakukan best-subsets regression dengan peubah bebas yang tersisa
6. Daftar seluruh model yang mempunyai Cp (p+1), dengan p adalah banyaknya peubah
bebas dalam model
7. Pada langkah 6, pilih model terbaik dengan menggunakan kriteria Cp, R2adj, s
8. Lanjutkan analisis yang lengkap dengan analisis sisaan 9. Perbaiki model bila ada indikasi pelanggaran asumsi
10.Gunakan model terbaik yang telah diperoleh bisa untuk prediksi dan inferensi Best-Subset Regression
Kriteria dalam memilih model terbaik pada best-subset regression: 1. Cp, pilih nilai Cp p+1 (Cp mengukur ketepatan model) 2. S, pilih nilai simpangan baku yang terkecil ( 𝑠 = 𝐾𝑇𝐺) 3. R2adj, pilih nilai R2adj mendekati 1 (100%)
4. Prinsip parsimony, model dengan peubah bebas yang lebih sedikit adalah lebih baik daripada lebih banyak peubah bebas.
Contoh 1
Berikut hasil output Minitab
Best Subsets Regression: Y versus X1, X2, X3, X4
Response is Y Mallows X X X X Vars R-Sq R-Sq(adj) Cp S 1 2 3 4 1 36.6 34.0 13.3 38.621 X 1 17.1 13.7 24.2 44.162 X 2 49.0 44.6 8.4 35.387 X X 2 45.0 40.2 10.6 36.749 X X 3 53.8 47.5 7.8 34.443 X X X 3 53.6 47.3 7.8 34.503 X X X 4 62.3 55.1 5.0 31.835 X X X X
Model terbaik adalah 𝑌 = 𝛽0+ 𝛽1𝑋1+ 𝛽2𝑋2+ 𝛽3𝑋3+ 𝛽4𝑋4+ 𝜀, karena memiliki nilai R2adj =
42 Forward Regression
Pada metode forward regression, penambahan peubah bebas ke dalam model dilakukan satu per satu berdasarkan kekuatan koefisien korelasi.
Gambar 1. Diagram Alur untuk Forward Selection Contoh 2
Berikut hasil output Minitab
Stepwise Regression: Y versus X1, X2, X3, X4
Forward selection. Alpha-to-Enter: 0.25 Response is Y on 4 predictors, with N = 26 Step 1 2 3 4 Constant -272.4 -330.7 -283.7 -330.8 X1 1.42 1.76 1.75 1.25 T-Value 3.72 4.66 4.75 3.02 P-Value 0.001 0.000 0.000 0.006 X2 -0.139 -0.119 -0.118 T-Value -2.36 -2.02 -2.18 P-Value 0.027 0.055 0.041 X3 -0.16 -0.30 T-Value -1.48 -2.52 P-Value 0.153 0.020 X4 0.131 T-Value 2.20 P-Value 0.039 S 38.6 35.4 34.5 31.8 R-Sq 36.60 48.99 53.62 62.31 R-Sq(adj) 33.96 44.56 47.29 55.13 Mallows Cp 13.3 8.4 7.8 5.0
43
Model terbaik adalah 𝑌 = 𝛽0+ 𝛽1𝑋1+ 𝛽2𝑋2+ 𝛽3𝑋3+ 𝛽4𝑋4+ 𝜀, karena memiliki nilai R2adj =
55,13 terbesar, R2 = 62,31 terbesar , Cp Mallows = 5,0 ( 5) dan S = 31,8 terkecil.
Backward Regression
Pada metode backward regression, diawali dengan memasukan semua peubah bebas ke dalam model lalu mengeluarkan peubah bebas yang memiliki nilai R2 terkecil.
Gambar 2. Diagram Alur untuk Backward Elimination Contoh 3
Berikut hasil output Minitab
Stepwise Regression: Y versus X1, X2, X3, X4
Backward elimination. Alpha-to-Remove: 0.1 Response is Y on 4 predictors, with N = 26 Step 1 Constant -330.8 X1 1.25 T-Value 3.02 P-Value 0.006 X2 -0.118 T-Value -2.18 P-Value 0.041 X3 -0.30 T-Value -2.52 P-Value 0.020 X4 0.131 T-Value 2.20 P-Value 0.039