• Tidak ada hasil yang ditemukan

Dasar-dasar Analisa Regresi

N/A
N/A
Protected

Academic year: 2022

Membagikan "Dasar-dasar Analisa Regresi"

Copied!
31
0
0

Teks penuh

(1)

Dasar-dasar Analisa Regresi

Tjipto Juwono, Ph.D.

February 2017

(2)

Sejarah Analisa Regresi

Istilah regresi pertama kali diperkenalkan oleh Francis Galton dalam salah satu papernya. Galton menemukan bahwa walaupun ada kecenderungan bahwa anak dari orang tua yang jangkung juga jangkung, dan anak dari orang tua yang pendek juga pendek, namun tinggi rata− rata dari anak yang lahir dari orang tua dengan tinggi tertentu akan bergerak ke-arah (regress) tinggi rata-rata dari

populasi1.

1Francis Galton, Proceedings of Royal Society, London, vol. 40, 1886, pp. 4272.

(3)

Sejarah Analisa Regresi

Temuan Galton dikonfirmasi oleh Karl Pearson. Ia mengumpulkan data tinggi badan dari ribuan keluarga 2. Ia menemukan bahwa tinggi rata-rata anak-anak dari kelompok orang tua yang jangkung lebih pendek dari tinggi orang tua mereka. Sementara tinggi rata-rata dari anak-anak dari orang tua yang pendek lebih tinggi dari orang tua mereka. Jadi tinggi rata-rata dari anak-anak itu bergerak ke arah (regress) tinggi rata-rata dari populasi.

2K. Pearson and A. Lee, Biometrika, vol. 2, Nov. 1903, pp. 357462.

(4)

Pengertian Analisa Regresi

Analisa Regresi:

Mempelajari ketergantungan satu variabel (yaitu variabel dependent) terhadap satu atau lebih variabel lainnya (yaitu variabel independence atau explanatory). Ketergantungan ini dipelajari dengan mengestimasi dan/atau memprediksi nilai mean/average dari populasi pada variabel dependent sebagai fungsi dari variabel(-variabel) independent yang diketahui, atau di-tetapkan (dalam hal sampling yang berulang).

(5)

Contoh Analisa Regresi

1 Dalam riset yang dilakukan oleh Galton (dan Pearson), ia ingin mengetahui bagaimana tinggi rata-rata anak berubah, jika tinggi orang tua (ayah) diberikan.

(6)

Contoh Analisa Regresi

Gbr. 1: Hubungan antara tinggi anak dengan tinggi ayahnya

(7)

Contoh Analisa Regresi

2 Misalkan kita ingin mempelajari hubungan antara tinggi seorang anak dengan usianya.

(8)

Contoh Analisa Regresi

Gbr. 2: Hubungan antara tinggi anak dengan usianya

(9)

Variabel Random vs Variabel Tetap

Variabel Random: Adalah variabel yang mempunyai distribusi probabilitas. Variabel Random disebut juga variabel stokastik.

Variabel Tetap: Tidak mempunyai distribusi probabilitas.

(10)

Hubungan Statistik vs Hubungan Deterministik

Hubungan deterministik: Dalam hubungan deterministik, semua variabel (baik itu dependen maupun independen) adalah variabel non-stokastik

Hubungan statistik: Dalam hubungan statistik, salah satu atau lebih (atau semua) variabelnya adalah variabel stokastik.

(11)

Hubungan Statistik vs Hubungan Deterministik

Contoh hubungan deterministik: Jika hambatan suatu kabel diketahui, maka untuk suatu besar tegangan antara kedua ujung kabel, hanya ada satu angka arus listrik. Hubungan antara tegangan dan arus listrik adalah hubungan yang deterministik.

Contoh hubungan statistik: Untuk setiap tinggi orang tua tertentu, ada banyak kemungkinan tinggi anaknya. Tinggi anak untuk satu tinggi orang tua tertentu, merupakan suatu distribusi (Lihat Gbr. (1)). Variabel tinggi anak tersebut disebut variabelrandomataustokastik.

(12)

Hubungan Statistik vs Hubungan Deterministik

Perhatikan kembali Gbr. (1). Untuk setiap tinggi orang tua yang tertentu, ada banyak kemungkinan tinggi anak yang membentuk suatu distribusi. Tinggi anak merupakan variabel random atau stokastik.

Ingat definisi variabel random, yaitu: variabel yang mempunyai distribusi probabilitas. Dalam pembahasan kita, variabel non-random (atau non-stokastik) disebut variabel tetap atau variabel fix (fixed variables).

(13)

Regresi vs Hubungan Sebab-Akibat

Regresi tidak berarti kausalitas

Misalkan kita menganalisa hubungan antara curah hujan dengan hasil panen. Secara statistik tidak ada alasan untuk mengatakan bahwa hasil panen ditentukan oleh curah hujan. Jika kita mengatakan yang sebaliknya, yaitu bahwa curah hujan ditentukan oleh hasil panen, maka itu sah-sah saja secara statistik. Jika kita mengatakan bahwa hasil panen ditentukan oleh curah hujan (dan bukan sebaliknya) maka itu berdasarkan pertimbangan non-statistik. (Misalnya: Kita tahu bahwa kita tidak dapat mengendalikan curah hujan dengan cara

mengubah-ubah hasil panen).

(14)

Regresi vs Hubungan Sebab-Akibat

Regresi tidak berarti kausalitas

Hubungan statistik di dalam dirinya tidak dapatsecara logis menunjukkan hubungan sebab-akibat. Untuk mengetahui hubungan sebab-akibat, seseorang harus mencarinya dari sumber di luar analisa statistik.

(15)

Regresi vs Hubungan Sebab-Akibat

Dalam hal hubungan antara tinggi orang tua dengan tinggi anak, kita bisa saja membuat analisa di mana kita menetapkan tinggi anak sebagai variabel independen, dan menjadikan tinggi orang tua sebagai variabel dependen yang merupakan variabel stokastik. Pengetahuan bahwa tinggi anak dikendalikan oleh tinggi orang tua bukan berasal dari analisa statistik melainkan dari sumber lain (umpamanya biologi atau genetika).

(16)

Regresi vs Korelasi

Apa perbedaan antara Korelasi dan Regresi?

Korelasi: Dalam korelasi, kita ingin mengetahui seberapa kuat hubungan linear antara dua variabel.

Regresi: Dalam regresi, kita ingin mengestimasi atau memprediksi nilai rata-rata dari suatu variabel (variabel dependen) berdasarkan nilai yang ditetapkan dari variabel yang lain (variabel independen).

(17)

Regresi vs Korelasi

Apa perbedaan antara Korelasi dan Regresi?

Korelasi: Hubungan antara kedua variabel bersifat simetris, kita tidak membeda-bedakan antara kedua variabel. Selain itu kedua-duanya diperlakukan sebagai variabel random (stokastik)

Regresi: Hubungan antara kedua variabel bersifat a-simetris. Kita membedakan antara variabel independen dan variabel dependen. Selain itu, hanya variabel dependen yang diperlakukan sebagai variabel random (stokastik).

Variabel independen diperlakukan sebagai variabel yang tetap (fixed, atau non-stokastik).

(18)

Istilah Dan Notasi

Dependent Variable Explained variable Predictand

Regressand Response Endogeneous Outcome

Controlled variable

Independent variable Explanatory Variable Predictor

Regressor Stimulus Exogeneous Covariate Control variable

(19)

Akurasi Data

Seorang peneliti harus selalu ingat bahwa kualitas hasil riset sangat bergantung pada kualitas data-nya.

(20)

Jenis-jenis Variabel

Skala Rasio: Ada urut-urutan, jarak antar satu variabel dengan variabel lain mempunyai makna, begitu pula rasio antar satu variabel dengan variabel lain.

Skala Interval: Ada urut-urutan, jarak antar satu variabel dengan variabel lain penting, tetapi rasio tidak berarti.

Skala Ordinal: Ada urut-urutan, tetapi jarak maupun rasio tidak bermakna. Memberi label pada kategori, di mana ada urut-urutan pada kategori-kategori. Kategori yang satu lebih tinggi dari yang lain.

Skala Nominal: Hanya digunakan memberi label pada kategori. Tidak ada urut-urutan, jarak, atau rasio.

(21)

Data

Home Cost Temp Ins Age ($) (F) (In.) (y)

1 250 35 3 6

2 360 29 4 10

3 165 36 7 3

4 43 60 6 9

5 92 65 5 6

6 200 30 5 5

7 355 10 6 7

8 290 7 10 10

9 230 21 9 11

Home Cost Temp Ins Age ($) (F) (In.) (y)

11 73 54 12 4

12 205 48 5 1

13 400 20 5 15

14 320 39 4 7

15 72 60 8 6

16 272 20 5 8

17 94 58 7 3

18 190 40 8 11

19 235 27 9 8

(22)

Data

Yˆ = a + b1X1+ b2X2+ b3X3

Yˆ: Biaya pemanasan rumah di daerah dingin (dalam $) X1: Suhu rata-rata di luar (F)

X2: Tebal rata-rata dinding insulator (inch) X3: Usia pemanas (Y ear)

(23)

Ringkasan Output (Excel)

(24)

Scatter Plots

Scatter plot antara masing-masing variabel independen dan variabel dependen memberikan informasi awal yang berguna Dapat dilihat apakah ada korelasi negatif/positif

Apakah ada korelasi yang cukup kuat

(25)

Scatter Plots

(26)

Persamaan Regresi

Persamaan Regresi

Yˆ = 427.194 − 4.583X1−14.831X2+ 6.101X3 (1)

(27)

Estimasi

Misalkan diketahui:

Biaya pemanasan 250$

Suhu di luar 35 F

Ketebalan insulator 3 inches Usia pemanas 6 tahun

Estimasi biaya pemanasan adalah:

Yˆ = 427.194 − 4.583X1−14.831X2+ 6.101X3

= 427.194 − 4.583(35) − 14.831(3) + 6.101(6) (2)

= 258.90

(28)

Ringkasan Output (Excel)

(29)

Global Test

Hipotesa

H0 : β2= β3= β4 = 0

H1 : T idak semua βi sama dengan nol (3)

Dari tabel ANOVA:

F = M SR

M SE

= 21.9 (4)

Dari Tabel-F:

(30)

Individual Test

Temperature Insulator Usia Pemanas H0 : β2 = 0 H0 : β3 = 0 H0 : β4 = 0 H1 : β2 6= 0 H1 : β3 6= 0 H1 : β4 6= 0

Menguji Koefisien Regresi Secara Individu t= bi−0

sbi

(6)

(31)

Individual Test

Untuk temperature, diperoleh t = −5.937 Untuk insulator, diperoleh t = −3.119 Untuk usia pemanas, diperoleh t = 1.521 Untuk α = 0.05, tcritical= −2.120

Kesimpulan: Koefisien regresi untuk temperature dan insulator tidak sama dengan nol. tetapi untuk usia pemanas koefisien regresinya dapat nol. Lebih lanjut lagi, p − value untuk usia pemanas adalah lebih dari 0.05. Variabel usia pemanas bukanlah prediktor yang signifikan dan dapat dicoret dari analisa.

Referensi

Dokumen terkait

Analisis regresi digunakan untuk melihat pengaruh variabel independen terhadap variabel dependen dengan terlebih dahulu melihat pola hubungan variabel tersebut.Hal

Namun dalam penelitian yang dilakukan penulis dengan menempatkan variabel komunikasi konsumen antara orang tua dan anak sebagai variabel independen, hasil

Rendahnya dukungan orang tua merupakan faktor pemicu perilaku untuk memeriksakan diri, peranan orang tua masih sangat tinggi dikarenakan hubungan orang tua dengan anak

Perlu diperhatikan bahwa variabel-variabel yang dikalikan dengan variabel dummy ini dilakukan jika variabel independen selain dummy tersebut (seperti variabel bibit misalnya)

Mereka menganggap seolah-olah anak hanya harus tunduk pada orang tua, karena pilihan orang tualah yang terbaik, pilihan orang tualah yang akan menjadikan anaknya menjadi

Berdasarkan hasil analisa uji statistik tentang hubungan variabel bebas, yaitu curah hujan CH, jam kerja JK, produktivitas Pr, dengan variabel terikat yaitu produksi P, maka bentuk

Regresi Linear adalah uji statistik parametrik yang mengetahui hubungan antar variabel dependen dengan variabel

Regresi linear berganda adalah teknik analisis statistik yang digunakan untuk menjelaskan hubungan antara satu variabel dependen dengan lebih dari satu variabel