CORRELATION &
REGRESSION
STATISTIKA TEKNIK LNK2016
! Correlation is a statistical method used to determine whether a
relationship between variables exists.
! Regression is a statistical method used to describe the nature of
the relationship between variables, that is, positive or negative, linear or nonlinear.
! The purpose of this chapter is to answer these questions
statistically:
! 1. Are two or more variables related?
! 2. If so, what is the strength of the relationship? ! 3. What type of relationship exists?
! 4. What kind of predictions can be made from the
KORELASI
! Korelasi menyatakan derajat hubungan antara dua
variabel tanpa memperhatikan variabel mana yang menjadi peubah.
! Karena itu hubugan korelasi belum dapat dikatakan
Analisis korelasi
q Analisis korelasi bertujuan untuk mengukur kekuatan
asosiasi (hubungan) linear antara dua variabel.
q VARIABLE X DAN Y BERKEDUDUKAN SAMA, BISA
DITUKARKAN X BISA MEMPENGARUHI Y, DAN SEBALIKNYA
q Korelasi tidak menunjukkan hubungan fungsional atau
dengan kata lain, analisis korelasi tidak membedakan antara variabel dependen dengan variabel independen.
! correlation coefficient : a measure that REPRESENTS strength of the
relationship between or among the variables.
! There are two types of relationships: ! simple and multiple.
! In a simple relationship, there are two variables
! —an independent variable, also called an explanatory variable or a predictor
variable, and
! -- a dependent variable, also called a response variable.
! A simple relationship analysis is called simple regression, and there is one
independent variable that is used to predict the dependent variable.
! In a multiple relationship, called multiple regression, two or more independent
variables are used to predict one dependent variable. This type of study involves several variables.
! Simple relationships can also be positive or negative.
! A positive relationship exists when both variables increase or
decrease at the same time.
! For instance, a person’s height and weight are related; and the
relationship is positive, since the taller a person is, generally, the more the person weighs.
! In a negative relationship, as one variable increases, the
other variable decreases, and vice versa.
! For example, if you measure the strength of people over 60 years of
age, you will find that as age increases, strength generally decreases. The word generally is used here because there are exceptions.
! Some predictions are more accurate than others, due to
the strength of the relationship.
! That is, the stronger the relationship is between
Scatter Plots and Correlation
The possibilities include a positive linear relationship, a
negative linear relationship, a curvilinear relationship, or no discernible relationship.
examples
POSITIVE RELATION-SHIP TEND TO LINEARE
xa
m
ple
2
NEGATIVE RELATION-SHIP TEND TO LINEARE
xa
m
ple
3
NO PATTERN NO SPECIFIC RELATIONSHIPKOEFISIEN KORELASI
u
Koefisien Korelasi
à
ukuran seberapa kuat
hubungan antara dua variable atau lebih
u
Macam Koefisien Korelasi
u
Pearson Product Moment (
Korelasi
Pearson
) : (untuk data variable berskala
interval atau rasio)
u
Korelasi
Spearman
/Korelasi
Kendall
: untuk
data yg diolah dari hasil pengamatan/
berskala nominan/ordinal
STRONG POSITIF LINEAR RELATIONSHIP è 0 TO +1
NO LINEAR RELATIONSHIP è = 0
COEFFICIENT
CORRELATION
! Dalam analisis regresi, selain mengukur kekuatan
hubungan antara dua variabel atau lebih, juga menunjukkan arah hubungan antara variabel dependen dengan variabel independen.
! Variabel dependen diasumsikan random/stokastik,
yang berarti mempunyai distribusi probabilistik.
! Variabel independen/bebas diasumsikan memiliki
nilai tetap (dalam pengambilan sampel yang berulang)
Interpretasi Koefisien
Korelasi
q Nilai koefisien korelasi terletak antara -‐1 dan +1
q Semakin besar nilai absolut koefisien korelasi, maka
semakin kuat hubungan liniernya
q Semakin lemah kekuatan hubungannya, maka nilai
koef korelasi semakin mendekati nol
q Nilai korelasi positif artinya bila satu variable
meningkat nilainya, maka variable lainnya akan ikut meningkat
q Nilai korelasi negatif artinya bila satu variable nilainya
membesar, maka variable lainnya menurun.
q Koef korelasi pearson hanya ukuran kuat lemahnya
hubungan. Korelasi 0 belum tentu berarti tidak ada hubungan
TARAF SIGNIFIKANSI :
• Adalah suatu formasi yang ditetapkan oleh peneliti/penulis.
• Disimbolkan dengan : α
• Disesuaikan dengan isu/topik kajian dan tuntutan akurasi data
• Sesuai alasan pertimbangan yang rasional;
• Untuk bidang eksakta/teknik α = 5% = 0,05
bILA PROBAILITAS < α (< 5%) MAKA H0 DITOLAK
DAN HA diterima
POSITIVE STRONG
NEGATIVE STRONG
POSITIVE WEAK
REGRESSION
! If the value of the correlation coefficient is significant,the next step is to determine the equation of the regression line, which is the data’s line of best fit.
! (Note: Determining the regression line when r is not
significant and then making predictions using the regression line are meaningless.)
! The purpose of the regression line is to enable the
researcher to see the trend and make predictions on the basis of the data.
•
Regresi
à
alat ukur yang juga digunakan untuk
mengukur ada atau tidaknya korelasi antar
variabelnya.
•
Istilah regresi itu sendiri berarti ramalan atau
taksiran.
•
Persamaan yang digunakan untuk mendapatkan garis
regresi pada data diagram pencar disebut
persamaan
regresi
.
•
Untuk menempatkan garis regresi pada data yang
diperoleh maka digunakan metode kuadrat terkecil,
sehingga bentuk persamaan regresi adalah sebagai
berikut: Y’ = a + b X
ANALISIS REGRESI
! HAMPIR SAMA DENGAN ANALISIS KORELASI
! TUJUAN : MELIHAT HUBUNGAN SATU ARAH ANTAR
VARIABLE YANG LEBIH KHUSUS, DIMANA VARIABLE X BERFUNGSI SBG VARIABLE BEBAS (YANG
MEMPENGARUHI) DAN VARIABLE ADALAH VARIABLE TERIKAT (YANG DIPENGARUHI)
! X à VARIABLE DEPENDEN, Yà INDEPENDEN ! VARIABLE X DAN Y BERKEDUDUKAN SAMA, BISA
DITUKARKAN X BISA MEMPENGARUHI Y, DAN SEBALIKNYA
! HUBUNGAN (ATAU PENGARUH) DLM ANALISIS REGRESI
DITUNJUKKAN DALAM BENTUK GARIS LURUS (PLOTTING DATA VARIABEL)
! UNTUK MEYAKINKAN BAHWA MODEL PILIHAN ADALAH
LINIER, TERLEBIH DAHULU BUAT SCATTER PLOT (PLOT HUB X DAN Y APAKAH CENDERUNG MEMBENTUK GARIS LURUS)
! ASUMSIKAN KENORMALAN (ERROR)-‐ TANPA UJI
NORMALITAS, KARENA VARIABEL X BESARAN YG DITENTUKAN (BUKAN ACAK)
! MODEL REGRESI : PERSAMAAN : Y’ = a + b X
! ARTINYA SETIAP SATU NILAI VARIABEL X , MAKA NILAI
VARIABEL Y DAPAT DIPREDIKSI MENGGUNAKAN PERSAMAAN TSB
! MODEL PILIHAN LINIER TIDAK MUTLAK. BILA SCATTER
PLOT TIDAK MENUNJUKKAN KECENDERUNGAN LINIER, MAKA MODEL DENGAN POLA LAIN DAPAT
! HUBUNGAN (ATAU PENGARUH) DLM ANALISIS REGRESI
DITUNJUKKAN DALAM BENTUK GARIS LURUS (PLOTTING DATA VARIABEL)
! UNTUK MEYAKINKAN BAHWA MODEL PILIHAN ADALAH
LINIER, TERLEBIH DAHULU BUAT SCATTER PLOT (PLOT HUB X DAN Y APAKAH CENDERUNG MEMBENTUK GARIS LURUS)
! ASUMSIKAN KENORMALAN (ERROR)-‐ TANPA UJI
NORMALITAS, KARENA VARIABEL X BESARAN YG DITENTUKAN (BUKAN ACAK)
! MODEL REGRESI : PERSAMAAN : Y’ = a + b X
! ARTINYA SETIAP SATU NILAI VARIABEL X , MAKA NILAI
VARIABEL Y DAPAT DIPREDIKSI MENGGUNAKAN PERSAMAAN TSB
! MODEL PILIHAN LINIER TIDAK MUTLAK. BILA SCATTER
PLOT TIDAK MENUNJUKKAN KECENDERUNGAN LINIER, MAKA MODEL DENGAN POLA LAIN DAPAT
DARI PERSAMAAN REGRESI Y’ = a + b X
• Nilai konstan (a) è nilai nol untuk variable observasi x (negatif or positif)
• Bilai nilai x jauh dari 0 maka nilai tersebut hanya
merupakan ekstrapolasi (penaksiran diluar jangkauan)
• Nilai (b) merupakan koefisien regresi, nilai tersebut menunjukkan kemiringan garis lurus yang ditemukan.
• Makna nilai b, setiap x bertambah satu satuan,maka y akan bertambah menjadi b kali satuan pengukuran
•
Kesamaan di antara garis regresi dan garis trend tidak
dapat berakhir dengan persamaan garis lurus.
•
Garis regresi (seperti garis trend dan nilai tengah
aritmatika) memiliki dua sifat matematis berikut :
Σ
(Y – Y’) = 0 dan
Σ
(Y – Y’)2 = nilai terkecil atau
terendah.
•
Dengan perkataan lain, garis regresi akan
ditempatkan pada data dalam diagram sedemikian
rupa sehingga penyimpangan (perbedaan) positif
titik-titik terhadap titik-titik-titik-titik pencar di atas garis akan
mengimbangi penyimpangan negatif titik-titik pencar
yang terletak di bawah garis, sehingga hasil
penyimpangan keseluruhan titik-titik terhadap garis
lurus adalah nol.
KOEFISIEN DETERMINASI
(R
2
)
! R2 è PROPORSI DARI VARIAN VARIABLE
DEPENDEN, BAHWA VARIABLE DEPENDEN DAPAT DIPERJELAS OLEH VARIABEL INDEPENDEN SEBESAR NILAI KOEFISIEN DETERMINASI TERSEBUT
! RUMUS KOEF KORELASI:
KOEFISIEN DETERMINASI è R2 = R *
SIFAT SIFAT KOEFISIEN
DETERMINASI
v NILAI R2 è ANTARA 0 SAMPAI DENGAN 1
v R2 = 0 à VARIABEL DEPENDEN TIDAK DAPAT
DITAFSIRKAN OLEH VARIABLE INDEPENDEN
v R2 =1 (100%) è VARIABEL DEPENDEN DAPAT
DITAFSIRKAN OLEH VARIABEL INDEPENDEN SECARA SEMPURNA TANPA ERROR
v UNTUK 0 < R2 < 1 è CONTOH R2 = 0,6 = 60%, ARTINYA :
VARIABEL DEPENDEN (Y) DPT DITAFSIR ATAU
DIJELASKAN OLEH VARIBBEL X SEBESAR 60%, DAN 40% LAINNYA TIDAK DAPAT DIJELASKAN OLEH VARIABEL X, TAPI DAPAT DIJELASKAN OLEH VARIABLE INDEPENDEN LAIN YANG TIDAK DIAMATI.
CONTOH
DATA X = KUALITAS PELAYANAN, Y = VOLUME PENJUALAN PRODUK TENTUKANA. Nilai korelasi dan determinasi
B. Persamaan Regresi Sederhana
! Given a scatter plot, you must be able to draw the line of best fit. ! Best fit means that the sum of the squares of the vertical distances
from each point to the line is at a minimum.
! The reason you need a line of best fit is that the values of y will be
predicted from the values of x; hence, the closer the points are to the line, the better the fit and the prediction will be.