Universitas Gadjah Mada
Jurusan Teknik Sipil dan Lingkungan Progam Studi Pascasarjana Teknik Sipil
Statistika
Korelasi
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id1
Korelasi
•
Acuan
•
Haan, C.T., 1982, Sta$s$cal Methods in Hydrology, 1
stEd., 3
rdPrin4ng,
The Iowa State Univ. Press, Ames, Iowa, USA
• Chapter 11, pp 222-‐235 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
2
Korelasi
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id3
•
Koefisien korelasi antara dua variabel random
X
dan
Y
!!
ρ
X ,Y=
σ
X ,Yσ
Xσ
Y!!
r
X ,Y=
S
X ,Ys
Xs
Y koefisien korelasi populasi koefisien korelasi sampel!!
S
X ,Y=
X
i− X
(
)
(
Y
i−Y
)
∑
n−1
s
X=
X
i− X
(
)
2∑
n−1
s
Y=
Y
i−Y
(
)
2∑
n−1
kovarian X dan Y simpangan baku X simpangan baku Y
!!
r
X ,Y= 1−
S
rS
t= 1−
Y
i− ˆ
Y
(
)
2∑
Y
i−Y
(
)
2∑
, ˆY =Y
regKorelasi
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id4
•
Koefisien korelasi antara dua variabel random
X
dan
Y
!!
r
X ,Y=
S
X ,Ys
Xs
Y MSExcel!!
r
X ,Y←
= COVARIANCE.S(X ,Y )
= STDEV.S(X)∗ = STDEV.S(Y )
!!
r
X ,Y← = CORREL(X ,Y )
Koe>isien Korelasi
•
Penger4an koefisien korelasi
•
Koefisien korelasi menunjukkan 4ngkat keeratan hubungan linear
antara suatu variabel random Y dan suatu variabel kedua yang
merupakan fungsi linear dari satu atau lebih variabel(-‐variabel) X
• Se4ap variabel X dapat berupa variabel random atau bukan variabel
random 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
5
Koe>isien Korelasi
•
Nilai koefisien korelasi adalah −1 <
r
X,Y< 1
• rX,Y = ±1 menunjukkan hubungan linear sempurna antara X dan Y • rX,Y = 0 menunjukkan independensi (ke4dak-‐tergantungan) linear,
namun dapat saja keduanya memiliki hubungan
(ketergantungan) yang lain, yang 4dak linear
• Jika X dan Y 4dak saling tergantung (independent), maka rX,Y = 0
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
6
Inferensi terhadap Koe>isien Korelasi Populasi
• Dua variabel random• tak berkorelasi, ρX,Y = 0 • berkorelasi, ρX,Y ≠ 0
• Situasi
• Sampel yang diperoleh dari variabel random yang 4dak berkorelasi
• jarang menunjukkan nilai rX,Y = 0
• koefisien korelasi sering rX,Y ≠ 0, karena kebetulan • Oleh karena itu perlu pengujian
• untuk mengetahui penyimpangan koefisien korelasi dari nol tersebut benar disebabkan oleh kebetulan, atau
• penyimpangan tersebut terlalu besar untuk dikatakan sebagai akibat kebetulan
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
7
Inferensi terhadap ρ
•
Uji hipotesis
•
H
0: ρ
X,Y= 0
•
H
a: ρ
X,Y≠ 0
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id8
!!
t = r
n−2
1−r
2"
#
$
%
&
'
1 2!!
|t|>t
1−α 2,n−2Inferensi terhadap ρ
•
Uji hipotesis
•
H
0: ρ
X,Y= ρ* (ρ* konstanta)
•
H
a: ρ
X,Y≠ ρ*
•
Rentang keyakinan ρ
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id9
!!z = W −ω(
)
(
n−3)
1 2!!
|z|> z
1−α 2sta4s4k uji H0 ditolak
!! W = 1 2ln 1+r 1−r " # $ % & '= arctanhr ! ω = 12ln 1+ρ 1−ρ $ % & ' ( )= arctanhρ !! l = tanh W − z1−α 2 n−3
(
)
1 2 # $ % % % & ' ( ( ( !! u = tanh W + z1−α 2 n−3(
)
1 2 # $ % % % & ' ( ( ( ukuran sampel n > 25Inferensi terhadap ρ
•
Ada sejumlah
k
populasi
bivariate
, distribusi normal, memiliki
•
koefisien korelasi populasi ρ
1, ρ
2, …, ρ
k•
koefisien korelasi sampel r
1, r
2, …, r
k•
ukuran sampel n
1, n
2, …, n
k•
Hipotesis
• H0: ρ1 = ρ2 = … = ρk = ρ* (ρ* konstanta) • Ha: ρ1 ≠ ρ2 ≠ … ≠ ρk ≠ ρ* 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id10
!!χ 2 =(
arctanhri −arctanhρ∗)
2(
ni −3)
i=1 k∑
!!χ2 > χ21−α,k H0 ditolakInferensi terhadap ρ
•
Hipotesis
• H0: ρ1 = ρ2 = … = ρk (semua koefisien korelasi sama) • Ha: ρ1 ≠ ρ2 ≠ … ≠ ρk 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
11
!!χ 2 =(
Wi −W)
2 ni −3(
)
i=1 k∑
!!χ2 > χ21−α,k−1 H0 ditolak !!Wi = arctanh ri !!W = ni −3(
)
Wi i=1 k∑
(
ni −3)
i=1 k∑
Inferensi terhadap ρ
•
Jika
•
hipotesis bahwa semua koefisien korelasi 4dak ditolak, maka
•
perlu diketahui nilai koefisien korelasi r yang mewakili nilai koefisien
korelasi populasi ρ
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id12
!!r = tanh W −mρ ∗ 2(
)
!!ρ ∗ = ri k i=1 k∑
!!W = ni −3(
)
Wi i=1 k∑
(
ni −3)
i=1 k∑
!! m= ni −3 ni −1 " # $$ % & '' i=1 k∑
(
ni −3)
i=1 k∑
Korelasi Serial
•
Korelasi serial (
serial correla$on
)
•
dikenal pula sebagai autokorelasi (autocorrela$on)
•
yaitu korelasi antara data hasil pengukuran pada suatu waktu dengan
data hasil pengukuran pada waktu sebelumnya
•
elemen dalam sampel yang memiliki korelasi serial
bukan
elemen
random (ingat definisi variabel random)
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
13
Korelasi Serial
•
Pada korelasi serial, dengan demikian
•
sampel berukuran n yang memiliki korelasi serial akan memberikan
informasi yang lebih sedikit dibandingkan dengan informasi yang
dimiliki oleh sampel random berukuran n
•
sebagian informasi pada sampel yang memiliki korelasi serial dapat
diperoleh dari atau telah diketahui dalam data hasil pengukuran pada
waktu sebelumnya
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id14
Korelasi Serial
•
Korelasi serial (
serial correla$on
)
•
dapat pula dijumpai antara suatu pengukuran pada waktu tertentu
dengan pengukuran pada waktu k periode waktu sebelumnya
(terdahulu), k = 1,2, …
•
asumsi
• selang waktu antar pengukuran adalah sama (seragam)
• sifat-‐sifat sta4s4s proses atau peris4wa yang diukur 4dak berubah
terhadap waktu (bersifat permanen)
• ρ(k) -‐-‐-‐ koefisien korelasi serial populasi
r(k) -‐-‐-‐ koefisien korelasi serial sampel
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
15
Korelasi Serial
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id16
!! r(k)= xixi+k i=1 n−k∑
− xi i=1 n−k∑
xi+k i=1 n−k∑
(
n−k)
xi2 i=1 n−k∑
− xi i=1 n−k∑
# $ %% & ' (( 2 n−k(
)
) * + + , -. . 1 2 xi+k2 i=1 n−k∑
− xi+k i=1 n−k∑
# $ %% & ' (( 2 n−k(
)
) * + + , -. . 1 2§ r(0) = 1 à korelasi suatu elemen data dengan dirinya sendiri adalah sama
dengan satu
§ semakin besar k, jumlah pasangan data untuk menghitung r(k) semakin sedikit; r(k) adalah nilai es4masi ρ(k)
§ oleh karena itu, k << n
§ jika ρ(k) = 0 untuk semua k, maka proses atau peris4wa atau populasi tersebut
bersifat random murni
!
xi = Xi − Xi
Korelasi Serial
•
Time series sirkular
• yaitu $me series yang berulang, Xn diiku4 oleh X1 • untuk $me series sirkular, normal, permanen
• asumsi
• dengan asumsi di atas, maka r(k) berdistribusi normal dengan
• nilai rerata −1/(n−1) • simpangan baku (n−2)/(n−1)2 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
17
!! r(k)= xixi+k i=1 n∑
−nX2 n−1(
)
sX2persamaan r(k) ini memberikan hasil hitungan yang mirip dengan
persamaan yang panjang pada hlm sebelumnya apabila n >> dan k << n
Korelasi Serial
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id18
§
Rentang keyakinan ρ(k)
!!l = 1 n−1(
−l − z1−α 2 n−2)
u = 1 n−1(
−l + z1−α 2 n−2)
§
Uji hipotesis
H
0: ρ(k) = 0
Korelasi dan Analisis Regional
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id19
§ Informasi yang dikandung dalam data dari sejumlah n stasiun di suatu wilayah
yang memiliki korelasi (rerata) interstasiun ρbar sama dengan informasi yang
dikandung dalam data dari sejumlah n’ stasiun yang 4dak saling berkorelasi
!! !
n = n
1+ n−1
(
)
ρ§ Seiring dengan n yang besar, maka n’ mendeka4 1/ρbar
!!n >> ⇒ "n ≈ 1 ρ
§ Melihat hubungan antara n’ dan n, maka menempatkan sedikit stasiun yang
4dak saling bergantung (independent) lebih baik daripada menempatkan banyak stasiun yang saling berkorelasi
Korelasi dan Analisis Regional
•
Korelasi dalam satu wilayah
•
dapat dipakai untuk memperoleh nilai es4masi yang lebih baik
terhadap suatu variabel hidrologik di suatu 44k lokasi melalui korelasi
dengan variabel hidrologik lain di 44k lokasi tersebut atau dengan
suatu karakteris4ka yang mirip di 44k lokasi yang lain
•
sebagai contoh
• Y dan X adalah dua variabel random hidrologik yang 4dak berkorelasi
• jumlah sampel Y adalah n1
• jumlah sampel X adalah n1 + n2
• Y dan X memiliki koefisien korelasi ρY,X
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
20
Korelasi dan Analisis Regional
•
Korelasi dalam satu wilayah
• Data Y dapat diperpanjang dengan memakai korelasi antara Y dan X
• pada dasarnya ini sama dengan regresi
• persamaan hubungan Y dan X dibentuk dari n1 pasangan data
• persamaan di atas dipakai untuk memperoleh sejumlah n2 nilai Y berdasarkan
n2 data X
• nilai rerata Y yang baru adalah:
• syarat: 8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
21
!!y = rY ,XsY y sX y dan x adalah deviasi (selisih) data terhadap nilai rerata masing-‐masing variabel
!!
Y = n1Y1+n2Y2
n1+n2
Korelasi dan Sebab-‐Akibat
• Pen4ng diketahui
• Korelasi yang 4nggi antara dua variabel 4dak selalu berar4 adanya hubungan
kausal, sebab-‐akibat antar kedua variabel tersebut
• Adanya korelasi antara debit bulanan di suatu sungai dengan debit bulanan di sungai
tetangga 4dak berar4 bahwa perubahan debit bulanan di sungai yang satu akan mengakibatkan perubahan debit bulanan di sungai tetangga
• Perubahan debit bulanan di kedua sungai mungkin saja disebabkan oleh faktor eksternal
• Ingat
• Variabel-‐variabel yang independent pas4lah tak saling berkorelasi, tetapi
• Variabel-‐variabel yang tak saling berkorelasi 4dak selalu independent
• Kebergantungan antar variabel yang saling berkorelasi adalah kebergantungan yang
bersifat stokas4k
• bukan kebergantungan dalam ar4 fisik, dan
• bukan kebergantungan dalam ar4 sebab-‐akibat
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
22
Korelasi
Spurious
•
Spurious correla$on
(korelasi “palsu”)
•
Tampak seper4 ada korelasi
antar variabel-‐variabel, tetapi
variabel-‐variabel tersebut
sebenarnya 4dak berkorelasi
•
Dapat terjadi karena adanya
data yang mengelompok
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
23
korelasi di masing-‐masing kelompok, r ≈ 0 “korelasi” bersama-‐ sama kedua kelompok, r 4nggiKorelasi
Spurious
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id
24
Y dan X 4dak berkorelasi
(Y dan X independent)
Y dan X dibagi Z à Y dan
X memiliki koefisien
8-‐Ap r-‐15 h1 p: // is 4ar to .s taff .u gm .ac .id