• Tidak ada hasil yang ditemukan

STK511 Analisis Statistika. Pertemuan 12 Nonparametrik-Kategorik-Logistik

N/A
N/A
Protected

Academic year: 2021

Membagikan "STK511 Analisis Statistika. Pertemuan 12 Nonparametrik-Kategorik-Logistik"

Copied!
56
0
0

Teks penuh

(1)

STK511

Analisis Statistika

Pertemuan – 12

(2)

Hanya nama/lambang

Ordered: A>B>C>D>E

Hanya mengukur selisih tidak mampu mengukur Nisbah/rasio Mampu Mengukur Nisbah/rasio

12. Pengantar

Skala Pengukuran Nominal Ordinal Categorical Interval Ratio Numeric Data/Variabel

Peubah

Kategorik

Numerik

(3)

Ditentukan oleh:

1. Skala pengukuran data/peubah 2. Jenis hubungan antar peubah

Causal relationship X

Y Numerik Kategorik

Numerik Regresi Linier ANOVA

Kategorik

Regresi Logistik, Diskriminan,

Classification and Regression Tree, Neural Network

Regresi Logistik Classification and

Regression Tree Neural Network

Peubah dan Metode Analisis

(4)

• Dalam analisis statistika (misal: uji hipotesis) tersedia pilihan prosedur : parametrik dan nonparametrik

• Prosedur parametrik mengasumsikan data memiliki sebaran teoritik tertentu dan nilai data itu sendiri yang digunakan dalam analisis (uji hipotesis)

• Prosedur nonparametrik tidak mengasumsikan data memiliki sebaran teoritik tertentu dan biasanya bukan nilai data itu sendiri (biasanya rangking) yang digunakan dalam analisis.

Parametrik vs Nonparametrik

(5)

• Keuntungan uji nonparametrik adalah mudah dan tidak perlu untuk memeriksa sebaran data.

• Namun, kuasa uji (kemampuan memdeteksi hipotesis H1 atau 1-) nonparametrik lebih rendah dibandingkan uji parametrik padanannya.

• Kelemahan lain uji nonparametrik adalah uji parametrik ternyata masih dapat digunakan pada data yang asumsi

sebarannya tidak dipenuhi (selama tidak jauh melenceng dari sebaran semula).

Uji - t dan ANOVA contohnya, masih dapat digunakan untuk Parametrik vs Nonparametrik

(6)

Pengujian hipotesis mengenai nilai tengah populasi Banyaknya

populasi Parametrik Nonparametrik

Satu Uji Z, Uji - t Uji Tanda, Wilcoxon

Dua Uji Z, Uji - t Mann-Whitney

Lebih ANOVA Kruskal-Wallis,

Friedman Parametrik vs Nonparametrik

(7)

Prosedur ini disebut uji tanda karena data yang akan dianalisis diubah menjadi serangkaian tanda plus dan minus, sehingga

statistik uji yang digunakan adalah jumlah tanda plus atau jumlah tanda minus.

Asumsi:

• Contoh yang tersedia merupakan contoh acak dari suatu populasi dengan median M yang belum diketahui.

• Peubah yang akan diamati sekurang-kurangnya ber-skala ordinal.

Hipotesis:

• H0 : M = M0 H1 : M  M0 • H0 : M  M0 H1 : M  M0 • H : M  M H1 : M  M

(8)

Statistik uji

Pencatatan tanda dari n buah selisih, artinya mencatat (Xi - M0) dengan i = 1,2, ..., n.

Jika H0 benar kita berharap contoh acak memiliki tanda plus sama banyaknya dengan tanda minus. Jika kita mendapatkan suatu jumlah tanda (baik plus atau minus) yang cukup kecil maka H0 ditolak.

Kaidah Keputusan

Tolaklah H0 pada taraf nyata  jika peluang untuk mendapatkan suatu tanda yang lebih sedikit dari pada tanda yang lainnya

dalam suatu conoth acak berukuran n adalah kurang dari atau sama dengan /2 (), jika H0 benar.

(9)

Ilustrasi :

Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7

Sign Test for Median: Data1

Sign test of median = 5.000 versus not = 5.000 N Below Equal Above P Median Data1 18 8 3 7 1.0000 5.000

(10)

Dalam uji Wilcoxon, kita menggunakan peringkat bertanda nilai-nilai selisih (Xi - M). Kita akan menghitung jumlah peringkat

bertanda negatif maupun jumlah peringkat bertanda positif.

Asumsi:

• Contoh yang tersedia merupakan contoh acak dari suatu populasi dengan median M yang belum diketahui.

• Peubah yang akan diamati sekurang-kurangnya ber-skala interval.

• Populasi simetrik dan antar pengamatan saling bebas.

Hipotesis:

• H0 : M = M0 H1 : M  M0 • H0 : M  M0 H1 : M  M0 • H0 : M  M0 H1 : M  M0

(11)

Statistik uji

1. Hitung : Di = Xi – M0

2. Beri peringkat dari selisih terkecil hingga terbesar tanpa memperhatikan tandanya.

3. Tandai setiap peringkat dari tanda selisih (Di)

4. Tentukan jumlah peringkat bertanda positif, misalkan dinotasikan dengan T+ dan jumlah peringkat bertanda negatif , T-.

Kaidah Keputusan

• Terima H0 jika T+ = T-.

• Aproksimasi untuk contoh besar

 

T n(n 1)/4  

(12)

Ilustrasi :

Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7

Wilcoxon Signed Rank Test: Data1

Test of median = 5.000 versus median not = 5.000 N

for Wilcoxon Estimated N Test Statistic P Median Data1 18 15 53.0 0.712 5.000

(13)

Asumsi:

• Data terdiri atas dua gugus contoh acak yang saling bebas : X1, X2…Xn dan Y1, Y2…Yn. Contoh pertama ditarik dari suatu populasi dengan median Mx dan contoh kedua dari populasi dengan median My.

• Skala pengukuran paling sedikit adalah ordinal.

• Kedua populasi memiliki bentuk sebaran yang sama.

• Fungsi sebaran dari kedua populasi hanya berbeda pada lokasinya (mean).

Hipotesis:

H0 : Mx = My

H1 : Mx  My (H1 : Mx > My, H1 : Mx < My)

(14)

Statistik Uji

• Gabungkan kedua contoh, kemudian beri peringkat dari yang terkecil hingga yang terbesar.

• Jumlahkan peringkat-peringkat dari populasi 1.

Jika parameter lokasi dari populasi 1 lebih kecil, kita

mengharapkan jumlah peringkat contoh yang ditarik dari

popuasi 1 akan lebih kecil dari jumlah peringkat contoh yang ditarik dari populasi 2. Begitu juga sebaliknya.

• Statistik uji didasarkan pada jumlah peringkat yang cukup kecil atau cukup besar dari amatan-amatan contoh yang berasal

dari populasi 1.

• , dengan S adalah jumlah peringkat untuk contoh dari populasi 1 2

1) (n

n S

T   1 1 

(15)

Kaidah Keputusan

• H1 : Mx  My

Tolak H0 jika Thitung < w/2 atau Thitung  w1-/2. • H1 : Mx < My

Tolak H0 jika Thitung < w • H1 : Mx > My

Tolak H0 jika Thitung > w1-. Catatan : w1- = n1n2 - w

Aproksimasi untuk n besar

 

1 2 1 2 1 2 T n n /2 z ~ 0,1 n n (n n 1)/12 N    

(16)

Ilustrasi :

Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7 Data2 : 7 4 5 6 8 7 8 9 5 7 7 8 8 9 4 5 6 7

Mann-Whitney Test and CI: Data1, Data2 N Median

Data1 18 5.000 Data2 18 7.000

Point estimate for ETA1-ETA2 is -2.000

95.2 Percent CI for ETA1-ETA2 is (-3.000,-1.000) W = 245.0

Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0056

(17)

• Uji nilai tengah beberapa populasi berdasarkan data contoh yang saling bebas

• Pengujian dilakukan dengan memberi peringkat pada data gabungan contoh

• Idenya, bila tidak ada perbedaan antar populasi, peringkat data masing-masing contoh akan memiliki kecenderungan yang sama

(18)

• Ilustrasi: pengujian kesamaan tingkat konsumsi rumah tangga antara tiga wilayah

• Langkah-langkah:

1. Penyusunan hipotesis:

H0: Tidak ada perbedaan konsumsi antar ketiga populasi H1: Ada perbedaan konsumsi antar ketiga populasi

(19)

No Wil 1 Rank 1 Wil 2 Rank 2 Wil 3 Rank 3 1 1 5 2 17 4 45 2 2 17 3 31 4 45 3 2 17 4 45 3 31 4 2 17 4 45 4 45 5 2 17 1 5 4 45 6 5 56.5 2 17 5 56.5 7 1 5 4 45 3 31 … … … … 20 2 17 2 17 5 56.5

2. Pemberian peringkat pada data gabungan

(20)

3. Penghitungan jumlah peringkat untuk masing-masing contoh

 R1 = 391.5 R2 = 539.5 R3 = 899

4. Penghitungan statistik uji

 k = banyaknya populasi H = 23.432

k 1 i i 2 i

1)

3(N

n

R

1)

N(N

12

H

(21)

5. Evaluasi Uji

 Tolak H0 bila H > 2

(db = k-1;) atau nilai-p < 

Untuk data ilustrasi, dengan menggunakan Minitab diperoleh nilai-p = 0.000

 untuk  = 0.05 H0 ditolak

 ada perbedaan konsumsi antar ketiga wilayah

(22)

Kruskal-Wallis Test: Data versus Populasi

Kruskal-Wallis Test on Data

Populasi N Median Ave Rank Z 1 18 5.000 14.3 -3.92 2 18 7.000 25.8 0.51 3 12 8.500 37.8 3.81 Overall 48 24.5

H = 20.64 DF = 2 P = 0.000

H = 21.06 DF = 2 P = 0.000 (adjusted for ties)

Ilustrasi lain:

(23)

• Uji nilai tengah beberapa populasi berdasarkan data contoh yang saling terkait (kelompok)

• Pengujian dilakukan dengan memberi peringkat data pada masing-masing objek

• Idenya, bila tidak ada perbedaan antar populasi, peringkat data pada masing-masing contoh akan memiliki

kecenderungan yang sama

(24)

Suatu penelitian dilakukan untuk mengetahui pengaruh warna kertas (biru, hijau, oranye) terhadap tingkat respons bagi

kuesioner-kuesioner yang disebarkan dengan cara ditempelkan di kaca depan mobil yang diparkir di tempat parkir toko

swalayan.

Lima tempat parkir toko swalayan dipilih dan ketiga warna

kuesioner tersebut ditempelkan secara acak pada mobil-mobil yang diparkir di lima tempat parkir

Ilustrasi:

(25)

1. Penyusunan hipotesis

H0: Tidak ada perbedaan respon pengembalian kuesioner untuk ketiga warna

H1: Ada perbedaan respon pengembalian kuesioner untuk ketiga warna

2. Pemberian peringkat pada data respon pengembalian kuesioner untuk masing-masing toko swalayan

3. Penghitungan jumlah peringkat untuk masing-masing warna kuesioner

Langkah-langkah:

(26)

Tempat Parkir Warna Kuesioner

Biru Hijau Oranye

1 28 (2) 34 (3) 27 (1)

2 26 (2) 29 (3) 25 (1)

3 31 (2) 35 (3) 29 (1)

4 29 (2) 31 (3) 27 (1)

5 30 (3) 29 (2) 28 (1)

Rbiru=11 Rhijau=14 Roranye=5

(27)

4. Penghitungan statistik uji b = banyaknya objek  = 5 k = banyaknya populasi  = 3 2 = 8.400

k 1 j 2 j 2 r

R

3b(k

1)

1)

bk(k

12

χ

Langkah-langkah:

(28)

5. Evaluasi Uji

 Tolak H0 bila H > 2(db = k-1;) atau nilai-p <

Untuk data ilustrasi, dengan menggunakan Minitab diperoleh nilai-p = 0.015

 untuk  = 0.05 H0 ditolak

 ada perbedaan respon pengembalian kuesioner untuk ketiga warna

Langkah-langkah:

(29)

Minitab

12. Uji Friedman RAK

Friedman Test: Respon versus Warna blocked by Parkir

S = 8.40 DF = 2 P = 0.015 Sum of Warna N Est Median Ranks Biru 5 28.667 11.0 Hijau 5 31.333 14.0 Oranye 5 27.000 5.0

(30)

Uji Khi-Kuadrat

(31)

Dari data yang dimiliki, seringkali diinginkan untuk dievaluasi adakah keterkaitan atau hubungan antar peubah-peubah

yang ada.

Peubah numerik  korelasi Peubah kategorik  asosiasi

(32)

Beberapa ilustrasi asosiasi antar peubah

• Hubungan antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan

• Hubungan antara keputusan pembelian suatu produk tertentu dikaitkan dengan jenis kelamin atau tingkat pendapatan

konsumen

• Hubungan antara status kredit nasabah (lancar atau macet) dengan status rumah (sendiri atau kontrak) dan lokasi tinggal (desa atau kota)

Asosiasi

(33)

Peubah A

Peubah B

Total

Kategori 1 Kategori 2 ... Kategori q

Kategori 1 O11 O12 ... O1q B1

Kategori 2 O21 O22 ... O2q B2

... ... ... ... ... ...

Kategori p Op1 Op2 ... Opq Bp

Total K K ... K N

Eksplorasi asosiasi antar peubah biasa diawali dengan tabulasi silang antar kedua peubah

Tabulasi Silang

(34)

• Pada evaluasi ada tidaknya asosiasi antar peubah, hipotesis yang diuji adalah:

H0: Tidak ada asosiasi antar peubah H1: Ada asosiasi antar peubah

• Apabila H0 benar, maka semestinya frekuensi masing-masing sel (frekuensi harapan) pada tabulasi silang adalah

Hipotesis

x

i j ij

B

K

E

N

(35)

• Semakin jauh nilai frekuensi sebenarnya (Oij) dengan frekuensi harapan (Eij), maka semakin besar kemungkinan hipotesis H0 salah atau tidak didukung data

• Dari ide ini disusun statistik uji untuk pengujian asosiasi sebagai berikut 2 p q 2 i 1 j 1

(

ij ij

)

hitung ij

O

E

E

 



Statistik Uji

(36)

• Jika H0 benar, maka 2

hitung menyebar 2 dengan

db = (p-1)(q-1) • H0 ditolak bila:  2 hitung > 2[db=(p-1)(q-1);]  nilai-p <  Kriteria Penolakan H0

(37)

• Ilustrasi: asosiasi antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan

Pendapatan Kepuasan kerja Total

1 2 3 1 6 13 3 22 2 9 37 12 58 3 3 13 8 24 Total 18 63 23 104 Ilustrasi

(38)

• Nilai Harapan E11 = (22)x(18)/(104) = 3.81 E21 = (58)x(18)/(104) = 10.04 … E33 = (24)x(23)/(104) = 5.31 • Statistik uji 2=4.094

5.31

5.31)

(8

...

10.04

10.04)

(9

3.81

3.81)

(6

χ

2 2 2 2

Ilustrasi

(39)

• Evaluasi uji

 Tolak H0 bila 2 > 2

[db = (B-1)(K-1);] atau bila nilai-p < 

dengan menggunakan Minitab diperoleh nilai-p = 0.393

 untuk  = 0.05 H0 diterima

 Tidak ada asosiasi antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan

Ilustrasi

(40)

12. Hubungan Antar Peubah

Minitab

Tabulated statistics: Pendapatan, Kepuasan Kerja Rows: Pendapatan Columns: Kepuasan Kerja

1 2 3 All 1 6 13 3 22 3.81 13.33 4.87 22.00 2 9 37 12 58 10.04 35.13 12.83 58.00 3 3 13 8 24 4.15 14.54 5.31 24.00 All 18 63 23 104 18.00 63.00 23.00 104.00 Cell Contents: Count

Expected count

Pearson Chi-Square = 4.094, DF = 4, P-Value = 0.393

Likelihood Ratio Chi-Square = 3.877, DF = 4, P-Value = 0.423 * NOTE * 3 cells with expected counts less than 5

(41)
(42)

C o n t i n u o u s

C a t e g o r i c a l

L i n e a r

R e g r e s s i o n

A n a l y s i s

12. Regresi Logistik

Overview

(43)

Masalah :

• Var(Yi/ni) = i(1 - i) /ni (tidak konstan)  MKT terboboti • Masih memungkinan -  < i <  padahal 0 < i < 1

• Solusi : menggunakan canonical parameter / link function  log [i/(1 -  i)] = X

Yi ~ Binomial (ni, i)  E(Yi) = ni i, Var(Yi) = ni i (1 - i) Model :

E(Yi/ni) = i = X  MKT

Modeling Data Biner

(44)

Model Linear:

yi ~ N(i, 2) dengan

i = 1x1i + 2x2i + 3x3i + … + pxpi

Komponen dalam GLM:

(tidak harus normal, asal keluarga eksponensial)

1. Komponen acak  y1, y2, …, yn contoh acak dimana yi ~ (i, 2)

2. Komponen sistematik  merupakan fungsi dari peubah penjelas : i = ix1i + ix2i + ix3i + … + ixpi

3. Fungsi hubung  menghubungkan antara fungsi dari nilai tengah komponen acak dengan komponen sistematik : g(i) = i

GLM: Pengembangan Model Linear

(45)

• Suatu peubah acak Y termasuk dalam keluarga eksponensial jika fkp/fmp dapat dibentuk sbb Y ~ E(, )

dengan  = E(Y) = b’(), 2 = Var(Y) = b’’() a().

• Untuk  tetap,

• Score function dan Fisher information function : dan

GLM: Sebaran Keluarga Eksponensial

(46)

Y

e

s

N

o

B i n a r y

T w o

C a t e g o r i e s

N

o

m

i

n

a

l

O

r

d

i

n

a

l

T h r e e

o r

M o r e

C a t e g o r i e s

Binary

Jenis Regresi Logistik

12. Regresi Logistik

(47)

Menggambarkan hubungan antara peluang “beli” vs “tidak Kurva Regresi Logistik

(48)

P

i

P r e d i c t o r

P r e d i c t o r

L o g i t

T r a n s f o r m

Asumsi

12. Regresi Logistik

(49)

Transformasi fungsi peluang

Model:

logit (pi) = 0 + 1X1

Transformasi dan Model Regresi Logistik

1 1 0 1 1 0

1

1

x x

e

e

Y

P

 

 

logit

log

1

i i i

p

p

p

12. Regresi Logistik

(50)

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1 > 0 1 < 0

Transformasi dan Model Regresi Logistik

(51)

Statistik uji-G adalah uji rasio kemungkinan (likelihood ratio test) yang digunakan untuk menguji peranan peubah penjelas di dalam model secara bersama-sama (Hosmer & Lemeshow, 1989).

Rumus umum uji-G untuk menguji hipotesis : H0 : 1 = 2 = … = k = 0

H1 : minimal ada satu  yang tidak sama dengan 0 adalah

Statistik G ini, secara teoritis mengikuti sebaran 2 dengan derajat bebas k.        bebas peubah dengan likelihood bebas peubah pa likelihood G 2ln tan

Uji Hipotesis: Simultan

(52)

Sementara itu, uji Wald digunakan untuk menguji parameter i secara parsial. Hipotesis yang diuji adalah:

H0 : i = 0 H1 : i  0

Formula statistik Wald adalah:

Secara teori, statistik W ini mengikuti sebaran normal baku jika H0 benar. ) ˆ ( ˆ i i SE W   

Uji Hipotesis: Parsial

(53)

Odd (ukuran asosiasi pada regresi logistik)  rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon.

Adapun rasio odd mengindikasikan seberapa lebih mungkin, dalam kaitannya dengan nilai odd, munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. Sebagai contoh, seberapa lebih besar peluang wanita untuk membeli produk dengan harga tertentu dibandingkan dengan pria.

Odd dan Rasio Odd

(54)

Rasio odd antara pria dengan wanita adalah: Odd dan Rasio Odd

12. Regresi Logistik

Jenis kelamin Membeli produk Total Ya Tidak Pria 10 90 100 Wanita 20 60 80 Total 30 150 180 0.11 0.9 0.1 membeli) P(tidak P(membeli) Oddpria    0.33 0.75 0.25 membeli) P(tidak P(membeli) Oddwanita    0.33 0.33 0.11 Odd Odd Odd Rasio wanita pria   

(55)

Ilustrasi

Binary Logistic Regression: purchase versus JK Link Function: Logit

Response Information Variable Value Count

purchase 1 162 (Event) 0 269

Total 431

Logistic Regression Table

Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -0.319353 0.130749 -2.44 0.015

JK -0.437307 0.202931 -2.15 0.031 0.65 0.43 0.96

12. Regresi Logistik

Tabulated statistics: JK, purchase Rows: JK Columns: purchase

0 1 All 0 139 101 240 1 130 61 191 All 269 162 431

(56)

Gambar

Ilustrasi lain:

Referensi

Dokumen terkait

6 Wawancara dengan Zulkifri, SH dilakukan pada hari senin, 20 oktober 2014.. motor digunakan karena bisa membantu untuk mengurai kemacetan ketika dijalan. Begini mas

72 - Bandung (Kota) - Jawa Barat Pengadaan Barang 180 Dinas Peternakan Perikanan dan.

Dismutase (SOD), TNF-alfa, dan IL-1 beta pada Sputum dan Serum Iin Noor Chozin, dr, SpP DPP 18 Hubungan Antara Kadar Vitamin D Dengan Ekspresi Cytokin Sel Th 17 Pada.. Pasien

Dinding penahan tanah adalah dinding yang berfungsi menahan massa tanah agar perbedaan elevasi antara permukaan tanah didepan dan dibelakang

Apabila timbul kasus AI di daerah bebas/terancam dan telah didiagnosa secara klinis, patologi anatomis, dan epidemiologi serta dikonfirmasi secara laboratoris, maka

melaksanakan proses pembelajaran memiliki skor rata-rata 111,87 dan tergolong dalam kategori sangat baik, (2) kinerja guru sesudah bersertifikasi dalam melaksanakan

Kemudian, menilik pada filter selanjutnya yakni sumberberita, media massa membutuhkan legitimasi atas berita tersebut dengan menghadirkan sumber berita (narasumber) yang

Dari Kegiatan konstruksi maupun pertambangan dapat mengakibatkan gangguan akibat kerja pada operator alat berat yaitu low back pain akibat getaran seluruh tubuh