Uji kenormalan

R untuk Pengolahan & Analisis Statistik

V.4. Regresi & ANOVA (Analysis of Variance)

V.6.1. Pencocokan distribusi (Fitting Distribution)

V.6.1.4. Uji kenormalan

Dalam analisis statitistika, statistikawan sering melakukan pengujian apakah kumpulan data berasal/tidak dari pupulasi Normal, oleh karena itu perlu melakukan uji kenormalan atas data tersebut. Beberapa literatur menyebutkan, ada beberapa uji yang berguna untuk menguji kemiringan (skewness) dan/atau kurtosis dari suatu distribusi berbasiskan pada b3 e b4 (atau gamma3 e gamma4). Salah satu uji yang paling baik dan ampuh untuk menguji kenormalan terutama untuk sample kecil adalah uji Shapiro-Wilk.

Dalam uji Shapiro-Wilk, kenormalan diuji dengan mencocokan dua penaksiran variansi alternative, yaitu: penaksir non-parametrik didapat dari kombinasi linear nilai sample terurut dan penaksir parameter biasa. Bobot (ai) dapat dilihat di table statistik:

∑

= = − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ = _n i i n i i i x x x a W 1 2 2 1 ) ( ) (

Fungsi R untuk uji Shapiro-Wilk adalah shapiro.test() yang akan menghitung nilai statitistik W dan p- value. Penulisan perintah di R adalah sebagai berikut:

> shapiro.test(x.norm)

Shapiro-Wilk normality test data: x.norm

91 p-value lebih tinggi dibandingkan tingkat (level) signifikansi yang biasanya digunakan untuk menguji hipotesis statistik. Hipotesis nol akan diterima apabila sample data termasuk dalam distribusi Gaussian.

Dalam Ekonometrik, uji Jarque-Bera sering digunakan untuk menguji kenormalan. Uji Jarque-Bera berdasarkan pada pengukuran kemiringan/skewness dan kurtosis dari distribusi dengan mempertimbangakn distribusi asimptotik dari b3 e b4 yang merupakan, dibawah hipotesa nol, suatu chi kuadrat dengan 2 derajat kebebasan. Uji Jarque-Bera di R berada dalam paket tseries (yang harus di download website CRAN) dengan perintah jarque-bera.test() yang akan menghitung nilai statistic, derajat kebebasan, dan p-value.

> library(tseries) # loading paket tseries > jarque.bera.test(x.norm)

Jarque Bera Test data: x.norm

X-squared = 0.539, df = 2, p-value = 0.7638

Suatu teknik pengujian yang diajukan oleh Cucconi (ahli statistik Italia) menguji kenormalan tanpa minimbulkan masalah penaksiran parameter data sample.

Misal x₁≥ x₂≥, … ≥ x_n sample variabel kontinu dan ζ1, ζ2, ζn himpunan bilangan acak normal standard berukuran n, misalkan:

1 1 1 2 − = =

∑

⁻ = n q e r n i ⁱ n ζ ζ

kita pertimbangkan transformasi x_i

:

n r x x q y i i = ⁻ +

σˆ ^dimana ^{x adalah rerata} sample dan σˆ adalah akar kuadrat variansi sample.

Disini dapat dilihat jika x_iberasal dari populasi normal dan y_i berdistribusi normal standard maka kita dapat menggunakan uji Kolmogorov-Smirnov untuk menguji hipotesis tersebut. Berikut adalah contoh penulisan di R:

> zz <-rnorm(n=200,m=0,sd=1) # bilangan random sampling dari N(0,1) > r <-zz[200] > q <-sd(zz[-200]) > m <-mean(x.norm) > s <-sqrt(var(x.norm)) > y <-q*((x.norm-m)/s)+(r/sqrt(200)) > ks.test(y,”pnorm”,m=0,sd=1)

One-sample Kolmogorov-Smirnov test data: y

D = 0.0298, p-value = 0.9943 alternative hypothesis: two.sided

Paket nortest (harus di download dari situs CRAN) digunakan untuk melakukan uji kenormalan hingga 5 cara yang berbeda, yaitu:

92 1) sf.test()melakukan uji Shapiro-Francia:

> library(nortest) #loading paket

> sf.test(x.norm)

Shapiro-Francia normality test

data: x.norm

W = 0.9926, p-value = 0.3471

2) ad.test() melakukan uji Anderson-Darling:

merupakan modifikasi uji Kolmogorov-Smirnov dan memerlukan distribusi tertentu untuk menghitung nilai kritis. Pada saat ini tabel nilai kritis sudah mencakup distribusi normal, lognormal, exponensial, Weibull, nilai ekstrim tipe I dan logistik. Uji Anderson-Darling berdasarkan pada statistik ini:

S n A2 =− − dimana,

[ ]

∑

= ⁺⁺ − + − = ⁿ i i n i F x x F n i S 1 1)) ( 1 ln( ) ( ln ) 1 2 (

, n adalah ukuran sample, dan F(x) adalah fungsi distribusi kumulatif (CDF). R hanya menyediakan uji ini untuk cek kenormalan:

> library(nortest) # loading paket > ad.test(x.norm)

Anderson-Darling normality test data: x.norm

A = 0.4007, p-value = 0.3581

3) cvm.test() melakukan uji Cramer-Von Mises, yang didasari teori statistik:

( )

∫

∞ ∞ − − = F x F x f x dx W2 _n( ) ( ) 2 ( ) Penulisan uji ini dalam R adalah sebagai berikut:

> library(nortest) # loading paket > cvm.test(x.norm)

Cramer-von Mises normality test data: x.norm

W = 0.0545, p-value = 0.4449

4)lillie.test() melakukan uji Lilliefors:

Uji ini juga merupakan modifikasi dari uji Kolmogorov-Smirnov yang tidak bisa digunakan untuk kenormalan apabila rerata dan standar deviasi (yang diambil dari

93 data sample) dari hipotesis distribusi normal tidak diketahui. Uji ini cukup ampuh untuk data sample yang berukuran kecil. Uji Lilliefors mengevaluasi hipotesis bahwa X berdistribusi normal dengan suatu nilai rerata dan variansi berbanding hipotesis alternative bahwa X tidak berdistribusi normal.

Uji ini membandingkan distribusi empiric X dengan distribusi normal dengan rerata dan variansi yang sama dengan X.

Uji Lilliefors mirip dengan uji Kolmogorov-Smirnov, namun parameter distribusi normalnya ditaksir dari X. Penulisan dalam R adalah sebagai berikut:

> library(nortest) # loading paket > lillie.test(x.norm)

Lilliefors (Kolmogorov-Smirnov) normality test data: x.norm

D = 0.0414, p-value = 0.5509

5) pearson.test() melakukan uji Pearson’s chi-square:

Uji ini serupa dengan uji Chi-square χ2 yang digunakan untuk uji Goodness of fit pada distribusi normal. Berikut adalah penulisan dalam perintah di R untuk uji chi-square:

> library(nortest) # loading paket > pearson.test(x.norm)

Pearson chi-square normality test data: x.norm

P = 10.12, p-value = 0.753

Soal Latihan Bab V

1. Misalkan, tiap akhir tahun perusahaan akan memberikan bonus kepada pegawai berdasarkan penjualan dalam beberapa bulan terkahir dengan nilai (dalam juta)

12 0.4 5 2 50 8 3 1 4 0.25

Pertama buatlah objek penjualan dengan menggunakan fungsi scan()

penjualan = scan(),kemudian carilah nilai mean, variansi, standard deviasi, median, minimum, maksimum dan quantile-nya.

94 2. Dengan menggunakan data yang sama, buatlah histogram untuk penjualan tersebut 3. Misalkan, gunakan data set pada R untuk data Orange. Gambarkan boxplot untuk masing-masing variabel (Tree, age, circumference) data tersebut.

(petunjuk: > boxplot(nama_variabel, main=”title boxplo”t,

horizontal=TRUE) 4. Masukkan data berikut

60 83 71 57 54 47 94 61 25 48 66 84 99 75 89 Buatlah plot stem (stem plot) dan plot daunnya (leaf plot)!

5. Bacalah plot stem dan plot daun berikut, masukkanlah data dan buatlah histogramnya!

6. Pada library (Packages ->Load package ->MASS) MASS, pilih data UScereal yang mengandung informasi tentang sarapan sereal yang populer . Attach data tersebut dengan cara berikut:

> library(‘MASS’) > data(‘UScereal’) > attach(UScereal) > names(UScereal)

Kemudian periksalah hubungan-hubungan berikut dan berik komentar atas hasil tersebut. Anda dapat menggunakan tables, scatterplots, barplots dan lain lain untuk memeriksa.

a. Hubungan antara manufacturer dan shelf b. Hubungan antara fat dan vitamins c. Hubungan antara fat dan shelf

d. Hubungan antara carbohydrates dan sugars e. Hubungan antara fibre dan manufacturer f. Hubungan antara sodium dan sugars

Apakah terdapat hubungan lainnya yang dapat anda prediksi dan periksa?

7. Sebagai upaya meningkatkan kemampuan mengingat mahasiswa, beberapa perguruna tinggi mencoba program pembelajaran sistem block. Misalkan dari 100 mahasiswa dibagi menjadi dua grup masing-masing 50 orang. Satu setengah bagian mencoba program block dan setengah sisanya tidak menggunakan program (non-block). Diketahui jumlah kehadiran tiap tahun. Akan diuji apakah program block membuat perbedaan pada daya ingat mahasiswa. Datanya sebagai berikut

Program 1 tahun 2 tahun 3 tahun 4 tahun > 5 tahun

Non-Block 18 15 5 8 4

95 Lakukan uji hipotesis untuk menentukan apakah ada perbedaan antara dua tipe program tersebut terhadap daya ingat mahasiswa ?

8. Data set InsectSpray pada data built-in di R, berbicara tentang jumlah serangga dalam beberapa area yang diberi perlakukan dengan 6 jenis semprotan (spray) berbeda. Data sudah dalam format untuk dilakukan ANOVA satu arah- yaitu vektor dengan data(count), dan satu factor yang menggambarkan level (spray). Pertama, buatlah boxplot side-by-side untuk melihat apakah ada kesamaan mean. Kemudian lakukan ANOVA satu arah untuk melihat apakah terdapat kesamaan mean ?

96 Dalam bab ini akan diberikan contoh-contoh dan studi kasus, untuk menjelaskan funsgi dan perintah-perintah R yang digunakan. Bagian contoh kasus dasar merupakan studi kasus yang menggunakan perintah penulisan kode R yang sederhana, sedangkan untuk bagian kasus lanjut adalah studi kasus yang menggunakan perintah penulisan kode R yang lebih kompleks.

Dalam dokumen Ucapan Terima Kasih. Terima Kasih. Wassalam. Jakarta-Depok, Penulis (Halaman 99-105)

R untuk Pengolahan &amp; Analisis Statistik

V.4. Regresi &amp; ANOVA (Analysis of Variance)

V.6.1. Pencocokan distribusi (Fitting Distribution)

V.6.1.4. Uji kenormalan

∑

∑

∑

:

[ ]

∑

( )

∫

R untuk Pengolahan & Analisis Statistik

V.4. Regresi & ANOVA (Analysis of Variance)