Suplemen Responsi Pertemuan
ANALISIS DATA KATEGORIK (STK351)
6
Departemen Statistika – FMIPA IPB
Pokok Bahasan Sub Pokok Bahasan Referensi Waktu
Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu dan Uji Kebaikan Suai Kolmogorov Smirnov
Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu Uji Kolmogorov-Smirnov Satu
Contoh
Uji Lilliefors untuk Kenormalan Uji Kolmogorov-Smirnov Dua
Contoh Applied Nonparametric Statistic Daniel (1990) Jumat 19 Nov 2010 15.30 – 16.30
Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu
Uji kebaikan suai khi-kuadrat untuk sebaran kontinu pada prinsipnya sama dengan sebaran diskret seperti yang telah dipelajari pada pertemuan sebelumnya. Sebagai ilustrasi, diberikan contoh pengujian kebaikan suai khi-kuadrat untuk sebaran normal.
Sebuah contoh acak umur (life-time) aki mobil ditampilkan pada tabel berikut. Apakah umur aki mobil mengikuti sebaran normal?
Life time (tahun) Frekuensi
Sumber : http://courses.wcupa.edu/rbove/Berenson 0 – 1 12 1 – 2 94 2 – 3 170 3 – 4 188 4 – 5 28 5 – 6 8 Total 500
Hipotesis : H0 : Umur aki mobil menyebar normal dengan ratan dan ragam yang tidak
diketahui
H1 : Umur aki mobil tidak menyebar normal
Statistik Uji : Jika rataan, , dan ragam, 2, tidak diketahui, kita dapat menduga keduanya
menggunakan data contoh. Menghitung rataan dan ragam disarankan dilakukan dari data yang sudah dikelompokkan. Rumus untuk menghitung rataan dan ragam contoh dari data yang sudah dikelompokkan adalah :
1 Rataan : r i i i f x n
2 2 1 1 2Ragam :
(
1)
r r i i i i i in
f x
f x
n n
Dalam hal ini fi adalah frekuensi pada selang/kelompok ke-i, xi adalah nilai tengah selang ke-i, dan n adalah banyaknya pengamatan. Untuk data umur aki di atas, kita peroleh :
2.80 dan
20.940,
0.970
.Langkah selanjutnya adalah menghitung frekuensi harapan untuk setiap selang dengan asumsi bahwa data menyebar normal. Pertama-tama kita menghitung frekuensi relatif harapan atau proporsi harapan untuk kemudian menghitung frekuensi harapan dengan cara mengalikan nilai proporsi harapan dengan ukuran contoh. Dalam hal ini :
Frek. relatif harapan : ( ) Li Ui
Li Ui x x P z Z z P
Z
zLi dan zUi adalah bentuk normal baku dari batas bawah dan batas atas selang ke-i.
Sebagai contoh, untuk selang (1 – 2) diperoleh 1 2.80 1.86 0.970 L z , dan 2 2.80 0.82 0.970 U
z . Berdasarkan tabel normal baku (A.2) diperoleh P( 1.86 Z 0.82)0.2048 0.0318 0.1730. Sehingga, frekuensi harapan untuk selang ini adalah 0.1730(500)= 86.5. Tabel berikut menampilkan tahapan di atas untuk seluruh data :
Life time (tahun) LUi zUi P(Z<zUi) P(zLi<Z<zUi) Ei Oi (Oi– Ei)2/ Ei
– 0 0 –2.89 0.0019 0.0019 15.90 12 0.9566 0 – 1 1 –1.86 0.0318 0.0299 1 – 2 2 –0.82 0.2048 0.1730 86.50 94 0.6503 2 – 3 3 0.21 0.5817 0.3769 188.45 170 1.8063 3 – 4 4 1.24 0.8920 0.3103 155.15 188 6.9553 4 – 5 5 2.27 0.9883 0.0963 48.15 28 8.4325 5 – 6 6 3.30 0.9995 0.0112 5.85 8 0.7902 6 – 1.0000 0.0005 Total 1.0000 500 500 19.5912
Selang (– 0) dan (6–) digabungkan dengan selang terdekatnya karena nilai frekuensi harapan untuk kedua selang tersebut kurang dari 1. Berdasarkan tabel di atas, statistik uji 2
19.5912
X dengan derajat bebas 6 – 1 – 1 – 1 = 3. Keputusan : Berdasarkan tabel A.11, diketahui 2
(1 0.05)(db 3)
7.815
. Karena 2 21 0.05
X
maka hipotesis nol ditolak dan simpulkan bahwa masa hidup aki mobil tidak menyebar normal pada taraf nyata 5%.Uji Kolmogorov-Smirnov Satu Contoh
Uji kebaikan suai khi-kuadrat yang telah dipelajari pada kesempatan sebelumnya dirancang untuk digunakan pada data kategorik: nominal ataupun ordinal. Untuk data kontinu, pengujian kebaikan suai Kolmogorov-Smirnov lebih tepat untuk digunakan.
Ketika kita menguji kebaikan suai Kolmogorov-Smirnov untuk satu contoh sebenarnya kita fokus pada dua fungsi sebaran kumulatif, yaitu sebaran kumulatif yang dihipotesiskan dan sebaran kumulatif contoh teramati. Untuk menyatakan fungsi sebaran kumulatif biasanya kita menggunakan huruf kapital. Sebagai contoh, untuk x tertentu, F(x) berarti peluang bahwa nilai peubah acak X sama dengan atau lebih kecil dari x, ditulis F(x)=P(X≤x).
Misalkan sebuah contoh acak berasal dari fungsi sebaran yang tidak diketahui, F(x). Kita tertarik untuk mengetahui apakah kita dapat menyimpulkan bahwa F(x) ≠ F0(x) untuk semua
x. Apabila F(x) = F0(x) maka F0(x) akan sama dengan, atau mendekati, S(x) atau fungsi sebaran empiris (contoh teramati). Tujuan uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah untuk mengetahui apakah jarak penyimpangan antara F0(x) dan S(x) cukup untuk meragukan hipotesis bahwa F(x) = F0(x).
Asumsi
Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X1, X2, …, Xn, yang berasal dari fungsi sebaran yang tidak diketahui, F(x).
Hipotesis
Misalkan F0(x) adalah fungsi sebaran yang dihipotesiskan (fungsi peluang kumulatif). a. H0 : F(x) = F0(x) untuk semua nilai x
H1 : F(x) ≠ F0(x) untuk minimal satu nilai x b. H0 : F(x) ≥ F0(x) untuk semua nilai x
H1 : F(x) < F0(x) untuk minimal satu nilai x c. H0 : F(x) ≤ F0(x) untuk semua nilai x
H1 : F(x) > F0(x) untuk minimal satu nilai x Statistik Uji
Misalkan, S(x) adalah fungsi peluang kumulatif dari data contoh, atau
Frek. (
)
( )
X
x
S x
n
Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a. H1: F(x) ≠ F0(x)
0
Statistik uji : sup | ( ) ( ) |
x
D S x F x
b. H1: F(x) < F0(x)
0
Statistik uji : sup[ ( ) ( )]
x
D F x S x
c. H1: F(x) > F0(x)
0
Statistik uji : sup[ ( ) ( )]
x
Kaidah Keputusan
Tolak H0pada taraf nyata α jika statistik uji yang sesuai (D, D+atau D-) lebih besar dari
kuantil 1 – α tabel Kolmogorov (A.18).
Contoh :
Misalkan nilai ujian mahasiswa di suatu kelas ditampilkan pada tabel berikut. Apakah kita dapat menyimpulkan bahwa nilai ujian tersebut meyebar normal dengan rataan 70 dan simpangan baku 10? Nilai ujian 61 67 79 81 73 70 64 51 75 53 79 80 72 60 76 92 91 70 70 59 58 58 73 76 69 67 69 66 72 80 59 72 69 69 62 58 77 69 46 75
Hipotesis : H0 : F(x) = F0(x), dalam hal ini F(x) adalah fungsi sebaran contoh, dan F0(x) adalah fungsi sebaran normal dengan=70 dan=10.
H1 : F(x) ≠ F0(x)
Statistik Uji : Karena hipotesis yang diuji bersifat dua arah, statistik uji yang digunakan adalah sup | ( ) 0( ) | x D S x F x . xi fi fki S(xi) zi P(0 ≤ Z ≤ zi) F0(xi) |S(xi)- F0(xi)| |S(xi-1)- F0(xi)| 46 1 1 0.025 -2.40 0.4918 0.0082 0.0168 0.0082 51 1 2 0.050 -1.90 0.4713 0.0287 0.0213 0.0037 53 1 3 0.075 -1.70 0.4554 0.0446 0.0304 0.0054 58 3 6 0.150 -1.20 0.3849 0.1151 0.0349 0.0401 59 2 8 0.200 -1.10 0.3643 0.1357 0.0643 0.0143 60 1 9 0.225 -1.00 0.3413 0.1587 0.0663 0.0413 61 1 10 0.250 -0.90 0.3159 0.1841 0.0659 0.0409 62 1 11 0.275 -0.80 0.2881 0.2119 0.0631 0.0381 64 1 12 0.300 -0.60 0.2257 0.2743 0.0257 0.0007 66 1 13 0.325 -0.40 0.1554 0.3446 0.0196 0.0446 67 2 15 0.375 -0.30 0.1179 0.3821 0.0071 0.0571 69 5 20 0.500 -0.10 0.0398 0.4602 0.0398 0.0852 70 3 23 0.575 0.00 0.0000 0.5000 0.0750 0.0000 72 3 26 0.650 0.20 0.0793 0.5793 0.0707 0.0043 73 2 28 0.700 0.30 0.1179 0.6179 0.0821 0.0321 75 2 30 0.750 0.50 0.1915 0.6915 0.0585 0.0085 76 2 32 0.800 0.60 0.2257 0.7257 0.0743 0.0243 77 1 33 0.825 0.70 0.2580 0.7580 0.0670 0.0420 79 2 35 0.875 0.90 0.3159 0.8159 0.0591 0.0091 80 2 37 0.925 1.00 0.3413 0.8413 0.0837 0.0337 81 1 38 0.950 1.10 0.3643 0.8643 0.0857 0.0607 91 1 39 0.975 2.10 0.4821 0.9821 0.0071 0.0321 92 1 40 1.000 2.20 0.4861 0.9861 0.0139 0.0111 Nilai maksimum : 0.0857 0.0852
Pertama-tama kita hitung S(x). Kemudian, untuk mendapatkan F0(x), semua
nilai x teramati diubah kedalam bentuk normal baku z, dan menggunakan tabel normal baku (A.2) dicari luas area yang sama dengan atau lebih kecil dari
z. Tabel di atas meringkas prosedur tersebut. Dari tabel di atas, diperoleh D =
0.0857
Keputusan : Berdasarkan tabel A.18, untuk pengujian hipotesis dua arah dengan n = 40 dan α = 0.05 diperoleh nilai kritis D = 0.210. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa nilai ujian mahasiswa diindikasikan menyebar normal dengan rataan 70 dan simpangan baku 10. Pada pengujian ini, p-value>0.20.
Catatan : Jika sebaran yang diuji adalah sebaran kontinu, selain menghitung |S(xi)- F0(xi)| kita juga perlu untuk menghitung |S(xi-1)- F0(xi)|. Statistik D merupakan satu diantara bilangan tersebut yang terbesar. Pada contoh di atas, nilai maksimum untuk |S(xi)- F0(xi)| = 0.0857 sedangkan nilai maksimum untuk |S(xi-1)- F0(xi)| = 0.0852, sehingga D = 0.0857. Akan tetapi, jika kita menguji sebaran diskret, kita cukup menghitung |S(xi)- F0(xi)|.
Uji Lilliefors untuk Kenormalan
Prosedur Kolmogorov-Smirnov satu contoh hanya dapat digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi dengan parameter tertentu yang diketahui. Jika parameter populasi tidak diketahui, dengan kata lain perlu pendugaan parameter populasi melalui data contoh, nilai kritis untuk uji Kolmogorov-Smirnov perlu dikoreksi. Salah satu prosedur yang digunakan untuk tujuan ini diperkenalkan oleh Lilliefors (1967). Uji Lilliefors digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi yang menyebar normal atau eksponensial dengan parameter tertentu yang tidak diketahui. Untuk menguji kenormalan data, uji Lillifors mengikuti tahapan berikut :
Asumsi
Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X1,
X2, …, Xn, yang berasal dari fungsi sebaran yang tidak diketahui, F(x), dengan rataan dan
simpangan baku yang tidak diketahui. Hipotesis
H0 : Contoh berasal dari populasi yang menyebar normal
H1 : Contoh bukan berasal dari populasi yang menyebar normal
Statistik Uji
sup | ( ) 0( ) |
x
D S x F x
Kaidah Keputusan
Tolak H0pada taraf nyata α jika statistik uji D lebih besar dari titik kritis yang ditampilkan
Contoh :
Berikut adalah umur penggunaan atau daya tahan lampu (dalam tahun). Apakah daya tahan lampu menyebar normal?
Data tahan lampu (tahun)
2.59 3.21 2.88 2.65 2.44 2.19 1.70 2.46 3.25 2.97 2.14 2.42 3.53 2.90 2.46
Hipotesis : H0 : Daya tahan lampu menyebar normal dengan parameter yang tidak
diketahui
H1 : Daya tahan lampu tidak menyebar normal
Statistik Uji : sup | ( ) 0( ) |
x
D S x F x
Berdasarkan perhitungan kita peroleh nilai dugaan bagi rataan, 2.6527 dan simpangan baku, 0.4790 tahun. Dengan prosedur yang sama dengan uji Kolmogorov-Smirnov satu contoh, dapat kita peroleh :
xi S(xi) zi F0(xi) |S(xi)- F0(xi)| |S(xi-1)- F0(xi)| 1.70 0.067 -1.99 0.0234 0.0433 0.0234 2.14 0.133 -1.07 0.1422 0.0089 0.0756 2.19 0.200 -0.97 0.1670 0.0330 0.0337 2.42 0.267 -0.49 0.3136 0.0469 0.1136 2.44 0.333 -0.44 0.3285 0.0048 0.0618 2.46 0.400 -0.40 0.3437 0.0563 0.0104 2.46 0.467 -0.40 0.3437 0.1229 0.0563 2.59 0.533 -0.13 0.4479 0.0854 0.0187 2.65 0.600 -0.01 0.4978 0.1022 0.0356 2.88 0.667 0.47 0.6824 0.0158 0.0824 2.90 0.733 0.52 0.6972 0.0362 0.0305 2.97 0.800 0.66 0.7461 0.0539 0.0128 3.21 0.867 1.16 0.8777 0.0110 0.0777 3.25 0.933 1.25 0.8938 0.0395 0.0271 3.53 1.000 1.83 0.9665 0.0335 0.0332 Nilai maksimum : 0.1229 0.1136 Statistik uji D = 0.1229
Keputusan : Berdasarkan tabel A.19(c), untuk pengujian hipotesis dua arah dengan n = 15 dan α = 0.05 diperoleh nilai kritis D = 0.219. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa daya umur penggunaan atau tahan lampu mahasiswa diindikasikan menyebar normal. Pada pengujian ini, p-value>0.20.
Uji Kolmogorov-Smirnov Dua Contoh
Uji Kolmogorov-Smirnov dua contoh digunakan untuk menguji hipotesis bahwa dua contoh yang saling bebas berasal dari populasi yang identik dengan mempertimbangkan ukuran pemusatan (lokasi) dan penyebaran. Berbeda dengan prosedur-prosedur lain yang telah dipelajari pada kesempatan sebelumnya, uji Kolmogorov-Smirnov sangat sensiitif terhadap berbagai perbedaan yang mungkin ada di antara dua sebaran.
Asumsi
a. Data yang dianalisis terdiri dari dua contoh acak yang saling bebas dengan ukuran
m dan n. Pengamatan dinotasikan sebagai X1, X2, …, Xmdan Y1, Y2, …, Yn.
b. Data diukur setidaknya dalam skala ordinal. Hipotesis
Andaikan F1(x) dan F2(x) adalah fungsi sebaran yang tidak diketahui untuk X dan Y. Hipotesis yang dapat disusun adalah :
a. H0 : F1(x) = F2(x) untuk semua nilai x H1 : F1(x) ≠ F2(x) untuk minimal satu nilai x b. H0 : F1(x) ≤ F2(x) untuk semua nilai x
H1 : F1(x) > F2(x) untuk minimal satu nilai x c. H0 : F1(x) ≥ F2(x) untuk semua nilai x
H1 : F1(x) < F2(x) untuk minimal satu nilai x Statistik Uji
Andaikan S1(x) dan S2(x) adalah fungsi peluang kumulatif dari data contoh X dan Y, dengan : 1
Frek. (
)
( )
X
x
S x
m
danS x
2( )
Frek. (
Y
x
)
n
Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a. H1: F1(x) ≠ F2(x)
1 2
Statistik uji : D maksimum | ( )S x S x( ) | b. H1: F1(x) > F2(x)
1 2
Statistik uji : D maksimum [ ( )S x S x( )] c. H1: F1(x) < F2(x)
2 1
Statistik uji : D maksimum [ ( )S x S x( )] Kaidah Keputusan
Tolak H0pada taraf nyata α jika statistik uji yang sesuai (D, D+atau D-) lebih besar dari
kuantil 1 – α tabel Smirnov (A.18). Jika m = n gunakan A.18(a), jika m ≠ n gunakan A.18(b).
Contoh :
Suatu ujian untuk mata kuliah yang sama dilakukan dalam dua waktu berbeda, yaitu pagi dan sore hari. Nilai ujian ditampilkan pada tabel berikut. Apakah nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik?
Pagi 98 82 92 88 94 85 86 90 80 95
Sore 80 96 90 81 92 86 85 80 93
Hipotesis : H0 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang identik
H1 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang berbeda
Statistik Uji : Dmaksimum | ( )S x1 S x . Berdasarkan tabel di bawah ini diperoleh2( ) |
D=0.233.
Nilai Ujian Pagi Nilai Ujian Sore
| S1(xi) – S2(xi) | x1i fk1i S1(xi) x2i fk2i S2(xi) 80 1 0.1000 80 2 0.2222 0.1222 1 0.1000 81 3 0.3333 0.2333 82 2 0.2000 3 0.3333 0.1333 85 3 0.3000 85 4 0.4444 0.1444 86 4 0.4000 86 5 0.5556 0.1556 88 5 0.5000 5 0.5556 0.0556 90 6 0.6000 90 6 0.6667 0.0667 92 7 0.7000 92 7 0.7778 0.0778 7 0.7000 93 8 0.8889 0.1889 94 8 0.8000 8 0.8889 0.0889 95 9 0.9000 8 0.8889 0.0111 9 0.9000 96 9 1.0000 0.1000 98 10 1.0000 9 1.0000 0.0000 Nilai maksimum : 0.2333
Keputusan : Untuk ukuran contoh 10 dan 9, berdasarkan tabel A.20(b) titik kritis D=26/45 =0.5778 (α=0.05). Karena statistik uji lebih kecil dari titik kritisnya, maka hipotesis nol diterima dan simpulkan bahwa nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik.
Self-Study :
1. Selang kepercayaan (1-α)100% pada Kolmogorov-Smirnov 2. Komparasi uji kebaikan suai khi-kuadrat dan Kolmogorov-Smirnov
Note :