Suplemen Responsi Pertemuan
ANALISIS DATA KATEGORIK (STK351) 9
Departemen Statistika – FMIPA IPB
Pokok Bahasan Sub Pokok Bahasan Referensi Waktu
Pengantar Analisis untuk Data Respon Kategorik
Data respon kategorik
Sebaran peluang data kategorik
Inferensia mengenai proporsi
Inferensia untuk data diskret
An Introduction to Categorical Data Analysis (2nd Edition) Agresti (2007)
Jumat 30 Nov 2012 15.45 – 17.45
Peubah kategorik mempunyai skala pengukuran yang terdiri dari beberapa kategori.
Skala pengukuran untuk peubah kategorik dapat berupa skala nominal maupun ordinal.
Sebagai contoh untuk data kategorik dengan skala nominal adalah jenis kelamin (“laki-laki”
atau “perempuan”), jenis tempat tinggal (“rumah”, “rumah susun”, atau “apartemen) dan lain- lain. Sedangkan peubah kepuasan (“kecewa”, “menengah” atau “puas”) dan tingkat pendidikan (“SD”, “SMP”, “SMA atau “Sarjana”) merupakan contoh data kategorik dengan skala ordinal. Lebih lengkap mengenai skala ini dapat dipelajari lagi pada bab I.
Peubah respon atau sering disebut sebagai peubah tidak bebas atau peubah Y dapat berupa data kategorik ataupun numerik. Model statistika untuk respon kategorik menganalisis bagaimana peubah respon terpengaruh oleh peubah-peubah penjelas (atau peubah bebas atau peubah X). Misalnya model tentang kepuasan dapat diprediksi melalui peubah harga, daya tahan, dan lain-lain.
Sebaran Peluang Data Kategorik
Dalam analisis data kategorik, sebaran yang paling mendasar adalah sebaran binomial dan multinomial.
Misalkan suatu kejadian dikatakan sukses bila y = 1 dan dikatakan gagal apabila y = 0.
Peluang sukses P(1)=P(Y=1)=, sehingga peluang gagal P(0)=P(Y=0)=. Bentuk kejadian yang hanya terdiri dari dua kemungkinan “Sukses” atau “Gagal”, atau “1” atau “0” merupakan sebaran Bernoulli.
Misalkan ada Y kejadian sukses pada n percobaan yang saling bebas, dan adalah peluang sukses, maka Y menyebar binom dengan parameter (n,). Peluang y ditulis :
( ) ( ) ! (1 )
!( )!
y n y
P y P Y y n
y n y
nbanyaknya sisi gambar yang muncul, sehingga n=5 dan =0.5. Sehingga untuk kejadian tidak ada satupun gambar yang muncul adalah Y=0. Peluangnya adalah :
0
5 0( 0) 5 0.5 1 0.5 0.03125
P Y
0
Peluang muncul gambar pada satu koin adalah :
1
5 1( 1) 5 0.5 1 0.5 0.15625 1
P Y
Sedangkan peluang muncul gambar tidak lebih pada dua koin adalah :
( 2) ( 0) ( 1) ( 2) 0.5
P Y P Y P Y P Y
Sebaran binomial untuk n percobaan dan peluang sukses mempunyai rata-rata (mean) dan simpangan baku :
( )
E Y
n
,
n
(1
)Untuk contoh di atas,
5(0.5) 2.5
dan
5(0.5)(1 0.5) 1.1180 .Jika n besar, sebaran binom mendekati sebaran normal dengan parameter
n
dan (1
n
.Respon pada beberapa pengamatan kadang kala terdiri dari lebih dari dua kemungkinan. Misalnya status korban dalam kecelakaan lalu lintas mungkin saja berupa
“selamat tanpa cedera”, “cedera ringan”, “cedera parah”, atau “menginggal dunia”. Jika pengamatan saling bebas, sebaran disebut multinomial. Misalkan c adalah banyaknya kategori repon dengan peluang masing-masing
{ , , , }
1 2
c dengan
j 1. Untuk n pengamatan, peluang multinomial bahwa sebanya n1 berada pada kategori 1, n2 pada kategori 2, ...., ncpada kategori c, dengan nj n, adalah :1 2
1 2 1 2
1 2
( , , , ) !
! ! !
nc
n n
c c
c
P n n n n
n n n
Misalkan kita mempunya 10 mangkuk yang berisi 10 bola : dua merah, 3 hijau dan 5 biru. Selanjutnya kita ambil secara acak empat bola dari mangkuk tersebut dengan pengembalian. Berapa peluang terambil dua bola hijau dan dua bola biru?
Pada kasus ini : n4, n1
nmerah 0
, n2 nhijau 2, n3
nbiru 2
dan
1 2 /10 0.2
,2
3 /10 0.3
,
3 5 /10 0.5
. Sehingga peluang terambil dua bola hijau dan dua bola biru adalah :0 2 2
(0, 2, 2) 4! (0.2 )(0.3) (0.5) 0.135 (0!)(2!)(2!)
P
Inferensia Mengenai Proporsi
Fungsi kemungkinan dan pendugaan kemungkinan terbesar
Misalkan pada n = 10 pengamatan kejadian sukses y = 0. Jika peluang sukses adalah , maka kejadian tersebut mempunyai peluang :
0 10 10
( 0) 10! (1 ) (1 )
(0!)(10!)
P Y
Peluang data teramati, sebagai fungsi dari parameter, ini disebut fungsi kemungkinan (likelihood function). Untuk y=0 kejadian sukses pada n=10 pengamatan, fungsi kemungkinan binom adalah l
( ) (1 )
10. Sebagai contoh misalnya =0.4, maka(0.40) (1 0.40)
100.006
l
. Sebuah dugaan parameter kemungkinan terbesar (maximum likelihood estimate of a parameter) adalah nilai parameter dimana peluang dari data teramati mencapai maksimum. Dengan kata lain, nilai parameter dimana fungsi kemungkinannya mencapai maksimum. Secara umum, pada respon binom, dugaan kemungkinan maksimum bagi sama dengan p
y n/
.Pengujian proporsi binomial
Pada sebaran binomial, penduga bagi merupakan penduga kemungkinan terbesar, yaitu proporsi, p. Sebaran penarikan contoh bagi p mempunyai rataan dan simpangan baku :
( )
E p
, (1 )p n
Untuk hipotesis awal H0:
0, statistik uji yang digunakan adalah :0 0(1 0) z p
n
Bila ukuran contoh n besar, statistik uji z menyebar normal baku dengan rataan nol dan simpangan baku satu.
Sebagai contoh perhatikan kasus berikut ini. Di dunia telekomunikasi dikenal istilah churn analysis yang bertujuan untuk melihat kemungkinan pelanggan untuk pindah ke operator lain. Misalnya pada bulan tertentu diketahui ada sebanyak 2347 pelanggan yang keluar (churn) sebanyak 2347 pelanggan dari total contoh acak 60000 pelanggan. Apakah dapat kita katakan bahwa churn rate, perbandingan antara pelanggan yang churn dengan total pelanggan, adalah sebesar 4%?. Pada kasus ini, hipotesis yang akan diuji adalah :
H0 :
0.04 H1 :
0.04Untuk y
2347
dan n60000, maka proporsi p 2347 / 60000 0.039
. MakaPada taraf nyata 5%, titik kritis sebaran normal adalah 1.96. Karena nilai mutlak statistik uji z lebih kecil dari titik kritis, maka terima H0dan simpulkan bahwa data mendukung pernyataan bahwa churn rate adalah 4%.
Selang kepercayaan proporsi binomial
Misalkan SE p1
( )
adalah galat baku dari proporsi p dan ukuran contoh n besar. Selang kepercayaan 100(1α)% dua arah untuk adalah :/2 1
( )
p z SE p
, 1 (1 )( ) p p
SE p n
Untuk contoh di atas, selang kepercayaan 95% bagi churn rate adalah : 0.039(1 0.039)
0.039 1.96
60000
, atau 0.039 0.0015 atau
(0.0375,0.0405)
.Terlihat bahwa nilai
0 0.04
berada di dalam selang kepercayaan, sehingga konsisten dengan hasil pengujian hipotesis yang telah dilakukan sebelumnya.Uji Wald, Score dan Perbandingan-Kemungkinan untuk Data Diskret
Misalkan merupakan parameter dan hipotesis H1 : = 0 akan digunakan untuk menguji signifikansi .
Uji Wald
Misalkan SE( )
ˆ adalah galat baku bagi dugaan ,
ˆ. Sebagai contoh, untuk pengujian parameter :SE( ) ˆ ˆ (1 ˆ )
n
,ˆ
yp n
, makaˆ
0( ) ˆ
z SE
mendekati sebaran normal baku dengan rataan nol dan simpangan baku. Padanannya, z2 akan mendekati sebaran khi-kuadrat dengan derajat bebas satu. Statistik z2 ini disebut sebagai statistik Wald.
Untuk kasus churn rate di atas, ( )ˆ 0.039(1 0.039) 0.00079 60000
SE
. Dengan demikiandiperoleh :
0.039 0.04 0.00079 1.27
z
, atau z2 ( 1.27)
2 1.60
.Nilai kritis khi-kuadrat dengan derajat bebas satu dan taraf nyata 5% adalah 3.841. Dengan demikian hipotesis awal diterima. Hasil uji ini konsisten dengan hasil uji proporsi.
Uji Score
Uji score sangat mirip dengan uji Wald. Perbedaannya terletak pada perhitungan galat baku. Pada uji score, galat baku dihitung dengan asumsi bahwa hipotesis nol benar. Dengan kata lain, galat baku yang digunakan adalah SE
( )
. Sebagai contoh, untuk pengujianparameter : (1 )
( )
SE n
,
ˆ 0. Sehinggaˆ
0 z( )
SE
. Statistik uji score adalah z2yang mendekati sebaran khi-kuadrat dengan derajat bebas satu.
Untuk kasus churn rate di atas, 0.04(1 0.04)
( ) 0.0008
60000
SE
. Dengan demikiandiperoleh :
0.039 0.04 0.0008 1.25
z
, atau z2 ( 1.25)
2 1.56
.Nilai kritis khi-kuadrat dengan derajat bebas satu pada taraf nyata 5% adalah 3.841. Dengan demikian hipotesis awal diterima. Hasil uji ini konsisten dengan hasil uji proporsi dan uji Wald.
Uji perbandingan-kemungkinan (likelihood-ratio)
Alternatif lain yang dapat digunakan dalam inferensia data diskret adalah uji perbandingan-kemungkinan (likelihood-ratio). Uji ini menggunakan fungsi kemungkinan dari melalui perbandingan (1) nilai kemungkinan maksimum bagi parameter dengan asumsi hipotesis nol benar dan (2) nilai kemungkinan maksumum bagi parameter dengan asumsi baik hipotesis nol maupun hipotesis alternatif bisa benar. Statistik uji yang digunakan adalah
0 1
2ln
lL l
yang menyebar khi-kuadrat dengan derajat bebas satu.Untuk kasus churn rate di atas, jika H0 : = 0.04 benar, peluang binomial untuk y = 2347 adalah
2347 57653
0
60000!
(0.04) (0.96) 0.00455 (2347!)(57653!)
l
yang akan dibandingkan dengan
2347 57653
1
60000!
0.039 0.961 0.00831 (2347!)(57653!)
l
Sehingga statistik uji :
0.00455
2 ln 1.21
0.00831
L
Nilai kritis khi-kuadrat dengan derajat bebas satu pada taraf nyata 5% adalah 3.841. Dengan