(R.4)
PENGUJIAN DAN PEMODELAN
ASOSIASI DUA VARIABEL KATEGORIK MULTI-RESPON
DENGAN METODE BOOTSTRAP DAN ALGORITMA GANGE
1Giat Sudrajat Sarmuda, 2Septiadi Padmadisastra, 3I Gede Nyoman Mindra Jaya
1Mahasiswa Program Magister Statistika Terapan 2,3Dosen Program Magister Statistika Terapan
Universitas Padjajaran, Bandung, Indonesia Email : 1[email protected]
Abstrak
Metode-metode analisis pola asosiasi antar variabel telah dikenal sebelumnya, seperti analisis regresi sederhana untuk data numerik ataupun analisis loglinier untuk data kategorik. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange (Bilder, 2004).
Kata Kunci : Variabel Kategorik Multi-Respon, Loglinier Marjinal, Bootstrap, Algoritma
Gange.
1. PENDAHULUAN
Analisis data survey yang kompleks banyak dilaksanakan di berbagai negara, salah satunya adalah Indonesia. Kompleksitas data dapat menyebabkan permasalahan yang beragam dan memiliki implikasi yang berbeda. Salah satu jenis kompleksitas struktur data dalam data survey adalah adanya variabel kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan. Menurut Thomas dan Decady (2004) permasalahan yang muncul dari jenis kompleksitas tersebut adalah sifat multi-respon dari data, bukan dari mekanisme sampling atau desain kuesioner.
Metode-metode analisis pola asosiasi antar variabel dari data numerik telah dikenal sebelumnya, seperti analisis regresi sederhana ataupun analisis regresi berganda. Sedangkan apabila semua variabelnya berupa data kategorik multi-respon, yaitu suatu kondisi dimana responden dapat memilih lebih dari satu kategori respon atau lebih dari satu item pilihan, pendekatan regresi tidak dapat dilakukan karena asumsi-asumsi model regresi tidak dapat dipenuhi. Maka diperlukan pendekatan lain untuk mengatasi masalah ini.
Model loglinear dapat digunakan untuk mengkaji pola asosiasi antar variabel pada data kategorik. Model loglinier berguna untuk menentukan dependensi (asosiasi) antar beberapa variabel kategorik. Dalam model loglinier, terdapat suatu asumsi bahwa semua variabel yang dianalisis mempunyai status yang sama sebagai suatu variabel dependen karena model loglinier hanya menunjukkan dependensi (asosiasi) antar variabel. Model asosiasi pada tabel kontingensi yang melibatkan dua variabel kategorik multi-respon dapat diselesaikan dengan menggunakan pendekatan model loglinier, yang disebut sebagai model loglinier marjinal dengan menerapkan metode bootstrap dan algoritma Gange.
2. UJI INDEPENDENSI
2.1 Uji Independensi Dua Variabel Kategorik Respon Tunggal
Perhatikan Tabel 1, misalkan X dan Y melambangkan dua variabel kategorik respon tunggal, X dengan I kategori dan Y dengan J kategori.
Tabel 1. Tabel Kontingensi Dua Variabel Kategorik Respon Tunggal
Variabel Y Total Respon Kategori 1 Kategori 2 … Kategori J-1 Kategori J Variabel X Kategori 1 11 12 … 1( −1) 1 1 Kategori 2 21 22 … 2( −1) 2 2 … … …  … … … Kategori I-1 ( −1)1 ( −1)2 … ( −1)( −1) ( −1) ( −1) Kategori I 1 2 … ( −1)   Total Respon 1 2 … ( −1)  1
Misalkan  menyatakan peluang dari (X,Y) bahwa X=i dan Y=j yang membentuk tabel seperti pada Tabel 1. Misalkan  merupakan total baris dan  merupakan total kolom dengan tanda “+” menyatakan jumlah keseluruhan dari indeks. Untuk tabel kontingensi dua arah dengan dua variabel kategorik respon tunggal, hipotesis independensi yang dipergunakan adalah:
:  = 
:  ≠ 
Statistik uji Pearson Chi-Square untuk tabel kontingensi dua arah sebagai berikut: = ∑ (  )  , (1) dengan: i = 1, 2, … , I; j = 1, 2, … , J;
nij : observasi pada kategori variabel X ke-i dan variabel Y ke-j;
dan  adalah estimasi frekuensi harapan yang merupakan perkalian dari total baris dengan total kolom dibagi dengan ukuran sampel keseluruhan, sebagai berikut:
 = = = (2)
2.2 Uji Independensi Dua Variabel Kategorik Multi-Respon
Perhatikan Tabel 2, mij merupakan jumlah dari subyek yang memilih kategori ke-i pada
variabel X dan kategori ke-j pada variabel Y.
Tabel 2. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon
Variabel Y Total Respon Total Sampel/ Subyek Kat. 1 Kat. 2 … Kat. J-1 Kat. J Variabel X Kategori 1 m 11 m 12 … m1(J-1) m1J 1+ 1 Kategori 2 m 21 m 22 … m2(J-1) m2J 2+ 2 … … … mij … … … …
Kategori I-1 m
(I-1)1 m (I-1)2 … m(I-1)(J-1) m(I-1)J ( −1)+ ( −1) Kategori I m I1 m I2 … mI(J-1) mIJ +  Total Respon +1 +2 … +( −1) + ++ + Total Sampel/ Subyek 1 2 … ( −1)  + n
Karena melibatkan dua variabel kategorik multi-respon, maka terdapat 2 (dua) set marjinal yang harus dipertimbangkan. Set marjinal pertama, mengacu sebagai penjumlahan berdasarkan baris yang dinotasikan , i =1, ..., I dan penjumlahan berdasarkan kolom yang dinotasikan , j = 1, ..., J, didapat dari = ∑ dan = ∑ . Set marjinal kedua,
berdasarkan variabel X (baris) dan variabel Y (kolom). Secara umum, ≠  dan
≠  . Tabel 2 dapat juga dituliskan sebagai berikut:
Tabel 3. Tabel Kontingensi Dua Variabel Kategorik Multi-Respon
Variabel Y Jumlah Peluang Peluang Marjinal Baris Kat. 1 Kat. 2 … Kat. J-1 Kat. J Variabel X Kategori 1 11 12 … 1( −1) 1 1+ 1 Kategori 2 21 22 … 2( −1) 2 2+ 2 … … …  … … … … Kategori I-1 ( −1)1 ( −1)2 … ( −1)( −1) ( −1) ( −1)+ ( −1) Kategori I 1 2 … ( −1)  +  Jumlah Peluang +1 +2 … +( −1) + ++ + Peluang Marjinal Kolom 1 2 … ( −1)  +
Peluang dari  merupakan peluang banyaknya subyek yang merespon kategori ke-i pada variabel X (baris) dan kategori ke-j pada variabel Y (kolom). Pada set marjinal pertama, total dari jumlah peluang berdasarkan baris ( ) atau pun total dari jumlah peluang berdasarkan kolom ( ) adalah  . Pada set marjinal kedua, total dari peluang marjinal baris adalah  , dan total dari peluang marjinal kolom adalah  . Sehingga penaksirnya
adalah  ,  ,  ,  , dan  .
Untuk tabel kontingensi dengan dua variabel kategorik multi-respon, hipotesis yang dipergunakan adalah:
:  = 
:  ≠  
dengan: i = 1, 2, … , I dan j = 1, 2, … , J.
Dengan hipotesis di atas, maka modifikasi dari statistik uji chi-square adalah:
= −     = ∑ ∑    (3)
3. METODE BOOTSTRAP DENGAN ALGORITMA GANGE
Pada pertengahan 1970, Efron memperkenalkan metode bootstrap untuk menduga parameter dari sebaran yang tidak diketahui bentuk distribusinya. Metode bootstrap adalah metode berbasis resampling data sampel, sampel yang ada disampel kembali, dengan cara pengembalian pada datanya. Algoritma Gange pertama kali diperkenalkan oleh Gange (1995). Algoritma ini menerapkan metode Iterative Proportional Fitting (IPF), seperti dalam penaksiran parameter model loglinier pada tabel kontingensi. Bootstrap Procedure
Chi-Square with Gange Algorithm merupakan kombinasi antara metode bootstrap dan algoritma
Gange. Tahapan prosedur dari Bootstrap Procedure Chi-Square with Gange Algorithm sebagai berikut:
(1) Tentukan estimasi frekuensi, ( ) dan ( ) dari H0 dan Ha yang telah ditetapkan dan
hitung Pearson Chi-Square.
(2) Tentukan frekuensi observasi setiap sub-tabel 2x2 untuk semua pasangan (Xi, Yj).
(3) Dengan ( ) dan frekuensi observasi pada tahap 2, gunakan algoritma Gange untuk mendapatkan peluang multinomial dari masing-masing sub-tabel yang dibentuk dari kombinasi (X1, … , Xi, Y1, … , Yj) di bawah asumsi model H0.
(4) Simulasikan B buah resample dari (X1*, … , Xi*, Y1*, … , Yj*) dengan menggunakan peluang multinomial pada tahap 3.
(5) Bandingkan model dengan masing-masing resample dan hitung ∗ untuk b=1, … , B.
(6) Hitung p-value dengan rumus: ∑ ∗≥ dengan (∙) adalah fungsi indikator.
4. MODEL LOGLINIER MARJINAL
Agresti dan Liu (1999) menunjukkan bahwa variabel kategorik multi-respon dapat dinyatakan sebagai vektor biner dimana setiap elemen dari vektor menunjukkan respon untuk tiap kategori. Respon biner dimaksud adalah berupa jawaban 0 atau 1. Karena kedua variabel (X dan Y) merupakan variabel kategorik multi-respon, maka tabel kontingensi dapat dituliskan seperti pada Tabel 4.
Perhatikan bahwa  ( ) = ( )⁄( ) dan ( )= ( )+ ( )+ ( )+
 ( ) yang sama dengan n (jumlah responden/total sampel). Model asosiasi marjinal antara
X dan Y digunakan untuk menjelaskan pola asosiasi diantara IJ sub-tabel 2x2 di dalam tabel
Model loglinier digunakan untuk tujuan ini karena secara alami mengarah kepada interpretasi odds ratio dari asosiasi tersebut. Untuk memodelkan asosiasi antara Xi dan Yj,
model loglinier marjinal cocok untuk masing-masing sub-tabel. Model loglinier marjinal merupakan model yang mendeskripsikan asosiasi antara dua variabel kategorik multi-respon pada tabel kontingensi. Asosiasi didefinisikan oleh odds ratio dalam sub-tabel dari item pada tabel kontingensi. Model asosiasi tersebut sebagai berikut:
Tabel 4. Tabel Kontingensi Modifikasi
Kategori Y Jumlah Peluang Peluang Marjinal Baris Kat. 1 … Kat. J 0 1 0 1 0 1 Kat. X Kat. 1 0 1 11 … 1 1+ 1 … 0 1 …  … … … Kat. I 0 1 1 …  +  Jumlah Peluang +1 … + ++ + Peluang Marjinal Kolom 1 …  +
(1) Model Simultaneous Pairwise Marginal Independence (SPMI): Independensi pada setiap sub-tabel atau tidak ada asosiasi antara variabel X dan Y. Odds ratio untuk semua sub-tabel sama dengan 1 (ij=1). Bentuk modelnya sebagai berikut:
log  ( ) = + ( )+ ( )
(2) Model Asosiasi Homogen: Odds ratio untuk semua sub-tabel bernilai sama, akan tetapi tidak sama dengan 1. Nilai odds ratio adalah log(ij)=00. Bentuk modelnya sebagai
berikut:
log  ( ) = + ( )+ ( )+
(3) Model dengan Efek Baris (Y Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori X (i = 1, … , I), yaitu: log(ij) = 00 +  ( ). Bentuk modelnya sebagai berikut:
(4) Model dengan Efek Kolom (X Homogen): Odds ratio antar sub-tabel berbeda pada setiap kategori Y (j = 1, … , J), yaitu: log(ij) = 00 +  ( ). Bentuk modelnya sebagai berikut:
log  ( ) = + ( )+ ( )+ + ( )
(5) Model dengan Efek Baris dan Kolom (Main-Effects): Perbedaan antara log odds ratio untuk setiap dua kategori Y adalah konstan sepanjang X dan sebaliknya. Bentuk modelnya sebagai berikut:
log  ( ) = + ( )+ ( )+ + ( )+ + ( )
(6) Model Saturated (Model Lengkap): Odds ratio dari model sama dengan odds ratio observasi pada setiap sub-tabel. Bentuk modelnya sebagai berikut:
log  ( ) = + ( )+ ( )+ + ( )+ ( )+ ( )
dengan: a = 0, 1; b = 0, 1; i = 1, 2, … , I (banyak kategori variabel X); j = 1, 2, … , J (banyak kategori variabel Y).
5. HASIL DAN PEMBAHASAN
Data yang digunakan adalah variabel Keluhan Kesehatan dan variabel Jenis Obat/Cara Pengobatan yang berasal dari hasil Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Tabel kontingensi dari hasil tabulasi kedua variabel tersebut dapat dilihat pada Tabel 5 berikut:
Tabel 5. Tabel Kontingensi Variabel Keluhan Kesehatan dan Variabel Jenis Obat/Cara
Pengobatan Penduduk di Kota Sukabumi Keluhan Kesehatan
Panas Batuk Pilek Asma Diare
Sakit Kepala Berulang Sakit Gigi Lainnya Jenis Obat/ Cara Pengobatan Tradisional 20 22 19 6 4 5 5 16 Modern 128 140 152 18 26 49 21 77 Lainnya 4 4 4 1 1 2 2 2
Tabel 6. Perbandingan Antar Model Ho dengan Ha adalah Model Saturated (Lengkap) Model Ho Model Ha Pearson 2 Bootstrap 2 p-value
Independen Saturated 116.5325 39.6254 0.000031490
Homogen Saturated 102.4942 42.5458 0.000014867
Efek X Saturated 100.6710 47.6509 0.000001872
Efek Y Saturated 28.7184 12.2910 0.13356
Efek X dan Y Saturated 28.5024 13.2884 0.077783
Tabel 6 menunjukkan perbandingan antar model Ho (dengan Ha adalah model
saturated). Model yang cocok untuk data Keluhan Kesehatan dan Jenis Obat/Cara Pengobatan
adalah model dengan efek Y serta model dengan efek X dan Y. Apabila dilihat dari p-value, maka model yang paling cocok adalah model dengan efek Y (kolom/variabel Keluhan Kesehatan).
Output Model dengan Efek Baris (Variabel Y):
save_indices: col. #1 = W item #, col. #2 = Y item #
OR: col. #1 = model predicted OR, col. #2-#3 = (1-alpha)100% C.I. OR_obs: col. #1 = observed OR, col. #2-#3 = (1-alpha)100% C.I.
SAVE_ OR OR_OBS INDICES 1 1* 1.3541919 0.9765786 1.8778169 1.4389937 0.7747717 2.672662 1 2* 1.9170179 1.3823988 2.6583919 1.720536 0.9294378 3.1849835 1 3** 1.9985924 1.447462 2.7595693 1.1709402 0.6288793 2.180229 1 4* 1.7706294 0.8078842 3.8806655 3.2692308 1.2399787 8.6193982 1 5* 2.0250774 1.0674289 3.8418843 1.5103884 0.5037893 4.5282292 1 6** 1.5921422 1.0725173 2.3635207 0.8683036 0.3288369 2.292781 1 7* 2.5800578 1.3430412 4.9564361 2.5238095 0.9030274 7.0536223 1 8** 0.3696456 0.2550189 0.5357951 1.1184612 0.5888463 2.1244174 2 1* 1.3541919 0.9765786 1.8778169 1.3164168 0.8823474 1.9640257 2 2* 1.9170179 1.3823988 2.6583919 2.0807927 1.3711467 3.1577206 2 3* 1.9985924 1.447462 2.7595693 2.6666667 1.745251 4.0745492 2 4* 1.7706294 0.8078842 3.8806655 1.0748408 0.4570007 2.527967 2 5* 2.0250774 1.0674289 3.8418843 2.6 0.9791553 6.9039098 2 6* 1.5921422 1.0725173 2.3635207 2.106596 1.0864902 4.0844794 2 7* 2.5800578 1.3430412 4.9564361 2.0662379 0.7644541 5.5848209 2 8** 0.3696456 0.2550189 0.5357951 0.2528044 0.1688337 0.3785386 3 1* 1.3541919 0.9765786 1.8778169 1.3988571 0.3707656 5.2777321 3 2** 1.9170179 1.3823988 2.6583919 1.3740113 0.3642029 5.1836685 3 3** 1.9985924 1.447462 2.7595693 1.2688172 0.3364038 4.7856096 3 4* 1.7706294 0.8078842 3.8806655 2.28 0.2743625 18.947196 3 5* 2.0250774 1.0674289 3.8418843 1.8791667 0.227497 15.522261 3 6* 1.5921422 1.0725173 2.3635207 2.0435835 0.4147 10.070495 3 7** 2.5800578 1.3430412 4.9564361 5.4404762 1.0721671 27.6065 3 8** 0.3696456 0.2550189 0.5357951 0.5678793 0.1166376 2.7648625 Keterangan:
*) Odds ratio observasi berada di dalam selang kepercayaan odds ratio model. **) Odds ratio observasi berada di dalam selang kepercayaan odds ratio model.
Berdasarkan output di atas, ada sebanyak 16 sub-tabel yang memiliki odds ratio observasi yang berada di dalam selang kepercayaan dengan =5%. Sedangkan odds ratio observasi yang kurang signifikan hanya ada sebanyak 8 sub-tabel.
Marginal modeling of 2 MRCVs program The standardized Pearson residuals, predicted values,... for MODEL
stand_ stand_ Observation W Y wi yj COUNT mu_hat resid_ err 1 1 1 1 0 0 286 285.393 0.23593 2.57255 2 2 1 1 0 1 159 159.607 -0.23593 2.57255 3 3 1 1 1 0 25 25.607 -0.23593 2.57255 4 4 1 1 1 1 20 19.393 0.23593 2.57255 5 5 1 2 0 0 286 287.096 -0.42598 2.57176 6 6 1 2 0 1 159 157.904 0.42598 2.57176 7 7 1 2 1 0 23 21.904 0.42598 2.57176 8 8 1 2 1 1 22 23.096 -0.42598 2.57176 ……… ……… ……… 91 91 3 7 1 0 7 7.889 -0.77870 1.14200 92 92 3 7 1 1 2 1.111 0.77870 1.14200 93 93 3 8 0 0 320 319.418 0.48244 1.20678 94 94 3 8 0 1 161 161.582 -0.48244 1.20678 95 95 3 8 1 0 7 7.582 -0.48244 1.20678 96 96 3 8 1 1 2 1.418 0.48244 1.20678 6. KESIMPULAN
Berdasarkan hasil dan pembahasan di atas, diperoleh kesimpulan bahwa variabel Keluhan Kesehatan memiliki asosiasi dengan variabel Jenis Obat/Cara Pengobatan. Odds ratio sub-tabel pada tabel kontingensi dipengaruhi oleh efek kolom (variabel Keluhan Kesehatan). Sehingga Odds ratio antar keluhan kesehatan (panas, batuk, pilek, asma, diare, sakit gigi, sakit kepala berulang, lainnya) berbeda.
7. DAFTAR PUSTAKA
Agresti, A. 1990. Categorical Data Analysis. New York: John Wiley and Sons.
Badan Pusat Statistik (BPS). 2010. Buku III: Pedoman Kor Pencacahan Survey Sosial Ekonomi Nasional (SUSENAS) 2010. Jakarta: BPS.
Bilder, C.R. & Loughin, T.M. 2004. Modelling Association between Two or More Categorical
Variables that Allow for Multiple Category Choices. E-Journal on-line. Melalui
http://statistics.unl.edu/faculty/bilder/bilder_loughin.
Efron, B. and Tibshirani, R. 1983. An Introduction to the Bootstrap. New York: Chapman and Hall. E-book.
Lauritzen, S.L. 2002. Lectures on Contingency Tables, Electronic Edition. Copenhagen: Aalborg University. Melalui http://citeseerx.ist.psu.edu/ viewdoc/download.