ESTIMASI KOEFISIEN KORELASI POLIKORIK
MENGGUNAKAN METODE BAYESIAN
DENGAN
GIBBS SAMPLER
Adi Setiawan ([email protected])
Program Studi Matematika, Fakultas Sains dan Matematika
Universitas Kristen Satya Wacana JlDiponegoro 52-60 Salatiga 50711, Indonesia
Abstract
In this paper, it is described how to find the polychoric correlation coefficient by using Bayesian method with Gibbs Sampler. The method is implemented using WinBUGS. Simulation study is done to describe how the method is used.
Key-words: twin study, Bayesian method, Gibbs Sampler, polychoric correlation coefficient
1Pendahuluan
Koefisien korelasi polikorik (polychoric correlation coefficient) merupakan suatu ukuran keterkaitan (association) antara dua variable ordinal (Roscino dan Pollice, 2006). Koefisien korelasi tetrakorik merupakan kasus khusus dari korelasi polikorik bila kedua variabel pengamatan ordinal bersifat dikotomi. Pengukuran koefisien ini didasarkan pada anggapan bahwa dua variabel laten yang berdistribusi normal bivariat menghasilkan pasangan skor ordinal. Pasangan skor ordinal ini dapat ditemukan pada sifat biologis (trait) pada pasangan kembar dalam studi pasangan kembar (twin study). Dalam makalah ini, disajikan bagaimana metode Bayesian dengan Gibbs Sampler digunakan untuk mengestimasi koefisien korelasi polikorik berdasarkan data simulasi yang nantinya dapat digunakan dalam studi pasangan kembar.
2Dasar Teori
Misalkan Y1 dan Y2 adalah ukuran dari suatu trait polikotomi pada 2 anggota
pasangan kembar Kita menganggap bahwa vektor (Y1,Y2)t tergantung pada variabel
laten (X1,X2)tdan suatu batas (threshold)b1danb2melalui persamaan Yi= 1 jikaXib1,
= 2jikab1< Xib2, = 3jikaXi>b1
untuk i=1,2Diasumsikan bahwa (X1,X2)t mempunyai distribusi normal bivariat dan
dapat didekomposisi menjadi :
2 1 2
1 2 1
E E
A A
X X
(2)
dengan
2 2
2 2 2
2 1
, 0 0 ~
N A A
sehingga E1 dan E2 saling bebas Koefisien korelasi polikorik didefinisikan sebagai
koefisien korelasi antaraX1danX2yaitu
= Corr(X1,X2) = 2 2
Probabilitas bersyarat bahwaY1= 1 diberikanA1danA2adalah
)
probabilitas bersyarat bahwaY1= 2 diberikanA1danA2adalah
)
dan probabilitas bersyarat bahwaY1= 3 diberikanA1danA2adalah
)
Jika diberikanA1danA2maka variabelY1danY2saling bebas Probabilitas bersyarat
dari Y2 jika diberikan A1 dan A2 dapat ditentukan dengan cara yang sama Batas bj
dapat distandardisasi menjadi
2 npasangan kembar adalah
dengan f adalah densitas gabungan dari (A1,A2), g adalah densitas bersyarat dari A1
diberikan A2 dan h adalah densitas marginal dari A2 yang masing-masing diberikan
oleh likelihood yang diberikan dapat dianggap sebagai likelihoodlengkap (full likelihood) dengan likelihood yang sebenarnya dimarginalisasi atas missing data Untuk mengkonstruksikan Gibbs sampler, diperlukan fungsi likelihood lengkap Fungsi
likelihoodini akan sebanding dengan
( , ) ( , )Dengan kata lain, fungsi likelihood untuknpasangan kembar akan sebanding dengan
( , ) ( , )distribusi gamma sehingga fungsi densitas priornya adalah
)
distribusi prior untuk parameteradalah
dan distribusi konjugat prior untuk parameterb1danb2dari keluarga distribusi normal
sehingga fungsi densitas prior :
)
Dalam hal ini p1, p2, , p8 adalah parameter dipilih yang sesuai Berdasarkan pada
anggapan bahwa parameter saling bebas maka fungsi densitas bersamanya adalah )
Akibatnya fungsi densitasnya sebanding dengan
L penuh (full conditional distribution) untuk masing-masing parameter dapat dinyatakan sebagai berikut :
Untuk variabel laten, distribusi bersyarat penuh dapat ditentukan dengan
) , ( ) 1 ( 2
) (
exp ) |
( 2 2 2 2
2 1 2
2 i i
i i
i q y a
a a lain
yang
a
Untuk mengkonstruksikan Gibbs Sampler digunakan algoritma sebagai berikut :
1 Inisialisasi parameter [2]0,0 , [b1]0, [b2]0, [1]0, [a11]0, [a12]0, , [an1]0, [an2]0
dan disetj=1
2 Dibangkitkan [1]j1 (1| yang lain) dengan yang lain berarti parameter
yang lain
3 Dibangkitkan j (| yang lain)
3 Dibangkitkan [2]j2 (2| yang lain)
4 Dibangkitkan [b1]jb1 (b1| yang lain)
6 Dibangkitkan [b2]jb2 (b2| yang lain)
7 Dibangkitkan [ai1]jai1 (ai1| yang lain)
8 Dibangkitkan [ai2]jai2 (ai2| yang lain)
9Langkah 2 sampai 8 untuk j = 2, 3, sampai rantai Markov (Markov chain) hasil dariGibbs Samplermenjadi konvergen
Distribusi bersyarat penuh dari parameter 2 merupakan distribusi (p3+n,u) yang merupakan distribusi standard sehingga sampling dari parameter 2
mudah diimplementasikan Distribusi bersyarat penuh yang lain tidak ada yang merupakan anggota keluarga standard Untuk menyampelnya digunakan algoritma Metropolis-Hasting dengan densitas yang diusulkan adalah densitas eksponensial dengan mean1yaitu
0 , exp
1 ) | (
1 1
1
y y
y p
Distribusi bersyarat penuh untuk juga bukan merupakan distribusi non-standard Untuk memperoleh sampelnya kita menggunakan algoritma Metropolis-Hasting dengan densitas yang diusulkan
2 1 ) | (y q
dengan min{ - , -1} < y < max{ + , 1} dan sebagai contoh diambil = 03 Lebih jauh, distribusi bersyarat penuh darib1 juga merupakan distribusi non standard
Distribusinya dapat didekati dengan menggunakan algoritma Metropolis-Hasting dengan distribusi proposal N(b1,1) Parameter b2,ai1danai2 untuki= 1, 2,,n
dapat dikerjakan dengan cara yang sama
3Studi Simulasi, Hasil dan Pembahasan
terdapat 27 pasang dengan kembar 1 mempunyai kategori 1 sedangkan kembar 2 mempunyai kategori 1, 59 pasang dengan kembar 1 mempunyai kategori 1 sedangkan kembar 2 mempunyai kategori 2 dan seterusnya.
Tabel 1. Tabel kontingensi dari banyaknya kembar 1 dan pasangannya kembar 2 yang berstatus kategori 1, kategori 2 dan kategori 3
Kembar 2
Kembar 1 Kategori 1 Kategori 2 Kategori 3
Kategori 1 27 59 8
Kategori 2 57 269 66
Kategori 3 9 86 8
Bila simulasi dilakukan n= 5 kali maka akan diperoleh hasil lengkap seperti dinyatakan pada Tabel 2. Untuk mengestimasi besarnya koefisien polikorik dengan metode yang telah dijelaskan di atas diimplementasikan dalam WinBUGS versi 14 Prior yang digunakan untuk parameter 12dan 12adalah prior(1,1)Berdasarkan pada prior ini, variansi dari variabel latenX1 yang dinyatakan dengan V(X1) =2+2
akan memberikan probabilitas yang tinggi pada interval (0,10) Pada prior dari b1
digunakan distribusi N(0,1) sehingga dalam pandangan persamaan (3), parameter b1
memberikan probabilitas yang tinggi pada interval ( -310, 310) sehingga prior distribusi N( 0, 10) akan merupakan pemilihan yang beralasan untuk parameter b1
Dalam hal ini digunakan median dari rantai Markov dalam MCMC untuk mengestimasi b1,b2dan Nilai dalam tanda kurung memberikan estimasi interval
kredibel (credible interval) 95 % untuk hasil estimasi Bayesian Gambar 1 dan Gambar 2 masing-masing memberikan plot MCMC dan estimasi density (kernel density estimation) untuk parameter-parameter yang diperlukan Berdasarkan pada Tabel 2, terlihat bahwa metode Bayesian memberikan estimasi yang relatif memuaskan karena sesuai dengan parameter yang digunakan untuk membangkitkan data kategorikal pasangan kembar.
Tabel 2. Data hasil simulasi dari trait kategorikal pada pasangan kembar.
No (1,1) (1,2) (1,3) (2,1) (2,2) (2,3) (3,1) (3,2) (3,3)
1 0,2 27 59 8 57 269 66 9 86 8
2 0,2 23 62 9 58 292 64 7 58 9
3 0,2 20 59 5 56 302 62 9 64 5
4 0,2 21 63 8 58 283 66 7 67 8
5 0,2 25 56 9 52 296 72 7 66 9
6 0,5 49 56 3 59 296 50 1 52 3
7 0,5 41 63 3 58 290 41 3 56 3
8 0,5 40 46 1 53 310 60 3 41 1
9 0,5 40 39 1 59 326 42 2 41 1
10 0,5 42 49 3 62 304 54 2 54 3
11 0,8 47 38 0 33 352 28 0 27 0
12 0,8 41 29 0 39 353 36 0 39 0
13 0,8 59 37 0 47 339 30 0 34 0
14 0,8 67 38 0 42 338 39 0 29 0
0 2000 4000 6000 8000 10000
-1
.2
0
-1
.0
0
b1
-1.2 -1.1 -1.0 -0.9
0
2
4
6
8
b1
0 2000 4000 6000 8000 10000
0
.8
1
.0
b2
0.8 0.9 1.0 1.1
0
2
4
6
8
b2
0 2000 4000 6000 8000 10000
0
.0
5
0
.2
0
0
.3
5
Tau
0.1 0.2 0.3 0.4
0
2
4
6
Tau
Gambar 1 Plot MCMC dan estimasi densitas dengan ukuran sampel 10000 untuk batasb1,b2dan
Tabel 3. Hasil estimasi korelasi polikorik dengan menggunakan metode Bayesian.
No b1 b2
1 -1,01 (-1,10 , -0,92) 0,94 (0,85 , 1,03) 0,18 (0,08 , 0,29) 2 -0,95 (-1,05 , -0,87) 0,98 (0,90 , 1,07) 0,23 (0,14 , 0,33) 3 -1,03 (-1,12 , -0,94) 0,99 ( 0,90 , 1,09) 0,23 (0,13 , 0,33) 4 -1,04 (-1,14, -0,95) 0,96 (0,87 , 1,05) 0,22 (0,13 , 0,32) 5 -1,06 (-1,15 , -0,97) 1,01 ( 0,91 , 1,10) 0,17 (0,06 , 0,30) 6 -0,91 (-1,01 , -0,81) 1,06 (0,96 , 1,16) 0,53 (0,44 , 0,60) 7 -0,93 (-1,03 , -0,84) 0,99 (0,89 , 1,09) 0,52 (0,43 , 0,60) 8 -1,03 (-1,12 , -0,93) 0,98 (0,88 , 1,07) 0,56 (0,49, 0,63) 9 -1,02 (-1,13 , -0,92) 1,02 (0,91 , 1,12) 0,63 (0,55, 0,69) 10 -0,96 (-1,07 , -0,87) 1,06 (0,96 , 1,16) 0,48 (0,39 , 0,56) 11 -1,09 ( -1,19, -0,98) 0,96 (0,85 , 1,06) 0,84 (0,78 , 0,88) 12 -1,15 (-1,26, -1,02) 0,97 (0,87 , 1,08) 0,78 (0,72 , 0,84) 13 -0,96 (-1,06 , -0,86) 1,07 (0,96 , 1,17) 0,79 (0,72 , 0,84) 14 -0,93 (-1,03, -0,84 ) 1,10 (1,01 , 1,19) 0,80 (1,01 , 1,19) 15 -1,02 (-1,13 , -0,92) 0,99 (0,89 , 1,10) 0,76 (0,69 , 0,82)
4Kesimpulan dan Saran
yang dipilih maka nilai-nilai input tersebut dapat diestimasi ulang dengan menggunakan metode Bayesian. Beberapa penelitian yang relatif baru terkait dengan penggunaan metode Bayesian dalam studi twin dapat dilihat pada makalah Eaves dan Erkanli (2003), van den Berg et al. (2006) dan Setiawan (2008). Penelitian lebih lanjut dapat dilakukan untuk data-data real pada studi twin ataufamily study.
5Daftar Pustaka
[1] Berg, S. M. van den, Setiawan, A., Bartels, M., Polderman, T.J.C., van der Vaart, A.W., Boomsma, D.I., (2006), Individual Differences in Puberty Onset in Girls : Bayesian Estimation of Heritabilities and Genetic Correlations, Behavior Genetics, 36 (2) : 261-270.
[2] Cowles, M. K., (2004), Review of WinBUGS 1.4,Am. Stat.58:330-336.
[3] Eaves, L. J., dan Erkanli, A., (2003) Markov Chain Monte Carlo approaches to analysis of genetic and environmental components of human developmental change and G×E interaction.Behav. Genet. 33:279-299.
[4] Roscino, A. dan A. Pollice, (2006) A Generalization of the Polychoric Correlation Coeffiecient, Data Analysis, Classification and the Forward Search, Springer, Berlin.