Tugas 2 Analisis Data Lanjutan
Linear and Generalized Linear Mixed Models and Their
Applications (Jiang 2007)
Generalized Linear Mixed Models : Part I
3.7 Further Results and Technical Notes
Oleh
Yenni Angraini (G161150051)
SEKOLAH PASCA SARJANA
2016
1
Nonlinear Gauss-Seidel Algorithm (NLGSA)
Pada bagian ini akan dijelaskan lebih lanjut tentang Nonlinear Gauss-Seidel Algorithm (NLGSA). Algoritma ini digunakan untuk menghitung Maximum Posterior Estimators (MPE) yang diusulkan oleh Jiang (2000). Algoritma ini merupakan pengembangan dari Gauss-Seidel Algorithm dalam analisis numerik untuk menyelesaikan persamaan linear yang dimensinya besar, karena metode standar yang biasa digunakan untuk menyelesaikan persamaan nonlinear ( Newton-Raphson) akan tidak efisien dan lambat jika dimensi dari solusi besar. Fokus pada bagian ini adalah menyelesaikan ๐๐๐ฝ
๐๐ผ = 0 bersyarat ๐ฝ.
Misalkan pengaruh acak saling bebas (dan menyebar normal). Dengan kata lain matriks ๐ฎ, matriks koragam dari ๐ผ = (๐ผ๐)1โค๐โค๐ adalah matriks diagonal (๐บ = ๐๐๐๐(๐1, โฆ , ๐๐)).
Selanjutnya diasumsikan juga fungsi penghubung kanonik ๐๐ = ๐๐. Elemen matriks
rancangan pengaruh acak, Z, dituliskan sebagai ๐ง๐ = (๐ง๐๐)1โค๐โค๐ sehingga ๐๐๐๐ผ๐ฝ = 0 dapat
dituliskan sebagai ๐ผ๐ ๐๐+ โ ๐ง๐๐ ๐๐(๐)๐ โฒ(๐ฅ ๐โฒ๐ฝ + โ ๐ฅ๐๐๐ผ๐ ๐ ๐=1 ) = ๐ ๐=1 โ ๐ง๐๐ ๐๐(๐)๐ฆ๐, 1 โค ๐ โค ๐ ๐ ๐=1
Misalkan ๐๐(๐ผ1, โฆ , ๐ผ๐โ1, ๐ผ๐+1, โฆ , ๐ผ๐) menyatakan solusi unik dari ๐ untuk persamaan
berikut ini : ๐ ๐๐+ โ ๐ง๐๐ ๐๐(๐)๐ โฒ(๐ฅ ๐โฒ๐ฝ + ๐ง๐๐๐ + โ ๐ง๐๐๐ผ๐ ๐โ ๐ ) = ๐ ๐=1 โ ๐ง๐๐ ๐๐(๐)๐ฆ๐ ๐ ๐=1
Algoritma rekursif ditandai dengan ๐ผ๐(๐ก)= ๐๐(๐ผ1(๐ก), โฆ , ๐ผ๐โ1(๐ก) , ๐ผ๐โ1(๐กโ1), โฆ , ๐ผ๐(๐กโ1)) , 1 โค ๐ โค ๐
Untuk ๐ก = 1,2, โฆ, atau ekuivalen dengan ๐ผ๐(๐ก) ๐๐ + โ ๐ง๐๐ ๐๐(๐)๐โฒ(๐ฅ๐โฒ๐ฝ + โ ๐ง๐๐๐ผ๐(๐ก) ๐ ๐=1 + โ ๐ง๐๐๐ผ๐(๐กโ1) ๐ ๐=๐+1 ) = ๐ ๐=1 โ ๐ง๐๐ ๐๐(๐)๐ฆ๐ ๐ ๐=1 , 1 โค ๐ โค ๐ Jiang (2000b) membuktikan teorema berikut ini terkait dengan kekonvergenan dari NLGSA atau dikenal dengan Global Convergence of NLGSA Theorem : Untuk ๐ฝ yang tetap dan sembarang nilai awal, maka NLGSA konvergen ke suatu solusi yang unik ๐ผฬ = ๐ผฬ(๐ฝ) pada persamaan ๐(๐๐) = ๐๐ = ๐ฅ๐โฒ๐ฝ + ๐ง๐โฒ๐ผ. Pembuktian teorema ini menggunakan the golbal convergence theorem dari Luenberger (1984). Menurut Jiang, mudah untuk ditunjukkan bahwa
dengan ๐ฝ yang tetapkan, maka persamaan ๐(๐๐) = ๐๐ = ๐ฅ๐โฒ๐ฝ + ๐ง๐โฒ๐ผ memiliki solusi yang unik
๐ผฬ = ๐ผฬ(๐ฝ). Untuk penjelasan lebih lanjut dapat dilihat di Jiang (2000).
Sifat asimtotik dari penduga Penalized Generalized Weighted Least Squares (PGWLS)
Teori asimtotik terkait pengaruh acak sangat berbeda dengan paremeter tetap. Hal ini disebabkan oleh beberapa hal :
1. Pengaruh acak individu biasanya tidak dapat diidentifikasi
2. Jumlah pengaruh acak (m) dimungkinkan meningkat dengan meningkatnya ukuran contoh (n).
2 Penduga Penalized Generalized Weighted Least Squares (PGWLS) dari ๐พ = (๐ฝโฒ, ๐ผโฒ)โฒ
didefenisikan sebagai maximizer dari
๐๐(๐พ) = โ ๐ค๐{๐ฆ๐๐๐โ ๐๐(๐๐)} ๐
๐=1
โ๐ 2|๐๐ด๐ผ|2
dimana ๐ adalah konstanta positif. Dan penduga PGWLS didapatkan dengan menyelsaikan
๐๐๐
๐๐พ = 0.
Untuk mengekplorasi lebih lanjut sifat asimtotik dari penduga PGWLS, perlu diasumsikan bahwa m meningkat sangat lambat dibandingkan n (๐ ๐โ โ 0). Teknik dasar yang digunakan adalah penalization. Tujuan dari penalization adalah agar pengaruh individu dapat diidentifikasi.
Mengacu ke persamaan ๐๐(๐พ) = โ๐๐=1๐ค๐{๐ฆ๐๐๐โ ๐๐(๐๐)}โ๐2|๐๐ด๐ผ|2, salah satu alasan
dibutuhnya suatu penalizer (๐๐ด) adalah karena ๐๐ถ(๐พ) = โ๐๐=1๐ค๐{๐ฆ๐๐๐โ ๐๐(๐๐)} tergantung pada
๐พ = (๐ฝโฒ, ๐ผโฒ)โฒ hanya melalui ๐ = ๐๐ฝ + ๐๐ผ. Namun ๐พ tidak dapat diidentifikasi melalui ๐
sehingga akan banyak vektor ๐พ yang bersesuaian dengan ๐ yang sama. Sehingga perlu dilakukan pembatasan ruang ๐ = {๐พ: ๐๐ด๐ผ = 0}, akibatnya ๐พ dapat ditentukan unik oleh ๐.
Untuk mengekplorasi sifat asimtotik dari penduga PGWLS, pertama adalah bagaimana cara pemilihan matriks ๐๐ด pada ๐๐(๐พ) = โ๐๐=1๐ค๐{๐ฆ๐๐๐โ ๐๐(๐๐)}โ๐2|๐๐ด๐ผ|2.
Misalkan didefenisikan ๐: ๐พ = (๐ฝโฒ, ๐ผโฒ)โฒ โ ๐พฬ = (๐ฝฬ, ๐ผฬ) sebagai berikut ๐ผฬ = ๐
๐ดโฅ ๐ผ, ๐ฝฬ = ๐ฝ +
(๐โฒ๐)โ1๐โฒ๐๐
๐ด๐ผ. Jelas T tidak tergantung pada pemilihan matriks A. Karena ๐๐ฝฬ + ๐๐ผฬ = ๐๐ฝ +
๐๐ผ โ ๐๐ โฅ ๐๐๐ด๐ผ = ๐๐ฝ + ๐๐ผ, sehinga diperoleh ๐๐ถ(๐พ) = ๐๐ถ(๐พฬ). Misalkan ๐บ๐ด = (๐ ๐0 ๐ดโฒ) sehingga
ada beberapa lemma, corollary dan theorema yang dapat diturunkan. Salah satunya adalah ๐๐๐๐(๐บ๐ด) = ๐ + ๐, dimana p adalah dimensi dari ๐ฝ.
Ketika matriks ๐๐ด dapat dipilih dengan tepat maka penduga PGWLS dari pengaruh tetap dan
acak akan konsisten.
MSE dari EBP
Suatu prediksi terbaik, BP atau dilambangkan dengan ๐ฬ adalah prediksi yang memiliki Mean Square Error (MSE) paling minimum. Prediksi terbaik tergantung pada ๐ฆ๐ dan ๐, ๐ฬ = ๐ข(๐ฆ๐, ๐).
Dengan catatan, ๐ฆ๐ = (๐ฆ๐)๐โ๐, ๐ฆ๐ = (๐ฆ๐๐)1โค๐โค๐๐ dan ๐ adalah anak gugus dari {1,2, โฆ , ๐}.
Biasanya ๐ tidak diketahui, dan diduga dengan ๐ฬ. Sehingga ๐ฬ = ๐ข(๐ฆ๐, ๐ฬ) dan disebut sebagai
prediksi terbaik empirik (EBP). Pada bagian ini akan dijelaskan lebih lanjut terkait aproksimasi dan pendugaan MSE dari EBP. Diasumsikan parameter dispersi ๐ diketahui, ๐(๐) pada persamaan
๐๐๐ธ(๐ฬ) = ๐๐๐ธ(๐ฬ) + ๐ธ(๐ฬ โ ๐ฬ)2= ๐(๐) + ๐ธ(๐ฬ โ ๐ฬ)2
๐(๐) = ๐(๐) sehingga
๐(๐) = ๐๐๐ธ(๐ฬ) = ๐ธ(๐2) โ {๐ธ(๐ฬ)}2= ๐ธ{๐(๐ฝ, ๐ผ
3 Berikutnya akan digunakan deret Taylor untuk mengaproksimasi ๐ฬ โ ๐ฬ dimana ๐ฬ = ๐ข(๐ฆ๐, ๐ฬ), ๐ฬ = ๐ข(๐ฆ๐, ๐). ๐ฬ โ ๐ฬ = ๐ข(๐ฆ๐, ๐ฬ) โ ๐ข(๐ฆ๐, ๐) = (๐๐๐๐ขโฒ) (๐ฬ โ ๐) + ๐(๐โ1/2) Sehingga ๐ธ(๐ฬ โ ๐ฬ)2= ๐โ1๐ธ {(๐๐ข ๐๐โฒ) โ๐(๐ฬ โ ๐)} 2 + ๐(๐โ1)
Ada beberapa asumsi yang digunakan untuk langkah-langkah berikutnya, diantaranya dengan mengasumsikan ๐ฬ adalah penduga yang diperoleh berdasarkan pada ๐ฆ๐โ, dimana ๐ฆ๐โ= (๐ฆ๐)๐โ๐ sebagai konsekuensinya ๐ฬ adalah bebas terhadap ๐๐. Misalkan ๐ฬ =
๐ฬ๐โ maka ๐ธ {(๐๐๐๐ขโฒ) โ๐(๐ฬ๐โโ ๐)} 2 = ๐ธ (๐ธ [{(๐๐๐๐ขโฒ) โ๐(๐ฬ๐โโ ๐)} 2 |๐ฆ๐= ๐ค] |๐ค=๐ฆ๐) = ๐ธ [{๐๐๐โฒ๐ข(๐ค, ๐)} ๐๐โ(๐) { ๐ ๐๐๐ข(๐ค, ๐)} |๐ค=๐ฆ๐] = ๐ธ [{ ๐ ๐๐โฒ๐ข(๐ฆ๐, ๐)} ๐๐โ(๐) { ๐ ๐๐๐ข(๐ฆ๐, ๐)}] = ๐๐โ(๐) Dimana ๐๐โ(๐) = ๐๐ธ(๐ฬ๐โโ ๐)(๐ฬ๐โโ ๐)โฒ
Dengan memisalkan ๐ฬ1= ๐ข(๐ฆ๐, ๐ฬ๐โ) maka akan diperoleh
๐๐๐ธ(๐ฬ1) = ๐(๐) + ๐โ1๐๐โ(๐) + ๐(๐โ1)
Sekarang misalkan ๐ฬ adalah penduga yang diperoleh berdasarkan semua data. Diasumsikan ๐ฬ๐โ memenuhi |๐ฬ๐โโ ๐| = ๐(๐โ
1
2) dan |๐ฬ โ ๐ฬ๐โ| = ๐(๐โ 1
2). Sehingga aproksimasi
second-order MSE dari EBP adalah sebagai berikut:
๐๐๐ธ(๐ฬ) = ๐ธ(๐ฬ โ ๐ฬ1)2+ 2๐ธ(๐ฬ โ ๐ฬ1)(๐ฬ1โ ๐ฬ) + ๐ธ(๐ฬ1โ ๐)2
= ๐๐๐ธ(๐ฬ1) + ๐(๐โ1)
= ๐(๐) + ๐โ1๐(๐) + ๐(๐โ1)
dimana ๐(๐) = ๐๐โ(๐), ๐๐โ(๐) digantikan ๐(๐) = ๐๐ธ(๐ฬ โ ๐)(๐ฬ โ ๐)โฒ
๐ pada ๐(๐) dapat digantikan dengan ๐ฬ, namun ๐ pada ๐(๐) tidak dapat digantikan karena bias ๐ธ{๐(๐ฬ) โ ๐(๐)} = ๐(๐โ12) atau dengan kata lain belum tentu konvergen ke nol. Namun
jika |๐ฬ โ ๐| = ๐(๐โ12) dan ๐ธ(๐ฬ โ ๐) = ๐(๐โ1) dengan menggunakan deret Taylor akan
diperoleh
๐(๐ฬ) = ๐(๐) + (๐๐๐๐โฒ) (๐ฬ โ ๐) +12(๐ฬ โ ๐)โฒ( ๐2๐
๐๐๐๐โฒ) (๐ฬ โ ๐) + ๐(๐โ1)
4 ๐ธ{๐(๐ฬ)} = ๐ธ {๐(๐) + (๐๐๐๐โฒ) (๐ฬ โ ๐) +12(๐ฬ โ ๐)โฒ( ๐ 2๐ ๐๐๐๐โฒ) (๐ฬ โ ๐) + ๐(๐โ1)} = ๐(๐) + ๐โ1[(๐๐ ๐๐โฒ) ๐๐ธ(๐ฬ โ ๐) + 1 2๐ธ [{โ๐(๐ฬ โ ๐)} โฒ ] ( ๐2๐ ๐๐๐๐โฒ) {โ๐(๐ฬ โ ๐)}] + ๐(๐โ1) ๐ธ{๐(๐ฬ)} = ๐(๐) + ๐โ1๐ต(๐) + ๐(๐โ1)
Jika pendugaan bagi MSE adalah sebagai berikut :
๐๐๐ธฬ (๐ฬ) = ๐(๐ฬ) + ๐โ1{๐(๐ฬ) โ ๐ต(๐ฬ)}
Dengan menggunakan beberapa persamaan diatas, sehingga dapat ditunjukkan persamaan berikut ini terpenuhi
๐ธ{๐๐๐ธฬ (๐ฬ) โ ๐๐๐ธ(๐ฬ)} = ๐(๐โ1)
Mean Square Predictor Error (MSPE) dari Model-Assisted EBP
MSPE sama seperti MSE namun MSPE adalah arbitary predictor dari ๐ฬ ๐ atau dilambangkan
dengan ๐ฬ . Dimana ๐ฬ ๐ ๐ adalah rata-rata dari populasi yang terbatas. Populasi terbatas ini dibagi
dalam m domain dan ๐๐ adalah ukuran populasi dari domain ke-i.
sehingga
๐๐๐๐ธ(๐ฬ๐) = ๐ธ(๐ฬ๐โ ๐ฬ ๐)2
(๐ฬ๐โ ๐ฬ ๐)2 = (๐ฬ๐โ ๐๐)2+ ๐๐(๐๐โ12)
Sehingga ๐๐๐๐ธ(๐ฬ๐) akan diaproksimasi melalui ๐ธ(๐ฬ๐โ ๐๐)2 dengan asumsi ukuran populasi
๐๐ lebih besar dari ๐.
๐๐๐๐ธ(๐ฬ๐) = ๐๐๐๐ธ(๐ฬ) + ๐ธ(๐ฬ๐โ ๐ฬ๐)2+ 2๐ธ(๐ฬ๐โ ๐ฬ๐)(๐ฬ๐โ ๐๐) + ๐(๐โ1) ๐๐๐๐ธ(๐ฬ) = ๐ธ(๐๐2) โ ๐ธ(๐ฬ ๐2) = ๐ธ {โ ๐ค๐๐๐ธ(๐ฆ๐๐|๐ฃ๐) ๐๐ ๐=1 } 2 + ๐ธ{๐ข๐2(๐ฆฬ ๐๐ค, ๐)} โก ๐๐(๐)
Seperti yang diperoleh pada MSE dari EBP,
๐ธ(๐ฬ๐โ ๐ฬ๐)2= ๐๐(๐)๐โ1+ ๐(๐โ1), dimana ๐๐(๐) = ๐ธ {(๐๐๐๐ข๐โฒ) ๐(๐) ( ๐๐ข๐ ๐๐)} dengan ๐(๐) = ๐๐ธ(๐ฬ โ ๐)(๐ฬ โ ๐)โฒ ๐ธ(๐ฬ๐โ ๐ฬ๐)(๐ฬ๐โ ๐๐) = ๐๐(๐)๐โ1+ ๐(๐โ1) Sehingga ๐๐๐๐ธ(๐ฬ๐) = ๐๐(๐) + {๐๐(๐) + 2๐๐(๐)}๐โ1+ ๐(๐โ1)
5 ๐๐๐๐ธฬ (๐ฬ๐) = ๐๐(๐ฬ) + {๐ฬ + 2๐๐(๐) ๐(๐ฬ) โ ๐ตฬ }๐๐(๐) โ1 dimana ๐ต๐(๐) = ๐ {(๐๐๐๐๐โฒ) ๐ธ(๐ฬ โ ๐) + 1 2๐ธ(๐ฬ โ ๐) โฒ (๐2๐๐ ๐๐๐๐โฒ) (๐ฬ โ ๐)}
Selajutnya akan diperoleh
๐ธ{๐๐๐๐ธฬ (๐ฬ๐) โ ๐๐๐๐ธ(๐ฬ๐)} = ๐(๐โ1)
Butir penting terkait GLMM sesuai dengan pemahaman saya :
1. GLMM adalah perluasan dari model GLM dimana peubah responnya harus mengikuti sebaran keluarga eksponensial sedangkan peubah bebasnya terdiri dari peubah tetap dan acak
2. Sama halnya seperti pada model campuran, penentuan pengaruh tetap dan pengaruh acak yang masuk ke dalam model merupakan hal penting yang perlu diperhatikan 3. Sama halnya seperti GLM, GLMM memiliki tiga komponen yaitu peubah tak bebas Y
(komponen acak) yang mengikuti sebaran tertentu yang berasal dari keluarga eksponential (Ballinger 2004), komponen sistematik yang terdiri dari beberapa peubah kovariat X yang dapat dikombinasikan dalam bentuk fungsi linier serta fungsi hubung yang menghubungkan komponen acak dan komponen sistematik
4. Fungsi likelihood pada GLMM