• Tidak ada hasil yang ditemukan

ANALISIS ROBUST DARI MODEL LINEAR CAMPURAN TERGENERALISIR

N/A
N/A
Protected

Academic year: 2018

Membagikan "ANALISIS ROBUST DARI MODEL LINEAR CAMPURAN TERGENERALISIR"

Copied!
18
0
0

Teks penuh

(1)

CAMPURAN TERGENERALISIR

Wahyuning Widiyastuti

Abstract

We will develops a technique for finding robust maximum likelihood estimates of the model parameters in generalized linear mixed models. The asymptotic properties of the robust estimates lies in the presence of outliers, and these estimates also compared to the ordinary classical estimates. By starting from a natural class of robust estimators for generalized linear models based on the notion of likelihood, we define robust deviances that can be used for stepwise model selection as in the classical framework. The binomial models are treated in detail. Application to real data and a sensitivity analysis show that the inference obtained by means of the new techniques is more reliable than that obtained by classical estimation and testing procedures.

Key words : Generalized linear models, Mixed models, Maximum likelihood

Abstrak

(2)

1. Pendahuluan

Pendekatan analisis regresi merupakan analisis yang digunakan untuk mempelajari bentuk ketergantungan Antara satu peubah tak bebas dengan satu atau lebih peubah bebas, yang didalamnya terdapat asumsi-asumsi pokok yang mendasari. Misal diberikan model regresi linear Y = Xβ + ε dengan Y dan ε adalah vector-vektor random berdimensi n x p dan β berdimensi p, yaitu parameter yang diestimasi. ε diasumsikan berdistribusi Normal independen dengan mean nol dan variansi berhingga σ2.

Dalam prakteknya terjadi antara lain sebaran data yang normal, tetapi mengandung pengamatan yang merupakan outlier. Adanya data yang merupakan outlier dapat memberikan pengaruh terhadap hasil analisisnya, seperti terjadinya koefisien regresi yang seharusnya signifikan menjadi tidak signifikan. Dengan kondisi demikian ini dikatakan bahwa parameter-parameter dalam model yang diestimasi bersifat tidak tegar terhadap outlier, artinya nilai estimasinya dapat dipengaruhi secara kuat oleh adanya data yang merupakan outlier.

(3)

Model Linear Campuran Tergeneralisir (Generalized Linear Mixed Model) berguna dalam analisis dari data outlier. Model ini berguna untuk mengakomodasi disperse berlebih yang sering teramati diantara respon distribusi normal. Biasa diasumsikan bahwa efek random mempunyai distribusi normal multivarian yang komponen variansinya diestimasi dari data. Aplikasi untuk model statistik linear merupakan kejadian yang relative dibutuhkan saat ini, artinya sebagai alat matematika, model linear campuran tergeneralisir membantu dalam memahami aspek khususnya prosedur analisis yang berkaitan dengan model linear terutama analisis data. Maksimum Likelihood analisis berdasar pada distribusi bersama likelihood yang dapat berguna untuk mengestimasi parameter-parameter efek acak maupun efek tetap dalam model linear campuran tergeneralisi, ini membutuhkan teknik integrasi numeric untuk menghitung log-likelihood, persamaan skor, dan elemen informasi matrik. Meskipun demikian, kegunaan model linear campuran tergeneralisir terbatasi untuk model yan relative simple,dengan ditemukan bahwa model ini tidak mudah dipecahkan untuk masalah lebih rumit yang mengandung integral berdimensi tinggi dengan jumlah yang tidak terbatas. Untuk menghindari masalah perhitungan seperti ini, beberapa pendekatan Bayesian disarankan untuk memperumum sampel.

Dalam penulisan ini akan dibangun Maksimum Likelihood Robust melalui algoritma Newton Raphson untuk mendekati estimasi maksimum Likelihood Robust akan dibandingkan dengan estimasi Maksimum Likelihood eksak atau estimasi Maksimum Likelihood klasik untuk model sederhana. Nantinya ditemukan bahwa estimasi Maksimum Likelihood Robust menurunkan sifat dari estimasi Maksimum Likelihood eksak.

(4)

dengan menghaslkan gambaran acak dari distribusi dengan tidak membutuhkan spesifikasi dari distribusi posterior.

Sifat asimtotis estimator Maksimum Likelihood Robust diselidiki dibawah kondisi regular. Estimator Maksimum Likelihood Robust terlihat konsisten dan berdistribusi asimtotis dengan mean vector dan covarian matrik tertentu. Simulasi dilakukan untuk menggali perilaku sampel dari esimasi maksimum likelihood robust dengan adanya outlier. Hasil simulasi mengindikasikan bahwa tidak seperti maksimum likelihood robust berguna untuk menurunkan bobot titik yang berpengaruh dalam data ketika mengestimasi parameter pada model linear campuran tergeneralisir. Untuk itu dalam penulisan ini akan dibahas mengenai analisis robust dari model linear campuran yang tergeneralisir, dibahas pula mengenai penduga maksimum likelihood robust, yang merupakan estimasi parameter yang bersifat robust, sebagai alternative pemecahan adanya data yang merupakan outlier.

Permasalahan dirumuskan bagaimana bentuk dan karakteristik estimator maksimum likelihood robust serta membandingkannya dengan estimasi maksimum likelihood klasik

Tulisan ini bertujuan menjawab permasalahan yang telah dikemukan sebelumnya, yaitu menaksir estimator maksimum likelihood robust, serta membandingkan estimasi maksimum likelihood robust dengan estimasi maksimum likelihood klasik. Sehingga diharapkan dapat memberikan manfaat dalam memperkuat pengetahuan tentang teori estimasi. Dapat memberikan informasi bagi penulis lain, khususnya untuk masalah yang relevan dengan tulisan ini.

2. Model Linear Tergeneralisir

(5)

respon yang berdistribusi selain Normal dan variansi yang tak konstan/homogeny. Misalnya data yang berbentuk cacah akan lebih cocok dianalisa sebagai variable random yang berdistribusi Poisson pada konteks model linear tergeneralisir.

Komponen-komponen dalam model linear tergeneralisir, yaitu : 1. Variabel dependennya, y1,y2,…,yn dengan mean E(y) = μi

diasumsikan merupakan bagian dari distribusi keluarga eksponensial.

2. Sekumpulan parameter β(px1) dan variable independen xi(px1)

y dengan penjelas x1,…,xp merupakan suatu Model Linear

Tergeneralisir bila memenuhi kondisi berikut :

(i) Distribusi setiap elemen yidari Y dengan i = 1,…,n nilai xi1,…,xip

diketahui, menjadi anggota keluarga eksponensial, dengan bentuk umum

untuk fungsi tertentu a( ), b( ) dan c( )

Jika diketahui, maka fungsi tersebut merupakan anggota keluarga eksponensial dengan parameter kanonik θ.

(ii) Vektor xi mempengaruhi yi dalam bentuk predictor linear μ,

sehingga untuk setiap I, berlaku

Harga harapan dari setiap observasi dapat diekspresikan sebagai suatu fungsi yang diketahui dari predictor linearnya yaitu E(Yi) = μi = g(ηi), Fungsi g( ) dikenal sebagai fungsi link.

Beberapa Teorema penunjang yang akan dikemukakan, yaitu sebagai berikut :

Teorema 2.1 (Teorema Limit Pusat)

Jika X1, X2, … , Xn sampelrandom dari suatu distribusi dengan mean µ

dan variansi

 

 

,

y

c

a

b

y

exp

i i i i

p

1 ij j

(6)

σ2 > 0, maka limit distribusi adalah normal baku

untuk

Definisi 2.2

Barisan {Zn}, untuk dikatakan konvergen hamper pasti

(almost surely = a.s) atau konvergen dengan probabilitas satu ke Z

jika untuk setiap s S dan untuk

Zn(s) konvergen ke Z, kecuali mungkin pada W S dengan P(W) = 0.

Secara singkat

ditulis untuk atau . Jadi Zn

konvergen ke

Z untuk , artinya untuk setiap ε > 0 dan s Wc(komplemen

W) terdapat N(ε,s),

sehingga untuk semua n N(ε,s) berlaku

Teorema 2.3

Misal Qn(ω,β) fungsi terukur pada ruang ukuran Ω dan untuk setiap

ω ϵΩ Qn(ω,β) adalah sampel log likelihood dikenal juga sebagai

regresi jumlah kuadrat, maka terdapat

fungsi terukur , sedemikian hingga Qn ( ω, ) =

untuk setiap ω ϵ Ω. Jika untuk

n

n

X

Z

n

1 t

T

n

)

1

,

0

(

N

~

Z

Z

n



d

n

n

n

Z

Z

n



a.s

n

P

Z

n

n

 

Z

1

n

Z

n

(

s

)

Z

(

s

)

n

ˆ

ˆ

n n

 

n

n

ˆ

,

Q

inf

0

)

ˆ

,

(

Q

)

,

(

(7)

semua β ϵΘ, Qn ( ω, ) equikontinu, dan mempunyai sifat

teridentifikasi minimal secara tunggal , untuk n = 1, … , maka

untuk

Bukti

Ambil ε > 0 sebarang.

Karena ada dan teridentifikasi secara tunggal, maka

terdapat barisan

  

 

   

minQ ( ) Q ( ) * n n n

N

n c

n

dengan adalah

komplemen dari Nn dan ,

sedemikian hingga kompak, Qn ( ω, ) dan tidak

dibutuhkan untuk konvergen kesetiap limit sehingga

untuk semua tetapi berhingga untuk n, yang mana secara tidak

langsung berlaku bahwa terdapat beberapa n0(ε) sedemikian hingga

untuk semua n ≥ n0(ε) berlaku maka

sehingga untuk semua n cukup besar.

3. Robust

Menurut Huber, “Robustness” (ketegaran) berarti ketidakpekaan terhadap perubahan-perubahan kecil dari asumsi-asumsi. Dan secara umum arti dari robust menyatakan suatu analisis yang tidak terlalu tergantung secara kritis pada asumsi distribusi tertentu.

Pertama kali yang perlu diperhatikan adalah ketegaran distribusi, yaitu bentuk distribusi yang sebenarnya menjadi dasar

n

ˆ

* n

0

s . a * n

n



n

)

(

ˆ

n

 

ˆ

n

c n

N

c n

N

n

(

)

n

ˆ

*

n

0

n

0

n

2

)

ˆ

,

(

Q

)

,

(

Q

n

n

n

n

n

N

ˆ

(8)

yang sedikit menyimpang dari model yang diasumsikan, hal ini penting dan baik untuk dipahami. Beberapa prosedur statistik klasik memperlihakan sangat kurangnya ketegaran distribusi. Pencilan (outlier) memberikan sebuah contoh diantaranya. Selain pengamatan (data) yang ekstrim atau outlier, factor-faktor yang mempengaruhi ke”robust”an/ketegaran antara lain : tidak atau kurang terpenuhinya asumsi-asumsi standar stokastik, misalnya : independensi, distribusi identic, keacakan(random) dan lain-lain. 4. Outlier

Tidak semua pengamatan akan mempunyai pengaruh atau peran yang sama dalam pencocokan estimasi dan analisis yang mengikutinya. Adalah diluar kebiasaan dalam regresi linier bahwa terdapat satu atau lebih kasus di dalam suatu analisis dengan pengamatan yang menyimpang dari model yang sesuai, saat dimana sebagian besar dari data yang ada kelihatan cocok dan baik.

Setiap kumpulan data pada umumnya akan memiliki nilai-nilai yang ekstrim, akan tetapi tidak selalu bahwa suatu nilai-nilai yang ekstrim tersebut adalah suatu outlier. Tetapi suatu pengamatan dengan nilai ekstrim merupakan kandidat utama untuk outlier. Outlier didefinisikan sebagai pengamatan yang mempunyai nilai sisaan mutlak yang cukup besar jika dibandingkan dengan pengamatan yang lain dalam kumpulan data. Outlier diidentifikasikasi secara subyekif sebagai sebuah observasi yang menmbulkan “kejutan” pada nilainya relative terhadap anggota-anggota sampel yang lain. Outlier bukanlah sebuah nilai ekstrim yang sederhana tetapi dia mempunyai suatu bentuk pemrosesa. Outlier sangatlah relative dan perlakuan outlier pada dasarnya bergantung pada asumsi distribusi yang mendasarinya. Untuk mendeteksi adanya outlier dapat dilakukan dengan melalui plot residual. Dengan membuat plot residual terhadap fitted value maka data yang menrupakan outlier akan dapat diidentifikasi karena terletak jauh dari pola data umumnya. Cara ini adalah pendekatan kasar dalam mendeteksi adanya

5. Model Linear Campuran Tergeneralisir

(9)

penemuan bahwa distribusi Normal termasuk dalam keluarga distribusi yang lebih luas, yaitu keluarga eksponensial.

Diasumsikan observasi yi mempunyai distribusi yang termasuk

dalam keluarga eksponensial dengan fungsi densitas seperti :

untuk beberapa fungsi a, b, dan c

Bentuk kanonik parameter

dengan

adalah kolom ke-i dari matrik X untuk efek tetap dan

adalah kolom ke-i dari matrik Z untuk efek acak

Kita juga mengasumsikan bahwa vector efek acak u berdistribusi

normal dengan rata-rata 0 dan variansi σ2 atau

u ~ N ( 0 , σ2 )

6. Model Campuran Biner

Anggap model campuran biner dengan 1 efek random dan 1 efek

tetap

~ independen Bernoulli (pij), dengan i = 1,…,n dan j = 1,…,k

uj~ independen N ( 0 , σ2 )

dengan uj efek random dari model biner campuran

Dalam model ini,

c

(

y

,

)

)

(

a

))

(

b

y

(

exp

)

,

,

u

y

(

f

i i i i

i u yi

u

z

x

Ti Ti

i

T i

x

T i

z

u

y

ij

ij ij ij

p

1

p

log

j ij

u

x

(10)

Perhitungan persamaan dapat berbentuk

(11)

Distribusi fu dalam u ~ fu(u ) dipilih N ( 0 , σ2Ik)

Persamaan iterasi Newton Raphson adalah

(12)
(13)

r (r )u

Maka estimasi dari σ2 menjadi

7. Analisis Data Guide

Untuk mengevaluasi hasil dari maksimum likelihood robust, studi simulasi kecil dilakukan dengan kehadiran dari outlier. Bagaimanapun, obyek utama dari studi ini adalah untuk menggali tampilan dari teknik robust dalam kasus dari outlier. Metode robust diharapkan lebih efisien dari metode klasik ketika data terkontaminasi dengan outlier. Estimasi klasik sering berpengaruh besar oleh outlier semacam ini. Disini sangat penting untuk diperhatikan bahwa dalam kasus model biner campuran, respon y adalah biner, dan outlier dapat muncul hanya melalui nilai x.

(14)

Diselidiki juga keberadaan daerah gambaran dari estimasi, seperti yang diperoleh maksimum likelihood robust, yang memadai untuk memperbolehkan teori normal prosedur inferensi dalam sampel dari ukuran yang cukup. Hasil dari teorema memberikan jawaban asimtotis untuk pertanyaan ini, tetapi dibawah kondisi campuran yang sulit diverifikasi secara empiris. Jadi untuk menyelidiki jika kedatangan dari normalitas adalah cukup sederhana seperti dampak merugikan teori normal inferensi parametrik. Digunakan interval z untuk menemukan interval konfidensi baik β. Disini maksimum likelihood robust memberikan alasan cakupan baik dalam campuran biner maupun poisson. Maksimum likelihood robust juga menampilkan hasil lebih baik dari metode klasik.

Preisser dan Qaqish (1999) menganalisa himpunan data yang menarik dari GUIDE ( Guidelines of Urinary Incontenance Discussion and Evaluation) studi. Tujuan dari studi ini adalah untuk mengidentifikasi faktor diantara keterbatasan urin laki-laki dan perempuan dari umur 76 ke atas diperkirakan respon mereka dengan pertanyaan apakah suatu individu dalam kelompok umur tersebut menganggap adanya ketergangguan dari masalah urine dalam aktivitas sehari-hari atau mengganggu mereka dalam hal lain. Dalam studi ini, 137 pasien dari 38 praktek medis diselidiki. Respon variable biner yij = 1 jika pasien ke j dari praktek medis i

(15)

Maka modelnya μij = E(Yij) dengan predictor umur =

10

) 76 ahun umurdalamt

( 

, acc per hari =

7 ggu min accper

,

“severe/berapa parah keluaran urine pasien”, “toilet/kamar kecil”

dan variable indicator gender.

Dengan menganalisis data GUIDE menggunakan model dengan

independent besyarat dan mean bersyarat untuk pasie ke j dari

praktek medis ke i terspesifikasi oleh logit (μij) = XTijui, efek acak

εidiasumsikan i.i.d N ( 0 , σ2 )

Dengan hipotesis

Ho: σ2 = 0

H1: σ2 > 0

Tingkat signifikansi α = 0,05

Kita dapatkan bahwa dari maksimum likelihood robust diperoleh hasil yang lebih mewakili daripada maksimum likelihood. Tidak seperti estimasi Maksimum Likelihood Robust, estimasi Maksimum Likelihood tampak terpengaruh oleh beberapa pengamatan dasar dalam data. Prediktor berat dan acc per hari ditemukan signifikan secara tinggi baik oleh Maksimum Likelihood dan Maksimum Likelihood Robust. Tetapi predictor perempuan dan kamar kecil signifikan hanya oleh metode Robust Maksimum Likelihood. Adanya outlier memberikan efek harga parameter β menjadi lebih kecil, sehingga nilai x tidak begitu berpengaruh terhadap y.

(16)

Tabel 1 : Nilai estimasi parameter

Parameter RML MLE

Intercept -3,0553 -3,2930

Female -0,7753 -0,6723

Age -0,9756 -0,6406

Dayacc 0,4918 0,4154

Severe 0,8128 0,8285

Toilet 0,1078 0,1108

σ2 1,7305 1,2179

Berikut adalah hasil selengkapnya iterasi dari perhitungan estimasi robust maksimum likelihood

Tabel 2 : Hasil iterasi

Iterasi Intercept Female Age Dayacc Severe Toilet 1 1,0058 -1,6459 76 2,3315 1,8124 1,1078 2 -2,5691 -0,7783 76 1,3901 1,2171 1,0003 3 -3,0568 -0,7556 76 0,7928 0,8129 0,9878 4 -3,0557 -0,7592 77 0,5918 0,8024 0,6062 5 -3,0553 -0,7453 77 0,5116 0,7072 0,4478

8. Penutup

(17)

Didapatkan bentuk estimasi maksimum likelihood robust untuk parameter β dan Σ dari model linear campuran tergeneralisir dengan menggunakan iterasi adalah sebagai berikut :

Adaya outlier memberikan efek harga parameter β menjadi lebih kecil, sehingga nilai x tidak begitu berpengaruh terhadap y. Cara diatas tidak mendorong untuk menghilangkan outlier, disini hanya menyajikan suatu analisis yang robust dalam model linear campuran tergeneralisir. Jika ditemukan outlier, hendaknya meninjau kembali pada data yang diperolehnya, untuk dapat menjelaskan dari mana outlier berasal dan mungkin mengoreksi data yang menyebabkan sumber outliernya, kemudian meneruskan untuk mengambil keputusan selanjutnya.

Metode ini dapat dikembangkan lebih lanjut. Baik sebagai perluasan dari metode robust maksimum likelihood, maupun sebagai metode pembanding yang lebih baik. Pengembangan model ini adalah model dengan variabel respon tidak hanya yang termasuk dalam keluarga eksponensial, tetapi variable respon yang tidak diketahui distribusinya.

 

T (m) (m)

1

) m ( ) 1 m (

y

X

U

,

D

U

,

W

X

E

X

W

(

,

U

)

d

,

U

y

E

T

(m)

(m)

N

1 s

) s ( u )

1 m (

)

u

(

f

ln

N

(18)

Daftar Pustaka

Bain, L.J. and Englehardt, M. 1992. Introduction To Probability and Mathematical Statistics. Duxbury Press, California

Cantoni, E., and Rochetti, E. 2001, Robust Inference for Generalized Linear Models, Journal of the American Statistical Association, 96, 1022-1030

Dudewicz, E. J and Mishra, S.N. 1995. Statistika Matematika Modern. Terjemahan. R. K Sembiring. Penerbit ITB Bandung

McCullagh, P. and Nelder, J. A. 1989, Generalized Linear Models, 2nd

Gambar

Tabel 2 : Hasil iterasi

Referensi

Dokumen terkait

ini ditetapkan a  20. Meski pendulum akan berhenti sebagimana pada kondisi 1, namun perilaku pendulum menuju berhenti sangatlah berbeda. Perbedaan ini dapat dilihat

Android memiliki paradigma pemrograman lain tidak seperti paradigma pemrograman biasa di mana aplikasi yang dijalankan pada fungsi main(), sistem android

Izzy, “Pengaruh Rasio Umpan, Variasi Jenis Sampah Organik, dan Kualitas Kompos Hasil Biokonversi Menggunakan Larva Black Soldier Fly (Hermetia Illucens),” Jurnal

Selain wilayah perkotaan, masalah ketersediaan air bersih ini juga di hadapi oleh penduduk di wilayah pedesaan tersebut memiliki sumber air (air permukaan, air bawah

Tujuan dari skripsi ini ialah merancang sistem informasi rekam medis bagi lansia yang dapat digunakan untuk menghasilkan informasi yang valid, lengkap, dan tepat waktu serta

1) Mulailah sekarang juga tak sedikit anak-anak yang ketagihan menonton televisi sejak berusia dini. Kebiasaan menyaksikan tontonan televisi yang dapat merusak moral anak

Kesemua nilai ujian pepejal terampai bagi kedua-dua jenis tanah bercampur leachate menunjukkan penurunan yang amat ketara berbanding leachate kawalan. Tanah liat bercampur leachate

Dengan demikian, secara klasikal hasil belajar pengetahuan Bahasa Indonesia (keterampilan berbicara) tema cita-citaku dan kemampuan pemecahan masalah siswa kelas IVC