2. TINJAUAN PUSTAKA. Pada model berbasis area diasumsikan bahwa peubah yang menjadi perhatian merupakan fungsi dari rata-rata peubah respon, = g( )

(1)

2. TINJAUAN PUSTAKA 2.1 Model Area Kecil

Model area kecil merupakan model dasar dalam pendugaan area kecil. Model ini dikelompokkan menjadi dua kelompok yaitu model berbasis area (basic area level model) dan model berbasis unit (basic unit level model).

2.1.1 Model Berbasis Area

Pada model berbasis area diasumsikan bahwa peubah yang menjadi perhatian merupakan fungsi dari rata-rata peubah respon, θi = g

( )

Yi untuk g(.)

tertentu yang berkaitan dengan data penyerta area kecil

(

)

T pi i i = x1,L,x

x dan

mengikuti model linier sebagai berikut: ,

v b θ_i =xTβ+ _i _i

i i = 1, ... , m (2.1)

dengan b adalah kostanta bernilai positif yang diketahui dan _i β=(β₁,...,β_p)T adalah vektor koefisien regresi berukuran p x 1. Sedangkan v adalah pengaruh i

acak area kecil yang diasumsikan memiliki sebaran identik yang saling bebas yakni 0 ) v ( i = m E , V_m(v_i)=σ_v2= A(≥0) (2.2)

dengan E menyatakan nilai harapan model dan m V ragam model. Seringkali m

pengaruh acak v dianggap menyebar normal. _i

Untuk melakukan inferensi tentang rata-rata area kecil Yi pada model

(2.1), dimisalkan bahwa penduga langsung Yˆ ada, sehingga i

i i i

i g(Yˆ ) θ e

θˆ = = + , i = 1, ... , m (2.3)

dengan galat contoh e bebas serta _i , 0 ) θ | e ( _i _i = p E V_p(e_i|θ_i)=ψ_i =D_i (2.4) Biasanya ragam contoh ψi diketahui.

(2)

i i i T i i x β b v e θˆ = + + , i = 1, ..., m (2.5)

dengan v dan _i e saling bebas. Model (2.5) ini merupakan kasus khusus dari _i model campuran linier dan dikenal pula sebagai model Fay–Herriot dalam literatur area kecil, karena mereka yang pertama kali menggunakan model tersebut pada pendugaan area kecil (Rao 2003).

2.1.2 Model Berbasis Unit

Model berbasis unit mengasumsikan bahwa data penyerta unit

T ijp ij

ij =(x 1,...,x )

x ada untuk masing anggota populasi j dalam masing-masing area kecil i, namun kadang cukup dengan rata-rata populasi X diketahui i

saja. Selanjutnya peubah perhatian y dianggap berkaitan dengan _ij x mengikuti _ij model regresi linier galat tersarang satu tahap

; e v y_ij =xTβ+ _i+ _ij

ij j = 1, ... , N dan i = 1, ... , m (2.6)

Pengaruh acak area kecil v ini mempunyai sebaran identik dan saling bebas, i

ij ij

ij k e

e = ~ dengan konstanta k diketahui dan _ij e~ peubah acak yang memiliki _ij sebaran identik dan bebas pula serta bebas dengan v , _i

, 0 ) ~ (eij = m E V(~e_ij)=σ_e2 (2.7)

Seringkali diasumsikan bahwa v dan _i e berdistribusi normal. _i

2.2 Model Fay-Herriot

Model Fay-Herriot adalah model yang banyak dipakai dalam pendugaan area kecil dan merupakan model campuran linier. Fay and Herriot (1979) menggunakan model dua level berikut untuk menduga pendapatan perkapita untuk area kecil di Amerika Serikat dengan populasi kurang dari 1000.

Level 1 : yiθi ~ N

(

θi,Di

)

Level 2 : θ_i ~ N

(

xTi β,A

)

Model dua level di atas dapat dituliskan sebagai model linier campuran sebagai berikut :

(3)

i e v e θ yi = i+ i =x β+ i + T i , i = 1, ... , m (2.8) dimana v_i ~ N ,

( )

0 A dan e_i ~ N

(

0,D_i

)

Pengaruh acak area v_i ~ N

( )

0,A digunakan untuk menghubungkan rataan area kecil θ_i dengan vektor peubah penyerta x yang sering diperoleh dari data _i sensus. Parameter β dan A umumnya tidak diketahui dan diduga dari sebaran marginal y. Ragam contoh Di biasanya diasumsikan diketahui.

2.3 Penduga EBLUP

Model dasar pendugaan area kecil oleh Fay-Herriot (1979) menjadi dasar dalam pengembangan pendugaan area kecil berbasis model yang banyak dibahas dalam berbagai literatur. Jika θ_i =x Tβ+v_i

i adalah parameter yang menjadi

perhatian dan y adalah nilai pendugaan langsung berdasarkan rancangan survei, i

maka yi =θi +ei dimana e adalah sampling error dan i v adalah pengaruh acak i

area kecil. Model tersebut dapat ditulis menjadi

i i

i v e

y =x Tβ+ +

i (2.9)

dengan v dan i e saling bebas serta i vi ~N

( )

0,A dan ei ~ N

(

0,D

)

untuk i = 1, ...,

m. Diasumsikan bahwa β dan A (keragaman antar area kecil) tidak diketahui, tetapi Di (keragaman karena sampling error) untuk i = 1, 2, ..., m diketahui.

Penduga terbaik (best predictor, BP) bagi θ_i =x Tβ+v_i

i jika β dan A diketahui adalah

(

β

)

x β

(

)

(

xiTβ

)

T i + − − = = _i _i _i _i BP i θˆ y ,A 1 B y θˆ (2.10) dengan Bi =Di

(

A+Di

)

untuk i = 1, 2, ..., m.

Jika A diketahui, β dapat diduga dengan metode kuadrat terkecil terboboti

yaitu β _(A)₌

(

XTV−1X

)

−1XTV−1Y

i dan dengan mensubstitusi β oleh βˆ pada i BP i θˆ , maka diperoleh

( )

(

)

(

T _i

)

i i T i β x β x ˆ 1 B y ˆ A y θˆ θˆBLUP _i _i _i _i i = = + − −

( )

i

(

i

)

i i _i i BLUP i y A B y B x β T i ˆ 1 ˆ ˆ ₌_θ ₌ ₋ ₊ θ (2.11)

(4)

Dalam praktek, baik β maupun A biasanya tidak diketahui sehingga untuk kasus pendugaan θ_i dengan BLUP, A terlebih dahulu harus diduga. Untuk menduga A dapat digunakan metode kemungkinan maksimum (maximum likelihood, ML), metode kemungkinan maksimum terkendala (restricted maximum likelihood, REML), metode adjusted for density maximization (ADM) atau metode momen. Dengan mensubstitusi β oleh βˆ dan A oleh Aˆ terhadap penduga BLUP, maka akan diperoleh suatu penduga baru

( )

x β

( )

(

xTβ

)

i T i ˆ 1 ˆ ˆ ˆ ˆ ˆ ₌ ₌ ₊ ₋ ₋ i i i i EBLUP i θ y A B y θ

( )

(

)

xTβ i ˆ ˆ ˆ 1 ˆ ˆ ˆ i i i i i EBLUP i =θ y A = −B y +B θ (2.12)

yang kemudian dikenal sebagai empirical best linear unbiased predictor (EBLUP).

2.4 Teknik Pendugaan Selang

Riset pada selang prediksi area kecil sebagian besar dipusatkan pada kasus khusus model Fay-Herriot, yang digambarkan sebagai berikut :

1. Bergantung pada

(

)

T n θ θ1,L, = θ ,

(

)

T n Y Y₁,_L = n Y mengikuti sebaran

normal n-peubah dengan rataan θ dan matriks dispersi D dengan elemen diagonal utama diketahui Di > 0 dan elemen lainnya 0. Disini dan

selanjutnya semua vektor merupakan vektor kolom, untuk setiap vektor (matriks) a (A).

2. Peubah θ mengikuti sebaran normal n-peubah dengan rataan βX untuk suatu matiks X berukuran n x p dan vektor tetap β yang tidak diketahui. Matriks dispersinya AIn dimana In adalah matriks identitas berdimensi n dan A adalah suatu konstanta yang tidak diketahui.

Ada beberapa pilihan dalam membangun dugaan selang i =x β+vi

T i

θ ,

yaitu hanya menggunakan model level 1 untuk data amatan, hanya level 2 untuk komponen meminjam kekuatan, atau kombinasi dari keduanya.

(5)

Selang θi yang hanya didasarkan pada model level 1 diberikan oleh

( )

i i D i y z D I 2 : α

α ± . Selang ini tidak efisien, karena rata-rata panjang selang terlalu besar untuk membuat suatu kesimpulan. Ini disebabkan oleh keragaman yang tinggi pada penduga titik yi.

Suatu selang yang didasarkan hanya pada model level 2 mengabaikan data spesifik area yang penting seperti yang dimodelkan pada level 1, dan ini mengakibatkan 2 hal yaitu kegagalan pada ketersangkutan dengan area kecil dan kegagalan menghasikan keakuratan coverage.

Oleh karena itu, diperlukan teknik pendugaan selang yang mengkombinasikan kedua level dari model Fay-Herriot. Pendekatan populer adalah metode Bayes Empirik (empirical Bayes) yang dikemukakan oleh Cox(Chatterjee et.al 2006) sebagai berikut :

( )

(

( )

)

12 2 ˆ 1 ˆ ˆ ˆ 1 : i i i i i C i B y B z D B I − + x β± α − T i (2.13)

dimana Bˆi adalah penduga dari Bi =Di

(

A+Di

)

, βˆ adalah penduga dari β dan

i

x adalah baris ke-i dari matriks X. Selang prediksi ini secara asymtotik mencapai coverage probability yang diinginkan, tetapi tidak cukup akurat bagi banyak terapan area kecil. Kekurangakuratan ini terkait dengan keragaman tambahan yang dihasilkan dari pendugaan β dan A.

Di samping pendekatan analitik, pembuatan selang prediksi juga dilakukan dengan kalibrasi menggunakan teknik bootstrap yang berbeda-beda. Perbedaan ini terletak pada cara pembangkitan contoh dan koreksi bias, seperti yang dilakukan oleh Laird and Louis dan Carlin and Gelfand (Chatterjee et.al(2006)). Pada akhirnya, Chatterjee et.al. (2006) menghasilkan selang prediksi dengan tingkat keakuratan yang tinggi menggunakan bootstrap parametrik.

2.5 Selang Prediksi Menggunakan Bootstrap Parametrik

Model campuran linier berikut merupakan model area kecil yang umum digunakan :

(6)

e v Z β X Y= + + (2.14)

di mana X(n x p) dan Z(n x q) adalah matriks yang diketahui, Y(n x 1) adalah data pengamatan, v menyebar normal N(0,A) dan e menyebar normal N(0,D).

( )(

q q

)

A ×

= ψ

A dan D=D

( )(

ψ n×n

)

tergantung pada ψ=

(

ψ₀,ψ₁,_Lψ_k

)

', suatu vektor berukuran (k + 1) x 1 dari komponen ragam tetap. Perhatikan bahwa matriks dispersi dari data amatan Y diberikan oleh _Σ₍_ψ₎₌_D₊_ZAZT_.

Kita tertarik dalam menyelidiki sebaran dari Θ=cT

(

Xβ+Zv

)

, dimana c adalah vektor tetap yang diketahui berukuran (n x 1). Ketika _cT =

(

0,0,_L,1,_L,0

)

dimana hanya elemen ke-i bernilai 1, θ merupakan rataan area kecil ke-i atau θ_i. Ketika φ=

(

β,ψ

)

diketahui,

(

2

)

, ~ Θ Θ ΘY N μ σ (2.15) dimana μΘ dan 2 Θ

σ merupakan nilai tengah dan ragam posterior dari θ dengan syarat Y,

(

Y Xβ

)

Σ ZAZ c β X c μ T T T 1 Θ = + − − Y Σ ZAZ c β X DΣ cT −1 ₊ T T −1 = (2.16)

(

A AZ ZA

)

Z c Z cT ' 1 T 2 − Θ = − Σ σ (2.17)

Secara alami kita dapat membangun selang prediksi dari θ dengan :

[

μθ σθ μθ σθ

]

θ α α 2 2 , ) ( z z PI = − + (2.18)

Dalam praktek, biasanya φ tidak diketahui dan diduga dengan sebaran marjinal Y. Kemudian penduga EBLUP dari θ adalah μˆ , yang dihasilkan dari _θ

θ

μ dengan φ digantikan oleh φˆ . Juga penduga ragam naive dari θ diberikan oleh

2

ˆ_θ

σ yang dihasilkan dengan

φ

digantikan oleh φˆ . Selang prediksi naive dibuat sebagai :

[

μθ σθ μθ σθ

]

θ) ˆ α ˆ , ˆ α ˆ ( 2 2 z z PI_naive = − + (2.19)

Selang prediksi ini biasanya terlalu sempit untuk mencapai target coverage probability yang diharapkan terkait keragaman yang disebabkan oleh pendugaan

(7)

φ pada σˆ . Chaterjee et.al.(2006) mengemukakan suatu selang prediksi _θ menggunakan pendekatan bootstrap parametrik. Mereka menggunakan μˆ dan _θ

2

ˆ_θ

σ untuk membangun selang prediksi. Karena

(

θ−μˆ_θ

)

/σˆ_θtidak menyebar normal baku, dalam hal ini

2 α

z bukan merupakan cut-off yang baik. Mereka mencari cut-off t dari contoh bootstrap. Selang prediksi metode ini adalah :

[

μθ σθ μθ σθ

]

θ) ˆ ˆ , ˆ ˆ

( t₁ t₂

PI_boot = − + (2.20)

dimana t1 dan t2 di atas diperoleh dengan menggunakan

[

]

{

θ ∈ μˆ_θ − σˆ_θ,μˆ_θ + σˆ_θ*

}

=1−α 2 * * 1 * * * t t

P , dimana peluang P* berkenaan dengan

sebaran bootstrap parametrik dan θ*, _ˆ*

θ

μ dan _ˆ*

θ

σ adalah sama seperti θ, μˆ dan _θ

θ

σˆ . Peluang nilai parameter tercakup dalam selang prediksi (coverage probability) metode ini akurat sampai dengan O(m-3/2) (Chaterjee et.al. 2006).

2.6 Metode-Metode Pendugaan Selang Prediksi

Berdasarkan perkembangannya, metode yang digunakan untuk menduga selang prediksi dari rataan area kecil T _i

i

i = x β +v

θ sebagian dapat diuraikan sebagai berikut :

2.6.1 Metode Langsung (Direct Method)

Metode ini didasarkan hanya pada data (Level 1) dan tidak menggunakan informasi model prior (Level 2). Selang prediksi metode langsung θ_i diberikan oleh :

[

i i i i

]

D i y z D y z D PI 2 2 , ) (α = − α + α (2.21)

Jelas bahwa selang prediksi ini memiliki coverage probability 1 - α. Akan tetapi, selang prediksi ini tidak efisien karena rata-rata panjang selang terlalu besar untuk membuat kesimpulan. Hal ini terkait dengan keragaman yang tinggi pada pendugaan titik yi.

(8)

2.6.2 Metode Sintetik

Ketika β dan A diketahui, dapat dibangun selang prediksi θi sebagai

[

xT_i z A

]

2 α

β ± tanpa menggunakan data. Ketika β dan A tidak diketahui, β dan A dapat diduga dari sebaran marginal y dan mendapatkan cut-off dari metode bootstrap parametrik. Selang prediksi metode ini diberikan oleh :

⎥⎦ ⎤ ⎢⎣ ⎡ ₋ ₊ = x t A x t A t PISynt( ) T_i βˆ ₁ ˆ, T_i βˆ ₂ ˆ (2.22) Dimana _β_ˆ_{= (}XTX)−1XTY_dan

Aˆ adalah penduga REML. Nilai t1 dan t2 di atas

dihasilkan menggunakan 2 ˆ ˆ ˆ * 1 * * _θ _β ₌_α ⎥⎦ ⎤ ⎢⎣ ⎡ _< _x ₋_t _A P _i T_i 2 ˆ ˆ ˆ * 2 * * _θ _β ₌_α ⎥⎦ ⎤ ⎢⎣ ⎡ _>_x ₊_t _A P _i T_i

dimana peluang P*_{berkenaan dengan sebaran bootstrap parametrik dan}

_θ

*_, *

ˆ

μ dan ˆA adalah sama seperti * _θ_, _μ_{ˆ dan} _σ_{ˆ kecuali bahwa contoh bootstrap}

digunakan dalam mengganti contoh asli. Contoh-contoh bootstrap

(

y_i*,θ_i*

)

,i=1,_L,N dibangkitkan menurut θ_i* ~ N

(

xT_i βˆ,Aˆ

)

dan

(

i i

)

i

i N D

y*θ* ~ θ*, . Karena metode ini hanya menggunakan level kedua dari model, ragam prior θ_i biasanya lebih besar daripada ragam posterior dari Yθ_i . Panjang rata-rata dari selang prediksi bootstrap parametrik sintetik selalu lebih besar dari yang didasarkan pada sebaran bersyarat Yθ_i , yang digunakan dalam selang prediksi bootstrap parametrik.

2.6.3 Metode Cox

Metode Cox merupakan teknik pendugaan selang yang mengkombinasikan kedua level dari model Fay-Herriot. Selang prediksi Cox dirumuskan sebagai berikut :

( )

(

( )

)

12 2 ˆ 1 ˆ ˆ ˆ 1 : T _i _i i i i i C i B y B x z D B I − + β ± α − (2.13)

(9)

dimana Bˆ adalah penduga dari i Bi =Di

(

A+Di

)

, βˆ adalah penduga dari β dan i

x adalah baris ke-i dari matriks X. Selang prediksi ini secara asymtotik mencapai coverage probability yang diinginkan, tetapi tidak cukup akurat bagi banyak terapan area kecil. Kekurangakuratan ini terkait dengan keragaman tambahan yang dihasilkan dari pendugaan β dan A.

2.6.4 Metode Bootstrap Parametrik dengan Penduga REML

Chatterjee, Lahiri and Li (2006) mengemukakan metode bootstrap parametrik baru. Mereka menyusun selang prediksi menggunakan penduga empirical Bayes (EB) dan penduga ragam naivenya. Selang prediksi yang dikemukakan untuk model Fay-Herriot adalah :

( )

( ) ( )

( )

_⎥⎦⎤

⎢⎣

⎡ ₋ ₊ ₋ ₋ ₋ ₊ ₊ ₋

= B y Bx t D B B y Bx t D B

PI_iPB 1 ˆ _i ˆ T_i βˆ ₁ _i1 ˆ ,1 ˆ _i ˆ _iTβˆ ₂ _i1 ˆ (2.23) dimana Bˆ =D_i/

(

Aˆ+D_i

)

, βˆ=(XTX)−1XTYdan Aˆ adalah penduga REML. Nilai

t1 dan t2 diperoleh dari contoh bootstrap menggunakan :

( )

1 ˆ ˆ ˆ ₁

( )

1 ˆ 2 * _θ _β ₌_α ⎥⎦ ⎤ ⎢⎣ ⎡ _< ₋_B _y ₊_B_x ₋_t _D ₋_B P _i _i T_i _i

( )

1 ˆ ˆ ˆ ₂

( )

1 ˆ 2 * _θ _β ₌_α ⎥⎦ ⎤ ⎢⎣ ⎡ _> ₋_B _y ₊_B_x ₊_t _D ₋_B P _i _i T_i _i

dimana peluang P*_{berkenaan dengan sebaran bootstrap parametrik dan}

_θ

*_, *

ˆ

β dan ˆB adalah sama seperti * _θ_, _βˆ dan Bˆ kecuali bahwa contoh bootstrap

digunakan dalam mengganti contoh asli. Contoh-contoh bootstrap

(

y_i*,θ_i*

)

,i=1,_L,N dibangkitkan menurut θ_i* ~ N

(

xT_i βˆ,Aˆ

)

dan

(

i i

)

i

i N D

y*θ* ~ θ*, .

2.6.5 Metode Bootstrap Parametrik dengan penduga ADM

Dalam metode ini, semua skema dalam membangun selang prediksi sama dengan metode bootstrap parametrik dengan penduga REML, kecuali dalam hal ini digunakan penduga ADM dari A sebagai pengganti penduga REML.

(10)

2.7 Penduga ragam REML dan ADM

Dalam praktek, komponen ragam biasanya tidak diketahui. Metode ML dan REML digunakan untuk menduga komponen ragam. Ketika jumlah area kecil terbatas, MLE kurang baik. Morris (dalam Lahiri 2006), menyarankan metode ADM. Berkenaan dengan REML adjusted likelihood L(A) sebagai kepekatan posterior dari A, diperoleh modus posterior dengan memaksimumkan L(A). L(A) right-skewed jika m kecil, sehingga rataan A melebihi modusnya. Metode ADM memaksimumkan A*L(A) menggantikan L(A) yang memberikan hasil lebih baik daripada modus. Perkalian oleh A mengoreksi underestimasi dari A dan juga kekonvergenan Bi. Formula penduga ragam REML dan ADM adalah sebagai

berikut (Li, 2007) :

(

0, 1

)

max ˆ ₌ 2 ₋ s AREML _dengan

(

)

1 1 2 2 − − =

∑

= m y y s m i i

(

)

(

)

(

)

4 2 2 8 4 4 ˆ 1 2 1 2 2 − ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₋ ₋ ₋ + + − − =

∑

= = m m y y m m y y A m i m i i i ADM

Ketika menggunakan metode REML, ada kemungkinan didapatkan nilai negatif dari pendugaan A, yang kemudian diubah menjadi Aˆ =0. Pendugaan nol itu akan membuat pendugaan ragam bermasalah, dan juga menyebabkan kesulitan dalam prosedur perhitungan. Tidak seperti penduga ML dan REML, penduga ADM selalu positif dan B ada di antara 0 dan 1.

2.8 Pendugaan Selang Prediksi

Metode-metode pendugaan selang prediksi di atas yang dibangun dari sebaran empirik menggunakan contoh bootstrap (metode bootstrap parametrik) mengasumsikan sebaran empirik adalah simetri, sehingga untuk memudahkan proses perhitungan dan pembandingan selang prediksi digunakan metode persentil.

(11)

Akan tetapi jika sebaran empirik yang dihasilkan kurang simetri, yang dapat

dilihat dari pengujian

(

)

(

)

3 1 3 1 s N Y Y skewness N i i − −

=

∑

= _{maka selang prediksi dapat}

dibangun dengan menggunakan metode Bias Corrected-accelerated (BCa). Langkah-langkah metode BCa :

• Hitung proporsi θ*_{yang lebih kecil dari θ : P}

• Tentukan faktor koreksi z = φ-1_(P)

• Hitung dengan Jacknife :

(

)

(

)

3/2 1 2 * * 1 3 * * 6 _⎥ ⎦ ⎤ ⎢ ⎣ ⎡ ₋ − =

∑

= − = − n i i n i i a θ θ θ θ • Hitung :

( )

(

)

⎟⎟_⎠⎞ ⎜⎜ ⎝ ⎛ Φ + − − Φ + + = − ₋

α

φ

α

1 1 ₁ ( 1 az a z z z

(

)

(

)

(

)

⎟⎟_⎠⎞ ⎜⎜ ⎝ ⎛ − Φ + − − − Φ + + = − ₋

α

φ

α

1 ( 1 1 1 1 2 z a z a z z • Hitung : 1 1= B×

α

N dan N₂= B×

α

₂