2. TINJAUAN PUSTAKA 2.1 Model Area Kecil
Model area kecil merupakan model dasar dalam pendugaan area kecil. Model ini dikelompokkan menjadi dua kelompok yaitu model berbasis area (basic area level model) dan model berbasis unit (basic unit level model).
2.1.1 Model Berbasis Area
Pada model berbasis area diasumsikan bahwa peubah yang menjadi perhatian merupakan fungsi dari rata-rata peubah respon, θi = g
( )
Yi untuk g(.)tertentu yang berkaitan dengan data penyerta area kecil
(
)
T pi i i = x1,L,xx dan
mengikuti model linier sebagai berikut: ,
v b θi =xTβ+ i i
i i = 1, ... , m (2.1)
dengan b adalah kostanta bernilai positif yang diketahui dan i β=(β1,...,βp)T adalah vektor koefisien regresi berukuran p x 1. Sedangkan v adalah pengaruh i
acak area kecil yang diasumsikan memiliki sebaran identik yang saling bebas yakni 0 ) v ( i = m E , Vm(vi)=σv2= A(≥0) (2.2)
dengan E menyatakan nilai harapan model dan m V ragam model. Seringkali m
pengaruh acak v dianggap menyebar normal. i
Untuk melakukan inferensi tentang rata-rata area kecil Yi pada model
(2.1), dimisalkan bahwa penduga langsung Yˆ ada, sehingga i
i i i
i g(Yˆ ) θ e
θˆ = = + , i = 1, ... , m (2.3)
dengan galat contoh e bebas serta i , 0 ) θ | e ( i i = p E Vp(ei|θi)=ψi =Di (2.4) Biasanya ragam contoh ψi diketahui.
i i i T i i x β b v e θˆ = + + , i = 1, ..., m (2.5)
dengan v dan i e saling bebas. Model (2.5) ini merupakan kasus khusus dari i model campuran linier dan dikenal pula sebagai model Fay–Herriot dalam literatur area kecil, karena mereka yang pertama kali menggunakan model tersebut pada pendugaan area kecil (Rao 2003).
2.1.2 Model Berbasis Unit
Model berbasis unit mengasumsikan bahwa data penyerta unit
T ijp ij
ij =(x 1,...,x )
x ada untuk masing anggota populasi j dalam masing-masing area kecil i, namun kadang cukup dengan rata-rata populasi X diketahui i
saja. Selanjutnya peubah perhatian y dianggap berkaitan dengan ij x mengikuti ij model regresi linier galat tersarang satu tahap
; e v yij =xTβ+ i+ ij
ij j = 1, ... , N dan i = 1, ... , m (2.6)
Pengaruh acak area kecil v ini mempunyai sebaran identik dan saling bebas, i
ij ij
ij k e
e = ~ dengan konstanta k diketahui dan ij e~ peubah acak yang memiliki ij sebaran identik dan bebas pula serta bebas dengan v , i
, 0 ) ~ (eij = m E V(~eij)=σe2 (2.7)
Seringkali diasumsikan bahwa v dan i e berdistribusi normal. i
2.2 Model Fay-Herriot
Model Fay-Herriot adalah model yang banyak dipakai dalam pendugaan area kecil dan merupakan model campuran linier. Fay and Herriot (1979) menggunakan model dua level berikut untuk menduga pendapatan perkapita untuk area kecil di Amerika Serikat dengan populasi kurang dari 1000.
Level 1 : yiθi ~ N
(
θi,Di)
Level 2 : θi ~ N
(
xTi β,A)
Model dua level di atas dapat dituliskan sebagai model linier campuran sebagai berikut :
i e v e θ yi = i+ i =x β+ i + T i , i = 1, ... , m (2.8) dimana vi ~ N ,
( )
0 A dan ei ~ N(
0,Di)
Pengaruh acak area vi ~ N
( )
0,A digunakan untuk menghubungkan rataan area kecil θi dengan vektor peubah penyerta x yang sering diperoleh dari data i sensus. Parameter β dan A umumnya tidak diketahui dan diduga dari sebaran marginal y. Ragam contoh Di biasanya diasumsikan diketahui.2.3 Penduga EBLUP
Model dasar pendugaan area kecil oleh Fay-Herriot (1979) menjadi dasar dalam pengembangan pendugaan area kecil berbasis model yang banyak dibahas dalam berbagai literatur. Jika θi =x Tβ+vi
i adalah parameter yang menjadi
perhatian dan y adalah nilai pendugaan langsung berdasarkan rancangan survei, i
maka yi =θi +ei dimana e adalah sampling error dan i v adalah pengaruh acak i
area kecil. Model tersebut dapat ditulis menjadi
i i
i v e
y =x Tβ+ +
i (2.9)
dengan v dan i e saling bebas serta i vi ~N
( )
0,A dan ei ~ N(
0,D)
untuk i = 1, ...,m. Diasumsikan bahwa β dan A (keragaman antar area kecil) tidak diketahui, tetapi Di (keragaman karena sampling error) untuk i = 1, 2, ..., m diketahui.
Penduga terbaik (best predictor, BP) bagi θi =x Tβ+vi
i jika β dan A diketahui adalah
(
β)
x β(
)
(
xiTβ)
T i + − − = = i i i i BP i θˆ y ,A 1 B y θˆ (2.10) dengan Bi =Di(
A+Di)
untuk i = 1, 2, ..., m.Jika A diketahui, β dapat diduga dengan metode kuadrat terkecil terboboti
yaitu β (A)=
(
XTV−1X)
−1XTV−1Yi dan dengan mensubstitusi β oleh βˆ pada i BP i θˆ , maka diperoleh
( )
(
)
(
T i)
i i T i β x β x ˆ 1 B y ˆ A y θˆ θˆBLUP i i i i i = = + − −( )
i(
i)
i i i i BLUP i y A B y B x β T i ˆ 1 ˆ ˆ =θ = − + θ (2.11)Dalam praktek, baik β maupun A biasanya tidak diketahui sehingga untuk kasus pendugaan θi dengan BLUP, A terlebih dahulu harus diduga. Untuk menduga A dapat digunakan metode kemungkinan maksimum (maximum likelihood, ML), metode kemungkinan maksimum terkendala (restricted maximum likelihood, REML), metode adjusted for density maximization (ADM) atau metode momen. Dengan mensubstitusi β oleh βˆ dan A oleh Aˆ terhadap penduga BLUP, maka akan diperoleh suatu penduga baru
( )
x β( )
(
xTβ)
i T i ˆ 1 ˆ ˆ ˆ ˆ ˆ = = + − − i i i i EBLUP i θ y A B y θ( )
(
)
xTβ i ˆ ˆ ˆ 1 ˆ ˆ ˆ i i i i i EBLUP i =θ y A = −B y +B θ (2.12)yang kemudian dikenal sebagai empirical best linear unbiased predictor (EBLUP).
2.4 Teknik Pendugaan Selang
Riset pada selang prediksi area kecil sebagian besar dipusatkan pada kasus khusus model Fay-Herriot, yang digambarkan sebagai berikut :
1. Bergantung pada
(
)
T n θ θ1,L, = θ ,(
)
T n Y Y1,L = n Y mengikuti sebarannormal n-peubah dengan rataan θ dan matriks dispersi D dengan elemen diagonal utama diketahui Di > 0 dan elemen lainnya 0. Disini dan
selanjutnya semua vektor merupakan vektor kolom, untuk setiap vektor (matriks) a (A).
2. Peubah θ mengikuti sebaran normal n-peubah dengan rataan βX untuk suatu matiks X berukuran n x p dan vektor tetap β yang tidak diketahui. Matriks dispersinya AIn dimana In adalah matriks identitas berdimensi n dan A adalah suatu konstanta yang tidak diketahui.
Ada beberapa pilihan dalam membangun dugaan selang i =x β+vi
T i
θ ,
yaitu hanya menggunakan model level 1 untuk data amatan, hanya level 2 untuk komponen meminjam kekuatan, atau kombinasi dari keduanya.
Selang θi yang hanya didasarkan pada model level 1 diberikan oleh
( )
i i D i y z D I 2 : αα ± . Selang ini tidak efisien, karena rata-rata panjang selang terlalu besar untuk membuat suatu kesimpulan. Ini disebabkan oleh keragaman yang tinggi pada penduga titik yi.
Suatu selang yang didasarkan hanya pada model level 2 mengabaikan data spesifik area yang penting seperti yang dimodelkan pada level 1, dan ini mengakibatkan 2 hal yaitu kegagalan pada ketersangkutan dengan area kecil dan kegagalan menghasikan keakuratan coverage.
Oleh karena itu, diperlukan teknik pendugaan selang yang mengkombinasikan kedua level dari model Fay-Herriot. Pendekatan populer adalah metode Bayes Empirik (empirical Bayes) yang dikemukakan oleh Cox(Chatterjee et.al 2006) sebagai berikut :
( )
(
( )
)
12 2 ˆ 1 ˆ ˆ ˆ 1 : i i i i i C i B y B z D B I − + x β± α − T i (2.13)dimana Bˆi adalah penduga dari Bi =Di
(
A+Di)
, βˆ adalah penduga dari β dani
x adalah baris ke-i dari matriks X. Selang prediksi ini secara asymtotik mencapai coverage probability yang diinginkan, tetapi tidak cukup akurat bagi banyak terapan area kecil. Kekurangakuratan ini terkait dengan keragaman tambahan yang dihasilkan dari pendugaan β dan A.
Di samping pendekatan analitik, pembuatan selang prediksi juga dilakukan dengan kalibrasi menggunakan teknik bootstrap yang berbeda-beda. Perbedaan ini terletak pada cara pembangkitan contoh dan koreksi bias, seperti yang dilakukan oleh Laird and Louis dan Carlin and Gelfand (Chatterjee et.al(2006)). Pada akhirnya, Chatterjee et.al. (2006) menghasilkan selang prediksi dengan tingkat keakuratan yang tinggi menggunakan bootstrap parametrik.
2.5 Selang Prediksi Menggunakan Bootstrap Parametrik
Model campuran linier berikut merupakan model area kecil yang umum digunakan :
e v Z β X Y= + + (2.14)
di mana X(n x p) dan Z(n x q) adalah matriks yang diketahui, Y(n x 1) adalah data pengamatan, v menyebar normal N(0,A) dan e menyebar normal N(0,D).
( )(
q q)
A ×
= ψ
A dan D=D
( )(
ψ n×n)
tergantung pada ψ=(
ψ0,ψ1,Lψk)
', suatu vektor berukuran (k + 1) x 1 dari komponen ragam tetap. Perhatikan bahwa matriks dispersi dari data amatan Y diberikan oleh Σ(ψ)=D+ZAZT.Kita tertarik dalam menyelidiki sebaran dari Θ=cT
(
Xβ+Zv)
, dimana c adalah vektor tetap yang diketahui berukuran (n x 1). Ketika cT =(
0,0,L,1,L,0)
dimana hanya elemen ke-i bernilai 1, θ merupakan rataan area kecil ke-i atau θi. Ketika φ=(
β,ψ)
diketahui,(
2)
, ~ Θ Θ ΘY N μ σ (2.15) dimana μΘ dan 2 Θσ merupakan nilai tengah dan ragam posterior dari θ dengan syarat Y,
(
Y Xβ)
Σ ZAZ c β X c μ T T T 1 Θ = + − − Y Σ ZAZ c β X DΣ cT −1 + T T −1 = (2.16)(
A AZ ZA)
Z c Z cT ' 1 T 2 − Θ = − Σ σ (2.17)Secara alami kita dapat membangun selang prediksi dari θ dengan :
[
μθ σθ μθ σθ]
θ α α 2 2 , ) ( z z PI = − + (2.18)Dalam praktek, biasanya φ tidak diketahui dan diduga dengan sebaran marjinal Y. Kemudian penduga EBLUP dari θ adalah μˆ , yang dihasilkan dari θ
θ
μ dengan φ digantikan oleh φˆ . Juga penduga ragam naive dari θ diberikan oleh
2
ˆθ
σ yang dihasilkan dengan
φ
digantikan oleh φˆ . Selang prediksi naive dibuat sebagai :[
μθ σθ μθ σθ]
θ) ˆ α ˆ , ˆ α ˆ ( 2 2 z z PInaive = − + (2.19)Selang prediksi ini biasanya terlalu sempit untuk mencapai target coverage probability yang diharapkan terkait keragaman yang disebabkan oleh pendugaan
φ pada σˆ . Chaterjee et.al.(2006) mengemukakan suatu selang prediksi θ menggunakan pendekatan bootstrap parametrik. Mereka menggunakan μˆ dan θ
2
ˆθ
σ untuk membangun selang prediksi. Karena
(
θ−μˆθ)
/σˆθtidak menyebar normal baku, dalam hal ini2 α
z bukan merupakan cut-off yang baik. Mereka mencari cut-off t dari contoh bootstrap. Selang prediksi metode ini adalah :
[
μθ σθ μθ σθ]
θ) ˆ ˆ , ˆ ˆ
( t1 t2
PIboot = − + (2.20)
dimana t1 dan t2 di atas diperoleh dengan menggunakan
[
]
{
θ ∈ μˆθ − σˆθ,μˆθ + σˆθ*}
=1−α 2 * * 1 * * * t tP , dimana peluang P* berkenaan dengan
sebaran bootstrap parametrik dan θ*, ˆ*
θ
μ dan ˆ*
θ
σ adalah sama seperti θ, μˆ dan θ
θ
σˆ . Peluang nilai parameter tercakup dalam selang prediksi (coverage probability) metode ini akurat sampai dengan O(m-3/2) (Chaterjee et.al. 2006).
2.6 Metode-Metode Pendugaan Selang Prediksi
Berdasarkan perkembangannya, metode yang digunakan untuk menduga selang prediksi dari rataan area kecil T i
i
i = x β +v
θ sebagian dapat diuraikan sebagai berikut :
2.6.1 Metode Langsung (Direct Method)
Metode ini didasarkan hanya pada data (Level 1) dan tidak menggunakan informasi model prior (Level 2). Selang prediksi metode langsung θi diberikan oleh :
[
i i i i]
D i y z D y z D PI 2 2 , ) (α = − α + α (2.21)Jelas bahwa selang prediksi ini memiliki coverage probability 1 - α. Akan tetapi, selang prediksi ini tidak efisien karena rata-rata panjang selang terlalu besar untuk membuat kesimpulan. Hal ini terkait dengan keragaman yang tinggi pada pendugaan titik yi.
2.6.2 Metode Sintetik
Ketika β dan A diketahui, dapat dibangun selang prediksi θi sebagai
[
xTi z A]
2 α
β ± tanpa menggunakan data. Ketika β dan A tidak diketahui, β dan A dapat diduga dari sebaran marginal y dan mendapatkan cut-off dari metode bootstrap parametrik. Selang prediksi metode ini diberikan oleh :
⎥⎦ ⎤ ⎢⎣ ⎡ − + = x t A x t A t PISynt( ) Ti βˆ 1 ˆ, Ti βˆ 2 ˆ (2.22) Dimana βˆ= (XTX)−1XTYdan
Aˆ adalah penduga REML. Nilai t1 dan t2 di atas
dihasilkan menggunakan 2 ˆ ˆ ˆ * 1 * * θ β =α ⎥⎦ ⎤ ⎢⎣ ⎡ < x −t A P i Ti 2 ˆ ˆ ˆ * 2 * * θ β =α ⎥⎦ ⎤ ⎢⎣ ⎡ >x +t A P i Ti
dimana peluang P* berkenaan dengan sebaran bootstrap parametrik dan
θ
*, *ˆ
μ dan ˆA adalah sama seperti * θ, μˆ dan σˆ kecuali bahwa contoh bootstrap
digunakan dalam mengganti contoh asli. Contoh-contoh bootstrap
(
yi*,θi*)
,i=1,L,N dibangkitkan menurut θi* ~ N(
xTi βˆ,Aˆ)
dan(
i i)
i
i N D
y*θ* ~ θ*, . Karena metode ini hanya menggunakan level kedua dari model, ragam prior θi biasanya lebih besar daripada ragam posterior dari Yθi . Panjang rata-rata dari selang prediksi bootstrap parametrik sintetik selalu lebih besar dari yang didasarkan pada sebaran bersyarat Yθi , yang digunakan dalam selang prediksi bootstrap parametrik.
2.6.3 Metode Cox
Metode Cox merupakan teknik pendugaan selang yang mengkombinasikan kedua level dari model Fay-Herriot. Selang prediksi Cox dirumuskan sebagai berikut :
( )
(
( )
)
12 2 ˆ 1 ˆ ˆ ˆ 1 : T i i i i i i C i B y B x z D B I − + β ± α − (2.13)dimana Bˆ adalah penduga dari i Bi =Di
(
A+Di)
, βˆ adalah penduga dari β dan ix adalah baris ke-i dari matriks X. Selang prediksi ini secara asymtotik mencapai coverage probability yang diinginkan, tetapi tidak cukup akurat bagi banyak terapan area kecil. Kekurangakuratan ini terkait dengan keragaman tambahan yang dihasilkan dari pendugaan β dan A.
2.6.4 Metode Bootstrap Parametrik dengan Penduga REML
Chatterjee, Lahiri and Li (2006) mengemukakan metode bootstrap parametrik baru. Mereka menyusun selang prediksi menggunakan penduga empirical Bayes (EB) dan penduga ragam naivenya. Selang prediksi yang dikemukakan untuk model Fay-Herriot adalah :
( )
( ) ( )
( )
⎥⎦⎤⎢⎣
⎡ − + − − − + + −
= B y Bx t D B B y Bx t D B
PIiPB 1 ˆ i ˆ Ti βˆ 1 i1 ˆ ,1 ˆ i ˆ iTβˆ 2 i1 ˆ (2.23) dimana Bˆ =Di/
(
Aˆ+Di)
, βˆ=(XTX)−1XTYdan Aˆ adalah penduga REML. Nilait1 dan t2 diperoleh dari contoh bootstrap menggunakan :
( )
1 ˆ ˆ ˆ 1( )
1 ˆ 2 * θ β =α ⎥⎦ ⎤ ⎢⎣ ⎡ < −B y +Bx −t D −B P i i Ti i( )
1 ˆ ˆ ˆ 2( )
1 ˆ 2 * θ β =α ⎥⎦ ⎤ ⎢⎣ ⎡ > −B y +Bx +t D −B P i i Ti idimana peluang P* berkenaan dengan sebaran bootstrap parametrik dan
θ
*, *ˆ
β dan ˆB adalah sama seperti * θ, βˆ dan Bˆ kecuali bahwa contoh bootstrap
digunakan dalam mengganti contoh asli. Contoh-contoh bootstrap
(
yi*,θi*)
,i=1,L,N dibangkitkan menurut θi* ~ N(
xTi βˆ,Aˆ)
dan(
i i)
i
i N D
y*θ* ~ θ*, .
2.6.5 Metode Bootstrap Parametrik dengan penduga ADM
Dalam metode ini, semua skema dalam membangun selang prediksi sama dengan metode bootstrap parametrik dengan penduga REML, kecuali dalam hal ini digunakan penduga ADM dari A sebagai pengganti penduga REML.
2.7 Penduga ragam REML dan ADM
Dalam praktek, komponen ragam biasanya tidak diketahui. Metode ML dan REML digunakan untuk menduga komponen ragam. Ketika jumlah area kecil terbatas, MLE kurang baik. Morris (dalam Lahiri 2006), menyarankan metode ADM. Berkenaan dengan REML adjusted likelihood L(A) sebagai kepekatan posterior dari A, diperoleh modus posterior dengan memaksimumkan L(A). L(A) right-skewed jika m kecil, sehingga rataan A melebihi modusnya. Metode ADM memaksimumkan A*L(A) menggantikan L(A) yang memberikan hasil lebih baik daripada modus. Perkalian oleh A mengoreksi underestimasi dari A dan juga kekonvergenan Bi. Formula penduga ragam REML dan ADM adalah sebagai
berikut (Li, 2007) :
(
0, 1)
max ˆ = 2 − s AREML dengan(
)
1 1 2 2 − − =∑
= m y y s m i i(
)
(
)
(
)
4 2 2 8 4 4 ˆ 1 2 1 2 2 − ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − − − + + − − =∑
∑
= = m m y y m m y y A m i m i i i ADMKetika menggunakan metode REML, ada kemungkinan didapatkan nilai negatif dari pendugaan A, yang kemudian diubah menjadi Aˆ =0. Pendugaan nol itu akan membuat pendugaan ragam bermasalah, dan juga menyebabkan kesulitan dalam prosedur perhitungan. Tidak seperti penduga ML dan REML, penduga ADM selalu positif dan B ada di antara 0 dan 1.
2.8 Pendugaan Selang Prediksi
Metode-metode pendugaan selang prediksi di atas yang dibangun dari sebaran empirik menggunakan contoh bootstrap (metode bootstrap parametrik) mengasumsikan sebaran empirik adalah simetri, sehingga untuk memudahkan proses perhitungan dan pembandingan selang prediksi digunakan metode persentil.
Akan tetapi jika sebaran empirik yang dihasilkan kurang simetri, yang dapat
dilihat dari pengujian
(
)
(
)
3 1 3 1 s N Y Y skewness N i i − −=
∑
= maka selang prediksi dapatdibangun dengan menggunakan metode Bias Corrected-accelerated (BCa). Langkah-langkah metode BCa :
• Hitung proporsi θ* yang lebih kecil dari θ : P
• Tentukan faktor koreksi z = φ-1(P)
• Hitung dengan Jacknife :