1
Regresi Polinomial local untuk Data Survey Skala Besar
Studi kasus:
Model Pengeluaran Rumah Tangga berdasarkan Data Susenas Jawa Timur 2006
Oleh: Tuti Rumiati
Abstrak
Survai berskala besar dan kompleks umumnya melibatkan data sampel dalam jumlah sangat besar. Sebagai contoh Susenas yang selalu dilaksanakan oleh Badan Pusat Statistik tiap tahun setidaknya melibatkan 1,2 juta sampel di seluruh Indonesia. Untuk skala Jawa Timur saja Susenas memiliki 29.950 responden.
Salah satu persoalan yang dihadapi pada saat mencari pendugaan parameter dari data yang berskala besar adalah kapasitas perangkat lunak yang terbatas. Statistik penduga parameter dalam kasus seperti ini dapat diturunkan dengan mereduksi data dengan merubah skala data mengelompokkan data kedalam interval tertentu. Jumlah data dalam interval dianggap sebagai ulangan pada titik yang mewakili interval tersebut. Selanjutnya penduga statistic diaplikasikan kedalam data baru
Dalam kasus model yang menjelaskan hubungan antara pengeluaran rumah tangga dan rasio pengeluaran makanan/non makanan di Jawa Timur berdasarkan data Susenas tahun 2006, model terbaik diperoleh degan menggunakan Span 0.3. Diperoleh model eksponensial sampai pengeluaran total sebesar Rp 10.000.000 dan berbentuk kuadratik setelah batas pengeluaran Rp 10.000.000,-. Pada kausus ini dengan memasukkan komponen bobot pada fungsi polynomial diperoleh model yang lebih baik karena memiliki residual yang lebih rendah
1. Pendahuluan
Survai berskala besar dan kompleks umumnya melibatkan data sampel dalam jumlah sangat besar. Sebagai contoh Susenas (Survai Sosial Ekonomi Nasional) yang tiap
tahun selalu dilaksanakan oleh Badan Pusat Statistik (BPS), setidaknya melibatkan 1,2 juta sampel di seluruh Indonesia. Untuk skala Jawa Timur saja Susenas memiliki 29.950 responden.
Beberapa peneliti telah mengembangkan metode pendugaan Seminar Nasional Statistika IX
2 model regresi polynomial untuk data berskala besar.
Model regresi berganda untuk survai telah dipelajari oleh Fuller (1975) dengan menggunakan bobot survai. Sedangkan Korn and Graubard (1998) memperkenalkan Regresi Polinomial Lokal untuk data survai yang kompleks yaitu hanya dengan menampilkan grafik-grafik tanpa menyediakan sifat-sifat statistik dari prosedur yang digunakan. Sedangkan Smith and Njenga (1992) menggunakan regresi dengan teknik pemulusan kernel untuk mencapai penduga yang robust untuk rataan dan parameter regresi untuk sebuah asumsi model superpopulasi.
Selanjutnya Bellhouse and Staford mengembangkan model Polinomial lokal sebagai alat eksplorasi untuk menemukan hubungan antara Y dan kovariat X. Dalam hal ini kovariat X diasumsikan sebagai peubah berskala kontinu.
Karena besarnya sampel pada data survai, Hartley and Rao (1968,1969) mengasumsikan adanya multiple observation pada titik-titik tertentu dan mengeksploitasi finite
population parameter dalam menguji
hubungan antara X dan Y. Demikian juga Bellhouse and Stafford (2001), menggunakan cara yang sama untuk
memperoleh model yang
menghubungkan X dan Y melalui pendekatan non-parametrik.
Tulisan ini membahas pengembangan model polonomial lokal untuk data survey yang berskala besar dengan mengambil kasus model yang menduga rasio pengeluaran makanan non makanan dengan pengeluaran rumah tangga. 2. Metodologi
Pengelompokan Data
Misalkan X dan Y adalah variable yang diukur dari suatu populasi berukuran N. Model yang ingin dihasilkan adalah y=f(x). Seandainya X dapat dipandang memiliki k nilai yang berbeda maka X dapat dikatagorikan ke dalam k wadah. Misalkan xi adalah nilai ke-i
dari X dan diasumsikan bahwa xi
memiliki ruang yang sama, maka b = xi-xi-1.
Selanjutnya sampel berukuran n diambil dari populasi yang memiliki struktur yang sama dengan populasi yaitu dapat dibagi kedalam k wadah, maka nilai dugaan dari
y
i (rerata Y untuk xi tertentu) adalahy
ˆ
i.Selain itu, dari data survai dapat diduga pi yang didefinisikan sebagai
finite population proportion dari
observasi dengan nilai xi. Dari data
survai maka
p
ˆ
i adalah dugaan dari pi. Diasumsikan bahway
ˆ
i danp
ˆ
i3 adalah penduga asismtotik tak bias dan penduga
y
ˆ
i, untuk i=1,2,3…..k memiliki matriks varian-kovarian V. Menurut Bellhouse and Stafford, beberapa keuntungan melakukan pengelompokan (binning) terhadap data dari kovariat X pada saat eksplorasi adalah, pertama pada survai skala besar menggunakani
y
ˆ
terkait dengan xi lebih informatifdan lebih tidak membingungkan dibandingkan menggunakan seluruh data. Kedua, membuat model sederhana dengan
y
ˆ
i akan membuat analisis lebih terfokus pada isu sentral yang diteliti, yaitu menentukan fungsi kecenderungan untuk x. Dengan menggunakan matriks varian-kovarianV
ˆ
, maka akan mudah menggunakan software statistic semacam SPLUS dan lain-lain. Ketigat, dengan melakukanbinning data maka secara bersamaan
akan dapat dilakukan pendekatan nonparametrik yang lain seperti misalnya regresi logistik, model linier terampat dan lain-lain.
Pendekatan Regresi Polinomial Lokal
Jika Em adalah nilai harapan dari
superpopulasi yang didefinisikan sebagai Em(
y
i )=m(xi) maka m(xi)adalah fungsi pemulus. Pendekatan regresi polinomial lokal dan dan metode binning dengan mengguna-kan m(xi) akan dicoba diterapkan
pada data Susenas Jawa Timur tahun 2006 yang melibatkan 29950 sampel data.
Misalkan diberikan pasangan observasi (X1,Y1), . . ……. , (Xn, Yn),
peubah acak Y dihubungkan dengan kovariatnya X melalui persamaan:
i i i
m
x
y
(
)
,0
)
(
i
E
, i=1,2,……k …...….(1) Dimana m(.) adalah polinomial lokal yang merupakan fungsi regresi dan penduga m(x) adalahm
ˆ
(
x
)
. Diasumsikan bahwaV
(
i)
tidak tergantung pada X dan X diperlakukan sebagai peubah tetap. Pendugaan m(x) melalui pendekatan regresi polinomial lokal dapat diperoleh dengan cara sebagai berikut.Andaikan q menyatakan derajat/ pangkat dari regresi polinomial lokal. Breidt dan Epsomer (2007) menyatakan bahwa untuk nilai x yang dibeketahui maka
m
ˆ
(
x
)
didefinisikan sebagai0
ˆ
dimana
ˆ
0,
ˆ
1,...
ˆ
qdiperoleh dengan menyelesaikan fungsi kuadrat terkecil terbobot sebagai berikut:)
2
...(
...
...
...
)
)
(
...
)
(
(
min
2 1 0 1 q i q i i n i ix
x
x
x
Y
h
x
x
K
 
Penduga tersebut dapat ditulis dalam bentuk matriks:
4
Y
h
W
X
X
h
W
X
e
x
m
x T x x x T x T(
(
)
)
(
)
)
(
ˆ
1 1 
………..(3) Dengan}
/
)
((
,...,
/
)
((
{
,
)
,...
(
,
)
0
,....,
0
,
0
,
1
(
1 1 1h
x
x
K
h
x
x
K
diag
W
Y
Y
Y
e
n x T n T
Dan                        q k k q 2 2 q 1 1 x x) (x ... x x 1. . . . . . . . . x) (x ... x x 1 x) (x ... x x 1 X ….(4)Untuk kasus survey yang berskala besar dimana X telah dikelompokkan atas Xi yang berbeda
satu sama lain dengan frekuensi ni
atau dengan proporsi pi maka
(Bellhouse and Stafford,2001) menduga parameter
0,
1,...
q dengan
ˆ
0,
ˆ
1,...
ˆ
q yang dapat diperoleh dengan meminimumkan fungsi: h h x x K x x x x y p q i i q i i k i i{ˆ ( ) .... ( )} (( )/ )/ ˆ 0 1 1      
………...…(5) terhadap
0,
1,...
q. Persamaan (5) adalah modifikasi dari persamaan (2) dengan menambahkan komponen pi. Selanjutnya fungsi kernel K(t)merupakan fungsi simetrik dengan:
K
(
t
)
dt
1
,
tK
(
t
)
dt
0
t
K
(
t
)
dt
0
2 dan
K
t
dt
K
R
(
)
[
(
)]
2 ...(6)h dalam persamaan (2) adalah lebar jendela dari kernel. Dalam hal meminimumkan (5) untuk mendapat-kan pendugaan regresi polinomial lokal terdapat dua kemungkinan untuk pengelompokan pada X yaitu, pertama adalah pengelompokan berdasarkan presisi data sedemikian hingga
y
ˆ
idihitung berdasarkan setiap hasil dari x. Kedua, adalah dengan mengelompokkan data berdasarkan ”keragaman” dari pada akurasi dari data.Nilai harapan
m
ˆ
(
x
)
dan Varians (m
ˆ
(
x
)
)Pendugaan
m
ˆ
(
x
)
dan momen pertama serta kedua dapat diekspresikan dalam bentuk matriks. Vektor rerata dari nilai-nilai x yang berbeda dari populasi adalahT k
y
y
y
y
(
1,
2,....
)
dany
ˆ
adalah vector penduga dari hasil data hasil survai. Selanjutnya:x)/h)
K((x
.p
x)/h,...
K((x
p
x)/h),
K((x
p
diag
h
1
W
k k 2 2 1 1 x
(
………..(7)Matriks
W
ˆ
x adalah Wx dengan pdiganti oleh
p
ˆ
, oleh karena itu :y W X ) X W (X e (x) m x T x 1 x x T x T ˆ ˆ ˆ ˆ   ,….(8)
5 y W X ) X W (X e (x) m x T x 1 x x T x T   ) ˆ ( p E ..(9)
Dimana Ep menyatakan nilai harapan berdasarkan rancangan sampling. Persamaan (8) adalah penduga pemulus
m(x ) sehingga
m
ˆ
(
x
)
juga merupakan penduga dari m(x ). Selanjutnya:y
y
E
p(
ˆ
)
danE
p(
W
ˆ
x)
W
x untukukuran sampel n yang besar. Selanjutnya varians
m
ˆ
(
x
)
diperoleh dengan menggantiW
ˆ
x
W
x
A
ˆ
dimanaA
ˆ
W
ˆ
x
W
x. Jika digunakan dua suku pertama dari fungsi...
)
(
I
B
1
I
B
B
2
B
3
..maka dengan cara yang sama diperoleh varians
m
ˆ
(
x
)
adalah sebagai berikut:e
X
W
X
X
VW
W
X
X
W
X
e
x
m
V
x x T x x x x T x x x T x T p 1 1(
)
)
(
))
(
ˆ
(
 
……….………...(10) DugaanV
ˆ
pm
(
x
)
diperoleh dengan substitusiV
ˆ
dari hasil survey untuk menggantikan V pada persamaan (10)3. Contoh Untuk Model Pengeluaran Rumah Tangga dalam Susenas Jawa Timur.
1) Tentang Susenas Jawa Timur Susenas atau Survei Sosial Ekonomi Nasional merupakan salah satu kegiatan rutin BPS tiap tahun. Survei ini telah terlaksana sejak tahun 1963 dan sejak tahun 1992 data yg dikumpulkan melalui Susenas terbagi dalam 2 jenis; data kor (keterangan pokok) dan data modul (keterangan khusus). Data
modul dikumpulkan bersamaan dengan data kor, dimana jenis modul yg ditanyakan bergantian untuk tiap tahunnya.
Untuk Susenas 2008 jumlah responden ditingkatkan menjadi 1,2 juta rumah tangga dengan tujuan meningkatkan akurasi dan prediksi sampai ke tingkat kecamatan. Tujuan utama pengumpulan data Susenas 2008 adalah tersedianya data tentang kesejahteraan masyarakat dalam hal pendidikan, kesehatan, dan kemampuan daya beli. Khusus untuk propinsi Jawa Timur, jumlah sampel yang digunakan sekitar 29500 rumah tangga.
Penarikan contoh dalam survai Susenas menggunakan rancangan sampel dua tahap untuk daerah perkotaan dan tiga tahap untuk daerah pedesaan. Untuk daerah perkotaan, wilayah dibagai atas blok sensus dan pemilihan blok sensus dengan cara linear systematic
sampling. Selanjutnya dari setiap
blok sensus diambil sampel sebanyak 16 rumah tangga. Sedangkan untuk daerah pedasaan pemilihan sampel dilakukan dengan cara memilih kecamatan propotional to size
dengan size banyaknya runah tangga di kecamatan.
Tahap kedua dipilih blok sensus di tiap kecamatan secara linear
systematic sampling. Dalam tiap
blok sensus dipilih sampel 16 rumah tangga secara linear systematic
sampling. Pengumpulan data di tiap
rumah tangga dilakukan dengan wawancara dengan responden dengan menggunakan kuisioner.
6 Salah satu karaketeristik penting untuk mengukur tingkat kesejahteraan masyarakat adalah variable pengeluaran rumah tangga dimana pengeluaran rumah tangga total terbagi atas dua komponen yaitu pengeluaran makanan dan pengeluaran non makanan. Rasio pengeluaran makanan terhadap pengeluaran non makanan sering digunakan untuk mengetahui tingkat kesejahteraan rumah tangga. Rumah tangga miskin umumnya memiliki rasio pengeluaran makanan /non makanan diatas sangat tinggi.
Diasumsikan bahwa sampel sebesar 29950 responden cukup representative untuk mewakili kondisi social ekonomi masyarakat Jawa Timur tahun 2006. Gambar 1 menunjukkan bahwa distribusi pengeluaran rumah tangga total, untuk makanan dan non makanan cenderung miring kekiri, artinya lebih banyak rumah tangga yang memilki pegeluaran rumah tangga rendah. Demikian juga distribusi rasio pengeluaran makanan / non makanan yang ditunjukkan oleh Gambar 2, terlihat lebih banyak rumah tangga di Jawa Timur yang memiliki rasio pengeluaran tinggi. Gambar 3 menunjukkan bahwa rumah tangga yang lebih kaya memiliki rasio pengeluaran makanan /non makanan rendah. Sebagai contoh rumah tangga yang memiliki pengeluaran rumah tangga di atas 5 juta akan memiliki rasio pengeluaran makanan/non makanan hanya sekitar 0,5, sedangkan rumah tangga yang memiliki pengeluaran rumah tangga diiatas 10 juta memiliki rasio
pengeluaran makanan/non makanan sekitar 0.1
Pengeluaran non makanan
32 00000 0.0 30 00000 0.0 28 00000 0.0 26 00000 0.0 24 00000 0.0 22 00000 0.0 20 00000 0.0 18 00000 0.0 16 00000 0.0 14 00000 0.0 12 00000 0.0 10 00000 0.0 80 00000 .0 60 00000 .0 40 00000 .0 20 00000 .0 0.0 30000 20000 10000 0 Std. Dev = 550520.7 Mean = 408357.6 N = 29950.00 Pengeluaran makanan 48 00 00 0.0 44 00 00 0.0 40 00 00 0.0 36 00 00 0.0 32 00 00 0.0 28 00 00 0.0 24 00 00 0.0 20 00 00 0.0 16 00 00 0.0 12 00 00 0.0 80 00 00.0 40 00 00.0 0.0 14000 12000 10000 8000 6000 4000 2000 0 Std. Dev = 258467.7 Mean = 475633.5 N = 29950.00
Pengeluaran rumah tangga
3200 0000 .0 3000 0000 .0 2800 0000 .0 2600 0000 .0 2400 0000 .0 2200 0000 .0 2000 0000 .0 1800 0000 .0 1600 0000 .0 1400 0000 .0 1200 0000 .0 1000 0000 .0 8000 000.0 6000 000.0 4000 000.0 2000 000.0 0.0 30000 20000 10000 0 Std. Dev = 711664.0 Mean = 883991.1 N = 29950.00
Gambar 1. Distribusi Pengeluaran Rumah Tangga (makanan, non makanan, total)
7 Gambar 2.
Scatter Plot rasio pengeluaran
makanan/non makanan/non makanan
Gambar 3. Scatter Plot rasio makanan vs pengeluaran RT total
2) Pendekatan Regresi Plinomial Lokal untuk Model Pengeluaran Rumah Tangga.
Data Susenas yang terdiri dari 29950 responden dikelompokkan berdasarkan pengeluaran rumah tangga dimana pengeluaran rumahtangga memiliki rentang Rp 67.000,- sampai Rp 32.971.605,- per bulan.
Pengeluaran rumah tangga dibagi atas interval dengan selang Rp
200.000,- sehingga kelas interval pertama adalah 0-Rp 200.000,-, kedua antara Rp 200.000,- -
Rp 400.000,- dan seterusnya. xi
adalah nilai tengah tiap kelas interval. ni adalah jumlah data yang masuk pada kelas interval ke i dan pi
adalah ni/29950.
Sedangkan
y
ˆ
iadalah rata-rata rasio pengeluaran makanan/ non makanan pada interval ke-i. Karena terdapat beberapa sel yang tidak terisi maka jumlah interval (xi) untuk data Susenas ini akhirnya hanya ada 51 data. Contoh struktur data dapat dilihat pada Tabel 1 dan scatter plot yang menunjukkan hubungan antara pengeluaran rumah tangga (x) dengan rasio pengeluaran makanan/non makanan (y) dapat dilihat pada Gambar 4.Tabel 1.
Contoh Struktur Data setelah dikelompokkan
Gambar 4 dibawah menun-jukkan bahwa hubungan kedua
n Proporsi xi yi (bar) 418 0.013957 100 2.1806 3638 0.121469 300 2.12595 6965 0.232554 500 2.10661 6407 0.213923 700 1.88940 ……. ………… …..….. ……… …….. ………… ……… ……… 1 3.34 E-05 33700 0.01169
8 peubah tersebut berbentuk eksponensial. Pengeluaran rumah tangga sampai dengan Rp 10.000.000 memiliki hubungan linier negatif dengan rasio pengeluaran makanan/ non makanan. Selanjutnya pengeluaran rumah tangga diatas Rp 10.000.000 memiliki laju peneurunan yang lambat sekitar angka 1-3%
Pemilihan model regresi polynomial local yang terbaik dilakukan dengan merubah-ubah nilai span mulai dari 0.2 sampai 0.9. Model ini dibangun dengan memasukkan bobot pi (proporsi RT
pada setiap nilai pengeluaran rumah tangga yang telah dikelompokkan, xi).
0 5000 10000 15000 20000 25000 30000 35000 Xi 0.0 0.5 1.0 1.5 2.0 Yi
Gambar 4. Scatter Plot Pengeluaran RumahTangga VS Rasio
makanan/non makanan
Tabel 2 menunjukkan berba-gai alternative model dengan berbagai nilai Span. Semakin tinggi span maka derajat dari model regresi polynomial makin turun. Model yang terbaik adalah yang memiliki nilai dugaan residual paling kecil. Terlihat bahwa Span sebesar 0.3 adalah yang terbaik karena memberikan nilai residual terendah.
Gambar 5 (a) adalah model regresi polynomial local terbaik untuk data pengeluaran rumah tangga (dengan Span sebesar 0,3). Gambar 5(a) menunjukkan bahwa grafiknya berbentuk eksponensial sampai batas batas pengeluaran sebesar Rp10.000.000,-. Selanjutnya berbentuk kuadratik setelah batas Rp 10.000.000,-.
Jika digunakan pendeketan regresi polynomial local tanpa bobot pi dan dengan menggunakan Span
sebesar 0.3 maka bentuk modelnya dapat dilihat pada Gambar 5(b) yang terlihat sangat mirip dengan Gambar 5(a). Namun demikian model tanpa tersebut memberikan nilai residual
scale estimate yang lebih tinggi
(yaitu sebesat 0.1002) dibandingkan dengan model yang menggunakan bobot (hanya sebesar 0.0012)
4. Kesimpulan
Untuk survai yang berskala besar semacam Susenas dibutuhkan penyederhanaan informasi dengan mengelompokkan data berdasarkan peubah penjelas yang sudah terklasifikasi. Penyederhadaan dengan mengelompokkan tersebut beresiko pada hilangnya informasi tentang variabilitas yi di tiap
kelompok xi
Dugaan
y
ˆ
i, dalam kasus ini adalah rata-rata rasio pengeluaran makanan/non makanan sangat cocok9 digunakan jika distribusi dari tiap kelompok (xi) adalah normal.
Jika bentuk distribusi dari yi
tidak normal dapat digunakan penduga lain misalnya median
Dalam kasus model
pengeluaran rumah tangga Jawa Timur berdasarkan data Susenas tahun 2006, model terbaik diperoleh degan menggunakan Span 0.3, dimana nilai rasio pengeluaran makanan/non makanan menurun secara eksponensial sampai pengeluaran total sebesar Rp 10.000.000 dan berbentuk kuadratik setelah batas pengeluaran Rp 10.000.000,-. Pada kausus ini dengan memasukkan komponen bobot pada fungsi polynomial diperoleh model yang lebih baik karena memiliki residual yang lebih rendah
Ada kemungkinan bahwa cara pengelompokkan yang berbeda akan memberikan sebaran yi (misalnya
dalam kasus ini adalah rasio pengeluaran makanan/non makanan) yang berbeda. Oleh karena itu model yang akan diperoleh juga akan berbeda bentuk. Dibutuhkan metode khusus untuk menentukan kelompok terbaik sehingga menghasilkan model yang paling represetatif terhadap data asli.
Xi V5 0 10000 20000 30000 0. 0 0. 5 1. 0 1. 5 2. 0 2. 5
(a) Menggunakan bobot pi
Xi V5 0 10000 20000 30000 0. 0 0. 5 1. 0 1. 5 2. 0 (b) Tanpa bobot pi Gambar 5.
Regresi polynomial local pengeluaran rumah tangga total vs rasio pengeluaran makanan/non makanan
1 Pustaka
Bellhouse ,D.R and Stafford,J.E, Local Polynomial Regression in
Complex Survey, Survey
Methodology, 2001
Breidt, F.J., and Opsomer, J.D. (2000). Local polynomial regression estimators in survey sampling. Submitted for publication.
Fuller, W.A. (1975). Regression analysis for sample survey. Sankhyā, C, 37, 117132.
Green, P.J., and Silverman, B.W. (1994). Nonparametric Regression
and Generalized Linear Models.
Hartley, H.O., and Rao, J.N.K. (1968). A new estimation theory for sample surveys. Biometrika, 55, 547557.
Hardle, W. (1990). Applied
Nonparametric Regression.
Cambridge University Press: Cambridge.
Hartley, H.O., and Rao, J.N.K. (1969). A new estimation theory for sample surveys, II. In New
Developments in Survey Sampling,
London: Chapman and Hall.
Eds. N.L. Johnson and H. Smith). New York: John Wiley & Sons, Inc. InterScience, 147169.
Korn, E.L., and Graubard, B.I. (1998). Scatterplots with survey data.
American Statistician, 52, 5869. Span 0.2 0.3 0.4 0.5 0.6 0.7 0.75 0.8 0.9 Equivalent Number of Parameters 16 11.2 8.6 7.3 6.1 5.2 5.4 5 4.6 Residual Scale Estimate 0.00206 0.0012 0.0019 0.003 0.0026 0.003 0.1229 0.003 0.01 Residual:  Min  1st Q  Median  3rd Q  Max -0.2035 -0.0406 -0.0009 0.0183 0.361 -0.920 -0.069 -0.014 -0.035 0.287 -0.541 -0.666 -0.025 -0.050 0.248 -0.294 -0.085 -0.028 0.0653 0.2117 -0.275 -0.055 -0.003 0.0905 0.3073 -0.25 -0.051 0.019 0.0997 0.264 -0.174 -0.065 -0.011 0.076 0.307 -0.245 -0.060 0.0172 0.1187 0.2922 -0.22 -0.07 0.030 0.179 0.369 Tabel 3.
2 Statistik Kesejahteraan Rakyat, BPS, 2008Vol 27, No 2, pp. 197-2003, Statistics Canada, Catalogue No 12-001