Permodelan Proporsi Pengeluaran Makanan
Rumah Tangga di Kota Jayapura
Pendekatan Regresi Kuantil Aditif
Doni Hermawan1, Yudhie Andriyana2, Sri Winarni3Prodi Magister Statistik UNPAD1
Prodi Magister Statistik UNPAD 2
Prodi Magister Statistik UNPAD 3
ABSTRAK
Pendekatan nonparametrik digunakan jika hubungan antara dua variabel sulit ditentukan (masalah prespesifikasi
.
Regresi kuantil merupakan perluasan dari regresi median (pada kuantil 0,5) pada berbagai nilai kuantil. Metode ini dapat digunakan mengukur efek variabel prediktor tidak hanya di pusat sebaran data, tetapi juga pada bagian atas atau bawah ekor sebaran. Analisis ini sangat berguna dalam penerapan, khususnya bila nilai ekstrim merupakan permasalahan penting. Pada penelitian dikembangan model regresi kuantil aditif dengan pemulus spline. Data yang digunakan penelitian ini adalah data Susenas 2016 Kota Jayapura. Pemodelan diawali dengan penentuan parameter pemulus spline, kemudian dilanjutkan dengan model regresi kuantil aditif, dan evaluasi model. Hasil penelitian menunjukkan Mean Square Error terkecil diperoleh dari model regresi kuantil aditif dengan pemulus spline sebesar 145,561 dibandingkan dengan regresi kuantil tanpa pemulus.Kata kunci: regresi kuantil, aditif, SIC, konsumsi
1. PENDAHULUAN
Konsep konsumsi berkaitan dengan pembelanjaan yang dilakukan oleh rumah tangga atas barang dan jasa dengan tujuan untuk memenuhi kebutuhan dari orang-orang yang melakukan pembelanjaan tersebut. Dalam Survei Sosial Ekonomi Nasional (SUSENAS) yang dilakukan oleh Badan Pusat Statistik (BPS), terdapat dua jenis pengelompokan pengeluaran konsumsi rumah tangga, pengelompokan konsumsi makanan dan non makanan. Pola konsumsi khususnya konsumsi rumah tangga untuk makanan menjadi salah satu faktor penentu tingkat kesehatan dan produktivitas rumah tangga serta dapat dijadikan indikator sosial ekonomi rumah tangga. Semakin tinggi pengeluaran makanan dari porsi pendapatan maka rumahtangga tersebut dapat dikategorikan miskin. Begitu pula sebaliknya bila porsi pengeluaran untuk bukan makanan tinggi dari pada makanan maka rumah tangga tersebut dikategorikan tidak miskin.
Dalam upaya mempelajari pola pengeluran konsumsi rumah tangga, maka perlu diketahui faktor-faktor apa saja yang mempengaruhinya. Data BPS tahun 2016 menunjukan bahwa di Kota Jayapura persentase pengeluaran konsumsi makanan masih lebih besar dari pengeluaran bukan makanan dan merupakan yang terbesar dari provinsi lainnya di Indonesia, hal ini tentu saja menarik untuk diteliti untuk melihat kaitan faktor lain yang mempengaruhi pola pengeluaran konsumsi makanan di Kota Jayapura Provinsi Papua.
Salah satu metode untuk menganalisis data adalah analisis regresi. Analis merupakan salah satu alat statistik yang banyak digunakan untuk mengetahui hubungan antara dua variabel acak atau lebih. Regresi mean adalah metode statistik untuk menjelaskan hubungan antara variabel respon dan variabel prediktor berdasarkan kecenderungan sentral data (mean) dari variabel respon Pendekatan standar penentuan model regresi mean dan pendugaan parameternya adalah
metode kuadrat terkecil (OLS). Estimasi parameter dalam regresi mean (dengan Ordinary Least Square atau OLS) menghasilkan masalah jika kita menerapkannya pada data dengan asimetris, skewness, atau mengandung outlier. Oleh karena itu, metode alternatif perlu digunakan untuk jenis data tersebut, misalnya metode regresi kuantil. Regresi kuantil adalah teknik yang kuat untuk outlier.
Model ini dapat menjelaskan hubungan antara variabel respon dan variabel prediktor, tidak hanya pada kecenderungan pemusatan data (median) tetapi juga pada berbagai kuantil, untuk mendapatkan informasi lengkap tentang hubungan tersebut.
Regresi kuantil dikemukakan oleh Koenker dan Bassett pada tahun 1978 (Djuaridah, 2009), merupakan perluasan model regresi pada kuantil bersyarat variabel respon. Pendekatan ini memungkinkan menduga fungsi kuantil dari sebaran bersyarat respon pada berbagai nilai kuantil yang diinginkan. Setiap kuantil mencirikan titik tertentu (pusat atau ekor) dari sebaran bersyarat. Dalam penelitian ini, regresi kuantil dengan lebih dari satu variabel prediktor dikembangkan dengan pendekatan nonparametrik yaitu dengan smoothing spline.
2. METODE PENELITIAN
Regresi Kuantil
Regresi kuantil sangat baik digunakan pada sebaran data yang berdistribusi asimetris, padat pada ujung sebaran data, maupun terdapat outlier, karena estimator yang dihasilkan akan lebih efisien [1]
Misalkan
F
yο¨ ο©
y
merupakan fungsi kumulatif dari data set {π¦1, π¦2, π¦3, β¦ , π¦π}, maka dapat dituliskanπΉπ¦(π¦) = π(π β€ π¦) = π
Untuk π β [0,1], kuantil ke-π dari y yang didasarkan pada fungsi objektif πΏ1 (loss-function), menunjukan lokasi-lokasi khusus dari suatu distribusi. Fungsi πΏ1 didefinisikan
ππ¦(π) = πΉπ¦β1(π) inf{π: πΉπ(π¦) β₯ π}
Secara umum kuantil ke-π dari Y dapat diekspresikan dengan meminimumkan ππ(π) = ππππππππΈ[ππ(π β π)]
Dengan fungsi ππ(. ) disebut sebagai βcheck-functionβ yang didefinisikan ππ= {β(1 β π)π§ yang lainnyaππ§ jika z > 0
maka untuk memperoleh penduga regresi kuantil dapat dilakukan dengan meminimumkan fungsi tujuan:
πππ
π½ πΈ[ππ(π β πππ½)] (1)
Misalkan kita memiliki sebanyak π observasi yang i.id.
(π11, π12, β¦ , π1π, π1), β¦ , (ππ1, ππ2, β¦ , πππ, ππ)
dari (π11, π12, β¦ , π1π, π) maka fungsi tujuan diatas dapat ditulis dalam bentuk empiris: πππ
π½ 1πβ ππ(π β π ππ½) π
π=1 (2)
Metode regresi kuantil smoothing splines merupakan pemodelan regresi yang mengestimasi kurva tidak hanya pada ukuran pemusatan (bersyarat median) variabel respon, namun pada berbagai kuantil dengan menggunakan teknik smoothing splines. Solusi dari regresi kuantil smoothing splines adalah dengan meminimumkan
βππ=1ππ(π¦πβ π(π₯π))+ π β« |π01 β²β²(π₯)|ππ₯ [7]
Dimana ππ(π’) = (π β πΌ(π’ < 0))π’ adalah βCheck functionβ dari Koenker dan Bassett (1978). Disini parameter π β [0,1] mengontrol βquantile of interestβ dan π β π + mengontrol pemulusan hasil dari estimasi. Dalam Eubank (1988) and Utreras (1981) pada kasus median π1/2(π’) = |π’|. Dengan 0 = π₯0< π₯1< β― < π₯π< π₯π+1= 1, dimana π₯π adalah titik knot dan πβ²β² adalah fungsi kontinu dalam selang [0,1] dan berupa splines linier natural dengan bentuk fungsi:
π(π₯) = {πππ+ ππ(π₯ β π₯π); π₯ β [π₯π, π₯π+1) 0+ π0(π₯ β π₯1); π₯ β [π₯0, π₯1) dengan π = 1, β¦ , π dan koefisien didefinisikan:
ππ = π¦π ππ =
ππ+1β ππ π₯π+1β π₯π
Jika βπ= π₯π+1β π₯π, π = 1, β¦ , π β 1, maka koefisien ππ dapat juga ditulis: ππ =ππ+1β ππ
βπ
dengan memperhatikan constraint, maka π0 = π1; π0 = π1; dan ππβ1= ππ, maka: π(π₯π+1) = ππ+ ππβπ = ππ+1
Fungsi objektif kuantil ke-ππ atau πΏ1 untuk regresi kuantil smoothing splines didefinisikan: min βππ=1ππ(π¦πβ π((π₯π))+ π βπβ1π=1|πβ²(π₯π+1) β πβ²(π₯π) |
dengan πΏ1πππ’πβπππ π pada persamaan diatas didefinisikan sebagai: πΏ1πππ’πβπππ π = β|πβ²(π₯π+1) β πβ²(π₯π) |
π
π=1
= π(πβ²)
Fungsi obyektif kuantil atau πΏ1 mempunyai sifat tidak dapat diturunkan/diminumkan (not differentiable) pada titik nol, sehingga tidak diperoleh solusi yang eksplisit. Oleh sebab itu, solusi kuantil dapat diperoleh dengan mengubah fungsi πΏ1 ke dalam bentuk sistem persamaan linier yang dapat dipecahkan dengan linier programing.
Koenker et al. (1994) and Li et al. (2007) mengusulkan Bayesian Information Criterion (BIC) or Schwarz Information Criterion (SIC) sebagai kriteria dalam pemilihan parameter pemulus (π) pada regresi kuantil.
Regresi Kuantil Aditif
Regresi nonparametrik biasa disebut sebagai scatterplot smoothing karena dalam aplikasinya dilakukan pencarian kurva berdasarkan scatterplot dari variabel y terhadap x. Tetapi ketika ada lebih dari satu variabel prediktor maka menjadi hal yang sulit untuk melakukan prediksi model berdasarkan scatter plot. Model dengan lebih dari satu variabel prediktor ini disebut model regresi aditif, dengan bentuk umum adalah
π¦ = π½0+ π1(π₯1) + π2(π₯2) + β― + ππ(π₯π) + π
Metode model kuantil aditif merupakan permodelan regresi yang mengestimasi kurva tidak hanya pada ukuran pemusatan (bersyarat median) dari variabel respon, namun juga pada berbagai ukuran kuantil dengan menggunakan fungsi pemulus smoothing splines pada masing-masing variabel prediktor. Menurut Koenker, (2011) model kuantil aditif dalam bentuk conditional kuantil umumnya dapat dituliskan
Dimana ππ merupakan fungsi pemulus yang kontinyu, dan solusi untuk model kuantil aditif diperoleh dengan meminimumkan:
πππ
(π0, π) β ππ(π¦πβ π₯πππ0β β ππ(π§ππ)) + π0βπ0β1+ βπ½π=1πππ(πβ²(π§))
dimana ππ(π’) = π’(π β πΌ(π’ < 0)) adalah fungsi objectif kuantil, βπ0β1= βπΎπ=1|π0π| dan π(πβ²(π§)) adalah total variasi dari derivative atau gradient dari fungsi g. Kemudian dapat dinyatakan sebagai
π(πβ²(π§)) = β«βπ"(π§)βππ§
Dalam pendekatan kuantil, nilai π optimal diperoleh dari nilai SIC paling minimum dengan menggunakan persamaan. Dinotasikan residual yang mempertimbangkan kuantil ke-π,
ππΌπΆ(π) = πππππΜ(π) +1
2π(π)log (π) (4) dimana πΜ(π) = πβ1β π
π(π¦πβ πΜ(π₯, π§)) π
π=1 dan π(π) adalah derajat bebas efektif dari fit model πΜ(π₯, π§) = π₯πππΜ0+ β ππ
π½
π=1 (π§)
Data yang digunakan dalam penelitian ini adalah data yang bersumber dari Survei Sosial Ekonomi Nasional (Susenas) 2016 Kota Jayapura. Set data yang digunakan merupakan data rumah tangga sebanyak 429 rumah tangga. Variabel-variabel yang digunakan dalam penelitian ini adalah Proporsi pengeluaran rumah tangga untuk konsumsi makanan sebagai variabel respon sedangkan variabel prediktor adalah jumlah anggota rumah tangga dan rata-rata lama sekolah.
Langkah-langkah Penelitian
Langkah-langkah dalam penelitian ini mencakup:
1. Membuat scatter plot antar variabel respon dan variabel prediktor
2. Pengecekan outlier pada hasil scatter plot dan bila terdapat outlier maka digunakan kuantil.
3. Menentukan parameter smoothing (Ξ»). Pada penelitian ini digunakan fungsi smoothing Splines dengan parameter smoothing (Ξ») ditentuan berdasarkan nilai Schawrz Information Criterion (SIC) yang terkecil pada masing-masing prediktor.
4. Menaksir kurva regresi kuantil aditif berdasarkan nilai parameter penghalus (Ξ») yang optimal pada titik kuantil pada Ο = 0,5 dengan acuan nilai AIC pada model aditif secara keseluruhan.
5. Membandingkan nilai Mean Square Error
3. HASIL DAN PEMBAHASAN
Data persentase pengeluaran rumah tangga memiliki outlier, hal ini dapat dilitah pada gambar 1 pada bagian boxplot terdapat titik-titik di bawah dan di atas garis garis (whisker). Selanjutnya data dilakukan pengecekan normalitasnya dengan menggunakan normal QQ plot.
Gambar 1. Plot Data
Normal Q-Q Plot merupakan alat deteksi sederhana yang dapat menunjukkan residual berdistribusi normal atau tidak. Semakin banyak residual (yang ditunjukkan dengan bulatan-bulatan kecil) menyinggung garis linier atau garis lurus, maka semakin besar kemungkinan bahwa residual berdistribusi normal. Deteksi normalitas dengan normal Q-Q Plot tergantung subjektifitas peneliti, oleh karena itu perlu dilakukan uji normalitas dengan alat statistik seperti uji Shaphiro-Wilk.
1. Uji Shaphiro-Wilk.
Uji Shapiro-Wilk yang dilakukan di dalam penelitian ini melalui pengujian hipotesis sebagai berikut:
π»0 : residual berdistribusi normal π»1: residual tidak berdistribusi normal
Apabila πβπ£πππ’π yang dihasilkan dari statistik uji lebih besar dari nilai taraf signifikansi πΌ (0.05), maka tidak cukup bukti untuk menerima π»0artinya residual berdistribusi normal dan asumsi normalitas terpenuhi. Namun jika πβπ£πππ’π yang dihasilkan dari statistik uji lebih kecil dari nilai taraf signifikansi πΌ (0.05) maka π»0 ditolak artinya residual tidak berdistribusi
normal dan asumsi normalitas tidak terpenuhi.
Pengujian asumsi normalitas dilakukan dengan uji Saphiro Wilks menghasilkan nilai statistik S-W sebesar 0,98827 dan nilai p-value kurang dari πΌ (0.05), artinya residual tidak berdistribusi normal dan asumsi normalitas tidak terpenuhi sehingga pendekatan parametrik tidak dapat dilakukan.
Pada regresi kuantil aditif pada nilai median dilakukan pencarian parameter lamda optimum untuk masing-masing prediktor dengan menggunakan kriteria nilai SIC secara individual. Diperoleh nilai masing-masing lambda adalah 1,4 dan 30,8 dapat dilihat pada gambar 2.
Nilai lambda ini digunakan sebagai nilai awal untuk prespesifikasi model regresi kuantil aditif. Nilai AIC digunakan sebagai ukuran untuk memilih model terbaik. Nilai AIC terkecil diperoleh sebesar 3369.748 dengan lambda optimal masing-masing prediktor adalah 4,61 dan 25,57.
Gambar 2. Plot Pemilihan lamda
Output r dengan menggunakan package Quantreg diperoleh sebagai berikut
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 46.70 3.01 15.51 <2e-16 *** ---
Signif. codes: 0 β***β 0.001 β**β 0.01 β*β 0.05 β.β 0.1 β β 1 Approximate significance of qss terms:
EDF Lambda Penalty F value Pr(>F) x1 1 4.6 0.361 17.38 3.72e-05 *** x2 1 25.6 0.192 102.71 < 2e-16 *** ---
Signif. codes: 0 β***β 0.001 β**β 0.01 β*β 0.05 β.β 0.1 β β 1 Quantile Fidelity at tau = 0.5 is 1984.82
Gambar 3. Plot Efek dari Masing-masing prediktor.
Perbandingan Regresi Kuantil Tanpa Pemulus dan Regresi Kuantil Aditif
Jika dibandingkan antara regresi kuantil tanpa pemulus dan regresi kuantil aditif dengan pemulus spline pada pendekatan median, regresi regresi kuantil aditif pendekatan median mempunyai nilai MSE yang lebih kecil dibandingkan dengan regresi regresi kuantil tanpa pemulus.
Tabel 1. Mean Square Error pada Pendekatan Dua Model Regresi Kuantil
Model Regresi MSE
(1) (2)
Regresi Kuantil 146,495
Regresi Kuantil Aditif 145,561
4. KESIMPULAN
Pada penelitian ini disimpulkan bahwa kinerja regresi kuantil aditif dengan pemulus spline pada pendekatan median lebih optimal dibandingkan dengan regresi kuantil tanpa pemulus. Ini dibuktikan perbandingan nilai MSE regresi kuantil aditif dengan pemulus spline pada pendekatan median lebih kecil daripada MSE regresi kuantil tanpa pemulus. Ini dikarenakan adanya pemulus yang dapat mengikuti sebaran pola data dengan lebih baik.
5. DAFTAR PUSTAKA
[1] Koenker R, Machado AF. 1999. Goodness of Fit and Related Inference Processes for Quantile Regression. JASA 94: 1296β1310..
[2] Koenker R. 2011 Additive models for quantile regression: Model selection and confidence bandaids. Brazilian Journal of Probability and Statistics. Vol. 25, No. 3, 239β262
[3] Anik Djuraidah. 2009. Regresi Kuantil Spline Untuk Pemodelan Nilai Ekstrem Pada Pencemar Udara Pm10 Di Kota Surabaya. Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember.
[4] Andriyana, Yudhie. 2015. P-Splines Quantile Regression in Varying Coefficient Models. Dissertation. KU Leuven.
[5] Hastie, T.J. and R.J. Tibshirani. 1990. Generalized Additive Models. Chapman and Hall, London.
[6] Hudoyo, L.P. 2017. Pemodelan Hubungan Antara Rata-Rata Lama Sekolah dan Pengeluaran Rumah Tangga Menggunakan Constained B-Splines (COBS) Pada Regresi Kuantil. Tesis: Tidak Dipublikasikan. Bandung: Universitas Padjadjaran.
[7] Koenker, R., Ng, P.T, and Portnoy, S.L. 1994. Quantile Smoothing Splines. Biometric, 81, 673β680.
[8] Mulyani, Sri. 2017. Pemodelan Hubungan Indeks Pembangunan Manusia dan Persentase Penduduk Miskin Menggunakan Regresi Kuantil Smoothing Splines. Tesis: Tidak Dipublikasikan. Bandung: Universitas Padjadjaran.