MODEL KLASIFIKASI RUMAHTANGGA MISKIN DENGAN
PENDEKATAN METODE MARS
Studi Kasus : Kota Surabaya Rokhana DB1, Sutikno2, Agnes Tuti Rumiati2
1
Mahasiswa S2 Statistika ITS Surabaya 2
Dosen Jurusan Statistika ITS Surabaya
Email: [email protected], [email protected], [email protected] Abstrak
Multivariate Adaptive regression Spline (MARS) merupakan pendekatan model
regresi multivariate nonparametrik nonlinier yang didasarkan pada prosedur recursive
partitioning regression (RPR) dengan menggunakan fungsi splines untuk menduga model.
Dalam penelitian ini metode MARS digunakan untuk mendapatkan model hubungan dan mengukur ketepatan klasifikasi rumahtangga miskin di Kota Surabaya. Terdapat delapan variabel yang signifikan berpengaruh pada model atau pengklasifikasian kemiskinan berdasarkan garis kemiskinan, yaitu perumahan dan fasilitas rumah tangga, biaya pendidikan, tembakau dan sirih, makanan dan minuman jadi, aneka barang dan jasa, bumbu – bumbuan, buah – buahan, telur dan susu. Model yang dihasilkan memberikan prosentase ketepatan klasifikasi sebesar 64,10%.
Kata Kunci : MARS, Klasifikasi, rumahtangga miskin
1. PENDAHULUAN
Seringkali dalam suatu permodelan regresi didapatkan pola hubungan nonlinear antara variabel dependen dan variabel independen. Multivariate Adaptive regression Spline (MARS) merupakan pendekatan untuk regresi multivariate nonparametrik yang dikembangkan oleh Friedman (1990). Pendekatan ini digunakan untuk model regresi nonlinier yang didasarkan pada prosedur recursive partitioning regression (RPR) dengan menggunakan fungsi splines untuk menduga model.
Beberapa aplikasi MARS telah digunakan untuk permodelan maupun
pengklasifikasian. Diantaranya permodelan desa teringgal di Jawa Barat oleh Hidayat (2009) dan ketepatan klasifikasi desa/kelurahan miskin di Kalimantan Timur oleh Wahyuningrum (2009). Wahyuningrum (2009) menyatakan bahwa MARS adalah salah satu metode klasifikasi yang inovatif dan relatif fleksibel untuk menyelidiki
pola hubungan antara variabel dependen dan independen tanpa asumsi terhadap bentuk fungsionalnya.
Banyak sekali indikator-indikator dan metode yang digunakan untuk mengukur kemiskinan. Beberapa versi indikator tersebut diantaranya adalah digunakan oleh BPS, BKKBN, UI, BPS Jawa Timur, Worldbank dan lain-lain. Masing-masing indikator dan metode yang dikembangkan menghasilkan perhitungan jumlah kemiskinan. BPS memiliki metode perhitungan Garis Kemiskinan (GK) untuk klasifikasi penduduk miskin. Dan data yang digunakan adalah data dari Susenas yang diadakan setiap tahun. Data ini hanya menunjukkan jumlah agregat dan persentase penduduk miskin, tetapi tidak dapat menunjukkan siapa si miskin dan dimana alamat mereka, sehingga kurang operasional di lapangan. Sehingga hasil perhitungan hanya digunakan untuk mengevaluasi pertambahan/pengurangan jumlah penduduk miskin (BPS, 2006).
Terjadi perbedaan hasil perhitungan oleh BPS dan Worldbank tahun 2008. Berdasarkan data BPS antara kurun waktu Maret 2008 ke Maret 2009 telah terjadi penurunan angka kemiskinan yaitu 34,96 juta jiwa menjadi 32,53 juta jiwa. Sedangkan menurut Worldbank angka kemiskinan Indonesia 2008 hingga 2009 mencapai 90 juta jiwa hingga nyaris 100 juta. Hal tersebut menyebabkan BPS sangat keberatan karena patokan mereka kategori kemiskinan adalah mereka yang memiliki pendapatan per kapita per hari sebesar USD2 (Nabhani, 2009). Namun banyak juga yang berpendapat tentang kurang akuratnya atas perhitungan oleh BPS itu sendiri.
Tujuan dari penelitian ini adalah untuk mendapatkan permodelan antara pengeluaran perkapita per bulan dengan pengeluaran perkapita makanan dan nonmakanan dengan metode MARS. Permodelan tersebut digunakan untuk mengukur ketepatan keakuratan klasifikasi rumahtangga miskin berdasarkan garis kemiskinan (studi kasus Kota Surabaya).
2. TINJAUAN PUSTAKA 2.1 Garis Kemiskinan
Menurut BPS, kemiskinan adalah ketidakmampuan untuk memenuhi standar dari kebutuhan dasar, baik makanan maupun bukan makanan. Standar ini disebut sebagai garis kemiskinan, yakni kebutuhan dasar makanan setara 2100 kalori energi per kapita per hari, ditambah nilai pengeluaran untuk kebutuhan dasar bukan makanan yang paling pokok (BPS, 1996).
Metode yang digunakan BPS untuk mengitung penduduk miskin adalah melalui Garis Kemiskinan (GK), yang terdiri dari dua komponen yaitu Garis Kemiskinan Makanan (GKM) dan Garis Kemiskinan Bukan-Makanan (GKBM). Penghitungan Garis Kemiskinan dilakukan secara terpisah untuk daerah perkotaan dan perdesaan. Penduduk miskin adalah penduduk yang memiliki rata-rata pengeluaran per kapita per bulan dibawah Garis Kemiskinan.
2.1 Multivariate Adaptive Regression Splines (MARS)
MARS diperkenalkan pertama kali oleh Friedman (1990) untuk pendekatan model nonparametrik antara variabel respon dan beberapa variabel prediktor pada piecewise regresi. Piecewise regresi merupakan regresi yang memiliki sifat tersegmen (terpotong-potong). MARS juga merupakan pengembangan dari pendekatan Recursive Partition Regression (RPR).
Langkah awal yang dilakukan untuk pembentukan model adalah menentukan titik-titik perubahan pola perilaku data atau yang disebut dengan titik knots. Penentuan knots pada MARS tergantung (otomatis) dari data yakni dengan menggunakan algoritma forward stepwise dan backward stepwise serta didasarkan pada nilai Generalized Cross Validation (GCV) minimum. Rumus GCV adalah sebagai berikut (Friedman, 1990). 2 1 2
)
(
1
)
(
ˆ
)
/
1
(
)
(
N
M
C
x
f
y
N
M
GCV
N i i M i (1)Dengan M jumlah basis fungsi (nonconstant basis fungsi), C(M) jumlah parameter
dalam model=trace (B(BTB)-1BT)+1, B matriks basis fungsi (nonconstant basis
fungsi)
Model MARS dapat ditulis sebagai berikut.
Km k km m k v km M m m
s
x
t
a
a
x
f
1 ) , ( 1 0 ^)
.(
)
(
(3)Atau dapt ditulis dengan
ˆ( ) ( ) ( , ) ( , , ) ... 3 2 1 0 m m m K k j i ijk K j i ij K i i x f x x f x x x f a x f (4)
Dengan a0 basis fungsi induk, am koefisien dari basis fungsi ke-m, M maksimum basis
fungsi (nonconstant basis fungsi), Km derajat interaksi, Skm = ± 1, xv(k,m) variabel
independen, dan tkm nilai knots dari variabel independen xv(k,m).
3. METODOLOGI PENELITIAN
Data dan variabel yang digunakan dalam penelitian ini adalah data Susenas 2006 Kota Surabaya. Jumlah rumahtangga dalam Susenas tersebut adalah 1120 rumahtangga. Variabel yang digunakan yaitu :
1. Variabel respon (y) klasifikasi rumahtangga berdasarkan garis kemiskinan, yaitu : 0 = total dari pengeluaran rumahtangga(makanan dan nonmakanan) perkapita
perbulan kurang dari garis kemiskinan.
1 = total dari pengeluaran rumahtangga(makanan dan nonmakanan) perkapita perbulan lebih dari garis kemiskinan.
Garis kemiskinan Kota Surabaya tahun 2006 adalah Rp. 225.738,- perkapita per bulan.
2 Variabel prediktor (x) pengeluaran rumah tangga perkapita per bulan, meliputi :
a. Pengeluaran rumah tangga makanan : padi – padian (x1), umbi – umbian (x2),
ikan (x3), daging (x4), telur dan susu (x5), sayur – sayuran (x6), kacang –
(x10), bumbu – bumbuan (x11), konsumsi lainnya (x12), makanan dan minuman
jadi (x13), minuman beralkohol (x14), dan tembakau dan sirih (x15)
b. Pengeluaran rumah tangga non makanan, meliputi : perumahan dan fasilitas
rumah tangga (x16), aneka barang dan jasa (x17), biaya pendidikan (x18), biaya
kesehatan (x19), pakaian, alas kaki dan tutup kepala (x20), barang tahan lama
(x21), pajak dan asuransi (x22), dan keperluan pesta dan upacara (x23)
Langkah analisis yang dilakukan adalah :
1. Identifikasi pola hubungan variabel-variabel dalam pengeluaran rumahtangga makanan dan nonmakanan terhadap variabel klasifikasi rumahtangga miskin. 2. Pengujian model nonlinear menggunakan uji Ramsey Resset.
3. Pembentukan model dan klasifikasi melalui metode MARS, dengan tahapan : - Menentukan titik-titik knots yang didasarkan pada nilai GCV minimum,
maksimal basis fungsi, jumlah interaksi, minimal jumlah pengamatan diantara knots atau minimum observasi (MO).
- Menduga koefisien model (a0, a1, a2,…, ak ). Model MARS yang diperoleh
dalam bentuk berikut.
x
fˆ
=a
0a
1*
BF
1a
2*
BF
2...
a
kBF
kDengan
a
0 konstanta, a1, a2,…, ak adalah koefisien basis fungsi ke-1, 2,..., kdan BF1, BF2, ..., BFk adalah basis fungsi ke-1, 2, …, k
- Menguji signifikansi model (Testing the Overall Model) dengan
menggunakan statistik uji F dan uji parameter model (uji parsial) menggunakan statistik uji t.
- Untuk hasil pemodelan dilakukan prediksi klasifikasi masing-masing kelompok berdasar-kan model yang diperoleh sehingga dapat diketahui seberapa besar ketepatan klasifikasi yang dihasilkan dari model.
4. ANALISIS DAN PEMBAHASAN
Pola hubungan antara variabel pengeluaran rumahtangga perkapita perbulan baik jenis makanan maupun nonmakanan menunjukka n pola yang
kurang jelas hubungannya. Pola hubungan tersebut dapat dilihat pada Gambar 1 dan 2. Melalui pengujian nonlinear Ramsey Resset (Tabel 1) diketahui bahwa pola hubungan tersebut adalah nonlinear, dikarenakan P-value kurang dari α = 0,05. 20000 10000 0 0 4000080000 0 2000040000 20000 0 10000 0 0 10000 0 50000 0 0 2000040000 10000 0 50000 0 0.0 0.5 1.0 100000 50000 0 20000 10000 0 80000 40000 0 80000 40000 0 200000 100000 0 40000 20000 0 30000 15000 0 200000 100000 0 40000 20000 0 100000 50000 0 40000 20000 0 40000 20000 0 1000000 500000 0 100000 50000 0 200000 100000 0 100000 50000 0 1.0 0.5 0.0 80000 40000 0 200000 100000 0 30000 15000 0 40000 20000 0 40000 20000 0 100000 0 500000 0 200000 100000 0 X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 0 X1 1 X1 2 X1 3 X1 4 X1 5 X1 y X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 y
200000 100000 0 1000 000 5000 00 0 1000 00 5000 0 0 3000 00 1500 00 0 -0.5 0.0 0.5 1000000 500000 0 800000 400000 0 100000 50000 0 200000 100000 0 300000 150000 0 300000 150000 0 0.5 0.0 -0.5 20000 0 10000 0 0 1.0 0.5 0.0 80000 0 40000 0 0 20000 0 10000 0 0 30000 0 15000 0 0 0.0 0.5 1.0 X1 6 X1 7 X1 8 X1 9 X2 0 X2 1 X2 2 X2 3 X16 y X17 X18 X19 X20 X21 X22 X23 y
Gambar 2. Matriks plot y dengan x16-x23
Tabel 1. Uji Ramsey Resset Keterangan Nilai
RESET 19.0988
df1 2
df2 771
p-value 8.025e-09
Permodelan MARS dilakukan dengan maksimum basis fungsi 15 menghasilkan GCV 0,086 dan variabel yang msuk adalah delapan. Berikut adalah model yang dihasilkan :
Y = 2.397 - 0.792670x10-05 BF2 - 0.343980x10-05 BF4 - 0.567917x10-05 BF6 - 0.453803x10-05 BF8 - 0.337976x10-05 BF9 - 0.161891x10-04 BF10 + 0.249796x10-04 BF11 + 0.563699x10-03 BF12 - 0.428135x10-05 BF14 + 0.310778x10-05 BF15 Dengan BF2 = max(0, 63900.000 – x16 ); BF10 = max(0, 15000.000 – x8 ); BF4 = max(0, 150000.000 – x13); BF11 = max(0, x11 - 500.000); BF6 = max(0, 138500.000 – x18); BF12 = max(0, 500.000 – x11 ); BF8 = max(0, 77142.859 – x15 ); BF14 = max(0, 83330.000 – x17);
Langkah selanjutnya adalah menguji signifikansi parameter pada model secara serentak (Tabel 2) dan secara parsial (Tabel 3). Hasil pengujian menunjukkan bahwa semua parameter setiap basisfungsi yang masuk dalam model signifikan berpengaruh terhadap klasifikasi rumahtangga miskin.
Variabel yang tercantum pada Tabel 4 merupakan variabel dalam model yang berpengaruh terhadap klasifikasi kemiskinan menurut besarnya skor. Variabel yang paling penting berpengaruh adalah perumahan dan fasilitas rumah tangga (x16) dengan skor 100 dan yang paling kecil berpengaruh adalah telur dan susu (x5) dengan skor 35,588.
Tabel 2 Uji Serentak Model MARS Sumber Variansi Df SS MS F-hitung P value Regresi 10 165,473 16,473 198,348 0,000 Residual 1109 92,519 0.0633 Total 1119 257,992
Tabel 3 Uji Parsial Model MARS
Parameter Estimate S.E. T-hitung P-value Constant 2.397 0.080 30.141 0,000 Basis Function 2 -0.792670E-05 0.525504E-06 -15.084 0,000 Basis Function 4 -0.343980E-05 0.314829E-06 -10.926 0,000 Basis Function 6 -0.567917E-05 0.428098E-06 -13.266 .0,000 Basis Function 8 -0.453803E-05 0.374864E-06 -12.106 .0,000 Basis Function 9 -0.337976E-05 0.118881E-05 -2.843 0.005 Basis Function 10 -0.161891E-04 0.214848E-05 -7.535 . 0,000 Basis Function 11 0.249796E-04 0.328663E-05 7.600 0,000 Basis Function 12 0.563699E-03 0.106679E-03 5.284 0,000 Basis Function 14 -.0428135E-05 0.497395E-06 -8.608 0,000 Basis Function 15 0 .310778E-05 0.545445E-06 5.698 0,000
Tabel 4. Score variabel
Variabel Skor
Perumahan dan fasilitas rumah tangga (x16) 100.000
Biaya pendidikan (x18) 87.707
Tembakau dan sirih (x15) 79.840
Makanan dan minuman jadi (x13) 71.818 Aneka barang dan jasa (x17) 55.948
Bumbu – bumbuan (x11) 53.026
Buah – buahan (x8) 47.171
Hasil pengelompokan rumahtangga miskin melalui model MARS disajikan pada Tabel 5. Prosentase ketepatan klasifikasi yang dihasilkan model adalah 64,10%, dimana jumlah kesalahan pengklasifikasian adalah 35,90%. Sejumlah 403 rumahtangga yang sebelumnya masuk klasifikasi tidak miskin, melalui model MARS masuk klasifikasi rumahtangga miskin.
Tabel 5. Ketepatan Klasifikasi yang Dihasilkan Model
Kelas aktual Prediksi kelas
Total amatan
0 1
0 717 0 717
1 403 1 403
Total prediksi 1119 1 1120
Total Persentase klasifikasi yang benar 64,10%
5. KESIMPULAN
Model yang dihasilkan dengan metode MARS adalah :
Y = 2.397 - 0.792670x10-05 BF2 - 0.343980x10-05 BF4 - 0.567917x10-05 BF6 - 0.453803x10-05 BF8 - 0.337976x10-05 BF9 - 0.161891x10-04 BF10 + 0.249796x10-04 BF11 + 0.563699x10-03 BF12 - 0.428135x10-05 BF14 + 0.310778x10-05 BF15
Terdapat delapan variabel yang signifikan berpengaruh pada model atau pengklasifikasian kemiskinan berdasarkan garis kemiskinan, yaitu perumahan dan
fasilitas rumah tangga (x16), biaya pendidikan (x18), tembakau dan sirih (x15),
makanan dan minuman jadi (x13), aneka barang dan jasa (x17), bumbu – bumbuan
(x11), buah – buahan (x8), telur dan susu (x5). Model yang dihasilkan memberikan
prosentase ketepatan klasifikasi sebesar 64,10%.
DAFTAR PUSTAKA
[BPS]. 2006. Berita Resmi Statistik. Tingkat Kemiskinan di Indonesia Tahun 2005-2006. Jakarta : BPS.
Rev. California : Department of Statistics Stanford University Stanford. Hidayat, Syarif. 2009. Pemodelan Desa Tertinggal di Jawa Barat Tahun 2005
dengan Pendekatan MARS. [Tesis]. Surabaya: Program PascaSarjana Jurusan
Statistika ITS.
Nabhani, Ahmad. 2009. BPS Keberatan Angka Kemiskinan Versi Bank Dunia. http://economy.okezone.com [Selasa, 20 Oktober 2009]
Wahyuningrum, Siti.2009. Pendekatan MARS Untuk Ketepatan Klasifikasi
Desa/Kelurahan Miskin di Kalimantan Timur Tahun 2005. [Tesis]. Surabaya: