BOOTSTRAP PADA ANALISIS REGRESI LINIER
BERGANDA BERDASARKAN PENAKSIR MINIMUM
COVARIANCE DETERMINANT
Nurul Gusriani, Firdaniza dan Elis Hertini
Jurusan Matematika FMIPA Universitas Padjadjaran Jl. Raya Bandung-Sumedang Km 21 Jatinangor 45363
E-mail: [email protected]
ABSTRAK
BOOTSTRAP PADA ANALISIS REGRESI LINIER BERGANDA BERDASARKAN PENAKSIR MINIMUM COVARIANCE DETERMINANT. Salah satu metode baru yang cukup popular dan dapat digunakan untuk memodelkan regresi linier berganda pada data yang mengandung pencilan adalah metode Minimum Covariance Determinant (MCD). Metode ini unggul karena kelebihannya dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar terhadap pencilan. Ketika berhadapan dengan sampel kecil, metode ini menjadi tidak tepat lagi penggunaannya. Paper ini mencoba membandingkan penggunaan metode MCD dan metode bootstrap MCD pada sampel kecil. Data yang digunakan adalah data sekunder mengenai kaitan antara produktivitas primer fitoplankton dengan faktor-faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung. Hasil yang diperoleh menunjukkan bahwa metode bootstrap berdasarkan penaksir MCD lebih unggul dengan nilai jumlah kuadrat residual yang kecil dan nilai koefisien determinasi yang besar dibandingkan dengan metode MCD.
Kata kunci: metode MCD, bootstrap berdasarkan penaksir MCD
ABSTRACT
BOOTSTRAP IN MULTIPLE LINEAR REGRESSION ANALYSIS BASED ON MINIMUM COVARIANCE DETERMINANT ESTIMATOR. One of the new method is quite popular and can be used for multiple linear regression model to the data containing outliers is Minimum Covariance Determinant (MCD) method. This method is superior because of its advantages can detect all outliers in the data and has a considerable robustness against outliers. When dealing with small samples, this method is no longer appropriate to use. This paper tried to compare the use of the bootstrap method of the MCD and MCD on a small sample. The data used are secondary data on the link between phytoplankton primary productivity by factors of physico-chemical water in aquaculture with floating nets. The results obtained show that the bootstrap method is based on the MCD estimator is superior to the value of small residual sum of squares and the coefficient of determination which is large compare to the methode of the MCD.
Keywords: MCD method, bootstrap based on MCD estimator
1. PENDAHULUAN
Sampai saat ini banyak penelitian yang mengkaji metode penaksiran parameter dengan pencilan pada analisis regresi. Masing-masing metode pada umumnya mempunyai kelebihan
dan kekurangannya, sehingga seiring dengan waktu, satu metode menjadi popular di masanya dan kemudian dipatahkan oleh metode lain yang punya kelebihan. Metode-metode tersebut antara lain penaksir M, Least Median Square (LMS), Least Trimmed Square (LTS), dan regresi
dengan pembobotan robust [3]. Metode baru yang cukup popular saat ini adalah Minimum
Covariance Determinant (MCD) yang
dikemukakan oleh Rousseeuw pada tahun 2004 dan dibahas lebih lanjut oleh Hubert pada tahun 2008 [1]. Kelebihan dari metode ini adalah dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar terhadap pencilan. Kelebihan lain adalah metode ini dapat digunakan pada jumlah data yang sangat besar dengan jumlah dimensi variabel yang besar pula, dengan mengembangkan algoritma FAST-MCD [4].
Berlawanan dengan kelebihan di atas, ketika penelitian berhadapan dengan sampel kecil, misalnya pada penelitian biologi, kimia, fisika, yang berkaitan dengan bahan, waktu, tenaga dan biaya, metode MCD dipertanyakan kembali, akankah metode ini menjadi metode yang unggul ketika berhadapan sampel kecil.
Masalah sampel kecil secara umum dapat diatasi dengan resampling atau bootstrap. Bootstrap merupakan metode berbasis komputer untuk menetapkan langkah-langkah ketepatan penaksiran statistik [2]. Bootstrap mendapatkan sampelnya dengan cara sampling dengan pengembalian dari sampel awal. Metode bootstrap sering digunakan pada metode lain bergantung pada masalah yang dihadapi. Salah satunya adalah bootstrap regresi yaitu metode yang digunakan untuk menyelesaikan model regresi linier, baik sederhana maupun berganda, dengan menggunakan Metode Kuadrat Terkecil pada kasus jumlah sampel yang kecil.
Pada metode lain yaitu LTS, bootstrap digabungkan untuk mengatasi masalah pencilan dan sampel kecil [6]. Hasil yang diperoleh menunjukkan bahwa metode LTS dengan bootstrap lebih unggul daripada metode LTS karena kemampuan penggunaan pada sampel kecil. Akan tetapi metode LTS masih mempunyai kelemahan yaitu hanya mengatasi pencilan pada ruang-X [1].
Berdasarkan uraian di atas, maka paper ini dibuat untuk menunjukkan apakah penaksir MCD dengan bootstrap dapat mengatasi masalah sampel kecil dan pencilan, mengingat penaksir MCD mempunyai kelebihan dibanding LTS, karena kemampuannya mendeteksi seluruh pencilan di ruang–X dan Y dan memiliki
ketahanan yang cukup besar terhadap pencilan. Hal ini akan ditunjukkan dengan membandingkan metode MCD dengan dan tanpa bootstrap melalui nilai jumlah kuadrat residual dan koefisien determinasi. Nilai jumlah kuadrat residual yang kecil dan nilai koefisien determinasi yang besar menunjukkan bahwa
metode tersebut merupakan metode yang paling unggul.
Data yang digunakan pada penelitian ini adalah data sekunder yang digunakan adalah data mengenai kaitan antara produktivitas primer fitoplankton dengan faktor-faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung [3].
2. TEORI
2.1 Metode Minimum Covariance Determinant (MCD)
Penaksir robust merupakan solusi dari Metode Kuadrat Terkecil yang peka terhadap asumsi-asumsi, salah satunya adalah pencilan [3]. Keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari karena dapat menyebabkan hal-hal sebagai berikut [5]:
a. Residual yang besar dari model yang terbentuk
b. Variansi pada data tersebut menjadi lebih besar
c. Taksiran interval semakin lebar
Dalam penaksir yang robust terhadap pencilan dikenal jarak robust dan residu robust. Jarak robust merupakan modifikasi dari jarak mahalanobis, yaitu menggantikan matriks vektor rata-rata dan matriks kovarians metode klasik dengan matriks rata-rata dan kovarians metode robust. Jarak robust diperoleh dengan rumus sebagai berikut:
T
T
T 2 * * -1 * * RD RD RD RD d = X - V X C X - V X (1) dengan : 1 RD C = invers matriks kovariansi jarak robust (k x k)
* RD
X
= matriks rata-rata tiap barisX
* jarak robust (k x 1)Residu robust merupakan error yang diperoleh dari regresi robust. Berdasarkan jarak robust dapat dikategorikan titik leverage yang lebih dapat dipercaya daripada jarak mahalanobis. Titik leverage dapat dideteksi dengan jarak robust dengan syarat sebagai berikut :
2 2 0 jika d ( ) 1 untuk lainnya RD C p Leverage (2)
Berdasarkan Hubert dkk. [1], dari residu robust dapat diketahui titik pencilan dengan kriteria standardized residual, sebagai berikut :
( ) i e C q s (3) dengan : i e = residual = MSE ( ) C q = q2,(1) q = jumlah variabel tak bebas
Untuk menentukan taksiran parameter regresi, metode MCD mencari himpunan bagian data dari matriks *
X (matriks data variabel X) dengan sejumlah h pengamatan, yaitu:
= (4) dengan n > k.
Berdasarkan persamaan (4) maka terdapat kombinasi pengamatan matriks himpunan bagian data dari matriks pengamatan
X
*sejumlah a, dengan a didefinisikan sebagai berikut:
n h
a
C
(5)Dengan demikian akan diperoleh matriks himpunan bagian data
H
b sebagai berikut:11 21 1 12 22 2 1 2 T h h k k hk x x x x x x x x x b H (6) dengan b = 1, 2, …, a.
Kemudian untuk setiap
H
b, sebut sebagaiH
bldiperoleh nilai matriks rata-rata tl dan matriks
kovarians Cl sebagai berikut:
1 . T. h * b tl H V (7)
1 T T T h * * b b Cl H V tl H V tl (8)dengan V* adalah matriks yang berukuran (hx1).
Dari persamaan (8) dapat diketahui nilai
det(Cl). Untuk
l
1
jika det(C1)0 maka dengan menggunakan persamaan (1) dapat diketahui nilai jarak mahalanobis. Nilai jarak mahalanobis yang diperoleh kemudian diurutkan dari nilai terkecil, diambil nilaid
MD sebanyak h. Identifikasi nomor pengamatan dMD terpilih. Bentuk matriks *X baru sebanyak h pengamatan, dengan elemen matriksnya berupa pengamatan pada variabel X berdasarkan identifikasi nomor pengamatan . Sebut matriks
*
X baru, sebagai Hbl dengan l l 1.
Bandingkan nilai det(Cl)dan
det(
C
l-1)
, jika: 1. det(Cl)det(Cl-1),dengan menggunakanpersamaan (1) diperoleh kembali nilai jarak mahalanobis yang baru, kemudian bentuk
*
X
baru sehingga didapat matriksH
bl baru;2. det(Cl)det(Cl-1), pengolahan data dilakukan dari awal lagi, dengan himpunan bagian data
H
bselanjutnya, sehingga didapat nilai determinanH
b lainnya. Bandingkan seluruh nilai determinan matriks kovariansi yang didapat dari himpunan bagian dataH
b, kemudian pilih yang bernilai minimum. Definisikan matriks himpunan bagian dataH
b yang memiliki nilai determinan minimum sebagaiH
MCD. Nilait
ldanC
l yang didapatH
MCD disebut sebagait
MCD danMCD
C
.Prinsip utama dalam regresi MCD adalah menghitung bobot
w
i yang ditentukan berdasarkan jarak robust . Jarak robust didapat berdasarkan hasil penghitungan dan .Pembobotan wiidirumuskan dengan ketentuan berikut:
` 1, 0, lainnya ( ) RD ii jika d C w q (9)
Berdasarkan persamaan (9) dapat dibentuk matriks
W
MCD berukuran n x n sebagai berikut:11 12 1 21 22 2 1 2 n n MCD n n nn w w w w w w w w w W (10)
dengan entri matriks wij= 0 , pada
i
j
Berdasarkan penjelasan di atas jelas bahwa metode regresi MCD merupakan salah satu penerapan dari pembobotan robust. Pembobotan robust merupakan suatu alternatif untuk memperoleh taksiran parameter yang peka terhadap pencilan. Sehingga regresi MCD dimodelkan dengan persamaan sebagai berikut:
1
MCD MCD MCD T T β X W X X W Y (11) (11) 2.2 BootstrapBootstrap adalah metode simulasi
berbasiskan data yang dapat digunakan dalam statistika. Efron dan Tibsirani [2] mengatakan bootstrap memiliki keuntungan, yaitu: (a) ketika menggunakan asumsi nonparametrik peneliti tidak harus membuat asumsi dari populasi yang mendasarinya, dan (b) apabila menggunakan asumsi parametrik bootstrap dapat memberikan jawaban yang lebih akurat. Tujuan lain adalah bila sampel kecil dan data tidak berdistribusi normal, maka bootstrap adalah solusinya. Dengan demikian bootstrap ditujukan untuk memperbaiki ukuran sampel demi keakuratan penaksiran dan mengevaluasi kebenaran penaksiran. Asumsi parametrik digunakan apabila beberapa pengetahuan tentang bentuk dari populasi yang mendasari tersedia atau dibentuk dari distribusi tertentu. Bootstrap banyak diaplikasikan dalam bidang statistika karena memiliki banyak keunggulan, diantaranya bootstrap tidak harus dibentuk dari asumsi parametrik.
Ada dua prosedur bootstrap yang dapat diterapkan pada model regresi, yaitu bootstrap pairs dan bootstrap residual. Bootstrap pairs
adalah proses resampling data pada data berpasangan xi dan yi, sedangkan bootstrap
residual adalah proses resampling pada residual yang dibangun oleh variabel bebas dan variabel tak bebas, sehingga pada pemakaiannya dapat digunakan pada model regresi linier berganda [2].
2.3 Bootstrap Residual
Prosedur pada bootstrap residual sama dengan prosedur bootstrap pada umumnya. Pada bootstrap residual bukan datanya yang mengalami resampling tetapi nilai residualnya.
Langkah-langkah prosedur bootstrap residual menurut Efron dan Tibshirani [2] adalah sebagai berikut :
1. Menghitung koefisien regresi.
2. Menghitung nilai residual
e
i
y
i
y
i 3. Mengambil sampel dari residual sebanyak nsecara acak dengan pengembalian dari
i
e
yang telah dihitung pada langkah 2 sehingga diperoleh:
*( ) *( ) *( ) *( ) 1 , 2 , ..., (12) b b b b i n e e e epada langkah ini b = 1
4. Menghitung nilai *( )b *( )b
Y = Xβ + e (12) 5. Menghitung β*( )b = X X
T
-1X YT *( )b6. Melakukan pengulangan langkah 3,4, dan 5 untuk b = 2,3,…, B
7. Menghitung nilai koefisien regresi
bootstrap: 1 1 B B b b B
*( ) *( ) β = β (13) 3. DATAData yang digunakan dalam penelitian ini adalah data sekunder mengenai produktivitas primer fitoplankton dengan faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung [3].
4. HASIL DAN PEMBAHASAN
Hasil analisis yang telah dilakukan adalah sebagai berikut ini:
Tabel 1. Nilai Koefisien Regresi untuk Data Produktifitas Primer dan Faktor-faktor Kimia dengan Metode MCD dan Metode
Bootstrap Penaksir bo b1 b2 b3 MCD -0.5855 0.0001 0.086 3E-04 B=50 -0.4120 9.7E-05 0.0554 7,2E-04 Nilai koefisien regresi untuk penaksir MCD dan bootstrap memberikan nilai yang berbeda. Untuk melihat kecocokan model akan dihitung nilai koefisien determinasi dan jumlah kuadrat residual sebagai berikut:
Tabel 2. Nilai Koefisien Determinasi dan Jumlah Kuadrat Residual untuk Data Produktifitas Primer dan Faktor-faktor Kimia dengan Metode MCD dan Metode Bootstrap Penaksir Koefisien Determinasi Jumlah Kuadrat Residual MCD 0.948238 0.0169762 B=50 0.999987089 0.000107844
Koefisien determinasi untuk penaksir MCD memberikan nilai yang lebih kecil daripada penaksir bootstrap.
Sebaliknya jumlah kuadrat residual pada penaksir MCD lebih besar daripada penaksir bootstrap. Tabel di atas menunjukkan bahwa penaksir MCD menjadi kurang tepat digunakan pada sampel kecil. Penaksir MCD harus digabungkan dengan bootstrap dengan resampling yang besar agar model yang diperoleh semakin tepat.
5. KESIMPULAN
1. Ketika dihadapkan pada sampel yang kecil, penaksir Minimum Covariance Determinant (MCD) menjadi tidak tepat untuk memodelkan data yang mengandung pencilan. Penaksir Minimum Covariance Determinant (MCD) harus dilanjutkan dengan bootstrap agar metode ini menjadi metode yang paling tepat ketika sampel yang dihadapi kecil.
2. Nilai koefisien determinasi pada metode bootstrap lebih besar daripada penaksir
MCD dan jumlah kuadrat residual metode bootstrap lebih kecil dibandingkan dengan penaksir MCD. Hasil ini menunjukkan bahwa penaksir bootstrap dengan MCD adalah metode yang paling baik.
6. UCAPAN TERIMA KASIH
Ucapan terima kasih kepada pihak Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Padjadjaran melalui Jurusan Matematika yang telah mendanai penelitian swadana ini.
7. DAFTAR PUSTAKA
1. ADERLINA, D., FIRDANIZA, GUSRIANI, G., 2011, Metode Minimum Covariance Determinant pada Analisis Regresi Linier Berganda dengan Kasus Pencilan, Prosiding Seminar Nasional Statiatika, 12 November 2011, Jurusan Statistika FMIPA-Unpad.
2. EFRON, B. AND TIBSRANI, R.J., 1993, An Introduction to the Bootstrap, Chapman and Hall, London.
3. GUSRIANI, N., FIRDANIZA, ARDELINA, D., 2011, Kajian Penaksir Bounded-Influence dan Metode Minimum Covariance Determinant pada Analisis Regresi Linier Berganda untuk Kasus Pencilan, Laporan Penelitian, Jurusan Matematika FMIPA Unpad, Bandung. 4. ROUSSEEUW, P.J & DRIESSEN K.V,
1998, A Fast Algorithm for Minimum Covariance Determinance Estimator, 5. (http://www.geo.upm.es/postgrado/CarlosLo
pez/papers/FastAlgMCD99.pdf)
6. SOEMARTINI. 2007. Pencilan (Outlier), (http:// resources.unpad.ac.id/unpad-content/.../OUTLIER(PENCILAN).pdf). 7. WILLEMS, G. AND AELST, S.V., 2005,
Fast and Robust Bootstrap for LTS, Journal of Computational Statistics & Data Analysis,
Vol. 48, No. 4.
(http://users.gent.be/~svaelts/publications/ FBR_LTS_report.pdf).