• Tidak ada hasil yang ditemukan

BOOTSTRAP PADA ANALISIS REGRESI LINIER BERGANDA BERDASARKAN PENAKSIR MINIMUM COVARIANCE DETERMINANT

N/A
N/A
Protected

Academic year: 2021

Membagikan "BOOTSTRAP PADA ANALISIS REGRESI LINIER BERGANDA BERDASARKAN PENAKSIR MINIMUM COVARIANCE DETERMINANT"

Copied!
5
0
0

Teks penuh

(1)

BOOTSTRAP PADA ANALISIS REGRESI LINIER

BERGANDA BERDASARKAN PENAKSIR MINIMUM

COVARIANCE DETERMINANT

Nurul Gusriani, Firdaniza dan Elis Hertini

Jurusan Matematika FMIPA Universitas Padjadjaran Jl. Raya Bandung-Sumedang Km 21 Jatinangor 45363

E-mail: [email protected]

ABSTRAK

BOOTSTRAP PADA ANALISIS REGRESI LINIER BERGANDA BERDASARKAN PENAKSIR MINIMUM COVARIANCE DETERMINANT. Salah satu metode baru yang cukup popular dan dapat digunakan untuk memodelkan regresi linier berganda pada data yang mengandung pencilan adalah metode Minimum Covariance Determinant (MCD). Metode ini unggul karena kelebihannya dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar terhadap pencilan. Ketika berhadapan dengan sampel kecil, metode ini menjadi tidak tepat lagi penggunaannya. Paper ini mencoba membandingkan penggunaan metode MCD dan metode bootstrap MCD pada sampel kecil. Data yang digunakan adalah data sekunder mengenai kaitan antara produktivitas primer fitoplankton dengan faktor-faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung. Hasil yang diperoleh menunjukkan bahwa metode bootstrap berdasarkan penaksir MCD lebih unggul dengan nilai jumlah kuadrat residual yang kecil dan nilai koefisien determinasi yang besar dibandingkan dengan metode MCD.

Kata kunci: metode MCD, bootstrap berdasarkan penaksir MCD

ABSTRACT

BOOTSTRAP IN MULTIPLE LINEAR REGRESSION ANALYSIS BASED ON MINIMUM COVARIANCE DETERMINANT ESTIMATOR. One of the new method is quite popular and can be used for multiple linear regression model to the data containing outliers is Minimum Covariance Determinant (MCD) method. This method is superior because of its advantages can detect all outliers in the data and has a considerable robustness against outliers. When dealing with small samples, this method is no longer appropriate to use. This paper tried to compare the use of the bootstrap method of the MCD and MCD on a small sample. The data used are secondary data on the link between phytoplankton primary productivity by factors of physico-chemical water in aquaculture with floating nets. The results obtained show that the bootstrap method is based on the MCD estimator is superior to the value of small residual sum of squares and the coefficient of determination which is large compare to the methode of the MCD.

Keywords: MCD method, bootstrap based on MCD estimator

1. PENDAHULUAN

Sampai saat ini banyak penelitian yang mengkaji metode penaksiran parameter dengan pencilan pada analisis regresi. Masing-masing metode pada umumnya mempunyai kelebihan

dan kekurangannya, sehingga seiring dengan waktu, satu metode menjadi popular di masanya dan kemudian dipatahkan oleh metode lain yang punya kelebihan. Metode-metode tersebut antara lain penaksir M, Least Median Square (LMS), Least Trimmed Square (LTS), dan regresi

(2)

dengan pembobotan robust [3]. Metode baru yang cukup popular saat ini adalah Minimum

Covariance Determinant (MCD) yang

dikemukakan oleh Rousseeuw pada tahun 2004 dan dibahas lebih lanjut oleh Hubert pada tahun 2008 [1]. Kelebihan dari metode ini adalah dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar terhadap pencilan. Kelebihan lain adalah metode ini dapat digunakan pada jumlah data yang sangat besar dengan jumlah dimensi variabel yang besar pula, dengan mengembangkan algoritma FAST-MCD [4].

Berlawanan dengan kelebihan di atas, ketika penelitian berhadapan dengan sampel kecil, misalnya pada penelitian biologi, kimia, fisika, yang berkaitan dengan bahan, waktu, tenaga dan biaya, metode MCD dipertanyakan kembali, akankah metode ini menjadi metode yang unggul ketika berhadapan sampel kecil.

Masalah sampel kecil secara umum dapat diatasi dengan resampling atau bootstrap. Bootstrap merupakan metode berbasis komputer untuk menetapkan langkah-langkah ketepatan penaksiran statistik [2]. Bootstrap mendapatkan sampelnya dengan cara sampling dengan pengembalian dari sampel awal. Metode bootstrap sering digunakan pada metode lain bergantung pada masalah yang dihadapi. Salah satunya adalah bootstrap regresi yaitu metode yang digunakan untuk menyelesaikan model regresi linier, baik sederhana maupun berganda, dengan menggunakan Metode Kuadrat Terkecil pada kasus jumlah sampel yang kecil.

Pada metode lain yaitu LTS, bootstrap digabungkan untuk mengatasi masalah pencilan dan sampel kecil [6]. Hasil yang diperoleh menunjukkan bahwa metode LTS dengan bootstrap lebih unggul daripada metode LTS karena kemampuan penggunaan pada sampel kecil. Akan tetapi metode LTS masih mempunyai kelemahan yaitu hanya mengatasi pencilan pada ruang-X [1].

Berdasarkan uraian di atas, maka paper ini dibuat untuk menunjukkan apakah penaksir MCD dengan bootstrap dapat mengatasi masalah sampel kecil dan pencilan, mengingat penaksir MCD mempunyai kelebihan dibanding LTS, karena kemampuannya mendeteksi seluruh pencilan di ruang–X dan Y dan memiliki

ketahanan yang cukup besar terhadap pencilan. Hal ini akan ditunjukkan dengan membandingkan metode MCD dengan dan tanpa bootstrap melalui nilai jumlah kuadrat residual dan koefisien determinasi. Nilai jumlah kuadrat residual yang kecil dan nilai koefisien determinasi yang besar menunjukkan bahwa

metode tersebut merupakan metode yang paling unggul.

Data yang digunakan pada penelitian ini adalah data sekunder yang digunakan adalah data mengenai kaitan antara produktivitas primer fitoplankton dengan faktor-faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung [3].

2. TEORI

2.1 Metode Minimum Covariance Determinant (MCD)

Penaksir robust merupakan solusi dari Metode Kuadrat Terkecil yang peka terhadap asumsi-asumsi, salah satunya adalah pencilan [3]. Keberadaan data pencilan akan mengganggu dalam proses analisis data dan harus dihindari karena dapat menyebabkan hal-hal sebagai berikut [5]:

a. Residual yang besar dari model yang terbentuk

b. Variansi pada data tersebut menjadi lebih besar

c. Taksiran interval semakin lebar

Dalam penaksir yang robust terhadap pencilan dikenal jarak robust dan residu robust. Jarak robust merupakan modifikasi dari jarak mahalanobis, yaitu menggantikan matriks vektor rata-rata dan matriks kovarians metode klasik dengan matriks rata-rata dan kovarians metode robust. Jarak robust diperoleh dengan rumus sebagai berikut:

T

T

T 2 * * -1 * * RD RD RD RD d = X - V X C X - V X (1) dengan : 1 RD

C = invers matriks kovariansi jarak robust (k x k)

* RD

X

= matriks rata-rata tiap baris

X

* jarak robust (k x 1)

Residu robust merupakan error yang diperoleh dari regresi robust. Berdasarkan jarak robust dapat dikategorikan titik leverage yang lebih dapat dipercaya daripada jarak mahalanobis. Titik leverage dapat dideteksi dengan jarak robust dengan syarat sebagai berikut :

(3)

2 2 0 jika d ( ) 1 untuk lainnya RD C p Leverage     (2)

Berdasarkan Hubert dkk. [1], dari residu robust dapat diketahui titik pencilan dengan kriteria standardized residual, sebagai berikut :

( ) i e C q s  (3) dengan : i e = residual = MSE ( ) C q = q2,(1) q = jumlah variabel tak bebas

Untuk menentukan taksiran parameter regresi, metode MCD mencari himpunan bagian data dari matriks *

X (matriks data variabel X) dengan sejumlah h pengamatan, yaitu:

= (4) dengan n > k.

Berdasarkan persamaan (4) maka terdapat kombinasi pengamatan matriks himpunan bagian data dari matriks pengamatan

X

*

sejumlah a, dengan a didefinisikan sebagai berikut:

n h

a

C

(5)

Dengan demikian akan diperoleh matriks himpunan bagian data

H

b sebagai berikut:

11 21 1 12 22 2 1 2 T h h k k hk x x x x x x x x x              b H        (6) dengan b = 1, 2, …, a.

Kemudian untuk setiap

H

b, sebut sebagai

H

bl

diperoleh nilai matriks rata-rata tl dan matriks

kovarians Cl sebagai berikut:

1 . T. h  * b tl H V (7)

 

 

1 T T T h   *  * b b Cl H V tl H V tl (8)

dengan V* adalah matriks yang berukuran (hx1).

Dari persamaan (8) dapat diketahui nilai

det(Cl). Untuk

l 

1

jika det(C1)0 maka dengan menggunakan persamaan (1) dapat diketahui nilai jarak mahalanobis. Nilai jarak mahalanobis yang diperoleh kemudian diurutkan dari nilai terkecil, diambil nilai

d

MD sebanyak h. Identifikasi nomor pengamatan dMD terpilih. Bentuk matriks *

X baru sebanyak h pengamatan, dengan elemen matriksnya berupa pengamatan pada variabel X berdasarkan identifikasi nomor pengamatan . Sebut matriks

*

X baru, sebagai Hbl dengan l l 1.

Bandingkan nilai det(Cl)dan

det(

C

l-1

)

, jika: 1. det(Cl)det(Cl-1),dengan menggunakan

persamaan (1) diperoleh kembali nilai jarak mahalanobis yang baru, kemudian bentuk

*

X

baru sehingga didapat matriks

H

bl baru;

2. det(Cl)det(Cl-1), pengolahan data dilakukan dari awal lagi, dengan himpunan bagian data

H

bselanjutnya, sehingga didapat nilai determinan

H

b lainnya. Bandingkan seluruh nilai determinan matriks kovariansi yang didapat dari himpunan bagian data

H

b, kemudian pilih yang bernilai minimum. Definisikan matriks himpunan bagian data

H

b yang memiliki nilai determinan minimum sebagai

H

MCD. Nilai

t

ldan

C

l yang didapat

H

MCD disebut sebagai

t

MCD dan

MCD

C

.

Prinsip utama dalam regresi MCD adalah menghitung bobot

w

i yang ditentukan berdasarkan jarak robust . Jarak robust didapat berdasarkan hasil penghitungan dan .

Pembobotan wiidirumuskan dengan ketentuan berikut:

(4)

` 1, 0, lainnya ( )   RD ii jika d C w q (9)

Berdasarkan persamaan (9) dapat dibentuk matriks

W

MCD berukuran n x n sebagai berikut:

11 12 1 21 22 2 1 2 n n MCD n n nn w w w w w w w w w              W        (10)

dengan entri matriks wij= 0 , pada

i

j

Berdasarkan penjelasan di atas jelas bahwa metode regresi MCD merupakan salah satu penerapan dari pembobotan robust. Pembobotan robust merupakan suatu alternatif untuk memperoleh taksiran parameter yang peka terhadap pencilan. Sehingga regresi MCD dimodelkan dengan persamaan sebagai berikut:

 

1

MCD MCD MCD   T T β X W X X W Y (11) (11) 2.2 Bootstrap

Bootstrap adalah metode simulasi

berbasiskan data yang dapat digunakan dalam statistika. Efron dan Tibsirani [2] mengatakan bootstrap memiliki keuntungan, yaitu: (a) ketika menggunakan asumsi nonparametrik peneliti tidak harus membuat asumsi dari populasi yang mendasarinya, dan (b) apabila menggunakan asumsi parametrik bootstrap dapat memberikan jawaban yang lebih akurat. Tujuan lain adalah bila sampel kecil dan data tidak berdistribusi normal, maka bootstrap adalah solusinya. Dengan demikian bootstrap ditujukan untuk memperbaiki ukuran sampel demi keakuratan penaksiran dan mengevaluasi kebenaran penaksiran. Asumsi parametrik digunakan apabila beberapa pengetahuan tentang bentuk dari populasi yang mendasari tersedia atau dibentuk dari distribusi tertentu. Bootstrap banyak diaplikasikan dalam bidang statistika karena memiliki banyak keunggulan, diantaranya bootstrap tidak harus dibentuk dari asumsi parametrik.

Ada dua prosedur bootstrap yang dapat diterapkan pada model regresi, yaitu bootstrap pairs dan bootstrap residual. Bootstrap pairs

adalah proses resampling data pada data berpasangan xi dan yi, sedangkan bootstrap

residual adalah proses resampling pada residual yang dibangun oleh variabel bebas dan variabel tak bebas, sehingga pada pemakaiannya dapat digunakan pada model regresi linier berganda [2].

2.3 Bootstrap Residual

Prosedur pada bootstrap residual sama dengan prosedur bootstrap pada umumnya. Pada bootstrap residual bukan datanya yang mengalami resampling tetapi nilai residualnya.

Langkah-langkah prosedur bootstrap residual menurut Efron dan Tibshirani [2] adalah sebagai berikut :

1. Menghitung koefisien regresi.

2. Menghitung nilai residual

e

i

y

i

y

i 3. Mengambil sampel dari residual sebanyak n

secara acak dengan pengembalian dari

i

e

yang telah dihitung pada langkah 2 sehingga diperoleh:

*( ) *( ) *( ) *( ) 1 , 2 , ..., (12) b b b b i n ee e e

pada langkah ini b = 1

4. Menghitung nilai *( )b  *( )b

Y = Xβ + e (12) 5. Menghitung β*( )b = X X

T

-1X YT *( )b

6. Melakukan pengulangan langkah 3,4, dan 5 untuk b = 2,3,…, B

7. Menghitung nilai koefisien regresi

bootstrap:   1 1 B B b b B

 *( ) *( ) β = β (13) 3. DATA

Data yang digunakan dalam penelitian ini adalah data sekunder mengenai produktivitas primer fitoplankton dengan faktor fisika-kimia perairan pada budidaya perikanan dengan jala terapung [3].

4. HASIL DAN PEMBAHASAN

Hasil analisis yang telah dilakukan adalah sebagai berikut ini:

(5)

Tabel 1. Nilai Koefisien Regresi untuk Data Produktifitas Primer dan Faktor-faktor Kimia dengan Metode MCD dan Metode

Bootstrap Penaksir bo b1 b2 b3 MCD -0.5855 0.0001 0.086 3E-04 B=50 -0.4120 9.7E-05 0.0554 7,2E-04 Nilai koefisien regresi untuk penaksir MCD dan bootstrap memberikan nilai yang berbeda. Untuk melihat kecocokan model akan dihitung nilai koefisien determinasi dan jumlah kuadrat residual sebagai berikut:

Tabel 2. Nilai Koefisien Determinasi dan Jumlah Kuadrat Residual untuk Data Produktifitas Primer dan Faktor-faktor Kimia dengan Metode MCD dan Metode Bootstrap Penaksir Koefisien Determinasi Jumlah Kuadrat Residual MCD 0.948238 0.0169762 B=50 0.999987089 0.000107844

Koefisien determinasi untuk penaksir MCD memberikan nilai yang lebih kecil daripada penaksir bootstrap.

Sebaliknya jumlah kuadrat residual pada penaksir MCD lebih besar daripada penaksir bootstrap. Tabel di atas menunjukkan bahwa penaksir MCD menjadi kurang tepat digunakan pada sampel kecil. Penaksir MCD harus digabungkan dengan bootstrap dengan resampling yang besar agar model yang diperoleh semakin tepat.

5. KESIMPULAN

1. Ketika dihadapkan pada sampel yang kecil, penaksir Minimum Covariance Determinant (MCD) menjadi tidak tepat untuk memodelkan data yang mengandung pencilan. Penaksir Minimum Covariance Determinant (MCD) harus dilanjutkan dengan bootstrap agar metode ini menjadi metode yang paling tepat ketika sampel yang dihadapi kecil.

2. Nilai koefisien determinasi pada metode bootstrap lebih besar daripada penaksir

MCD dan jumlah kuadrat residual metode bootstrap lebih kecil dibandingkan dengan penaksir MCD. Hasil ini menunjukkan bahwa penaksir bootstrap dengan MCD adalah metode yang paling baik.

6. UCAPAN TERIMA KASIH

Ucapan terima kasih kepada pihak Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Padjadjaran melalui Jurusan Matematika yang telah mendanai penelitian swadana ini.

7. DAFTAR PUSTAKA

1. ADERLINA, D., FIRDANIZA, GUSRIANI, G., 2011, Metode Minimum Covariance Determinant pada Analisis Regresi Linier Berganda dengan Kasus Pencilan, Prosiding Seminar Nasional Statiatika, 12 November 2011, Jurusan Statistika FMIPA-Unpad.

2. EFRON, B. AND TIBSRANI, R.J., 1993, An Introduction to the Bootstrap, Chapman and Hall, London.

3. GUSRIANI, N., FIRDANIZA, ARDELINA, D., 2011, Kajian Penaksir Bounded-Influence dan Metode Minimum Covariance Determinant pada Analisis Regresi Linier Berganda untuk Kasus Pencilan, Laporan Penelitian, Jurusan Matematika FMIPA Unpad, Bandung. 4. ROUSSEEUW, P.J & DRIESSEN K.V,

1998, A Fast Algorithm for Minimum Covariance Determinance Estimator, 5. (http://www.geo.upm.es/postgrado/CarlosLo

pez/papers/FastAlgMCD99.pdf)

6. SOEMARTINI. 2007. Pencilan (Outlier), (http:// resources.unpad.ac.id/unpad-content/.../OUTLIER(PENCILAN).pdf). 7. WILLEMS, G. AND AELST, S.V., 2005,

Fast and Robust Bootstrap for LTS, Journal of Computational Statistics & Data Analysis,

Vol. 48, No. 4.

(http://users.gent.be/~svaelts/publications/ FBR_LTS_report.pdf).

Referensi

Dokumen terkait

Dari pembahasan di makalah ini, dapat disimpulkan bahwa Elliptical Curve Cryptography dapat menghemat jumlah memori yang diperlukan untuk melakukan enkripsi ataupun

Penelitian ini dilakukan di Kota Surakarta Provinsi Jawa Tengah dengan tujuan untuk mengetahui kondisi tingkat pelayanan jalan Ahmad Yani, jalan Slamet Riyadi, dan jalan

KOMPETENSI KEAHLIAN  ALOKASI WAKTU KOMPETENSI DASAR INDIKATOR MATERI PEMBELAJARAN KEGIATAN PEMBELAJARAN PENILAIAN TM PS PI SUMBER BELAJAR dalam diagram P-V  Hukum I dan

Untuk realisasi dana GDM Tahun 2017 sebagaimana yang telah di intruksikan di dalam Perbub Nomor 5 Tahun 2017, bahwa pelaksanaan dana Gerakan Dusun Membangun (GDM) Tahun 2017

Industri furnitur yang telah bersertifikat CoC hanya dapat melakukan proses produksi dengan menggunakan bahan baku yang berasal dari hutan lestari yang ditunjukkan dengan

Hal tersebut dapat dilihat pada pengambilan data ke 0 sampai dengan pe- ngambilan data ke 3 terus mengalami kenaikan dikarenakan pada saat itu pekerja 2 melakukan

Tujuan proses isihan dijalankan adalah untuk memudahkan proses carian data-data yang telah disusunkan (N. Terdapat beberapa teknik isihan dan setiap teknik

wheelslip have rarely been studied to date as has tractor performance in downhill skidding. It is true that in these cases the skidding methods/equipment are subject to rules and