• Tidak ada hasil yang ditemukan

Metode Minimum Covariance Determinan Pada Analisis Regresi Linier Berganda Dengan Kasus Pencilan

N/A
N/A
Protected

Academic year: 2022

Membagikan "Metode Minimum Covariance Determinan Pada Analisis Regresi Linier Berganda Dengan Kasus Pencilan"

Copied!
6
0
0

Teks penuh

(1)

Program Studi Statistika FMIPA Universitas Mulawarman 43

Metode Minimum Covariance Determinan

Pada Analisis Regresi Linier Berganda Dengan Kasus Pencilan Minimum Covariance Determinants Method

On Multiple Linear Regression Analysis The Case Outliers Sifriyani

Program Studi Statistika FMIPA Universitas Mulawarman Abstract

One of the methods used to model linear regression on data containing outliers is robust regression. Robust regression is a method used to overcome the deviation from the classical assumptions. One method to overcome the deviation robust outlier assumption is minimum covariance determinant (MCD). MCD principle is to use some of the data that has the smallest determinant of covariance to determine the weighting. Identification of outliers and estimate the parameters. This method can produce a model that is more precise than the MKT. this paper will show resistance to outliers in the MCD method uses simulated data with observations of the size of 30, 50, 100, and 150 data as well as the percentage of outliers as much as 10%, 20%, 30% and 40%.

Keywords : regression, outliers, robust, MKT, MCD.

1. PENDAHULUAN

Dalam analisis regresi linier berganda yang mengandung data pencilan, pendeteksian tidak dapat dilihat dengan menggunakan diagram pencar (scatter plot). Beberapa metode untuk mendeteksi hal ini adalah DFFITS, Cook’s Distance, Leverage Values (Soemartini, 2007) dan menggunakan matriks rata-rata dan matriks kovarians yaitu jarak mahalonobis. Akan tetapi metode-metode ini kurang maksimal bila pengamatan mengandung lebih dari satu data pencilan. Hal ini disebabkan metode jarak mahalonobis tidak dapat mengatasi masking dan swamping effect. Dalam Surya (2008) dijelaskan bahwa masking effect merupakan pengaruh pada data pencilan yang terjadi pada saat data pencilan tidak terdeteksi sebagai pencilan karena adanya data pencilan lain yang berdekatan sedangkan swamping effect merupakan pengaruh pada kumpulan data yang terjadi saat data yang bukan pencilan terdeteksi sebagai data pencilan.

Masking dan swamping effect dapat diatasi dengan penaksir robust untuk vektor rata-rata dan matriks kovariansi, sehingga didapat jarak mahalonobis robust. Penaksir robust merupakan penaksir yang ajeg terhadap penyimpangan asumsi. Salah satu metode penaksir robust yang dapat mengukur jarak dan mendeteksi titik pencilan adalah penaksir minimum covariance determinant.

Rousseuw (2004) menjelaskan bahwa penaksir M yang dikemukakan Huber pada tahun 1973 tidak dapat mengatasi pencilan pada ruang- X sehingga dikembangkanlah metode LMS.

Metode LMS memiliki proses yang sangat lama dalam menaksir parameter sehingga dikembangkan metode LTS. Kelemahan metode

LTS adalah tidak dapat mendeteksi seluruh pencilan.

Metode robust lain yang dapat mengatasi pencilan ruang-X, mendeteksi seluruh pencilan dan memberikan proses yang relatif cepat adalah regresi minimum covariance determinant (MCD) (Rousseuw, 2004). Metode ini dapat mendeteksi seluruh pencilan dalam data dan memiliki ketahanan yang cukup besar tehadap pencilan (Rousseuw, 2004). Prinsip metode MCD adalah menggunakan vector rata-rata dan matriks kovarians yang didapat dari penaksir MCD untuk menentukan bobot dari setiap data, sehingga didapat taksiran parameter model MCD.

Paper ini akan membahas tentang pengidentifikasian pencilan, pembobotan data, dan penentuan parameter analisis regresi berganda dengan menggunakan penaksir robust, yaitu penaksir MCD. Hasil yang diperoleh kemudian dibandingkan dengan metode MKT. Akan ditunjukkan juga bahwa metode ini memiliki ketahanan terhadap pencilan dengan membandingkan nilai-nilai bias, MSE, dan R2 yang diperoleh metode MKT dan MCD.

2. LANDASAN TEORI 2.1 Analisis Regresi Linier

Model persamaan analisis regresi berganda secara umum dapat ditulis dalam notasi matriks sebagai berikut;

ࢅ = ࢄࢼ + ࢿ (1)

dimana ࢅ : vektor variabel tak bebas (n x 1)

ࢄ : matriks variabel bebas (n x p) ࢼ : vektor parameter (p x 1) ࢿ : vektor error (n x1)

p : k + 1, k = jumlah variabel bebas, n = jumlah data

(2)

Program Studi Statistika FMIPA Universitas Mulawarman 44 Jikaࢊࡾࡰ < ࡯(࢖) untuk lainnya (7) Jumlah kolom matriks X sebesar k + 1

disebabkan oleh adanya variabel X semu yang dimasukkan ke dalam model yang bernilai 1 untuk setiap Y. sehingga bentuk X sebagai berikut.

ܺ = ൦ 11 1⋮

ݔଵଵ ݔଶଵ

ݔ௡ଵ⋮ ݔଵଶ ݔଶଶ

ݔ௡ଶ

⋯⋯

⋯⋱ ݔଵ௞

ݔଶ௞

ݔ௡௞

൪ (2)

Metode klasik yang digunakan untuk menaksir parameter model adalah metode kuadrat terkecil (MKT) yang mempunyai prinsip meminimumkan jumlah kuadrat residual. Taksiran parameter untuk model MKT adalah:

ࢼ෡ = (ࢄࢄ)ି૚ࢄࢅ (3)

2.2 Pencilan

Pengamatan yang dikategorikan sebagai pencilan harus dilihat berdasarkan sebaran datanya, maka penyebab pencilan itu dapat diketahui, apakah berdasarkan penyimpangan oleh variabel bebasnya (X) atau berdasarkan variabel tak bebasnya (Y), atau bahkan berdasarkan keduanya.

Penyimpangan oleh variabel bebas atau levelrage point sangat sukar dideteksi sejak awal karena dalam scatter plot tidak dapat terlihat dan membentuk efek masking. (Suryana, 2008)

Pada umumnya untuk mengidentifikasi pencilan, dapat digunakan jarak kuadrat mahalonobis yaitu:

ࡹ ࡰ = (ࢄ− ࢂ(ࢄഥ))࡯ି૚(ࢄ− ࢂ(ࢄഥ)) (4)

ܺ= ൦ ݔଵଵ

ݔଶଵ

ݔ⋮ଵ௞

ݔଵଶ

ݔଶଶ

ݔ⋮ଶ௞

⋯⋯

⋯⋱ ݔ௡௞

ݔ௡௞

ݔ௡௞⋮ ൪

C-1= invers matriks kovariansi (k x k)

ࢄഥ= matriks rata-rata tiap barisܺ(k x 1) Nilai jarak mahanolobis untuk setiap pengamatan didapat dari matriks diagonal utama persamaan (4).

Suryana (2008) menjelaskan pengamatan diidentifikasi sebagai pencilan jika memenuhi ketentuan sebagai berikut:

ࡹ ࡰ > ࡯(࢖) (5) dengan:

(࢖) =࣑࢖,(૚ିࢻ) , ࡯(࢖) merupakan batas pencilan α = taraf signifikansi

Penggunaan jarak mahalanobis tidak lagi maksimal untuk mengidentifikasi pencilan jika lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping.

Pengaruh masking dan swamping kedunya dapat diatasi dengan menggunakan penaksir robust untuk vektor rata-rata dan matrik kovariansi sehingga dihasilkan jarak kuadrat mahalonobis robust.

2.3 Penaksir Robust

Penaksir yang robust terhadap pencilan merupakan penaksiran yang ajeg terhadap adanya pencilan atau tidak peka bila terjadi penyimpangan data sehingga hasil taksiran terhadap parameter model tidak akan mendekati nilai yang sebenarnya.

Dalam Kristian (2010) dijelaskan bahwa tujuan penaksir robust yaitu:

i. Menghasilkan taksiran yang sama baiknya dengan taksiran MKT (pada saat residualnya berdistribusi normal dan terbatas dari kesalahan).

ii. Menghasilkan taksiran yang baik ketika terdapat kondisi (i) tidak terpenuhi.

Dalam penaksir robust dikenal jarak robust dan residu robust. Jarak robust merupakan modifikasi dari jarak mahalonobis, yaitu menggantikan matriks vektor rata-rata dan matriks kovarians metode klasik dengan matriks rata-rata dan kovarians metode robust.

Jarak robust diperoleh dengan rumus sebagai berikut:

ࡾࡰ = (ࢄ− ࢂ(ࢄഥࡾࡰ ))࡯ࡾࡰି૚(ࢄ− ࢂ(ࢄഥࡾࡰ )) (૟) dengan :

ି૚ࡾࡰ = inversmatriks kovariansi (k x k)

ࢄഥࡾࡰ =matriks rata-rata tiap barisܺ(k x 1) Residu robust merupakan error yang diperoleh dari regresi robust. Berdasarkan jarak robust dapat dikategorikan titik levelrage yang lebih dapat dipercaya daripada jarak mahalonobis.

Kristian (2010) menjelaskan titik leverage dapat dideteksi dengan jarak robust dengan syarat sebagai berikut:

ܮ݁ݒ݁ݎܽ݃݁ = ቄ01

Berdasarkan Hubert et al (2008), dari residu robust dapat diketahui titik pencilan dengan kritis standardized residual, sebagai berikut:

> ܥ(ݍ) (8)

dimana:݁ = residual

ݏ= √ܯ ܵܧ, s = simpangan baku݁

ܥ(ݍ) = ට߯௤,(ଵିఈ) ,

dengan q = jumlah variabel tak bebas

3. MINIMUM COVARIANCE

DETERMINANT (MCD)

Metode MCD merupakan penaksir robust untuk rata-rata dan matriks kovarians dengan mencari sebagian data yang mempunyai kovarians minimum yang digunakan untuk mengidentifikasi pencilan, menentukan jarak dan residu robust yang akan digunakan untuk pembobotan data dan penentuan parameter regresi.

(3)

Program Studi Statistika FMIPA Universitas Mulawarman 45 Metode MCD mencari himpunan bagian

data dari matriks X* sejumlah h pengamatan, yaitu:

ℎ = (݊ + ݇ + 1)/2 (9) dengan݊ > ݇

Berdasarkan pengamatan (9) maka terdapat kombinasi pengamatan matriks himpunan bagian data dari matriks pengamatan X* sejumlah a, dengan a diidentifikasi sebagai berikut:

ܽ = ܥ (10)

Diperoleh matriks himpunan bagian data Hb

sebagai berikut:

= ൦ ݔଵଵ ݔଶଵ

ݔଵ௞⋮ ݔଵଶ ݔଶଶ

ݔଶ௞

⋯⋯

⋯⋱ ݔ௛௞

ݔ௛௞

ݔ௛௞⋮ ൪

(11) dengan b = 1,…, a

kemudian untuk setiap Hb, sebut sebagai Hbl

diperoleh nilai matriks rata-rata tl dan matriks kovarians Clsebagai berikut:

=. (ࡴ). ࢂ (12)

=(ࡴ− ࢂ(࢚))(ࡴ− ࢂ(࢚)) (13) dengan ࢂadalah matriks yang berukuran h x 1, sebagai berikut:

= ቎ 11 1⋮

቏ (14)

Dari persamaan (13) dapat diketahui nilai det(Cl) ≠ 0 maka dengan menggunakan persamaan (4) dapat diketahui nilai jarak mahalanobis. Nilai jarak mahalonobis yang diperoleh kemudian diurutkan dari nilai terkecil, diambil nilai dMD sebanyak h. identifikasi nomor pengamatan dMDterpilih. Bentuk matriks X*baru sebanyak h pengamatan, dengan elemen matriksnya berupa pengamatan pada variabel X berdasarkan identifikasi nomor pengamatan.

Sebut matriks X*baru, sebagai Hbldenganl = l+1. Dengan persamaan (12) dan (13) didapat nilai tl dan Cl dari matriks Hbl yang baru, kemudian didapat nilai determinannya.

Bandingkan dengan det(Cl) dan det(Cl-1), jika:

1. det(Cl) ≠ det(Cl-1), dengan menggunakan persamaan (4) didapat kembali nilai jarak mahalanosi yang baru, kemudian bentuk X*baru sehingga didapat Hblbaru.

2. det(Cl) = det(Cl-1), pengolahan data dilakukan dari awal lagi, dengan himpunan bagian data Hb selanjutnya, sehingga didapat nilai determinan Hblainnya.

Bandingkan seluruh nilai determinan matriks kovarians yang didapat dari himpunan bagian data Hb, kemudian pilih yang bernilai minimum.

Definisikan matriks himpunan bagian data Hb

yang memiliki nilai determinan minimum sebagai HMCD. Nilai tldan Clyang didapat HMCDdisebut sebagai tMCDdan CMCD.

Berdasarkan Huberts et al (2008), diketahui matriks kovarians ൫Σ෠൯ dari variabel X dan variabel Y sebagai berikut:

Σ෠= ቈΣ෠௑௑ Σ෠௑௒

Σ෠௒௑ Σ෠௒௒቉ (15) dengan :Σ෠௑௑=matriks kovarians dari X (k x k)

Σ෠௒௑=matriks kovarians dari X dan Y (k x 1) Σ෠௒௒=nilai varians Y

Setelah mendapat nilai matriks kovarians ൫Σ෠൯ dapat diketahui nilai kovarians dari error yaitu:

Σ෠= Σ෠௒௒− ߚመெ ஼஽Σ෠௑௑ߚመெ ஼஽ (16) denganߚመெ ஼஽ = Σ෠௑௑Σ෠௑௒

Huberts et al (2008) menjelaskan bahwa bobot wii

dirumuskan dengan ketentuan berikut:

ݓ௜௜= ቊ1, ݆݅݇ܽ ݀ቀ݁൫ߚመெ ஼஽൯ቁ

0, ݈ܽ݅݊݊ݕܽ  (17)

dengan

݀ቀ݁൫ߚመெ ஼஽൯ቁ= ට݁൫ߚመெ ஼஽൯൫Σ෠ିଵቀ݁൫ߚመெ ஼஽൯ቁ Berdasarkan persamaan (17) dapat dibentuk matriks W berukuran n x n sebagai berikut:

ݓ = ൦ ݓଵଵ ݓଶଵ

ݓ⋮௡ଵ

ݓଵଶ ݓଶଶ

ݓ⋮௡ଶ

⋯⋯

⋯⋱ ݓଵ௡

ݓଶ௡

ݓ⋮௡௡

൪ (18)

dengan entri matriks wij= 0, dimana i = j

Berdasarkan penjelasan di atas jelas bahwa metode regresi MCD merupakan salah satu penerapan dari pembobotan robust. Pembobotan robust merupakan suatu alternatif untuk memperoleh taksiran parameter yang peka terhadap pencilan. Sehingga regresi MCD dimodelkan dengan persamaan sebagai sebagai berikut:

ߠ෠ெ ஼஽ = (ܹܺ ܺ)ିଵܹ ܺ) (19) 3.1 Simulasi Data

Resistensi metode MCD terhadap pencilan dapat ditunjukkan menggunakan simulasi data.

Simulasi data adalah data yang diperoleh dari pembangkitan data dalam hal ini dengan membangkitkan ei yang berdistribusi N(0,1).

Selanjutnya data ini dianalisis dengan menggunakan metode regresi MCD dan MKT kemudian dibandingkan. Proses ini dilakukan berulang kali sehingga diharapkan menghasilkan suatu pola yang dapat memberikan kesimpulan mengenai metode yang diteliti.

4. HASIL DAN PEMBAHASAN

Dari data simulasi diperoleh nilai bias, MSE dan koefisien determinasi, nilai bias untuk setiap ukuran pengamatan dan presentase pencilan digambarkan dengan grafik berikut:

(4)

Program Studi Statistika FMIPA Universitas Mulawarman 46 Gambar 2.1 Grafik Bias Untuk Semua Ukuran

dan Presentase Pencilan

Dari grafik terlihat bahwa garis metode MKT selalu berada di bawah garis metode MCD pada saat pencilan 0% atau tidak terdapat pencilan pada data. Terlihat juga ketika pencilan muncul dalam kata, maka garis metode MCD selalu berada di bawah garis metode MKT. hal ini menunjukkan bahwa metode MCD memiliki bias yang relatif kecil dibanding metode MKT.

Nilai MSE untuk setiap ukuran pencilan dan ukuran pengamatan dapat dilihat dalam grafik berikut:

Gambar 2.2 Grafik MSE (ߚመ) untuk SemuaUkuran Pengamatan dan Presentase Pencilan Berdasarkan grafik terlihat bahwa nilai MSE ൫ߚመ൯ untuk semua data yang mengandung pencilan dengan metode MCD dan MKT sama baiknya, garis metode MKT hanya sedikit dibawah metode MCD untuk setiap ukkuran pengamatan. Akan tetapi ketika data sudah mengandung pencilan, garis metode error yang besar dihasilkan oleh metode MKT.

Nilai koefisien determinasi untuk setiap ukuran pengamatan dan presentase pencilan terlihat dalam grafik berikut:

(5)

Program Studi Statistika FMIPA Universitas Mulawarman 47 Gambar 2.3 Grafik Koefisien Determinasi untuk

Semua Ukuran Pengamatan dan Presentase Pencilan.

Berdasarkan grafik terlihat bahwa garis metode MCD selalu lebih besar dari garis metode MKT untuk setiap ukuran pengamatan dan presentase pencilan. Ini menunjukkan bahwa metode MCD memiliki garis regresi sampel yang lebih mendekati sebagian besar data dibandingkan metode MKT.

Berdasarkan rangkaian penjelasan tersebut, dapat terlihat bahwa nilai bias dan MSE yang dihasilkan oleh metode MCD lebih kecil dibandingkan dengan MKT serta nilai koefisien determinasi yang dihasilkan MCD lebih besar dari MKT untuk setiap ukuran pengamatan dan ukuran pencilan. Terlihat juga bahwa nilai rata-rata estimasi parameter yang dihasilkan oleh metode

MCD lebih mendekati nilai yang sebenarnya dibandingkan dengan metode MKT.

5. KESIMPULAN

Berdasarkan analisis dan pembahasan pada bab IV, maka dapat disimpulkan sebagai berikut:

Dari simulasi data, dengan pengulangan sebanyak 10 kali dan ukuran pengamatan masing- masing sebanyak 30, 50, 100, 150, menunjukkan bahwa regresi MKT tidak dapat mengestimasi model dengan baik bila terdapat pencilan dalam data. Hal ini ditunjukkan oleh rata-rata hasil ekstimasi parameter model yang cukup jauh menyimpang dari nilai yang sebenarnya serta rata- rata MSE dan bias yang selalu jauh lebih besar dibandingkan yang dihasilkan regresi MCD.

6. DAFTAR PUSTAKA

Hubert, Mia. Et al. 2008. High-Breakdown Robust Multivariat Methods. Statistical Science, Vol. 23, No. 1.

Kristian, Yuddy. 2010. Estimasi Parameter Model dalam Regresi Linier Berganda dengan Metode Least Trimmed Squares (LTS).

Tesis. Bandung: Program Pascasarjana UNPAD BANDUNG.

Rousseeuw, P.J. et al. 2004. Robust Multivariat Regression.Technometrics, Vol. 46, No. 3.

Soemartini. 2007. Pencilan (outlier), (online), (http:// resources.unpad.ac.id/unpad- content/…/OUTLIER(PENCILAN).pdf.

Suryana. 2008. Perbandingan Kinerja Penaksir Robust “MCD” dan “MWCD” dalam Analisis Diskriminan Kuadratik. Tesis.

Surabaya: Program Magister ITS SURABAYA.

(6)

Program Studi Statistika FMIPA Universitas Mulawarman 48

Gambar

Gambar 2.2 Grafik MSE ( ߚመ) untuk SemuaUkuran Pengamatan dan Presentase Pencilan Berdasarkan grafik terlihat bahwa nilai MSE ൫ߚመ ଷ ൯ untuk semua data yang mengandung pencilan dengan metode MCD dan MKT sama baiknya, garis metode MKT hanya sedikit dibawah me

Referensi

Dokumen terkait

Dalam penelitian ini campuran beton menggunakan bahan admixture Betonmix, sehingga diharapkan dapat meningkatkan kualitas kuat tekan beton, kuat tarik belah dan modulus

Jenis tumbuhan yang mendominasi di Kebun Raya Balikpapan berupa tumbuhan perintis (pioner), diantaranya Melicope glabra, Macaranga gigantea dan Vernonia

PEKERJAAN : LANJUTAN PEMBANGUNAN GEDUNG CARDIAC CENTER : PEMBANGUNAN INSTALASI PENGOLAHAN AIR LIMBAH ( IPAL ) DAN PEMUSNAH SAMPAH MEDIS RUMAH SAKIT ( INCENERATOR ). LOKASI :

Berdasarkan analisis yang telah dijalankan diketahui bahwa hipotesis penelitian ini diterima, terdapat hubungan negatif yang signifikan antara dukungan sosial

Dari pembahasan di makalah ini, dapat disimpulkan bahwa Elliptical Curve Cryptography dapat menghemat jumlah memori yang diperlukan untuk melakukan enkripsi ataupun

Puyuh yang menerima cahaya merah, hijau dan biru serta kontrol memiliki kadar kalsium darah pada umur 7 dan 9 minggu yang relatif tinggi karena kalsium dalam

memenuhi pesanan atau untuk memasok kebutuhan beton dengan jumlah yang besar untuk beberapa proyek dalam waktu yang bersamaan.. Untuk tempat penyimpanan semen (silo) mempunyai

Industri furnitur yang telah bersertifikat CoC hanya dapat melakukan proses produksi dengan menggunakan bahan baku yang berasal dari hutan lestari yang ditunjukkan dengan