FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR
TINJAUAN PUSTAKA Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah salah satu alat statistika yang dapat digunakan untuk menjelaskan hubungan antara peubah respon (Y) dengan beberapa peubah penjelas (X) yang saling bebas. Model regresi linear berganda yang melibatkan p peubah penjelas adalah
dalam notasi matriks dapat disajikan sebagai berikut
………..(2) y adalah vektor berukuran nx1 yang elemen-elemennya merupakan nilai-nilai amatan dari peubah respon. X adalah matriks berukuran nx(p+1), β adalah vektor berukuran (p+1)x1 yang elemen-elemennya berupa parameter regresi dan adalah vektor sisaan yang berukuran nx1, dengan asumsi bahwa sisaan
memiliki E( i)=0 dan Var( i)= 2
untuk i=1,2,..,n.
Salah satu metode yang digunakan untuk
menduga parameter regresi (β) dalam regresi
linear berganda adalah Metode Kuadrat Terkecil (MKT). Konsep dasar dari MKT adalah menduga parameter regresi (β) dengan meminimumkan kuadrat sisaan
sehingga dugaan bagi parameter regresi dalam bentuk matriks dapat dirumuskan sebagai berikut(Draper & Smith 1992).
Multikolinearitas
Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya multikolinearitas. Multikolinearitas dapat ditandai dengan adanya korelasi yang kuat antar peubah bebasnya. Sehingga hal ini mengindikasikan adanya informasi yang berlebihan (Myers 1989). Adanya multikolinearitas menyebabkan Metode
PENDAHULUAN Latar Belakang
Salah satu masalah yang sering muncul dalam analisis regresi linear berganda adalah adanya korelasi yang kuat antar peubah bebas (multikolinearitas). Hal ini menyebabkan Metode Kuadrat Terkecil (MKT) menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter regresi yaitu akan memiliki kondisi buruk (ill-conditioned) atau singular
yang pada akhirnya menyebabkan penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).
Salah satu metode untuk mengatasi adanya multikolinearitas dalam analisis regresi berganda adalah Regresi Komponen Utama (RKU). RKU merupakan salah satu analisis regresi yang menggunakan komponen utama sebagai peubah bebasnya. Komponen utama ini merupakan kombinasi linear dari peubah asal yang bersifat saling bebas dan dihasilkan dari penguraian matriks ragam-peragam. Metode Kemungkinan Maksimum atau
Maximum Likelihood Estimation (MLE) biasanya digunakan untuk menduga matriks ragam-peragam pada RKU. Namun, metode pendugaan ini sangat sensitif terhadap adanya data pencilan multivariat. Data pencilan mutivariat diidentifikasi sebagai pengamatan yang memiliki jarak Mahalanobis kekar yang besar secara statistik. Oleh karena itu, metode
Minimum Covariance Determinant (MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1985, merupakan salah satu metode pendugaan matriks ragam-peragam yang digunakan untuk mengatasi masalah ini.
Pada penelitian ini, menggunakan metode MLE dan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresinya diduga dengan Metode Kuadrat Terkecil (MKT). Metode MKT-MLE didefinisikan sebagai metode RKU yang matriks ragam-peragamnya diduga dengan metode MLE dan parameter regresinya diduga dengan metode MKT. Sedangkan MKT-MCD didefinisikan sebagai metode RKU yang matriks ragam-peragamnya diduga dengan metode MCD dan pendugaan parameter regresinya diduga dengan metode MKT. Adapun kerangka pemikiran dari penelitian ini dapat dilihat pada Lampiran 1.
Tujuan
Tujuan dari penelitian ini adalah untuk mengetahui dampak adanya data pencilan multivariat pada Regresi Komponen Utama (RKU) yang matriks ragam-peragamnya diduga dengan metode MLE dan MCD. Serta ingin membandingkan kekekaran metode MKT-MLE dan MKT-MCD.
TINJAUAN PUSTAKA Analisis Regresi Linear Berganda Analisis regresi linear berganda adalah salah satu alat statistika yang dapat digunakan untuk menjelaskan hubungan antara peubah respon (Y) dengan beberapa peubah penjelas (X) yang saling bebas. Model regresi linear berganda yang melibatkan p peubah penjelas adalah
dalam notasi matriks dapat disajikan sebagai berikut
………..(2) y adalah vektor berukuran nx1 yang elemen-elemennya merupakan nilai-nilai amatan dari peubah respon. X adalah matriks berukuran nx(p+1), β adalah vektor berukuran (p+1)x1 yang elemen-elemennya berupa parameter regresi dan adalah vektor sisaan yang berukuran nx1, dengan asumsi bahwa sisaan
memiliki E( i)=0 dan Var( i)= 2
untuk i=1,2,..,n.
Salah satu metode yang digunakan untuk
menduga parameter regresi (β) dalam regresi
linear berganda adalah Metode Kuadrat Terkecil (MKT). Konsep dasar dari MKT adalah menduga parameter regresi (β) dengan meminimumkan kuadrat sisaan
sehingga dugaan bagi parameter regresi dalam bentuk matriks dapat dirumuskan sebagai berikut(Draper & Smith 1992).
Multikolinearitas
Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya multikolinearitas. Multikolinearitas dapat ditandai dengan adanya korelasi yang kuat antar peubah bebasnya. Sehingga hal ini mengindikasikan adanya informasi yang berlebihan (Myers 1989). Adanya multikolinearitas menyebabkan Metode
Kuadrat Terkecil (MKT) menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter regresi yaitu akan memiliki kondisi buruk (ill-conditioned) atau singular yang pada akhirnya penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).
Analisis Komponen Utama (AKU)
Analisis Komponen Utama (AKU) adalah salah satu analisis peubah ganda yang digunakan untuk menjelaskan struktur ragam-peragam dari sekumpulan peubah melalui beberapa peubah baru yang saling bebas. Peubah baru ini merupakan kombinasi linear dari peubah asal dan disebut sebagai komponen utama (principal component). Secara umum tujuan dari Analisis Komponen Utama (AKU) adalah mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi yang lebih kecil dan tidak saling berkorelasi (Jolliffe 2002).
Komponen utama yang dibentuk berdasarkan matriks ragam-peragam adalah sebagai berikut. Misalkan Σ merupakan matriks ragam-peragam dari vektor x1,x2,…,xp
dengan pasangan akar ciri dan vektor ciri yang saling ortonormal λ1,e1 , λ2,e2 ,…, λp,ep) dengan λ1 λ2 … λp , maka komponen utama ke-i didefinisikan sebagai berikut:
Berdasarkan definisi di atas maka ragam dari komponen utama ke-1 adalah
Hasil penurunan persamaan Langrange menunjukkan bahwa λ1 merupakan akar ciri terbesar yang memaksimumkan ragam KU1
dan e1 merupakan vektor ciri yang berpadanan dengan λ1. KU2 adalah komponen utama ke-2 yang memaksimumkan nilai . KUp
adalah komponen utama ke-p yang memenuhi keragaman selain KU1,KU2,...,KUp-1 dengan memaksimumkan nilai . Urutan KU1,KU2,...,KUp harus memenuhi persyaratan λ1 λ2 … λp. Sementara itu, kontribusi keragaman dari setiap komponen utama ke-k terhadap total keragaman adalah
Regresi Komponen Utama (RKU)
Regresi Komponen Utama (RKU) merupakan implementasi dari Analisis Komponen Utama (AKU). RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan beberapa komponen utama sebagai peubah penjelasnya (Jolliffe 2002).
Cara pembentukan regresi komponen utama melalui analisis komponen utama berdasarkan matriks ragam-peragam adalah sebagai berikut. Misalkan P adalah matriks orthogonal (P`P=PP`=I) dan W=KU=XcP, maka persamaan regresi linear berganda
………..…..(6) dapat disajikan dalam bentuk regresi komponen utama:
……….……(7) Xc adalah matriks yang elemen-elemennya dikurangi dengan rataannya (centered) yang
mensyaratkan rataan nol dan ragam 2 . W adalah suatu matriks berukuran nxp yang memuat seluruh komponen utama.
Sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah
α0 adalah intersep, 1 adalah vektor berukuran nx1 yang elemen-elemennya adalah 1, Wk
adalah suatu matriks berukuran nxk dengan k<p yang memuat sejumlah k komponen utama, αk adalah vektor koefisien regresi komponen utama berukuran kx1 (Smith 2002).
Maximum Likelihood Estimation
(MLE)
Komponen-komponen utama yang dihasilkan dalam AKU biasanya dihasilkan dari penguraian matriks ragam-peragam yang diduga dengan Metode Kemungkinan Maksimum atau Maximum Likelihood
Estimation (MLE). Metode ini pada
prinsipnya adalah memaksimumkan fungsi peluang bersama dari data contoh yang kita miliki (Nasoetion & Rambe 1984). Jika terdapat contoh acak berukuran n yang terdiri atas p buah peubah x1,x2,…,xp, maka matriks X yang berukuran nxp dapat didefinisikan sebagai berikut
np n n p p nxp x x x x x x x x x X 2 1 2 22 21 1 12 11
Pendugaan vektor rataan dan matriks ragam-peragam bagi contoh acak tersebut dengan menggunakan metode pendugaan MLE adalah sebagai berikut
X adalah matriks berukuran nxp dan 1 adalah vektor berukuran nx1 yang elemen-elemennya adalah 1.
Minimum Covariance Determinant
(MCD)
Minimum Covariance Determinant (MCD) diperkenalkan oleh Rousseeuw pada tahun 1985. Tujuan dari metode pendugaan MCD adalah mencari himpunan bagian sebanyak h elemen yang matriks ragam-peragamnya memiliki determinan terkecil (Rousseeuw 1999).
Pada prinsipnya metode MCD adalah mencari himpunan bagian yang anggotanya sebanyak h elemen dari matriks X dengan h merupakan bilangan bulat terkecil dari (n+p+1)/2. Misalkan himpunan bagian itu adalah Xh, maka terdapat sebanyak kombinasi yang harus ditemukan untuk mendapatkan dugaan vektor rataan dan matriks ragam-peragam. Untuk n kecil, pendugaan MCD mudah dan relatif lebih cepat untuk ditemukan. Tetapi, jika n besar maka banyak sekali kombinasi subhimpunan yang harus ditemukan untuk mendapatkan pendugaan MCD. Untuk mengatasi keterbatasan ini digunakan pendekatan FAST-MCD dengan algoritma C-step yang dikembangkan oleh Rousseeuw dan Van Driessen (1999).
Misalkan terdapat Xp=[x1,x2,…,xp] merupakan himpunan data sejumlah n pengamatan dari p peubah. Misalkan H1⊂ , ,…,n dengan , maka hitung
jika det(C1)≠0 definisikan jarak relatif di yaitu
dengan i=1,...,n. Selanjutnya ambil H2
demikian sehingga {d1(i);i Є H2}:={(d1)1:n,…,
(dh)h:n} dengan (d1)1:n≤(d1)2:n≤…≤(d1)h:n menyatakan urutan jarak. Hitung nilai T2 dan C2 berdasarkan himpunan H2. Maka det(C2 det C1) dan akan sama jika dan hanya jika T1=T2 dan C1=C2.
Penjelasaan di atas mensyaratkan det(C1)≠0, karena jika det(C1)=0 maka nilai objektif minimum untuk mendapatkan determinan terkecil telah ditemukan. Selain itu, jika det(C1)>0, penggunaan formulasi di atas akan menghasilkan C2 yang det(C2)≤det(C1). Dalam FAST-MCD akan digunakan algoritma C-step dengan C disebut
concentration (pemusatan). Pemusatannya dilakukan pada h amatan agar menghasilkan jarak relatif terkecil dan C2 dipusatkan agar memiliki determinan yang lebih kecil dibandingkan C1. Adapun algoritma dari C-step sebagai berikut:
1. Hitung jarak relatif dold(i) untuk i=1,2,…,n
2. Urutkan jarak relatif hasil permutasi dari π
dengan dold(π(1)) ≤ dold(π(2)) ≤…≤ dold(π
(n)).
3. Tentukan Hnew:={ π(1), π(2),…, π(h)}.
4. Hitung Tnew dan Cnew.
pengulangan algoritma C-step akan menghasilkan sejumlah proses iterasi. Proses iterasi akan berhenti, jika det(C2)=0 atau det(C2)=det(C1). Jika kondisi di atas belum terpenuhi, maka proses iterasi akan terus berlangsung hingga menghasilkan sejumlah h amatan yang memiliki nilai determinan terkecil dan konvergen (Tfull,Cfull). Untuk mendapatkan konsistensi ketika data berasal dari sebaran peubah ganda, maka hitung
………...(14)
………….(15) Selanjutnya hasil akhir dari pendugaan FAST-MCD adalah melalui pembobot. Pendugaan terboboti diperoleh dengan cara sebagai beikut
dengan ) 18 ...( ... ... ... 0 ) ( 1 ( , ) 2,0.975 Lainnya i d Jika T C p MCD MCD
Skema algoritma FAST-MCD dapat dilihat pada Lampiran 2.
Pencilan
Data pencilan adalah suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Suryana). Identifikasi data pencilan pada data peubah ganda (multivariat) umumnya menggunakan jarak kuadrat Mahalanobis. Pengamatan ke-i didefinisikan sebagai data pencilan multivariat jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadratnya pada p buah peubah (Jhonson 1998).
dan ∑ menyatakan vektor rataan dan matriks ragam-peragam. Penggunaan jarak Mahalanobis untuk mengidentifikasi pencilan multivariat tidak maksimal jika data mengandung lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping (Rousseeuw & von Zomeren 1990; Rocke & Woodru 1996). Masking terjadi pada saat pengamatan pencilan tidak terdeteksi sebagai pencilan karena adanya pengamatan pencilan lain yang berdekatan. Swamping terjadi saat pengamatan bukan pencilan teridentifikasi sebagai pengamatan pencilan.
Masking maupun swamping dapat diatasi dengan menggunakan penduga kekar. MCD adalah salah satu penduga kekar untuk menduga vektor rataan dan matriks ragam-peragam yang digunakan untuk menduga jarak Mahalanobis sehingga disebut jarak kuadrat Mahalanobis kekar. Pengamatan ke-i diidentifikasi sebagai pencilan multivariatjika jarak Mahalanobis kekarnya lebih besar dari nilai khi-kuadratnya pada p buah peubah.
) dan menyatakan vektor rataan dan matriks ragam-peragam yang diduga dengan metode MCD.
Pembangkitan Data Pencilan Menurut Huber dkk (2005) untuk mendapatkan n data contoh yang terkontaminasi oleh data pencilan multivariat dapat dilakukan dengan cara membangkitkan sejumlah dari sebaran normal peubah ganda dengan parameter , sedangkan dibangkitkan dari sebaran normal peubah ganda dengan parameter . adalah rasio antara banyaknya pencilan multivariat dengan banyaknya data.
BAHAN DAN METODE
Penelitian ini akan menggunakan data simulasi. Adapun tahapan yang dilakukan adalah sebagai berikut
1. Bangkitkan data populasi
berukuran dengan m=2000 dan p=5 serta kondisi antar vektor x nya saling berkorelasi,
2. Bangkitkan data pencilan multivariat berukuran dengan m=300 dan p=5 serta kondisi antar vektor x nya saling berkorelasi,
3. Bangkitkan data sisaan (e) yang menyebar N(0,1). Selanjutnya hitung Y=atX+e, dengan at adalah vektor satuan yang merupakan parameter populasi yang sesungguhnya.
4. Ambil data contoh misalkan X(1) berukuran nxp dari X(0) dengan % dari n data diantaranya adalah data pencilan (X(out)).
5. Hitung matriks ragam-peragam dengan metode MLE dan MCD.
6. Hitung nilai akar ciri dari matriks ragam-peragam metode MLE dan MCD.
7. Lakukan analisis komponen utama berdasarkan ragam-peragam metode MLE dan MCD.
8. Regresikan skor komponen pada langkah 7 terhadap Y(1) dengan metode MKT. Vektor koefisien regresi yang diperoleh disimbolkan dengan βMKT(1).
9. Ulangi langkah 4-8 sampai r kali
10.Hitung nilai bias dan Mean Squared Error
dengan ) 18 ...( ... ... ... 0 ) ( 1 ( , ) 2,0.975 Lainnya i d Jika T C p MCD MCD
Skema algoritma FAST-MCD dapat dilihat pada Lampiran 2.
Pencilan
Data pencilan adalah suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Suryana). Identifikasi data pencilan pada data peubah ganda (multivariat) umumnya menggunakan jarak kuadrat Mahalanobis. Pengamatan ke-i didefinisikan sebagai data pencilan multivariat jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadratnya pada p buah peubah (Jhonson 1998).
dan ∑ menyatakan vektor rataan dan matriks ragam-peragam. Penggunaan jarak Mahalanobis untuk mengidentifikasi pencilan multivariat tidak maksimal jika data mengandung lebih dari satu pengamatan pencilan. Hal ini muncul akibat adanya pengaruh masking dan swamping (Rousseeuw & von Zomeren 1990; Rocke & Woodru 1996). Masking terjadi pada saat pengamatan pencilan tidak terdeteksi sebagai pencilan karena adanya pengamatan pencilan lain yang berdekatan. Swamping terjadi saat pengamatan bukan pencilan teridentifikasi sebagai pengamatan pencilan.
Masking maupun swamping dapat diatasi dengan menggunakan penduga kekar. MCD adalah salah satu penduga kekar untuk menduga vektor rataan dan matriks ragam-peragam yang digunakan untuk menduga jarak Mahalanobis sehingga disebut jarak kuadrat Mahalanobis kekar. Pengamatan ke-i diidentifikasi sebagai pencilan multivariatjika jarak Mahalanobis kekarnya lebih besar dari nilai khi-kuadratnya pada p buah peubah.
) dan menyatakan vektor rataan dan matriks ragam-peragam yang diduga dengan metode MCD.
Pembangkitan Data Pencilan Menurut Huber dkk (2005) untuk mendapatkan n data contoh yang terkontaminasi oleh data pencilan multivariat dapat dilakukan dengan cara membangkitkan sejumlah dari sebaran normal peubah ganda dengan parameter , sedangkan dibangkitkan dari sebaran normal peubah ganda dengan parameter . adalah rasio antara banyaknya pencilan multivariat dengan banyaknya data.
BAHAN DAN METODE
Penelitian ini akan menggunakan data simulasi. Adapun tahapan yang dilakukan adalah sebagai berikut
1. Bangkitkan data populasi
berukuran dengan m=2000 dan p=5 serta kondisi antar vektor x nya saling berkorelasi,
2. Bangkitkan data pencilan multivariat berukuran dengan m=300 dan p=5 serta kondisi antar vektor x nya saling berkorelasi,
3. Bangkitkan data sisaan (e) yang menyebar N(0,1). Selanjutnya hitung Y=atX+e, dengan at adalah vektor satuan yang merupakan parameter populasi yang sesungguhnya.
4. Ambil data contoh misalkan X(1) berukuran nxp dari X(0) dengan % dari n data diantaranya adalah data pencilan (X(out)).
5. Hitung matriks ragam-peragam dengan metode MLE dan MCD.
6. Hitung nilai akar ciri dari matriks ragam-peragam metode MLE dan MCD.
7. Lakukan analisis komponen utama berdasarkan ragam-peragam metode MLE dan MCD.
8. Regresikan skor komponen pada langkah 7 terhadap Y(1) dengan metode MKT. Vektor koefisien regresi yang diperoleh disimbolkan dengan βMKT(1).
9. Ulangi langkah 4-8 sampai r kali
10.Hitung nilai bias dan Mean Squared Error
11.Ulangi langkah 4-10 dengan rasio antara banyaknya pencilan multivariat terhadap
banyaknya data ( ) yang digunakan adalah 5%, 10%, 15% dan 20%
12.Ulangi langkah 4-11 dengan ukuran n=20 dan n=100.
13.Bandingkan nilai bias dan MSE yang dihasilkan dari masing-masing metode. Skema algoritma simulasi ini dapat dilihat pada Lampiran 3. Sedangkan software yang digunakan adalah SAS 9.1 dan Microsoft Excel.
HASIL DAN PEMBAHASAN