Dibimbing oleh dan .
Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragam-peragam terkecil. Dalam regresi komponen utama, matriks ragam-ragam-peragam ini digunakan untuk membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode MCD-MKT.
1
PENDAHULUAN Latar Belakang
Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.
Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.
Tujuan
Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.
TINJAUAN PUSTAKA Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah
Dalam notasi matriks dapat disajikan sebagai berikut:
dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).
Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk
dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V
PENDAHULUAN Latar Belakang
Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.
Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.
Tujuan
Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.
TINJAUAN PUSTAKA Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah
Dalam notasi matriks dapat disajikan sebagai berikut:
dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).
Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk
dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V
2
Keragaman komponen utama ke-i adalah:
dengan total keragaman komponen utama adalah . Sementara itu, persentase total keragaman yang mampu dijelaskan oleh komponen utama ke-i adalah .
Pada praktiknya, analisis komponen utama juga digunakan untuk mereduksi banyaknya p
peubah asal menjadi k peubah baru yang akan digunakan, dengan . Terdapat tiga metode untuk menentukan banyaknya k yang akan digunakan, yaitu sebagai berikut: 1. Scree plot, merupakan plot antara akar
ciri dengan k. Penentuan banyaknya k
yaitu ketika pada titik k, plot tersebut curam di kiri tapi landai di kanan.
2. Akar ciri, penentuan banyaknya k yang digunakan yaitu berdasarkan nilai akar cirinya. Kaiser (1960) menjelaskan bahwa komponen utama yang digunakan adalah komponen utama yang memiliki padanan akar ciri lebih dari satu. Jollife (1972) dalam studinya mengatakan bahwa nilai
cut off yang lebih baik bukanlah satu melainkan 0.7.
3. Persentase kumulatif total keragaman, penentuan banyaknya k yang akan digunakan yaitu ketika komponen utama yang pertama sampai dengan k telah memenuhi batas proporsi kumulatif total keragaman yang diinginkan. Tidak ada patokan baku mengenai berapa nilai minimum persentase kumulatif total keragaman yang digunakan, sehingga tergantung peneliti yang ingin menggunakannya. Jollife (2002) menyatakan nilai minimum persentase kumulatif total keragaman berkisar antara 70% sampai 90%.
Regresi Komponen Utama
RKU merupakan implementasi dari AKU. RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan satu atau lebih peubah komponen utama sebagai peubah penjelasnya.
Berikut ini disajikan model regresi komponen utama yang dibentuk dari model regresi linear berganda
sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah
dengan adalah suatu matriks yang berukuran nxk yang memuat sejumlah k
komponen utama, adalah vektor koefisien regresi komponen utama yang berukuran kx1.
Determinan Peragam Minimum
MCD merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks ragam-peragam (Rousseeuw et al
2004). MCD bertujuan mendapatkan h
pengamatan dari n objek yang memiliki matriks ragam-peragam terkecil, dengan h
merupakan bilangan bulat terbesar dari
(Rousseeuw & Driessen 1999). Algoritma MCD sebagai berikut:
1. Ambil secara acak amatan, kemudian hitung nilai tengah dan matriks ragam-peragamnya .
2. Inisiasikan k=0
3. Lakukan pengulangan untuk proses di bawah ini:
3.1.Definisikan dan
3.2.Hitung jarak setiap amatan dengan rumus
3.3.Urutkan data amatan dari yang terkecil hingga terbesar dengan acuan
.
3.4.Pilih sebanyak amatan yang memiliki terkecil dan tempatkan dalam himpunan bagian H
3.5.
3.6.Hitung nilai tengah dan matriks ragam-peragam dari sejumlah h
amatan yang terambil
4. Lakukan langkah 3 sampai atau .
5. Himpunan bagian H terakhir yang terbentuk adalah himpunan bagian yang memiliki determinan matriks ragam-peragam terkecil, sehingga dan
6. Selanjutnya, dilakukan tahap pembobotan:
Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).
dimana dan
.
Pencilan
Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.
METODOLOGI Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku .
Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:
1. Membangkitkan data dan seperti yang telah dijelaskan di atas.
2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara
mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam dengan metode MCD.
5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.
6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.
9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).
10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.
HASIL DAN PEMBAHASAN Analisis Komponen Utama
Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
3
Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).
dimana dan
.
Pencilan
Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.
METODOLOGI Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku .
Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:
1. Membangkitkan data dan seperti yang telah dijelaskan di atas.
2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara
mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam dengan metode MCD.
5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.
6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.
9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).
10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.
HASIL DAN PEMBAHASAN Analisis Komponen Utama
Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).
dimana dan
.
Pencilan
Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.
METODOLOGI Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku .
Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:
1. Membangkitkan data dan seperti yang telah dijelaskan di atas.
2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara
mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam dengan metode MCD.
5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.
6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.
9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).
10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.
HASIL DAN PEMBAHASAN Analisis Komponen Utama
Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
4
Gambar 1 Perbandingan nilai bias 1 pada
MCD-MKTT dan MCD-MKT
Gambar 2 Perbandingan nilai KTG 1 pada
MCD-MKTT dan MCD-MKT Pendugaan koefisien regresi 1 yang
dihasilkan oleh metode MCD-MKTT lebih baik dibandingkan dengan metode MCD-MKT. Hal ini dikarenakan pada metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan dengan MCD-MKT seperti yang terlihat pada Gambar 1 dan 2. Seiring dengan peningkatan proporsi pencilan yang diberikan pada data contoh, bias dan KTG yang dihasilkan metode MCD-MKT juga mengalami peningkatan, berbeda
dengan metode MCD-MKTT yang
menghasilkan nilai bias dan KTG yang relatif stabil.
Gambar 3 Perbandingan nilai bias 2 pada
MCD-MKTT dan MCD-MKT
Gambar 4 Perbandingan nilai KTG 2 pada
MCD-MKTT dan MCD-MKT Gambar 3 dan 4 menunjukkan nilai bias dan KTG pada pendugaan koefisien regresi
2. Gambar tersebut dapat menjelaskan bahwa
nilai bias dan KTG yang dihasilkan oleh
metode MCD-MKTT lebih kecil
dibandingkan dengan metode MCD-MKT. Pada gambar di atas terlihat bahwa walaupun terdapat peningkatan proporsi pencilan pada data contoh, metode MCD-MKTT memiliki performa yang stabil, seperti yang ditunjukkan pada nilai bias dan KTG. Hal ini berbeda dengan metode MCD-MKT yang memperlihatkan pola peningkatan nilai bias dan KTG seiring dengan peningkatan proporsi pencilan pada data contoh.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%)
MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
[image:8.595.116.296.85.477.2] [image:8.595.341.520.87.267.2] [image:8.595.328.501.298.484.2]Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG
metode MCD-MKTT lebih kecil
dibandingkan metode MCD-MKT.
Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT
Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.
KESIMPULAN
Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
[image:9.595.329.502.88.264.2] [image:9.595.117.290.89.268.2] [image:9.595.116.294.95.482.2] [image:9.595.329.500.295.484.2]5
Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG
metode MCD-MKTT lebih kecil
dibandingkan metode MCD-MKT.
Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT
Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.
KESIMPULAN
Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
[image:10.595.329.502.88.264.2] [image:10.595.117.290.89.268.2] [image:10.595.116.294.95.482.2] [image:10.595.329.500.295.484.2]Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.
DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi
Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.
Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.
Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.
Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.
Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.
Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.
MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA
MAGRI HANDOKO
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.
DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi
Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.
Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.
Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.
Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.
Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.
Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.
MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA
MAGRI HANDOKO
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Dibimbing oleh dan .
Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragam-peragam terkecil. Dalam regresi komponen utama, matriks ragam-ragam-peragam ini digunakan untuk membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode MCD-MKT.
MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI
KOMPONEN UTAMA
MAGRI HANDOKO
Skripsi
sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada
Departemen Statistika
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Menyetujui,
Pembimbing I Pembimbing II
Dr. Totong Martono Dr. Ir. Anik Djuraidah, MS
NIP. 19530428 197802 1 001 NIP. 19630515 198703 2 002
Mengetahui,
Kepala Departemen Statistika Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto, MS NIP. 19650421 199002 1 001
v
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 4 Nopember 1988 sebagai anak pertama dari tiga bersaudara dari pasangan Johan Arifin dan Nurhayati Adiantum Koniyati. Penulis memulai pendidikan formalnya di SDI Al-Falah II pagi Jakarta dan lulus pada tahun 2000. Penulis melanjutkan pendidikan di MTS Al-Falah Jakarta dan lulus tahun 2003. Pada tahun 2006 penulis menyelesaikan pendidikan menengah atas di MA Al-Falah Jakarta dan pada tahun yang sama diterima sebagai mahasiswa Institut Pertanian Bogor. Setelah satu tahun berada di Tingkat Persiapan Bersama (TPB), penulis akhirnya diterima di Departemen Statistika Institut Pertanian Bogor.
Selama mengikuti perkuliahan, penulis aktif di Dewan Perwakilan Mahasiswa TPB IPB sebagai anggota komisi Pengembangan Sumberdaya Manusia pada periode 2006/2007 dan di Gamma Sigma Beta (GSB) sebagai staf departemen Sains pada tahun 2007/2008 serta terdaftar sebagai anggota
KATA PENGANTAR
Segala puji bagi Allah atas segala limpahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi Muhammad SAW, kepada keluarganya, sahabatnya, dan pengikutnya yang setia hingga akhir zaman.
Banyak ilmu, pelajaran dan masukan yang penulis dapatkan dan rasakan selama proses penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih kepada:
1. Bapak Dr. Totong Martono dan Ibu Dr. Ir. Anik Djuraidah, M.S selaku pembimbing I dan pembimbing II yang telah meluangkan waktu, serta memberikan saran dan masukan yang bermanfaat bagi penulis.
2. Kedua orang tua, Ayah dan Mama atas segala doa, kasih sayang dukungan dan pengertian yang telah diberikan kepada penulis.
3. Kementrian Agama yang telah memberikan kesempatan dan beasiswa kepada penulis untuk kuliah di IPB.
4. Seluruh dosen Departemen Statistika IPB atas ilmu dan nasihat yang bermanfaat bagi penulis serta seluruh staf Departemen Statistika IPB yang telah membantu penulis selama belajar di Statistika IPB
5. Serta kepada semua pihak yang telah membantu penulis dalam proses penyusunan karya ilmiah ini, yang tidak dapat penulis tuliskan satu per satu.
Akhir kata, penulis mengharapkan kritik dan saran yang bersifat membangun untuk karya ilmiah ini. Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2011
vii
DAFTAR ISI
Halaman
DAFTAR GAMBAR ... viii
DAFTAR LAMPIRAN ... viii
PENDAHULUAN
Latar Belakang………..
... 1
Tujuan ... 1
TINJAUAN PUSTAKA
Analisis Regresi Linear Berganda ... 1
Multikolinearitas ... 1
Analisis Komponen Utama ... 1
Regresi Komponen Utama ... 2
Minimum Covariance Determinant
... 2
Metode Kuadrat Terkecil Terpotong ... 3
Pencilan ... 3
METODOLOGI
Karakteristik Data Bangkitan... 3
Metode ... 3
HASIL DAN PEMBAHASAN
Analisis Komponen Utama ... 3
Bias dan Kuadrat Tengah Galat (KTG) dari
... 3
KESIMPULAN ... 5
DAFTAR PUSTAKA ... 6
DAFTAR GAMBAR
Halaman
1 Perbandingan nilai bias 1 pada MCD-MKTT dan MCD-MKT ... 4
2 Perbandingan nilai KTG 1 pada MCD-MKTT dan MCD-MKT ... 4
3 Perbandingan nilai bias 2 pada MCD-MKTT dan MCD-MKT ... 4
4 Perbandingan nilai KTG 2 pada MCD-MKTT dan MCD-MKT ... 4
5 Perbandingan nilai bias 3 pada MCD-MKTT dan MCD-MKT ... 5
6 Perbandingan nilai KTG 3 pada MCD-MKTT dan MCD-MKT ... 5
7 Perbandingan nilai bias 4 pada MCD-MKTT dan MCD-MKT ... 5
8 Perbandingan nilai KTG 4 pada MCD-MKTT dan MCD-MKT ... 5
DAFTAR LAMPIRAN
Halaman 1 Matriks korelasi ... 72 Matriks ragam-peragam ... 7
3 Nilai bias metode MCD-MKT dan MCD-MKTT... 7
1
PENDAHULUAN Latar Belakang
Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.
Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.
Tujuan
Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.
TINJAUAN PUSTAKA Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah
Dalam notasi matriks dapat disajikan sebagai berikut:
dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).
Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk
dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V
Keragaman komponen utama ke-i adalah:
dengan total keragaman komponen utama adalah . Sementara itu, persentase total keragaman yang mampu dijelaskan oleh komponen utama ke-i adalah .
Pada praktiknya, analisis komponen utama juga digunakan untuk mereduksi banyaknya p
peubah asal menjadi k peubah baru yang akan digunakan, dengan . Terdapat tiga metode untuk menentukan banyaknya k yang akan digunakan, yaitu sebagai berikut: 1. Scree plot, merupakan plot antara akar
ciri dengan k. Penentuan banyaknya k
yaitu ketika pada titik k, plot tersebut curam di kiri tapi landai di kanan.
2. Akar ciri, penentuan banyaknya k yang digunakan yaitu berdasarkan nilai akar cirinya. Kaiser (1960) menjelaskan bahwa komponen utama yang digunakan adalah komponen utama yang memiliki padanan akar ciri lebih dari satu. Jollife (1972) dalam studinya mengatakan bahwa nilai
cut off yang lebih baik bukanlah satu melainkan 0.7.
3. Persentase kumulatif total keragaman, penentuan banyaknya k yang akan digunakan yaitu ketika komponen utama yang pertama sampai dengan k telah memenuhi batas proporsi kumulatif total keragaman yang diinginkan. Tidak ada patokan baku mengenai berapa nilai minimum persentase kumulatif total keragaman yang digunakan, sehingga tergantung peneliti yang ingin menggunakannya. Jollife (2002) menyatakan nilai minimum persentase kumulatif total keragaman berkisar antara 70% sampai 90%.
Regresi Komponen Utama
RKU merupakan implementasi dari AKU. RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan satu atau lebih peubah komponen utama sebagai peubah penjelasnya.
Berikut ini disajikan model regresi komponen utama yang dibentuk dari model regresi linear berganda
sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah
dengan adalah suatu matriks yang berukuran nxk yang memuat sejumlah k
komponen utama, adalah vektor koefisien regresi komponen utama yang berukuran kx1.
Determinan Peragam Minimum
MCD merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks ragam-peragam (Rousseeuw et al
2004). MCD bertujuan mendapatkan h
pengamatan dari n objek yang memiliki matriks ragam-peragam terkecil, dengan h
merupakan bilangan bulat terbesar dari
(Rousseeuw & Driessen 1999). Algoritma MCD sebagai berikut:
1. Ambil secara acak amatan, kemudian hitung nilai tengah dan matriks ragam-peragamnya .
2. Inisiasikan k=0
3. Lakukan pengulangan untuk proses di bawah ini:
3.1.Definisikan dan
3.2.Hitung jarak setiap amatan dengan rumus
3.3.Urutkan data amatan dari yang terkecil hingga terbesar dengan acuan
.
3.4.Pilih sebanyak amatan yang memiliki terkecil dan tempatkan dalam himpunan bagian H
3.5.
3.6.Hitung nilai tengah dan matriks ragam-peragam dari sejumlah h
amatan yang terambil
4. Lakukan langkah 3 sampai atau .
5. Himpunan bagian H terakhir yang terbentuk adalah himpunan bagian yang memiliki determinan matriks ragam-peragam terkecil, sehingga dan
6. Selanjutnya, dilakukan tahap pembobotan:
3
Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).
dimana dan
.
Pencilan
Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.
METODOLOGI Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku .
Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:
1. Membangkitkan data dan seperti yang telah dijelaskan di atas.
2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara
mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam dengan metode MCD.
5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.
6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.
9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).
10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.
HASIL DAN PEMBAHASAN Analisis Komponen Utama
Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
Gambar 1 Perbandingan nilai bias 1 pada
MCD-MKTT dan MCD-MKT
Gambar 2 Perbandingan nilai KTG 1 pada
MCD-MKTT dan MCD-MKT Pendugaan koefisien regresi 1 yang
dihasilkan oleh metode MCD-MKTT lebih baik dibandingkan dengan metode MCD-MKT. Hal ini dikarenakan pada metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan dengan MCD-MKT seperti yang terlihat pada Gambar 1 dan 2. Seiring dengan peningkatan proporsi pencilan yang diberikan pada data contoh, bias dan KTG yang dihasilkan metode MCD-MKT juga mengalami peningkatan, berbeda
dengan metode MCD-MKTT yang
menghasilkan nilai bias dan KTG yang relatif stabil.
Gambar 3 Perbandingan nilai bias 2 pada
MCD-MKTT dan MCD-MKT
Gambar 4 Perbandingan nilai KTG 2 pada
MCD-MKTT dan MCD-MKT Gambar 3 dan 4 menunjukkan nilai bias dan KTG pada pendugaan koefisien regresi
2. Gambar tersebut dapat menjelaskan bahwa
nilai bias dan KTG yang dihasilkan oleh
metode MCD-MKTT lebih kecil
dibandingkan dengan metode MCD-MKT. Pada gambar di atas terlihat bahwa walaupun terdapat peningkatan proporsi pencilan pada data contoh, metode MCD-MKTT memiliki performa yang stabil, seperti yang ditunjukkan pada nilai bias dan KTG. Hal ini berbeda dengan metode MCD-MKT yang memperlihatkan pola peningkatan nilai bias dan KTG seiring dengan peningkatan proporsi pencilan pada data contoh.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%)
MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
[image:25.595.116.296.85.477.2] [image:25.595.341.520.87.267.2] [image:25.595.328.501.298.484.2]5
Gambar 5 Perbandingan nilai bias 3 pada
MCD-MKTT dan MCD-MKT
Gambar 6 Perbandingan nilai KTG 3 pada
MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik
dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG
metode MCD-MKTT lebih kecil
dibandingkan metode MCD-MKT.
Gambar 7 Perbandingan nilai bias 4 pada
MCD-MKTT dan MCD-MKT
Gambar 8 Perbandingan nilai KTG 4 pada
MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang
kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan
KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.
KESIMPULAN
Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 2 3 4 5 6 7 8 9 10
B
ia
s
Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
1 2 3 4 5 6 7 8 9 10
B
ia
s
[image:26.595.329.502.88.264.2] [image:26.595.117.290.89.268.2] [image:26.595.116.294.95.482.2] [image:26.595.329.500.295.484.2]Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.
DAFTAR PUSTAKA
Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi
Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.
Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.
Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.
Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.
Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.
Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.
a
1.00 0.89 0.97 0.90 0.89 1.00 0.86 0.93 0.97 0.86 1.00 0.95 0.90 0.93 0.95 1.00
4.00 3.56 3.88 3.60 3.56 4.00 3.44 3.72 3.88 3.44 4.00 3.80 3.60 3.72 3.80 4.00 Lampiran 1. Matriks korelasi
Lampiran 2. Matriks ragam-peragam
Lampiran 3. Nilai bias metode MCD-MKT dan MCD-MKTT. Proporsi
pencilan
MCD-MKTT MCD-MKT
β1 β2 β3 β4 β1 β2 β3 β4
1% 0.0356 0.0914 0.0301 0.0333 0.3970 0.4319 0.3559 0.3539 2% 0.0329 0.0923 0.0297 0.0311 0.5592 0.5862 0.5306 0.5299 3% 0.0332 0.0890 0.0279 0.0303 0.6450 0.6653 0.6224 0.6214 4% 0.0306 0.0890 0.0279 0.0289 0.7077 0.7251 0.6902 0.6897 5% 0.0305 0.0887 0.0244 0.0244 0.7535 0.7681 0.7396 0.7395 6% 0.0282 0.0894 0.0251 0.0231 0.7886 0.8019 0.7770 0.7775 7% 0.0280 0.0831 0.0191 0.0183 0.8325 0.8420 0.8244 0.8245 8% 0.0284 0.0850 0.0209 0.0210 0.8396 0.8489 0.8315 0.8315 9% 0.0242 0.0840 0.0198 0.0147 0.8496 0.8589 0.8427 0.8435 10% 0.0277 0.0800 0.0165 0.0152 0.8557 0.8634 0.8491 0.8491 Lampiran 4. Nilai MSE metode MCD-MKT dan MCD-MKTT.
Proporsi pencilan
MCD-MKTT MCD-MKT
β1 β2 β3 β4 β1 β2 β3 β4
a
1.00 0.89 0.97 0.90 0.89 1.00 0.86 0.93 0.97 0.86 1.00 0.95 0.90 0.93 0.95 1.00
4.00 3.56 3.88 3.60 3.56 4.00 3.44 3.72 3.88 3.44 4.00 3.80 3.60 3.72 3.80 4.00 Lampiran 1. Matriks korelasi
Lampiran 2. Matriks ragam-peragam
Lampiran 3. Nilai bias metode MCD-MKT dan MCD-MKTT. Proporsi
pencilan
MCD-MKTT MCD-MKT
β1 β2 β3 β4 β1 β2 β3 β4
1% 0.0356 0.0914 0.0301 0.0333 0.3970 0.4319 0.3559 0.3539 2% 0.0329 0.0923 0.0297 0.0311 0.5592 0.5862 0.5306 0.5299 3% 0.0332 0.0890 0.0279 0.0303 0.6450 0.6653 0.6224 0.6214 4% 0.0306 0.0890 0.0279 0.0289 0.7077 0.7251 0.6902 0.6897 5% 0.0305 0.0887 0.0244 0.0244 0.7535 0.7681 0.7396 0.7395 6% 0.0282 0.0894 0.0251 0.0231 0.7886 0.8019 0.7770 0.7775 7% 0.0280 0.0831 0.0191 0.0183 0.8325 0.8420 0.8244 0.8245 8% 0.0284 0.0850 0.0209 0.0210 0.8396 0.8489 0.8315 0.8315 9% 0.0242 0.0840 0.0198 0.0147 0.8496 0.8589 0.8427 0.8435 10% 0.0277 0.0800 0.0165 0.0152 0.8557 0.8634 0.8491 0.8491 Lampiran 4. Nilai MSE metode MCD-MKT dan MCD-MKTT.
Proporsi pencilan
MCD-MKTT MCD-MKT
β1 β2 β3 β4 β1 β2 β3 β4