• Tidak ada hasil yang ditemukan

Manajemen data pencilan pada analisis regresi komponen utama

N/A
N/A
Protected

Academic year: 2017

Membagikan "Manajemen data pencilan pada analisis regresi komponen utama"

Copied!
31
0
0

Teks penuh

(1)

Dibimbing oleh dan .

Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragam-peragam terkecil. Dalam regresi komponen utama, matriks ragam-ragam-peragam ini digunakan untuk membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode MCD-MKT.

(2)

1

PENDAHULUAN Latar Belakang

Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).

Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.

Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.

Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.

Tujuan

Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.

TINJAUAN PUSTAKA Analisis Regresi Linear Berganda

Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan

rataannya adalah

Dalam notasi matriks dapat disajikan sebagai berikut:

dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).

Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).

Multikolinearitas

Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).

Analisis Kompnen Utama

Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk

dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V

(3)

PENDAHULUAN Latar Belakang

Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).

Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.

Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.

Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.

Tujuan

Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.

TINJAUAN PUSTAKA Analisis Regresi Linear Berganda

Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan

rataannya adalah

Dalam notasi matriks dapat disajikan sebagai berikut:

dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).

Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).

Multikolinearitas

Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).

Analisis Kompnen Utama

Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk

dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V

(4)

2

Keragaman komponen utama ke-i adalah:

dengan total keragaman komponen utama adalah . Sementara itu, persentase total keragaman yang mampu dijelaskan oleh komponen utama ke-i adalah .

Pada praktiknya, analisis komponen utama juga digunakan untuk mereduksi banyaknya p

peubah asal menjadi k peubah baru yang akan digunakan, dengan . Terdapat tiga metode untuk menentukan banyaknya k yang akan digunakan, yaitu sebagai berikut: 1. Scree plot, merupakan plot antara akar

ciri dengan k. Penentuan banyaknya k

yaitu ketika pada titik k, plot tersebut curam di kiri tapi landai di kanan.

2. Akar ciri, penentuan banyaknya k yang digunakan yaitu berdasarkan nilai akar cirinya. Kaiser (1960) menjelaskan bahwa komponen utama yang digunakan adalah komponen utama yang memiliki padanan akar ciri lebih dari satu. Jollife (1972) dalam studinya mengatakan bahwa nilai

cut off yang lebih baik bukanlah satu melainkan 0.7.

3. Persentase kumulatif total keragaman, penentuan banyaknya k yang akan digunakan yaitu ketika komponen utama yang pertama sampai dengan k telah memenuhi batas proporsi kumulatif total keragaman yang diinginkan. Tidak ada patokan baku mengenai berapa nilai minimum persentase kumulatif total keragaman yang digunakan, sehingga tergantung peneliti yang ingin menggunakannya. Jollife (2002) menyatakan nilai minimum persentase kumulatif total keragaman berkisar antara 70% sampai 90%.

Regresi Komponen Utama

RKU merupakan implementasi dari AKU. RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan satu atau lebih peubah komponen utama sebagai peubah penjelasnya.

Berikut ini disajikan model regresi komponen utama yang dibentuk dari model regresi linear berganda

sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah

dengan adalah suatu matriks yang berukuran nxk yang memuat sejumlah k

komponen utama, adalah vektor koefisien regresi komponen utama yang berukuran kx1.

Determinan Peragam Minimum

MCD merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks ragam-peragam (Rousseeuw et al

2004). MCD bertujuan mendapatkan h

pengamatan dari n objek yang memiliki matriks ragam-peragam terkecil, dengan h

merupakan bilangan bulat terbesar dari

(Rousseeuw & Driessen 1999). Algoritma MCD sebagai berikut:

1. Ambil secara acak amatan, kemudian hitung nilai tengah dan matriks ragam-peragamnya .

2. Inisiasikan k=0

3. Lakukan pengulangan untuk proses di bawah ini:

3.1.Definisikan dan

3.2.Hitung jarak setiap amatan dengan rumus

3.3.Urutkan data amatan dari yang terkecil hingga terbesar dengan acuan

.

3.4.Pilih sebanyak amatan yang memiliki terkecil dan tempatkan dalam himpunan bagian H

3.5.

3.6.Hitung nilai tengah dan matriks ragam-peragam dari sejumlah h

amatan yang terambil

4. Lakukan langkah 3 sampai atau .

5. Himpunan bagian H terakhir yang terbentuk adalah himpunan bagian yang memiliki determinan matriks ragam-peragam terkecil, sehingga dan

6. Selanjutnya, dilakukan tahap pembobotan:

(5)

Metode Kuadrat Terkecil Terpotong

MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).

dimana dan

.

Pencilan

Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.

METODOLOGI Karakteristik Data Bangkitan

Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan

n=100 dan p=4.

Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan

ini berukuran mxp, dengan m=5000 dan

p=4. Kemudian dibangkitkan juga data sisaan

dari sebaran normal dengan nilai tengah

dan simpangan baku .

Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.

Metode

Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:

1. Membangkitkan data dan seperti yang telah dijelaskan di atas.

2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara

mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.

4. Menghitung matriks ragam-peragam dengan metode MCD.

5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.

6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100

kali.

8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.

9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).

10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN Analisis Komponen Utama

Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.

Bias dan KTG dari

Nilai bias dan KTG yang diperoleh dari

metode MCD-MKT dan MCD-MKTT

(6)

3

Metode Kuadrat Terkecil Terpotong

MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).

dimana dan

.

Pencilan

Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.

METODOLOGI Karakteristik Data Bangkitan

Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan

n=100 dan p=4.

Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan

ini berukuran mxp, dengan m=5000 dan

p=4. Kemudian dibangkitkan juga data sisaan

dari sebaran normal dengan nilai tengah

dan simpangan baku .

Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.

Metode

Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:

1. Membangkitkan data dan seperti yang telah dijelaskan di atas.

2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara

mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.

4. Menghitung matriks ragam-peragam dengan metode MCD.

5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.

6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100

kali.

8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.

9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).

10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN Analisis Komponen Utama

Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.

Bias dan KTG dari

Nilai bias dan KTG yang diperoleh dari

metode MCD-MKT dan MCD-MKTT

(7)

Metode Kuadrat Terkecil Terpotong

MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).

dimana dan

.

Pencilan

Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.

METODOLOGI Karakteristik Data Bangkitan

Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan

n=100 dan p=4.

Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan

ini berukuran mxp, dengan m=5000 dan

p=4. Kemudian dibangkitkan juga data sisaan

dari sebaran normal dengan nilai tengah

dan simpangan baku .

Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.

Metode

Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:

1. Membangkitkan data dan seperti yang telah dijelaskan di atas.

2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara

mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.

4. Menghitung matriks ragam-peragam dengan metode MCD.

5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.

6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100

kali.

8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.

9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).

10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN Analisis Komponen Utama

Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.

Bias dan KTG dari

Nilai bias dan KTG yang diperoleh dari

metode MCD-MKT dan MCD-MKTT

(8)

4

Gambar 1 Perbandingan nilai bias 1 pada

MCD-MKTT dan MCD-MKT

Gambar 2 Perbandingan nilai KTG 1 pada

MCD-MKTT dan MCD-MKT Pendugaan koefisien regresi 1 yang

dihasilkan oleh metode MCD-MKTT lebih baik dibandingkan dengan metode MCD-MKT. Hal ini dikarenakan pada metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan dengan MCD-MKT seperti yang terlihat pada Gambar 1 dan 2. Seiring dengan peningkatan proporsi pencilan yang diberikan pada data contoh, bias dan KTG yang dihasilkan metode MCD-MKT juga mengalami peningkatan, berbeda

dengan metode MCD-MKTT yang

menghasilkan nilai bias dan KTG yang relatif stabil.

Gambar 3 Perbandingan nilai bias 2 pada

MCD-MKTT dan MCD-MKT

Gambar 4 Perbandingan nilai KTG 2 pada

MCD-MKTT dan MCD-MKT Gambar 3 dan 4 menunjukkan nilai bias dan KTG pada pendugaan koefisien regresi

2. Gambar tersebut dapat menjelaskan bahwa

nilai bias dan KTG yang dihasilkan oleh

metode MCD-MKTT lebih kecil

dibandingkan dengan metode MCD-MKT. Pada gambar di atas terlihat bahwa walaupun terdapat peningkatan proporsi pencilan pada data contoh, metode MCD-MKTT memiliki performa yang stabil, seperti yang ditunjukkan pada nilai bias dan KTG. Hal ini berbeda dengan metode MCD-MKT yang memperlihatkan pola peningkatan nilai bias dan KTG seiring dengan peningkatan proporsi pencilan pada data contoh.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%)

MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

[image:8.595.116.296.85.477.2] [image:8.595.341.520.87.267.2] [image:8.595.328.501.298.484.2]
(9)

Gambar 5 Perbandingan nilai bias 3 pada

MCD-MKTT dan MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada

MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik

dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG

metode MCD-MKTT lebih kecil

dibandingkan metode MCD-MKT.

Gambar 7 Perbandingan nilai bias 4 pada

MCD-MKTT dan MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada

MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang

kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan

KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.

KESIMPULAN

Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

[image:9.595.329.502.88.264.2] [image:9.595.117.290.89.268.2] [image:9.595.116.294.95.482.2] [image:9.595.329.500.295.484.2]
(10)

5

Gambar 5 Perbandingan nilai bias 3 pada

MCD-MKTT dan MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada

MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik

dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG

metode MCD-MKTT lebih kecil

dibandingkan metode MCD-MKT.

Gambar 7 Perbandingan nilai bias 4 pada

MCD-MKTT dan MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada

MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang

kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan

KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.

KESIMPULAN

Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

[image:10.595.329.502.88.264.2] [image:10.595.117.290.89.268.2] [image:10.595.116.294.95.482.2] [image:10.595.329.500.295.484.2]
(11)

Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.

DAFTAR PUSTAKA

Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi

Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.

Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.

Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.

Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.

Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.

Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.

(12)

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI

KOMPONEN UTAMA

MAGRI HANDOKO

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(13)

Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.

DAFTAR PUSTAKA

Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi

Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.

Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.

Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.

Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.

Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.

Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.

(14)

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI

KOMPONEN UTAMA

MAGRI HANDOKO

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(15)

Dibimbing oleh dan .

Metode Determinan Peragam Minimum (MCD) merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan. Metode ini membentuk matriks ragam-peragam dengan cara menemukan himpunan bagian amatan yang memiliki determinan matriks ragam-peragam terkecil. Dalam regresi komponen utama, matriks ragam-ragam-peragam ini digunakan untuk membentuk komponen utama yang akan diregresikan dengan peubah respon. Untuk pendugaan parameter regresi biasanya digunakan Metode Kuadrat Terkecil (MKT). Metode ini sensitif terhadap pencilan, padahal terdapat juga kemungkinan adanya pencilan ketika komponen utama diregresikan dengan peubah respon. Oleh karena itu digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. MKTT ini menduga parameter regresi dengan menggunakan himpunan bagian amatan yang memiliki jumlah kuadrat sisaan terkecil. Pada penelitian ini, peneliti menerapkan dua metode untuk menduga parameter regresi yaitu metode MCD-MKT dan MCD-MKTT. Kedua metode tersebut dicobakan pada data yang dikontaminasi pencilan dengan proporsi 1% sampai 10%. Hal ini dilakukan untuk melihat kekekaran kedua metode tersebut. Hasil yang diperoleh dari penelitian ini menunjukkan bahwa metode MCD-MKTT menghasilkan pendugaan yang lebih kekar dibandingkan metode MCD-MKT.

(16)

MANAJEMEN DATA PENCILAN PADA ANALISIS REGRESI

KOMPONEN UTAMA

MAGRI HANDOKO

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada

Departemen Statistika

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

(17)

Menyetujui,

Pembimbing I Pembimbing II

Dr. Totong Martono Dr. Ir. Anik Djuraidah, MS

NIP. 19530428 197802 1 001 NIP. 19630515 198703 2 002

Mengetahui,

Kepala Departemen Statistika Institut Pertanian Bogor

Dr. Ir. Hari Wijayanto, MS NIP. 19650421 199002 1 001

(18)

v

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 4 Nopember 1988 sebagai anak pertama dari tiga bersaudara dari pasangan Johan Arifin dan Nurhayati Adiantum Koniyati. Penulis memulai pendidikan formalnya di SDI Al-Falah II pagi Jakarta dan lulus pada tahun 2000. Penulis melanjutkan pendidikan di MTS Al-Falah Jakarta dan lulus tahun 2003. Pada tahun 2006 penulis menyelesaikan pendidikan menengah atas di MA Al-Falah Jakarta dan pada tahun yang sama diterima sebagai mahasiswa Institut Pertanian Bogor. Setelah satu tahun berada di Tingkat Persiapan Bersama (TPB), penulis akhirnya diterima di Departemen Statistika Institut Pertanian Bogor.

Selama mengikuti perkuliahan, penulis aktif di Dewan Perwakilan Mahasiswa TPB IPB sebagai anggota komisi Pengembangan Sumberdaya Manusia pada periode 2006/2007 dan di Gamma Sigma Beta (GSB) sebagai staf departemen Sains pada tahun 2007/2008 serta terdaftar sebagai anggota

(19)

KATA PENGANTAR

Segala puji bagi Allah atas segala limpahan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah ini. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi Muhammad SAW, kepada keluarganya, sahabatnya, dan pengikutnya yang setia hingga akhir zaman.

Banyak ilmu, pelajaran dan masukan yang penulis dapatkan dan rasakan selama proses penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih kepada:

1. Bapak Dr. Totong Martono dan Ibu Dr. Ir. Anik Djuraidah, M.S selaku pembimbing I dan pembimbing II yang telah meluangkan waktu, serta memberikan saran dan masukan yang bermanfaat bagi penulis.

2. Kedua orang tua, Ayah dan Mama atas segala doa, kasih sayang dukungan dan pengertian yang telah diberikan kepada penulis.

3. Kementrian Agama yang telah memberikan kesempatan dan beasiswa kepada penulis untuk kuliah di IPB.

4. Seluruh dosen Departemen Statistika IPB atas ilmu dan nasihat yang bermanfaat bagi penulis serta seluruh staf Departemen Statistika IPB yang telah membantu penulis selama belajar di Statistika IPB

5. Serta kepada semua pihak yang telah membantu penulis dalam proses penyusunan karya ilmiah ini, yang tidak dapat penulis tuliskan satu per satu.

Akhir kata, penulis mengharapkan kritik dan saran yang bersifat membangun untuk karya ilmiah ini. Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2011

(20)

vii

DAFTAR ISI

Halaman

DAFTAR GAMBAR ... viii

DAFTAR LAMPIRAN ... viii

PENDAHULUAN

Latar Belakang………..

... 1

Tujuan ... 1

TINJAUAN PUSTAKA

Analisis Regresi Linear Berganda ... 1

Multikolinearitas ... 1

Analisis Komponen Utama ... 1

Regresi Komponen Utama ... 2

Minimum Covariance Determinant

... 2

Metode Kuadrat Terkecil Terpotong ... 3

Pencilan ... 3

METODOLOGI

Karakteristik Data Bangkitan... 3

Metode ... 3

HASIL DAN PEMBAHASAN

Analisis Komponen Utama ... 3

Bias dan Kuadrat Tengah Galat (KTG) dari

... 3

KESIMPULAN ... 5

DAFTAR PUSTAKA ... 6

(21)

DAFTAR GAMBAR

Halaman

1 Perbandingan nilai bias 1 pada MCD-MKTT dan MCD-MKT ... 4

2 Perbandingan nilai KTG 1 pada MCD-MKTT dan MCD-MKT ... 4

3 Perbandingan nilai bias 2 pada MCD-MKTT dan MCD-MKT ... 4

4 Perbandingan nilai KTG 2 pada MCD-MKTT dan MCD-MKT ... 4

5 Perbandingan nilai bias 3 pada MCD-MKTT dan MCD-MKT ... 5

6 Perbandingan nilai KTG 3 pada MCD-MKTT dan MCD-MKT ... 5

7 Perbandingan nilai bias 4 pada MCD-MKTT dan MCD-MKT ... 5

8 Perbandingan nilai KTG 4 pada MCD-MKTT dan MCD-MKT ... 5

DAFTAR LAMPIRAN

Halaman 1 Matriks korelasi ... 7

2 Matriks ragam-peragam ... 7

3 Nilai bias metode MCD-MKT dan MCD-MKTT... 7

(22)

1

PENDAHULUAN Latar Belakang

Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992).

Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponen-komponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan.

Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar.

Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT.

Tujuan

Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCD-MKT dan MCD-MCD-MKTT terhadap data yang dikontaminasi dengan pencilan.

TINJAUAN PUSTAKA Analisis Regresi Linear Berganda

Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan

rataannya adalah

Dalam notasi matriks dapat disajikan sebagai berikut:

dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009).

Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005).

Multikolinearitas

Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989).

Analisis Kompnen Utama

Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk

dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V

(23)

Keragaman komponen utama ke-i adalah:

dengan total keragaman komponen utama adalah . Sementara itu, persentase total keragaman yang mampu dijelaskan oleh komponen utama ke-i adalah .

Pada praktiknya, analisis komponen utama juga digunakan untuk mereduksi banyaknya p

peubah asal menjadi k peubah baru yang akan digunakan, dengan . Terdapat tiga metode untuk menentukan banyaknya k yang akan digunakan, yaitu sebagai berikut: 1. Scree plot, merupakan plot antara akar

ciri dengan k. Penentuan banyaknya k

yaitu ketika pada titik k, plot tersebut curam di kiri tapi landai di kanan.

2. Akar ciri, penentuan banyaknya k yang digunakan yaitu berdasarkan nilai akar cirinya. Kaiser (1960) menjelaskan bahwa komponen utama yang digunakan adalah komponen utama yang memiliki padanan akar ciri lebih dari satu. Jollife (1972) dalam studinya mengatakan bahwa nilai

cut off yang lebih baik bukanlah satu melainkan 0.7.

3. Persentase kumulatif total keragaman, penentuan banyaknya k yang akan digunakan yaitu ketika komponen utama yang pertama sampai dengan k telah memenuhi batas proporsi kumulatif total keragaman yang diinginkan. Tidak ada patokan baku mengenai berapa nilai minimum persentase kumulatif total keragaman yang digunakan, sehingga tergantung peneliti yang ingin menggunakannya. Jollife (2002) menyatakan nilai minimum persentase kumulatif total keragaman berkisar antara 70% sampai 90%.

Regresi Komponen Utama

RKU merupakan implementasi dari AKU. RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan satu atau lebih peubah komponen utama sebagai peubah penjelasnya.

Berikut ini disajikan model regresi komponen utama yang dibentuk dari model regresi linear berganda

sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah

dengan adalah suatu matriks yang berukuran nxk yang memuat sejumlah k

komponen utama, adalah vektor koefisien regresi komponen utama yang berukuran kx1.

Determinan Peragam Minimum

MCD merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks ragam-peragam (Rousseeuw et al

2004). MCD bertujuan mendapatkan h

pengamatan dari n objek yang memiliki matriks ragam-peragam terkecil, dengan h

merupakan bilangan bulat terbesar dari

(Rousseeuw & Driessen 1999). Algoritma MCD sebagai berikut:

1. Ambil secara acak amatan, kemudian hitung nilai tengah dan matriks ragam-peragamnya .

2. Inisiasikan k=0

3. Lakukan pengulangan untuk proses di bawah ini:

3.1.Definisikan dan

3.2.Hitung jarak setiap amatan dengan rumus

3.3.Urutkan data amatan dari yang terkecil hingga terbesar dengan acuan

.

3.4.Pilih sebanyak amatan yang memiliki terkecil dan tempatkan dalam himpunan bagian H

3.5.

3.6.Hitung nilai tengah dan matriks ragam-peragam dari sejumlah h

amatan yang terambil

4. Lakukan langkah 3 sampai atau .

5. Himpunan bagian H terakhir yang terbentuk adalah himpunan bagian yang memiliki determinan matriks ragam-peragam terkecil, sehingga dan

6. Selanjutnya, dilakukan tahap pembobotan:

(24)

3

Metode Kuadrat Terkecil Terpotong

MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006).

dimana dan

.

Pencilan

Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khi-kuadrat pada p peubah.

METODOLOGI Karakteristik Data Bangkitan

Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan

n=100 dan p=4.

Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks peragamnya sama seperti matriks ragam-peragam pada . Matriks data pencilan

ini berukuran mxp, dengan m=5000 dan

p=4. Kemudian dibangkitkan juga data sisaan

dari sebaran normal dengan nilai tengah

dan simpangan baku .

Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali.

Metode

Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini:

1. Membangkitkan data dan seperti yang telah dijelaskan di atas.

2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara

mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data.

4. Menghitung matriks ragam-peragam dengan metode MCD.

5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD.

6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100

kali.

8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode.

9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%).

10.Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode.

HASIL DAN PEMBAHASAN Analisis Komponen Utama

Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama.

Bias dan KTG dari

Nilai bias dan KTG yang diperoleh dari

metode MCD-MKT dan MCD-MKTT

(25)

Gambar 1 Perbandingan nilai bias 1 pada

MCD-MKTT dan MCD-MKT

Gambar 2 Perbandingan nilai KTG 1 pada

MCD-MKTT dan MCD-MKT Pendugaan koefisien regresi 1 yang

dihasilkan oleh metode MCD-MKTT lebih baik dibandingkan dengan metode MCD-MKT. Hal ini dikarenakan pada metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan dengan MCD-MKT seperti yang terlihat pada Gambar 1 dan 2. Seiring dengan peningkatan proporsi pencilan yang diberikan pada data contoh, bias dan KTG yang dihasilkan metode MCD-MKT juga mengalami peningkatan, berbeda

dengan metode MCD-MKTT yang

menghasilkan nilai bias dan KTG yang relatif stabil.

Gambar 3 Perbandingan nilai bias 2 pada

MCD-MKTT dan MCD-MKT

Gambar 4 Perbandingan nilai KTG 2 pada

MCD-MKTT dan MCD-MKT Gambar 3 dan 4 menunjukkan nilai bias dan KTG pada pendugaan koefisien regresi

2. Gambar tersebut dapat menjelaskan bahwa

nilai bias dan KTG yang dihasilkan oleh

metode MCD-MKTT lebih kecil

dibandingkan dengan metode MCD-MKT. Pada gambar di atas terlihat bahwa walaupun terdapat peningkatan proporsi pencilan pada data contoh, metode MCD-MKTT memiliki performa yang stabil, seperti yang ditunjukkan pada nilai bias dan KTG. Hal ini berbeda dengan metode MCD-MKT yang memperlihatkan pola peningkatan nilai bias dan KTG seiring dengan peningkatan proporsi pencilan pada data contoh.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%)

MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

[image:25.595.116.296.85.477.2] [image:25.595.341.520.87.267.2] [image:25.595.328.501.298.484.2]
(26)

5

Gambar 5 Perbandingan nilai bias 3 pada

MCD-MKTT dan MCD-MKT

Gambar 6 Perbandingan nilai KTG 3 pada

MCD-MKTT dan MCD-MKT Sama halnya dengan pendugaan koefisien regresi 1 dan 2, pendugaan koefisien regresi 3 dengan metode MCD-MKTT lebih baik

dibandingkan dengan metode MCD-MKT. Hal ini terlihat pada Gambar 5 dan 6 yang menunjukkan bahwa nilai bias dan KTG

metode MCD-MKTT lebih kecil

dibandingkan metode MCD-MKT.

Gambar 7 Perbandingan nilai bias 4 pada

MCD-MKTT dan MCD-MKT

Gambar 8 Perbandingan nilai KTG 4 pada

MCD-MKTT dan MCD-MKT Gambar 7 dan 8 menunjukkan nilai bias dan KTG pendugaan koefisien regresi 4 yang

kondisinya relatif sama dengan pendugaan koefisien regresi 1, 2 dan 3. Nilai bias dan

KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan metode MCD-MKT.

KESIMPULAN

Simulasi dengan matriks data yang dibangkitkan dari sebaran normal ganda ini menunjukkan bahwa metode MCD-MKTT menghasilkan nilai bias dan KTG yang lebih kecil dibandingkan metode MCD-MKT, sehingga dapat dikatakan bahwa metode MCD-MKTT menghasilkan pendugaan koefisien regresi yang lebih baik dibandingkan dengan metode MCD-MKT. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 2 3 4 5 6 7 8 9 10

B

ia

s

Proporsi pencilan (%) MCD-MKTT MCD-MKT 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

1 2 3 4 5 6 7 8 9 10

B

ia

s

[image:26.595.329.502.88.264.2] [image:26.595.117.290.89.268.2] [image:26.595.116.294.95.482.2] [image:26.595.329.500.295.484.2]
(27)

Meningkatnya proporsi pencilan pada data mengakibatkan meningkat pula nilai bias dan KTG metode MCD-MKT. Sebaliknya, nilai bias dan KTG metode MCD-MKTT tetap stabil meskipun proporsi pencilan mengalami peningkatan. Hal ini menunjukkan bahwa metode MKTT merupakan metode pendugaan yang kekar terhadap pencilan, sedangkan metode MKT sangat sensitif terhadap adanya pencilan.

DAFTAR PUSTAKA

Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB PRESS. Draper NR, Smith H. 1992. Analisis Regresi

Terapan Edisi Kedua. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis.

Jollife IT. 2002. Principal Component Analysis. 2nd Edition. New York: Springer Science+Business Media, LLC.

Myers RH. 1989. Classical and Modern Regression with Applications Second Edition. Boston: PWS-KENT Publishing Company.

Rousseeuw et al. 2004. Robust Multivariate Regression. Technometrics 46.

Rousseeuw PJ, van Driessen K. 1999. A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics 41. Rousseeuw PJ, van Driessen K. 2006.

Computing LTS Regression for Large Data Sets. Data Min Knowl Discov 12. Saefuddin, Asep et al. 2009. Statistika Dasar.

(28)

a

(29)

1.00 0.89 0.97 0.90 0.89 1.00 0.86 0.93 0.97 0.86 1.00 0.95 0.90 0.93 0.95 1.00

4.00 3.56 3.88 3.60 3.56 4.00 3.44 3.72 3.88 3.44 4.00 3.80 3.60 3.72 3.80 4.00 Lampiran 1. Matriks korelasi

Lampiran 2. Matriks ragam-peragam

Lampiran 3. Nilai bias metode MCD-MKT dan MCD-MKTT. Proporsi

pencilan

MCD-MKTT MCD-MKT

β1 β2 β3 β4 β1 β2 β3 β4

1% 0.0356 0.0914 0.0301 0.0333 0.3970 0.4319 0.3559 0.3539 2% 0.0329 0.0923 0.0297 0.0311 0.5592 0.5862 0.5306 0.5299 3% 0.0332 0.0890 0.0279 0.0303 0.6450 0.6653 0.6224 0.6214 4% 0.0306 0.0890 0.0279 0.0289 0.7077 0.7251 0.6902 0.6897 5% 0.0305 0.0887 0.0244 0.0244 0.7535 0.7681 0.7396 0.7395 6% 0.0282 0.0894 0.0251 0.0231 0.7886 0.8019 0.7770 0.7775 7% 0.0280 0.0831 0.0191 0.0183 0.8325 0.8420 0.8244 0.8245 8% 0.0284 0.0850 0.0209 0.0210 0.8396 0.8489 0.8315 0.8315 9% 0.0242 0.0840 0.0198 0.0147 0.8496 0.8589 0.8427 0.8435 10% 0.0277 0.0800 0.0165 0.0152 0.8557 0.8634 0.8491 0.8491 Lampiran 4. Nilai MSE metode MCD-MKT dan MCD-MKTT.

Proporsi pencilan

MCD-MKTT MCD-MKT

β1 β2 β3 β4 β1 β2 β3 β4

(30)

a

(31)

1.00 0.89 0.97 0.90 0.89 1.00 0.86 0.93 0.97 0.86 1.00 0.95 0.90 0.93 0.95 1.00

4.00 3.56 3.88 3.60 3.56 4.00 3.44 3.72 3.88 3.44 4.00 3.80 3.60 3.72 3.80 4.00 Lampiran 1. Matriks korelasi

Lampiran 2. Matriks ragam-peragam

Lampiran 3. Nilai bias metode MCD-MKT dan MCD-MKTT. Proporsi

pencilan

MCD-MKTT MCD-MKT

β1 β2 β3 β4 β1 β2 β3 β4

1% 0.0356 0.0914 0.0301 0.0333 0.3970 0.4319 0.3559 0.3539 2% 0.0329 0.0923 0.0297 0.0311 0.5592 0.5862 0.5306 0.5299 3% 0.0332 0.0890 0.0279 0.0303 0.6450 0.6653 0.6224 0.6214 4% 0.0306 0.0890 0.0279 0.0289 0.7077 0.7251 0.6902 0.6897 5% 0.0305 0.0887 0.0244 0.0244 0.7535 0.7681 0.7396 0.7395 6% 0.0282 0.0894 0.0251 0.0231 0.7886 0.8019 0.7770 0.7775 7% 0.0280 0.0831 0.0191 0.0183 0.8325 0.8420 0.8244 0.8245 8% 0.0284 0.0850 0.0209 0.0210 0.8396 0.8489 0.8315 0.8315 9% 0.0242 0.0840 0.0198 0.0147 0.8496 0.8589 0.8427 0.8435 10% 0.0277 0.0800 0.0165 0.0152 0.8557 0.8634 0.8491 0.8491 Lampiran 4. Nilai MSE metode MCD-MKT dan MCD-MKTT.

Proporsi pencilan

MCD-MKTT MCD-MKT

β1 β2 β3 β4 β1 β2 β3 β4

Gambar

Gambar 2 Perbandingan nilai KTG    1 pada MCD-MKTT dan MCD-MKT
Gambar 8 Perbandingan nilai KTG    4 pada MCD-MKTT dan MCD-MKT
Gambar 7 dan 8 menunjukkan nilai bias MCD-MKTT dan MCD-MKT kondisinya relatif sama dengan pendugaan koefisien regresi KTG yang dihasilkan oleh metode MCD-MKTT lebih kecil dibandingkan dengan dan KTG pendugaan koefisien regresi   4 yang   1,   2 dan   3
Gambar 2 Perbandingan nilai KTG    1 pada MCD-MKTT dan MCD-MKT
+2

Referensi

Dokumen terkait

setiap arsitektur bisnis yang mendukung perusahaan. Perusahaan tidak mendokumentasikan setiap

Hasil penelitian ini menunjukan: (a) Ber-usahatani bawang merah di lokasi penelitian telah dapat memberikan keuntungan bagi petani, namun keuntungan yang diperoleh

Lubang-lubang cacing tanah dapat meningkatkan laju infiltrasi maupun perkolasi sehingga menurunkan aliran permukaan, erosi maupun penghanyutan bahan organik di permukaan tanah

Berdasarkan hasil pembahasan yang telah diuraikan diatas, dapat ditarik kesimpulan: 1) semua data sampel telah melalui uji validitas, yang hasilnya adalah semua item

Rasulullah SAW, para sahabatnya dan para ulama sangat memberikan perhatian yang besar terhadap bagaimana mengucapkan lafazh-lafazh al-Qur’an secara baik dan

Bidang Teknologi Informasi dan Komputasi dapat diaplikasikan untuk membantu memberikan alternatif solusi atas permasalahan tersebut, dengan menggunakan pengolahan citra

Atan Podomi selaku ketua panitia menjelaskan bahwa jumlah peserta yang mengikuti kegiatan ini lebih dari 2600 siswa // Mengenai anggaran yang dipergunakan untuk kegiatan ini /

It happens because Agent Bilkins send Brian O‟Connor and Roman Pearce to Carter Verone‟s house that delivered by