ABSTRACT
HENDRA YULFI. Comparison of Least Squares Regression Methods with Robust Methods. Supervised by N.K. KUTHA ARDANA and HADI SUMARNO.
ABSTRAK
HENDRA YULFI. Perbandingan Metode Regresi Kuadrat Terkecil dengan Metode Kekar. Dibimbing oleh N.K. KUTHA ARDANA dan HADI SUMARNO.
I PENDAHULUAN
1.1 Latar Belakang
Dunia teknologi mengalami perkembangan yang sangat pesat. Hal ini ditandai dengan banyak penemuan yang dapat mempermudah kebutuhan hidup manusia. Seiring dengan berkembangnya matematika dan statistika, telah banyak metode komputasi yang diterapkan dalam berbagai bidang sebagai dasar bagi pengambilan keputusan seperti penganalisaan, peramalan dan lainnya. Kita dapat menggunakan berbagai metode yang memungkinkan untuk melihat jauh di luar data yang dikumpulkan dan masuk ke dalam wilayah pengambilan keputusan melalui penganalisaan dan peramalan.
Salah satu model yang telah diterapkan secara luas di berbagai bidang adalah model regresi. Regresi dapat digunakan untuk memprediksi nilai peubah tidak bebas berdasarkan nilai peubah bebas yang diketahui.
Sejak regresi menjadi populer dalam berbagai area penelitian, analisis regresi telah menerapkan berbagai teknik. Telah banyak metode regresi digunakan akan tetapi hasilnya terkadang kurang tepat untuk gugus data tertentu. Oleh karena itu, pencarian metode regresi yang terbaik untuk berbagai data adalah tujuan yang tidak pernah berakhir.
Analisis regresi digunakan untuk menggambarkan hubungan antara dua atau lebih peubah, yang salah satu peubahnya
merupakan peubah tak bebas dan lainnya merupakan peubah bebas. Metode yang umum digunakan dalam menduga parameter regresi adalah Ordinary Least Squares
(OLS).
Adanya pencilan pada Regresi Linear Sederhana yang menggunakan metode
Ordinary Least of Squares (OLS) atau metode Kuadrat Terkecil merupakan masalah karena penduga parameter pada OLS sensitif terhadap pencilan. Untuk mengatasi masalah tersebut, banyak penelitian dilakukan untuk mencari alternatif pendugaan parameter lain yang lebih kekar (robust) dalam mengatasi pencilan. Metode-metode tersebut antara lain adalah Metode-metode Kuadrat Terkecil Terboboti (Weighted Least Squares), metode Simpangan Mutlak Terkecil (Least Absolute Deviations), metode Median Terkecil Kuadrat (Least Median Squares), dan metode Kuadrat Terkecil Terpangkas (Least Trimmed Squares).
1.2 Tujuan
1. Mengkaji dan membandingkan metode regresi biasa OLS dengan metode regresi kekar LMS, LAD, LTS, dan WLS.
2. Menerapkan teknik komputasi Metode LMS, LAD, LTS, dan WLS dengan Pemograman Fungsional Mathematica.
II LANDASAN TEORI
2.1 Regresi Linear
1
Yi : peubah tak bebas ; i = 1, 2, …, n
Xi : peubah bebas ; i = 1, 2, …, n
:vektor parameter regresi ; i = 1, 2, …, n
:vektor galat ; i = 1, 2, …, n
2.2 Regresi Linear Sederhana
Menurut Myers (1990), regresi linear sederhana adalah regresi yang hanya memiliki satu peubah regresor (peubah bebas), misalkan X. Diberikan deskripsi
Yi= β0+ β1Xi+ εi i=1,2,…,n 2
Dengan menggunakan data berpasangan {(xi, yi)} untuk i = 1, 2, … , n, akan dicari
dugaan parameter β0 dan β1..
Metode Kuadrat Terkecil dirancang untuk menghasilkan penduga b0 dan b1 untuk menduga β0 dan β1, dan nilai dugaan
yi= b0+ b1xi 3
yang meminimumkan jumlah kuadrat galat
JKG= n
i=1
= yi yi 2
n
i=1
I PENDAHULUAN
1.1 Latar Belakang
Dunia teknologi mengalami perkembangan yang sangat pesat. Hal ini ditandai dengan banyak penemuan yang dapat mempermudah kebutuhan hidup manusia. Seiring dengan berkembangnya matematika dan statistika, telah banyak metode komputasi yang diterapkan dalam berbagai bidang sebagai dasar bagi pengambilan keputusan seperti penganalisaan, peramalan dan lainnya. Kita dapat menggunakan berbagai metode yang memungkinkan untuk melihat jauh di luar data yang dikumpulkan dan masuk ke dalam wilayah pengambilan keputusan melalui penganalisaan dan peramalan.
Salah satu model yang telah diterapkan secara luas di berbagai bidang adalah model regresi. Regresi dapat digunakan untuk memprediksi nilai peubah tidak bebas berdasarkan nilai peubah bebas yang diketahui.
Sejak regresi menjadi populer dalam berbagai area penelitian, analisis regresi telah menerapkan berbagai teknik. Telah banyak metode regresi digunakan akan tetapi hasilnya terkadang kurang tepat untuk gugus data tertentu. Oleh karena itu, pencarian metode regresi yang terbaik untuk berbagai data adalah tujuan yang tidak pernah berakhir.
Analisis regresi digunakan untuk menggambarkan hubungan antara dua atau lebih peubah, yang salah satu peubahnya
merupakan peubah tak bebas dan lainnya merupakan peubah bebas. Metode yang umum digunakan dalam menduga parameter regresi adalah Ordinary Least Squares
(OLS).
Adanya pencilan pada Regresi Linear Sederhana yang menggunakan metode
Ordinary Least of Squares (OLS) atau metode Kuadrat Terkecil merupakan masalah karena penduga parameter pada OLS sensitif terhadap pencilan. Untuk mengatasi masalah tersebut, banyak penelitian dilakukan untuk mencari alternatif pendugaan parameter lain yang lebih kekar (robust) dalam mengatasi pencilan. Metode-metode tersebut antara lain adalah Metode-metode Kuadrat Terkecil Terboboti (Weighted Least Squares), metode Simpangan Mutlak Terkecil (Least Absolute Deviations), metode Median Terkecil Kuadrat (Least Median Squares), dan metode Kuadrat Terkecil Terpangkas (Least Trimmed Squares).
1.2 Tujuan
1. Mengkaji dan membandingkan metode regresi biasa OLS dengan metode regresi kekar LMS, LAD, LTS, dan WLS.
2. Menerapkan teknik komputasi Metode LMS, LAD, LTS, dan WLS dengan Pemograman Fungsional Mathematica.
II LANDASAN TEORI
2.1 Regresi Linear
1
Yi : peubah tak bebas ; i = 1, 2, …, n
Xi : peubah bebas ; i = 1, 2, …, n
:vektor parameter regresi ; i = 1, 2, …, n
:vektor galat ; i = 1, 2, …, n
2.2 Regresi Linear Sederhana
Menurut Myers (1990), regresi linear sederhana adalah regresi yang hanya memiliki satu peubah regresor (peubah bebas), misalkan X. Diberikan deskripsi
Yi= β0+ β1Xi+ εi i=1,2,…,n 2
Dengan menggunakan data berpasangan {(xi, yi)} untuk i = 1, 2, … , n, akan dicari
dugaan parameter β0 dan β1..
Metode Kuadrat Terkecil dirancang untuk menghasilkan penduga b0 dan b1 untuk menduga β0 dan β1, dan nilai dugaan
yi= b0+ b1xi 3
yang meminimumkan jumlah kuadrat galat
JKG= n
i=1
= yi yi 2
n
i=1
2.3 Persamaan Regresi Linear
Model Regresi Linear dapat dinyatakan dalam persamaan:
4 Keterangan:
:vektor peubah tak bebas berukuran n x 1 :vektor parameter regresi berukuran p x 1 :matriks peubah bebas berukuran n x p
:vektor galat berukuran n x 1 (Myers 1990)
2.4 Pendugaan Koefisien Regresi Linear Metode Kuadrat Terkecil adalah suatu metode untuk menghitung koefisien regresi sampel ( ) sebagai penduga koefisien regresi populasi ( ), sedemikian rupa sehingga jumlah kuadrat galatnya memiliki nilai terkecil. Dengan bahasa matematik, dapat dinyatakan sebagai berikut:
Model sebenarnya adalah
Model estimasinya adalah
(5)
Galat (error)adalah
(6)
Jumlah kuadrat galat adalah
(7)
Jadi metode Kuadrat Terkecil adalah metode menghitung sedemikian rupa sehingga persamaan (7) minimum. Caranya adalah dengan membuat turunan parsial mula-mula terhadap dan menyamakan dengan nol.
2
0
2 0
2 2 0
(8)
(9) (Draper & Smith 1992)
2.5 Pencilan
Pencilan (outlier) didefinisikan sebagai suatu pengamatan yang tampak bertentangan atau tidak konsisten terhadap pengamatan yang lain.
(Barnett & Lewis 1994)
Misalkan terdapat n buah data pengamatan y1, y2, ..., yn. Q1 dan Q3
berturut-turut adalah kuartil pertama dan ketiga data pengamatan. Pencilan antara lain dapat dideteksi sebagai pengamatan yang lebih besar dari Q3 + 1.5 (Q3 – Q1) atau lebih kecil dari Q1 – 1.5 (Q3 – Q1).
(Tukey 1979)
2.6 Regresi Kekar
Regresi kekar ditujukan untuk mengatasi penyimpangan-penyimpangan sebagai pengganti metode OLS. Kelebihan metode tersebut adalah kurang peka dibandingkan kuadrat terkecil terhadap penyimpangan-penyimpangan yang sering terjadi dari asumsi ideal.
(Huber 1981)
2.7 Metode Kekar
Metode alternatif lainnya yang bersifat kekar atau tahan terhadap data pencilan antara lain:
1. Metode Kuadrat Terkecil Terboboti (Weighted Least Squares, WLS) 2. Metode Simpangan Mutlak Terkecil
(Least Absolute Deviations, LAD) 3. Metode Kuadrat Terkecil Terpangkas
(Least Trimmed Squares, LTS) 4. Metode Median Kuadrat Terkecil
(Least Median of Squares, LMS) (Yaffee 2002)
2.8 Metode Median Kuadrat Terkecil Metode Median Kuadrat Terkecil adalah salah satu metode estimasi dari keluarga regresi kekar. Metode ini melakukan penghitungan dengan menghilangkan pengaruh-pengaruh residu. Dengan menggunakan penduga yang dihasilkan akan lebih kekar dalam menghadapi pencilan, sehingga untuk menghasilkan galat terkecil metode Kuadrat Median Terkecil memiliki fungsi
minimize $% med
2.9 Prosedur Metode Median Kuadrat Terkecil
Misalkan diberikan sebuah gugus data sampel berukuran N, dan ingin diduga vektor θ berdimensi p yang berisi parameter dari gugus data tersebut. Langkah-langkah yang dilakukan adalah :
1. Tentukan ukuran subset n, tentukan jumlah subset M, dan tentukan juga batas kesalahan yang diinginkan γ
2. Secara acak, ambil M buah subset berukuran n dari sampel berukuran N. Cari dugaan parameter θ'j untuk setiap subset. Cari median dari kuadrat galat e2ij
dari setiap subset. Indeks i adalah indeks untuk sampel, i = 1, 2, 3, …, n dan indeks j adalah untuk subset, j = 1, 2, 3, …, M
3. Definisikan
m= arg min j medi (eij
2)
sehingga subset θ'm merupakan subset dengan median kuadrat galat terkecil dan {eim} adalah vektor galat yang dihasilkan
subset tersebut, 4. Hitung
S0= 1.4826*1+ 5
N p+ ,medieim
2 10
5. Hitung bobot wi, misalkan dengan
wi=1 , -ei
S0- ≤ γ dan wi= s0
|ei|, lainnya
6. Berikan bobot wi kepada
setiap sampel.
7. Lakukan pengepasan dengan menggunakan metode Weighted Least Squares menggunakan {wi} sebagai
bobot untuk mendapatkan /' final. (Yingying C 2009)
2.10 Prosedur Metode Kuadrat Terkecil Terboboti
1. Hitung galat model 0 1 23 4 , 6 dengan:
0= data pengamatan ke-i,
1 23 4 , 6 = data hasil pendugaan ke-i, i = 1, 2 ,…, n
2. Hitung bobot data pengamatan ke-i ( wi)
yang didefinisikan sebagai berikut:
7 8=1 jika < = jika > =? 12
dengan:
m = 1.345σ ; i = 1, 2, …, n
σ = simpangan baku galat
3. Minimumkan jumlah kuadrat galat terkecil terboboti :
min 8@ 6 7
A
B
(Huber 1981)
Pada metode Kuadrat Terkecil Terboboti ini, data pencilan diberi bobot < 1 sehingga memiliki peranan yang kecil pada saat peminimuman jumlah kuadrat galat. Oleh karena itu, metode ini menjadi tahan terhadap pengaruh pencilan (bersifat robust). 2.11 Metode Simpangan Mutlak Terkecil
Metode ini merupakan bentuk lain dari metode Kuadrat Terkecil Terboboti [Tanika, 2006]. Paramater p diduga dengan cara meminimumkan jumlah nilai mutlak galat sebagai berikut:
min 8@ 6 C0 g 23 4 , 6 C A
B
dengan:
0= data pengamatan ke-i, 1 x3 4 , 6 = data hasil pendugaan ke-i, i = 1, 2,…, n
(Huber 1981)
2.12 Metode Penyelesaian Simpangan Mutlak Terkecil
Untuk menyelesaikan metode Simpangan Mutlak Terkecil sudah banyak metode yang dipergunakan antara lain: metode Modifikasi Simplex, metode Iteratif Kuadrat Terkecil. Walaupun ide dasar dari metode Simpangan Mutlak Terkecil sekilas terlihat lebih mudah dari metode Kuadrat Terkecil. Namun ternyata tidak mudah untuk menghitungnya secara efisien. Hal ini dikarenakan metode Simpangan Mutlak Terkecil tidak memiliki metode penyelesaian secara analitik. Oleh sebab itu pendekatan secara iteratif dibutuhkan untuk menyelesaikannya.
Terdapat beberapa teknik penyelesaian metode Simpangan Mutlak Terkecil antara lain:
1. Metode Modifikasi Simpleks dengan algoritma Barrodale-Roberts.
(Barrodale-Roberts, 1973) 2. Metode Iteratif Kuadrat Terkecil Terboboti (Iteratively Re-weighted Least Squares).
(Schlossmacher, 1973) 3. Metode Turunan Langsung Wesolowsky’s (Wesolowsky’s Direct Descent Method).
4. Metode Pendekatan Maximum Likelihood Li-Arce’s (Li-Arce’s Maximum Likelihood Approach).
(Li-Arce, 2003) (Pfeil 2006)
2.13 Prosedur Metode Iteratif Kuadrat Terkecil Terboboti
Metode Iteratif Kuadrat Terkecil Terboboti (IRLS) digunakan untuk menyelesaikan masalah optimasi tertentu. Metode ini menyelesaikan fungsi objektif dalam bentuk:
arg min 7 A
|0 G | ,
Metode iteratif ini setiap langkahnya melibatkan penyelesaian masalah kuadrat terkecil terboboti dalam bentuk:
HI arg min 7 A
H |0 G |
2.14 Prosedur Metode Kuadrat Terkecil Terpangkas
1. Hitung galat model 0 1 23 4 , 6
dengan:
0= data pengamatan ke-i,
1 23 4 , 6 = data hasil pendugaan ke-i, i = 1, 2 ,…, n
2. Urutkan kuadrat galat tersebut dari yang terkecil sampai dengan yang terbesar:
J K, J K, … , J K
3. Minimumkan jumlah dari q kuadrat galat terkecil:
min 8@ 6 J K A
B
dengan: M N O NPI O,
P = banyaknya parameter;
Q2R bilangan bulat terbesar < 2 (Cizek 2002)
Dari prosedur ini terlihat bahwa beberapa galat terbesar (yang diantaranya dihasilkan oleh pencilan) dipangkas (diberi bobot nol) pada saat peminimuman jumlah kuadrat galat. Oleh karena itu, Metode Kuadrat Terkecil Terpangkas menjadi tahan terhadap pengaruh pencilan (bersifat robust).
2.15 Rataan Persentase Galat Mutlak (Mean Absolute Percentage Error,
MAPE)
MAPE digunakan untuk membandingkan tingkat akurasi penduga antar model. MAPE didefinisikan oleh rumus:
XYZ[ 1\ ]0 0 ] _ 100%0^ A
13
dengan 0 adalah nilai aktual dan 0^ adalah nilai pendugaan. Rentang norma MAPE adalah [0,100]. Semakin kecil nilai MAPE, model dinilai semakin baik.
2.16 Koefisien Determinasi
Koefisien determinasi, R2, menyatakan proporsi keragaman data yang dapat dijelaskan oleh model. Untuk model linear sederhana, R2 merupakan kuadrat dari koefisien korelasi, sehingga R2 Є [0,100] %. Makin tinggi nilai R2 makin representatif model tersebut.
(Rodgers & Nicewander 1988)
2.17 Box-and-Whisker-Plot
Box-and-whisker plot digunakan untuk melihat bentuk tebaran dan keragaman dari suatu gugus data. Box-and-whisker plot
terdiri atas:
• sebuah kotak yang mewakili data yang terletak diantara kuartil ke-1(Q1) dan kuartil ke-3(Q3),
• whisker yang mewakili data yang terletak diantara data terkecil dan kuartil ke-1(Q1), dan
• whisker yang mewakili data yang terletak diantara kuartil ke-3(Q3) dan data terbesar.
Di dalam kedua whisker bisa terdapat pencilan.
Gambar 1 Bentuk umum box-and-whisker-plot
III METODOLOGI PENELITIAN
Gambar 2 Diagram alur penelitian
Alur penelitian dapat diuraikan sebagai berikut:
1. Tahap pembangkitan Data
Dilakukan pembangkitan 3 gugus data berukuran n = 20 berdasarkan model regresi
Y = β0 + β1X + ei. Gugus data 1 merupakan
data tanpa pencilan. Gugus data 2 merupakan data dengan pencilan terhadap Y. Gugus data 3 merupakan data dengan pencilan terhadap X.
2. Tahap pengolahan dengan metode OLS Meregresikan gugus data 1, 2, dan 3 dengan menggunakan Ordinary Least Square (OLS) dan menentukan nilai , , dan .
3. Tahap pengolahan dengan metode LMS Pada metode ini akan dilakukan penentuan sampel sebanyak N dari data yang telah dibangkitkan. Kemudian akan diperoleh M kali pengambilan sampel yang
akan diperoleh M subset. Subset-subset tersebut akan diregresikan antar peubah X
dan Y dengan OLS. Dari masing-masing subset akan diperoleh hasil regresi dan mencari nilai median kuadrat galat yang paling kecil. Dugaan parameter subset dengan median kuadrat galat terkecil akan digunakan sebagai hasil LMS.
4. Tahap pengolahan dengan metode LAD Pada metode ini akan dilakukan penentuan sampel sebanyak N dari data yang telah dibangkitkan. Peubah X dan Y
diregresikan dengan OLS sehingga diperoleh galat. Kemudian dihitung bobot data pengamatan dan diregresikan kembali. Itu semua dilakukan secara berulang. Selanjutnya meminimumkan jumlah dari nilai mutlak galat.
5. Tahap pengolahan dengan metode LTS Pada metode ini akan dilakukan penentuan sampel sebanyak N dari data yang MEMBANGKITKAN DATA
TANPA PENCILAN DENGAN PENCILAN
OLS LMS LAD LTS
MEMBANDINGKAN HASIL DUGAAN PARAMETER OLS, LMS, LAD, LTS, DAN WLS
STOP
WLS
telah dibangkitkan. Kemudian peubah X dan
Y diregresikan dengan OLS sehingga diperoleh kuadrat galat. Kuadrat galat diurutkan dari yang terkecil sampai dengan yang terbesar, lalu dilakukan pemangkasan. Langkah terakhir minimumkan jumlah dari kuadrat galat terkecil.
6. Tahap pengolahan dengan metode WLS Pada metode ini akan dilakukan penentuan sampel sebanyak N dari data yang telah dibangkitkan. Peubah X dan Y
diregresikan dengan OLS sehingga
diperoleh kuadrat galat. Bobot data pengamatan dihitung dan diregresikan kembali. Jumlah kuadrat galat terboboti, kemudian diminimumkan.
7. Tahap pembandingan hasil pendugaan parameter
Pada tahap akhir ini akan dibandingkan Rataan Persentase Galat Mutlak (MAPE) dan hasil dari dugaan kelima metode di atas. Dugaan parameter yang dihasilkan akan ditampilkan dalam bentuk tebaran data (scatter plot)dan persamaan regresi.
IV HASIL DAN PEMBAHASAN
4.1 Pembangkitan Data
Pada kasus ini dilakukan pembangkitan 3 gugus data berukuran n = 20 berdasarkan model regresi Y = β0 + β1X + eidengan cara
sebagai berikut :
• Gugus data 1. Data tanpa pencilan. a. Ditentukan β0 = 10 & β1 = 10
dan ei ~ N (0,5)
b. Dibangkitkan nilai Y dengan memasukkan nilai X = 1,2,…20
• Gugus data 2. Data dengan pencilan terhadap X.
a. Ditentukan β0 = 10 & β1 = 10 dan ei ~ N (0,5)
b. Dibangkitkan nilai X = 1,2,…,20 kemudian mengubah nilai X = 17 menjadi X = 30 dan X = 19 menjadi X = 40. • Gugus data 3. Data dengan pencilan
terhadap Y.
a. Ditentukan β0 = 10 & β1 = 10 dan
ei ~ N (0,5)
b. Dibangkitkan nilai Y dengan memasukkan nilai X = 1,2,…20 kemudian mengubah nilai Y = 17 menjadi Y = 300 dan Y = 19 menjadi Y = 500.
4.2 Proses Pengolahan Data
4.2.1 Pengolahan Data dengan OLS Gugus data 1, 2, dan 3 diregresikan dengan metode OLS. Tentukan nilai , , , dan MAPE.
4.2.2 Pengolahan Data dengan LMS a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Membagi setiap gugus data secara random kedalam 5 anak gugus data. c. Meregresikan setiap anak gugus data
dengan metode OLS dan dicari mediannya.
d. Menentukan minimum median dari tiap anak gugus.
e. Mnentukan menggunakan dari hasil regresi gugus data yang mempunyai median yang paling minimum.
f. Menentukan kuadrat galat .
g. Menentukan S0 dan hitung bobot wi untuk mendapatkan dan final. h. Menentukan MAPE.
4.2.3 Pengolahan Data dengan LAD a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Menentukan standar deviasi dari . c. Menghitung bobot wi.
d. Meregresikan kembali.
e. Lakukan secara berulang (iteratively) sampai mendapatkan yang relatif stabil.
f. Menentukan MAPE.
4.2.4 Pengolahan Data dengan LTS a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Menentukan kuadrat galat .
c. Mengurutkan kuadrat galat tersebut dari yang terkecil sampai dengan yang terbesar.
telah dibangkitkan. Kemudian peubah X dan
Y diregresikan dengan OLS sehingga diperoleh kuadrat galat. Kuadrat galat diurutkan dari yang terkecil sampai dengan yang terbesar, lalu dilakukan pemangkasan. Langkah terakhir minimumkan jumlah dari kuadrat galat terkecil.
6. Tahap pengolahan dengan metode WLS Pada metode ini akan dilakukan penentuan sampel sebanyak N dari data yang telah dibangkitkan. Peubah X dan Y
diregresikan dengan OLS sehingga
diperoleh kuadrat galat. Bobot data pengamatan dihitung dan diregresikan kembali. Jumlah kuadrat galat terboboti, kemudian diminimumkan.
7. Tahap pembandingan hasil pendugaan parameter
Pada tahap akhir ini akan dibandingkan Rataan Persentase Galat Mutlak (MAPE) dan hasil dari dugaan kelima metode di atas. Dugaan parameter yang dihasilkan akan ditampilkan dalam bentuk tebaran data (scatter plot)dan persamaan regresi.
IV HASIL DAN PEMBAHASAN
4.1 Pembangkitan Data
Pada kasus ini dilakukan pembangkitan 3 gugus data berukuran n = 20 berdasarkan model regresi Y = β0 + β1X + eidengan cara
sebagai berikut :
• Gugus data 1. Data tanpa pencilan. a. Ditentukan β0 = 10 & β1 = 10
dan ei ~ N (0,5)
b. Dibangkitkan nilai Y dengan memasukkan nilai X = 1,2,…20
• Gugus data 2. Data dengan pencilan terhadap X.
a. Ditentukan β0 = 10 & β1 = 10 dan ei ~ N (0,5)
b. Dibangkitkan nilai X = 1,2,…,20 kemudian mengubah nilai X = 17 menjadi X = 30 dan X = 19 menjadi X = 40. • Gugus data 3. Data dengan pencilan
terhadap Y.
a. Ditentukan β0 = 10 & β1 = 10 dan
ei ~ N (0,5)
b. Dibangkitkan nilai Y dengan memasukkan nilai X = 1,2,…20 kemudian mengubah nilai Y = 17 menjadi Y = 300 dan Y = 19 menjadi Y = 500.
4.2 Proses Pengolahan Data
4.2.1 Pengolahan Data dengan OLS Gugus data 1, 2, dan 3 diregresikan dengan metode OLS. Tentukan nilai , , , dan MAPE.
4.2.2 Pengolahan Data dengan LMS a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Membagi setiap gugus data secara random kedalam 5 anak gugus data. c. Meregresikan setiap anak gugus data
dengan metode OLS dan dicari mediannya.
d. Menentukan minimum median dari tiap anak gugus.
e. Mnentukan menggunakan dari hasil regresi gugus data yang mempunyai median yang paling minimum.
f. Menentukan kuadrat galat .
g. Menentukan S0 dan hitung bobot wi untuk mendapatkan dan final. h. Menentukan MAPE.
4.2.3 Pengolahan Data dengan LAD a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Menentukan standar deviasi dari . c. Menghitung bobot wi.
d. Meregresikan kembali.
e. Lakukan secara berulang (iteratively) sampai mendapatkan yang relatif stabil.
f. Menentukan MAPE.
4.2.4 Pengolahan Data dengan LTS a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Menentukan kuadrat galat .
c. Mengurutkan kuadrat galat tersebut dari yang terkecil sampai dengan yang terbesar.
d. Melakukan pemangkasan sebesar
a \ 1b dari data.
e. Kemudian meregresikan kembali hingga mendapatkan dan final.
f. Menentukan MAPE.
4.2.5 Pengolahan Data dengan WLS a. Meregresikan gugus data 1, 2, dan 3
dengan metode OLS. Menentukan nilai , , , dan MAPE.
b. Menentukan kuadrat galat .
c. Menentukan standar deviasi dari . d. Menghitung bobot wi.
e. Meregresikan kembali hingga mendapatkan dan final.
f. Menentukan MAPE.
4.3 Hasil
4.3.1 Metode OLS untuk data tanpa pencilan (n = 20)
Persamaan regresi yang diperoleh dengan menggunakan metode OLS yaitu:
'cde 11.6346 9.9577 MAPE 7.3 %
R 99.2860
Gambar 3 Model linear dengan metode OLS untuk data tanpa pencilan
4.3.2 Metode LMS untuk data tanpa pencilan (n = 20)
Persamaan regresi yang diperoleh dengan menggunakan metode LMS yaitu:
'dqe 9.8636 10.0765 MAPE 8.1 %
Gambar 4 Model linear dengan metode LMS untuk data tanpa pencilan
4.3.3 Metode LAD untuk data tanpa pencilan (n = 20)
Persamaan regresi yang diperoleh dengan menggunakan metode LAD yaitu:
'drs 10.8228 9.9661
MAPE 9.8 %
Gambar 5 Model linear dengan metode LAD untuk data tanpa pencilan
4.3.4 Metode LTS untuk data tanpa pencilan (n = 20)
Persamaan regresi yang diperoleh dengan menggunakan metode LTS yaitu:
'd e 10.1312 10.0163
MAPE 6.6 %
5 10 15 20
50 100 150 200
x
y
5 10 15 20
50 100 150 200
x
y
5 10 15 20
50 100 150 200
x
y
Gambar 6 Model linear dengan metode LTS untuk data tanpa pencilan
4.3.5 Metode WLS untuk data tanpa pencilan (n = 20)
Persamaan regresi yang diperoleh dengan menggunakan metode WLS yaitu:
'tde 10.7187 9.9975
MAPE 8.7 %
Gambar 7 Model linear dengan metode WLS untuk data tanpa pencilan
Gambar 8 Model linear perbandingan metode OLS (▬), LMS (▬), LAD (▬), LTS (▬), dan WLS (▬) tanpa pencilan
Gambar 8 menunjukkan grafik OLS, LMS, LAD, LTS, dan WLS terlihat berhimpit. Dapat disimpulkan untuk data yang tidak mengandung pencilan, tidak ada perbedaan antara kelima metode tersebut.
4.3.6 Metode OLS untuk data dengan pencilan terhadap Y (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode OLS yaitu:
'cde 19.9975 14.9672
MAPE 29.9 %
R2 65.4448
Gambar 9 Model linear dengan metode OLS untuk data dengan pencilan terhadap Y
4.3.7 Metode LMS untuk data dengan pencilan terhadap Y (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LMS yaitu:
'dqe 10.851 10.0297
MAPE 16.3 %
Gambar 10 Model linear dengan metode LMS untuk data dengan pencilan terhadap Y
4.3.8 Metode LAD untuk data dengan pencilan terhadap Y (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LAD yaitu :
'drs 20.0096 9.4257
MAPE 20.5 %
5 10 15 20
50 100 150 200 x y
5 10 15 20
50 100 150 200 x y
5 10 15 20
50 100 150 200 x y
5 10 15 20
0 100 200 300 400 500 x y
5 10 15 20
Gambar 11 Model linear dengan metode LAD untuk data dengan pencilan terhadap Y
4.3.9 Metode LTS untuk data dengan pencilan terhadap Y (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LTS yaitu:
'd e 7.4702 10.69 MAPE 11.2 %
Gambar 12 Model linear dengan metode LTS untuk data dengan pencilan terhadap Y
4.3.10 Metode WLS untuk data dengan pencilan terhadap Y (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode WLS yaitu:
'tde 13.4787 10.8963
MAPE 19.4 %
Gambar 13 Model linear dengan metode WLS untuk data dengan pencilan terhadap Y
Gambar 14 Model linear perbandingan metode OLS (▬), LMS (▬), LAD (▬), LTS (▬), dan WLS (▬) dengan pencilan terhadap Y
Gambar 14 menunjukkan perubahan grafik OLS. Garis regresi metode Kuadrat Terkecil bergeser ke atas menuju titik pencilan, sedangkan LMS, LAD, LTS, dan WLS tidak mengalami pergeseran. Disimpulkan metode LMS, LAD, LTS, dan WLS lebih kekar dibandingkan dengan metode OLS untuk data yang mengandung pencilan terhadap Y.
4.3.11 Metode OLS untuk data dengan pencilan terhadap X (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode OLS yaitu:
'cde 74.3304 3.1712
MAPE 68.4 % R 26.5784
5 10 15 20
0 100 200 300 400 500
x
y
5 10 15 20
0 100 200 300 400 500
x
y
5 10 15 20
0 100 200 300 400 500
x
y
5 10 15 20
0 100 200 300 400 500
x
y
Gambar 15 Model linear dengan metode OLS untuk data dengan pencilan terhadap X
4.3.12 Metode LMS untuk data dengan pencilan terhadap X (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LMS yaitu:
'dqe 3.3536 10.4923 MAPE 12.6 %
Gambar 16 Model linear dengan metode LMS untuk data dengan pencilan terhadap X
4.3.13 Metode LAD untuk data dengan pencilan terhadap X (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LAD yaitu:
'drs 74.3914 3.1634
MAPE 68.4 %
Gambar 17 Model linear dengan metode LAD untuk data dengan pencilan terhadap X
4.3.14 Metode LTS untuk data dengan pencilan terhadap X (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode LTS yaitu:
'd e 11.704 10.1302
MAPE 36.2 %
Gambar 18 Model linear dengan metode LTS untuk data dengan pencilan terhadap X
4.3.15 Metode WLS untuk data dengan pencilan terhadap X (n = 20) Persamaan regresi yang diperoleh dengan menggunakan metode WLS yaitu:
'tde 74.3914 3.1634
MAPE 68.4 %
10 20 30 40
50 100 150 200
x
y
10 20 30 40
0 100 200 300 400
x
y
10 20 30 40
50 100 150 200
x
y
10 20 30 40
0 100 200 300 400
x
y
Gambar 19 Model linear dengan metode WLS untuk data dengan pencilan terhadap X
Gambar 20 Model linear perbandingan metode OLS (▬), LMS (▬), LAD (▬), LTS (▬), dan WLS (▬) dengan pencilan terhadap X
Gambar 20 menunjukkan perubahan grafik OLS, LAD, dan WLS. Garis OLS, LAD, dan WLS bergeser ke bawah menuju titik pencilan, sedangkan LMS, dan LTS tidak mengalami pergeseran. Disimpulkan metode LMS dan LTS lebih kekar dibandingkan dengan metode OLS, LAD, dan WLS untuk data yang mengandung pencilan terhadap X.
4.3.16 Metode LAD untuk data simetris tanpa pencian (n = 20)
Minimum galat mutlak yang yang diperoleh dengan menggunakan metode LAD yaitu:
uYv | ̂ | A
45.9
uYv | ̂ | A
45.9
Gambar 21 Model linear dengan metode LAD untuk data simetris tanpa pencilan
4.4 Pembahasan
Dari hasil di atas dapat dilihat perilaku garis regresi OLS, LMS, LAD, LTS, dan WLS. Untuk data tanpa pencilan, dugaan parameter metode OLS, LMS, LAD, LTS, dan WLS tidak jauh berbeda. Namun ketika terdapat pencilan terhadap Y terjadi pembiasan dugaan parameter pada metode OLS. Hal ini ditunjukkan pada Gambar 9, grafik regresi tergeser ke arah pencilan. metode LMS, LAD, LTS, dan WLS tidak mengalami pergeseran sebesar metode OLS. Hal ini dapat dilihat pada gambar 10, Gambar 11, Gambar 12, dan Gambar 13.
Begitu pula ketika terdapat pencilan terhadap X terjadi pembiasan dugaan parameter pada metode OLS, LAD, dan WLS. Hal ini ditunjukan pada Gambar 15, Gambar 17, dan Gambar 19 grafik regresi tergeser ke arah pencilan. metode LMS dan LTS tidak mengalami pergeseran sebesar metode OLS, LAD, dan WLS. Hal ini dapat dilihat pada Gambar 16 dan Gambar 18. Gambar 14 dan Gambar 20 menunjukkan keunggulan metode LMS dan LTS dibandingkan metode OLS, LAD, dan WLS. Metode LMS dan LTS lebih baik dalam mengatasi adanya pencilan baik terhadap Y
maupun terhadap X.
Pada umumnya LAD tidak konsisten dan tidak unik. Pada kasus ini juga terihat bahwa LAD dan WLS tidak konsisten dan tidak unik, karena ketika terdapat pencilan terhadap Y, grafik regresi tidak mengalami pergeseran ke arah pencilan. Namun ketika terdapat pencilan terhadap X grafik regresi mengalami pergeseran ke arah pencilan. Hal ini dapat dilihat pada Gambar 14 dan Gambar 20. Metode LAD menghasilkan penduga yang tidak unik pada kasus data simetris. Hal ini dapat dilihat pada Gambar 21.
10 20 30 40
50 100 150 200 x y
10 20 30 40
0 100 200 300 400 x y
5 10 15 20
Cara lain untuk melihat hasil galat untuk setiap metode adalah menggunakan diagram kotak (box-and-whisker-plot). Diagram kotak ditampilkan Gambar 21 untuk data tanpa pencilan, Gambar 22 untuk data dengan pencilan terhadap Y, dan Gambar 23 untuk data dengan pencilan terhadap X.
Selisih Q3 dan Q1 menggambarkan tingkat keragaman suatu data. Semakin
besar nilainya maka data semakin beragam. Data yang digunakan dalam diagram kotak ini adalah persentase galat mutlak dari masing-masing metode.
Untuk lebih memperjelas diagram kotak, diberikan juga tabel tentang Q1, Q2,
Q3, nilai maksimum, nilai minimum dan rataan dari galat untuk setiap metode.
Tabel 1 Q1, Q2, Q3, nilai max, nilai min dan rataan dari galat untuk data tanpa pencilan Metode Q1 (%) Q2 (%) Q3 (%) Max (%) Min (%) Rataan (%)
OLS 1.3 3.2 6.7 67.0 0.2 7.3
LMS 1.2 3.2 5.7 54.2 0.3 8.1
LAD 1.5 3.0 10.3 60.8 0.1 9.8
LTS 1.6 3.0 5.9 55.8 0.1 6.6
WLS 1.4 3.3 7.5 60.2 0.1 8.7
Gambar 22 Diagram kotak untuk setiap data awal tanpa pencilan
Dari diagram kotak dan tabel untuk data tanpa pencilan yang ditunjukkan pada Gambar 21 dan Tabel 1 di atas dapat dilihat bahwa kesalahan relatif hasil dugaan
parameter yang ditunjukkan oleh rentang Q1 dengan Q3 untuk metode OLS, LMS, LAD, LTS, dan WLS mempunyai tingkat keragaman yang relatif sama.
Tabel 2 Q1, Q2, Q3, nilai max, nilai min dan rataan dari galat untuk data dengan pencilan terhadap Y
Metode Q1 (%) Q2 (%) Q3 (%) Max (%) Min (%) Rataan (%)
OLS 13.2 23.0 35.3 138.9 1.4 29.9
LMS 1.9 3.7 8.3 96.7 0.2 16.3
LAD 2.8 4.3 14.3 127.7 0.3 20.5
LTS 2.6 5.2 8.4 57.9 0.5 11.2
WLS 7.8 11.4 17.8 88.5 1.5 19.4
Gambar 23 Diagram kotak untuk setiap data dengan pencilan terhadap Y
Dari diagram kotak dan tabel untuk data tanpa pencilan yang ditunjukkan pada Gambar 22 dan Table 2 di atas dapat dilihat bahwa kesalahan relatif hasil dugaan parameter yang ditunjukkan oleh rentang Q1
dengan Q3 untuk metode WLS, LMS, LAD, dan LTS mempunyai tingkat keragaman yang relatif sama kecil, sedangkan metode OLS mempunyai tingkat keragaman yang relatif besar.
Tabel 3 Q1, Q2, Q3, nilai max, nilai min, dan rataan dari galat untuk data dengan pencilan terhadap
X
Metode Q1 (%) Q2 (%) Q3 (%) Max (%) Min (%) Rataan (%)
OLS 21.4 30.9 65.1 499.5 4.4 68.3
LMS 1.3 3.8 11.0 76.5 0.1 12.6
LAD 21.5 31.0 65.2 499.9 4.4 68.4
LTS 1.8 3.7 11.2 300.6 0.3 36.2
WLS 21.5 31.0 65.2 499.9 4.4 68.4
Gambar 24 Diagram kotak untuk setiap data dengan pencilan terhadap X
Dari diagram kotak dan tabel untuk data tanpa pencilan yang ditunjukkan pada Gambar 23 dan Table 3 di atas dapat dilihat bahwa kesalahan relatif hasil dugaan parameter yang ditunjukkan oleh rentang Q1
dengan Q3 untuk metode LMS, dan LTS mempunyai tingkat keragaman yang relatif sama kecil, sedangkan metode LAD, OLS, dan WLS mempunyai tingkat keragaman yang relatif sama besar.
V SIMPULAN DAN SARAN
5.1 Simpulan
1. Pemeriksaan ada atau tidaknya data pencilan merupakan hal yang penting
untuk menentukan metode apa yang sesuai.
Gambar 23 Diagram kotak untuk setiap data dengan pencilan terhadap Y
Dari diagram kotak dan tabel untuk data tanpa pencilan yang ditunjukkan pada Gambar 22 dan Table 2 di atas dapat dilihat bahwa kesalahan relatif hasil dugaan parameter yang ditunjukkan oleh rentang Q1
dengan Q3 untuk metode WLS, LMS, LAD, dan LTS mempunyai tingkat keragaman yang relatif sama kecil, sedangkan metode OLS mempunyai tingkat keragaman yang relatif besar.
Tabel 3 Q1, Q2, Q3, nilai max, nilai min, dan rataan dari galat untuk data dengan pencilan terhadap
X
Metode Q1 (%) Q2 (%) Q3 (%) Max (%) Min (%) Rataan (%)
OLS 21.4 30.9 65.1 499.5 4.4 68.3
LMS 1.3 3.8 11.0 76.5 0.1 12.6
LAD 21.5 31.0 65.2 499.9 4.4 68.4
LTS 1.8 3.7 11.2 300.6 0.3 36.2
WLS 21.5 31.0 65.2 499.9 4.4 68.4
Gambar 24 Diagram kotak untuk setiap data dengan pencilan terhadap X
Dari diagram kotak dan tabel untuk data tanpa pencilan yang ditunjukkan pada Gambar 23 dan Table 3 di atas dapat dilihat bahwa kesalahan relatif hasil dugaan parameter yang ditunjukkan oleh rentang Q1
dengan Q3 untuk metode LMS, dan LTS mempunyai tingkat keragaman yang relatif sama kecil, sedangkan metode LAD, OLS, dan WLS mempunyai tingkat keragaman yang relatif sama besar.
V SIMPULAN DAN SARAN
5.1 Simpulan
1. Pemeriksaan ada atau tidaknya data pencilan merupakan hal yang penting
untuk menentukan metode apa yang sesuai.
2. Metode OLS, LMS, LAD, LTS, dan WLS sama baiknya dalam menduga parameter untuk data yang tidak mengandung pencilan. Metode OLS kurang dapat digunakan dalam menduga parameter pada data yang mengandung pencilan karena tidak tahan terhadap pencilan tersebut.
3. Ukuran pembanding antar metode yang digunakan di sini yaitu MAPE. MAPE di sini hanya digunakan untuk membandingkan, tidak bisa digunakan untuk akurasi model. MAPE menunjukkan bahwa metode LMS, LAD, LTS, dan WLS lebih cocok digunakan pada pendugaan parameter yang melibatkan data pencilan. Metode
LAD dan WLS lebih tahan akan keberadaan pencilan namun hanya pencilan terhadap Y, sedangkan metode LMS dan LTS sangat tahan akan keberadaan pencilan baik pencilan terhadap Y maupun terhadap X sehingga menghasilkan dugaan parameter yang baik.
5.2 Saran
Gugus data yang tidak terdapat pencilan (outlier) sebaiknya menggunakan metode OLS, karena metode ini lebih efektif dan lebih umum, sedangkan untuk gugus data yang mengandung pencilan sebaiknya menggunakan metode kekar LMS, LAD, LTS, atau WLS.
DAFTAR PUSTAKA
Barnett V and Lewis T. 1994. Outliers in Statistical Data. New York: John Wiley & Sons. Inc.
Cizek P. 2002. Nonlinear Least Trimmed Square.www.statspol.cz/robust/200 2_cizek.pdf (20 Oktober 2005). Draper N and H Smith. 1992. Analisis
Regresi Terapan. Ed. ke-2. Jakarta: PT Gramedia Pustaka Utama.
Huber P. 1981. Robust Statistics. New York: John Wiley & Sons. Inc.
Myers R H. 1990. Classical and Modern Regression with Applications. Boston: PWS-KENT Publishing Company.
Rodgers J L and Nicewander W A. 1988. Thirteen ways to look at the correlation coefficient. The American Statistician 42: 59–66. doi:10.2307/2685263
.
Rousseuw P J. 1984. Least Median of Squares Regression. Journal of the
American Statistician Association
Vol.76, No. 388: 871-880.
Tukey J W. 1979. Exploratory Data Analysis. London: Addison – Wesley PublishingCompany.
Weisstein E W. 1999. Box-and-WhiskerPlot.http://mathworld.Wolf ram.com/Box-andWhiskerPlot.html (19 Mei 2006).
Pfeil W A. 2006. Statistical Teaching Aids, Bachelor of Science thesis, Worcester Polytechnic Institute.
Yaffee R A. 2002. Robust Regression Analysis: Some Popular Statistical Package Options. www.nyu.edu/its/socsci/Docs/Robu st Reg2. Pdf ( 13 September 2005).
Yingying C. 2009. Securing Emerging Wireless Systems, Lower Layer Approaches. New York: Springer Science Bussiness Media.
PERBANDINGAN METODE REGRESI KUADRAT
TERKECIL DENGAN METODE KEKAR
HENDRA YULFI
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2. Metode OLS, LMS, LAD, LTS, dan WLS sama baiknya dalam menduga parameter untuk data yang tidak mengandung pencilan. Metode OLS kurang dapat digunakan dalam menduga parameter pada data yang mengandung pencilan karena tidak tahan terhadap pencilan tersebut.
3. Ukuran pembanding antar metode yang digunakan di sini yaitu MAPE. MAPE di sini hanya digunakan untuk membandingkan, tidak bisa digunakan untuk akurasi model. MAPE menunjukkan bahwa metode LMS, LAD, LTS, dan WLS lebih cocok digunakan pada pendugaan parameter yang melibatkan data pencilan. Metode
LAD dan WLS lebih tahan akan keberadaan pencilan namun hanya pencilan terhadap Y, sedangkan metode LMS dan LTS sangat tahan akan keberadaan pencilan baik pencilan terhadap Y maupun terhadap X sehingga menghasilkan dugaan parameter yang baik.
5.2 Saran
Gugus data yang tidak terdapat pencilan (outlier) sebaiknya menggunakan metode OLS, karena metode ini lebih efektif dan lebih umum, sedangkan untuk gugus data yang mengandung pencilan sebaiknya menggunakan metode kekar LMS, LAD, LTS, atau WLS.
DAFTAR PUSTAKA
Barnett V and Lewis T. 1994. Outliers in Statistical Data. New York: John Wiley & Sons. Inc.
Cizek P. 2002. Nonlinear Least Trimmed Square.www.statspol.cz/robust/200 2_cizek.pdf (20 Oktober 2005). Draper N and H Smith. 1992. Analisis
Regresi Terapan. Ed. ke-2. Jakarta: PT Gramedia Pustaka Utama.
Huber P. 1981. Robust Statistics. New York: John Wiley & Sons. Inc.
Myers R H. 1990. Classical and Modern Regression with Applications. Boston: PWS-KENT Publishing Company.
Rodgers J L and Nicewander W A. 1988. Thirteen ways to look at the correlation coefficient. The American Statistician 42: 59–66. doi:10.2307/2685263
.
Rousseuw P J. 1984. Least Median of Squares Regression. Journal of the
American Statistician Association
Vol.76, No. 388: 871-880.
Tukey J W. 1979. Exploratory Data Analysis. London: Addison – Wesley PublishingCompany.
Weisstein E W. 1999. Box-and-WhiskerPlot.http://mathworld.Wolf ram.com/Box-andWhiskerPlot.html (19 Mei 2006).
Pfeil W A. 2006. Statistical Teaching Aids, Bachelor of Science thesis, Worcester Polytechnic Institute.
Yaffee R A. 2002. Robust Regression Analysis: Some Popular Statistical Package Options. www.nyu.edu/its/socsci/Docs/Robu st Reg2. Pdf ( 13 September 2005).
Yingying C. 2009. Securing Emerging Wireless Systems, Lower Layer Approaches. New York: Springer Science Bussiness Media.
PERBANDINGAN METODE REGRESI KUADRAT
TERKECIL DENGAN METODE KEKAR
HENDRA YULFI
DEPARTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
ABSTRACT
HENDRA YULFI. Comparison of Least Squares Regression Methods with Robust Methods. Supervised by N.K. KUTHA ARDANA and HADI SUMARNO.
ABSTRAK
HENDRA YULFI. Perbandingan Metode Regresi Kuadrat Terkecil dengan Metode Kekar. Dibimbing oleh N.K. KUTHA ARDANA dan HADI SUMARNO.
PERBANDINGAN METODE REGRESI KUADRAT
TERKECIL DENGAN METODE KEKAR
HENDRA YULFI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Sains pada
Departemen Matematika
DEPERTEMEN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
Judul Skripsi : Perbandingan Metode Regresi Kuadrat Terkecil dengan Metode
Kekar
Nama
: Hendra Yulfi
NIM
: G54063014
Menyetujui,
Pembimbing I,
Pembimbing II,
Ir. Ngakan Komang Kutha Ardana,M.Sc.
Dr. Ir. Hadi Sumarno,MS.
NIP. 19640823 198903 1 001
NIP. 19590926 198501 1 001
Mengetahui,
Ketua Departemen Matematika
Dr. Dra. Berlian Setiawaty, MS.
NIP. 19650505 198903 2 004
RIWAYAT HIDUP
Penulis dilahirkan di Payakumbuh pada tanggal 22 November 1988 dari Bapak Firmansyah dan Ibu Yulhaida. Penulis merupakan anak pertama dari empat bersaudara. Tahun 2006 penulis lulus dari SMA Negeri 1 Curug Tangerang dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Ujian Seleksi Masuk Institut Pertanian Bogor (USMI). Penulis melanjutkan studi di Departemen Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam.
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT yang selalu memberikan rahmat, hidayat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Perbandingan Metode Regresi Kuadrat Terkecil dengan Metode Kekar”. Banyak suka dan duka yang telah penulis alami selama penyusunan karya ilmiah ini. Tapi berkat dorongan dari keluarga, teman dan dosen pembimbing, akhirnya penulis berhasil menyelesaikan karya ilmiah ini.
Penulis menyadari keterbatasan dan kekurangan yang dimiliki, oleh karena itu penulis membutuhkan banyak bantuan dan dukungan dari berbagai pihak yang telah memberikan kontribusi dalam penyusunan karya ilmiah ini, baik secara langsung maupun tak langsung. Penulis bermaksud mengucapkan terima kasih yang sebesar-besarnya kepada: kedua orang tua (ayah dan ibu) yang selalu memberikan kasih sayang, semangat, bekal dan do’a; Anggi Dwi Putri yang terus mendorong penulis agar tetap semangat; Bapak Ir. Ngakan Komang Kutha Ardana, M.Sc dan Bapak Dr. Ir. Hadi Sumarno, MS selaku pembimbing yang telah memberikan pengarahan, masukan, serta semangat dalam penelitian dan penulisan karya ilmiah ini; Ibu Ir. Retno Budiarti, MS atas masukan-masukannya yang bermanfaat; Bapak dan Ibu dosen; Staf TU Matematika (Pak Yono, Bu Ade, Bu Susi, Mas Heri, Mas Deny, Mas Bono, dkk.) yang telah membantu kelancaran administrasi; Apri, Manto, dan Boy sebagai rekan diskusi yang telah memberikan banyak pencerahan; Rekan-rekan Math 43 (Emta, Peli, Albrian, Andruw, Resti, Zul); Rekan-rekan Math 42, 44, dan 45; Bocah-bocah Pondok Wina (Tukul, Bete, Nodi, Hengky, Ijo, Miftah, Ongkrek, Koko, Abok, Riqi, Kris, Ekay, Bayu, Gondes, Nanang); Bocah-bocah Jojoba (Dono, Risal, Ipank, Fiul, Ridho, Tedi, Tito, Onta, Wahyu); Adik-adik tersayang; Semua sahabat atas do’a, saran, motivasi, masukan, serta dukungannya kepada penulis; serta seluruh pihak yang tak dapat penuis sebutkan satu per satu.
Semoga karya ilmiah ini bermanfaat.
Bogor, Mei 2010
DAFTAR ISI
Halaman
DAFTAR ISI ... vii
DAFTAR TABEL ... viii
DAFTAR GAMBAR ... viii
DAFTAR LAMPIRAN ... viii
I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1 1.2 Tujuan ... 1
II LANDASAN TEORI ... 1
2.1 Regresi Linear ... 1 2.2 Regresi Linear Sederhana ... 1 2.3 Persamaan Regresi Linear ... 2 2.4 Pendugaan Koefisien Regresi Linear Sederhana ... 2 2.5 Pencian ... 2 2.6 Regresi Kekar ... 2 2.8 Metode Kekar ... 2 2.9 Metode Median Kuadrat Terkecil ... 3 2.10 Prosedur Metode Median Kuadrat Terkecil ... 3 2.11 Prosedur Metode Kuadrat Terkecil Terboboti ... 3 2.12 Metode Simpangan Mutlak Terkecil ... 3 2.13 Metode Penyelesaian Simpangan Mutlak Terkecill ... 4 2.14 Prosedur Metode Iteratif Kuadrat Terkecil Terboboti ... 4 2.15 Prosedur Metode Kuadrat Terkecil Terpangkas ... 4 2.16 Rataan Persentase Galat Mutlak (Mean Absolut Percentage Error, MAPE) ... 4 2.17 Koefisien Determinasi ... 4 2.18 Box-and-Whisker-Plot ... 4 III METODOLOGI PENELITIAN ... 5
IV HASIL DAN PEMBAHASAN ... 6
4.1 Pembangkitan Data ... 6 4.2 Proses Pengolahan Data ... 6 4.3 Hasil ... 7 4.4 Pembahasan ... 11
V SIMPULAN DAN SARAN ... 13
5.1 Simpullan ... 13 5.2 Saran ... 14
DAFTAR PUSTAKA ... 14
DAFTAR TABEL
Halaman
Tabel 1 Q1, Q2, Q3, nilai max, nilai min dan rataan dari galat untuk data tanpa pencilan ... 12 Tabel 2 Q1, Q2, Q3, nilai max, nilai min dan rataan dari galat untuk data dengan pencilan
terhadap Y ... 12 Tabel 3 Q1, Q2, Q3, nilai max, nilai min dan rataan dari galat untuk data dengan pencilan
terhadap X ... 19
DAFTAR GAMBAR
[image:30.595.107.506.261.586.2]Halaman
Gambar 1 Bentuk umum box-and-whisker-plot ... 4 Gambar 2 Diagram alur penelitian ... 5 Gambar 3 Model linear dengan metode OLS untuk data tanpa pencilan ... 7 Gambar 4 Model linear dengan metode LMS untuk data tanpa pencilan ... 7 Gambar 5 Model linear dengan metode LAD untuk data tanpa pencilan ... 7 Gambar 6 Model linear dengan metode LTS untuk data tanpa pencilan ... 8 Gambar 7 Model linear dengan metode WLS untuk data tanpa pencilan ... 8 Gambar 8 Model linear perbandingan metode OLS, LMS, LAD, LTS, dan WLS tanpa
pencilan ... 8 Gambar 9 Model linear dengan metode OLS untuk data dengan pencilan terhadap Y ... 8 Gambar 10 Model linear dengan metode LMS untuk data dengan pencilan terhadap Y ... 8 Gambar 11 Model linear dengan metode LAD untuk data dengan pencilan terhadap Y ... 9 Gambar 12 Model linear dengan metode LTS untuk data dengan pencilan terhadap Y ... 9 Gambar 13 Model linear dengan metode WLS untuk data dengan pencilan terhadap Y ... 9 Gambar 14 Model linear perbandingan metode OLS, LMS, LAD, LTS, dan WLS dengan
pencilan terhadap Y ... 9 Gambar 15 Model linear dengan metode OLS untuk data dengan pencilan terhadap X ... 10 Gambar 16 Model linear dengan metode LMS untuk data dengan pencilan terhadap X ... 10 Gambar 17 Model linear dengan metode LAD untuk data dengan pencilan terhadap X ... 10 Gambar 18 Model linear dengan metode LTS untuk data dengan pencilan terhadap X ... 10 Gambar 19 Model linear dengan metode WLS untuk data dengan pencilan terhadap X ... 11 Gambar 20 Model linear perbandingan metode OLS, LMS, LAD, LTS, dan WLS dengan
pencilan terhadap X ... 11 Gambar 21 Model linear dengan metode LAD untuk data simetris tanpa pencilan ... 11 Gambar 22 Diagram kotak untuk setiap data awal tanpa pencilan ... 12 Gambar 23 Diagram kotak untuk setiap data dengan pencilan terhadap Y... 13 Gambar 24 Diagram kotak untuk setiap data dengan pencilan terhadap X ... 13
DAFTAR LAMPIRAN
Halaman
Lampiran 1 Implementasi metode ke dalam pemograman fungsional Mathematica ... 16 Lampiran 2 Membangkitkan data hipotetik tanpa pencilan ... 19 Lampiran 3 Membangkitkan data hipotetik dengan pencilan terhadap Y ... 23 Lampiran 4 Membangkitkan data hipotetik dengan pencilan terhadap X ... 25 Lampiran 5 Membangkitkan data hipotetik simetris tanpa pencilan ... 29 Lampiran 6 Mencari nilai persentase galat mutlak untuk setiap metode untuk data tanpa
I PENDAHULUAN
1.1 Latar Belakang
Dunia teknologi mengalami perkembangan yang sangat pesat. Hal ini ditandai dengan banyak penemuan yang dapat mempermudah kebutuhan hidup manusia. Seiring dengan berkembangnya matematika dan statistika, telah banyak metode komputasi yang diterapkan dalam berbagai bidang sebagai dasar bagi pengambilan keputusan seperti penganalisaan, peramalan dan lainnya. Kita dapat menggunakan berbagai metode yang memungkinkan untuk melihat jauh di luar data yang dikumpulkan dan masuk ke dalam wilayah pengambilan keputusan melalui penganalisaan dan peramalan.
Salah satu model yang telah diterapkan secara luas di berbagai bidang adalah model regresi. Regresi dapat digunakan untuk memprediksi nilai peubah tidak bebas berdasarkan nilai peubah bebas yang diketahui.
Sejak regresi menjadi populer dalam berbagai area penelitian, analisis regresi telah menerapkan berbagai teknik. Telah banyak metode regresi digunakan akan tetapi hasilnya terkadang kurang tepat untuk gugus data tertentu. Oleh karena itu, pencarian metode regresi yang terbaik untuk berbagai data adalah tujuan yang tidak pernah berakhir.
Analisis regresi digunakan untuk menggambarkan hubungan antara dua atau lebih peubah, yang salah satu peubahnya
merupakan peubah tak bebas dan lainnya merupakan peubah bebas. Metode yang umum digunakan dalam menduga parameter regresi adalah Ordinary Least Squares
(OLS).
Adanya pencilan pada Regresi Linear Sederhana yang menggunakan metode
Ordinary Least of Squares (OLS) atau metode Kuadrat Terkecil merupakan masalah karena penduga parameter pada OLS sensitif terhadap pencilan. Untuk mengatasi masalah tersebut, banyak penelitian dilakukan untuk mencari alternatif pendugaan parameter lain yang lebih kekar (robust) dalam mengatasi pencilan. Metode-metode tersebut antara lain adalah Metode-metode Kuadrat Terkecil Terboboti (Weighted Least Squares), metode Simpangan Mutlak Terkecil (Least Absolute Deviations), metode Median Terkecil Kuadrat (Least Median Squares), dan metode Kuadrat Terkecil Terpangkas (Least Trimmed Squares).
1.2 Tujuan
1. Mengkaji dan membandingkan metode regresi biasa OLS dengan metode regresi kekar LMS, LAD, LTS, dan WLS.
2. Menerapkan teknik komputasi Metode LMS, LAD, LTS, dan WLS dengan Pemograman Fungsional Mathematica.
II LANDASAN TEORI
2.1 Regresi Linear
1
Yi : peubah tak bebas ; i = 1, 2, …, n
Xi : peubah bebas ; i = 1, 2, …, n
:vektor parameter regresi ; i = 1, 2, …, n
:vektor galat ; i = 1, 2, …, n
2.2 Regresi Linear Sederhana
Menurut Myers (1990), regresi linear sederhana adalah regresi yang hanya memiliki satu peubah regresor (peubah bebas), misalkan X. Diberikan deskripsi
Yi= β0+ β1Xi+ εi i=1,2,…,n 2
Dengan menggunakan data berpasangan {(xi, yi)} untuk i = 1, 2, … , n, akan dicari
dugaan parameter β0 dan β1..
Metode Kuadrat Terkecil dirancang untuk menghasilkan penduga b0 dan b1 untuk menduga β0 dan β1, dan nilai dugaan
yi= b0+ b1xi 3
yang meminimumkan jumlah kuadrat galat
JKG= n
i=1
= yi yi 2
n
i=1
2.3 Persamaan Regresi Linear
Model Regresi Linear dapat dinyatakan dalam persamaan:
4 Keterangan:
:vektor peubah tak bebas berukuran n x 1 :vektor parameter regresi berukuran p x 1 :matriks peubah bebas berukuran n x p
:vektor galat berukuran n x 1 (Myers 1990)
2.4 Pendugaan Koefisien Regresi Linear Metode Kuadrat Terkecil adalah suatu metode untuk menghitung koefisien regresi sampel ( ) sebagai penduga koefisien regresi populasi ( ), sedemikian rupa sehingga jumlah kuadrat galatnya memiliki nilai terkecil. Dengan bahasa matematik, dapat dinyatakan sebagai berikut:
Model sebenarnya adalah
Model estimasinya adalah
(5)
Galat (error)adalah
(6)
Jumlah kuadrat galat adalah
(7)
Jadi metode Kuadrat Terkecil adalah metode menghitung sedemikian rupa sehingga persamaan (7) minimum. Caranya adalah dengan membuat turunan parsial mula-mula terhadap dan menyamakan dengan nol.
2
0
2 0
2 2 0
(8)
(9) (Draper & Smith 1992)
2.5 Pencilan
Pencilan (outlier) didefinisikan sebagai suatu pengamatan yang tampak bertentangan atau tidak konsisten terhadap pengamatan yang lain.
(Barnett & Lewis 1994)
Misalkan terdapat n buah data pengamatan y1, y2, ..., yn. Q1 dan Q3
berturut-turut adalah kuartil pertama dan ketiga data pengamatan. Pencilan antara lain dapat dideteksi sebagai pengamatan yang lebih besar dari Q3 + 1.5 (Q3 – Q1) atau lebih kecil dari Q1 – 1.5 (Q3 – Q1).
(Tukey 1979)
2.6 Regresi Kekar
Regresi kekar ditujukan untuk mengatasi penyimpangan-penyimpangan sebagai pengganti metode OLS. Kelebihan metode tersebut adalah kurang peka dibandingkan kuadrat terkecil terhadap penyimpangan-penyimpangan yang sering terjadi dari asumsi ideal.
(Huber 1981)
2.7 Metode Kekar
Metode alternatif lainnya yang bersifat kekar atau tahan terhadap data pencilan antara lain:
1. Metode Kuadrat Terkecil Terboboti (Weighted Least Squares, WLS) 2. Metode Simpangan Mutlak Terkecil
(Least Absolute Deviations, LAD) 3. Metode Kuadrat Terkecil Terpangkas
(Least Trimmed Squares, LTS) 4. Metode Median Kuadrat Terkecil
(Least Median of Squares, LMS) (Yaffee 2002)
2.8 Metode Median Kuadrat Terkecil Metode Median Kuadrat Terkecil adalah salah satu metode estimasi dari keluarga regresi kekar. Metode ini melakukan penghitungan dengan menghilangkan pengaruh-pengaruh residu. Dengan menggunakan penduga yang dihasilkan akan lebih kekar dalam menghadapi pencilan, sehingga untuk menghasilkan galat terkecil metode Kuadrat Median Terkecil memiliki fungsi
minimize $% med
2.9 Prosedur Metode Median Kuadrat Terkecil
Misalkan diberikan sebuah gugus data sampel berukuran N, dan ingin diduga vektor θ berdimensi p yang berisi parameter dari gugus data tersebut. Langkah-langkah yang dilakukan adalah :
1. Tentukan ukuran subset n, tentukan jumlah subset M, dan tentukan juga batas kesalahan yang diinginkan γ
2. Secara acak, ambil M buah subset berukuran n dari sampel berukuran N. Cari dugaan parameter θ'j untuk setiap subset. Cari median dari kuadrat galat e2ij
dari setiap subset. Indeks i adalah indeks untuk sampel, i = 1, 2, 3, …, n dan indeks j adalah untuk subset, j = 1, 2, 3, …, M
3. Definisikan
m= arg min j medi (eij
2)
sehingga subset θ'm merupakan subset dengan median kuadrat galat terkecil dan {eim} adalah vektor galat yang dihasilkan
subset tersebut, 4. Hitung
S0= 1.4826*1+ 5
N p+ ,medieim
2 10
5. Hitung bobot wi, misalkan dengan
wi=1 , -ei
S0- ≤ γ dan wi= s0
|ei|, lainnya
6. Berikan bobot wi kepada
setiap sampel.
7. Lakukan pengepasan dengan menggunakan metode Weighted Least Squares menggunakan {wi} sebagai
bobot untuk mendapatkan /' final. (Yingying C 2009)
2.10 Prosedur Metode Kuadrat Terkecil Terboboti
1. Hitung galat model 0 1 23 4 , 6 dengan:
0= data pengamatan ke-i,
1 23 4 , 6 = data hasil pendugaan ke-i, i = 1, 2 ,…, n
2. Hitung bobot data pengamatan ke-i ( wi)
yang didefinisikan sebagai berikut:
7 8=1 jika < = jika > =? 12
dengan:
m = 1.345σ ; i = 1, 2, …, n
σ = simpangan baku galat
3. Minimumkan jumlah kuadrat galat terkecil terboboti :
min 8@ 6 7
A
B
(Huber 1981)
Pada metode Kuadrat Terkecil Terboboti ini, data pencilan diberi bobot < 1 sehingga memiliki peranan yang kecil pada saat peminimuman jumlah kuadrat galat. Oleh karena itu, metode ini menjadi tahan terhadap pengaruh pencilan (bersifat robust). 2.11 Metode Simpangan Mutlak Terkecil
Metode ini merupakan bentuk lain dari metode Kuadrat Terkecil Terboboti [Tanika, 2006]. Paramater p diduga dengan cara meminimumkan jumlah nilai mutlak galat sebagai berikut:
min 8@ 6 C0 g 23 4 , 6 C A
B
dengan:
0= data pengamatan ke-i, 1 x3 4 , 6 = data hasil pendugaan ke-i, i = 1, 2,…, n
(Huber 1981)
2.12 Metode Penyelesaian Simpangan Mutlak Terkecil
Untuk menyelesaikan metode Simpangan Mutlak Terkecil sudah banyak metode yang dipergunakan antara lain: metode Modifikasi Simplex, metode Iteratif Kuadrat Terkecil. Walaupun ide dasar dari metode Simpangan Mutlak Terkecil sekilas terlihat lebih mudah dari metode Kuadrat Terkecil. Namun ternyata tidak mudah untuk menghitungnya secara efisien. Hal ini dikarenakan metode Simpangan Mutlak Terkecil tidak memiliki metode penyelesaian secara analitik. Oleh sebab itu pendekatan secara iteratif dibutuhkan untuk menyelesaikannya.
Terdapat beberapa teknik penyelesaian metode Simpangan Mutlak Terkecil antara lain:
1. Metode Modifikasi Simpleks dengan algoritma Barrodale-Roberts.
(Barrodale-Roberts, 1973) 2. Metode Iteratif Kuadrat Terkecil Terboboti (Iteratively Re-weighted Least Squares).
(Schlossmacher, 1973) 3. Metode Turunan Langsung Wesolowsky’s (Wesolowsky’s Direct Descent Method).
4. Metode Pendekatan Maximum Likelihood Li-Arce’s (Li-Arce’s Maximum Likelihood Approach).
(Li-Arce, 2003) (Pfeil 2006)
2.13 Prosedur Metode Iteratif Kuadrat Terkecil Terboboti
Metode Iteratif Kuadrat Terkecil Terboboti (IRLS) digunakan untuk menyelesaikan masalah optimasi tertentu. Metode ini menyelesaikan fungsi objektif dalam bentuk:
arg min 7 A
|0 G | ,
Metode iteratif ini setiap langkahnya melibatkan penyelesaian masalah kuadrat terkecil terboboti dalam bentuk:
HI arg min 7 A
H |0 G |
2.14 Prosedur Metode Kuadrat Terkecil Terpangkas
1. Hitung galat model 0 1 23 4 , 6
dengan:
0= data pengamatan ke-i,
1 23 4 , 6 = data hasil pendugaan ke-i, i = 1, 2 ,…, n
2. Urutkan kuadrat galat tersebut dari yang terkecil sampai dengan yang terbesar:
J K, J K, … , J K
3. Minimumkan jumlah dari q kuadrat galat terkecil:
min 8@ 6 J K A
B
dengan: M N O NPI O,
P = banyaknya parameter;
Q2R bilangan bulat terbesar < 2 (Cizek 2002)
Dari prosedur ini terlihat bahwa beberapa galat terbesar (yang diantaranya dihasilkan oleh pencilan) dipangkas (diberi bobot nol) pada saat peminimuman jumlah kuadrat galat. Oleh karena itu, Metode Kuadrat Terkecil Terpangkas menjadi tahan terhadap pengaruh pencilan (bersifat robust).
2.15 Rataan Persentase Galat Mutlak (Mean Absolute Percentage Error,
MAPE)
MAPE digunakan untuk membandingkan tingkat akurasi penduga antar model. MAPE didefinisikan oleh rumus:
XYZ[ 1\ ]0 0 ] _ 100%0^ A
13
dengan 0 adalah nilai aktual dan 0^ adalah nilai pendugaan. Rentang norma MAPE adalah [0,100]. Semakin kecil nilai MAPE, model dinilai semakin baik.
2.16 Koefisien Determinasi
Koefisien determinasi, R2, menyatakan proporsi keragaman data yang dapat dijelaskan oleh model. Untuk model linear sederhana, R2 merupakan kuadrat dari koefisien korelasi, sehingga R2 Є [0,100] %. Makin tinggi nilai R2 makin representatif model tersebut.
(Rodgers & Nicewander 1988)
2.17 Box-and-Whisker-Plot
Box-and-whisker plot digunakan untuk melihat bentuk tebaran dan keragaman dari suatu gugus data. Box-and-whisker plot
terdiri atas:
• sebuah kotak yang mewakili data yang terletak diantara kuartil ke-1(Q1) dan kuartil ke-3(Q3),
• whisker yang mewakili data yang terletak diantara data terkecil dan kuartil ke-1(Q1), dan
• whisker yang mewakili data yang terletak diantara kuartil ke-3(Q3) dan data terbesar.
Di dalam kedua whisker bisa terdapat pencilan.
Gambar 1 Bentuk umum box-and-whisker-plot
[image:34.595.331.518.569.708.2]III METODOLOGI PENELITIAN
Gambar 2 Diagram alur penelitian
Alur penelitian dapat diuraikan sebagai berikut:
1. Tahap pembangkitan Data
Dilakukan pembangkitan 3 gugus data berukuran n = 20 berdasarkan model regresi
Y = β0 + β1X + ei. Gugus data 1 merupakan
data tanpa pencilan. Gugus data 2 merupakan data dengan pencilan terhadap Y. Gugus data 3 merupakan data dengan pencilan terhadap X.
2. Tahap pengolahan dengan metode OLS Meregresikan gugus data 1, 2, dan 3 dengan menggunakan Ordinary Least Square (OLS) dan me