BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Regresi merupakan suatu metode statistika yang digunakan untuk menyelidiki pola hubungan antara dua atau lebih variabel.Bentuk atau pola hubungan variabel-variabel tersebut dapat diidentifikasi berdasarkanscatter plotatau pengalaman masa lalu yang memuat informasi tentang kurva regresi.
Tujuan dari analisis regresi adalah untuk mengestimasi parameter model yang menyatakan pengaruh hubungan antara variabel prediktor dan variabel respon. Metode estimasi yang banyak digunakan untuk mengestimasi parameter model regresi adalah metode kuadrat terkecil (Ordinary Least Squares). Metode ini mempunyai asumsi-asumsi yang beberapa diantaranya dalam penggunaan pada data riil sering tidak dapat dipenuhi. Salah satu asumsi tersebut adalah mengenai kenormalan residual ei yang sering dilanggar ketika adanya pengamatan yang bersifatoutlier.
Outliertidak dapat dibuang atau dihapus begitu saja dari pengamatan.Menurut Draper dan Smith (1992), adakalanya outlier
memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karenaoutliertimbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh.
Akibat dari adanyaoutlier, residual tidak lagi berdistribusi normal atau variansi dari residualnya tidak lagi homogen.Model regresi yang baik memerlukan data yang baik pula. Suatu data dikatakan baik apabila data tersebut berada di sekitar garis regresi. OLS bukan merupakan prosedur regresi yangrobustterhadap adanyaoutlier,karena estimasinya menjadi tidak sesuai meskipun hanya dengan kehadiran satuoutlierdalam data (Rousseeuw dan Leroy, 1987). Sehingga untuk mengatasi hal tersebut, dibutuhkan suatu estimatorrobustyang mempunyai kemampuan mendeteksioutliersekaligus menyesuaikan taksiran parameter regresi.
Ada beberapa metode dalam regresi robust yang dapat digunakan untuk menangani data pencilan,yaitu Estimasi M dengan Type Welsch dan Least
Trimmed Square.Karena itu penulis tertarik untuk membandingkan kedua estimasi tersebut untuk mendapatkan estimasi yang lebih baik untuk menangani data pencilan tersebut dengan judul
“STUDI PERBANDINGANANTARA ESTIMASI M DENGAN TYPE
WELSCH DENGAN LEAST TRIMMED SQUARE DALAM REGRESI
ROBUST UNTUK MENGATASI ADANYA DATA PENCILAN “
1.2 Rumusan Masalah
Permasalahan yang dibahas disini adalah mengatasi adanyaoutlier(data
pencilan) dalam regresi linier berganda menggunakan regresi robust yaitu dengan estimasi M type welsch danleast trimmed squaredengan terlebih dahulu
mendeteksi adanya data pencilan.
1.3 Tujuan Penelitian
1.4 Batasan Masalah
Adapun batasan masalah dalam skripsi saya ini adalah
1. Adapun data yang diambil penulis dalam skripsi ini ialah data bangkitan yang terdiri dari 28 buah data.
2. Metode yang dipakai penulis dalam mengatsi data pencilan ini adalah regersi robustdengan estimasi M typeWelschdanLeast Trimmed Square
3. Pengolahan data dengan menggunakan software SPSS dan Matlab. 1.5 Kontribusi Penelitian
1.Mendapatkan informasi mengenai cara mendeteksi outlier
2.Membandingkan estimasi M typeWelsch denganLeast Trimmed Square
1.6 Tinjauan Pustaka
Secara umum analisis regresi digunakan untuk melihat hubungan antara variabel terikat dengan satu atau lebih variabel bebas. Model yang dihasilkan
menggunakan analisis regresi adalah model regresi. Model regresi linear dapat dinyatakan sebagai berikut:
ε + n x n
β
+ ... + 2 x 2
β
+ 1 x 1
β
= Yˆ
Metode kuadrat terkecil memerlukan beberapa asumsi yang harus dipenuhi oleh komponen εi, yaitu memenuhi asumsi kenormalan, kehomogenan ragam, dan keacakan (tidak memiliki autokorelasi).Jika semua asumsi itu
terpenuhi, maka penduga hasil Metode Kuadrat Terkecil pada model regresi merupakan penduga yang bersifat BLUE (Best Linier Unlinier Estimasi) (Myers 1990). Prinsip dasar dari Metode Kuadrat Terkecil adalah meminimumkan jumlah kuadrat sisaan (selisih antara data sebenarnya dengan data dugaan) dari model regresi yang terbentuk.
Pencilan (Outlier) adalah data yang tidak mengikuti pola umum dalam model regresi yang dihasilkan, atau tidak mengikuti pola data secara
secara langsung terlebih dahulu sebelum dilakukan analisis lanjutan.Data pencilan dapat dibuang jika data diperoleh dari kesalahan teknis seperti kesalahan
mencatat amatan atau kesalahan menyiapakan peralatan.
Jika terdapat masalah yang berkaitan denganoutlier, maka diperlukan alat diagnosis yang dapat mengidentifikasi masalahoutlier, salah satunya dengan menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa outlier.
Terdapat beberapa metode untuk menentukan batasan pencilan dalam sebuah analisis:
1.6.1.Boxplot
Identifikasioutlierdapat menggunakan metode grafis. Metode ini merupakan yang paling umum yakni dengan mempergunakan kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data menjadi empat bagian. Jangkauan (IQR,Interquartile Range) didefinisikan sebagai selisih kuartil 1 terhadap kuartil 3, atau IQRQ3 Q1
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.
1.6.2.Leverage values,DfFITS,Cook Distance dan DfBeta(s)
Kriteria pengambilan keputusan ada atau tidaknya pencilan adalah Jika
Leverage Values >(2p-1)/n
DfFITS >2*sqrt(p/n) Pencilan (outlier) Cook Distance F(0,5;p;n-p)
Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi kurang baik apabila distribusi residual-nya tidak normal dan mengandungoutlier.Salah satu solusinya adalah menggunakan regresirobust.Metode regresi robust yang paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber pada tahun 1973 (Chen, 2002).
Menurut Fox (2002), pada umumnya estimasi M meminimalisasi fungsi obyektif dengan persamaan:
ρ .Persamaan estimasinya adalah
denganψ ρ danψ merupakan fungsiinfluenceyang digunakan untuk memperoleh bobot.Lalu,residua-nya distandarisasi, sehingga persamaan menjadi
σ dengan MAR merupakaMedian
Absolute Residual.
Menurut Ryan, metode ini merupakan metode analisis yang memiliki sifat: 1. Sama baiknya dengan MKT ketika semua asumsi terpenuhi dan tidak
terdapat titik data yang berpengaruh.
2. Dapat menghasilkan model regresi yang lebih baik daripada MKT ketika asumsi tidak dipenuhi dan terdapat titik data yang berpengaruh.
3. Perhitungannya cukup sederhana dan mudah dimengerti, tetapi dilakukan secara iteratif sampai diperoleh dugaan terbaik yang memiliki standar error parameter yang paling kecil.
Adapun algoritma penyelesain dari Estimasi M dengan Type Welsch adalah: 1. Menentukan data
2. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil sehingga didapatkan yˆi,o dan menghitugεi,0 yi yˆi,0
3.Menentukan σˆ0 dan pembobot awal
)
σ diperoleh dengan menggunakan rumus
6745
masing-masing iterasit.
4.Berdasarkan tabel diatas diperoleh ψ(ε*i,0)(ε*i,0)exp((ε*i,0/c)2).
5.Mencari estimasi pada masing-masing iterasi denganweighted least square yaitu (XTWt-1X)-1XTWt-1Y
6.Tahap (3) dan (4) diulang sampai diperoleh estimasi parameter model yang konvergen, artinya selisih hasil iterasi t dengan t-1 bernilai 0.
7. Perhitungan dilakukan menggunakan komputer
R2adalah suatu indikator yang menggambarkan berapa banyak variasi yang dijelaskan dalam model.
Didefinisikan sebagai:
Least Trimmed Squareadalah salah satu alternatif terhadap penduga least penduga least square yang bersifat robust adalah pendugaan dengan kriteria meminimumkan.
Tahapan algoritmaLeast Trimmed Squareadalah 1. Menghitung estimasi parameter b0
2.Menentukan n residual ri2 (yˆi Xibo)2 yang bersesuain dengan (bo) kemudian
3. Menghitung
0
1 2
) (
h
i i
r
4. Melakukan estimasi parameter bnew dari h0pengamatan.
5.Menentukan n kuadrat residual ri2 (yˆXibnew)2yang bersesuain dengan (bnew) kemudian menghitung sejumlah hnew pengamatan dengan
2 ) (i
e terkecil.
6. Menghitung
new
h
i i
r 1
2 ) (