• Tidak ada hasil yang ditemukan

BAB 2 LANDASAN TEORI

N/A
N/A
Protected

Academic year: 2021

Membagikan "BAB 2 LANDASAN TEORI"

Copied!
9
0
0

Teks penuh

(1)

BAB 2

LANDASAN TEORI

2.1 Outlier

Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Distribusi pertama disebut sebagai “distribusi dasar” (basic distribution) yang menghasilkan pengamatan “baik”. Distribusi kedua disebut sebagai “distribusi kontaminan” (contaminating distribution) yang menghasilkan pengamatan “tidak baik”. Jumlah maksimum outlier dalam data yang diperbolehkan adalah 50 persen (Rousseeuw dan Leroy dalam Hubert dan Van Driessen,2004:303).

Berdasarkan pengaruh pengamatan outlier terhadap data, maka outlier dapat dibedakan menjadi tiga, yaitu :

• Shift Outlier, mampu menggeser vektor rata-rata sehingga pusat data menjadi berubah.

• Scale Outlier, mampu merubah bentuk ellipsoid dari data.

• Radial Outlier, selain menggeser pusat ellipsoid juga merubah bentuk ellipsoid.

Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residu yang relatif besar untuk ukuran residu pada ketetapan pengamatan. Diasumsikan bahwa hubungan anatara dua variabel x dan y diperkirakan dengan garis lurus. Model regresi formalnya adalah

0 1 ...

i i i

y =β +βx + + ε (2.1)

Denganβ dan 0 β adalah parameter untuk diestimasi.1 ε adalah kesalahan i random yang tidak diperhatikan dan diasumsikan berdistribusi normal. Diberikan data

(2)

yang cukup pada x dan y, model parameter dapat diestimasi dengan metode least squares. Interpretasi dari koefisien regresi adalah menyediakan bentuk kedekatan dimana tidak ada variabelyang menyimpangdari asumsi dasar regresi yang telah diketahui. Asumsi ini diperiksa dengan menganalisis regresi residual.

Analisis residu biasanya dimulai dengan grafik dari residu dengan variabel bebas x, dan memfitkannilai

^

y . Secara umum grafik ini dimulai dengan titik-titik untuk memeriksa simpangan dari model asumsi, seperti ketidakcukupan asumsi garis lurus, kecukupan variansi konstan, ada tidaknya outlier dan korelasi kesalahan. Dalam kajian ini perhatian terbatas untuk mendeteksi outlier dan mengukur pengaruhnya pada hasil regresi.(Chatterje-Price,1977)

Untuk mendeteksi outlier dapat dilakukan dengandiagramdan perhitungan nilai seperti :

1. Scatter Plot

Data observasi diplotkan dalam suatu grafis, jika terdapat data yang jauh dari kumpulan plot maka dapat dikatakan bahwa data tersebut termasuk pencilan.

2. Boxplot

Dengan menggunakan nilai kuartil 1,2 dan 3 yang akan membagi sebuah urutan data menjadi beberapa bagian.

IQR = Q3 - Q1 (2.2)

Dengan :

Q1 = Kuartil ke 1 Q2 = Kuartil ke 2 Q3 = Kuartil ke 3

IQR = Interquartule Range (Jangkauan)

Dengan batas bukan pencilan kurang dari 1,5xIQR atas dan besar dari 1,5xIQR bawah. [10]

(3)

3. Leverage Values, DfFITS, Cook’s Distance, dan DfBETA(s)

• Leverage Values; menampilkan nilai leverage (pengaruh) terpusat. Outlier yang disebabkan oleh variabel prediktor dinamakan leverage. Leverage sangat sulit diketahui sejak awal karena :

1. Visualisasi seperti scatter diagram tidak mampu menggambarkan secara utuh dalam satu gambar.

2. Beberapa pencilan dalam data membentuk efek masking / tidak terlihat mencolok.

• DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam hargayang diprediksi bilamana data yang dianggap pencilan dikeluarkan, yang sudah distandarkan.

• Cook’s Distance; menampilkan nilai jarak Cook

• DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai hasilperubahan yang disebabkan oleh pengeluaran data yang dianggap pencilan. Digunakan untukmendeteksi pencilan pada variabel bebas.

Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :

Ket. : n = Jumlah observasi (sampel); p = Jumlah parameter

4. Internal Studenization ( Residu Yang Distudentkan)

Umumnya outlier memiliki nilai y yang ekstrim. Untuk mendeteksi apakah terdapat outlier atau tidak, Internal Studenization (Residu yang distudentkan) Hipotesis :

H0: ∆i = o ( tidak terdapat outlier )

(4)

Uji Statistik : 1 1− ≈ − − = n p ii t h s r t 2.3 Dengan :

− = 1 2 i r p n s Dengan: r = residu

p= banyaknya variabel bebas hii = 2p/n

Kriteria uji :

HO ditolak jika ti≥tα/2;n-p-1, dan HO diterima jika ti<tα/2;n-p-1 , Dengan α = taraf nyata

2.2 Pengamatan Berpengaruh

Pencilan dapat dilihat sebagai pengamatan dengan sisaan yang cukup besar yakni nilai mutlak dari residu lebih besar dari 2 atau ǀr iǀ>2, tetapi Seber (1977,hal165)

memberikan patokan kasaryakni nilai mutlak dari residu lebih besar dari 3 atau ǀr iǀ>3, sedangkan pengamatan berpengaruh lebih berkaitan dengan besarnya

perubahan yang terjadi pada koefisien regresi jika pengamatan tersebut disisihkan. Secara umum, pencilan tidak selalu berarti pengamatan berpengaruh ataupun sebaliknya. Ada atau tidaknya pengamatan berpengaruh dalam analisis tidak hanya merubah nilai koefisien regresi tapi juga akan merubah penafsiran atau kesimpulan. Pendekatan eksploratif mungkin dianggap kurang efisien dan berkesan mencoba-coba, sehingga dibutuhkan pendekatan yang lebih sistematik. Prosedur yang dapat ditempuh dalam hai ini adalah pemeriksaan sisaan.

Penentuan pengamatan berpengaruh didasarkan pada nilai coverage/cakupan yang disimbolkan dengan h. Secara umum 0≤h≤ 1 dan ∑h = p, dengan p adalah banyaknya parameter dalam model. Sehingga secara rata-rata besarnya h adalah p/n. Hoaglin dan Welsch (1978) menyebutkan bahwa h > 2p/n dapat dianggap cukup besar untuk menyatakan pengamatan tersebut berpotensi sebagai pengamatan berpengaruh.

(5)

banyaknya pengamatan yang ikut menentukan pendugaan ^

y , sehingga nilai h > 0,5 dianggap besar dan kritis, dan h > 0,2 sebagai petunjuk peringatan.

Pada dasarnya nilai h yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh, yang kemudian dapat diketahui setelah analisis dengan penyisihan pengamatan tersebut.

DfFITS dan jarak Cook (Cook’s Distance) digunakan untuk mengukur amatan berpengaruh. Suatu amatan dikatakan berpengaruh jika nilai mutlak DfFITS > 1 untuk gugus data berukuran kecil dan nilai mutlak DfFITS > untuk gugus data berukuran sedang dan besar. Cook’s Distance > F(0,5;p;n-p) dikatakan berpengaruh. Contoh pola hubungan data yang mengandung pencilan

Gambar 2.1 Scaterplot WRI Januari dan Luas Panen Periode I.

WRI Jan LP -1 140 120 100 80 60 40 20 350 300 250 200 150 100 50 0 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

Scatterplot of LP-1 vs WRI Jan

Gambar 2.1 menunjukkan contoh pola hubungan Weighted Rainfall Index Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada pengamatan ke-15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada umumnya. Melalui perbandingan nilai DfFITS dapat dikatakan pengamatan tersebut sebagai outlier dikarenakan memiliki nilai DfFITS = 5.74699 lebih dari batas DfFITS yaitu

15 / 2

(6)

2.3 Regresi Robust

Metode kuadrat terkecil atau OLS (ordinary least square) merupakan metode penduga terbaik untuk analisis regresi, namun metode ini sangat sensitif terhadap pencilan. Bahkan jika hanya terdapat satu saja pencilan extrim dalam data, maka akan mengakibatkan penyimpangan pada dugaan OLS.Untuk mengatasi data yang mengandung pencilan diperlukan metode yang tegar terhadap pencilan yang disebut sebagai metode robust.

Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya.Titik pencilan dikatakan 0 jika r ≤ dan 1 untuk lainnya. 3

Dengan ^ ^ ^ 0 1 1 2 2 , 1,..., i i i i r = −Yβ β+ XX i= n   (2.4)

Titik Leverage dapat dideteksi dengan menggunakan jarak robust yaitu 1

( i) ( i ( ))T ( ) ( i ( ))

RD X =  XT X C XXT X (2.5)

Dimana : RD : Jarak Robust

T(X) : vektor rata-rata robust

C(X) : matriks kovarians robust. [10]

Langkah-langkahpendeteksian outlier dengan metode Least Trimmed Squares pada Regresi Robust meliputi beberapa tahap :

1. Tentukan pencilan pada data

2. Tentukan nilai coverage yakni h =

[ ] [

n/2 + p( +1)/2

]

3. Buat subset dari data yaitu sebanyak kombinasi n dari h.

4. Gunakan metode kuadrat terkecil biasa untuk mendapatkan nilai parameter dan residu dari tiap subset

5. Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari keseluruhan subset

Setelah didapat model yang fit, kemudian

a. Hitung nilai residu robust untuk menentukan titik pencilan, yang diperoleh dari model fit Least Trimmed Squares

(7)

c. Buat plot antara jarak robust vs residu robust [10]

Dan terakhir plot antara residu robust dan jarak robust memungkinkanpengguna untuk mencirikan/membedakan 4 model titik yaitu: observasi biasa,pencilan vertikal, titik good leverage dan titik bad leverage.

1. Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust kecil.

2. Pencilan vertikal yaitu suatu titik yang memiliki nilai residu robust besar dannilai jarak robust kecil.

3. Good leverage yaitu suatu titik yang memiliki nilai residu robust kecil dannilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengangaris

linear.

4. Bad leverage yaitu suatu titik yang memiliki nilai residu robust dan nilaijarak robust besar. Titik ini lebih berbahaya dari pada pencilan karenamemiliki pengaruh paling besar pada regresi linear klasik.

Tentu saja tidak selalu semua titik ini dimiliki oleh data.

2.4 Least Trimmed Squares

Least Trimmed Squares(LTS) merupakan suatu metode pendugaan parameter regresi robust untuk meminimumkan jumlah kuadrat h residual (fungsi objektif).

^ β =

= h i n i r 1 2 ) : ( (2.6) Dengan h=

[ ] [

n/2 + p( +1)/2

]

Keterangan : 2 ) (i

r

: Kuadrat residual yang diurutkan dari terkecil ke terbesar.

2 ) 1 (

r

<

r

(22)<

r

(23)< …. <

r

(i2)< … <

r

(h2)< … <

r

(n2) n : Banyaknyapengamatan p: Parameter regresi

(8)

Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan (2.6) akan membangun breakdown point yang besar sebanding dengan 50%. Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan Aels (2005) adalah gabungan FAST-LTS dan C-steps.

Tahapan algoritma yang digunakan FAST LTS, C-steps dan FWLS yaitu : 1) Menghitung estimasi parameter bo

2) Menentukan n residual ri2 =

(

yˆiXibo

)

2yang bersesuaian dengan (bo) kemudian

menghitung sejumlah ho =(n+ p+1)/2pengamatan dengan nilai 2 ) (i e terkecil. 3) Menghitung

= o h i i r 1 2 ) (

4) Melakukan estimasi parameter bnew dari ho pengamatan.

5) Menentukan n kuadrat residual ri2 =

(

yˆiXibnew

)

2yang bersesuaian dengan (bnew)

kemudian menghitung sejumlah hnew pengamatan dengan nilai 2 ) (i e terkecil. 6) Menghitung

= new h i i r 1 2 ) (

7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang kecil dan konvergen.

Dengan metode LTS, model hubungan antara WRI Jan dan LP I diperoleh h = 9 subset data dengan kuadrat fungsi objektif terkecil. Kemudian melalui FWLS didapatkan hanya variabel intercept yang signifikan berpengaruh, R Square 18,19 % dan standard deviasi 12,38.

2.5 Penggunaan LTS dalam masalah outlier

Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan ataumembuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudiandilakukan pengujian kembali untuk mendeteksi terdapat atau tidaknya pencilanpada data sampai tidak terdapat lagi pencilan pada data tersebut.Meskipun pencilan identik dengan data

(9)

menyimpan informasi tertentu. Untuk itu alternatif yang dapat diambil terhadap data yang terkontaminasipencilan adalah dengan menggunakan metode Least Trimmed Square (LTS) dalampenaksiran model regresi.

Gambar

Gambar 2.1 Scaterplot WRI Januari dan Luas Panen Periode I.

Referensi

Dokumen terkait

Gaya kepemimpinan ini sering juga disebut gaya kendali bebas. yaitu suatu tugas/pekerjaan disajikan kepada kelompok yang biasanya menentukan teknik-teknik mereka sendiri

Saran tersebut akan diberikan kepada pihak: (1) Bagi Pemerintah Kota Pontianak (khususnya Dinas Budaya dan Pariwisata) hendaknya dapat mengusahakan hak paten

Selain wilayah perkotaan, masalah ketersediaan air bersih ini juga di hadapi oleh penduduk di wilayah pedesaan tersebut memiliki sumber air (air permukaan, air bawah

Tujuan dari skripsi ini ialah merancang sistem informasi rekam medis bagi lansia yang dapat digunakan untuk menghasilkan informasi yang valid, lengkap, dan tepat waktu serta

Tugas akhir dengan judul “Penerapan Metode PCA(Principal Component Analysis) dan Euclidean Distance untuk Pengenalan Wajah Berkelompok” ini disusun untuk

DALAM KONDISI APAPUN, ASUS, DIREKTUR, STAF, KARYAWAN, ATAU AGENNYA TIDAK BERTANGGUNG JAWAB ATAS KERUSAKAN TIDAK LANGSUNG, KHUSUS, INSIDENTAL, ATAU KONSEKUENSIAL (TERMASUK

Ulkus kaki diabetes terutama terjadi pada penderita diabetes mellitus yang telah menderita 10 tahun atau lebih, apabila kadar glukosa darah tidak terkendali, karena akan

Perhitungan biaya proses (process costing): sebuah sistem biaya yang menentukan biaya ke masing-masing proses atau pusat kerja dalam siklus produksi, dan kemudian menghitung