Kajian Metode Robust Least Trimmed Square (LTS) Dalam Mengestimasi Parameter Regresi Linear Berganda Untuk Data yang Mengandung Pencilan

(1)

BAB 2

TINJAUAN PUSTAKA

2.1. Regresi Linear Berganda

Regresi linear berganda adalah regresi dimana variabel terikatnya

dihubungkan atau dijelaskan dengan lebih dari satu variabel bebas , , …, dengan syarat variabel bebas masih menunjukkan hubungan yang linear dengan variabel terikat. Hubungan fungsional antara variabel terikat dengan variabel bebas , , … , secara umum dapat

dituliskan sebagai berikut: • Untuk populasi

= + + + + … + + (2.1)

• Untuk sampel

= + + + + … + + (2.2)

di mana:

= 1,2, ⋯ , !

= variabel terikat pada pengamatan ke-

, , … , = variabel bebas pada pengamatan ke-" variabel ke- , , , … , = parameter regresi

= nilai kesalahan (error)

Apabila terdapat sejumlah ! pengamatan dan " variabel bebas maka

untuk setiap pengamatan atau responden mempunyai persamaannya seperti berikut:

= + + + + … + +

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

(2)

Apabila persamaan regresi linear berganda untuk setiap pengamatan dinyatakan dengan notasi matriks maka menjadi:

$

adalah vektor variabel terikat berukuran ! + 1.

adalah matriks variabel bebas berukuran ! + , − 1 . adalah vektor parameter berukuran , + 1.

adalah vektor error berukuran ! + 1.

Menurut Gujarati penggunaan analisis regresi linear berganda tidak terlepas dari asumsi-asumsi error berikut:

1. Asumsi = 0 menyatakan bahwa rata-rata atau nilai harapan vektor setiap komponennya bernilai nol. Dengan adalah vektor kolom ! + 1 dan

0 adalah vektor nol. Maka = 0, berarti:

varian dan kovarian kesalahan pengganggu.

(3)

= 0 _{= 4 ⋮}

Dengan menggunakan nilai harapan untuk setiap unsur dalam

matriks (2.6) sehingga diperoleh:

0 _{= 4}

Karena adanya asumsi tentang homoskedastisitas, yaitu bahwa setiap

kesalahan pengganggu mempunyai varian yang sama = 1 , untuk semua dan tidak ada korelasi serial artinya antar kesalahan pengganggu

yang satu dengan yang lainnya bebas, "678 ₉: = 0.

0 _{= 4}10 10 ⋯⋯

dan (2.8) disebut matriks varians-kovarians dari kesalahan penggangu .

Unsur pada diagonal utama dari matrik (2.7) memberikan varians dan unsur diluar diagonal utama memberikan kovarian, berdistribusi normal

dengan mean nol dan varians konstan 1 . ~? 0, 1

Pada rumus parameter regresi dan dalam regresi linear sederhana dan parameter regresi , , ,⋯, pada regresi linear

berganda, diduga secara berturut-turut dengan , dan , , ,⋯,

(4)

2.2.Koefisien Determinasi Berganda

Menyatakan keeratan hubungan antara variabel terkat dan variabel

bebas , , ⋯ , _/ pada regresi linear berganda akan dinyatakan dengan

koefisien determinasi berganda. Besarnya koefisien determinasi berganda

dari persamaan regresi linear berganda yaitu:

= 1 −_∑∑

= ∑ _∑− ∑

dimana:

∑ = ∑ − − − ⋯ −

= ∑ − − − ⋯ − karena = − −

− ⋯ −

= ∑ − ∑ − ∑ −⋯ − ∑

= ∑ ; (dimana ∑ = ∑ = ⋯ = ∑ = 0

= ∑ − − − ⋯ −

= ∑ − ∑ − ∑ − ⋯ − ∑

= ∑ ABCD ∑ABCDEF∑GFBABDEC∑GCBABD⋯DEB∑ GHBAB

∑A_BC

= EF∑GFBABIEC∑ GCBABI⋯∓∑ GHBAB

∑ A_BC

dimana nilai berada dalam interval 0 ≤ ≤ 1.

Adapun semakin besar nilai artinya semakin baik suatu garis regresi linear digunakan sebagai suatu pendekatan. Dan apabila nilai sama

dengan 1 (satu) berarti pendekatan tersebut semakin baik.

2.3. Residual

Residual atau sisaan dalam regresi linear sederhana merupakan selisih

dari nilai prediksi dengan nilai yang sebenarnya atau = L − LM . Namun

penggunaan jarak = L − LM tidaklah memuskan. Dengan meminimumkan

diperoleh hasil yang umum seperti berikut : ∑ = ∑/ L − LM

N /

(5)

Jika nilai pengamatan terletak dalam garis regresi maka nilai residualnya sama dengan nol. Jadi, jika total jarak atau nilai mutlak dari residual sama dengan nol ∑ | | = 0/_N artinya semua nilai pengamatan

berada pada garis regresi. Semakin besar nilai residualnya maka garis regresi semakin kurang tepat digunakan untuk memprediksi. Yang diharapkan adalah total residualnya kecil sehingga garis regresi cukup baik untuk digunakan.

2.4. Metode Ordinary Least Square (OLS)

Metode Ordinary Least Square (OLS) merupakan suatu metode untuk mendapatkan garis regresi yang baik yaitu sedekat mungkin dengan datanya sehingga menghasilkan prediksi yang baik (Widarjono, 2005).

Metode OLS harus memenuhi asumsi-asumsi yang ada dalam proses pengestimasian parameter sehingga hasil estimasinya memenuhi sifat Best Linear Unbiased Estimator (BLUE). Pada dasarnya metode OLS

meminimumkan jumlah kuadrat error.

P =

Untuk mengestimasi parameter model regresi linear berganda digunakan metode OLS. Prosedur metode OLS dilakukan dengan memilih nilai parameter yang tidak diketahui sehingga jumlah error diperoleh ∑

sekecil mungkin, sehingga dapat dinyatakan dengan:

(6)

= − − − − ⋯− ∑/

N = ∑/N − − − − ⋯ − (2.11)

Kemudian, untuk menentukan , , , ⋯ , dengan meminimumkan

jumlah kuadrat residualnya ∑/_N secara parsial terhadap P , P , P , ⋯, P

dan samakan dengan 0 maka dapat dituliskan: R ∑

R P = 2 S8 − P − P − P − ⋯ − P : −1 = 0 /

N R ∑

R P = 2 S8 − P − P − P − ⋯− P : − = 0 /

N R ∑

R P = 2 S8 − P − P − P − ⋯− P : − = 0 /

N ⋮

R ∑

R P = 2 S8 − P − P − P − ⋯ − P : − = 0 /

N

Jika persamaannya disederhanakan dan disusun maka akan menjadi: ! P + P ∑ +P ∑ + ⋯ + P ∑ = ∑

P ∑ + P ∑ + P ∑ + ⋯ + P ∑ = ∑

P ∑ + P ∑ + P ∑ + ⋯ + P ∑ = ∑ (2.12) ⋮

P ∑ + P ∑ + P ∑ + ⋯ + P ∑ = ∑

dimana persamaan 2.12 disebut sebagai persamaan normal

Dengan menjumlahkan persamaan = P + P + P + ⋯ + P untuk seluruh pengamatan ! memberikan persamaan pertama dalam persamaan (2.12) kemudian mengalikannya dengan pada kedua sisinya dan

menjumlahkan untuk seluruh ! maka dihasilkan persamaan kedua. Begitu

(7)

Dinyatakan dalam bentuk matriks, persamaan normal akan menjadi:

Persamaan (2.13) diperoleh dari menurunkan persamaan mariks terhadap P,

sehingga diperoleh:

(8)

Dipastikan bahwa turunan kedua dari ∑/_N terhadap P haruslah bernilai positif.

Sehingga nilai ∑/_N akan minimum apabila nilai 2 T lebih besar dari nol.

Karena matriks T adalah turunan positif dengan semua unsur diagonalnya

berbentuk kuadrat, maka turunan kedua dari ∑/_N terhadap P bernilai positif

yang artinya P = T D T minimum.

2.5.Pencilan (Outliers)

Pencilan adalah suatu data yang menyimpang dari sekumpulan data yang lain. Pencilan diartikan pula sebagai pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data. (Ferguson, 1961)

Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai residual yang relatif besar untuk ukuran residual pada ketepatan pengamatan.

Diasumsikan bahwa hubungan antara dua variabel + dan L diperkirakan

dengan garis lurus. Berdasarkan model regresi linear berganda pada persamaan (2.1) dengan dan , , ⋯ , adalah parameter regresi untuk diestimasi.

Nilai kesalahan ( ) yang tidak diperhatikan dan diasumsikan berdistribusi

normal.

2.5.1. Jenis Pencilan

Model regresi menggambarkan hubungan dari beberapa variabel bebas ( , , ⋯ , _/ dengan variabel terikat ( , , ⋯ , _/ . Model regresi

diperoleh dengan menggunakan metode estimasi ordinary least square (OLS). Metode OLS didasarkan pada asumsi bahwa terjadinya kesalahan pada model yang dihasilkan yang seharusnya berdistribusi normal. Karena dengan residual berdistribusi normal metode OLS memberikan estimasi parameter yang optimal bagi model regresi.

Metode OLS harus memenuhi asumsi dari Best Linear Unbiased

Estimator (BLUE) dalam proses estimasinya. Jika data tidak memenuhi

(9)

diperoleh menjadi tidak efisien. Keberadaan pencilan pada data mungkin terdapat pada variabel bebasnya ( ) ataupun variabel terikatnya ( ).

Pencilan pada arah-L akan memberikan nilai residual yang sangat

besar (positif atau negatif). Hal ini disebabkan karena data pencilan mempunyai jarak yang sangat besar terhadap garis OLS. Sedangkan data pencilan pada arah-+ memberikan pengaruh yang sangat besar pada

estimator metode OLS karena pencilan pada arah-+ disebut sebagai titik

leverage.

Secara umum, suatu pengamatan + ,L dikatakan suatu titik

leverage ketika + terletak jauh dari sebagian besar data pengamatan

dalam sampel. Sebagai catatan, suatu titik leverage tidak memasukkan nilai L ke dalam perhitungan, jadi titik + , L tidak harus menjadi pencilan pada regresi. Ketika + , L dekat terhadap garis regresi yang

ditentukan dengan sebagian besar data, maka hal tersebut dapat diasumsikan sebagai titik leverage yang baik. Oleh karena itu, untuk menyimpulkan bahwa + , L adalah suatu titik leverage hanya merujuk

pada kepotensialnya besar mempengaruhi koefisien-koefisien regresi (karena pencilannya hanya + ). Titik + ,L tidak selalu dilihat sebagai

penyebab pengaruh yang besar terhadap koefisien-koefisien regresi, karena bisa saja titik + , L tepat pada garis yang ditentukan

kecendrungannya dengan sejumlah besar himpunan data lainnya.

Regresi linear berganda + , + , ⋯ , + terletak pada suatu ruang berdimensi ,. Suatu titik leverage tetap didefinisikan sebagai suatu titik 8+ , ⋯ , + [, L : dimana 8+ ,⋯ , + _[: merupakan titik-titik yang terpisah dari himpunan data. Suatu titik leverage yang berpotensial berpengaruh besar pada koefisien regresi OLS, bergantung pada nilai aktual dari L ,

(10)

2.5.2. Deteksi Pencilan

Langkah awal yang harus dilakukan dalam mendeteksi pencilan yaitu dengan melihat kemungkinan bahwa pencilan merupakan data yang

berpengaruh (terkontaminasi). Data pencilan dapat dikenali dengan memeriksa data mentahnya (raw) secara visual atau dari diagram pencar pada variabel bebas (Jacob, 2003: 394). Jika terdapat lebih dari dua variabel bebas, beberapa pencilan akan sangat sulit untuk dideteksi dengan pemeriksaan visual. Oleh karena itu, dibutuhkan bantuan lain pada pemeriksaan visual yang dapat membantu dalam pendeteksian pencilan.

Dalam statistik, data pencilan harus dilihat terhadap posisi dan sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan tersebut perlu dihapus atau tidak. Ada berbagai macam metode yang dapat digunakan untuk mendeteksi adanya data pencilan yang berpengaruh dalam koefisien regresi diantaranya adalah metode grafis, boxplot, scatter plot, leverage values, discrepancy, cook’s distance, DfBETA(s), Goodness

of FIT,dan metode DfFITS. Namun pada skripsi ini pendeteksian pencilan

yang akan dibahas menggunakan scatter plot, metode leverage values, discrepancy, dan metode DfFITS .

2.5.2.1. Leverage Values

Pendeteksian dengan menggunakan leverage values hanya menggambarkan pengamatan yang terjadi pada variabel bebas. Leverage values menginformasikan seberapa jauh pengamatan tersebut dari nilai

mean himpunan data variabel bebas. Jika hanya terdapat satu variabel

bebas, leverage dapat dituliskan seperti:

\ 7 ]^_ = ℎ =_/+ GBD`aC

∑bC (2.15)

dengan ℎ adalah leverage values pengamatan ke- , ! banyaknya data,

(11)

meannya. Jika pengamatan ke- bernilai c_b, maka bentuk kedua dari

persamaan (2.15) akan 0 dan ℎ akan memiliki nilai kemungkinan yang

minimum

/. Misalkan pengamatan ke- nilai pada jauh dari cb, maka nilai leverage akan naik. Nilai maksimum dari ℎ adalah 1 nilai mean dari

leverage untuk !-pengamatan dalam suatu sampel adalah c_d_BB= I / , dengan " merupakan jumlah variabel bebas.

Penjabaran perhitungan leverage yang dijelaskan merupakan hitungan untuk pengamatan satu variabel bebas, dapat digeneralisasi untuk pengamatan dengan variabel bebas lebih dari satu. Untuk pengamatan dengan banyak variabel bebas, hal yang menarik adalah seberapa jauh nilai-nilai untuk setiap " variabel untuk pengamatan ke- , , , ⋯, ,

dari centroid variabel bebas. Centroid merupakan mean dari data, c , c , ⋯, c . Perhitungan nilai ℎ untuk pengamatan ini dengan mengguanakan persamaan:

e = 0 D 0 _(2.16)

dengan e merupakan matriks ! + ! dan merupakan matriks ! + " + 1 . Dimana ! merupakan banyaknya data, dan " merupakan jumlah koefisien ( variabel bebas ditambah 1 sebagai konstanta . Diagonal

dari e berisi nilai leverage. Jadi, leverage untuk pengamatan ke- , ℎ merupakan nilai dari baris ke- dan kolom ke- dari e.

Penentuan nilai yang memiliki leverage yang besar didasarkan pada nilai cutoff. Nilai ℎ yang melebihi nilai cutoff dideteksi sebagai

pencilan. Adapun nilai cutoff yang telah ditentukan menurut Jacob Cohen

adalah I

/ untuk data yang jumlahnya ! > 15, sedangkan untuk data

yang jumlahnya ! ≤ 15 digunakan cutoff I

(12)

2.5.2.2. Discrepancy

Mengidentifikasi pencilan menggunakan discrepancy yang banyak digunakan adalah dengan Externally Studientized Residuals. Externally

studientized residuals dengan memisalkan jika data pencilan sebuah

pengamatan dihapuskan dari himpunan data. Misalkan h nilai yang

merupakan prediksi pengamatan ke- , tetapi pengamatan ke- dihapuskan

dari himpunan data. Pencilan berkontribusi secara substansial terhadap estimasi variansi residual sekitar garis regresi dan disimbolkan dengan c iVj klmn . Sedangkan c _{iVj klmn} untuk variansi residual dengan pengamatan ke- yang merupakan pencilan dihapuskan dari himpunan

data. Misalkan o sebagai perbedaan antara data asli, , dengan nilai prediksi untuk pengamatan ke- yang berasal dari himpunan data dengan

pengamatan ke- yang dihapuskan yaitu o = − h . Externally

studientized residuals untuk pengamatan ke- , p dihitung dengan: p = kB

qr_sB (2.17)

dimana o merupakan nilai residual yang dihapuskan: o = tB

DdBB (2.18)

dan nilai standar residual juga dapat dihitung dengan:

kB= u

`qvwxBsyz{ B

DdBB (2.19)

Jika persamaan (2.18) dan (2.19) dimasukkan kedalam persamaan (2.17) maka akan menjadi:

p = tB

u`qvwxBsyz{ B DdBB

(2.20)

(13)

nilai p > p_|m}Vn dengan derajat kepercayaan ~ , maka data tersebut

memiliki nilai discrepancy yang besar dan dikategorikan sebagai pencilan.

2.5.2.3. Metode DfFITS

Difference fitted value FITS merupakan metode yang menampilkan nilai

perubahan dalam harga yang diprediksi bilamana kasus tertentu dikeluarkan, yang sudah distandarkan. Perhitungan DfFITS di rumuskan sebagai berikut :

= p • dBB DdBB€

F

C _(2.21)

dimana p adalah studentized deleted residual untuk pengamatan ke- dan ℎ adalah nilai pengaruh untuk kasus ke- dengan:

p = u_{•‚ƒ Dd}/D D BB DtBCW

(2.22)

adalah residual ke- dan JKG adalah jumlah kuadrat galat.

Suatu data yang mempunyai nilai absolute DfFITS lebih besar dari

2u I_/ maka didefinisikan sebagai pencilan, dengan " banyaknya variabel

bebas dan ! banyaknya observasi (Soemartini: 2007).

2.6. Regresi Robust

Regresi robust merupakan metode yang penting untuk menganalisis suatu himpunan data yang mengandung pencilan. Regresi robust digunakan untuk mendeteksi pencilan dan memberikan hasil yang resisten terhadap adanya data pencilan. Menurut Aunuddin 1999, regresi robust tujuannya untuk mengatasi

adanya data ekstrim serta meniadakan pengaruhnya terhadap hasil pengamatan tanpa terlebih dahulu melakukan identifikasi.

(14)

a. Sama baiknya dengan metode ordinary least square ketika semua asumsi terpenuhi dan tidak terdapat titik data yang berpengaruh.

b. Dapat menghasilkan model regresi yang lebih baik daripada ordinary least square ketika asumsi tidak terpenuhi dan terdapat titik data yang

berpengaruh.

c. Perhitungan cukup sederhana dengan melakukan iterasi sampai memperoleh estimasi terbaik yang mempunyai standar error parameter yang paling kecil ataupun konvergen ke nol.

2.7. Least Trimmed Square (LTS)

Estimasi least trimmed square adalah dengan high breakdown point yang dikenalkan oleh Roesseuw (1984). LTS merupakan suatu metode estimator parameter regresi robust untuk meminimumkan jumlah kuadrat h residual (fungsi objektif) dan sebagai metode alternatif robust untuk mengatasi kelemahan metode OLS, yaitu dengan menggunakan sebanyak ℎ ℎ ≤ ! .

„…Tq = S :/ d

N

di mana:

„…Tq : Estimasi least trimmed square

h : ‡/ˆ + ‡ [Inˆ

: kuadrat error yang diurutkan dari yang terkecil ke terbesar < < < … < < … < _d < … < _/

Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan diatas akan membangun breakdown point yang besar sebanding dengan 50%. Untuk mendapatkan nilai residual

pada LTS, digunakan algoritma LTS menurut Rousseeuw dan Van Driessen

(1999) sedangkan Willems dan Aels (2005) adalah gabungan FAST-LTS dan C-Step, yaitu dengan mengestimasi parameter , , dan . Kemudian

(15)

= 8 − P − P − P − ⋯ − P :

Setelah itu menghitung ∑d_NŠ dengan ℎ = ‡/ˆ + ‡([In)ˆ pengamatan

dengan nilai terkecil. Tahapan-tahapan dilakukan sampai diperoleh nilai

residual terkecil dan konvergen.

2.8.Breakdown Point

Breakdown point dari suatu regresi estimator adalah salah satu cara yang dapat

digunakan untuk mengukur ke-robust-an suatu estimator. Breakdown point

merupakan proporsi minimal dari banyaknya pencilan dibandingkan seluruh data pengamatan. Salah satu regresi robust yang mempunyai breakdown point

adalah regresi robust dengan metode Least Trimmed Square (LTS). Metode estimasi LTS mempunyai breakdown point 50%. Breakdown point 50% adalah breakdown point yang tinggi.

Definisi T adalah sebuah estimator, Z adalah sebuah sampel dari !

pengamatan dimana (‹) = P. Misalkan ‹0 bagian ‹ dimana Œ dari ! pengamatan

yang mengandung pencilan. Bias maksimal yang menyebabkan data menjadi rusak

yaitu

^•(Œ; , ‹) = sup ’W || (‹

0_{) − (‹)||}

Maka breakdown point ( _/∗) dapat didefinisikan dengan

/∗( , ‹) = Œ ! ”Œ_{! ; ^• (Œ; , ‹) ^o^\^ℎ ! ! p •}

Untuk OLS , dapat dilihat jika adanya pencilan cukup diperhatikan pada T untuk semua batas. Oleh karena itu, breakdown point sama dengan: