METODE PENGHAPUSAN UNTUK PENDETEKSIAN OUTLIER DAN INFLUENTIAL POINT PADA REGRESI LINIER
SKRIPSI
RIZKI FAUZI PUTRI 150803045
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2020
METODE PENGHAPUSAN UNTUK PENDETEKSIAN OUTLIER DAN INFLUENTIAL POINT PADA REGRESI LINIER
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Sains
RIZKI FAUZI PUTRI 150803045
PROGRAM STUDI MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA
MEDAN 2020
PERNYATAAN ORISINALITAS
METODE PENGHAPUSAN UNTUK PENDETEKSIAN OUTLIER DAN INFLUENTIAL POINT PADA REGRESI LINIER
SKRIPSI
Saya menyatakan bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.
Medan, Januari 2020
Rizki Fauzi Putri 150803045
i PENGESAHAN SKRIPSI
Judul : Metode Penghapusan Untuk Pendeteksian Outlier dan Influential Point pada Regresi Linier
Kategori : Skripsi
Nama : Rizki Fauzi Putri
Nomor Induk Mahasiswa : 150803045
Program Studi : Sarjana Matematika
Fakultas : MIPA- Universitas Sumatera Utara
Disetujui di Medan, januari 2020
Ketua Program Studi
Departemen Matematika FMIPA USU
Dr. Suyanto, M. Kom
NIP. 19590813 198601 1 002
Pembimbing
Dr. Sutarnan, M. Sc
NIP. 19631026 199103 1 001
ii
METODE PENGHAPUSAN UNTUK PENDETEKSIAN OUTLIER DAN INFLUENTIAL POINT PADA REGRESI LINIER
ABSTRAK
Outlier merupakan suatu pengamatan yang dapat menggangu proses analisis data, oleh sebab itu diperlukan suatu metode diagnostik untuk mendeteksi keberadaan outlier dan influential point yaitu metode penghapusan baris observasi. Pada awalnya terbatas hanya pada satu baris (single-row) dengan menguji pada bagaimana penghapusan satu baris mempengaruhi estimasi koefisien, nilai prediksi (fitted), residual, dan estimasi struktur kovarian pada koefisien menggunakan parameter , , , , dan . Beralih ke teknik diagnostik yang lebih komprehensif yang melibatkan penghapusan atau gangguan lebih dari satu baris sekaligus (multiple-row) menggunakan parameter , , dan ( ). Komplikasi tambahan semacam itu terbukti perlu karena dalam menghilangkan hanya satu baris pada satu waktu pengaruh sekelompok pengamatan berpengaruh mungkin tidak cukup terungkap. Terkadang satu titik outlier menyembunyikan outlier lainnya sehingga menimbulkan efek masking. Dan jika pengamatan yang dianggap berpengaruh sebagai outlier ataupun influential point dihilangkan secara bertahap maka menghasilkan parameter model menggunakan koefisien determinasi ( ) yang berbeda dan naik turun atau tidak konstan.
Kata Kunci: outlier, influential point, pengamatan berpengaruh, metode diagnostik, penghapusan baris, koefisien
iii
METODE PENGHAPUSAN UNTUK PENDETEKSIAN OUTLIER DAN INFLUENTIAL OBSERVATIONS PADA REGRESI LINIER
ABSTRAK
Outlier is an observation that can interfere with the process of data analysis, therefore we need a diagnostic method to detect the presence of outliers and influential points, namely the method of removing lines of observation. Initially limited to only one row (single-row) by testing how the elimination of one line affects the estimated coefficient, predicted value, residual, and estimation of the covariance structure on the coefficient using the parameters , , , , and . Switch to more comprehensive diagnostic techniques that involve the elimination or interruption of more than one row at a time (multiple-row) using the parameters , , and ( )). Such additional complications prove necessary because in removing only one line at a time the influence of a group of influential observations may not be revealed enough.
Sometimes one point of the outlier hides the other outliers, causing a masking effect.
And if observations that are considered influential as outliers or influential points are eliminated gradually, then the model parameters produce different coefficient of determination ( ) and are up and down or not constant.
Keywords: outliers, influential points, influential observations, diagnostic methods, line deletion, coefficients
iv PENGHARGAAN
Puji syukur penulis ucapkan kehadirat Allah Subhana Wa Ta‟ala, atas rahmat dan hidayah-Nya penulis dapat menyelesaikan penyusunan skripsi ini yang berjudul
“Metode Penghapusan Untuk Pendeteksian Outlier dan Influential Point Pada Regresi Linier”. Shalawat dan salam kepada Nabi Muhammad Shallahu „alaihi wa sallam. Tujuan penulisan skripsi ini adalah sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.
Dalam penyusunan skripsi ini, tidak sedikit hambatan yang penulis hadapi, namun penulis menyadari bahwa kelancaran dalam penyusunan skripsi ini tidak lain berkat bantuan, arahan dan dorongan dari berbagai pihak. Oleh karena itu pada kesempatan ini, penulis ingin mengucapkan terima kasih kepada:
1. Bapak Dr. Sutarman, M.Sc selaku Dosen Pembimbing, yang telah memberikan bimbingan, arahan dan saran kepada penulis dalam pengerjaan skripsi ini.
2. Bapak Dr. Open Darnius M.Sc, M.Sc dan Bapak Prof. Dr. Tulus, M.Si selaku Dosen Pembanding yang telah memberikan arahan serta kritik dan saran yang membangun kepada penulis.
3. Bapak Dr. Suyanto, M.Kom dan Bapak Drs. Rosman Siregar, M.Si selaku Ketua dan Sekretaris Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.
4. Seluruh dosen dan pegawai Departemen Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara
5. Bapak Dr. Kerista Sebayang, MS selaku Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.
6. Ayahanda Udin Zein dan Ibunda Nur Aini serta adik-adik kandung penulis Dini Nur Indah Sari, Dea Haza Diens Fadila dan Silvi Al Haza Nur Fadila yang telah memberikan dukungan, motivasi dan doa kepada penulis.
7. Sahabat #7blablabla “Andri Saputra Sk, Helmi Ramadan Samosir, Salma Desvi Wulandari, Sarah Hastian Siregar, Nurul Azri Azwar dan Mardiyana
v Harahap”. Sahabat Kos “Novita hasnah Harahap”. Sang Pemberi Motivasi
“Chelfina Utami” Sahabat Presidium “Muhammad Shiddiq, Sarah Hastian Siregar, Helmi Ramadan Samosir, Mutia Sari, M.Ofie Isranta P. Tarigan, Ninfa syafitri, Husein Aziz Arroyhan Nasution, Mustika Rahayu, Julia Kartika Hasibuan dan Nurhasanah Widya Sari Pulungan” dan Seluruh Anggota Pengurus IM3 2018-2019.
8. Abangda Alumni Math 2012 Rahmat Hidayat S.Si.
9. Seluruh Abang dan Kakak Alumni 2012, 2013, dan 2014, serta rekan-rekan mahasiswa angkatan 2015, 2016, 2017, dan 2018 Program Studi S1 Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sumatera Utara.
Penulis menyadari bahwa skripsi ini masih jauh dari kata sempurna, baik pada teknis penulisan maupun materi, mengingat akan kemampuan yang penulis miliki. Untuk itu kritik dan saran yang membangun dari semua pihak sangat penulis harapkan demi penyempurnaan pembuatan skripsi ini. Akhir kata penulis berharap semoga skripsi ini dapat bermanfaat dan menjadi sumbangan pemikiran bagi pihak yang membutuhkan, khususnya bagi penulis sehingga tujuan yang diharapkan dapat tercapai, Amin.
Terima kasih
Medan, januari 2020 Penulis,
Rizki Fauzi Putri 150803045
vi DAFTAR ISI
Halaman
PENGESAHAN i
ABSTRAK ii
ABSTRACT iii
PENGHARGAAN iv
DAFTAR ISI vi
DAFTAR TABEL viii
DAFTAR LAMPIRAN ix
BAB 1 PENDAHULUAN
1.1 Latar Belakang 1
1.2 Rumusan Masalah 3
1.3 Batasan Masalah 3
1.4 Tujuan Penelitian 3
1.5 Manfaat penelitian 3
BAB 2 TINJAUAN PUSTAKA
2.1 Model Regresi 4
2.1.1 Model Regresi Linier Sederhana 4
2.1.2 Model Regresi Linier Berganda 5
2.2 Estimasi Parameter Model Regresi linier berganda 6
2.3 Influential Observations dan Outlier 9
2.4 Single-Row 10
2.4.1 Estimasi Koefisien dan Nilai Fitted 11
2.4.2 Hat Matrix 13
2.4.3 Residual 13
2.4.4 Matriks Kovarian 14
2.5 Multiple-Row 15
2.5.1 Estimasi Koefisien dan Nilai Fitted 16
2.5.3 Matriks Kovarian 17
BAB 3 CONTOH KOMPUTASI 18
3.1 Studi Literatur 18
3.2 Metode Pengumpulan Data 18
3.3 Langkah-Langkah Pengolahan Data 19
BAB 4 HASIL DAN PEMBAHASAN 21
4.1 Pembuatan Model Regresi Linier berganda 21
4.2 Pendeteksian Pengamatan Berpengaruh 21
4.2.1 Single-Row 21
4.2.2 Multiple-Row 24
vii
BAB 5 KESIMPULAN DAN SARAN 29
5.1 Kesimpulan 29
5.2 Saran 29
DAFTAR PUSTAKA 31
LAMPIRAN 33
viii DAFTAR TABEL
No.
Tabel Judul Halaman
3.1 Data Regresi Linear Berganda 18
4.1 Hasil pendeteksian , , , , dan 22 4.2 Hasil singkat pendeteksian dengan penghapusan 2
baris observasi 26
4.3 Hasil singkat pendeteksian dengan penghapusan 3
baris observasi 27
ix DAFTAR LAMPIRAN
No.
Lampiran Judul Halaman
1 Flowchart Pemrograman R Metode Penghapusan Baris 33
2 Kode Pemrograman Metode Penghapusan Baris 35
3 Tabel Hasil Penghapusan 2 Baris Observasi 41
4 Tabel Hasil Penghapusan 3 Baris Observasi 44
5 Tabel Titik Persentase Distribusi t Degree of Freedom (Drajat
Kebebasan) = 1 – 40 56
BAB 1 PENDAHULUAN
1.1 Latar Belakang
Analisis regresi merupakan analisis statistik yang bertujuan untuk memodelkan hubungan antara variabel independen dengan variabel dependen (Draper dan Smith, 1992). Hubungan tersebut dapat dinyatakan dalam suatu persamaan regresi. Persamaan dapat berupa persamaan regresi sederhana maupun regresi ganda. Apabila persamaan regresi hanya memuat satu variabel bebas maka model regresinya disebut model regresi sederhana. Apabila persamaan regresi memuat lebih dari satu variabel bebas maka model regresinya disebut model regresi ganda (Ohyver, 2012).
Suatu data dikatakan baik apabila data tersebut berada di sekitar garis regresi.
Kenyataannya, terkadang terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Outlier merupakan suatu keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal dibanding data lainnya (Draper dan Smith, 1992). Suatu pengamatan tentang data outlier dapat menjadi pengamatan yang berpengaruh (influential Observations) apabila pengamatan tersebut besar pengaruhnya dalam pendugaan koefisien regresi.
Sebaliknya, apabila ada suatu pengamatan data outlier yang pengaruhnya dikalahkan oleh titik-titik pada nilai-nilai sekitarnya maka pengamatan tersebut tidak terlalu mempengaruhi nilai koefisien regresi dugaannya (Fauzy, 1997).
Metode Kuadrat Terkecil (MKT) atau Ordinary Least Square (OLS) merupakan salah satu metode yang sering digunakan untuk mendapatkan nilai-nilai penduga parameter model regresi. Namun demikian metode ini juga memiliki kelemahan dimana penduga yang dihasilkan sangat dipengaruhi oleh adanya data yang polanya menyimpang dari pola umum data (outlier) (putri, 2013). Untuk memperoleh suatu model regresi yang baik maka model tersebut harus memenuhi asusmsi-asumsi yang berlaku sehingga sebelum menerapkan metode-metode statistika pada data maka sangat penting untuk dilakukan pendektesian outlier antaranya asumsi normalitas, homokedastisitas, dan autokorelasi. Jika asumsi-asumsi
2 yang ada dalam regresi telah terpenuhi maka ada satu hal lagi yang perlu diperhatikan yaitu adanya outlier dan Influential observations pada data sehingga sebelum menerapkan metode-metode statistika pada data maka sangat penting untuk dilakukan pendektesian outlier (Derquenne, 1993).
Outlier merupakan suatu pengamatan yang keberadaannya dapat menggangu proses analisis data. Outlier menyebabkan asumsi kenormalan galat dalam analisis regresi tidak terpenuhi, sehingga perlu dilakukan pendeteksian keberadaan outlier ini menggunakan metode diagnostik (Indra et al., 2013). Diagnostik berpengaruh digunakan untuk mengidentifikasi titik data yang memiliki dampak tidak proporsional pada parameter model, kinerja dan/atau prediksi, memberikan informasi berharga untuk digunakan dalam kalibrasi model. Teori regresi diagnosis pengaruh mengidentifikasi data yang berpengaruh dengan menggabungkan leverage dan residu terstandarisasi, dan secara komputasi lebih efisien daripada pendekatan penghapusan kasus (Wright et al., 2018).
Pada penelitian ini digunakan metode penghapusan baris untuk mendiagnostik titik data berpengaruh (influential point). Pada awalnya terbatas hanya pada satu baris (single-row) dengan menguji pada bagaimana penghapusan satu baris mempengaruhi estimasi koefisien, nilai prediksi (fitted), residual, dan estimasi struktur kovarian pada koefisien. Keempat output dari proses estimasi ini tentu saja paling akrab bagi pengguna regresi berganda dan memberikan inti dasar alat diagnostik. Kemudian beralih ke teknik diagnostik yang lebih komprehensif yang melibatkan penghapusan atau gangguan lebih dari satu baris sekaligus (multiple-row). Komplikasi tambahan semacam itu terbukti perlu karena dalam menghilangkan hanya satu baris pada satu waktu pengaruh sekelompok pengamatan berpengaruh mungkin tidak cukup terungkap (Basley et.al, 2004). Terkadang satu titik outlier menyembunyikan outlier lainnya. Pengamatan terdeteksi sebagai outlier di hadapan pengamatan ekstrem dan dengan menghapus observasi ekstrem ini, observasi juga ditemukan outlier. Fenomena ini dianggap sebagai efek masking.
(Kannan dan Manoj, 2015).
3 1.2 Rumusan Masalah
Berdasarkan uraian diatas masih ditemukan kelemahan pada single-row deletion untuk mendeteksi outlier dan influential point yaitu masking (satu outlier terdeteksi namun outlier lain tertutupi). Pada penelitian ini akan dilakukan teknik diagnostik multiple-row untuk mendeteksi outlier dan influential point pada data.
1.3 Batasan Masalah
Parameter nilai koefisien, fitted, residual, dan matriks kovarian diterapkan pada model regresi linear untuk mendeteksi outlier dan influential point pada data dengan penghapusan beberapa baris observasi.
1.4 Tujuan Penelitian
Mendeteksi outlier dan influentiall point dengan penghapusan beberapa baris observasi berdasarkan parameter nilai koefisien, fitted, residual, dan matriks kovarian pada regresi linear.
1.5 Manfaat Penelitian
Menambah wawasan dan ilmu pengetahuan tentang pendeteksian outlier dan influential point pada data penelitian dengan cara menghilangkan beberapa observasi.
BAB 2
TINJAUAN PUSTAKA
2.1 Model Regresi
Analisis regresi adalah teknik statistik untuk menyelidiki dan memodelkan hubungan antar variabel (Montgromery et al.,2012). Analisis regresi adalah alat statistik yang memanfaatkan hubungan antara dua atau lebih variabel kuantitatif sehingga satu variabel dapat di prediksi dari yang lainnya (Netter et al., 1983).
Aplikasi regresi banyak dan terjadi di hampir setiap bidang, termasuk teknik, ilmu fisika dan kimia, ekonomi, manajemen, kehidupan dan ilmu biologi, dan ilmu sosial.
Faktanya, analisis regresi mungkin merupakan teknik statistik yang paling banyak digunakan (Montgromery et al.,2012).
Sebuah model regresi adalah sebuah aplikasi dari model linier dimana variabel respon (dependen) diidentifikasi dengan nilai numerik dari satu atau lebih variabel kuantitatif yang disebut faktor atau variabel independen (Freund et al., 2006). Pemodelan mengacu pada pengembangan ekspresi matematika yang menggambarkan beberapa hal dari variabel acak yang menarik. Variabel dependen dilambangkan dengan . Pemodelan ini bertujuan untuk menggambarkan bagaimana rata-rata variabel dependen berubah dengan perubahan kondisi. Varians dari variabel dependen diasumsikan tidak terpengaruh oleh kondisi yang berubah.
Variabel lain yang dianggap memberikan informasi tentang perilaku variabel dependen dimasukkan kedalam model sebagai variabel predictor atau penjelas.
Variabel ini disebut variabel independen dan dilambangkan dengan (Rawlings et al., 1998).
2.1.1 Model Regresi Linier Sederhana
Model regresi paling sederhana adalah model regresi linier sederhana, yang ditulis:
( )
dimana sebagai prediktor atau variabel regressor (independen) dan sebagai variabel respon (independen), intersept (titik potong) dan slope (kemiringan)
5 adalah konstanta yang tidak diketahui dan adalah error acak komponen. Error diasumsikan memiliki mean nol dan variansi tidak diketahui . Selain itu biasanya diasumsikan bahwa error tidak berkorelasi. Ini berarti bahwa nilai suatu error tidak tergantung pada nilai error lainnya.
Lebih mudah untuk melihat regressor dikendalikan oleh analisis data dan diukur dengan error yang tidak berkorelasi, sedangkan respon adalah variabel acak. Artinya ada distribusi probabilitas untuk pada setiap nilai yang mungkin untuk . Mean dari distribusi ini adalah
( | ) ( ) dan variansinya
( | ) ( ) ( ) Dengan demikian, rata-rata adalah fungsi linier walaupun varians tidak tergantung pada nilai . Lagi pula karena kesalahan tidak berkorelasi, responsnya juga tidak berkorelasi (Montgromery et al., 2012).
2.1.2 Model Regresi Linier Berganda
Model regresi yang melibatkan lebih dari satu variabel independen disebut model regresi linier berganda. Model ini di tentukan sebagai:
( ) disebut model regresi linier berganda dengan regressor. Parameter , , disebut koefisien regresi. Model ini menggambarkan hyperplane dalam ruang -dimensi dari variabel regressor . Parameter mewakili perubahan yang diharapkan dalam respon per unit perubahan dalam ketika semua variabel regressor yang tersisa ( ) konstan dipertahankan. Untuk alasan ini parameter
sering disebut koefisien regresi parsial.
Model regresi linier berganda sering digunakan sebagai model empiris atau fungsi perkiraan yaitu hubungan fungsional sejati antara dan tidak diketahui, tetapi pada rentang tertentu dari variabel regressor, model regresi linier adalah pendekatan yang memadai untuk fungsi sebenarnya yang tidak diketahui (Montgromery et al., 2012).
6 2.2 Estimasi Parameter Model Regresi Linier Berganda
Dalam bidang statistika biasanya dipakai suatu metode yang umum dalam pendugaan parameter regresi yaitu metode kuadrat terkecil. Metode kuadrat terkecil pertama kali diperkenalkan oleh Gauss-Markov pada tahun 1822. Gauss-Markov mengatakan bahwa metode kuadrat terkecil dapat digunakan untuk mengestimasi parameter regresi dengan cara meminimumkan jumlah kuadrat error. Setelah meminimumkan jumlah kuadrat error akan diperoleh nilai koefisien dari parameter regresi (Hines dan Montgomery, 1990). Pada penelitian ini akan di gunakan persamaan regresi linier berganda.
Persamaan model regresi linier berganda pada persamaan. ( ) di tulis sebagai:
∑
( )
Penjabaran dari persamaan di atas adalah
n nk
k n
n
k k
k k
x x
x y
x x
x y
x x
x y
22 2 1
1 0
2 2
12 2 21
1 0
2
1 1
12 2 11
1 0
1
Persamaan di atas dapat dituliskan dalam bentuk matriks. Sebelum menuliskan dalam bentuk matriks perlu didefinisikan matriks-matriks berikut:
yn
y y y
3 2 1
y
,
np n
n n
p p p
x x
x x
x x
x x
x x
x x
x x
x x
3 2 1
3 33
32 31
2 23
22 21
1 13
12 11
1 1 1 1
x
,
n
3 2 1
β
,
n
3 2 1
ε
Notasi matriks dari persamaan ( ) dapat dilihat pada persamaan berikut:
( ) dengan adalah variable respon yang berukuran , adalah vektor galat yang berukuran , adalah vektor parameter regresi yang akan diduga dan berukuran , adalah matriks skalar yang berukuran dan berpangkat penuh (Neter et al, 1990).
7 Montgomery et al. (1992) mengemukakan untuk menemukan vektor estimator kuadrat terkecil ̂ dengan meminimalkan ( ) dapat dinyatakan sebagai
( ) ∑ ( )( )
( )
karena adalah matriks atau scalar dan transposnya ( ) adalah skalar yang sama. Estimator kuadrat terkecil yang harus dipenuhi adalah
|
̂ ̂ ̂
̂ ̂ ( )
̂ ( ) ̂ ( )
̂ ( ) ( )
Matriks invers ( ) adalah ada. Matriks ( ) akan selalu ada jika regressor independen adalah linier yaitu jika tidak ada kolom dari matriks kombinasi linear dari kolom lainnya.
Model regresi yang sesuai dengan tingkat variabel regressor , - adalah
̂ ̂ ̂ ∑ ̂
( ) Vektor dari nilai-nilai ̂ yang sesuai dengan nilai-nilai yang teramati adalah
̂ ̂ ( ) ( ) Matriks pada ( ) biasanya disebut Hat Matrix. Memetakan vektor dari nilai-nilai yang diamati ke dalam vektor nilai yang ditentukan. Hat Matrix dan sifat-sifatnya memainkan peran sentral dalam analisis regresi.
8 Perbedaan antara nilai yang diamati dan nilai yang sesuai ̂ adalah residual ̂. Residual dapat dengan mudah ditulis dalam notasi matriks sebagai
̂ ( ) Ada beberapa cara lain untuk mengekspresikan vektor residual:
̂ ( ) ( ) Pada regresi linier sederhana dapat dikembangkan penduga dari jumlah kuadrat residual.
∑( ̂ ) ∑
( ) subtitusi ̂
( ̂)( ̂)
̂ ̂ ̂ ̂ ̂ ̂ ̂ Karena ̂ maka persamaannya adalah
̂ ( ) Jumlah kuadrat residual memiliki derajat kebebasan yang terkait dengannya karena parameter diestimasi dalam model regresi. Kuadrat rata-rata residual adalah
( ) nilai yang diharapkan dari adalah jadi estimator tidak bias diberikan
( ) Seperti regresi linier sederhana, estimator adalah model dependen.
Untuk memperoleh suatu model regresi yang baik maka model tersebut harus memenuhi asusmsi-asumsi yang berlaku, di antaranya asumsi normalitas, homokedastisitas, dan autokorelasi. Jika asumsi-asumsi yang ada dalam regresi telah terpenuhi maka ada satu hal lagi yang perlu diperhatikan yaitu adanya outlier dan Influential observations pada data sehingga sebelum menerapkan metode-metode statistika pada data maka sangat penting untuk dilakukan pendektesian outlier (Derquenne,1993).
9 2.3 Influential point dan Outlier
Seringkali dalam aplikasi analisis regresi kumpulan data berisi beberapa kasus yang terpencil atau ekstrem yaitu pengamatan untuk kasus-kasus ini dipisahkan dengan baik dari sisa data. Kasus-kasus terpencil ini mungkin melibatkan residual besar dan sering memiliki efek dramatis pada fungsi regresi kuadrat terkecil dipasang (Kutner et.al, 2005). Metode kuadrat terkecil biasa memberikan bobot yang sama untuk setiap pengamatan. Namun, setiap pengamatan tidak memiliki dampak yang sama pada hasil kuadrat terkecil.
Satu titik yang jauh dari titik data lain dapat memiliki pengaruh yang hampir sama besar pada hasil regresi sebagaimana semua titik lainnya digabungkan.
Pengamatan seperti itu disebut influential point (titik data berpengaruh) atau high leverage points. Pengaruh potensial dari titik data pada hasil kuadrat terkecil ditentukan oleh posisinya di ruang- relatif ke titik lain. Secara umum semakin
"jauh" titik tersebut dari pusat titik data dalam ruang-X, semakin besar potensinya untuk mempengaruhi hasil regresi.
Outlier mengacu pada pengamatan yang beberapa hal tidak konsisten dengan sisa pengamatan dalam kumpulan data. Pengamatan bisa berupa outlier karena variabel dependen atau salah satu atau lebih variabel independen yang memiliki nilai di luar batas yang diharapkan. Outlier dibatasi pada titik data yang variabel nilai tidak konsisten dengan sisa sampel. outlier dalam residual mengacu pada titik data residual yang diamati lebih besar dari yang mungkin diharapkan dari variasi acak saja. (Rawlings et al., 1998).
Influential Observation adalah pengamatan yang secara individual atau kolektif, sangat mempengaruhi persamaan regresi ketika dibandingkan dengan pengamatan lain dalam kumpulan data (Chatterjee dan Hadi, 1988). Influential Observation merujuk pada pengamatan yang merupakan outlier dalam satu atau lebih variabel independen. Konteks penggunaan memperjelas apakah outlier merujuk pada nilai variabel dependen atau residual (Rawlings et al., 1998).
Outlier merupakan suatu pengamatan yang keberadaannya dapat menggangu proses analisis data. Outlier menyebabkan asumsi kenormalan galat dalam analisis regresi tidak terpenuhi, sehingga perlu dilakukan pendeteksian keberadaan outlier ini menggunakan metode diagnostik. Masing-masing dari kasus outlier tersebut
10 memberikan pengaruh yang berbeda-beda terhadap pendugaan parameter dalam model regresi linier. Bisa jadi pencilan tersebut terdeteksi sebagai outlier, high leverage point maupun pengamatan berpengaruh. (Indra et al,. 2013).
Dalam analisis kuadrat terkecil pada data model regresi linier, pengamatan dapat dinilai berpengaruh jika fitur penting dari analisis diubah secara substansial ketika pengamatan dihapus (cook, 1979) karena baik pencilan (outlier) maupun kasus dengan leverage tinggi tentu berpengaruh, prosedur berbeda diperlukan untuk mendeteksi kasus yang berpengaruh. Dasar pemikiran di balik pengukuran kasus yang berpengaruh didasarkan pada prinsip bahwa ketika satu kasus secara iteratif dihilangkan dari data, model yang didasarkan pada data ini tidak boleh menghasilkan estimasi yang jauh berbeda. Jika parameter model berubah secara substansial setelah satu kasus dikeluarkan, kasus ini dapat dianggap terlalu berpengaruh (Nieuwenhuis et al., 2012).
Metode penghapusan baris untuk mendiagnostik influential point pada awalnya terbatas hanya pada satu baris (single-row) dengan menguji bagaimana penghapusan satu baris memengaruhi estimasi koefisien, nilai prediksi (fitted), residual, dan estimasi struktur kovarian pada koefisien. Keempat output dari proses estimasi ini tentu saja paling akrab bagi pengguna regresi berganda dan memberikan inti dasar alat diagnostik. Beralih ke teknik diagnostik yang lebih komprehensif yang melibatkan penghapusan atau gangguan lebih dari satu baris sekaligus (multiple- row). Komplikasi tambahan semacam itu terbukti perlu karena menghilangkan hanya satu baris pada satu waktu, pengaruh sekelompok pengamatan berpengaruh mungkin tidak cukup terungkap (Belsley et.al, 2004). Terkadang satu titik outlier menyembunyikan outlier lainnya. Pengamatan terdeteksi sebagai outlier di hadapan pengamatan ekstrem dan menghapus observasi ekstrem ini, observasi juga ditemukan outlier. Fenomena ini dianggap sebagai efek masking. (Kannan dan Manoj, 2015).
2.4 Single-Row
Setiap pengamatan tentu saja terkait erat dengan satu baris pada data matriks dan elemen yang sesuai dari . Sebuah influential observations adalah pengamatan yang secara individu atau bersama dengan beberapa pengamatan lain memiliki dampak yang jauh lebih besar pada nilai yang dihitung dari berbagai estimasi
11 (koefisien, standart error, t-value, dll.) pada kasus sebagian besar pengamatan lainnya. Satu cara yang jelas untuk memeriksa dampak seperti itu adalah menghapus setiap baris satu per satu dan mencatat efek yang dihasilkan pada nilai yang dihitung.
Baris yang penghapusannya menghasilkan perubahan relatif besar dalam nilai yang dihitung dianggap berpengaruh.
Pemeriksaan prosedur penghapusan baris ini mencari dampak dari masing- masing baris pada estimasi koefisien dan prediksi (fitted) nilai ( ̂ ), residual, dan estimasi parameter variansi kovarians matriks (Belsley et.al, 2004). Untuk menegaskan pengaruh observasi ke- adalah menjalankan regresi baik dengan maupun tanpa pengamatan itu (Rousseeuw dan Leroy, 1987).
2.4.1 Estimasi Koefisien dan Nilai Fitted
Cook’s (1997) mengungkapkan tentang diagnostik penghapusan yaitu mengukur pengaruh pengamatan ke- jika dihapus dari sampel. Belsley et al. (1980) memperkenalkan ukuran lain yang berguna dari pengaruh penghapusan yaitu statistik yang menunjukkan berapa banyak koefisien regresi ̂ berubah dalam satuan standar deviasi jika pengamatan ke- dihapus. Statistik ini adalah
̂ ̂( ) ( )√( )
√∑ ( )( ) ( )
dimana ̂( ) adalah koefisien regresi yang dihitung tanpa menggunakan observasi ke- dan adalah elemen diagonal dari matriks proyeksi kuadrat terkecil juga disebut hat-matrix yaitu
( ) ( ) Belsley et al. (2004) mengungkapkan bahwa ̂ komponen ke- dari ̂ yang dihasilkan dari penghapusan baris ke- besar atau kecil penggunaannya sering kali dinilai relatif terhadap varian ̂ yaitu ( ) Diberikan,
( ) ( ) maka
̂ ̂ ( )
( )
12 karena
∑( ) ( ) ( )
( )
ini mengikuti Mosteller dan Tukey (1977)
( ) ∑
( ) estimasi digantikan oleh
( ) ∑[ ̂( )]
( )
untuk penyebut secara stokastik independen dari pembilang dalam kasus Gaussian (normal). Rumus sederhana untuk ( ) hasil dari
( ) ( ) ( )
( ) √( ) ( )
( ) Belsley et al. (1980) menyarankan cutoff √ untuk , yaitu jika
| | √ maka observasi itu memerlukan pemeriksaan.
Cara lain untuk meringkas perubahan koefisien dan pada saat yang sama untuk mendapatkan wawasan tentang efek perkiraan ketika pengamatan dihapus adalah dengan perubahan nilai fitted, didefinisikan sebagai
̂ ̂( ) , ̂ ̂( )-
( ) ukuran diagnostik ini memiliki keuntungan yang tidak tergantung pada sistem koordinat tertentu yang digunakan untuk membentuk model regresi. Untuk tujuan penskalaan adalah wajar untuk membagi √ , standar deviasi dari fit ̂ ̂, diberikan,
[
]
( )√ ( ) ( )
13 dimana Anda telah diestimasi oleh ( ). Pengamatan apa pun jika | | √ memerlukan perhatian (Belsley et.al, 2004).
2.4.2 Hat-Matrix
Pada diskusi sebelumnya tentang diagnostik penghapusan dapat dilihat dari ( ) hingga ( ) bahwa dan adalah komponen mendasar. adalah elemen diagonal dari matriks proyeksi kuadrat-terkecil disebut hat-matrix ( ). Poin atau titik yang berpotensi berpengaruh dengan high leverage (Rawlings, 1998) adalah titik data yang ada di pinggiran kumpulan titik sampel di ruang . Elemen diagonal ke-i dari hat-matrix dapat dikaitkan dengan jarak titik data ke-i dari pusat massa ruang . Ukuran jarak ini memperhitungkan bentuk keseluruhan kumpulan titik sampel.
(Belsley et al. 1980) menyarankan menggunakan untuk mengidentifikasi berpotensial influential point atau poin leverage.
2.4.3 Residual
Penggunaan residual regresi dalam konteks diagnostik tentu saja bukan hal baru. Melihat residual regresi ̂ dan ukuran residual besar, secara tradisional telah digunakan untuk menyoroti poin data yang diduga terlalu memengaruhi hasil regresi (outlier). Residual juga telah digunakan untuk mendeteksi keberadaan dari asumsi Gauss-Markov dimana sifat yang diinginkan dari kuadrat terkecil. Seperti yang telah diketahui residual dapat digunakan untuk mendeteksi beberapa bentuk heteroskedastisitas dan autokorelasi untuk mengurangi masalah ini.
Residual juga dapat digunakan untuk menguji perkiraan istilah gangguan normalitas karena estimasi kuadrat terkecil mempertahankan BLUE (beast linier unbiased estimator) bahkan tanpa adanya normalitas gangguan.
Banyak penulis menyarankan agar tidak mempelajari tetapi menggunakan standartized residuals
√ ( ) estimasi dengan ( ) pada ( ) hasilnya adalah studentized residual (RSTUDENT)
14 ( )√ ( ) dimana dalam sejumlah situasi didistribusikan secara dekat ke -distribusi dengan derajat kebebasan. Dengan demikian jika asumsi Gaussian berlaku kita dapat dengan mudah menilai signifikansi dari setiap studentized residual tunggal.
Tentu saja, tidak independen.
Studentized residual memiliki interpretasi menarik lainnya. Jika menambahkan data variabel dummy yang terdiri dari kolom dengan semua nol kecuali satu di baris ke- (model baru) maka adalah -statistik yang menguji signifikansi koefisien variabel baru ini. Untuk membuktikan biarkan SSR berdiri untuk jumlah residual kuadrat dan perhatikan
, ( ) ( )-
( ) ( ) ( ) ( ) ( ) ( )
( ) ( )( ) ( ) Berdasarkan asumsi Gaussian, ( ) didistribusikan sebagai dan hasilnya mengambil akar kuadrat dari ( ). Suatu pengamatan dicurigai sebagai outlier apabila pengamatan tersebut memiliki nilai | | ( ) pada taraf nyata (Belsley et.al, 2004).
2.4.4 Matrks Kovarians
Dampak pengamatan ke- pada estimasi variansi kovarians matriks terhadap koefisien regresi diukur dengan rasio determinan dari dua variansi matriks kovarians.
Belsley et al, (1980) merumuskan ini sebagai:
* ( ), ( ) ( )- + , ( ) - *(
) ( )+
( )
Determinan variansi matriks kovarians adalah ukuran umum variansi, dengan demikian mencerminkan dampak pengamatan ke- pada ketepatan estimasi koefisien regresi.
15 Nilai dekat dengan menunjukkan observasi ke- memiliki sedikit dampak pada ketepatan estimasi. yang lebih besar dari menunjukkan bahwa kehadiran pengamatan ke- meningkatkan ketepatan estimasi, rasio kurang dari menunjukkan bahwa kehadiran pengamatan merusak ketepatan estimasi. Pengamatan dengan nilai-nilai di luar batas ( ) dianggap tidak berpengaruh dalam arti memiliki efek yang tak terkendali dalam meningkatkan atau menurunkan ketepatan estimasi.
2.5 Multiple Row
Pada pembahasan sebelumnya disajikan berbagai teknik diagnostik untuk mengidentifikasi influential observations berdasarkan penghapusan atau perubahan pada satu baris (single-row). Meskipun teknik-teknik seperti itu dapat mengidentifikasi influential observations secara memuaskan, sebagian besar tidak selalu berhasil. Diagnostik kasus tunggal menurut Rousseeuw dan Leroy, 1987 meskipun sederhana dari sudut pandang komputasi sering gagal mengungkapkan dampak kasus kelompok kecil karena pengaruh satu titik dapat ditutupi oleh yang lain oleh karena itu, perlu untuk mengembangkan teknik yang menguji efek yang berpotensi berpengaruh dari himpunan bagian atau kelompok pengamatan. Beralih ke beberapa teknik multi-row yang cenderung menghindari efek masking dan yang memiliki peluang lebih baik untuk mengisolasi subset yang berpengaruh dalam data.
Penghapusan beberapa kasus dari statistik uji juga dipertimbangkan ketika pengamatan baru disesuaikan dengan model regresi yang diberikan. Hasilnya berguna untuk mendeteksi pengamatan yang berpengaruh dalam analisis data ekonometrik, misalnya dalam memeriksa apakah pola konsumsi di kemudian hari sama dengan yang ditemukan sebelumnya atau tidak, serta untuk menyelidiki pengaruh kasus dalam model regresi (Kim, 2016). Subset data dinyatakan dengan (ukuran ), subset terbesar dari pengamatan berpotensi berpengaruh yang akan pertimbangkan. Komplemen adalah subset dasar dari observasi yang didefinisikan sebagai tipikal. Prosedur multi-point pertama (lebih dari satu pada satu waktu) yang dikaji melibatkan penghapusan subset data dengan penekanan khusus pada perubahan yang dihasilkan pada koefisien dan nilai fitted (Belsley et al., 2004).
16 2.5.1 Estimasi koefisien dan Nilai Fitted
Dasar multiple–row digenelarisasi pada ( ) dapat menguji nilai yang lebih besar dengan
| ̂ ̂ ( )|
̂ ̂ ( ) ( )√( )
( )
untuk dan dan seterusnya dan dimana “scale” menunjukkan beberapa ukuran yang sesuai pada standard error. Disini adalah himpunan (ukurn ) pada indeks baris yang akan di hapus. Jika nilai fitted menarik, maka ukuran yang sesuai menjadi,
| , ( )-|
( ) untuk . Meskipun rumus komputasi ada untuk beberapa jumlah ini (Bingham, 1997) biayanya besar dan merasa sebagian besar manfaat dapat diperoleh dengan lebih sederhana.
Untuk menghindari pertimbangan jumlah pada ( ) atau jumlah pada ( ), kuadrat normal seperti
, ( )- * ( ) ( ) atau
, ( )- , ( ) ( ) dapat dianggap sebagai ukuran yang ringkas. Perubahan yang terjadi pada titik data yang tersisa setelah penghapusan lebih menarik. ( ) dapat dimodifikasi menjadi
, ( )- ( ) ( ), ( )- ( ) Bingham (1977) menunjukkan ( ) dapat juga di ekspresikan menjadi
, ( ) ( )- ( ) dimana adalah vektor kolom pada residual kuadrat terkecil dan dimana digunakan sebagai subskrip menunjukkan matriks atau vektor dengan baris yang indeksnya terkandung dalam , karena ( ) dapat dihitung dengan biaya yang lebih rendah dari pada ( ). Sayangnya ( ) adalah perhitungan yang mahal ketika melebihi observasi. Namun beberapa ketidaksetaraan tersedia untuk yang dapat meringankan masalah perhitungan ini.
Untuk kumpulan data yang lebih besar, tersedia pendekatan bertahap yang dapat memberikan informasi bermanfaat dengan biaya rendah. metode ini dimulai
17 dengan menggunakan dua besaran | |(or| |)untuk membentuk
( ). Jika dua nilai besaran dari
| 0 . ( )/1| ( ) Tidak memiliki indeks yang terkandung didalamnya ( ), himpunan ( ) terbentuk yang terdiri dari indeks dua besaran. Prosedur ini diulang sampai himpunan ( ) ditemukan dengan indeks tepat dengan dengan nilai dua besaran ( ) statistik yang dihasilkan disebut (Basley et.al, 2004).
2.5.2 Matriks Kovarians
Kesimpulan studi tentang penghapusan beberapa baris dengan menggeneralisasi rasio kovarians ke penghapusan himpunan yaitu
( ) ( ), ( ) ( )-
( ) ( ) perhitungan rasio ini difasilitasi oleh fakta bahwa
, ( ) ( )-
( ) ( ) ( ) dimana ( ) singkatan dari submatriks yang dibentuk dengan hanya mempertimbangkan baris dan kolom yang terkandung dalam (Basley et.al, 2004).
BAB 3
CONTOH KOMPUTASI
Pada bab ini akan disampaikan studi contoh komputasi, metode pengumpulan data, dan langkah-langkah pengolahan data mengenai “Metode Penghapusan Untuk Pendeteksian Outlier dan Influential point Pada Regresi Linier”. Data yang digunakan diperoleh dari Timm (1975) dengan variabel-variabelnya:
Tes kemampuan berbahasa inggris Kemampuan dasar kosa kata Kemampuan membaca Kemampuan praktik Kemampuan grammar
3.1 Studi Literatur
Langkah pertama yang digunakan dalam penelitian ini berupa studi literatur dengan mencari referensi teori dari buku, jurnal, artikel dan penelitian terdahulu yang relevan dengan kasus atau permasalahan pemodelan regresi, influential point, outlier, dan parameter hipotesis dalam statistika. Beberapa literatur yang dikumpulkan dapat digunakan sebagai pedoman dalam penyelesaian penelitian ini.
3.2 Metode Pengumpulan Data
Data pada penelitian ini menggunakan data sekunder yang diperoleh dari Timm (1975) yaitu data 32 siswa dari sekolah bangsa kulit putih kelas atas (upper- class) yang di pilih secara acak. Data ini merupakan data tes kemampuan berbahasa inggris dengan data sebagai berikut:
Tabel 3.1 Data Regresi Linear Berganda
No
1 68 0 10 21 22
2 82 7 3 28 21
3 82 7 9 31 30
4 91 6 11 27 25
Tabel 3.1 Lanjutan
No
5 82 20 7 28 16
6 100 4 11 32 29
7 100 6 7 26 23
8 96 5 2 22 23
9 63 3 5 24 20
10 91 16 12 27 30
11 87 5 3 25 24
12 105 2 11 26 22
13 87 1 4 25 19
14 76 11 5 27 22
15 66 0 0 16 11
16 74 5 8 12 15
17 68 1 6 28 23
18 98 1 9 30 18
19 63 0 13 19 16
20 94 4 6 27 19
21 82 4 5 21 24
22 89 1 6 23 28
23 80 5 8 25 24
24 61 4 5 16 22
25 102 5 7 26 15
26 71 0 4 16 14
27 102 4 17 27 31
28 96 5 8 28 26
29 55 4 7 20 13
30 96 4 7 23 19
31 74 2 6 25 17
32 78 5 10 27 26
Sumber: Timm,1975
3.3 Langkah-langkah Pengolahan Data
Langkah kerja yang dilakukan adalah sebagai berikut:
1. Menentukan model regresi linier dari data.
2. Mengestimasi koefisien penduga parameter menggunakan metode kuadrat terkecil.
3. Mendeteksi keberadaan outlier dan influential point menggunakan metode diagnostik penghapusan baris observasi dengan menguji nilai koefisien, nilai fitted, hat matrix, residual dan matriks kovarians.